ASDchap3 PDF

CHAP III : ANALYSES STATISTIQUES BIDIMENSIONNELLES
ET MULTIDIMENSIONNELLES
Les Analyses bi et multidimensionnelles sont des techniques qui mettent en

relation deux ou plusieurs variables. Elles se répartissent généralement en deux
catégories principales :
- une première catégorie tente d’établir entre les variables une relation de
dépendance, c’est-à-dire de mesurer la relation qui lie ces variables dans un but
explicatif : il s’agit notamment des analyses de régression ;
- une deuxième catégorie cherche à décrire uniquement des relations

d’interdépendance et à résumer l’information contenue dans une masse de
données : il s’agit principalement des études de corrélations et des analyses
factorielles.
I ) ANALYSE DE DEUX VARIABLES NOMINALES
Traite de deux variables qualitatives nominales dont l’objectif est d’étudier la

liaison ou l’association statistique qui peut exister entre ces deux variables.
Exemple :
Répartition d’un échantillon d’établissements en fonction du type de l’organisation

et la marque du matériel utilisé :
Etab / Marque A B C Total
Public 40 30 10 80
Privé 20 34 26 80
Total 60 64 36 160
Tableau de contingence
1
1 ) Analyse descriptive
- Description graphique : la plus adaptée est opérée au moyen du diagramme en

tuyaux d’orgue.
- Description numérique : se limite à la détermination de la valeur modale (par

exagération).
2 ) Analyse explicative
Consiste à faire des tests d’indépendance et de comparaison opérés à l’aide de la loi

Chi-deux et de la loi normale.
2.1- Test d’indépendance du χ2
- Hypothèses :
Ho : Indépendance ou pas de liaison entre les deux variables ; c’est

l’hypothèse nulle.
H1 : Dépendance significative entre les variables ; c’est l’hypothèse

alternative.
- Détermination de la statistique d :
dc = ∑ (niob – nith)2
nith
Public 30 32 18 80
Privé 30 32 18 80
Total 60 64 36 160
2
A B C
3,33 0,125 3,55

3,33 0,125 3,55
dc = 14,01
Cette statistique suit sous Ho une loi χ2 à k degrés de liberté avec :
k = (nombre de modalités – 1) 1è variable x (nombre de modalités – 1) 2è variable
La valeur critique dT est déterminée à partir de la table du χ2 au niveau de confiance

requis (généralement 95 ou 99%).
- Règle de décision du Test du χ2 :
Si dc < dT alors on accepte Ho et on convient donc de l’absence de

différence significative entre les distributions.
Pour l’exemple traité :
dc = 14,1
Et P (χ22 < dT) = 0,95 ; à partir de la table dT = 5,99.
Donc dc > dT On rejette Ho ; l’utilisation des marques dépend du type

d’établissement.
2.2- Test de comparaison de deux proportions
En s’intéressant à l’utilisation d’une marque disons A, on s’interrogera si la

différence de proportion observée est significativement due à une différence de
comportement selon le type d’établissement.
3
Pour l’exemple précédent :
Public 0,5 0,375 0,125 1

Privé 0,25 0,425 0,325 1
On est conduit à construire un intervalle [a ; b] autour de la différence de

proportions et voir si la différence observée est contenue dans cet intervalle auquel
cas on retiendra l’hypothèse H0 de l’absence d’une différence de comportement.
Considérons les tests unidirectionnels (ou unilatéraux) :
On doit résoudre P (T < t) = niveau de confiance (95% ou 99%).
Test à gauche :
H0 : p1 = p2 soit p1 – p2 = 0
H1 : p1 < p2
a = 0 – t . σf
Test à droite :
H0 : p1 = p2
H1 : p1 > p2
b = 0 + t . σf
Avec :
σf = p (1 – p) n1 + n2
n1 . n2
p = n1 . p1 + n2 . p2
n1 + n2
p1 est la proportion observée dans le premier groupe

p2 est la proportion observée dans le deuxième groupe.
4
II ) ANALYSE DE LA VARIANCE : ETUDE DE LA LIAISON ENTRE DES
VARIABLES QUANTITATIVES ET QUALITATIVES
L’objet de l’analyse de la variance est de mesurer les différences de moyennes entre

des caractères dépendants Yi quantitatifs et des caractères indépendants Xi
qualitatifs ou artificiels prenant des valeurs 0 ou 1. Ainsi, on cherche à analyser
l’effet d’un ou plusieurs facteurs qualitatifs sur des variables quantitatives.
1 ) Analyse de la variance selon un seul facteur
L’ANOVA à un facteur permet d’examiner l’effet d’un facteur qualitatif X de

modalités x1, x2 … xp, sur une variable Y :
Y = f (X)
Les données sont présentées dans le tableau de contingence suivant :
X
x1 x2 xj xp
y11 y12 y1j y1p
y21 y22 y2j y2p
Y .. ..
.. ..
yT1 yT2 yTj yTp
Tableau de contingence mettant en relation les variables Y et X
La distribution comporte p modalités ; chaque modalité est observée T fois, soit un

nombre total d’observations :
n = T . p
Exemple : Distribution de la dépense en Dhs selon que l’on soit homme ou femme
Homme femme
1000 900
1100 1200
1200 1300
1150 1400
5
Il faut remarquer que l’AV à un facteur s’apparente largement aux études de
dépendance rencontrées dans l’ACRM.
Pratiquement, les résultats sont regroupés dans un tableau d’analyse de la variance

à un facteur :
ddl Variance Fcalculé

SCT n-1 VT
SCE p–1 VE VE/VR
SCR n–p VR
Les hypothèses sont :
Ho : X n’est pas explicative de Y

H1 : X explique Y
Règle de décision :
On calcule Fc = VE
VR
Puis on détermine Ft / P (Fp-1 ; n-p < Ft) = α
Si Fc < Ft On accepte Ho, c’est-à-dire l’effet du facteur X est

Négligeable.
Avec :
VT = SCT / n - 1
VE = SCE / p – 1
VR = SCR / n – p
Rappelons que :
SCT = SCE + SCR
Où : SCT = ∑ (yij – )2 et  = ∑ yij

n
SCE = T ∑ (yj – )2 et j = ∑ yij
T
6
SCR = ∑ (yij – j)2
La SCE est en fait la moyenne interclasses et la SCR la moyenne intra-classes.
Notons que lorsqu’on a établi que des différences existent parmi les moyennes
c’est-à-dire que X est explicatif de Y, des tests post hoc de comparaisons
déterminent les moyennes qui différent. L’un des tests couramment utilisé est celui
de Duncan qui compare les moyennes deux à deux pour un seuil fixé.
2 ) Analyse de la variance selon deux facteurs
L’ANOVA à deux facteurs consiste à tester les fluctuations d’une variable

quantitative due aux fluctuations deux variables qualitatives :
Y = f (X1, X2)
Considérons deux facteurs avec k et p modalités respectivement. Si une seule

mesure sans répétition est effectuée sur la variable Y, on obtient le tableau suivant :
XIIj
I II XII1 XII2 XIIj XIIp
X1I y11 y12 y1j y1p
X2I y21 y22 y2j y2p
XiI .. ..
XiI yij
.. ..
XKI yK1 yK2 yKj yKp
Exemple : Distribution de la dépense en Dhs selon que l’on soit homme ou femme
et selon la catégorie socioprofessionnelle :
Fonctionnaire Cadre Employé Ouvrier

Homme 1000 1100 800 400
Femme 1400 1200 700 500
Le tableau d’analyse de la variance à deux facteurs sans répétition des observations

est le suivant :
7
ddl Variance Fcalculé
SCT n-1 VT
SCE X1 k–1 VE X1 VEX1/VR
SCE X2 p-1 VE X2 VEX2/VR
SCR (k – 1)(p – 1) VR
Selon le même principe, on peut procéder à une AV à deux facteurs avec

répétitions des mesures ; dans ce cas il y a lieu d’interpréter les variances
d’interaction.
Il est également possible d’opérer une analyse de la variance selon plusieurs

facteurs. Dans ce cas on cherche à tester les variations d’une variable quantitative
sous l’effet de plusieurs facteurs qualitatifs :
Y = f (X1, X2 … Xm)
Par ailleurs, l’analyse de la variance peut être étendue pour mesurer l’effet de
variables qualitatives explicatives sur plusieurs variables quantitatives à travers les
analyses multivariées MANOVA et MANCOVA.
III ) ANALYSE TYPOLOGIQUE (OU CLUSTER ANALYSIS)
L’analyse typologique (ou classification ou segmentation ou catégorisation ou

taxinomie) a pour objet de classer des individus en segments homogènes par
regroupement des observations ayant des caractéristiques communes soit des
mesures très proches. Notons qu’il n’y a pas de classification unique. Celle-ci
dépend des objets à classer, de la méthode utilisée et des critères de classification
retenus.
Le terme classification sert à désigner soit une partition soit une hiérarchie. On
obtient une partition si l’on partage un ensemble E en un système de classes non
vides, de telle sorte que tout individu appartienne à une classe et une seule. Si
l’ensemble E est divisé en un nombre fini de classes, dont chacune est divisée en un
nombre fini de classes, etc., on parle alors d’une hiérarchie de classes emboîtées.
1 ) Mesure des distances
La mesure de distances représente la proximité ou l’éloignement entre les

observations.
8
Le concept de distance peut être facilement appréhendé à travers une
représentation graphique ; considérons deux variables X et Y :
yi
x x x
x G x Gx
x
x
x G x
x
xi
Ce graphique met en évidence trois nuages de points regroupés autour d’un centre
de gravité soient trois classes d’individus homogènes.
La principale mesure utilisée est la distance euclidienne fondée sur le théorème de

Pythagore :
d = √ (x2-x1)2 + (y2-y1)2
Le carré de cette mesure s’adapte bien aux données métriques :
Cette mesure facilite le calcul et peut être appliquée dans la méthode d’agrégation
de Ward développée ci-dessous. Mais d’autres mesures de distances existent et
peuvent s’avérer plus ou moins appropriées :
- Le coefficient de corrélation linéaire simple de Person : c’est une mesure

d’association qui permet de juger si les variables varient ou non dans le même sens.
- La distance de Tchebycheff : correspond à la différence maximale absolue entre

les valeurs relatives aux éléments de la classification.
- La distance de Minkowski : c’est la racine nième des sommes des différences

absolues entre les valeurs relatives aux éléments à la puissance n.
Si les données sont binaires, on privilégiera :
9
- L’indice de Sokal et Michener : correspond au rapport entre les appariements et
le nombre total des valeurs.
- L’indice de Rogers et Tanimoto : attribut un poids deux fois plus important aux
non-appariements.
2 ) Méthodes de classification
Il existe deux types de méthodes de classification : les méthodes hiérarchiques et les

méthodes non hiérarchiques.
2.1- Classification hiérarchique ascendante indicée
La réalisation d’une hiérarchie de classes peut se faire de deux façons : pour la

première, à partir de la base en formant des paires d’objets qui se ressemblent le
plus possible ; puis on adjoint à une paire un troisième objet ou une autre paire ;
ainsi, se construisent progressivement des classes de plus en plus grandes mais de
moins en moins homogènes. Ce mode de construction s’appelle la classification
hiérarchique ascendante.
Pour la seconde, on part du tout qu’on scinde en deux classes ; à nouveau on scinde
chacune de celles-ci en deux et ainsi de suite jusqu’aux éléments composant cet
ensemble. Ce procédé est appelé classification hiérarchique descendante.
2.1.1- Construction d’une classification hiérarchique ascendante
On construit la classification hiérarchique ascendante (CAHI), à partir d’un

ensemble, selon un processus répétitif :
- A l’étape initiale, chaque observation représente une classe. On calcule ensuite les
distances entre les individus pris deux à deux en choisissant un critère qui permet
d’agréger les différents éléments pour former des classes.
- Le processus se poursuit en cherchant les deux éléments les plus proches que l’on
agrège en un seul élément appelé nœud. Celui-ci est défini par ses deux successeurs
: l’aîné et le benjamin, son poids (nombre d’éléments) et son indice de niveau (ici le
nombre) qui n’est autre que la distance entre les éléments.
10
- Selon le même critère d’agrégation, on calcule les distances entre le nouvel
élément et les éléments restants. Ainsi, le processus se répètent (n-1) fois c’est-à-
dire jusqu’à ce qu’il n’y ait plus qu’une seule classe.
2.1.2- Critères d’agrégation
La construction de la CAHI dépend de la formule choisie pour le critère

d’agrégation. Cinq critères classiques sont généralement retenus, en insistant le
critère de l’inertie qui est le plus largement répandu :
- Le critère du saut minimum : consiste donc à choisir la plus petite des distances
mesurée qui permet de passer d’une classe à une autre.
- Le critère du diamètre : on prend pour distance entre les classes, la plus grande de
toutes les distances.
- Le critère de la distance moyenne : c’est la moyenne des distances entre toutes les
paires d’individus en prenant en compte, pour chaque paire, un point de chaque
groupe. Ce critère apparaît comme un compromis des deux critères précédents.
- La méthode des barycentres : c’est une méthode dont l’objet est de minimiser la
variance à l’intérieur des classes générées.
- La méthode de Ward : ou critère de la variance ou encore de l’inertie : elle est

également fondée sur la variance. Elle consiste à calculer les centres de classes
(points moyens) ; la distance de Ward entre deux classes correspond alors au carré
de la distance euclidienne entre les deux classes pondérées du rapport n1xn2 / (n1 +
n2) où n1 et n2 sont les effectifs des classes 1 et 2 respectivement. La qualité de
l’association est mesurée par le ratio :
Q = Variance interclasses
Variance totale
Lorsque la typologie contient n classes (n étant le nombre d’observations) la qualité

est de 100%. Si elle ne contient plus qu’une classe, la qualité est nulle.
Il s’agit de repérer une typologie de k classes au-delà de laquelle la qualité chute

brusquement. Cela offre l’indication qu’il ne faut pas retenir une solution de moins
de k groupes.
11
Une classification est généralement accompagnée d’une représentation graphique
appelée dendogramme qui fait la synthèse du processus d’agrégation. Dans une
classification hiérarchique ascendante le dendogramme est lu de gauche à droite.
2.2- Classification non hiérarchique
Les méthodes de classification non hiérarchique ont pour objet de constituer k

groupes à partir de n observations initiales ; le nombre k étant spécifié en début du
processus. Ces méthodes sont largement répandues car permettent de traiter des
volumes importants de données tout en optimisant les critères de classification.
La particularité de ces méthodes est que le nombre de groupes est choisi à priori. La
pratique est d’opter pour un nombre restreint de classes afin de rendre facile
l’interprétation. Il est même recommandé de faire plusieurs essais avec un nombre
de classes différent et d’identifier la meilleure solution possible.
On distingue deux principales méthodes de classification hon hiérarchique :
- La méthode des centres mobiles : consiste à mettre en relief k centres de classes

choisis au début de l’analyse et chaque individu est affecté au centre de classe dont
il est le plus proche. Les points moyens sont recalculés, puis une réaffectation des
individus est opérée jusqu’à ce que les centres de classes soient stabilisés.
- La méthode des nuées dynamiques : c’est une généralisation de la méthode

précédente. Elle est particulièrement adaptée lorsque le nombre d’observations est
grand (supérieur à 100).
Il faut souligner que dans ces méthodes de classification non hiérarchique, les
variables doivent être quantitatives et la mesure de distance appliquée est la
distance euclidienne simple. Autrement, il est préférable d’utiliser les méthodes de
classification hiérarchique.
12

ASDchap3 PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

ASDchap3 PDF

Transféré par

Droits d'auteur :

Formats disponibles

CHAP III : ANALYSES STATISTIQUES BIDIMENSIONNELLES

Les Analyses bi et multidimensionnelles sont des techniques qui mettent en

- une deuxième catégorie cherche à décrire uniquement des relations

I ) ANALYSE DE DEUX VARIABLES NOMINALES

Traite de deux variables qualitatives nominales dont l’objectif est d’étudier la

Répartition d’un échantillon d’établissements en fonction du type de l’organisation

Etab / Marque A B C Total

- Description graphique : la plus adaptée est opérée au moyen du diagramme en

- Description numérique : se limite à la détermination de la valeur modale (par

Consiste à faire des tests d’indépendance et de comparaison opérés à l’aide de la loi

2.1- Test d’indépendance du χ2

Ho : Indépendance ou pas de liaison entre les deux variables ; c’est

H1 : Dépendance significative entre les variables ; c’est l’hypothèse

Etab / Marque A B C Total

3,33 0,125 3,55

Cette statistique suit sous Ho une loi χ2 à k degrés de liberté avec :

k = (nombre de modalités – 1) 1è variable x (nombre de modalités – 1) 2è variable

La valeur critique dT est déterminée à partir de la table du χ2 au niveau de confiance

- Règle de décision du Test du χ2 :

Si dc < dT alors on accepte Ho et on convient donc de l’absence de

Pour l’exemple traité :

Et P (χ22 < dT) = 0,95 ; à partir de la table dT = 5,99.

Donc dc > dT On rejette Ho ; l’utilisation des marques dépend du type

2.2- Test de comparaison de deux proportions

En s’intéressant à l’utilisation d’une marque disons A, on s’interrogera si la

Etab / Marque A B C Total

Public 0,5 0,375 0,125 1

On est conduit à construire un intervalle [a ; b] autour de la différence de

Considérons les tests unidirectionnels (ou unilatéraux) :

On doit résoudre P (T < t) = niveau de confiance (95% ou 99%).

p1 est la proportion observée dans le premier groupe

L’objet de l’analyse de la variance est de mesurer les différences de moyennes entre

1 ) Analyse de la variance selon un seul facteur

L’ANOVA à un facteur permet d’examiner l’effet d’un facteur qualitatif X de

Les données sont présentées dans le tableau de contingence suivant :

Tableau de contingence mettant en relation les variables Y et X

La distribution comporte p modalités ; chaque modalité est observée T fois, soit un

Pratiquement, les résultats sont regroupés dans un tableau d’analyse de la variance

ddl Variance Fcalculé

Les hypothèses sont :

Ho : X n’est pas explicative de Y

Puis on détermine Ft / P (Fp-1 ; n-p < Ft) = α

Si Fc < Ft On accepte Ho, c’est-à-dire l’effet du facteur X est

SCT = SCE + SCR

Où : SCT = ∑ (yij – )2 et  = ∑ yij

La SCE est en fait la moyenne interclasses et la SCR la moyenne intra-classes.

2 ) Analyse de la variance selon deux facteurs

L’ANOVA à deux facteurs consiste à tester les fluctuations d’une variable

Considérons deux facteurs avec k et p modalités respectivement. Si une seule

Fonctionnaire Cadre Employé Ouvrier

Le tableau d’analyse de la variance à deux facteurs sans répétition des observations

Selon le même principe, on peut procéder à une AV à deux facteurs avec

Il est également possible d’opérer une analyse de la variance selon plusieurs

III ) ANALYSE TYPOLOGIQUE (OU CLUSTER ANALYSIS)

L’analyse typologique (ou classification ou segmentation ou catégorisation ou

1 ) Mesure des distances

La mesure de distances représente la proximité ou l’éloignement entre les

La principale mesure utilisée est la distance euclidienne fondée sur le théorème de

Le carré de cette mesure s’adapte bien aux données métriques :

- Le coefficient de corrélation linéaire simple de Person : c’est une mesure

- La distance de Tchebycheff : correspond à la différence maximale absolue entre

- La distance de Minkowski : c’est la racine nième des sommes des différences

Si les données sont binaires, on privilégiera :