Académique Documents
Professionnel Documents
Culture Documents
ET MULTIDIMENSIONNELLES
- une première catégorie tente d’établir entre les variables une relation de
dépendance, c’est-à-dire de mesurer la relation qui lie ces variables dans un but
explicatif : il s’agit notamment des analyses de régression ;
Exemple :
Public 40 30 10 80
Privé 20 34 26 80
Total 60 64 36 160
Tableau de contingence
1
1 ) Analyse descriptive
2 ) Analyse explicative
- Hypothèses :
- Détermination de la statistique d :
dc = ∑ (niob – nith)2
nith
Public 30 32 18 80
Privé 30 32 18 80
Total 60 64 36 160
2
A B C
dc = 14,01
dc = 14,1
3
Pour l’exemple précédent :
Test à gauche :
H0 : p1 = p2 soit p1 – p2 = 0
H1 : p1 < p2
a = 0 – t . σf
Test à droite :
H0 : p1 = p2
H1 : p1 > p2
b = 0 + t . σf
Avec :
σf = p (1 – p) n1 + n2
n1 . n2
p = n1 . p1 + n2 . p2
n1 + n2
4
II ) ANALYSE DE LA VARIANCE : ETUDE DE LA LIAISON ENTRE DES
VARIABLES QUANTITATIVES ET QUALITATIVES
Y = f (X)
X
x1 x2 xj xp
y11 y12 y1j y1p
y21 y22 y2j y2p
Y .. ..
.. ..
yT1 yT2 yTj yTp
Exemple : Distribution de la dépense en Dhs selon que l’on soit homme ou femme
Homme femme
1000 900
1100 1200
1200 1300
1150 1400
5
Il faut remarquer que l’AV à un facteur s’apparente largement aux études de
dépendance rencontrées dans l’ACRM.
Règle de décision :
On calcule Fc = VE
VR
Avec :
VT = SCT / n - 1
VE = SCE / p – 1
VR = SCR / n – p
Rappelons que :
6
SCR = ∑ (yij – j)2
Notons que lorsqu’on a établi que des différences existent parmi les moyennes
c’est-à-dire que X est explicatif de Y, des tests post hoc de comparaisons
déterminent les moyennes qui différent. L’un des tests couramment utilisé est celui
de Duncan qui compare les moyennes deux à deux pour un seuil fixé.
Y = f (X1, X2)
XIIj
I II XII1 XII2 XIIj XIIp
X1I y11 y12 y1j y1p
X2I y21 y22 y2j y2p
XiI .. ..
XiI yij
.. ..
XKI yK1 yK2 yKj yKp
Exemple : Distribution de la dépense en Dhs selon que l’on soit homme ou femme
et selon la catégorie socioprofessionnelle :
7
ddl Variance Fcalculé
SCT n-1 VT
SCE X1 k–1 VE X1 VEX1/VR
SCE X2 p-1 VE X2 VEX2/VR
SCR (k – 1)(p – 1) VR
Y = f (X1, X2 … Xm)
Par ailleurs, l’analyse de la variance peut être étendue pour mesurer l’effet de
variables qualitatives explicatives sur plusieurs variables quantitatives à travers les
analyses multivariées MANOVA et MANCOVA.
Le terme classification sert à désigner soit une partition soit une hiérarchie. On
obtient une partition si l’on partage un ensemble E en un système de classes non
vides, de telle sorte que tout individu appartienne à une classe et une seule. Si
l’ensemble E est divisé en un nombre fini de classes, dont chacune est divisée en un
nombre fini de classes, etc., on parle alors d’une hiérarchie de classes emboîtées.
8
Le concept de distance peut être facilement appréhendé à travers une
représentation graphique ; considérons deux variables X et Y :
yi
x x x
x G x Gx
x
x
x G x
x
xi
Ce graphique met en évidence trois nuages de points regroupés autour d’un centre
de gravité soient trois classes d’individus homogènes.
Cette mesure facilite le calcul et peut être appliquée dans la méthode d’agrégation
de Ward développée ci-dessous. Mais d’autres mesures de distances existent et
peuvent s’avérer plus ou moins appropriées :
9
- L’indice de Sokal et Michener : correspond au rapport entre les appariements et
le nombre total des valeurs.
- L’indice de Rogers et Tanimoto : attribut un poids deux fois plus important aux
non-appariements.
2 ) Méthodes de classification
Pour la seconde, on part du tout qu’on scinde en deux classes ; à nouveau on scinde
chacune de celles-ci en deux et ainsi de suite jusqu’aux éléments composant cet
ensemble. Ce procédé est appelé classification hiérarchique descendante.
- A l’étape initiale, chaque observation représente une classe. On calcule ensuite les
distances entre les individus pris deux à deux en choisissant un critère qui permet
d’agréger les différents éléments pour former des classes.
- Le processus se poursuit en cherchant les deux éléments les plus proches que l’on
agrège en un seul élément appelé nœud. Celui-ci est défini par ses deux successeurs
: l’aîné et le benjamin, son poids (nombre d’éléments) et son indice de niveau (ici le
nombre) qui n’est autre que la distance entre les éléments.
10
- Selon le même critère d’agrégation, on calcule les distances entre le nouvel
élément et les éléments restants. Ainsi, le processus se répètent (n-1) fois c’est-à-
dire jusqu’à ce qu’il n’y ait plus qu’une seule classe.
- Le critère du saut minimum : consiste donc à choisir la plus petite des distances
mesurée qui permet de passer d’une classe à une autre.
- Le critère du diamètre : on prend pour distance entre les classes, la plus grande de
toutes les distances.
- Le critère de la distance moyenne : c’est la moyenne des distances entre toutes les
paires d’individus en prenant en compte, pour chaque paire, un point de chaque
groupe. Ce critère apparaît comme un compromis des deux critères précédents.
- La méthode des barycentres : c’est une méthode dont l’objet est de minimiser la
variance à l’intérieur des classes générées.
Q = Variance interclasses
Variance totale
11
Une classification est généralement accompagnée d’une représentation graphique
appelée dendogramme qui fait la synthèse du processus d’agrégation. Dans une
classification hiérarchique ascendante le dendogramme est lu de gauche à droite.
La particularité de ces méthodes est que le nombre de groupes est choisi à priori. La
pratique est d’opter pour un nombre restreint de classes afin de rendre facile
l’interprétation. Il est même recommandé de faire plusieurs essais avec un nombre
de classes différent et d’identifier la meilleure solution possible.
Il faut souligner que dans ces méthodes de classification non hiérarchique, les
variables doivent être quantitatives et la mesure de distance appliquée est la
distance euclidienne simple. Autrement, il est préférable d’utiliser les méthodes de
classification hiérarchique.
12