Académique Documents
Professionnel Documents
Culture Documents
2004/2005
5.2 Exemple
5.2.1 Enonc
On reprend le cas "Basket", qui a t prsent au paragraphe 2.5.1 page 16.
2004/2005
d(Ii ,I j ) = (x i1 x j1 ) 2 + (x i2
x j 2 ) 2 + (x i3
x j 3 ) 2 + (x i4
x j 4 ) 2 + (x i5
x j 5 ) 2 + (x i6
x j 6 )2
Le tableau des distances mutuelles entre sujets est ainsi donn par : Dist. Euclidiennes (Basket-CR.sta)
I1 I2 I3 I4 I5 I6 I7 I8 I9 I10 I11 I12 I13 I14 I15 I16 I17 I18 I1 0,00 4,26 4,47 0,71 1,43 1,59 2,53 3,21 3,36 4,48 3,30 3,40 3,75 4,74 4,75 4,89 4,99 4,78 I2 4,26 0,00 1,62 3,80 4,42 3,84 3,74 4,57 4,81 0,93 1,43 2,26 2,44 2,54 2,45 3,11 2,77 2,57 I3 4,47 1,62 0,00 3,93 4,66 4,02 4,55 5,52 5,76 1,87 1,31 2,65 2,16 2,30 2,41 2,92 2,72 1,25 I4 0,71 3,80 3,93 0,00 1,58 1,62 2,57 3,43 3,63 4,00 2,76 3,03 3,31 4,34 4,35 4,50 4,65 4,26 I5 1,43 4,42 4,66 1,58 0,00 0,92 2,47 3,19 3,12 4,66 3,54 2,86 3,29 4,25 4,24 4,20 4,45 4,73 I6 1,59 3,84 4,02 1,62 0,92 0,00 2,18 3,07 3,05 4,05 2,96 2,35 2,72 3,58 3,61 3,63 3,75 4,06 I7 2,53 3,74 4,55 2,57 2,47 2,18 0,00 1,36 1,53 3,72 3,39 2,99 3,83 4,33 4,21 4,42 4,33 5,01 I8 3,21 4,57 5,52 3,43 3,19 3,07 1,36 0,00 0,58 4,67 4,33 3,89 4,82 5,18 5,03 5,27 5,12 6,06 I9 3,36 4,81 5,76 3,63 3,12 3,05 1,53 0,58 0,00 4,92 4,58 3,91 4,86 5,21 5,05 5,23 5,11 6,21 I10 4,48 0,93 1,87 4,00 4,66 4,05 3,72 4,67 4,92 0,00 1,80 2,64 2,82 2,89 2,82 3,39 3,06 2,73 I11 3,30 1,43 1,31 2,76 3,54 2,96 3,39 4,33 4,58 1,80 0,00 1,92 1,89 2,42 2,42 2,90 2,81 2,12 I12 3,40 2,26 2,65 3,03 2,86 2,35 2,99 3,89 3,91 2,64 1,92 0,00 1,11 1,69 1,55 1,75 1,94 2,76 I13 3,75 2,44 2,16 3,31 3,29 2,72 3,83 4,82 4,86 2,82 1,89 1,11 0,00 1,27 1,38 1,47 1,75 1,86 I14 4,74 2,54 2,30 4,34 4,25 3,58 4,33 5,18 5,21 2,89 2,42 1,69 1,27 0,00 0,43 0,82 0,61 1,96 I15 4,75 2,45 2,41 4,35 4,24 3,61 4,21 5,03 5,05 2,82 2,42 1,55 1,38 0,43 0,00 0,76 0,71 2,24 I16 4,89 3,11 2,92 4,50 4,20 3,63 4,42 5,27 5,23 3,39 2,90 1,75 1,47 0,82 0,76 0,00 0,99 2,49 I17 4,99 2,77 2,72 4,65 4,45 3,75 4,33 5,12 5,11 3,06 2,81 1,94 1,75 0,61 0,71 0,99 0,00 2,42 I18 4,78 2,57 1,25 4,26 4,73 4,06 5,01 6,06 6,21 2,73 2,12 2,76 1,86 1,96 2,24 2,49 2,42 0,00
Le minimum non nul de ce tableau est 0,43 et correspond la distance entre les sujets I14 et I15. Le premier groupe sera donc form en runissant ces deux sujets.
Le tableau des distances mutuelles entre les 17 objets restant aprs regroupement de I14 et I15 est donn par :
I1 I1 I2 I3 I4 I5 I6 I7 I8 I9 0 4,26 4,47 0,71 1,43 1,59 2,53 3,21 3,36 I2 4,26 0 1,62 3,8 4,42 3,84 3,74 4,57 4,81 I3 4,47 1,62 0 3,93 4,66 4,02 4,55 5,52 5,76 I4 0,71 3,8 3,93 0 1,58 1,62 2,57 3,43 3,63 I5 1,43 4,42 4,66 1,58 0 0,92 2,47 3,19 3,12 I6 1,59 3,84 4,02 1,62 0,92 0 2,18 3,07 3,05 I7 2,53 3,74 4,55 2,57 2,47 2,18 0 1,36 1,53 I8 3,21 4,57 5,52 3,43 3,19 3,07 1,36 0 0,58 I9 3,36 4,81 5,76 3,63 3,12 3,05 1,53 0,58 0 I10 4,48 0,93 1,87 4 4,66 4,05 3,72 4,67 4,92 I11 3,3 1,43 1,31 2,76 3,54 2,96 3,39 4,33 4,58 I12 3,4 2,26 2,65 3,03 2,86 2,35 2,99 3,89 3,91 I13 3,75 2,44 2,16 3,31 3,29 2,72 3,83 4,82 4,86 I14 I15 4,74 2,45 2,3 4,34 4,24 3,58 4,21 5,03 5,05 I16 4,89 3,11 2,92 4,5 4,2 3,63 4,42 5,27 5,23 I17 4,99 2,77 2,72 4,65 4,45 3,75 4,33 5,12 5,11 I18 4,78 2,57 1,25 4,26 4,73 4,06 5,01 6,06 6,21
73
2004/2005
3,06 2,81 1,94 1,75 0,61 0,99 0 2,42 2,73 2,12 2,76 1,86 1,96 2,49 2,42 0
Le minimum non nul de ce tableau est 0,58, distance entre les sujets I8 et I9. Ce sont donc ces deux individus qui seront regroups cette tape, ce qui conduit au tableau de distances suivant :
I1 I2 I3 I4 I5 I6 I7 I8 I9 I10 I11 I12 I13 I14 I15 I16 I17 I18 I1 0 4,26 4,47 0,71 1,43 1,59 2,53 3,21 4,48 3,3 3,4 3,75 4,74 4,89 4,99 4,78 I2 4,26 0 1,62 3,8 4,42 3,84 3,74 4,57 0,93 1,43 2,26 2,44 2,45 3,11 2,77 2,57 I3 4,47 1,62 0 3,93 4,66 4,02 4,55 5,52 1,87 1,31 2,65 2,16 2,3 2,92 2,72 1,25 I4 0,71 3,8 3,93 0 1,58 1,62 2,57 3,43 4 2,76 3,03 3,31 4,34 4,5 4,65 4,26 I5 1,43 4,42 4,66 1,58 0 0,92 2,47 3,12 4,66 3,54 2,86 3,29 4,24 4,2 4,45 4,73 I6 1,59 3,84 4,02 1,62 0,92 0 2,18 3,05 4,05 2,96 2,35 2,72 3,58 3,63 3,75 4,06 I7 2,53 3,74 4,55 2,57 2,47 2,18 0 1,36 3,72 3,39 2,99 3,83 4,21 4,42 4,33 5,01 I8 I9 3,21 4,57 5,52 3,43 3,12 3,05 1,36 0 4,67 4,33 3,89 4,82 5,03 5,23 5,11 6,06 I10 4,48 0,93 1,87 4 4,66 4,05 3,72 4,67 0 1,8 2,64 2,82 2,82 3,39 3,06 2,73 I11 3,3 1,43 1,31 2,76 3,54 2,96 3,39 4,33 1,8 0 1,92 1,89 2,42 2,9 2,81 2,12 I12 3,4 2,26 2,65 3,03 2,86 2,35 2,99 3,89 2,64 1,92 0 1,11 1,55 1,75 1,94 2,76 I13 3,75 2,44 2,16 3,31 3,29 2,72 3,83 4,82 2,82 1,89 1,11 0 1,27 1,47 1,75 1,86 I14 I15 4,74 2,45 2,3 4,34 4,24 3,58 4,21 5,03 2,82 2,42 1,55 1,27 0 0,76 0,61 1,96 I16 4,89 3,11 2,92 4,5 4,2 3,63 4,42 5,23 3,39 2,9 1,75 1,47 0,76 0 0,99 2,49 I17 4,99 2,77 2,72 4,65 4,45 3,75 4,33 5,11 3,06 2,81 1,94 1,75 0,61 0,99 0 2,42 I18 4,78 2,57 1,25 4,26 4,73 4,06 5,01 6,06 2,73 2,12 2,76 1,86 1,96 2,49 2,42 0
Le minimum non nul de ce tableau est 0,61 et correspond la distance entre le groupe {I14, I15} et le sujet I17. Un nouveau groupe, rassemblant I14, I15 et I17 est donc form. En poursuivant la mthode, on obtient la suite d'objets suivante :
,4341613 ,5828903 ,6121795 ,7143260 ,7605890 ,9238485 ,9285629 1,107561 1,248607 1,265891 1,313007 1,357462 1,428591 1,429821 1,860421 2,184427 2,346147 Objet #1 I14 I8 I14 I1 I14 I5 I2 I12 I3 I12 I3 I7 I2 I1 I2 I1 I1 Objet #2 I15 I9 I15 I4 I15 I6 I10 I13 I18 I13 I18 I8 I10 I4 I10 I4 I4 Objet #3 Objet #4 Objet #5 Objet #6 Objet #7 Objet #8 Objet #9 Objet # 10 Objet # 11 Objet # 12 Objet # 13 Objet # 14 Objet # 15 Objet # 16 Objet # 17 Objet # 18
I14 I11 I9 I3 I5 I3 I5 I5
I15
I17
I16
I18 I6 I18 I6 I6
I11 I11 I7 I7 I12 I8 I8 I13 I9 I9 I14 I2 I15 I10 I17 I3 I16 I18 I11 I12 I13 I14 I15 I17 I16
Le rsultat est cependant plus lisible lorsqu'il est reprsent sous forme de dendrogramme :
74
2004/2005
Le dendrogramme nous donne la composition des diffrentes classes, ainsi que l'ordre dans lequel elles ont t formes. Il nous indique galement, sur l'axe horizontal, quelle tait la valeur de l'indice entre les deux classes qui ont t agrges une tape donne. Sur l'exemple propos, on voit un "saut" de l'indice entre la partition en 4 classes et les partitions en 3, 2, 1 classes. Il pourrait tre intressant d'tudier plus prcisment cette partition en 4 classes.
75
2004/2005
(x ik
x jk ) 2
- Distance Euclidienne au carr. On peut lever la distance euclidienne standard au carr afin de "sur-pondrer" les objets atypiques (loigns). d(Ii ,I j ) = (x ik x jk ) 2
k
d(Ii ,I j ) =
k
x ik
x jk
x jk
1/ r p
- Distance de Tchebychev :
d(Ii ,I j ) = Max x ik
- Distance la puissance.
d(Ii ,I j ) =
k
x ik
x jk
- Percent disagreement. Cette mesure est particulirement utile si les donnes des dimensions utilises dans l'analyse sont de nature catgorielle. Nombre de x ik x jk d(Ii ,I j ) = K - 1- r de Pearson : calcule partir du coefficient de corrlation, sans doute l'aide de la formule : d(Ii ,I j ) = 1 rij2
aij = Nombre co occurrences entre les individus i et j dij = Nombre co absences entre les individus i et j bij = Nombre d' attributs prsents chez i et absents chez j c ij = Nombre d' attributs absents chez i et prsents chez j
On peut proposer par exemple, comme indice de dissimilarit :
F.-G. Carpentier - 2005 76
2004/2005
d(Ii ,I j ) = bij + c ij ou au contraire, comme indice de similarit : aij s(Ii ,I j ) = aij + bij + c ij Un indice de similarit peut tre converti en distance par la relation : d(Ii ,I j ) = smax s(Ii ,I j )
- Moyenne non pondre des groupes associs. Ici, la distance entre deux classes est calcule comme la moyenne des distances entre tous les objets pris dans l'une et l'autre des deux classes diffrentes. 1 D(A,B) = d(I,J) n A n B I A,J B - Moyenne pondre des groupes associs. La moyenne prcdente est tendue l'ensemble des paires d'objets trouves dans la runion des deux classes. 1 D(A,B) = d(I,J) (n A + n B )(n A + n B 1) I ,J A B - Centrode non pondr des groupes associs. Le centrode d'une classe est le point moyen d'un espace multidimensionnel, dfini par les dimensions. Dans cette mthode, la distance entre deux classes est dtermine par la distance entre les centrodes respectifs. - Centrode pondr des groupes associs (mdiane). Cette mthode est identique la prcdente, la diffrence prs qu'une pondration est introduite dans les calculs afin de prendre en compte les tailles des classes (c'est--dire le nombre d'objets contenu dans chacune). - Mthode de Ward (mthode du moment d'ordre 2). Cette mthode se distingue de toutes les autres en ce sens qu'elle utilise une analyse de la variance approche afin d'valuer les distances entre classes. En rsum, cette mthode tente de minimiser la Somme des Carrs (SC) de tous les couples (hypothtiques) de classes pouvant tre forms chaque tape. Les indices d'agrgation sont recalculs chaque tape l'aide de la rgle suivante : si une classe M est obtenue en regroupant les classes K et L, sa distance la classe J est donne par :
77
2004/2005
La mthode de Ward se justifie bien lorsque la "distance" entre les individus est le carr de la distance euclidienne. Choisir de regrouper les deux individus les plus proches revient alors choisir la paire de points dont l'agrgation entrane la diminution minimale de l'inertie du nuage. Le calcul des nouveaux indices entre la paire regroupe et les points restants revient alors remplacer les deux points formant la paire par leur point moyen, affect du poids 2.
2004/2005
Utilisez le menu Statitiques - Techniques Exploratoires Multivaries - Classifications et choisissez l'item "Classification Hirarchique" Slectionnez ensuite l'onglet "Avanc", et compltez la fentre de dialogue comme suit :
En cochant la bote "Traitement et rapports par lots", on obtient directement dans un classeur les trois principaux rsultats, savoir : le dendrogramme, le tableau intitul "agrgation finale" et le tableau des distances entre objets. Eventuellement, on pourra aussi afficher le graphique des distances d'agrgation par tape. On pourra galement essayer plusieurs distances, plusieurs indices d'agrgation et comparer les dendrogrammes obtenus. Il est galement intressant de comparer les rsultats de la classification ceux de l'ACP, voire de reprsenter les classes sur le graphique de l'ACP.
TAI
STA
PAS
VIT
DET
LEG
8 Dist. Agrgation
10
12
14
16
On voit sur ce diagramme, deux groupes bien distincts de variables : d'une part, Tai, Sta et Pas, d'autre part Vit, Det et Leg. Ce rsultat rejoint celui qui avait t obtenu par l'AFC. Les indices d'agrgation entre les classes qui ont t associes peuvent galement tre reprsents par le graphique suivant :
F.-G. Carpentier - 2005 79
2004/2005
14
12
10
Essayer plusieurs distances, plusieurs indices d'agrgation. Comparer les dendrogrammes obtenus. Comparer les rsultats de la classification ceux de l'ACP.
Dist. d'Agrgat.
0 0 1 2 3 Pas 4 5 6
Distance agrgat.
80
2004/2005
81