Académique Documents
Professionnel Documents
Culture Documents
1 Introduction
1.1 1.2 1.3 2.1 2.2 2.3 2.4 2.5
Les donnes multivaries . . . . . . . . . . . . . . . . . . . . . . . L'approche factorielle des donnes multivaries . . . . . . . . . . Le logiciel R et le package ade4 . . . . . . . . . . . . . . . . . . . . . . . . . . de synthse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5 5 6
2.6 3.1 3.2 3.3 3.4 3.5 3.6 4.1 4.2 4.3 4.4 4.5 5.1 5.2 5.3
Les donnes multivaries quantitatives . . . . . . . . Une premire thorie de l'ACP : trouver une variable Raliser l'ACP avec ade4 . . . . . . . . . . . . . . . Solution du second ordre de l'ACP . . . . . . . . . . Les diagnostics . . . . . . . . . . . . . . . . . . . . . 2.5.1 Choix de la dimension de reprsentation . . . 2.5.2 La qualit de reprsentation . . . . . . . . . . Diverses remarques sur l'ACP . . . . . . . . . . . . . Les donnes multivaries homognes . . . La gomtrie de l'ACP centre . . . . . . Raliser l'ACP centre avec ade4 . . . . . Diagnostics : les contributions l'inertie . Le biplot . . . . . . . . . . . . . . . . . . . Pour en nir avec les donnes homognes Les donnes multivaries qualitatives . Une vision thorique proche de l'ACP Raliser l'ACM avec ade4 . . . . . . . Solution du second ordre de l'ACM . . Quelques remarques sur l'ACM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7 8 10 11 16 16 18 19
21
21 22 22 23 25 26
29
29 30 31 33 34
Les donnes multivaries mixtes . . . . . . . . . . . . . . . . . . . Analyser des donnes mixtes . . . . . . . . . . . . . . . . . . . . Raliser l'analyse mixte avec ade4 . . . . . . . . . . . . . . . . . 3
37
37 37 38
Les reprsentations graphiques dans l'analyse mixte Le tableau crois . . . . . . . . . . . . . . . L'analyse habituelle d'un tableau crois . . Une vision thorique base sur le "scoring" Raliser l'AFC avec ade4 . . . . . . . . . . Solution du second ordre de l'AFC . . . . . Diverses remarques sur l'AFC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
43
43 43 44 45 47 49
51
51 51 52 52
53 55
Chapitre 1
Introduction
CHAPITRE 1.
INTRODUCTION
Chapitre 2
Analyse en Composantes Principales
8 hist(scol)
CHAPITRE 2.
La premire conclusion serait donc d'eectuer quelques transformations an de rendre les distributions sinon normales du moins plus symtriques. D'o la cration d'un second data.frame monde2. monde2<-data.frame(log(pib),croipop,log(morta),log(anal+1),scol) dimnames(monde2)<-list(dimnames(monde84)[[1]], c("lpib","croipop","lmorta","lanal","scol")) Dans un second temps nous regardons les relations deux deux entre ces nouvelles variables mais aussi entre les variables non transformes. cor(monde84) cor(monde2) plot(monde84) plot(monde2) On voit que les transformations on permis d'obtenir des relations plus linaires entre les variables (gure 2.1). La statistique multivarie se prte en eet mieux l'analyse de relations linaires et de variables de distribution symtrique. On va donc privilgier le dataframe monde2. Mais comment tudier globalement les relations entre cinq variables et non plus deux deux ? Comment connatre les ressemblances et dissemblances entre les pays ? Ce qui les fonde ? L'analyse multivarie dite Analyse en Composante Principales (ACP) permet de rpondre de telles questions !
La composante principale est une nouvelle variable qui a pour proprit d'tre de corrlation maximum avec l'ensemble des variables du tableau tudi. Plus prcisment, la somme des carrs de corrlations 2 de cette variable avec les variables originelles est maximise. Ce maximum est le pouvoir de synthse de cette variable appel valeur propre.
Suivant les logiciels, cette composante principale, qui a toujours une moyenne nulle, peut tre de variance 1 ou de variance gale la valeur propre. Notons que cela ne change rien la proprit de maximisation.
2 Le
de dtermination
0
q qq q q qq q qq q
20
40
q q q q qq q q q q qq q
2
q q q
4
q q q q q q qq q q q qq q qq q q q qq q qq qq q q qq q qq q q q q q q q q q q q q qq q q q q q q q q q qq q q q q q q q q q q q q q q q q q qq q q q qqq q q qq q q q q q q q q q q q qq qq q q q q q qq q qq q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q q q q qq q q q q q q q q q q q q q q q q q q q q qq qq q q q q qq q q q q q q q q q q
lpib
40
q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q qq q qq q q q qq q q q qq q q qq q q q q q q q q q q q q q q q qq q q q q q q qq q qq
qq q q q q q qq q q q q q q q qq q q q qq q q q q q q q q qq qq q q
qq q q q q q q q q qq q qq q qq qq qq q q q q q q qq q q q q q
q q q
q q q qq q q q qq q q q q q q q q q qq q q q qq q q q q qq q q q q qq q q q q q qq q q qq q q q q q q q q q q
croipop
q q qqq qqqq qq q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q qq q q q q qq q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q
q qqq q q qq q qq q q q q q qq qq q qq q q qq q q q q q q q q q q q q q q q q qq q
20
q q q q q q q q q
q q
lmorta
q qq q q q q q q q q q q q q q q q qq q q q q qq q
q q q q q q q q q q
q qqq q q qq q q q qq q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q qq q q q q q q q qq
q q q q q
lanal
q q q q q q q q q q q q qq qq q q q q q q qq q q qq q q q q q q q q qq q q
q q qq qq q q q qq q q q q qq q qq qq q q q q q q q q qqq q q qq q q q q q qq qqq q q q q q q q q q q
qq q qq q q qq q q q q q q q q q q q q q q q q qq q q q q q qq q q q q q q q q qq q q q q qq q q q q q q q q q
scol
20 60 100
5 6 7 8 9
2.0
3.5
5.0
Fig.
20
60
100
2.0
q qq q q
3.5
q q q q q q q q q q q qq q q q q qq q q q q qq q qq
5.0
5 6 7 8 9
q q q q q q
10
lpib
q q q
CHAPITRE 2.
qq q q q q q q q q q q q q q
40
croipop
q
q q q q q q q q q q q q
30
q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q
q q q q q
20
q q q q
10
q q q q q
q q q
q qq q qq
q q
1.5
1.0
0.5
0.0 score
0.5
1.0
1.5
q
1.5
1.0
0.5
0.0 score
0.5
1.0
1.5
q qq q
5.0
lmorta
lanal
4
q q q
q q q qq qq q q q q q qq q q
q q qq q q q qq qq q q q q q
q q
4.0
q q q q q q
q q q
q qq q q q q q q q q q q q q q q q q
q q
3.0
1
q qq qq q q q q
2.0
q q q q
1.5 100
1.0
0.5
0.0 score
0.5
1.0
1.5
1.5
1.0
0.5
0.0 score
0.5
1.0
1.5
scol
q q
q q q q q q q q q q q q q q q q q
80
q q q q qq q q
q q
60
40
q q q q q q q q q q q q q q q q q
20 1.5
1.0
0.5
0.0
0.5
1.0
1.5
2.2 Nuages de points entre les variables du dataframe monde2 et la composante principale issues de son ACP
Fig.
On voit dans la gure 2.2 une reprsentation graphique de cette proprit : chaque variable originelle est couple dans un nuage de points la composante principale. Toutes les variables sont trs bien relies linairement, parfois positivement (croipop, lmorta, lanal) parfois ngativement (lpib, scol) avec la premire composante principale. On peut interprter cette variable de synthse comme une mesure de (non-)dveloppement des pays.
2.4.
11
parlerons plus tard, mais il s'agit ici de simplement rpondre : 1 et de valider (taper la touche Entre). pca.monde2<-dudi.pca(monde2,center=T,scale=T) score.pca(pca.monde2) Tout objet de "class" dudi a pour valeur les composants suivants : $eig qui donne une indication sur le pouvoir de synthse de l'analyse de ce dataframe, $c1 et $co 3 qui donnent des informations sur la structure des colonnes du dataframe et $l1 et $li 4 qui donnent des informations sur la structure des lignes du dataframe. An d'obtenir la composante principale, de variance 1 (dans $l1) ou de variance gale la valeur propre (dans $li) et la reprsenter graphiquement, on emploie : pca.monde2$l1 pca.monde2$li dotchart(pca.monde2$li[,1],labels=dimnames(pca.monde2$li)[[1]]) et pour lire les corrlations de cette variable de synthse avec les autres variables et la valeur propre on utilise pca.monde2$co pca.monde2$eig La variable du tableau la plus relie la composante principale est lmorta (r = 0.96) et la moins relie croipop (avec quand mme r = 0.79). La somme des carrs de ces corrlations est de 4.07377747, sur un total au maximum de 5, on dit que la premire composante principale explique 4.07/5=81% de l'information 5 du tableau monde2, ce qui est remarquable.
12
CHAPITRE 2.
1.8
q
2.0
2.2
q q q qqq q q q q q q q qq q q q q q q q qqq q q q q q q q q q q q q q q q qq q q q qq q q q q qq q q q q q q q q q q q q q q q q q q
qq q q q q q q
long
q
qq q
q qq q q qq q q qq q q qqq q q q q q
q q
q q
2.2
q q
2.0
1.8
q q q q qq q q qq q qq q q qq q q q q qq q q q q q q qq q qq qq qq q
haut
qq q q q q q q q qq q
q q q q q q q q q q q q q qq q qq q q q q q qq q q q q q q q
q q q q q q q q
q q qq q q q q q qq qq q
10.6
11.0
11.4
11
13
15
48
50
2.3 Extraits des Nuages de points entre les variables du dataframe olympic$tab
Fig.
cor(olympic$tab) plot(olympic$tab) Notons dans la gure 2.3 que les performances aux 100m et 110m haies sont lies positivement, que le lancer du poids est galement reli positivement au lancer du disque et que le saut en longueur est reli ngativement au rsultat du 100m 6 . Ralisons l'ACP de ce dataframe et dterminons la composante principale. Son pouvoir de synthse est de 3.4182381 sur un maximum possible de 10 soit 34%. On est loin d'avoir puis toute l'information disponible !
6 Interprtons cette corrlation a priori surprenante : une forte valeur de la variable longueur correspond gnralement une faible valeur du 100m. Donc si on saute loin, on met gnralement peu de temps au 100m, les deux performances sont en dnitive lies positivement bien que les variables le soient ngativement. Si la performance au 100m tait mesure en termes de vitesse plutt que de temps cela serait plus simple . . .
48
q q q qq q q q q q qq q qq q q q q qq q q q q q q q
q q
q q
q q qq q q q q qq q q q qq q q
400
50
11
13
poid
q qqq q q qq qq qq qq qq q qq q q q q q q q
15
q q qq q q q q q q q qq q q q q qq q q q q q q q q q
10.6
11.0
100
qq q q qq q q q q q q qq qq q qqqq q qq q q q q
11.4
2.4.
13
pca.olympic<-dudi.pca(olympic$tab,center=T,scale=T) pca.olympic$eig On va donc rechercher une autre variable de synthse nous permettant d'afner notre comprhension de l'preuve du dcathlon. La nouvelle variable de synthse doit nous orir un rsum radicalement neuf, c'est pourquoi on dcide d'employer une contrainte pour la dnir.
Dnition 2
La nouvelle variable de synthse doit tre non corrle la premire - ce qui garantit une information nouvelle - mais doit aussi viser le mme objectif, c'est--dire tre la plus lie possible aux variables originelles. On parle de deuxime composante principale.
Bien sr, elle ne peut tre aussi performante en termes de pouvoir de synthse que la premire dont la recherche se faisait sans contrainte, ce qui explique que la deuxime valeur propre sera toujours plus faible. Le processus peut tre itr, on peut rechercher une troisime variable de synthse, non corrle aux deux premires, optimisant le mme critre. Deux obstacles s'opposent aller trop loin en ce sens : 1. notre objectif tant de rsumer le tableau, on ne multipliera pas les variables de synthse, car remplacer les variables originelles par un grand nombre de variables de synthse (dont l'interprtation est moins immdiate) est contreproductif et 2. il est simple de proposer une reprsentation graphique de la structure sur la base de deux variables de synthse, avec trois cela devient ardu, au del, personnellement, je n'y arrive pas. La reprsentation graphique deux dimensions de la structure des lignes se fait en ralisant un nuage de points croisant les deux variables de synthse (chiers $li), ce qui n'est possible que si on a slectionn deux dimensions lors de la ralisations de l'ACP 7 ! ! ! On parle de plan factoriel des units statistiques. pca.olympic<-dudi.pca(olympic$tab,center=T,scale=T) s.label(pca.olympic$li) On voit sur la gure 2.4 les 33 units statistiques selon les deux composantes principales dont le pouvoir de synthse est de (3.4182381+2.6063931)/10 soit 60% de l'information. La position des individus sur cette image exprime donc une large part de leur proximit originale dans le dataframe olympic$tab. Les concurrents sont ici numrots en fonction du rsultat nal ; on voit ainsi que les meilleurs concurrents sont situs du mme cot ( droite) et les moins bons gauche 8 . Une proprit de l'ACP est que l'individu qui est situ l'origine du graphique est l'individu moyen, c'est--dire celui qui raliserait le rsultat moyen chacune des 10 preuves.
7 Si ce n'est pas le cas, recommencer l'ACP 8 Le numro 1 est cach sous le numro 11
14
CHAPITRE 2.
d=2 17
31 28
18 10 11 1 7 9 16 12 15 14 25 6 29 26 19 27 13 5 8 3 2
20 23 32 30 21 22 24
33
2.4 Plan factoriel : nuage de points des deux premires composantes principales issues de l'ACP du dataframe olympic$tab
Fig.
2.4.
15
perc
long
Fig.
Bien sr, il faut aussi se souvenir que 40% de l'information n'est pas exprime sur cette image et donc que la position de certains points peut se rvler trompeuse. On verra dans la section 2.5 comment se prmunir contre ce type d'ennuis. En ce qui concerne les relations entre les variables originelles, elles s'obtiennent indirectement en regardant les relations entre ces variables et les deux variables de synthse. Ainsi, dans le cercle des corrlations (cf gure 2.5), chaque variable originelle est situe suivant sa corrlation sur l'axe des X avec la premire composante principale et sur l'axe des Y avec la deuxime. s.corcircle(pca.olympic$co) Les relations entre les variables originelles sont interprtables en termes de directions, c'est pourquoi ces variables sont souvent reprsentes non comme des points mais en tant que ches. On utilisera la grille de lecture suivante : si deux variables vont dans la mme direction, elles sont corrles positivement, par exemple ici le 100m et le 110m haies,
16
CHAPITRE 2.
si deux variables sont dans des directions opposes, elles sont corrles ngativbement, par exemple le 100m et le saut en longueur et si deux ches sont perpendiculaires, les deux variables sont non corrles, ici le lancer du poids et le 100m Globalement on voit ici ressortir qu'il existe deux groupes de performances, celles qui sont lies la vitesse de l'individu et celles lies sa force. nouveau, il faut se souvenir que seulement 60% de l'information est prsente sur cette image et donc qu'elle n'est pas un reet exact de la situation. Il est bon de se reporter la matrice des corrlations pour vrier les structures repres et d'autres outils proposs dans la section 2.5.
Remarque 1
En ACP, la longueur des ches sur le cercle des corrlations a aussi du sens, elle indique la qualit de reprsentation de la variable concerne sur l'image. Si la che est de longueur 1, la mesure est reprsente 100%. On concentrera donc l'interprtation sur les ches les plus longues.
Remarque 2
Si la solution d'ordre 3 est choisie, il est possible soit d'essayer de lire des reprsentations 3D (mais c'est toujours dicile) ou de raliser les trois reprsentations 2D possibles (mais c'est toujours dicile). Au del de trois, c'est toujours trs dicile . . .
Exercice 1
Le chier courses.csv comprend les rsultats de 51 nations aux jeux olympiques uniquement en ce qui concerne les preuves de courses pieds (100m jusqu'au marathon). Le temps donn est le meilleur temps russi par cette nation jusqu'aux JO de 1984. Raliser l'ACP de ce jeu de donnes. quel pourcentage d'information correspond la premire valeur propre ? La deuxime ? Reprsenter le cercle des corrlations. Les ches vont dans la mme direction, qu'est-ce que cela signie (on parle d' eet taille) ? Reprsenter le nuage des points des units statistiques. Expliquer la position de Singapour, des tats-Unis et du Kenya.
Il faut choisir le nombre de variables de synthse retenir dans l'interprtation. Plusieurs mthodes existent dans la littrature. On peut noter ds prsent que s'il existait une mthode infaillible, je ne donnerai que celle-ci . . . L'information contenue dans le tableau de l'ACP est gale au nombre de variables 9 . Les valeurs propres expriment la qualit du rsum oert par les variables de synthse en s'ajoutant. On peut donc considrer que si l'information dpasse un certain seuil, on s'arrtera. Si le seuil est x 69% 10 , les deux
9 On parle souvent d'inertie dans la littrature de l'analyse factorielle pour dsigner la quantit d'information 10 Un nombre renversant
2.5.
LES DIAGNOSTICS
17
Valeurs propres
0.0
0.5
1.0
1.5
2.0
2.5
3.0
Variables de synthse
Fig.
premires variables de synthse dans l'exemple des marathoniens ne constituant que 60% ne sont pas susantes. La rgle de Kaiser repose sur le fait que dans l'ACP, toute variable originelle apporte 1 l'information. Donc toute valeur propre suprieure 1 peut tre considre comme suprieure aux variables originelles. On retiendrait deux valeurs propres dans l'exemple des dcathloniens. Le diagramme des valeurs propres successives (voir gure 2.6) appel boulis des valeurs propres permet de dcider suivant sa forme de la dimension retenue. Parfois un coude apparat trs nettement (et parfois non . . .), ici nous conduisant contenir deux variables de synthse (attention l'eet taille . . .). barplot(pca.olympic$eig,xlab="Variables de synthse",ylab="Valeurs propres") Les statisticiens anglo-saxons ont dvelopp dans un contexte probabiliste de normalit des tests du choix du nombre de valeurs propres (voir [2] p. 235) Faut-il y croire ? Besse [3] propose de raliser des botes moustaches des variables de synthse
18
CHAPITRE 2.
q q q q
q q
q q
4 Axis1
Axis3
Axis5
Axis7
Axis9
successives (voir gure 2.7). On voit clairement se dessiner les dirences de variance et les variables instables. boxplot(dudi.pca(olympic$tab,center=T,scale=T,nf=10,scannf=FALSE)$li)
2.5.2
La qualit de reprsentation
En ne retenant que les premires variables de synthse, nous rsumons le tableau mais perdons bien entendu une partie de l'information. Il faut souligner que celle-ci n'est pas perdue de faon homogne, certaines parties du tableau peuvent en tre plus victimes ! Ainsi certaines units statistiques seraient moins bien reprsentes que d'autres sur le plan factoriel ou certaines variables sur le cercle des corrlations. L'interprtation en ce qui les concerne ne peut par consquent tre base uniquement sur ces images dformes (il faudra revenir au tableau de dpart et la matrice des corrlations).
2.6.
19
Heureusement, il est possible de calculer pour chaque unit statistique (resp. chaque variable) le pourcentage d'information contenu dans les premires variables de sythse par rapport l'information disponible dans le tableau gnral.
Dnition 3
Les cosinus carrs - dits aussi contributions relatives - sont la part d'information retenue par les k premires variables de synthse en ce qui concerne les units statistiques (resp. les variables).
On les obtient grce la fonction inertia.dudi que l'on applique l'objet obtenu suite l'ACP, c'est--dire "en sortie" de la fonction dudi.pca, par exemple pca.olympic. inertia.dudi(pca.olympic,row.inertia=TRUE,col.inertia=TRUE) En ce qui concerne les units statistiques - les lignes du tableau - la composante $row.rel 11 donne ces cosinus carrs pour chaque variable de synthse. On peut l'obtenir de faon cumule dans la composante $row.cum . Pour le cas des dcathloniens o l'on a dcid de retenir deux axes, on voit que le premier dcathlonien sur deux axes n'a que 28.9% de son information reprsente, il n'est donc pas " sa place", en revanche le deuxime qui a 90.1% d'information reprsente est peu dform par l'image oerte. En ce qui concerne les variables, la composante $col.cum nous donne le pourcentage d'information reprsent sur le cercle des corrlations dans la colonne 2. Si le lancer du disque est bien reprsent avec 76.6%, le saut en hauteur l'est trs mal 15.6%. Une troisime variable de synthse permettrait sans doute d'en savoir plus sur cette mesure.
Remarque 3 Exercice 2
Observer comme la longueur des ches sur le cercle des corrlations (Figure 2.5) est directement proportionnelle aux valeurs de la deuxime colonne de la composante $col.cum comme cela a dj t voqu. Utiliser la fonction inertia.dudi sur le chier de l'tat du monde. Il y a un problme, cette fonction "plante" lorsqu'on a slectionn un seul axe. Raliser nouveau l'ACP en conservant deux axes, mais l'analyse des reprsentations se fera sur un seul. Quels sont les pays qui sont les mieux reprsents ? Quels sont les pays les moins bien reprsents ? En ce qui concerne la Chine, quel est son cosinus carr ? Aller voir dans le tableau monde2 et expliquer pourquoi Les variables sont-elles toutes bien reprsentes ?
20
CHAPITRE 2.
dans des analyses de variance ou pour rsumer un grand groupe de variables en quelques unes 12 . L'ACP est une mthode base sur les corrlations et donc sensible aux points extrmes. Les rsultats peuvent tre profondment inuencs par leur prsence. Des versions robustes existent (voir package amap de R). D'aucuns utilisent l'ACP pour reprer des groupes d'individus. Il existe des mthodes spciques : classication automatique, analyse de mlanges, voire mme des mthodes factorielles spciques (voir package amap de R). L'ACP est une mthode base sur des combinaisons linaires des variables originelles, certaines propositions thoriques permettent de relcher cette contrainte (citation Ferraty ou Durand).
12 quoique
Chapitre 3
Une variante : l'ACP centre
22
CHAPITRE 3.
Dnition 4
L'ACP centre ou ACP sur matrice de covariances d'un tableau n lignes et p colonnes consiste chercher dans un espace de dimension p une direction dit axe principal sur laquelle les n points correspondant aux lignes du tableau puissent tre projets, ces projections prsentant une variance maximale. Une seconde direction orthogonale la premire maximisant le mme critre consitue la solution du second ordre de ce problme.
3.4.
23
moyen et les proximits sur la reprsentation graphique s'interprtent en termes de proximits dans le tableau original. On ne peut ici tirer grand chose du graphique (non prsent) car dans le cadre d'un sondage la position d'un individu ne nous intresse pas. s.label(pca.piscine$li) En revanche, la reprsentation des relations entre les variables est un peu dirente car les variables originelles ne sont pas situes en fonction de leurs corrlations avec les variables de synthse mais de leurs covariances. Globalement, les interprtations en termes de directions restent valables, mais les ches ne sont plus contenues dans un cercle de longueur 1 et leur longueur n'est plus forcment gage de leur qualit de reprsention. On ne peut plus faire l'conomie de la lecture des cosinus carrs. On voit sur la gure ?? se dgager un groupe de variables relies des quipements utilisant l'eau pour le bien-tre des clients et un second groupe constituant un "ple social". s.arrow(pca.piscine$co)
Dnition 5
L'ACP peut tre vue comme la recherche d'une combinaison linaire de variance maximum des variables originelles soit centres (dans l'ACP sur matrice de covariances) soit standardises (dans l'ACP sur matrice de corrlations). On peut ensuite rechercher une deuxime combinaison linaire maximisant le mme critre avec une contrainte d'orthogonalit entre les systmes de coefcients de la premire et la deuxime.
Remarque 4
+ a2 p
2 On utilise une contrainte de taille pour ces coecients a2 1 + a2 + = 1, sinon, il surait de multiplier ces coecients par 2 (par exemple) pour que la variance de la variable de synthse soit multiplies par 22 = 4.
On peut donc calculer les variables qui ont le plus particip la construction de chaque variable de synthse par l'intermdiaire des quantits a2 j . Ces quanti-
24
CHAPITRE 3.
Gym Aquagym
UV
3.5.
LE BIPLOT
25
ts dites contributions l'inertie sont calcules par la fonction inertia.dudi, leurs valeurs rsidant dans la composante $col.abs 2 .
Dnition 6
Les contributions l'inertie des variables (resp. des lignes) dterminent l'importance de chacune dans la construction des variables de synthse, et donc la signication leur accorder.
On voit ainsi en ce qui concerne l'exemple des piscines que la contribution l'inertie de la variable UV la construction de la premire variable de synthse est de 5.11% et la deuxime est de 0%. La premire variable a t contruite par l'ensemble des variables (caractristique d'un eet taille), en revanche, la seconde l'a t essentiellement par les variables Jacuzzi, Sauna, Hydroth, Discuss. inertia.dudi(pca.piscine,col.inertia=TRUE,row.inertia=FALSE) La longueur des ches sur le graphique des covariances rete ces contributions l'inertie, donc une variable signiante pour la construction du graphique et son interprtation possde une che longue. En ACP on peut donc se passer de la lecture fastidieuse des contributions, elles sont visibles 3 .
3.5 Le biplot
Un laboratoire pharmaceutique (exemple tir de l'ouvrage trs accessible de Foucart [5]) a ralis une tude du choix de dentifrices auprs de 100 personnes sur les critres suivants : HALE (haleine agrable), TART (limine le tartre), PHAR (vendu en pharmacie), GEN (protge les gencives), BLAN (blanchit les dents), CAR (empche les caries), GOUT (a bon got) et PRIX (prix d'un tube). Les notes donnes varient de 1 (pas important) 5 (trs important). Le chier dentifrices.csv comporte donc 100 lignes et 8 colonnes.
Exercice 3
Raliser l'ACP de ce jeu de donnes Que choisir : ACP sur matrice de covariances ou de corrlations ? Quelle dimension nous incline retenir l'boulis des valeurs propres ? Produire le plan factoriel des individus. Quel est son intrt en l'espce ? Produire le graphique des covariances. Quelles sont les liaisons entre les variables ? Produire les diagnostics. Quelles sont les variables importantes pour la construction du graphique. Quelles sont les variables les plus mal reprsentes sur ce graphique ?
Nous allons maintenant tudier un graphique qui runit les rsultats concernant les lignes et les colonnes : le biplot (gure 3.2). Il est bas sur une proprit
2 On ne va pas s'intresser aux contributions l'inertie des lignes pour l'exemple des piscines car dans un sondage les individus ne nous intressent pas personnellement 3 C'est mme plus intressant car la plupart des logiciels donnent les contributions l'inertie axe par axe or ce qui nous intresse c'est gnralement la solution classique de dimension 2, qui se traduit dans la longueur de la che !
26
CHAPITRE 3.
de l'ACP dite de reconstitution des donnes. on peut dmontrer que le tableau de dpart peut tre reconstitu, au moins de faon approximative, en utilisant les premires variables de synthse et les coecients correspondant. Pour reconstituer la valeur de l'individu 55 (par exemple) par rapport la variable CARI (par exemple), on projette orthogonalement l'unit 55 sur la droite correspondant la variable sur le graphique. On constate que, par rapport au point origine, cette projection est l'oppos de la direction CARI, l'unit dans le tableau a alors trs probablement 4 une valeur plus faible (c'est 1) que la moyenne (3.43) pour cette variable. En revanche, l'unit 59 qui est projete dans la direction de CARI a probablement une valeur (c'est 5) suprieure la mme moyenne. Si un individu comme le 56 a une projection proche de la moyenne, il doit avoir une valeur moyenne, (en fait oui et non, puisque c'est 2). dentifrice<-read.table("dentifrice.csv",header=TRUE,sep=" ;",dec=",") pca.dentifrice<-dudi.pca(dentifrice,center=TRUE,scale=FALSE) scatter(pca.dentifrice)
3.6.
27
d=2 CARI
63 11 54 12 87 15 59
PHAR
91 37 53
76 84 5 24
34 90 33 39 70 50 94 41
26 2 21 36 GENC 56 30 18 79 58 67 92 1
TART
85 95 19 97 38 32 47
83
29 6
35 86 100 89 9
65 52 64 98 62 43 99
8 10 51 20 81 7 42 23 93 4 55 45 27
57 69 17 77 74 40
96
44 88 75
HALE
Fig.
28
CHAPITRE 3.
Chapitre 4
L'Analyse des Correspondances Multiples
29
30
CHAPITRE 4.
Remarque 5
Qu'est-ce que le rapport de corrlation (voir [8] pour un dveloppement dtaill de la notion) ? Lorsqu'on cherche si une variable numrique est relie une variable qualitative - mettons que cette dernire ne comprenne que deux catgories - on calcule la moyenne de la variable numrique dans chacun des deux groupes d'units repres par les catgories. Plus ces deux moyennes dirent, plus le comportement de la variable numrique est modie suivant le groupe considr c'est--dire la variable qualitative, donc plus les deux variables sont lies. Le rapport de corrlation correspond la variance de ces deux moyennes (qui quantie leurs dirences et se gnralise au cas de plus de deux groupes) rapporte la variance gnrale. Le rapport de corrlation est donc une quantit voluant de 0 (lorsque les deux variables ne sont pas lies) 1 lorsqu'elles le sont parfaitement.
L'ACM va donc reprendre l'objectif de l'ACP mais l'aide d'un indicateur de liaison - le rapport de corrlation - adapt la nature des variables originelles.
Dnition 7
somme mum.
4
L'ACM est la recherche d'une variable de synthse telle que la de ces rapports de corrlation avec les variables originelles soit maxi-
On obtiendra donc une variable de synthse, qui a un pouvoir de synthse, appel l encore valeur propre, et qui permet de sparer au mieux les catgories pour chaque variable au sens o les moyennes dans chaque groupe sont les plus direntes possible.
4 ou
4.3.
31
32
CHAPITRE 4.
age
0.5 67 8 23 0.5 45
score
1.5
1.5
1.0
0.5 score
0.0
0.5
1.0
fecond
0.5
912 1314 78
score
0.5
36
1.5
12
1.5
1.0
0.5 score
0.0
0.5
1.0
nbport
0.5
2p
score
0.5
1p 1.5
1.5
1.0
0.5
0.0
0.5
1.0
Fig.
4.1 Graphique de l'ACM du dataframe boubouille. La premire variable de synthse permet de calculer pour chaque variable (age, fecond, nbport) les moyennes des catgories les portant et de les reprsenter sous forme de carrs
4.4.
33
unique. La variable de synthse sert donc faire le lien entre les trois variables originelles. On constate en rsum que plus les chattes vieillissent plus elles ont tendance avoir deux portes et donc plus de chatons. Toutefois, vers 8 ans, leur fcondit diminue (et le nombre de portes aussi).
Exercice 4
6 Cette ligne est indispensable, sinon ade4 refuse de raliser l'ACM. En eet, les valeurs du chier sont toutes des chires de 1 3 que le logiciel prend pour des donnes numriques. Il faut donc prciser que ce sont en fait des catgories, ce que permet la fonction factor().
34
taille
CHAPITRE 4.
poids
q q q q q q
2
q q q q q q q q q q
q q
q q
q q q
q q
q q
1
q
1
q
3
q
velocite
intelligence
q q q q q q
q q q q
q q
2
q q
q q
q q
3
q q q q q q q q q
3 2
q q q
q q
q q
1
q
1
q q q
affection
aggressivite
q q q q q q
q q q q
q q q q
q q
q q
q q
2
q q q q q
1 2
q
1
q q q q q q q q
q q q
4.2 Pour chaque variable, les catgories sont situes au centre de gravit des units les portant dont les coordonnes sont celles des deux variables de synthses issues de l'ACM du dataframe chiens
Fig.
que pensez-vous des tailles des chiens de poids de la deuxime catgorie ? et de la troisime ? Quel est votre avis le sens des ellipses sur ces graphiques ? Que peut-on dire de l'aggressivit et de l'intelligence des chiens ?
Exercice 5 Le package ade4 contient le chier ours qui peut tre tudi par une analyse des correspondances multiples. Exercice 6 Le package MASS contient le chier farms qui peut aussi faire l'objet d'une ACM. Ce package contient par ailleurs des fonctions trs utiles dont on peut avoir une description dans le remarquable ouvrage ??.
4.5.
35
Trs souvent, les utilisateurs sont dus car les boulis des valeurs propres sont moins spectaculaires que ceux des ACP. En eet, la nature des variables qualitatives rend plus dicile l'existence de liens intenses. Les graphiques restent assez diciles lire, on n'a pas seulement une reprsentation de chaque variable dans un unique graphique comme en ACP, mais de leurs catgories ce qui multiplie les points et dans des graphique dirents, sinon l'empilement est souvent illisible. Il faut plus d'expriences pour une utilisation ecace de ce type d'analyse. Il faut aussi savoir ne pas rentrer des dizaines de variables 7 dans une ACM car sinon l'exploitation en est impossible ; on se contente gnralement des questions relatives au mme thme. Il vaut mieux ne pas faire entrer n'importe quelle variable qualitative dans une ACM. On conseille (voir rfrence ?? pour l'explication thorique) de ne pas avoir des catgories de trs faible eectif pour une variable qualitative et de ne pas non plus avoir de variable avec un trop grand nombre de catgories. Sinon, ces variables dsquilibrent l'analyse.
7 par
36
CHAPITRE 4.
Chapitre 5
Une gnralisation : l'analyse de Hill et Smith
Exercice 7
1 J'ai considr que les variables concernant le logement et la tlvision, mesures sur une chelle de likert de 4 niveaux taient quantitatives
37
38CHAPITRE 5.
qualitatives (utiliser la fonction R cut pour la variable age 2 et la fonction textsffactor pour les deux autres. Raliser une ACM des neuf variables qualitatives.
Une deuxime solution (voir par exemple dans [?]) est d'utiliser la technique dite des variables supplmentaires, une ACM est pratique sur les mesures qualitatives, puis les corrlations entre les variables de synthse obtenues et les mesures numriques originelles permettent de situer ces dernires graphiquement sur le mme plan que les autres. L'ennui est que les mesures numriques ne sont pas partie prenante de l'analyse mais sont uniquement utilises dans l'interprtation.
Dnition 8
L' analyse de Hill et Smith consiste rechercher une variable de synthse la plus relie possible aux variables originelles, au sens du coecient de dtermination si la variable est numrique ou du rapport de corrlation si elle est qualtative. La somme (ou la moyenne) de ces indicateurs de liaison est maximise. Le processus peut tre itr en cherchant une deuxime variable de synthse non corrle qui optimise le mme critre.
39
d=1
95
36 56
63
logement
maldo.oui
24
70 91 78 32
26 92
97
103
23 13 19
88
5 80
television famil.non
101 5290 45 40
restr.non
magne.oui
5.1 Les deux premires variables de synthse issues de son analyse de Hill et Smith permettent de positionner les individus, les variables numriques sont places dans l'esprit d'un biplot et les catgories de variables qualitatives comme des centres de gravit
Fig.
scatter(mix.vie) Je prfre employer trois fonctions que j'ai cres et qui sont prsentes en annexe de ce document : scatter.mix.cr, scatter.mix.numeric et scatter.mix.categorical. Un premier graphique (gure 5.2) consiste reprsenter les indicateurs de liaison (coecients de dtermination ou rapports de corrlation) entre les variables originelles et les variables de synthse. On voit que les variables les plus lies la premire variable sont television et famille (et age) et pour la seconde logement, restrictions et magneto (pour n'abordons ici que les deux premires variables de synthse). Ensuite, on peut donc dtailler les relations l'aide d'un classique cercle des corrlations pour les variables numriques (gure 5.3) et une reprsentation de type ACM par centres de gravit pour les variables qualitatives (gure 5.4).
40CHAPITRE 5.
RS2 0.4
0.6
0.8
1.0
logement magneto
restrictions
0.2
maldos
0.0
sexe
mauxtete age
television famille
0.0
0.2
0.4 RS1
0.6
0.8
1.0
5.2 Coecients de dtermination ou rapports de corrlation entre les variables du chier vie et les deux premires variables de synthse issues de son analyse de Hill et Smith
Fig.
On constate ainsi sur le premier axe, que plus on est g et plus on regarde la tlvision (voir sur le cercle des corrlations) et qu'en mme temps on a tendance penser que la famille est le seul endroit o l'on se sente bien (oui dans les graphiques de type ACM pour la variable famille du ct de la che ge) scatter.mix.cr(mix.vie) scatter.mix.numeric(mix.vie) scatter.mix.categorical(mix.vie)
41
logement
age
television
Fig. 5.3 Cercle des corrlations des variables numriques du chier vie avec les variables de synthse issues de son analyse de Hill et Smith
42CHAPITRE 5.
sexe
q q q qq q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q qq q q q q qq q q q q q q q q q q q q q q q q q q
famille
q q qq q q q q q q
q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q
q q q q q
femme homme
q q q q q q q
q q
q q
q q q q q
oui
q q q q q
q q q qq
q q q
q q
q q q q q
q q
non
qq q q q
q qq q
q qq q q q q
q q q
magneto
q q q qq q q q q q q q q q q q q q q q q qq q q q q q q qq q q q q q q q q q q qq q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q
mauxtete
q q qq q q q q q q
q q q q q q q q q qq q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q
non
q q q q
q q q q q
oui
q q q q q q q q q q q
q q q q
q q q q qq
non
q q
oui
q qq q q
qq q q q q
q qq q q q q
q q q
maldos
q q qq q q q q q q
restrictions
q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q qq q qq q q q q q q q q q q q q q q q q q q q q q q qq
q q q q q q q q q q q q q q q q q
q q q q q q q q q q qq q q q q q q qq q q q q q q q q q
q q
oui
q
q q
oui
q q q q q q
qq q q q q q q q q q q q q q q q q q
non
q q q
q q q q q qq
non
q qq
q qq q
q q q
q q q
5.4 Reprsentation de type ACM pour les variables qualitatives du chier vie et les deux premires variables de synthse issues de son analyse de Hill et Smith
Fig.
Chapitre 6
L'analyse des Correspondances Simples
Cette mthode, assez spcique, a t utilise dans des contextes varis par l'cole d'analyse des donnes " la franaise" et reste trs employe par les praticiens des sciences sociales et humaines. ce titre, nous lui accordons un dveloppement.
43
44
CHAPITRE 6.
Tab.
6.1 Tableau crois des couleurs yeux et cheveux Cbrun Cchatain Croux Cblond Ymarron 68 119 26 7 Ynoisette 15 54 14 10 Yvert 5 29 14 16 Ybleu 20 84 17 94
c'est le cas avec le chier couleur), on explore la structure du tableau en comparant ses lignes en termes de frquences. Pour de petits tableaux tels que celui qui nous sert d'exemple, c'est largement susant, mais lorsque lignes et colonnes sont nombreuses, cette tude devient complexe.
Exercice 8
Les commandes R ci-dessous permettent d'importer le tableau couleur, de calculer la statistique du chi-carr et les frquences correspondant chaque ligne du tableau. Interprter ces rsultats.
couleur<-read.table("couleur.csv",header=T,sep=" ;",dec=",") chisq.test(couleur) sweep(couleur,1,apply(couleur,1,sum),"/")
6.4.
45 yeux et cheveux % en lignes Croux Cblond 0.1182 0.0318 0.1505 0.1075 0.2188 0.2500 0.0791 0.4372
Tab.
6.2 Tableau de prols des couleurs Cbrun Cchatain Ymarron 0.3091 0.5409 Ynoisette 0.1613 0.5806 Yvert 0.0781 0.4531 Ybleu 0.0930 0.3907
pas utiliser d'a priori, pouvons-nous dnir un scoring optimal, qui nous aiderait alors mieux comprendre la structure du tableau de donnes ?
L'AFC est une mthode permettant de dnir pour un tableau crois un scoring sur les colonnes 3 tel que les scores moyens des lignes (obtenus en utilisant les frquences du tableau des prols) soient les plus discriminants possible, au sens de la variance de ces scores moyens.
Dnition 9
Remarque 6
Si on dcide de chercher l'inverse un scoring des lignes optimal dans le sens qu'il fournisse les scores moyens les plus discriminants possibles pour les colonnes, on retrouve, une dilatation prs, les mmes rsultats. L'AFC est une mthode symtrique pour les lignes et les colonnes du tableau.
des contraintes de standardisation particulires la gure prsente ne donne pas exactement ces scores, mais une version "dilate" an de les considrer de faon symtrique, voir le dtail dans l'aide la fonction score.coa
3 soumis 4 En fait
46
CHAPITRE 6.
Rows
Ybleu
Yvert
Ynoisette
Ymarron
Cblond
Croux
Cchatain
Cbrun Columns
d = 0.5
6.1 Reprsentation des scores optimaux des colonnes et des scores moyens de lignes pour l'AFC du chier couleur
Fig.
6.5.
47
Exercice 9
6.2.
Exercice 10
Le chier television.csv correspond au nombre d'heures de diusion par les principales chanes de tlvision franaise (en colonnes) des sports majeurs (en lignes). Raliser l'AFC de ce jeu de donnes Quelle dimension de reprsentation choisir ? Reprsenter uniquement le premier score lignes et colonnes. Quel est leur signication ? Faire une reprsenttion graphique deux dimensions des scores 2 et 3. Qu'en pensez-vous ?
Exercice 11
Le jeu de donnes sarcelles (plus exactement sa composante sarcelles$tab) fourni par le package ade4 croise une information temporelle et une
48
CHAPITRE 6.
d = 0.5
Holidays
Jointly
Wife
Dinner Breakfeast
Official Alternating
Main_meal Laundry
Driving
Husband
Repairs
6.2 Reprsentation simultane des scores lignes et colonnes ( la mme chelle) de l'AFC du chier housetasks
Fig.
6.6.
49
information spatiale quant la prsence de ces oiseaux en Europe. Raliser l'AFC de ce jeu de donnes. Interprter ces rsultats. Pourquoi serait-il intressant de disposer d'une carte et quelle reprsentation graphique pourrait-on envisager ?
50
CHAPITRE 6.
Annexe A
Installation du logiciel R et du package ade4
A.2 Utilisation de R
Utiliser le menu dmarrer, puis Tous les programmes, puis R, puis R 2.0.0. Le logiciel s'ouvre alors et une fentre "Rconsole" apparat. Il faut indiquer au logiciel R dans quel rpertoire windows il doit aller chercher les chiers (en particulier les jeux de donnes) dont nous avons besoin et o les sauvegarder galement ; ce rpertoire est dit rpertoire de travail. Dans le menu droulant "File", existe une option "Change dir..." qui par l'intermdiaire d'une arborescence permet de choisir le rpertoire qui nous convient (par dfaut c'est C :\Program Files\R\rw2000). On peut alors taper des commandes en face du "prompt >" qui s'inscriront en rouge, alors que les rponses de R apparaitront en bleu. Lorsque la squence de travail est termine, il est bon de sauvegarder les objets R crs pour un usage ultrieur ce qui se fait par l'intermdiaire du menu 51
52ANNEXE A.
"File" avec l'option "Save Workspace". Lors d'une prochaine sance, on utilisera l'option "Load Workspace" du menu "File" an de charger ces objets.
Annexe B
Quelques fonctions R
scatter.mix.cr<function(obj.dudi,xax=1,yax=2,...) plot(obj.dudi$cr[,c(xax,yax)],type="n",xlim=c(0,1),ylim=c(0,1),...) text(obj.dudi$cr[,c(xax,yax)],lab=row.names(obj.dudi$cr),cex=0.75) scatter.mix.numeric<function(obj.dudi,xax=1,yax=2,...) indexation<-obj.dudi$index=="q" numero<-match(seq(1,length(obj.dudi$index))[indexation],obj.dudi$assign) noms<-row.names(obj.dudi$co[numero,c(xax,yax)]) s.corcircle(obj.dudi$co[numero,c(xax,yax)],label=noms,...) scatter.mix.categorical<function(dudi.obj,xax=1,yax=2,csub=2,possub="topleft",...) def.par<-par(no.readonly=TRUE) on.exit(par(def.par)) tabcomplet<-eval(as.list(dudi.obj$call)[[2]],sys.frame(0)) indexation<-dudi.obj$index=="f" oritab<-tabcomplet[,indexation] nvar<-ncol(oritab) par(mfrow=n2mfrow(nvar)) for(i in 1 :nvar)s.class(dudi.obj$li,oritab[,i], xax=xax,yax=yax,clab=1.5,sub=names(oritab[i],csub=csub,possub=possub,cgrid=0,csta=0)
53
54
ANNEXE B.
QUELQUES FONCTIONS R
Annexe C
Quelques jeux de donnes d'ade4
Les jeux de donnes d'ade4 permettent de mettre en oeuvre les techniques vues dans ce document. An de pouvoir analyser ces jeux de donnes, on doit faire appel au package ade4 avec library(ade4) les dclarer disponible par exemple pour le jeu de donnes mariages avec data(mariages) voir les informations dtailles avec ?mariages Les jeux de donnes suivants sont mon sens les plus simples (c'est--dire qu'ils ne rclament pas de connaissances bio-cologiques pointues : mariages atlas rhone veuvage chats skulls syndicats morphosport fruits ecomor chazeb clementines 55
ANNEXE C.
Bibliographie
[1] Escouer, Y. (1987) The duality diagram : a means of better practical applications In Development in numerical ecology, Legendre, P. & Legendre, L. (Eds.) NATO advanced Institute, Serie G. Springer Verlag, Berlin, 139-156. [2] Mardia K., Kent J. et Bibby J. (1979) Multivariate analysis. Academic Press. [3] Baccini A. et Besse Ph. (1999) Statistique descriptive multidimensionnelle Publications du Laboratoire de Statistique et Probabilits, Universit Paul Sabatier Toulouse . [4] Lebart L., Morineau A. et Piron M. (1995) Statistique exploratoire multidimensionnelle. Dunod. [5] Foucart T. (1997) L'analyse des donnes mode d'emploi. Presses Universitaires de Rennes. [6] Ramsay J.O. et Silverman (19 ? ?) Functional data analysis. Springer-Verlag. [7] Tenenhous M. et Young F.W. (1985) An analysis and synthesis of multiple correspondence analysis ; optimalsclaing, dual scaling homogeneity analysis and other methods for quantifying categoricalmultivariate data. Psychometrika, 50, p.91-119. [8] Champely S. (2003) Statistique vraiment applique au sport. Editions de Boeck. [9] Venables et Ripley (1999) Applied statistics with S+.
57