Statistiques Avec Rgui

Introduction l'analyse multivarie (factorielle) sous R
Stphane CHAMPELY 7 septembre 2005
Table des matires
1 Introduction
1.1 1.2 1.3 2.1 2.2 2.3 2.4 2.5
Les donnes multivaries . . . . . . . . . . . . . . . . . . . . . . . L'approche factorielle des donnes multivaries . . . . . . . . . . Le logiciel R et le package ade4 . . . . . . . . . . . . . . . . . . . . . . . . . . de synthse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
5 5 6
2 Analyse en Composantes Principales
2.6 3.1 3.2 3.3 3.4 3.5 3.6 4.1 4.2 4.3 4.4 4.5 5.1 5.2 5.3
Les donnes multivaries quantitatives . . . . . . . . Une premire thorie de l'ACP : trouver une variable Raliser l'ACP avec ade4 . . . . . . . . . . . . . . . Solution du second ordre de l'ACP . . . . . . . . . . Les diagnostics . . . . . . . . . . . . . . . . . . . . . 2.5.1 Choix de la dimension de reprsentation . . . 2.5.2 La qualit de reprsentation . . . . . . . . . . Diverses remarques sur l'ACP . . . . . . . . . . . . . Les donnes multivaries homognes . . . La gomtrie de l'ACP centre . . . . . . Raliser l'ACP centre avec ade4 . . . . . Diagnostics : les contributions l'inertie . Le biplot . . . . . . . . . . . . . . . . . . . Pour en nir avec les donnes homognes Les donnes multivaries qualitatives . Une vision thorique proche de l'ACP Raliser l'ACM avec ade4 . . . . . . . Solution du second ordre de l'ACM . . Quelques remarques sur l'ACM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7 8 10 11 16 16 18 19
3 Une variante : l'ACP centre
21
21 22 22 23 25 26
4 L'Analyse des Correspondances Multiples
29
29 30 31 33 34
5 Une gnralisation : l'analyse de Hill et Smith
Les donnes multivaries mixtes . . . . . . . . . . . . . . . . . . . Analyser des donnes mixtes . . . . . . . . . . . . . . . . . . . . Raliser l'analyse mixte avec ade4 . . . . . . . . . . . . . . . . . 3
37
37 37 38
4 5.4 6.1 6.2 6.3 6.4 6.5 6.6
TABLE DES MATIRES
Les reprsentations graphiques dans l'analyse mixte Le tableau crois . . . . . . . . . . . . . . . L'analyse habituelle d'un tableau crois . . Une vision thorique base sur le "scoring" Raliser l'AFC avec ade4 . . . . . . . . . . Solution du second ordre de l'AFC . . . . . Diverses remarques sur l'AFC . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
38
6 L'analyse des Correspondances Simples
43
43 43 44 45 47 49
A Installation du logiciel R et du package ade4

A.1 A.2 A.3 A.4 Installation de R pour Windows . Utilisation de R . . . . . . . . . . Installation du package ade4 . . . Utilisation d'ade4 . . . . . . . . .
51
51 51 52 52
B Quelques fonctions R C Quelques jeux de donnes d'ade4
53 55
Chapitre 1
Introduction
1.1 Les donnes multivaries

Les donnes sont des mesures eectues sur des units statistiques (individus, animaux, objets, organisations sportives). En premire approche, la nature de ces mesures est soit qualitative (les units appartiennent des catgories) soit quantitative (nombres). On n'utilise pas le mme type de technique statistique suivant la nature des donnes. Lorsqu'une seule mesure est prise sur chaque unit on parle de contexte univari, s'il y en a deux on parle de contexte bivari, au-del, il s'agit d'un contexte multivari. Nous verrons tout d'abord des mthodes dvolues des donnes multivaries uniquement quantitatives, puis des donnes uniquement qualitatives, nous aborderons rapidement le problme mixte et nous nirons par un problme multivari spcique, celui de l'tude d'un tableau crois.
1.2 L'approche factorielle des donnes multivaries

Plusieurs mthodes statistiques multivaries existent mais nous nous concentrerons dans cette introduction sur l'approche dite factorielle. En deux mots, elle consiste rsumer les direntes mesures par un nombre faible de variables de synthse (idalement une ou deux) qui retiennent l'essentiel de l'information. On peut alors tudier ces variables de synthse pour elles-mmes, c'est--dire les employer par la suite dans des rgressions par exemple ou le plus souvent les utiliser pour reprsenter graphiquement (1) les relations entre les variables originelles et (2) les proximits entre les units statistiques. Cette possibilit d'avoir une reprsentation graphique de la structure d'un grand jeu de donnes autorisant une interprtation relativement intuitive a fait le succs de la mthode. 5
CHAPITRE 1.
INTRODUCTION
1.3 Le logiciel R et le package ade4

Impossible d'imaginer raliser des analyses multivaries factorielles la main ou mme la calculatrice ou avec un tableur. La plupart des logiciels statistiques professionnels possdent de telles options mais (1) ils cotent chers, (2) ils sont parfois peu exibles, en particulier en ce qui concerne les reprsentations graphiques et (3) il existe des approches assez direntes de l'analyse multivarie factorielle et en particulier il y a une nette dirente entre l'approche franaise et l'approche anglo-saxonne (qui elle-mme se subdivise en de nombreuses tendances). Le choix du logiciel R, malgr sa complexit de prise en main, permet un grande richesse technique et le package ade4 est sans doute ce qui se fait de mieux en analyse multivarie factorielle sur le march, tout en tant gratuit ! Ce package ade4 a t ralis par D. Chessel et son quipe du laboratoire de Biomtrie de l'universit Lyon1. Ce package permet de raliser de nombreuses analyses, dont nous ne verrons qu'une petite partie, il est en particulier l'un des rares logiciels permettre de raliser des analyses multi-tableaux et des analyses de donnes multivaries spatialises. Les outils de reprsentation graphiques sont sans quivalent et la thorie mathmatique sous-jacente a t profondemment unie par les auteurs. Il convient donc, pour suivre cette introduction l'analyse multivarie en apprenant simultanment raliser concrtement les propositions, d'installer le logiciel R et le package ade4. On trouvera dans l'annexe A un guide rapide d'installation de R (pour windows, dsol les lles) et de ade4.
Chapitre 2
Analyse en Composantes Principales
2.1 Les donnes multivaries quantitatives

Le jeu de donnes monde84 est fourni avec le package ade4 sous la forme d'une structure de donnes (une "class") qu'on appelle un "dataframe", qui correspond la notion de tableau. Pour le rendre accessible 1 , l'acher et obtenir des informations : data(monde84) monde84 ?monde84 Ce dataframe comprend donc 5 mesures dmographiques (PIB, croissance de la population. . .) en colonnes concernant 48 pays en lignes. Ces mesures tant toutes numriques, nous sommes dans un contexte dit multivari quantitatif. On peut lancer une premire vague d'analyses statistiques, indispensable mais parfois malheureusement nglige, en s'intressant dans un premier temps sparment chaque variable : attach(monde84) summary(monde84) hist(pib) hist(log(pib)) hist(croipop) hist(morta) hist(log(morta)) hist(anal) hist(log(anal+1))
1 Attention,
il faut pralablement avoir charg le package ade4
8 hist(scol)
CHAPITRE 2.
ANALYSE EN COMPOSANTES PRINCIPALES
La premire conclusion serait donc d'eectuer quelques transformations an de rendre les distributions sinon normales du moins plus symtriques. D'o la cration d'un second data.frame monde2. monde2<-data.frame(log(pib),croipop,log(morta),log(anal+1),scol) dimnames(monde2)<-list(dimnames(monde84)[[1]], c("lpib","croipop","lmorta","lanal","scol")) Dans un second temps nous regardons les relations deux deux entre ces nouvelles variables mais aussi entre les variables non transformes. cor(monde84) cor(monde2) plot(monde84) plot(monde2) On voit que les transformations on permis d'obtenir des relations plus linaires entre les variables (gure 2.1). La statistique multivarie se prte en eet mieux l'analyse de relations linaires et de variables de distribution symtrique. On va donc privilgier le dataframe monde2. Mais comment tudier globalement les relations entre cinq variables et non plus deux deux ? Comment connatre les ressemblances et dissemblances entre les pays ? Ce qui les fonde ? L'analyse multivarie dite Analyse en Composante Principales (ACP) permet de rpondre de telles questions !
2.2 Une premire thorie de l'ACP : trouver une variable de synthse

La premire faon d'expliquer l'ACP est de la prsenter comme une mthode qui permet de construire une variable ressemblant le plus possible toutes les variables du tableau tudi. On appellera cette variable de synthse une composante principale.
Dnition 1 (composante principale)
La composante principale est une nouvelle variable qui a pour proprit d'tre de corrlation maximum avec l'ensemble des variables du tableau tudi. Plus prcisment, la somme des carrs de corrlations 2 de cette variable avec les variables originelles est maximise. Ce maximum est le pouvoir de synthse de cette variable appel valeur propre.
Suivant les logiciels, cette composante principale, qui a toujours une moyenne nulle, peut tre de variance 1 ou de variance gale la valeur propre. Notons que cela ne change rien la proprit de maximisation.
2 Le
carr du coecient de corrlation est appel coecient
de dtermination
2.2. UNE PREMIRE THORIE DE L'ACP : TROUVER UNE VARIABLE DE SYNTHSE
0
q qq q q qq q qq q
20
40
q q q q qq q q q q qq q
2
q q q
4
q q q q q q qq q q q qq q qq q q q qq q qq qq q q qq q qq q q q q q q q q q q q q qq q q q q q q q q q qq q q q q q q q q q q q q q q q q q qq q q q qqq q q qq q q q q q q q q q q q qq qq q q q q q qq q qq q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q q q q qq q q q q q q q q q q q q q q q q q q q q qq qq q q q q qq q q q q q q q q q q
lpib
40
q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q q q q q q qq q qq q q q qq q q q qq q q qq q q q q q q q q q q q q q q q qq q q q q q q qq q qq
qq q q q q q qq q q q q q q q qq q q q qq q q q q q q q q qq qq q q
qq q q q q q q q q qq q qq q qq qq qq q q q q q q qq q q q q q
q q q
q q q qq q q q qq q q q q q q q q q qq q q q qq q q q q qq q q q q qq q q q q q qq q q qq q q q q q q q q q q
qq
croipop
q q qqq qqqq qq q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q qq q q q q qq q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q
q qqq q q qq q qq q q q q q qq qq q qq q q qq q q q q q q q q q q q q q q q q qq q
20
q q q q q q q q q
q q
lmorta
q qq q q q q q q q q q q q q q q q qq q q q q qq q
q q q q q q q q q q
q qqq q q qq q q q qq q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q qq q qq q q q q q q q qq
q q q q q
lanal
q q q q q q q q q q q q qq qq q q q q q q qq q q qq q q q q q q q q qq q q
q q qq qq q q q qq q q q q qq q qq qq q q q q q q q q qqq q q qq q q q q q qq qqq q q q q q q q q q q
qq q qq q q qq q q q q q q q q q q q q q q q q qq q q q q q qq q q q q q q q q qq q q q q qq q q q q q q q q q
scol
20 60 100
5 6 7 8 9
2.0
3.5
5.0
Fig.
2.1 Nuages de points entre les variables du dataframe monde2
20
60
100
2.0
q qq q q
3.5
q q q q q q q q q q q qq q q q q qq q q q q qq q qq
5.0
5 6 7 8 9
q q q q q q
10
lpib
q q q
CHAPITRE 2.
qq q q q q q q q q q q q q q
40
croipop
q
q q q q q q q q q q q q
30
q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q
q q q q q
20
q q q q
10
q q q q q
q q q
q qq q qq
q q
1.5
1.0
0.5
0.0 score
0.5
1.0
1.5
q
1.5
1.0
0.5
0.0 score
0.5
1.0
1.5
q qq q
5.0
lmorta
lanal
4
q q q
q q q qq qq q q q q q qq q q
q q qq q q q qq qq q q q q q
q q
4.0
q q q q q q
q q q
q qq q q q q q q q q q q q q q q q q
q q
3.0
1
q qq qq q q q q
2.0
q q q q
1.5 100
1.0
0.5
0.0 score
0.5
1.0
1.5
1.5
1.0
0.5
0.0 score
0.5
1.0
1.5
scol
q q
q q q q q q q q q q q q q q q q q
80
q q q q qq q q
q q
60
40
20 1.5
1.0
0.5
0.0
0.5
1.0
1.5
2.2 Nuages de points entre les variables du dataframe monde2 et la composante principale issues de son ACP
Fig.
On voit dans la gure 2.2 une reprsentation graphique de cette proprit : chaque variable originelle est couple dans un nuage de points la composante principale. Toutes les variables sont trs bien relies linairement, parfois positivement (croipop, lmorta, lanal) parfois ngativement (lpib, scol) avec la premire composante principale. On peut interprter cette variable de synthse comme une mesure de (non-)dveloppement des pays.
2.3 Raliser l'ACP avec ade4

La programmation du package ade4 est base sur une thorie [1] dite du schma de dualit (en anglais duality diagram, abrg dans ade4 en dudi ). La fonction qui permet de raliser une ACP dans R s'appelle dudi.pca. Comme toutes les fonctions R, dudi.pca cre un objet, que l'on peut acher, reprsenter graphiquement ou r-utiliser dans d'autres analyses. On demande lors de l'excution de la fonction dudi.pca de chosir le nombre d'axes slectionner, nous en
2.4.
SOLUTION DU SECOND ORDRE DE L'ACP
11
parlerons plus tard, mais il s'agit ici de simplement rpondre : 1 et de valider (taper la touche Entre). pca.monde2<-dudi.pca(monde2,center=T,scale=T) score.pca(pca.monde2) Tout objet de "class" dudi a pour valeur les composants suivants : $eig qui donne une indication sur le pouvoir de synthse de l'analyse de ce dataframe, $c1 et $co 3 qui donnent des informations sur la structure des colonnes du dataframe et $l1 et $li 4 qui donnent des informations sur la structure des lignes du dataframe. An d'obtenir la composante principale, de variance 1 (dans $l1) ou de variance gale la valeur propre (dans $li) et la reprsenter graphiquement, on emploie : pca.monde2$l1 pca.monde2$li dotchart(pca.monde2$li[,1],labels=dimnames(pca.monde2$li)[[1]]) et pour lire les corrlations de cette variable de synthse avec les autres variables et la valeur propre on utilise pca.monde2$co pca.monde2$eig La variable du tableau la plus relie la composante principale est lmorta (r = 0.96) et la moins relie croipop (avec quand mme r = 0.79). La somme des carrs de ces corrlations est de 4.07377747, sur un total au maximum de 5, on dit que la premire composante principale explique 4.07/5=81% de l'information 5 du tableau monde2, ce qui est remarquable.
2.4 Solution du second ordre de l'ACP

L'objet de "class" "list" olympic fourni par le package ade4 comprend dans sa composante olympic$tab les performances de 33 dcathloniens lors des (10) preuves des jeux olympiques de 1988. Commenons par un rapide coup d'oeil sur les corrlations entre ces mesures : data(olympic)
3 ces deux vecteurs sont proportionnels, suivant l'image que l'on souhaite avoir de la structure des colonnes, l'un convient mieux que l'autre (voir plus loin) 4 Mmes remarques que ci-dessus, ces deux vecteurs sont aussi proportionnels 5 On parle aussi d'inertie
12
CHAPITRE 2.
6.5 7.0 7.5

q q q q qq q q q q qq q qq q q qq qq qq q qq q q q q q q q q qq q qq q q qq q q q q qq q qq q q q q q q q q q q q q q qq q q q q q qq q q qq q q q qq q q q q q q q q q q qq q q q q q q q qq q q q q q qq q q q q q q q q q q q q qq q q qq qqq q q q q q q q q qq q q q q q q q q q qq q q q q q q q q q q q q q q qq q q qq q q q q q q q q q q qq q q q q qq q q q q qq q q q q q q q q q q q q q qq q q qqq q q q q qq q q q q qq q qq q q q q q q q q q qq q q q q q q q q q q q q q q q q q q qq q q q q q q q
1.8
q
2.0
2.2
q q q qqq q q q q q q q qq q q q q q q q qqq q q q q q q q q q q q q q q q qq q q q qq q q q q qq q q q q q q q q q q q q q q q q q q
6.5 7.0 7.5
qq q q q q q q
long
q
qq q
q qq q q qq q q qq q q qqq q q q q q
q q
q q
2.2
q q
2.0
1.8
q q q q qq q q qq q qq q q qq q q q q qq q q q q q q qq q qq qq qq q
haut
qq q q q q q q q qq q
q q q q q q q q q q q q q qq q qq q q q q q qq q q q q q q q
q q q q q q q q
q q qq q q q q q qq qq q
10.6
11.0
11.4
11
13
15
48
50
2.3 Extraits des Nuages de points entre les variables du dataframe olympic$tab
Fig.
cor(olympic$tab) plot(olympic$tab) Notons dans la gure 2.3 que les performances aux 100m et 110m haies sont lies positivement, que le lancer du poids est galement reli positivement au lancer du disque et que le saut en longueur est reli ngativement au rsultat du 100m 6 . Ralisons l'ACP de ce dataframe et dterminons la composante principale. Son pouvoir de synthse est de 3.4182381 sur un maximum possible de 10 soit 34%. On est loin d'avoir puis toute l'information disponible !
6 Interprtons cette corrlation a priori surprenante : une forte valeur de la variable longueur correspond gnralement une faible valeur du 100m. Donc si on saute loin, on met gnralement peu de temps au 100m, les deux performances sont en dnitive lies positivement bien que les variables le soient ngativement. Si la performance au 100m tait mesure en termes de vitesse plutt que de temps cela serait plus simple . . .
48
q q q qq q q q q q qq q qq q q q q qq q q q q q q q
q q
q q
q q qq q q q q qq q q q qq q q
400
50
11
13
poid
q qqq q q qq qq qq qq qq q qq q q q q q q q
15
q q qq q q q q q q q qq q q q q qq q q q q q q q q q
10.6
11.0
100
qq q q qq q q q q q q qq qq q qqqq q qq q q q q
11.4
2.4.
13
pca.olympic<-dudi.pca(olympic$tab,center=T,scale=T) pca.olympic$eig On va donc rechercher une autre variable de synthse nous permettant d'afner notre comprhension de l'preuve du dcathlon. La nouvelle variable de synthse doit nous orir un rsum radicalement neuf, c'est pourquoi on dcide d'employer une contrainte pour la dnir.
Dnition 2
La nouvelle variable de synthse doit tre non corrle la premire - ce qui garantit une information nouvelle - mais doit aussi viser le mme objectif, c'est--dire tre la plus lie possible aux variables originelles. On parle de deuxime composante principale.
Bien sr, elle ne peut tre aussi performante en termes de pouvoir de synthse que la premire dont la recherche se faisait sans contrainte, ce qui explique que la deuxime valeur propre sera toujours plus faible. Le processus peut tre itr, on peut rechercher une troisime variable de synthse, non corrle aux deux premires, optimisant le mme critre. Deux obstacles s'opposent aller trop loin en ce sens : 1. notre objectif tant de rsumer le tableau, on ne multipliera pas les variables de synthse, car remplacer les variables originelles par un grand nombre de variables de synthse (dont l'interprtation est moins immdiate) est contreproductif et 2. il est simple de proposer une reprsentation graphique de la structure sur la base de deux variables de synthse, avec trois cela devient ardu, au del, personnellement, je n'y arrive pas. La reprsentation graphique deux dimensions de la structure des lignes se fait en ralisant un nuage de points croisant les deux variables de synthse (chiers $li), ce qui n'est possible que si on a slectionn deux dimensions lors de la ralisations de l'ACP 7 ! ! ! On parle de plan factoriel des units statistiques. pca.olympic<-dudi.pca(olympic$tab,center=T,scale=T) s.label(pca.olympic$li) On voit sur la gure 2.4 les 33 units statistiques selon les deux composantes principales dont le pouvoir de synthse est de (3.4182381+2.6063931)/10 soit 60% de l'information. La position des individus sur cette image exprime donc une large part de leur proximit originale dans le dataframe olympic$tab. Les concurrents sont ici numrots en fonction du rsultat nal ; on voit ainsi que les meilleurs concurrents sont situs du mme cot ( droite) et les moins bons gauche 8 . Une proprit de l'ACP est que l'individu qui est situ l'origine du graphique est l'individu moyen, c'est--dire celui qui raliserait le rsultat moyen chacune des 10 preuves.
7 Si ce n'est pas le cas, recommencer l'ACP 8 Le numro 1 est cach sous le numro 11
14
CHAPITRE 2.
d=2 17
31 28
18 10 11 1 7 9 16 12 15 14 25 6 29 26 19 27 13 5 8 3 2
20 23 32 30 21 22 24
33
2.4 Plan factoriel : nuage de points des deux premires composantes principales issues de l'ACP du dataframe olympic$tab
Fig.
2.4.
15
disq poid X1500 jave X400
X100 X110 haut
perc
long
Fig.
2.5 Cercle des corrlations de l'ACP du dataframe olympic$tab
Bien sr, il faut aussi se souvenir que 40% de l'information n'est pas exprime sur cette image et donc que la position de certains points peut se rvler trompeuse. On verra dans la section 2.5 comment se prmunir contre ce type d'ennuis. En ce qui concerne les relations entre les variables originelles, elles s'obtiennent indirectement en regardant les relations entre ces variables et les deux variables de synthse. Ainsi, dans le cercle des corrlations (cf gure 2.5), chaque variable originelle est situe suivant sa corrlation sur l'axe des X avec la premire composante principale et sur l'axe des Y avec la deuxime. s.corcircle(pca.olympic$co) Les relations entre les variables originelles sont interprtables en termes de directions, c'est pourquoi ces variables sont souvent reprsentes non comme des points mais en tant que ches. On utilisera la grille de lecture suivante : si deux variables vont dans la mme direction, elles sont corrles positivement, par exemple ici le 100m et le 110m haies,
16
CHAPITRE 2.
si deux variables sont dans des directions opposes, elles sont corrles ngativbement, par exemple le 100m et le saut en longueur et si deux ches sont perpendiculaires, les deux variables sont non corrles, ici le lancer du poids et le 100m Globalement on voit ici ressortir qu'il existe deux groupes de performances, celles qui sont lies la vitesse de l'individu et celles lies sa force. nouveau, il faut se souvenir que seulement 60% de l'information est prsente sur cette image et donc qu'elle n'est pas un reet exact de la situation. Il est bon de se reporter la matrice des corrlations pour vrier les structures repres et d'autres outils proposs dans la section 2.5.
Remarque 1
En ACP, la longueur des ches sur le cercle des corrlations a aussi du sens, elle indique la qualit de reprsentation de la variable concerne sur l'image. Si la che est de longueur 1, la mesure est reprsente 100%. On concentrera donc l'interprtation sur les ches les plus longues.
Remarque 2
Si la solution d'ordre 3 est choisie, il est possible soit d'essayer de lire des reprsentations 3D (mais c'est toujours dicile) ou de raliser les trois reprsentations 2D possibles (mais c'est toujours dicile). Au del de trois, c'est toujours trs dicile . . .
Exercice 1
Le chier courses.csv comprend les rsultats de 51 nations aux jeux olympiques uniquement en ce qui concerne les preuves de courses pieds (100m jusqu'au marathon). Le temps donn est le meilleur temps russi par cette nation jusqu'aux JO de 1984. Raliser l'ACP de ce jeu de donnes. quel pourcentage d'information correspond la premire valeur propre ? La deuxime ? Reprsenter le cercle des corrlations. Les ches vont dans la mme direction, qu'est-ce que cela signie (on parle d' eet taille) ? Reprsenter le nuage des points des units statistiques. Expliquer la position de Singapour, des tats-Unis et du Kenya.
2.5 Les diagnostics

2.5.1 Choix de la dimension de reprsentation
Il faut choisir le nombre de variables de synthse retenir dans l'interprtation. Plusieurs mthodes existent dans la littrature. On peut noter ds prsent que s'il existait une mthode infaillible, je ne donnerai que celle-ci . . . L'information contenue dans le tableau de l'ACP est gale au nombre de variables 9 . Les valeurs propres expriment la qualit du rsum oert par les variables de synthse en s'ajoutant. On peut donc considrer que si l'information dpasse un certain seuil, on s'arrtera. Si le seuil est x 69% 10 , les deux
9 On parle souvent d'inertie dans la littrature de l'analyse factorielle pour dsigner la quantit d'information 10 Un nombre renversant
2.5.
LES DIAGNOSTICS
17
Valeurs propres
0.0
0.5
1.0
1.5
2.0
2.5
3.0
Variables de synthse
Fig.
2.6 boulis des valeurs propres de l'ACP du dataframe olympic$tab
premires variables de synthse dans l'exemple des marathoniens ne constituant que 60% ne sont pas susantes. La rgle de Kaiser repose sur le fait que dans l'ACP, toute variable originelle apporte 1 l'information. Donc toute valeur propre suprieure 1 peut tre considre comme suprieure aux variables originelles. On retiendrait deux valeurs propres dans l'exemple des dcathloniens. Le diagramme des valeurs propres successives (voir gure 2.6) appel boulis des valeurs propres permet de dcider suivant sa forme de la dimension retenue. Parfois un coude apparat trs nettement (et parfois non . . .), ici nous conduisant contenir deux variables de synthse (attention l'eet taille . . .). barplot(pca.olympic$eig,xlab="Variables de synthse",ylab="Valeurs propres") Les statisticiens anglo-saxons ont dvelopp dans un contexte probabiliste de normalit des tests du choix du nombre de valeurs propres (voir [2] p. 235) Faut-il y croire ? Besse [3] propose de raliser des botes moustaches des variables de synthse
18
CHAPITRE 2.
q q q q
q q
q q
4 Axis1
Axis3
Axis5
Axis7
Axis9
2.7 Botes moustaches des composantes principales de l'ACP du dataframe olympic$tab

Fig.
successives (voir gure 2.7). On voit clairement se dessiner les dirences de variance et les variables instables. boxplot(dudi.pca(olympic$tab,center=T,scale=T,nf=10,scannf=FALSE)$li)
2.5.2
La qualit de reprsentation
En ne retenant que les premires variables de synthse, nous rsumons le tableau mais perdons bien entendu une partie de l'information. Il faut souligner que celle-ci n'est pas perdue de faon homogne, certaines parties du tableau peuvent en tre plus victimes ! Ainsi certaines units statistiques seraient moins bien reprsentes que d'autres sur le plan factoriel ou certaines variables sur le cercle des corrlations. L'interprtation en ce qui les concerne ne peut par consquent tre base uniquement sur ces images dformes (il faudra revenir au tableau de dpart et la matrice des corrlations).
2.6.
DIVERSES REMARQUES SUR L'ACP
19
Heureusement, il est possible de calculer pour chaque unit statistique (resp. chaque variable) le pourcentage d'information contenu dans les premires variables de sythse par rapport l'information disponible dans le tableau gnral.
Dnition 3
Les cosinus carrs - dits aussi contributions relatives - sont la part d'information retenue par les k premires variables de synthse en ce qui concerne les units statistiques (resp. les variables).
On les obtient grce la fonction inertia.dudi que l'on applique l'objet obtenu suite l'ACP, c'est--dire "en sortie" de la fonction dudi.pca, par exemple pca.olympic. inertia.dudi(pca.olympic,row.inertia=TRUE,col.inertia=TRUE) En ce qui concerne les units statistiques - les lignes du tableau - la composante $row.rel 11 donne ces cosinus carrs pour chaque variable de synthse. On peut l'obtenir de faon cumule dans la composante $row.cum . Pour le cas des dcathloniens o l'on a dcid de retenir deux axes, on voit que le premier dcathlonien sur deux axes n'a que 28.9% de son information reprsente, il n'est donc pas " sa place", en revanche le deuxime qui a 90.1% d'information reprsente est peu dform par l'image oerte. En ce qui concerne les variables, la composante $col.cum nous donne le pourcentage d'information reprsent sur le cercle des corrlations dans la colonne 2. Si le lancer du disque est bien reprsent avec 76.6%, le saut en hauteur l'est trs mal 15.6%. Une troisime variable de synthse permettrait sans doute d'en savoir plus sur cette mesure.
Remarque 3 Exercice 2
Observer comme la longueur des ches sur le cercle des corrlations (Figure 2.5) est directement proportionnelle aux valeurs de la deuxime colonne de la composante $col.cum comme cela a dj t voqu. Utiliser la fonction inertia.dudi sur le chier de l'tat du monde. Il y a un problme, cette fonction "plante" lorsqu'on a slectionn un seul axe. Raliser nouveau l'ACP en conservant deux axes, mais l'analyse des reprsentations se fera sur un seul. Quels sont les pays qui sont les mieux reprsents ? Quels sont les pays les moins bien reprsents ? En ce qui concerne la Chine, quel est son cosinus carr ? Aller voir dans le tableau monde2 et expliquer pourquoi Les variables sont-elles toutes bien reprsentes ?
2.6 Diverses remarques sur l'ACP

L'ACP produit des variables de synthse non corrles. Elles sont parfois employes dans des rgressions multiples, dans des classications automatiques,
11 avec le signe correspondant la variable de synthse, la dernire colonne faisant rfrence un autre type de diagnostic
20
CHAPITRE 2.
dans des analyses de variance ou pour rsumer un grand groupe de variables en quelques unes 12 . L'ACP est une mthode base sur les corrlations et donc sensible aux points extrmes. Les rsultats peuvent tre profondment inuencs par leur prsence. Des versions robustes existent (voir package amap de R). D'aucuns utilisent l'ACP pour reprer des groupes d'individus. Il existe des mthodes spciques : classication automatique, analyse de mlanges, voire mme des mthodes factorielles spciques (voir package amap de R). L'ACP est une mthode base sur des combinaisons linaires des variables originelles, certaines propositions thoriques permettent de relcher cette contrainte (citation Ferraty ou Durand).
12 quoique
dans ce cas une analyse
en facteurs, voir [2] soit probablement plus indique
Chapitre 3
Une variante : l'ACP centre
3.1 Les donnes multivaries homognes

Le chier piscine.csv correspond un sondage eectu en 1999 sur la clientle des piscines lyonnaises en vue de connatre ses souhaits sur des investissements futurs concernant ces tablissements. Divers quipements/installations tant proposs, les sonds pouvaient noter ces propositions sur une chelle de Likert de 1 (pas du tout souhait) 5 (vraiment trs souhait). Dans ce chier, il y a 85 individus qui prsentent des donnes manquantes, ils seront exclus de l'analyse. Le package ade4 ne fournit pas en eet de mthodes pour traiter ce type de problme. piscine<-read.table("piscine.csv",header=TRUE,sep=" ;",dec=",") print(piscine) dim(piscine) piscine2<-na.omit(piscine) dim(piscine2) Avec ces donnes, non seulement les corrlations entre les variables ont un sens, mais les variables sont directement comparables entre elles puisque de mme nature. Ainsi les moyennes indiquent des niveaux de souhaits dirents et les variances l'homognit des rponses des sonds (plus la variance est grande, plus leurs rponses dirent). L'ACP vue jusqu' prsent limine ces deux types d'information en se concentrant uniquement sur les corrlations. Nous allons prsent envisager une mthode d'analyse qui retient l'information concernant les variances c'est--dire qui donne plus d'importance aux variables les plus disperses. 21
22
CHAPITRE 3.
UNE VARIANTE : L'ACP CENTRE
3.2 La gomtrie de l'ACP centre

An de dvelopper cette nouvelle mthode ilest ncessaire de reconsidrer les choses sous un angle gomtrique. Chaque ligne du tableau piscine peut tre vu un point dans un espace de dimension 13 (certes dicilement visualisable). Il faut donc imaginer un nuage de 615 points dans cet espace. Existe-t-il une direction d'allongement de ce nuage qui indiquerait donc une structure ? Pour le savoir, on peut choisir un axe et projeter chaque point perpendiculairement sur cet axe. Si les points projets sont loigns, cet axe est direction d'allongement. On va identier la notion d'allongement la notion d'loignement des points et plus prsicment la notion statistique de variance de ces projections. Il s'agit donc, parmi toutes les directions possibles, de trouver l'axe qui maximise cette variance c'est--dire l'allongement. On dmontre que la direction maximisant la variance passe par le point moyen et qu'elle peut s'obtenir par une mthode mathmatique dite diagnolisation en valeurs propres 1 . Lorsque les variables sont mesures dans des units direntes comme c'tait le cas dans le prcdent chapitre, on commence par standardiser les mesures, c'est--dire qu' chaque variable est retire sa moyenne et qu'elle est divise par son cart-type. La recherche de la direction d'allongement est alors strictement quivalente l'ACP, c'est--dire que les points projets sont les valeurs de la variable de synthse, la variance maximum atteinte est la valeur propre et la direction d'allongement est proportionnelle aux corrlations. Mais lorque les units sont comparables, l'tape initiale de standardisation est inutile et gomme en particulier l'information sur les dirences de variances. On doit appliquer la mthode de recherche de la direction d'allongmenet sans tranformation du tableau initial, on parle alors d'ACP centre.
Dnition 4
L'ACP centre ou ACP sur matrice de covariances d'un tableau n lignes et p colonnes consiste chercher dans un espace de dimension p une direction dit axe principal sur laquelle les n points correspondant aux lignes du tableau puissent tre projets, ces projections prsentant une variance maximale. Une seconde direction orthogonale la premire maximisant le mme critre consitue la solution du second ordre de ce problme.
3.3 Raliser l'ACP centre avec ade4

En modiant l'argument "scale" de la fonction dudi.pca, on ralise cette analyse. pca.piscine<-dudi.pca(piscine2,center=TRUE,scale=FALSE) La reprsentation des units statistiques en deux dimensions - le plan factoriel - s'obtient comme prcdemment, l'origine reprsente nouveau le point
1 D'o
le nom des pouvoirs de synthse
3.4.
DIAGNOSTICS : LES CONTRIBUTIONS L'INERTIE
23
moyen et les proximits sur la reprsentation graphique s'interprtent en termes de proximits dans le tableau original. On ne peut ici tirer grand chose du graphique (non prsent) car dans le cadre d'un sondage la position d'un individu ne nous intresse pas. s.label(pca.piscine$li) En revanche, la reprsentation des relations entre les variables est un peu dirente car les variables originelles ne sont pas situes en fonction de leurs corrlations avec les variables de synthse mais de leurs covariances. Globalement, les interprtations en termes de directions restent valables, mais les ches ne sont plus contenues dans un cercle de longueur 1 et leur longueur n'est plus forcment gage de leur qualit de reprsention. On ne peut plus faire l'conomie de la lecture des cosinus carrs. On voit sur la gure ?? se dgager un groupe de variables relies des quipements utilisant l'eau pour le bien-tre des clients et un second groupe constituant un "ple social". s.arrow(pca.piscine$co)
3.4 Diagnostics : les contributions l'inertie

Nous allons maintenant souligner que la longueur des ches, si elle ne sut plus exprimer la qualit de reprsentation donne quand mme une indication sur l'importance de la variable dans la construction de l'image obtenue, ce qu'on appelle sa contribution l'inertie. En eet, il existe une troisime prsentation de l'ACP o les p variables originelles X1 , X2 . . .Xp sont combines par un systme de coecients a1 , a2 . . .ap pour donner une variable de synthse a1 X1 + a2 X2 + + ap Xp .
Dnition 5
L'ACP peut tre vue comme la recherche d'une combinaison linaire de variance maximum des variables originelles soit centres (dans l'ACP sur matrice de covariances) soit standardises (dans l'ACP sur matrice de corrlations). On peut ensuite rechercher une deuxime combinaison linaire maximisant le mme critre avec une contrainte d'orthogonalit entre les systmes de coefcients de la premire et la deuxime.
Remarque 4
+ a2 p
2 On utilise une contrainte de taille pour ces coecients a2 1 + a2 + = 1, sinon, il surait de multiplier ces coecients par 2 (par exemple) pour que la variance de la variable de synthse soit multiplies par 22 = 4.
On peut donc calculer les variables qui ont le plus particip la construction de chaque variable de synthse par l'intermdiaire des quantits a2 j . Ces quanti-
24
CHAPITRE 3.
d = 0.5 Jacuzzi Sauna Hydroth
Gym Aquagym
UV
Animation Rela Snack Bar Garderie Espace Discuss
3.1 Reprsentation des variables suite l'ACP centre du dataframe piscine2

Fig.
3.5.
LE BIPLOT
25
ts dites contributions l'inertie sont calcules par la fonction inertia.dudi, leurs valeurs rsidant dans la composante $col.abs 2 .
Dnition 6
Les contributions l'inertie des variables (resp. des lignes) dterminent l'importance de chacune dans la construction des variables de synthse, et donc la signication leur accorder.
On voit ainsi en ce qui concerne l'exemple des piscines que la contribution l'inertie de la variable UV la construction de la premire variable de synthse est de 5.11% et la deuxime est de 0%. La premire variable a t contruite par l'ensemble des variables (caractristique d'un eet taille), en revanche, la seconde l'a t essentiellement par les variables Jacuzzi, Sauna, Hydroth, Discuss. inertia.dudi(pca.piscine,col.inertia=TRUE,row.inertia=FALSE) La longueur des ches sur le graphique des covariances rete ces contributions l'inertie, donc une variable signiante pour la construction du graphique et son interprtation possde une che longue. En ACP on peut donc se passer de la lecture fastidieuse des contributions, elles sont visibles 3 .
3.5 Le biplot
Un laboratoire pharmaceutique (exemple tir de l'ouvrage trs accessible de Foucart [5]) a ralis une tude du choix de dentifrices auprs de 100 personnes sur les critres suivants : HALE (haleine agrable), TART (limine le tartre), PHAR (vendu en pharmacie), GEN (protge les gencives), BLAN (blanchit les dents), CAR (empche les caries), GOUT (a bon got) et PRIX (prix d'un tube). Les notes donnes varient de 1 (pas important) 5 (trs important). Le chier dentifrices.csv comporte donc 100 lignes et 8 colonnes.
Exercice 3

Raliser l'ACP de ce jeu de donnes Que choisir : ACP sur matrice de covariances ou de corrlations ? Quelle dimension nous incline retenir l'boulis des valeurs propres ? Produire le plan factoriel des individus. Quel est son intrt en l'espce ? Produire le graphique des covariances. Quelles sont les liaisons entre les variables ? Produire les diagnostics. Quelles sont les variables importantes pour la construction du graphique. Quelles sont les variables les plus mal reprsentes sur ce graphique ?
Nous allons maintenant tudier un graphique qui runit les rsultats concernant les lignes et les colonnes : le biplot (gure 3.2). Il est bas sur une proprit
2 On ne va pas s'intresser aux contributions l'inertie des lignes pour l'exemple des piscines car dans un sondage les individus ne nous intressent pas personnellement 3 C'est mme plus intressant car la plupart des logiciels donnent les contributions l'inertie axe par axe or ce qui nous intresse c'est gnralement la solution classique de dimension 2, qui se traduit dans la longueur de la che !
26
CHAPITRE 3.
de l'ACP dite de reconstitution des donnes. on peut dmontrer que le tableau de dpart peut tre reconstitu, au moins de faon approximative, en utilisant les premires variables de synthse et les coecients correspondant. Pour reconstituer la valeur de l'individu 55 (par exemple) par rapport la variable CARI (par exemple), on projette orthogonalement l'unit 55 sur la droite correspondant la variable sur le graphique. On constate que, par rapport au point origine, cette projection est l'oppos de la direction CARI, l'unit dans le tableau a alors trs probablement 4 une valeur plus faible (c'est 1) que la moyenne (3.43) pour cette variable. En revanche, l'unit 59 qui est projete dans la direction de CARI a probablement une valeur (c'est 5) suprieure la mme moyenne. Si un individu comme le 56 a une projection proche de la moyenne, il doit avoir une valeur moyenne, (en fait oui et non, puisque c'est 2). dentifrice<-read.table("dentifrice.csv",header=TRUE,sep=" ;",dec=",") pca.dentifrice<-dudi.pca(dentifrice,center=TRUE,scale=FALSE) scatter(pca.dentifrice)
3.6 Pour en nir avec les donnes homognes

L'analyse de donnes homognes a donc montr que l'ACP est une mthode de dcomposition de la structure d'un tableau qui pouvait tre centr ou standardis. En allant plus loin, le tableau dcomposer peut tre transform de bien des faons. Ainsi, on peut imaginer que prendre le point moyen comme point origine oblig n'est pas toujours judicieux. Dans le package ade4, le jeu de donnes deug2 constitue un exemple trs intressant o des notes d'tudiants doivent plutt tre rapportes 10, ce qui est la pratique usuelle des examinateurs plutt qu' la moyenne du groupe comme le fait auutomatiquement l'ACP (centre ou standardise). Il est galement possible de ne pas centrer le tableau, voir dans le package un exemple avec le clbre jeu de donnes tortues. Le point origine est alors le point zro. On peut parfois retirer du tableau une information dj connue. Ainsi en rgressant chacune des variables originelles sur un groupe de variables considres comme explicatives, il est possible d'analyser les rsidus ce qui donne toute la famille dites des ACP sur variables instrumentales (voir les fonctions pcaviortho ou pcavi dans ade4). Enn, lorsque les variables sont la mme mesure qui est rpte dans le temps, il existe des mthodes factorielles qui sont spciques mais d'une grande complexit (voir [6] si trs motiv).
4 probablement signie ici que le rsultat de l'approximation dpend de la qualit du graphique. Si la reprsentation deux dimensions constitue une grande part de l'information, la reconstitution est bonne
3.6.
POUR EN FINIR AVEC LES DONNES HOMOGNES
27
d=2 CARI
63 11 54 12 87 15 59
PHAR
91 37 53
76 84 5 24
34 90 33 39 70 50 94 41
26 2 21 36 GENC 56 30 18 79 58 67 92 1
TART
85 95 19 97 38 32 47
83
29 6
35 86 100 89 9
65 52 64 98 62 43 99
8 10 51 20 81 7 42 23 93 4 55 45 27
57 69 17 77 74 40
72 78 PRIX 80 68 BLAN 66 14 22 13 48 49 82 73 61 71 GOUT 16 25 60 46 28 31
96
44 88 75
HALE
Fig.
3.2 Biplot de l'ACP centre du dataframe dentifrice
28
CHAPITRE 3.
Chapitre 4
L'Analyse des Correspondances Multiples
4.1 Les donnes multivaries qualitatives

Le chier boubouille.csv 1 contient en ce qui concerne 134 chattes, une mesure d'ge rpartie en classes d'ges, une mesure de fcondit rpartie en classes (nombre de chatons conus dans l'anne) et une mesure, considre elle aussi comme qualitative, du nombre de portes dans l'anne. Remarquons que toutes ces mesures initialement quantitatives ont t transformes en variables qualitatives, ce qui correspond pour le logiciel R la "class" d'objets dite factor 2. boubouille<-read.table("boubouille.csv",header=TRUE,sep=" ;",dec=",") class(boubouille[,"age"]) class(boubouille[,"fecond"]) class(boubouille[,"nbport"]) Ces trois variables doivent bien sr tre initialement tudies de faon univarie, an de voir pour chacune si les catgories ont des frquences observes similaires ou si certaines sont trs rares 3 et quel est le nombre de catgories. Puis, il faut galement tudier, si le nombre de variables n'est pas trop grand, les relations entre ces variables deux deux, ce qui se fait classiquement l'aide de la statistique du chi-carr, avec le test arent. On s'aperoit en particulier que les trois variables considres sont trs lies.
automatique, les mesures sont des chanes de caractres. Par exemple 1 devient un. Sinon, le logiciel confront des nombres considre raison qu'il s'agit d'une mesure numrique. Dans ce cas, il faut forcer la mesure devenir qualitative grce la fontion factor 3 ce qui aura un impact sur l'ecacit de l'analyse
1 qui est une version particulire du chier chatcat du package ade4 2 Pour que la conversion des donnes du chier en factor se fasse de faon
29
30
CHAPITRE 4.
L'ANALYSE DES CORRESPONDANCES MULTIPLES
plot(boubouille[,"age"]) plot(boubouille[,"fecond"]) plot(boubouille[,"nbport"]) chisq.test(table(boubouille[,"age"],boubouille[,"fecond"])) chisq.test(table(boubouille[,"age"],boubouille[,"nbport"])) chisq.test(table(boubouille[,"fecond"],boubouille[,"nbport"]))
4.2 Une vision thorique proche de l'ACP

L'Analyse des Correspondances Multiples (ACM) permet d'tudier des donnes multivaries qualitatives. Elle est susceptible de nombreuses approches thoriques direntes (voir [7] pour une synthse). Je vais privilgier une vision trs proche de la prsentation de l'ACP. Dans l'ACP, on cherche une variable de synthse (numrique) lie avec les variables originelles (numriques elles aussi) ce qu'on formalise l'aide du coefcient de corrlation linaire. Lorsque les variables de dpart sont qualitatives, la liaison avec la variable de synthse (numrique) se quantie en termes de rapport de corrlation.
Remarque 5
Qu'est-ce que le rapport de corrlation (voir [8] pour un dveloppement dtaill de la notion) ? Lorsqu'on cherche si une variable numrique est relie une variable qualitative - mettons que cette dernire ne comprenne que deux catgories - on calcule la moyenne de la variable numrique dans chacun des deux groupes d'units repres par les catgories. Plus ces deux moyennes dirent, plus le comportement de la variable numrique est modie suivant le groupe considr c'est--dire la variable qualitative, donc plus les deux variables sont lies. Le rapport de corrlation correspond la variance de ces deux moyennes (qui quantie leurs dirences et se gnralise au cas de plus de deux groupes) rapporte la variance gnrale. Le rapport de corrlation est donc une quantit voluant de 0 (lorsque les deux variables ne sont pas lies) 1 lorsqu'elles le sont parfaitement.
L'ACM va donc reprendre l'objectif de l'ACP mais l'aide d'un indicateur de liaison - le rapport de corrlation - adapt la nature des variables originelles.
Dnition 7
somme mum.
4
L'ACM est la recherche d'une variable de synthse telle que la de ces rapports de corrlation avec les variables originelles soit maxi-
On obtiendra donc une variable de synthse, qui a un pouvoir de synthse, appel l encore valeur propre, et qui permet de sparer au mieux les catgories pour chaque variable au sens o les moyennes dans chaque groupe sont les plus direntes possible.
4 ou
la moyenne ce qui est strictement quivalent
4.3.
RALISER L'ACM AVEC ADE4
31
4.3 Raliser l'ACM avec ade4

La fonction dudi.mca permet d'obtenir un objet de class dudi dont les composantes peuvent tre utilises de la faon suivante : la variable de synthse $l1 grce laquelle on peut, pour chaque variable originelle, calculer les moyennes des catgories dans $co, ces moyennes donnant les rapports de corrlation dans $cr, la moyenne de ces rapports constituant la valeur propre donne dans $eig. acm.boubouille<-dudi.acm(boubouille) acm.boubouille$eig acm.boubouille$cr acm.boubouille$co En l'espce, la valeur propre est de 0.7011 ce qui signie qu'en moyenne la relation est forte entre la variable de synthse et les variables originelles, relations qu'on peut dcomposer grce aux rapports de corrlation qui sont respectivement de 0.56 (age), 0.79 (fecond) et 0.76 (nbport). Les moyennes des catgories sont par exemple pour la variable nbport -1.06 pour le groupe 1p et 0.76 pour le groupe 2p. Il est prfrable de reprsenter graphiquement l'ensemble de ces moyennes grce la fonction score 5 . score(acm.boubouille) On a donc un graphique (gure 4.1) par variable dans l'ACM. Voyons comment on peut les relier. Le graphique du haut correspond la variable age. Chacune des cinq lignes horizontales reprsente une des catgories de la variable et sur chaque ligne on voit des traits qui correspondent aux valeurs prises par la variable de synthse amis uniquement pour les units statistiques qui appartiennent la catgorie en jeu. La moyenne de ces valeurs est calcul et le carr portant le nom de la catgorie est positionn l'emplacement de cette moyenne. La forte sparation de ces carrs/moyennes indique un fort rapport de corrlation entre la variable de synthse et la variable considre, donc une forte liaison. Sur le graphique du haut, on voit donc que les chattes qui ont un an correspondent des valeurs ngatives de la variable de synthse. En mme temps, le graphique du milieu, qui concerne la fcondit, montre que les chattes qui ont des valeurs ngatives sont celles qui ont eu 1-2 chatons. Paralllement, dans le graphique du bas, la catgorie place cet endroit est celle d'une porte
5 On constate ici que la fonction score n'a pas le mme eet que dans le chapitre prcdent. En eet, R est un langage de programmation par objet, ce qui signie qu'une fonction peut avoir des comportement dirents suivant la nature de l'objet auquel elle s'applique. En fait derrire la fonction gnrique, se cache en ralit deux fonctions direntes score.pca et
score.acm
32
CHAPITRE 4.
age
0.5 67 8 23 0.5 45
score
1.5
1.5
1.0
0.5 score
0.0
0.5
1.0
fecond
0.5
912 1314 78
score
0.5
36
1.5
12
1.5
1.0
0.5 score
0.0
0.5
1.0
nbport
0.5
2p
score
0.5
1p 1.5
1.5
1.0
0.5
0.0
0.5
1.0
Fig.
4.1 Graphique de l'ACM du dataframe boubouille. La premire variable de synthse permet de calculer pour chaque variable (age, fecond, nbport) les moyennes des catgories les portant et de les reprsenter sous forme de carrs
4.4.
SOLUTION DU SECOND ORDRE DE L'ACM
33
unique. La variable de synthse sert donc faire le lien entre les trois variables originelles. On constate en rsum que plus les chattes vieillissent plus elles ont tendance avoir deux portes et donc plus de chatons. Toutefois, vers 8 ans, leur fcondit diminue (et le nombre de portes aussi).
4.4 Solution du second ordre de l'ACM

Le chier chiens.csv est dcrit par exemple dans saporta. Il correspond pour 27 races de chiens (units statistiques) une mise en catgorie de leur taille, leur poids, leur vlocit . . .une catgorie plus leve indiquant que cette caractristique est plus prononce dans cette race. L'ACM donne une premire valeur de synthse dont le pouvoir de synthse est de 0.4876. On peut estimer qu'il est intressant de rechercher d'autres variables de synthse comme en ACP, c'est--dire non corrles la premire et maximisant le mme critre de somme des rapports de corrlation maximum. Le processus peut s'itrer si cette deuxime variable de synthse ne sut pas. chiens<-read.table("chiens.csv",header=TRUE,sep=" ;",dec=",") for(j in 1 :6)chiens[,j]<-factor(chiens[,j]) 6 acm.chiens<-dudi.acm(chiens) acm.chiens$eig L'boulis des valeurs propres montre ici que deux dimensions ressortent nettement. Graphiquement, on va donc reprsenter la situation des units statistiques par les deux variables de synthse (ce qui donne un plan factoriel de ces units) et pour chaque variable qualitative, les catgories sont places au centre de gravit des units qui lui correspondent. Dans le logiciel ade4, chaque variable est reprsente sparment. scatter(acm.chiens) Comme prcdemment, le lien se fait par la position des catgories. On commence d'abord par lire les rapports de corrlation des variables de synthse avec les variables originelles (composante $cr) an de concentrer l'tude sur les variables les plus structurantes. Ici, on voit sur la premire variable de synthse qu'il s'agit de la taille, du poids et de l'aection et pour la deuxime variable de synthse du poids, de la vlocit et de la taille. Le graphique 4.2 montre par exemple que les chiens de petite taille (catgorie 1) sont aussi les chiens de petit poids (catgorie 1).
Exercice 4
Interprter l'ensemble de ces graphiques, en particulier :
6 Cette ligne est indispensable, sinon ade4 refuse de raliser l'ACM. En eet, les valeurs du chier sont toutes des chires de 1 3 que le logiciel prend pour des donnes numriques. Il faut donc prciser que ce sont en fait des catgories, ce que permet la fonction factor().
34
taille
CHAPITRE 4.
poids
q q q q q q
2
q q q q q q q q q q
q q
q q
q q q
q q
q q
1
q
1
q
3
q
velocite
intelligence
q q q q q q
q q q q
q q
2
q q
q q
q q
3
q q q q q q q q q
3 2
q q q
q q
q q
1
q
1
q q q
affection
aggressivite
q q q q q q
q q q q
q q q q
q q
q q
q q
2
q q q q q
1 2
q
1
q q q q q q q q
q q q
4.2 Pour chaque variable, les catgories sont situes au centre de gravit des units les portant dont les coordonnes sont celles des deux variables de synthses issues de l'ACM du dataframe chiens
Fig.
que pensez-vous des tailles des chiens de poids de la deuxime catgorie ? et de la troisime ? Quel est votre avis le sens des ellipses sur ces graphiques ? Que peut-on dire de l'aggressivit et de l'intelligence des chiens ?
Exercice 5 Le package ade4 contient le chier ours qui peut tre tudi par une analyse des correspondances multiples. Exercice 6 Le package MASS contient le chier farms qui peut aussi faire l'objet d'une ACM. Ce package contient par ailleurs des fonctions trs utiles dont on peut avoir une description dans le remarquable ouvrage ??.
4.5 Quelques remarques sur l'ACM

L'ACM reste une analyse assez dlicate employer.
4.5.
QUELQUES REMARQUES SUR L'ACM
35
Trs souvent, les utilisateurs sont dus car les boulis des valeurs propres sont moins spectaculaires que ceux des ACP. En eet, la nature des variables qualitatives rend plus dicile l'existence de liens intenses. Les graphiques restent assez diciles lire, on n'a pas seulement une reprsentation de chaque variable dans un unique graphique comme en ACP, mais de leurs catgories ce qui multiplie les points et dans des graphique dirents, sinon l'empilement est souvent illisible. Il faut plus d'expriences pour une utilisation ecace de ce type d'analyse. Il faut aussi savoir ne pas rentrer des dizaines de variables 7 dans une ACM car sinon l'exploitation en est impossible ; on se contente gnralement des questions relatives au mme thme. Il vaut mieux ne pas faire entrer n'importe quelle variable qualitative dans une ACM. On conseille (voir rfrence ?? pour l'explication thorique) de ne pas avoir des catgories de trs faible eectif pour une variable qualitative et de ne pas non plus avoir de variable avec un trop grand nombre de catgories. Sinon, ces variables dsquilibrent l'analyse.
7 par
exemple toutes les quesntions d'un sondage
36
CHAPITRE 4.
Chapitre 5
Une gnralisation : l'analyse de Hill et Smith
5.1 Les donnes multivaries mixtes

Le chier vie.csv contient pour 105 individus les rsultats d'une enqute sur les conditions de vie des franais (cf ouvrage de [?]). Les mesures sont le sexe, l'ge ainsi que des questions de comportement et d'opinion. Elles mlent six variables qualitatives comme le sexe, et trois variables quantitatives comme l'ge 1 . Ce jeu de donnes est reprsentatif des situations habituelles de prises de mesures car il est rare que les donnes recueillies soient toutes quantitatives ou toutes qualitatives. On a habituellement aaire des textsfdonnes multivaries mixtes. On ne peut donc directement employer l'ACP ou l'ACM sur les donnes. Il est dommage, pour des raisons purement techniques, de sparer des mesures potentiellement relies et de raliser deux analyses. vie<-read.table("vie.csv",header=TRUE,sep=" ;",dec=",") print(vie)
5.2 Analyser des donnes mixtes

Pour s'en sortir avec des moyens connus, les donnes quantitatives (ge, revenu) sont rparties en classes et on les considre comme qualitatives an de les injecter aussi dans une ACM.
Exercice 7
Transformer les variables age, logement et television en variables
1 J'ai considr que les variables concernant le logement et la tlvision, mesures sur une chelle de likert de 4 niveaux taient quantitatives
37
38CHAPITRE 5.
UNE GNRALISATION : L'ANALYSE DE HILL ET SMITH
qualitatives (utiliser la fonction R cut pour la variable age 2 et la fonction textsffactor pour les deux autres. Raliser une ACM des neuf variables qualitatives.
Une deuxime solution (voir par exemple dans [?]) est d'utiliser la technique dite des variables supplmentaires, une ACM est pratique sur les mesures qualitatives, puis les corrlations entre les variables de synthse obtenues et les mesures numriques originelles permettent de situer ces dernires graphiquement sur le mme plan que les autres. L'ennui est que les mesures numriques ne sont pas partie prenante de l'analyse mais sont uniquement utilises dans l'interprtation.
Dnition 8
L' analyse de Hill et Smith consiste rechercher une variable de synthse la plus relie possible aux variables originelles, au sens du coecient de dtermination si la variable est numrique ou du rapport de corrlation si elle est qualtative. La somme (ou la moyenne) de ces indicateurs de liaison est maximise. Le processus peut tre itr en cherchant une deuxime variable de synthse non corrle qui optimise le mme critre.
5.3 Raliser l'analyse mixte avec ade4

La fonction dudi.mix 3 permet de raliser l'analyse de Hill et Smith. Elle gnre un objet dont les composantes les plus intressantes sont les suivantes : $cr contient les coecients de dtermination ou les rapports de corrlation, $eig contient les pouvoirs de synthse, $l1 contient les variables de synthse et $co permet de positionner les variables numriques et les catgories des variables qualitatives. L'analyse de l'boulis des valeurs propres devrait nous conduire ici retenir trois variables de synthse. Notons que les trois valeurs propres correspondantes sont les seules tre suprieures 1. mix.vie<-dudi.mix(vie)
5.4 Les reprsentations graphiques dans l'analyse mixte

En termes de reprsentations graphiques, on peut raliser un plan factoriel des units statistiques l'aide des variables de synthse. On peut "par dessus", comme dans un biplot, rajouter les variables numriques et les centres de gravit correspondant aux catgories pour les variables qualitatives. C'est ce que fait la fonction scatter.mix du package ade4 (voir gure 5.1).
2 avec un dcoupage de type 3 Il existe aussi une fonction
dudi.hillsmith
20-30, 30-40 . . . quasiment quivalente
5.4. LES REPRSENTATIONS GRAPHIQUES DANS L'ANALYSE MIXTE
39
d=1
35 restr.oui 55 83 10 22 42 66 16 15 2 71 17 72 12 54 magne.non 29 100 mauxt.oui 18 37 64 30 53 62 77 sexe.femme 82 31 68 93 50 61 44 3911 famil.oui 57 76 1 9 49 69 27 3 73 60 94 age 59 105 4
95
36 56
63
logement
maldo.oui
24
70 91 78 32
26 92
97
103
34 75 28 65 mauxt.non 102 20 46 67 98 84 104 sexe.homme 14 48 85 33 51 476 79 81 41 8 89 maldo.non 7 74 21 96 38 86 87 43 99 58 25
23 13 19
88
5 80
television famil.non
101 5290 45 40
restr.non
magne.oui
5.1 Les deux premires variables de synthse issues de son analyse de Hill et Smith permettent de positionner les individus, les variables numriques sont places dans l'esprit d'un biplot et les catgories de variables qualitatives comme des centres de gravit
Fig.
scatter(mix.vie) Je prfre employer trois fonctions que j'ai cres et qui sont prsentes en annexe de ce document : scatter.mix.cr, scatter.mix.numeric et scatter.mix.categorical. Un premier graphique (gure 5.2) consiste reprsenter les indicateurs de liaison (coecients de dtermination ou rapports de corrlation) entre les variables originelles et les variables de synthse. On voit que les variables les plus lies la premire variable sont television et famille (et age) et pour la seconde logement, restrictions et magneto (pour n'abordons ici que les deux premires variables de synthse). Ensuite, on peut donc dtailler les relations l'aide d'un classique cercle des corrlations pour les variables numriques (gure 5.3) et une reprsentation de type ACM par centres de gravit pour les variables qualitatives (gure 5.4).
40CHAPITRE 5.
RS2 0.4
0.6
0.8
1.0
logement magneto
restrictions
0.2
maldos
0.0
sexe
mauxtete age
television famille
0.0
0.2
0.4 RS1
0.6
0.8
1.0
5.2 Coecients de dtermination ou rapports de corrlation entre les variables du chier vie et les deux premires variables de synthse issues de son analyse de Hill et Smith
Fig.
On constate ainsi sur le premier axe, que plus on est g et plus on regarde la tlvision (voir sur le cercle des corrlations) et qu'en mme temps on a tendance penser que la famille est le seul endroit o l'on se sente bien (oui dans les graphiques de type ACM pour la variable famille du ct de la che ge) scatter.mix.cr(mix.vie) scatter.mix.numeric(mix.vie) scatter.mix.categorical(mix.vie)
5.4. LES REPRSENTATIONS GRAPHIQUES DANS L'ANALYSE MIXTE
41
logement
age
television
Fig. 5.3 Cercle des corrlations des variables numriques du chier vie avec les variables de synthse issues de son analyse de Hill et Smith
42CHAPITRE 5.
sexe
q q q qq q q q q q q q q q q q q q q q qq q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q qq q q q q qq q q q q q q q q q q q q q q q q q q
famille
q q qq q q q q q q
q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q
q q q q q
femme homme
q q q q q q q
q q
q q
q q q q q
oui
q q q q q
q q q qq
q q q
q q
q q q q q
q q
non
qq q q q
q qq q
q qq q q q q
q q q
magneto
q q q qq q q q q q q q q q q q q q q q q qq q q q q q q qq q q q q q q q q q q qq q q q q q q q q q q qq q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q q
mauxtete
q q qq q q q q q q
q q q q q q q q q qq q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q
non
q q q q
q q q q q
oui
q q q q q q q q q q q
q q q q
q q q q qq
non
q q
oui
q qq q q
qq q q q q
q qq q q q q
q q q
maldos
q q qq q q q q q q
restrictions
q q q q q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q q q q q qq q q q q q q q q q q q q q qq q qq q q q q q q q q q q q q q q q q q q q q q q qq
q q q q q q q q q q qq q q q q q q qq q q q q q q q q q
q q
oui
q
q q
oui
q q q q q q
qq q q q q q q q q q q q q q q q q q
non
q q q
q q q q q qq
non
q qq
q qq q
q q q
q q q
5.4 Reprsentation de type ACM pour les variables qualitatives du chier vie et les deux premires variables de synthse issues de son analyse de Hill et Smith
Fig.
Chapitre 6
L'analyse des Correspondances Simples
Cette mthode, assez spcique, a t utilise dans des contextes varis par l'cole d'analyse des donnes " la franaise" et reste trs employe par les praticiens des sciences sociales et humaines. ce titre, nous lui accordons un dveloppement.
6.1 Le tableau crois

Stricto sensu, l'Analyse factorielle des correspondances (AFC) s'applique des tableaux croiss, dits aussi tables de contingence. Ce type de tableau est obtenu en croisant deux variables qualitatives I et J catgories. Chaque cellule du tableau correspond alors au nombre d'units statistiques appartenant simultanment aux deux catgories. Les lignes ne sont donc pas des units statistiques et les colonnes des variables mais il s'agit dans les deux cas de catgories. Ainsi, le chier couleurs.csv (tir de [?]) provient d'une population de 592 femmes sur lesquelles ont t enregistrs deux caractres : (1) la couleur de leurs yeux (4 catgories) et celle de leur cheveux (4 catgories). L'information initiale correspond donc un tableau 592 lignes et deux colonnes qu'on pourrait soumettre une ACM 1 mais qui en termes de croisement fournit une table 4 4. L'analyse multivarie est donc ici une analyse bivarie.
6.2 L'analyse habituelle d'un tableau crois

Elle consiste calculer la statistique du chi-carr an de mesurer la liaison entre les deux variables. Si cette liaison est statistiquement signicative (comme
1 cela
aurait d'ailleurs exactement le mme eet !
43
44
CHAPITRE 6.
L'ANALYSE DES CORRESPONDANCES SIMPLES
Tab.
6.1 Tableau crois des couleurs yeux et cheveux Cbrun Cchatain Croux Cblond Ymarron 68 119 26 7 Ynoisette 15 54 14 10 Yvert 5 29 14 16 Ybleu 20 84 17 94
c'est le cas avec le chier couleur), on explore la structure du tableau en comparant ses lignes en termes de frquences. Pour de petits tableaux tels que celui qui nous sert d'exemple, c'est largement susant, mais lorsque lignes et colonnes sont nombreuses, cette tude devient complexe.
Exercice 8
Les commandes R ci-dessous permettent d'importer le tableau couleur, de calculer la statistique du chi-carr et les frquences correspondant chaque ligne du tableau. Interprter ces rsultats.
couleur<-read.table("couleur.csv",header=T,sep=" ;",dec=",") chisq.test(couleur) sweep(couleur,1,apply(couleur,1,sum),"/")
6.3 Une vision thorique base sur le "scoring"

La technique du scoring permet d'tudier des tableaux croiss de grande dimension. On peut en eet aecter a priori un score chacune des colonnes, par exemple (-1,-1,1,1) 2 qui opre une opposition entre cheveux foncs (brun, chatain) et clairs (roux, blond). chaque couleur des yeux - chaque ligne - correspond une frquence observe pour les cheveux (voir tableau 6.2). Ainsi pour les yeux marrons, on obtient (0.3091,0.5409,0.1182,0.0318). Il est possible de calculer le score moyen pour les yeux marrons qui est de : 0.3091 (1) + 0.5409 (1) + 0.1182 (1) + 0.0318 (1) = 0.7. Ce score moyen ngatif montre que ces individus ont des cheveux plutt foncs. Pour les yeux bleus, on obtient un score moyen de 0.0930 (1) + 0.3907 (1)+0791 (1)+0.4372 (1) = 0.0326 qui est positif indiquant que les cheveux clairs dominent dans cette sous-population. On pourrait donc assez bien discriminer les quatre couleurs des yeux sur la base du scoring propos pour la couleur des cheveux. Cependant, nous pouvons nous poser deux questions : (1) existe-t-il un scoring des cheveux permettant de discriminer encore mieux les couleur des yeux et (2) lorsque nous connaissons moins le sujet - l'opposition clair/fonc tait attendue en l'espce - ou ne voulons
2 Ces
scores sony gnralement centrs et standardiss d'une manire ou d'une autre
6.4.
RALISER L'AFC AVEC ADE4
45 yeux et cheveux % en lignes Croux Cblond 0.1182 0.0318 0.1505 0.1075 0.2188 0.2500 0.0791 0.4372
Tab.
6.2 Tableau de prols des couleurs Cbrun Cchatain Ymarron 0.3091 0.5409 Ynoisette 0.1613 0.5806 Yvert 0.0781 0.4531 Ybleu 0.0930 0.3907
pas utiliser d'a priori, pouvons-nous dnir un scoring optimal, qui nous aiderait alors mieux comprendre la structure du tableau de donnes ?
L'AFC est une mthode permettant de dnir pour un tableau crois un scoring sur les colonnes 3 tel que les scores moyens des lignes (obtenus en utilisant les frquences du tableau des prols) soient les plus discriminants possible, au sens de la variance de ces scores moyens.
Dnition 9
6.4 Raliser l'AFC avec ade4

La fonction dudi.coa permet d'obtenir un objet de "class" dudi.coa. Les scores optimaux standardiss des colonnes sont disponibles partir de la composante $c1, les scores moyens des lignes correspondant dans son argument $li et la variance maximum obtenue dans $eig. coa.couleur<-dudi.ca(couleur) coa.couleur$eig coa.couleur$c1 coa.couleur$li score(coa.couleur) On peut constater que la mthode a choisi comme scoring optimal pour les colonnes (-1.1042,-0.3244,-0.2834,1.8282) qui rete la structure majeure de ce jeu de donnes, l'opposition claire/fonc. On peut reprsenter ces scores 4 graphiquement comme dans la gure 6.1.
Remarque 6
Si on dcide de chercher l'inverse un scoring des lignes optimal dans le sens qu'il fournisse les scores moyens les plus discriminants possibles pour les colonnes, on retrouve, une dilatation prs, les mmes rsultats. L'AFC est une mthode symtrique pour les lignes et les colonnes du tableau.
des contraintes de standardisation particulires la gure prsente ne donne pas exactement ces scores, mais une version "dilate" an de les considrer de faon symtrique, voir le dtail dans l'aide la fonction score.coa
3 soumis 4 En fait
46
CHAPITRE 6.
Rows
Ybleu
Yvert
Ynoisette
Ymarron
Cblond
Croux
Cchatain
Cbrun Columns
d = 0.5
6.1 Reprsentation des scores optimaux des colonnes et des scores moyens de lignes pour l'AFC du chier couleur
Fig.
6.5.
SOLUTION DU SECOND ORDRE DE L'AFC
47
6.5 Solution du second ordre de l'AFC

Le jeu de donnes housetasks fourni avec le package ade4 dcrit des tches diverses accomplies dans un mnage (faire les papiers, laver le linge, la vaisselle, conduire, bricoler . . .) croises par la personne qui les accomplit (homme, femme, les deux ou chacun son tour). L'AFC de ce tableau montre que le pouvoir de synthse du premier score est de 0.5428 qui est comparer avec le maximum possible de 1.1149 (Il s'agit de f racX 2 n o n = 1744 est le nombre d'units dans le tableau et X 2 = 1944.456 la valeur observe de la statistique du chi-carr). La premire variable ne contient donc que 49% de l'information du tableau crois. Comme les autres analyses factorielles, l'AFC peut tre itre. On recherche alors un scoring des colonnes, orthogonal au premier, qui optimise le mme critre de discrimination des scores moyens des lignes. Des reprsentations graphiques des lignes et des colonnes en dimension deux sont alors envisageables. Il est possible : de reprsenter les colonnes par leur scorings optimaux et les lignes par les scores moyens correspondant l'inverse, les scorings optimaux des lignes et les scores moyens des colonnes ou de raliser un graphique de type biplot o lignes et colonnes sont reprsentes la mme chelle. C'est la voie la plus classique choisie par la fonction scatter.coa (voir gure 6.2) mais l'argument met permet d'obtenir les deux autres variantes. data(housetasks) housetasks chisq.test(housetasks) sum(housetasks) coa.house<-dudi.coa(housetasks) scatter.coa(coa.house)
Exercice 9
6.2.
Analyser prcisment la rpartion des tches l'aide de la gure
Exercice 10
Le chier television.csv correspond au nombre d'heures de diusion par les principales chanes de tlvision franaise (en colonnes) des sports majeurs (en lignes). Raliser l'AFC de ce jeu de donnes Quelle dimension de reprsentation choisir ? Reprsenter uniquement le premier score lignes et colonnes. Quel est leur signication ? Faire une reprsenttion graphique deux dimensions des scores 2 et 3. Qu'en pensez-vous ?
Exercice 11
Le jeu de donnes sarcelles (plus exactement sa composante sarcelles$tab) fourni par le package ade4 croise une information temporelle et une
48
CHAPITRE 6.
d = 0.5
Holidays
Jointly
Finances Tidying Dishes Shopping Insurance
Wife
Dinner Breakfeast
Official Alternating
Main_meal Laundry
Driving
Husband
Repairs
6.2 Reprsentation simultane des scores lignes et colonnes ( la mme chelle) de l'AFC du chier housetasks
Fig.
6.6.
DIVERSES REMARQUES SUR L'AFC
49
information spatiale quant la prsence de ces oiseaux en Europe. Raliser l'AFC de ce jeu de donnes. Interprter ces rsultats. Pourquoi serait-il intressant de disposer d'une carte et quelle reprsentation graphique pourrait-on envisager ?
6.6 Diverses remarques sur l'AFC

L'AFC est une analyse parfaitement symtrique. Or parfois, les lignes et les colonnes ne jouent pas le mme rle dans la table de contingence. Il existe des variantes de l'AFC dites AFC non symtriques trs intressantes (voir la che d'aide de la fonction dudi.nsc dans le package ade4). En particulier la version non symtrique n'est pas perturbe par la prsence de colonnes qui contiendraient un trs faible eectif, au contraire de l'AFC qui y est trs sensible (voir exercice 10). L'AFC est une mthode drive de l'ACP qui emploie des pondrations trs spciales. L'une des consquences est que la contribution des lignes et des colonnes ne peut se lire uniquement d'aprs leur loignement sur les graphiques comme c'tait le cas en ACP mais qu'il est absolument ncessaire de lire les chiers de diagnostics an de savoir quoi s'en tenir. Il est tout fait possible en AFC qu'une colonne ait une trs forte contribution l'inertie d'un axe en tant peu loigne du point origine sur le graphe. A contrario, une colonne peut tre loin du point origine mais n'avoir que peu de contribution. Tout cela est li en fait l'eectif de cette colonne.
50
CHAPITRE 6.
Annexe A
Installation du logiciel R et du package ade4
A.1 Installation de R pour Windows

1. Aller sur le site http ://www.r-project.org/ an de rcuprer le logiciel d'installation de R. Cliquer sur Download an de trouver un site miroir proche pour limiter le temps de chargement, par exemple le site http ://cran.univ-lyon1.fr. 2. Charger une distribution prcompile (Precompiled Binary Distributions) pour Windows (95 and later). Cliquer sur Base, puis charger sur votre disque dur (C :) le logiciel d'installation rw2011.exe (la dernire version l'heure o j'cris ce document, mais depuis . . .). 3. Double-cliquer sur le logiciel rw2011.exe an de procder l'installation de R. Choisir les options par dfaut an de l'installer sur le disque C.
A.2 Utilisation de R
Utiliser le menu dmarrer, puis Tous les programmes, puis R, puis R 2.0.0. Le logiciel s'ouvre alors et une fentre "Rconsole" apparat. Il faut indiquer au logiciel R dans quel rpertoire windows il doit aller chercher les chiers (en particulier les jeux de donnes) dont nous avons besoin et o les sauvegarder galement ; ce rpertoire est dit rpertoire de travail. Dans le menu droulant "File", existe une option "Change dir..." qui par l'intermdiaire d'une arborescence permet de choisir le rpertoire qui nous convient (par dfaut c'est C :\Program Files\R\rw2000). On peut alors taper des commandes en face du "prompt >" qui s'inscriront en rouge, alors que les rponses de R apparaitront en bleu. Lorsque la squence de travail est termine, il est bon de sauvegarder les objets R crs pour un usage ultrieur ce qui se fait par l'intermdiaire du menu 51
52ANNEXE A.
INSTALLATION DU LOGICIEL R ET DU PACKAGE ADE4
"File" avec l'option "Save Workspace". Lors d'une prochaine sance, on utilisera l'option "Load Workspace" du menu "File" an de charger ces objets.
A.3 Installation du package ade4

1. Recommencer la procdure d'installation comme pour R : prendre une distribution prcompile pour Windows, mais au lieu de choisir l'option "Base", choisir l'option "Contrib". Aller dans le rpertoire "2.2/" et enregistrer ade4_1.3-3.zip (dermier rpertoire et dernire version ade4 l'heure o j'cris ces lignes) sur votre disque dur (C :). 2. Dzipper ce chier dans le rpertoire C :\Program Files\R\rw2000\library (si vous n'avez pas l'utilitaire de dzippage aller le rcuprer sur le site http ://www.winzip.com/)
A.4 Utilisation d'ade4

Une fois le logiciel R lanc, il sut d'aller dans le menu droulant "Packages" et de choisir l'option "Load Package". Une fentre apparat alors o l'on peut slectionner ade4 et valider ce choix en cliquant sur OK.
Annexe B
Quelques fonctions R
scatter.mix.cr<function(obj.dudi,xax=1,yax=2,...) plot(obj.dudi$cr[,c(xax,yax)],type="n",xlim=c(0,1),ylim=c(0,1),...) text(obj.dudi$cr[,c(xax,yax)],lab=row.names(obj.dudi$cr),cex=0.75) scatter.mix.numeric<function(obj.dudi,xax=1,yax=2,...) indexation<-obj.dudi$index=="q" numero<-match(seq(1,length(obj.dudi$index))[indexation],obj.dudi$assign) noms<-row.names(obj.dudi$co[numero,c(xax,yax)]) s.corcircle(obj.dudi$co[numero,c(xax,yax)],label=noms,...) scatter.mix.categorical<function(dudi.obj,xax=1,yax=2,csub=2,possub="topleft",...) def.par<-par(no.readonly=TRUE) on.exit(par(def.par)) tabcomplet<-eval(as.list(dudi.obj$call)[[2]],sys.frame(0)) indexation<-dudi.obj$index=="f" oritab<-tabcomplet[,indexation] nvar<-ncol(oritab) par(mfrow=n2mfrow(nvar)) for(i in 1 :nvar)s.class(dudi.obj$li,oritab[,i], xax=xax,yax=yax,clab=1.5,sub=names(oritab[i],csub=csub,possub=possub,cgrid=0,csta=0)
53
54
ANNEXE B.
QUELQUES FONCTIONS R
Annexe C
Quelques jeux de donnes d'ade4
Les jeux de donnes d'ade4 permettent de mettre en oeuvre les techniques vues dans ce document. An de pouvoir analyser ces jeux de donnes, on doit faire appel au package ade4 avec library(ade4) les dclarer disponible par exemple pour le jeu de donnes mariages avec data(mariages) voir les informations dtailles avec ?mariages Les jeux de donnes suivants sont mon sens les plus simples (c'est--dire qu'ils ne rclament pas de connaissances bio-cologiques pointues : mariages atlas rhone veuvage chats skulls syndicats morphosport fruits ecomor chazeb clementines 55
56 aviurba doubs bordeaux
ANNEXE C.
QUELQUES JEUX DE DONNES D'ADE4
Bibliographie
[1] Escouer, Y. (1987) The duality diagram : a means of better practical applications In Development in numerical ecology, Legendre, P. & Legendre, L. (Eds.) NATO advanced Institute, Serie G. Springer Verlag, Berlin, 139-156. [2] Mardia K., Kent J. et Bibby J. (1979) Multivariate analysis. Academic Press. [3] Baccini A. et Besse Ph. (1999) Statistique descriptive multidimensionnelle Publications du Laboratoire de Statistique et Probabilits, Universit Paul Sabatier Toulouse . [4] Lebart L., Morineau A. et Piron M. (1995) Statistique exploratoire multidimensionnelle. Dunod. [5] Foucart T. (1997) L'analyse des donnes mode d'emploi. Presses Universitaires de Rennes. [6] Ramsay J.O. et Silverman (19 ? ?) Functional data analysis. Springer-Verlag. [7] Tenenhous M. et Young F.W. (1985) An analysis and synthesis of multiple correspondence analysis ; optimalsclaing, dual scaling homogeneity analysis and other methods for quantifying categoricalmultivariate data. Psychometrika, 50, p.91-119. [8] Champely S. (2003) Statistique vraiment applique au sport. Editions de Boeck. [9] Venables et Ripley (1999) Applied statistics with S+.
57

Statistiques Avec Rgui

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Statistiques Avec Rgui

Transféré par

Droits d'auteur :

Formats disponibles

Introduction l'analyse multivarie (factorielle) sous R

Stphane CHAMPELY 7 septembre 2005

Table des matires

2 Analyse en Composantes Principales

3 Une variante : l'ACP centre

4 L'Analyse des Correspondances Multiples

5 Une gnralisation : l'analyse de Hill et Smith

4 5.4 6.1 6.2 6.3 6.4 6.5 6.6

TABLE DES MATIRES

6 L'analyse des Correspondances Simples

A Installation du logiciel R et du package ade4

B Quelques fonctions R C Quelques jeux de donnes d'ade4

1.1 Les donnes multivaries

1.2 L'approche factorielle des donnes multivaries

1.3 Le logiciel R et le package ade4

2.1 Les donnes multivaries quantitatives

il faut pralablement avoir charg le package ade4

ANALYSE EN COMPOSANTES PRINCIPALES

2.2 Une premire thorie de l'ACP : trouver une variable de synthse

Dnition 1 (composante principale)

carr du coecient de corrlation est appel coecient

2.2. UNE PREMIRE THORIE DE L'ACP : TROUVER UNE VARIABLE DE SYNTHSE

2.1  Nuages de points entre les variables du dataframe monde2

ANALYSE EN COMPOSANTES PRINCIPALES

2.3 Raliser l'ACP avec ade4

SOLUTION DU SECOND ORDRE DE L'ACP

2.4 Solution du second ordre de l'ACP

ANALYSE EN COMPOSANTES PRINCIPALES

6.5 7.0 7.5

6.5 7.0 7.5

SOLUTION DU SECOND ORDRE DE L'ACP

ANALYSE EN COMPOSANTES PRINCIPALES

SOLUTION DU SECOND ORDRE DE L'ACP

disq poid X1500 jave X400

X100 X110 haut

2.5  Cercle des corrlations de l'ACP du dataframe olympic$tab

ANALYSE EN COMPOSANTES PRINCIPALES

2.5 Les diagnostics

2.6  boulis des valeurs propres de l'ACP du dataframe olympic$tab

ANALYSE EN COMPOSANTES PRINCIPALES

2.7  Botes moustaches des composantes principales de l'ACP du dataframe olympic$tab

DIVERSES REMARQUES SUR L'ACP

2.6 Diverses remarques sur l'ACP

ANALYSE EN COMPOSANTES PRINCIPALES

dans ce cas une analyse

en facteurs, voir [2] soit probablement plus indique

3.1 Les donnes multivaries homognes

UNE VARIANTE : L'ACP CENTRE

3.2 La gomtrie de l'ACP centre

3.3 Raliser l'ACP centre avec ade4

le nom des pouvoirs de synthse

DIAGNOSTICS : LES CONTRIBUTIONS L'INERTIE

3.4 Diagnostics : les contributions l'inertie

UNE VARIANTE : L'ACP CENTRE

d = 0.5 Jacuzzi Sauna Hydroth

Animation Rela Snack Bar Garderie Espace Discuss

3.1  Reprsentation des variables suite l'ACP centre du dataframe piscine2

UNE VARIANTE : L'ACP CENTRE

3.6 Pour en nir avec les donnes homognes

POUR EN FINIR AVEC LES DONNES HOMOGNES

72 78 PRIX 80 68 BLAN 66 14 22 13 48 49 82 73 61 71 GOUT 16 25 60 46 28 31

3.2  Biplot de l'ACP centre du dataframe dentifrice

UNE VARIANTE : L'ACP CENTRE

4.1 Les donnes multivaries qualitatives

Dnition 1 (composante principale)

carr du coecient de corrlation est appel coecient

2.1 Nuages de points entre les variables du dataframe monde2

2.5 Cercle des corrlations de l'ACP du dataframe olympic$tab

2.6 boulis des valeurs propres de l'ACP du dataframe olympic$tab

2.7 Botes moustaches des composantes principales de l'ACP du dataframe olympic$tab

3.1 Reprsentation des variables suite l'ACP centre du dataframe piscine2

3.6 Pour en nir avec les donnes homognes

3.2 Biplot de l'ACP centre du dataframe dentifrice

aurait d'ailleurs exactement le mme eet !

Analyser prcisment la rpartion des tches l'aide de la gure

56 aviurba doubs bordeaux