Vous êtes sur la page 1sur 33

Publications de lInstitut de Mathmatiques e de Toulouse

Statistique Descriptive Multidimensionnelle (pour les nuls)

(version de mai 2010)

Alain Baccini

Institut de Mathmatiques de Toulouse UMR CNRS 5219 e Universit Paul Sabatier 31062 Toulouse cedex 9. e

Table des mati`res e


1 Analyse en Composantes Principales 1.1 La statistique descriptive multidimensionnelle 1.2 Exemple illustratif pour lA.C.P. . . . . . . . 1.2.1 Prsentation . . . . . . . . . . . . . . e 1.2.2 Rsultats prliminaires . . . . . . . . . e e 1.2.3 Rsultats gnraux . . . . . . . . . . . e e e 1.2.4 Rsultats sur les variables . . . . . . . e 1.2.5 Rsultats sur les individus . . . . . . . e 1.3 Prsentation gnrale de la mthode . . . . . e e e e 1.3.1 Les principes . . . . . . . . . . . . . . 1.3.2 Les rsultats . . . . . . . . . . . . . . e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 5 6 6 7 7 8 9 11 11 13 15 15 15 16 16 17 17 17 24 27 27 27 28 28 28 28 28 29 29 29 32

2 Analyse Factorielle des Correspondances 2.1 Principe gnral de lA.F.C. . . . . . . . . . . . . . e e 2.1.1 Les donnes . . . . . . . . . . . . . . . . . . e 2.1.2 Le probl`me . . . . . . . . . . . . . . . . . . e 2.1.3 La mthode . . . . . . . . . . . . . . . . . . e 2.2 Exemple illustratif . . . . . . . . . . . . . . . . . . 2.2.1 Les donnes . . . . . . . . . . . . . . . . . . e 2.2.2 LA.F.C. des donnes de lexemple 1 avec le e 2.2.3 Interprtation des rsultats . . . . . . . . . e e 3 Analyse des Correspondances Multiple 3.1 Rappels sur le tableau de Burt . . . . . 3.1.1 Les donnes considres . . . . . e e e 3.1.2 Dnition du tableau de Burt . . e 3.1.3 Illustration . . . . . . . . . . . . 3.2 Principes de lA.C.M. . . . . . . . . . . 3.2.1 Le probl`me . . . . . . . . . . . . e 3.2.2 La mthode . . . . . . . . . . . . e 3.3 Un exemple illustratif . . . . . . . . . . 3.3.1 Les donnes . . . . . . . . . . . . e 3.3.2 LA.C.M. des donnes . . . . . . e 3.3.3 Interprtation . . . . . . . . . . . e . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . logiciel SAS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

` TABLE DES MATIERES

Avant-propos

Ce document est consacr aux trois mthodes les plus courantes de la statitique descriptive e e multidimensionnelle : lAnalyse en Composantes Principales (chapitre 1), lAnalyse Factorielle des Correspondances (chapitre 2) et lAnalyse des Correspondances Multiples (chapitre 3). Il a t conu pour des personnes souhaitant avoir quelques connaissances sur ces mthodes ee c e sans avoir la moindre culture scientique (do` son sous-titre...). Les connaissances exposes ici u e sont donc, ncessairement, supercielles mais, nous lesprons, susantes pour comprendre les e e grandes lignes de ces techniques. La statistique multidimensionnelle (et principalement lAnalyse des Correspondances Multiples) est aujourdhui couramment utilise pour analyser des rsultats denqutes, y compris par des pere e e sonnes nayant pas de formation mathmatique ou statistique. Ce document leur est donc partie e culi`rement destin et fait suite au document intitul Statistique Descriptive Elmentaire, dise e e ponible sur le mme site et dsign sous lappellation cours SDE par la suite. e e e Dautre part, un autre cours sur la statistique multidimensionnelle, plus complet et destin a e ` des tudiants des li`res universitaires de mathmatiques appliques, est galement disponible sur e e e e e ce site sous le titre Exploration Statistique.

Chapitre 1

Analyse en Composantes Principales


Ce chapitre est consacr a lAnalyse en Composantes Principales (ou A.C.P.), mthode fone ` e damentale en statistique descriptive multidimensionnelle. Cette mthode permet de traiter simule tanment un nombre quelconque de variables, toutes quantitatives. e Dans un premier paragraphe, nous donnerons tout dabord quelques indications sur ce que sont les mthodes de la statistique descriptive multidimensionnelle. Ensuite, nous prsenterons en dtail e e e un exemple tr`s simple (un exemple dcole, articiel), pour bien comprendre comment fonctionne e e une A.C.P., a quoi ca sert, comment on linterpr`te... Enn, dans un dernier paragraphe, nous ` e donnerons quelques indications gnrales sur cette mthode. e e e

1.1

La statistique descriptive multidimensionnelle

On dsigne par statistique descriptive multidimensionnelle lensemble des mthodes de la stae e tistique descriptive (ou exploratoire) permettant de traiter simultanment un nombre quele conque de variables (il sagit daller au-del` de ltude dune seule ou de deux variables). Ces a e mthodes sont purement descriptives, cest-`-dire quelles ne supposent, a priori, aucun mod`le e a e sous-jacent, de type probabiliste. (Ainsi, lorsquon consid`re un ensemble de variables quantitae tives sur lesquelles on souhaite raliser une A.C.P., il nest pas ncessaire de supposer que ces e e variables sont distribues selon des lois normales.) e Dans chaque mthode que nous allons dvelopper, les variables considres seront de mme nae e e e e ture : toutes quantitatives (Analyse en Composantes Principales) ou toutes qualitatives (Analyses des Correspondances). Les mthodes les plus classiques de la statistique descriptive multidimensionnelle sont les e mthodes factorielles. Elles consistent a rechercher des facteurs (cette notion sera prcise ultrieue ` e e e rement) en nombre restreint et rsumant le mieux possible les donnes considres. e e e e Elles aboutissent a des reprsentations graphiques des donnes (des individus comme des va` e e riables) par rapport a ces facteurs, reprsents comme des axes. Ces reprsentations graphiques ` e e e sont du type nuage de points (ou diagramme de dispersion). Nous allons dvelopper 3 mthodes, chacune correspondant a un chapitre : lAnalyse en Compoe e ` santes Principales (A.C.P.), dans ce chapitre 1, lAnalyse Factorielle des Correspondances (A.F.C.), dans le chapitre 2 et lAnalyse des Correspondances Multiples (A.C.M.), dans le chapitre 3. Nous laisserons de ct lAnalyse Factorielle Discriminante et lAnalyse Canonique (mthodes oe e factorielles plus particuli`res), ainsi que les mthodes non factorielles (principalement la classicae e tion). La logique des trois chapitres consacrs a la statistique descriptive multidimensionnelle est e ` la suivante : lobjectif, pour les tudiants, est de ma e triser, au moins partiellement, lAnalyse des Correspondances Multiples, mthode souvent utilise dans les dpouillements denqutes, e e e e lorsquon souhaite aller au-del` des simples tris ` plat (analyses unidimensionnelles) ou tris a a croiss (analyses bidimensionnelles). On commence donc par introduire lA.C.P., mthode centrale, e e indispensable pour bien comprendre le fonctionnement de toute technique factorielle. On dveloppe e 5

CHAPITRE 1. ANALYSE EN COMPOSANTES PRINCIPALES

ensuite lA.F.C., cas particulier de lA.C.M. lorsquon ne consid`re que deux variables qualitatives. e On gnralise enn a lA.C.M. e e `

1.2

Exemple illustratif pour lA.C.P.

Lorsquon tudie simultanment un nombre important de variables quantitatives (ne serait-ce e e que 4 !), comment en faire un graphique global ? La dicult vient de ce que les individus tudis ne e e e sont plus reprsents dans un plan, espace de dimension 2, mais dans un espace de dimension plus e e importante (par exemple 4). Lobjectif de lAnalyse en Composantes Principales est de revenir a ` un espace de dimension rduite (par exemple 2) en dformant le moins possible la ralit. Il sagit e e e e donc dobtenir le rsum le plus pertinent possible des donnes initiales. e e e Cest la matrice des variances-covariances (ou celle des corrlations) qui va permettre de e raliser ce rsum pertinent, parce quon analyse essentiellement la dispersion des donnes conside e e e e res. De cette matrice, on va extraire, par un procd mathmatique appropri, les facteurs que lon e e e e e recherche, en petit nombre. Ils vont permettre de raliser les graphiques dsirs dans cet espace de e e e petite dimension (le nombre de facteurs retenus), en dformant le moins possible la conguration e globale des individus telle quelle est dnie par lensemble des variables initiales (ainsi remplaces e e par les facteurs). Cest linterprtation de ces graphiques qui permettra de comprendre la structure des donnes e e analyses. Cette interprtation sera guide par un certain nombre dindicateurs numriques, appels e e e e e aides a linterprtation, qui sont l` pour aider lutilisateur a faire linterprtation la plus juste et ` e a ` e la plus objective possible. Sur le plan thorique, lAnalyse en Composantes Principales est une mthode relativement e e complexe, dans la mesure o` elle fait appel a des notions mathmatiques non lmentaires : celles u ` e ee de matrices, dlments propres... Fort heureusement, il nest pas ncessaire de conna ces notions ee e tre pour comprendre le mcanisme dune A.C.P. et donc pour lutiliser correctement. Pour faciliter la e tche du lecteur, nous avons choisi de prsenter lA.C.P. a travers son droulement sur un exemple a e ` e ctif, tr`s simple, et qui parlera a tout le monde : les notes obtenues par des l`ves dans diverses e ` ee disciplines.

1.2.1

Prsentation e

Considrons les notes (de 0 a 20) obtenues par 9 l`ves dans 4 disciplines (mathmatiques, e ` ee e physique, franais, anglais) : c jean alan anni moni didi andr pier brig evel MATH 6.00 8.00 6.00 14.50 14.00 11.00 5.50 13.00 9.00 PHYS 6.00 8.00 7.00 14.50 14.00 10.00 7.00 12.50 9.50 FRAN 5.00 8.00 11.00 15.50 12.00 5.50 14.00 8.50 12.50 ANGL 5.50 8.00 9.50 15.00 12.50 7.00 11.50 9.50 12.00

On sait comment analyser sparment chacune de ces 4 variables, soit en faisant un graphique, e e soit en calculant des rsums numriques. Nous savons galement quon peut regarder les liaie e e e sons entre 2 variables (par exemple mathmatiques et franais), soit en faisant un graphique e c du type nuage de points, soit en calculant leur coecient de corrlation linaire, voire en e e ralisant la rgression de lune sur lautre (pour tout cela, se reporter au cours SDE). e e Mais, comment faire une tude simultane des 4 variables, ne serait-ce quen ralisant un grae e e phique ? La dicult vient de ce que les individus (les l`ves) ne sont plus reprsents dans un e ee e e

1.2. EXEMPLE ILLUSTRATIF POUR LA.C.P.

plan, espace de dimension 2, mais dans un espace de dimension 4 (chaque l`ve tant caractris ee e e e par les 4 notes quil a obtenues). Lobjectif de lAnalyse en Composantes Principales est de revenir a un espace de dimension rduite (par exemple, ici, 2) en dformant le moins possible la ralit. Il ` e e e e sagit donc dobtenir le rsum le plus pertinent des donnes initiales. e e e Par analogie, on peut penser au photographe qui cherche le meilleur angle de vue pour transcrire en dimension 2 (le plan de sa photo) une sc`ne situe en dimension 3 (notre espace ambiant). La e e mthode mathmatique va se charger de trouver langle de vue optimal, se substituant ainsi au e e coup dil du photographe... Nous prsentons ci-dessous quelques rsultats de lA.C.P. ralise, avec le logiciel SAS, sur ces e e e e donnes. Cela va permettre de se rendre compte des possibilits de la mthode. On notera que e e e lon sest limit a 2 dcimales dans les rsultats, bien que les logiciels en fournissent, en gnral, e` e e e e beaucoup plus (mais elles sont rarement utiles).

1.2.2

Rsultats prliminaires e e

Le logiciel fournit tout dabord la moyenne (mean), lcart-type (standard deviation), le minie mum et le maximum de chaque variable. Il sagit donc, pour linstant, dtudes univaries. e e Statistiques elmentaires e Variable MATH PHYS FRAN ANGL Moyenne 9.67 9.83 10.22 10.06 Ecart-type 3.37 2.99 3.47 2.81 Minimum 5.50 6.00 5.00 5.50 Maximum 14.50 14.50 15.50 15.00

Notons au passage la grande homognit des 4 variables considres : mme ordre de grandeur e e e e e e pour les moyennes, les carts-types, les minima et les maxima. e Le tableau suivant est la matrice des corrlations. Elle donne les coecients de corrlation e e linaire des variables prises deux a deux. Cest une succession danalyses bivaries, constituant e ` e un premier pas vers lanalyse multivarie. e Coefficients de corrlation e MATH MATH PHYS FRAN ANGL 1.00 0.98 0.23 0.51 PHYS 0.98 1.00 0.40 0.65 FRAN 0.23 0.40 1.00 0.95 ANGL 0.51 0.65 0.95 1.00

Remarquons que toutes les corrlations linaires sont positives (ce qui signie que toutes les e e variables varient, en moyenne, dans le mme sens), certaines tant tr`s fortes (0.98 et 0.95), dautres e e e moyennes (0.65 et 0.51), dautres enn plutt faibles (0.40 et 0.23). o

1.2.3

Rsultats gnraux e e e

Continuons lexamen des sorties de cette analyse par ltude de la matrice des variancese covariances, matrice de mme nature que celle des corrlations, bien que moins parlante (nous e e verrons nanmoins plus loin comment elle est utilise concr`tement). La diagonale de cette mae e e trice fournit les variances des 4 variables considres (on notera quau niveau des calculs, il est e e plus commode de manipuler la variance que lcart-type ; pour cette raison, dans de nombreuses e mthodes statistiques, comme lA.C.P., on utilise la variance pour prendre en compte la dispersion e dune variable quantitative). Matrice des variances-covariances

CHAPITRE 1. ANALYSE EN COMPOSANTES PRINCIPALES MATH MATH PHYS FRAN ANGL 11.39 9.92 2.66 4.82 PHYS 9.92 8.94 4.12 5.48 FRAN 2.66 4.12 12.06 9.29 ANGL 4.82 5.48 9.29 7.91

Les valeurs propres (lments mathmatiques dont la signication peut tre laisse de ct ee e e e oe pour linstant) donnes ci-dessous sont celles de la matrice des variances-covariances. e Valeurs propres ; variances expliques e FACTEUR 1 2 3 4 VAL. PR. 28.23 12.03 0.03 0.01 ----40.30 PCT. VAR. 0.70 0.30 0.00 0.00 ---1.00 PCT. CUM. 0.70 1.00 1.00 1.00

Interprtation e Chaque ligne du tableau ci-dessus correspond a une variable virtuelle (voil` les facteurs !) dont ` a la colonne val. pr. (valeur propre) fournit la variance (en fait, chaque valeur propre reprsente la e variance du facteur correspondant). La colonne pct. var, ou pourcentage de variance, correspond au pourcentage de variance de chaque ligne par rapport au total. La colonne pct. cum., ou pourcentage cumul, reprsente le cumul de ces pourcentages. e e Additionnons maintenant les variances des 4 variables initiales (diagonale de la matrice des variances-covariances) : 11.39 + 8.94 + 12.06 + 7.91 = 40.30. La dispersion totale des individus considrs, en dimension 4, est ainsi gale a 40.30. e e e ` Additionnons par ailleurs les 4 valeurs propres obtenues : 28.23 + 12.03 + 0.03+0.01 = 40.30. Le nuage de points en dimension 4 est toujours le mme et sa dispersion globale na pas chang. Cest e e la rpartition de cette dispersion, selon les nouvelles variables que sont les facteurs, ou composantes e principales, qui se trouve modie : les 2 premiers facteurs restituent a eux seuls la quasi-totalit e ` e de la dispersion du nuage, ce qui permet de ngliger les 2 autres. e Par consquent, les graphiques en dimension 2 prsents ci-dessous rsument presque parfaie e e e tement la conguration relle des donnes qui se trouvent en dimension 4 : lobjectif (rsum e e e e pertinent des donnes en petite dimension) est donc atteint. e

1.2.4

Rsultats sur les variables e

Le rsultat fondamental concernant les variables est le tableau des corrlations variablese e facteurs. Il sagit des coecients de corrlation linaire entre les variables initiales et les facteurs. e e Ce sont ces corrlations qui vont permettre de donner un sens aux facteurs (de les interprter). e e Corrlations variables-facteurs e FACTEURS MATH PHYS FRAN ANGL --> F1 F2 -0.58 -0.43 0.66 0.40 F3 0.01 -0.03 -0.02 0.05 F4 -0.02 0.02 -0.01 0.01

0.81 0.90 0.75 0.91

Les deux premi`res colonnes de ce tableau permettent, tout dabord, de raliser le graphique e e des variables donn par la Fig. 1.1. e Mais, ces deux colonnes permettent galement de donner une signication aux facteurs (donc e aux axes des graphiques).

1.2. EXEMPLE ILLUSTRATIF POUR LA.C.P.

1.0 0.5 A x e 2 -0.5 -1.0 -1.0 -0.5 0.0 Axe 1 0.5 1.0 0.0

Fig. 1.1 Reprsentation des variables e On notera que les deux derni`res colonnes ne seront pas utilises puisquon ne retient que deux e e dimensions pour interprter lanalyse. e Interprtation e Ainsi, on voit que le premier facteur est correl positivement, et assez fortement, avec chacune e des 4 variables initiales : plus un l`ve obtient de bonnes notes dans chacune des 4 disciplines, ee plus il a un score lev sur laxe 1 ; rciproquement, plus ses notes sont mauvaises, plus son score e e e est ngatif ; laxe 1 reprsente donc, en quelques sortes, le rsultat global (dans lensemble des 4 e e e disciplines considres) des l`ves. En ce qui concerne laxe 2, il oppose, dune part, le franais e e ee c et langlais (corrlations positives), dautre part, les mathmatiques et la physique (corrlations e e e ngatives). Il sagit donc dun axe dopposition entre disciplines littraires et disciplines scientie e ques, surtout marqu par lopposition entre le franais et les mathmatiques. Cette interprtation, e c e e qui est dj` assez claire, peut tre prcise avec graphiques et tableaux relatifs aux individus. Nous ea e e e les prsentons maintenant. e

1.2.5

Rsultats sur les individus e

Le tableau donn ci-dessous contient tous les rsultats importants de lA.C.P. sur les individus. e e
Coordonnes des individus ; contributions ; cosinus carrs e e POIDS jean alan anni moni didi andr pier brig evel 0.11 0.11 0.11 0.11 0.11 0.11 0.11 0.11 0.11 FACT1 -8.61 -3.88 -3.21 9.85 6.41 -3.03 -1.03 1.95 1.55 FACT2 -1.41 -0.50 3.47 0.60 -2.05 -4.92 6.38 -4.20 2.63 CONTG 20.99 4.22 6.17 26.86 12.48 9.22 11.51 5.93 2.63 CONT1 29.19 5.92 4.06 38.19 16.15 3.62 0.41 1.50 0.95 CONT2 1.83 0.23 11.11 0.33 3.87 22.37 37.56 16.29 6.41 COSCA1 0.97 0.98 0.46 1.00 0.91 0.28 0.03 0.18 0.25 COSCA2 0.03 0.02 0.54 0.00 0.09 0.72 0.97 0.82 0.73

On notera que chaque individu reprsente 1 lment sur 9, do` un poids (une pondration) de e ee u e 1/9 = 0.11, ce qui est fourni par la premi`re colonne du tableau. e Les 2 colonnes suivantes fournissent les coordonnes des individus (les l`ves) sur les deux e ee premiers axes (les facteurs) et ont donc permis de raliser le graphique des individus. Ce e dernier (Fig. 1.2) permet de prciser la signication des axes, donc des facteurs. e

10

CHAPITRE 1. ANALYSE EN COMPOSANTES PRINCIPALES


7 6 5 4 3 A x e 2 2 1 0 -1 -2 -3 -4 -5 -10 -8 -6 -4 -2 0 2 4 6 8 10 Axe 1

Fig. 1.2 Reprsentation des individus e La signication et lutilisation des derni`res colonnes du tableau seront explicites un peu plus e e loin. Interprtation e On conrme ainsi que laxe 1 reprsente le rsultat densemble des l`ves : si on prend leur e e ee score ou coordonne sur laxe 1, on obtient le mme classement que si on prend leur moyenne e e gnrale. Par ailleurs, ll`ve le plus haut sur le graphique, celui qui a la coordonne la plus leve e e ee e e e sur laxe 2, est Pierre dont les rsultats sont les plus contrasts en faveur des disciplines littraires e e e (14 et 11.5 contre 7 et 5.5). Cest exactement le contraire pour Andr qui obtient la moyenne dans e les disciplines scientiques (11 et 10) mais des rsultats tr`s faibles dans les disciplines littraires (7 e e e et 5.5). On notera que Monique et Alain ont un score voisin de 0 sur laxe 2 car ils ont des rsultats e tr`s homog`nes dans les 4 disciplines (mais a des niveaux tr`s distincts, ce qua dj` rvl laxe e e ` e ea e ee 1). Laxe 2 oppose bien les littraires (en haut) aux scientiques (en bas). e Les 3 colonnes suivantes du tableau fournissent des contributions des individus a diverses ` dispersions : cont1 et cont2 donnent les contributions (en pourcentages) des individus a la ` variance selon les axes 1 et 2 (rappelons que lon utilise ici la variance pour mesurer la dispersion) ; contg donne les contributions gnrales, cest-`-dire a la dispersion en dimension 4 (il sagit de e e a ` ce que lon appelle linertie du nuage des l`ves ; la notion dinertie gnralise celle de variance en ee e e dimension quelconque, la variance tant toujours relative a une seule variable). Ces contributions e ` sont fournies en pourcentages (chaque colonne somme a 100) et permettent de reprer les individus ` e les plus importants au niveau de chaque axe (ou du nuage en dimension 4). Elles servent en gnral e e a aner linterprtation des rsultats de lanalyse. ` e e Ainsi, par exemple, la variance de laxe 1 vaut 28.23 (premi`re valeur propre). On peut la e retrouver en utilisant la formule de dnition de la variance : e 1 V ar(C ) = 9
1 9

(c1 )2 i
i=1

(il faut noter que, dans une A.C.P., les variables tant centres, il en va de mme pour les facteurs ; e e e ainsi, la moyenne de C 1 est nulle et nappara pas dans la formule de la variance). La coordonne t e de Jean (le premier individu du chier) sur laxe 1 vaut c1 = 8.61 ; sa contribution est donc : 1
1 2 9 (8.61)

28.23

100 = 29.19 %.

` A lui seul, cet individu reprsente pr`s de 30 % de la variance : il est prpondrant (au mme titre e e e e e que Monique) dans la dnition de laxe 1 ; cela provient du fait quil a le rsultat le plus faible, e e Monique ayant, a loppos, le rsultat le meilleur. ` e e Enn, les 2 derni`res colonnes du tableau sont des cosinus carrs qui fournissent la qualit de e e e la reprsentation de chaque individu sur chaque axe. Ces quantits sadditionnent axe par axe, de e e

1.3. PRESENTATION GENERALE DE LA METHODE

11

sorte que, en dimension 2, Evelyne est reprsente a 98 % (0.25 + 0.73), tandis que les 8 autres e e ` individus le sont a 100 %. ` Prcisons un peu cette notion. Lorsquon consid`re les donnes initiales, chaque individu (chaque e e e l`ve) est reprsent par un vecteur dans un espace de dimension 4 (les lments ou coordonnes ee e e ee e de ce vecteur sont les notes obtenues dans les 4 disciplines). Lorsquon rsume les donnes en e e dimension 2, et donc quon les reprsente dans un plan, chaque individu est alors reprsent par e e e la projection du vecteur initial sur le plan en question. Le cosinus carr relativement aux deux e premi`res dimensions (par exemple, pour Evelyne, 0.98 ou 98 %) est celui de langle form par e e le vecteur initial et sa projection dans le plan. Plus le vecteur initial est proche du plan, plus langle en question est petit et plus le cosinus, et son carr, sont proches de 1 (ou de 100 %) : e la reprsentation est alors tr`s bonne. Au contraire, plus le vecteur initial est loin du plan, plus e e langle en question est grand (proche de 90 degrs) et plus le cosinus, et son carr, sont proches e e de 0 (ou de 0 %) : la reprsentation est alors tr`s mauvaise. On utilise les carrs des cosinus parce e e e quils sadditionnent suivant les direntes dimensions, contrairement a leurs racines. e `

1.3

Prsentation gnrale de la mthode e e e e

Dans ce paragraphe, on expose de faon plus gnrale ce quest lAnalyse en Composantes c e e Principales. Nous sommes donc amens a faire quelques dveloppements techniques rendant ce e ` e paragraphe plus dlicat a suivre que le prcdent. Une parfaite assimilation de son contenu nest pas e ` e e indispensable pour le lecteur, surtout sil nest que peu familiaris avec les aspects mathmatiques e e abords dans le point 1.3.1. Toutefois, une bonne comprhension des ides directrices de la mthode e e e e nous semble ncessaire. e Le principe gnral de lA.C.P. est de rduire la dimension des donnes initiales (qui est p e e e e si lon consid`re p variables quantitatives), en remplaant les p variables initiales par q facteurs e c appropris (q < p). e Les donnes, toujours centres, doivent en plus tre rduites lorsque les variables sont htroe e e e ee g`nes. Les q facteurs cherchs sont des moyennes pondres des variables initiales. Leur choix e e e e se fait en maximisant la dispersion des individus selon ces facteurs (autrement dit, les facteurs retenus doivent tre de variance maximum). Des techniques mathmatiques appropies permettent e e e de raliser tout cela de faon automatique et optimale. e c Lorquon a obtenu les rsultats dune A.C.P., il faut tre capable de les interprter. Pour cela, e e e on dispose de graphiques, a la fois pour les variables et pour les individus, ainsi que dindicateurs ` numriques, appels aides a linterprtation. Ces indicateurs permettent, en association avec les e e ` e graphiques, de comprendre les lments cls de la structure des donnes initiales, et donc den faire ee e e une interprtation correcte. e

Le premier point ci-desous est consacr aux aspects techniques, mathmatiques, de lA.C.P. e e Autrement dit, on essaye dy expliquer ce que contient la bo noire quest cette mthode. Le te e second point dcrit les rsultats obtenus, autrement dit les sorties de la bo noire, et les lignes e e te directrices que lon doit suivre pour les interprter correctement. e

1.3.1

Les principes

Les donnes ` analyser e a On consid`re p variables quantitatives, notes X 1 , . . . , X j , . . . , X p , observes sur n individus, e e e nots 1, . . . , i, . . . , n. Lobservation de la variable X j sur lindividu i, X j (i), sera plus simplement e note xj . Les donnes se prsentent ainsi sous la forme dun tableau du type suivant : e i e e

12

CHAPITRE 1. ANALYSE EN COMPOSANTES PRINCIPALES

X1 1 . . . i . . . n x1 1 . . . x1 i . . . x1 n

Xj xj 1 . . . xj i . . . xj n

Xp xp 1 . . . xp i . . . xp n

Noter que le nombre p de variables dune A.C.P. vaut au moins 2 ; le plus souvent, p est de lordre de 10 (ou de quelques dizaines). De son ct, le nombre n dindividus est au moins gal a oe e ` p ; le plus souvent, il vaut plusieurs dizaines (voire plusieurs centaines). Le probl`me ` traiter e a On cherche a extraire linformation pertinente contenue dans le tableau des donnes. Pour cela, ` e on va le rsumer en extrayant lessentiel de sa structure en vue de faire des reprsentations e e graphiques a la fois d`les aux donnes initiales et commodes a interprter. Ces reprsentations ` e e ` e e devront se faire en dimension rduite : le nuage initial, situ dans un espace de dimension p (puise e quon dispose, au dpart, de p variables quantitatives), sera rsum (rduit, projet) en dimension e e e e e q (grce a lobtention de q facteurs : voir la dnition de ce terme plus bas). Le nombre q de a ` e facteurs retenus sera compris entre 1 et p ; le plus souvent, il vaudra 2 ou 3. Le crit`re utilis e e Les q facteurs que lon va dnir, pour rsumer linformation contenue dans le tableau initial, e e doivent maximiser la dispersion du nuage des observations. Rappelons que la dispersion dune variable quantitative se mesure, en gnral, par sa variance (ou par son cart-type, racine carre e e e e positive de la variance). Plus gnralement, lorsquon dispose dun nuage dobservations en plue e sieurs dimensions, on parle dinertie (somme des variances des variables considres). Le principe e e de lA.C.P. consiste donc a rechercher, pour une dimension q restreinte (2 ou 3), les q facteurs ` maximisant linertie du nuage lorsquon le projette (le rsume) dans le sous-espace de dimension q e engendr par ces facteurs : en passant de la dimension initiale p a la dimension rduite q, on perd, e ` e obligatoirement, de la dispersion, de linertie. Lide est den perdre le moins possible en choisissant e convenablement les facteurs. La mthode e On cherche des combinaisons linaires des variables initiales, appeles facteurs, ou encore e e composantes principales, scrivant sous la forme suivante (penser a la moyenne pondre des e ` e e notes dun groupe dl`ves a lissue du bac ; cest la mme chose, en plus gnral) : ee ` e e e C 1 = a1 X 1 + a2 X 2 + + a p X p 1 1 1 C 2 = a1 X 1 + a2 X 2 + + a p X p 2 2 2 ... telles que : C 1 doit contenir un maximum dinformation, cest-`-dire disperser le plus possible les individus. a Lide est la suivante : si on dispose dun nuage de points dans le plan (autrement dit, en e dimension p = 2) et quon souhaite le projeter sur une droite (donc en dimension q = 1), la droite la plus d`le a la conguration initiale est celle qui rend maximum la dispersion e ` la variance du nuage apr`s sa projection (essayer de faire un dessin). e Le crit`re choisi est, de faon naturelle, var(C 1 ) maximum. Pour des raisons techniques, on e c p doit rajouter la contrainte j=1 (aj )2 = 1. 1 On fait la mme chose pour C 2 , en imposant, en plus, que C 1 et C 2 soient non correles (pour e e que linformation apporte par C 2 soit compl`tement nouvelle par rapport a linformation e e ` contenue dans C 1 ).

1.3. PRESENTATION GENERALE DE LA METHODE Et ainsi de suite . . .

13

On pourra ainsi se contenter dun petit nombre de facteurs (2 ou 3) pour raliser des graphiques e faciles a lire et a interprter. ` ` e Centrage ou rduction des donnes ? e e Tout dabord, il faut noter que le centrage des variables dun tableau soumis a une A.C.P. ` (on retranche a chaque observation la moyenne de la variable correspondante) ne modie en rien ` les rsultats de lA.C.P. En eet, on utilise comme crit`re la maximisation de la dispersion (de e e linertie) et la dispersion dune variable nest pas modie par son centrage. Comme il est plus e commode de travailler avec des donnes centres (les expressions manipules sont plus simples a e e e ` crire), les A.C.P. sont systmatiquement ralises apr`s centrage de chaque variable. e e e e e Dans la pratique, on peut ainsi faire soit une A.C.P. centre (les variables X j considres e e e sont seulement centres), soit une A.C.P. rduite (les variables sont centres et rduites : on e e e e divise chaque donne centre par lcart-type de la variable correspondante). e e e On recommande lA.C.P. seulement centre lorsque les variables sont homog`nes : mme e e e signication, mme unit de mesure, mme ordre de grandeur... Cest le cas de lexemple trait e e e e au paragraphe prcdent. Au contraire, on recommande lA.C.P. rduite lorsque les variables sont e e e htrog`nes, cest-`-dire dans les autres cas. e e e a Les outils mathmatiques (pour lecteur averti !) e Il sagit des outils de lalg`bre linaire, essentiellement les notions de vecteurs propres et de e e valeurs propres. Notons S la matrice p p des variances-covariances des variables X j et R la matrice p p de leurs corrlations linaires. Dans une A.C.P. seulement centre, C 1 est le vecteur e e e propre norm de S associ a la plus grande valeur propre (SC 1 = 1 C 1 et C 1 = 1), C 2 est le e e` vecteur propre norm de S associ a la seconde plus grande valeur propre, et ainsi de suite. De plus, e e` les dirents vecteurs C k sont orthogonaux (` la non corrlation des variables centres correspond e a e e lorthogonalit des vecteurs qui les reprsentent). Dans une A.C.P. rduite, les C k sont les vecteurs e e e propres orthonorms de la matrice R. e Commentaires On notera que les dirents calculs permettant dobtenir les rsultats dune A.C.P. (dnition e e e des facteurs, calcul de leur variance les valeurs propres , dtermination des corrlations variablese e facteurs, des coordonnes des individus...) ne sont en gnral pas ralisables ` la main (pas plus e e e e a quavec une calculette dailleurs). Seul lusage dun ordinateur et dun logiciel spcialis, utilisant e e un algorithme appropri, peut permettre dobtenir ces rsultats. e e

1.3.2

Les rsultats e

Rsultats gnraux e e e Avant danalyser les rsultats proprement dits dune A.C.P., il est bon den regarder les e rsultats prliminaires. Tout dabord, pour chaque variable considre, son minimum, son maxie e e e mum, sa moyenne et son cart-type. Cela permet davoir une premi`re connaissance des donnes e e e tudies et, le cas chant, de dcider si lA.C.P. doit tre rduite on non. e e e e e e e Il est galement intressant dtudier la matrice des corrlations entre variables initiales, e e e e dans la mesure o` elle permet davoir une premi`re ide de la structure de corrlation entre ces u e e e variables. Ensuite, le premier tableau de rsultats a regarder est le tableau des pourcentages dinertie e ` correspondants aux direntes valeurs propres, contenant aussi les pourcentages cumuls associs : e e e ce tableau va permettre de choisir la dimension q retenue pour interprter lA.C.P. e Rsultats sur les variables e La technique de lA.C.P. permet de calculer les corrlations variables-facteurs, autrement e dit les coecients de corrlation linaire entre chaque variable initiale et chaque facteur retenu. e e

14

CHAPITRE 1. ANALYSE EN COMPOSANTES PRINCIPALES

Dans un premier temps, ces quantits permettent un dbut dinterprtation des facteurs, dans e e e ` la mesure o` elles indiquent comment ils sont lis aux variables initiales. A ce stade, il est recomu e mand dutiliser aussi la matrice des corrlations entre variables initiales, pour complter cette e e e interprtation. e Dans un second temps, les corrlations variables-facteurs permettent de raliser les graphiques e e des variables dont ltude dtaille conduit a prciser la signication des axes, cest-`-dire des e e e ` e a facteurs. On doit considrer uniquement le graphique selon les axes 1 et 2 si lon a choisi q = 2 ; e on doit au contraire considrer les 3 graphiques selon les axes 1 et 2, 1 et 3, 2 et 3, si lon a choisi e q = 3. Rsultats sur les individus e L` encore, la technique de lA.C.P. permet de calculer les coordonnes des individus sur les a e axes, leurs contributions ` la dispersion selon chacun de ces axes (ainsi que leurs contributions a a la dispersion globale, selon les p dimensions) et les cosinus carrs. ` e Les coordonnes permettent de raliser les graphiques des individus (1 ou 3 graphiques, e e selon que lon a choisi q = 2 ou q = 3). Concernant ces graphiques, il faut tout dabord noter que leurs axes sinterpr`tent de la mme mani`re que les axes des graphiques des variables : les uns e e e comme les autres sont associs aux facteurs. e En associant a ces graphiques les contributions des individus aux axes, on peut aner lin` terprtation de ces axes : chacun dentre eux est surtout dtermin par les quelques individus e e e prsentant les plus fortes contributions ; ce sont en gnral ceux situs en position extrme sur e e e e e laxe, cest-`-dire y ayant les plus fortes coordonnes, soit positives soit ngatives. Bien sr, avant a e e u dutiliser un tel individu pour aner linterprtation dun axe, il faut sassurer que cet individu est e bien reprsent sur cet axe, autrement dit que le cosinus carr correspondant est grand (proche de e e e 1).

Chapitre 2

Analyse Factorielle des Correspondances


LAnalyse Factorielle des Correspondances (A.F.C.) est une mthode factorielle de Statistique e Descriptive Multidimensionnelle (voir la premi`re section du chapitre 1). e Son objectif est danalyser la liaison existant entre deux variables qualitatives (si on dispose de plus de deux variables qualitatives, on aura recours a lAnalyse des Correspondances Multiples, ` mthode expose dans le chapitre 3). Ainsi, avant de mettre en uvre une A.F.C., il faut sassurer e e que cette liaison existe bien. Pour cela, il existe des graphiques (diagrammes en barres de prols) et des caractristiques numriques (indice khi-deux et ses drivs) permettant de mettre en vidence e e e e e une telle liaison lorsquelle existe (voir le cours de statistique descriptive lmentaire, ici not ee e SDE). On notera quon dispose aussi dun test statistique, le test du khi-deux dindpendance, bas e e sur lindice khi-deux, permettant de tester sil existe ou non une liaison signicative entre deux variables qualitatives. Ce test est tr`s simple a mettre en uvre mais ne rel`ve pas de la statistique e ` e descriptive. LA.F.C. est, en fait, une Analyse en Composantes Principales (A.C.P. ; voir le chapitre 1) particuli`re, ralise sur les prols associs a la table de contingence croisant les deux variables e e e e ` considres. Plus prcisemment, lA.F.C. consiste a raliser une A.C.P. sur les prols-lignes et une e e e ` e autre sur les prols-colonnes. Les rsultats graphiques de ces deux analyses sont ensuite superposs e e pour produire un graphique (ventuellement plusieurs) de type nuage de points, dans lequel sont e runies les modalits des deux variables considres, ce qui permet dtudier les correspondances e e e e e entre ces modalits, autrement dit la liaison entre les deux variables. e

2.1

Principe gnral de lA.F.C. e e

LA.F.C. tant une A.C.P. particuli`re, nous ne donnons pas trop de dtails techniques sur cette e e e mthode. On en donne juste les grandes lignes dans ce paragraphe. Ensuite, dans le paragraphe 2, e on illustre en dtails la mthode sur un exemple. e e

2.1.1

Les donnes e

On consid`re deux variables qualitatives : X a r modalits notes x1 , . . . , x , . . . , xr ; Y a c e ` e e ` modalits notes y1 , . . . , yh , . . . , yc ; on les observe simultanment sur n individus (ayant ici obligae e e 1 e e e e toirement tous le mme poids ). On sait que ces donnes peuvent tre prsentes sous la forme e n dune table de contingence, ou tableau a double entre : ` e 15

16

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES

x1 . . . x . . . xr sommes

y1 n11 . . . n1 . . . nr1 n+1

yh n1h . . . nh . . . nrh n+h

yc n1c . . . nc . . . nrc n+c

sommes n1+ . . . n+ . . . nr+ n

Des prcisions sur une telle table de contingence se trouvent dans le chapitre 3 du cours SDE. e En particulier, on y trouve les dnitions des eectifs conjoints (les n h ) et des eectifs marginaux e (les n + et les n+h ).

2.1.2

Le probl`me e

On suppose quil existe une liaison entre X et Y , et on cherche a dcrire, a expliciter, cette ` e ` liaison. Pour cela, on se base sur ltude des prols-lignes et des prols-colonnes. Rappelons la dnition e e e du i`me prol-ligne n1 nh nc { ,..., ,..., }, n+ n+ n+
e et celle du hi`me prol-colonne

nh nrh n1h ,..., ,..., }. n+h n+h n+h

Rappelons encore que la liaison entre les deux variables est dautant plus grande que les prols (lignes ou colonnes) sont dirents. Cest donc par ltude des ressemblances et des dirences e e e entre prols-lignes et entre prols-colonnes que lon peut analyser la liaison entre les deux variables. Cette analyse va se faire au moyen de deux Analyses en Composantes Principales (A.C.P.) un peu particuli`res. e

2.1.3

La mthode e

On ralise lA.C.P. du tableau des prols-lignes (les individus de cette A.C.P. sont les lignes e de la table de contingence, cest-`-dire les modalits de X) et lon fait la reprsentation graphique a e e des individus, donc des modalits de X (dans cette A.C.P. particuli`re, on ne sintresse pas au e e e graphique des variables). On a un seul graphique si on ne conserve que deux dimensions, plusieurs dans le cas contraire. On ralise dautre part lA.C.P. du tableau des prols-colonnes (les individus de cette A.C.P. e sont maintenant les colonnes de la table de contingence, cest-`-dire les modalits de Y ) et lon fait a e la reprsentation graphique des individus, donc des modalits de Y . e e On montre que ces deux A.C.P. se correspondent (ce qui est normal, puisque leurs donnes e sont extraites de la mme table de contingence) et quil est donc lgitime de superposer les deux e e reprsentations graphiques. On obtient ainsi un graphique de type nuage de points (ou un ensemble e de graphiques si on conserve plus de deux dimensions), reprsentant a la fois les modalits de X e ` e et celles de Y . Cest linterprtation de ce(s) graphique(s), pour laquelle on dispose dun certain nombre dine dicateurs, qui permet dexpliciter la liaison entre les deux variables considres. En particulier, on e e sattache a tudier les correspondances entre les modalits de X et celles de Y , do` le nom de la `e e u mthode. e Signalons que la distance entre prols (lignes ou colonnes), utilise pour raliser chaque A.C.P., e e est un peu particuli`re : ce nest pas la distance usuelle, mais la distance dite du khi-deux. Elle e est explique dans le point 2.2.2, avec la notion dinertie. e

2.2. EXEMPLE ILLUSTRATIF

17

2.2

Exemple illustratif

Lexemple considr dans ce paragraphe est relatif aux exploitations agricoles de la rgion Midie e e Pyrnes. Les donnes proviennent des Tableaux Economiques de Midi-Pyrnes, publis par la e e e e e e Direction Rgionale de Toulouse de lINSEE, en 1996 (donnes relatives a lanne 1993 ; chires e e ` e arrondis a la dizaine pr`s). ` e

2.2.1

Les donnes e

Elles sont reproduites ci-dessous. Exemple 1 Rpartition des exploitations agricoles de la rgion Midi-Pyrnes selon le dpartee e e e e ment et la S.A.U. (en 1993).

ARIE AVER H.G. GERS LOT H.P. TARN T.G.

INF05 870 820 2290 1650 1940 2110 1770 1740

S0510 330 1260 1070 890 1130 1170 820 920

S1020 730 2460 1420 1350 1750 1640 1260 1560

S2035 680 3330 1830 2540 1660 1500 2010 2210

S3550 470 2170 1260 2090 770 550 1680 990

SUP50 890 2960 2330 3230 1140 430 2090 1240

Les 73 000 exploitations agricoles de la rgion Midi-Pyrnes ont t ventiles dans cette table e e e ee e de contingence selon le dpartement (en lignes, 8 modalits) et la S.A.U. (Surface Agricole Utilise, e e e en colonnes, 6 classes). Codes des dpartements : ARIE = Ari`ge ; AVER = Aveyron ; H.G. = Haute-Garonne ; GERS e e = Gers ; LOT = Lot ; H.P. = Hautes-Pyrnes ; TARN = Tarn ; T.G. = Tarn-et-Garonne. e e Codes des classes de S.A.U. : INF05 = moins de 5 hectares ; S0510 = entre 5 et 10 hectares... ; SUP50 = plus de 50 hectares. On notera que la deuxi`me variable nest pas qualitative, mais quantitative continue. En fait, la e mthode la consid`re comme qualitative, ce qui signie que lordre naturel sur les classes nest pas e e du tout pris en compte. On pourra toujours essayer de retrouver cet ordre lorsquon interpr`tera e le graphique, mais ce sera un complment par rapport a lA.F.C. proprement dite. e ` Remarque 1 En statistique, on parle en gnral de variable catgorielle pour dsigner soit une e e e e variable qualitative (nominale ou ordinale), soit une variable quantitative (discr`te ou continue), e lorsque les modalits, valeurs ou classes sont considres comme des catgories, sans aucune struce e e e ture (structure dordre entre les modalits ou les classes, structure numrique celle de lene e semble des nombres rels entre les valeurs). Toute variable prise en compte dans une A.F.C. e est systmatiquement considre comme catgorielle. Cest a lutilisateur de regarder ensuite, sur e e e e ` le(s) graphique(s) obtenu(s), si la structure initiale, lorquelle existe, peut tre, dune faon ou e c dune autre, retrouve. e

2.2.2

LA.F.C. des donnes de lexemple 1 avec le logiciel SAS e

Nous prsentons et commentons ci-apr`s les principaux rsultats de lA.F.C. des donnes de e e e e lexemple 1 mise en uvre avec le logiciel SAS. On notera que ces rsultats sont comparables a e ` ceux fournis par la plupart des logiciels de statistique (en particulier SPSS, S-plus ou R). Le tableau initial Le premier rsultat fourni par le logiciel est la table initiale, avec ses marges. e

18

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES


Contingency Table

| INF05 S0510 S1020 S2035 S3550 SUP50 | Sum ---------------------------------------------------------------------------ARIE | 870 330 730 680 470 890 | 3970 AVER | 820 1260 2460 3330 2170 2960 | 13000 H.G. | 2290 1070 1420 1830 1260 2330 | 10200 GERS | 1650 890 1350 2540 2090 3230 | 11750 LOT | 1940 1130 1750 1660 770 1140 | 8390 H.P. | 2110 1170 1640 1500 550 430 | 7400 TARN | 1770 820 1260 2010 1680 2090 | 9630 T.G. | 1740 920 1560 2210 990 1240 | 8660 ---------------------------------------------------------------------------Sum | 13190 7590 12170 15760 9980 14310 | 73000

Les contributions au khi-deux Le second rsultat est la valeur de lindice khi-deux (5375.49) quon obtient en faisant la somme, e sur lensemble des cellules des cases de la table de contingence, des quantits e n + n+h 2 ) (n h n n + n+h n (voir le chapitre 3 du cours SDE). En fait, le tableau des contributions au khi-deux fournit les quantits ci-dessus dans chaque cele lule, ce qui permet de dceler facilement les cellules (autrement dit les croisements dun dpartement e e et dune surface) contribuant le plus au khi-deux, donc a la dnition de la liaison. ` e
Contributions to the Total Chi-Square Statistic | INF05 S0510 S1020 S2035 S3550 SUP50 | Sum -----------------------------------------------------------------------------ARIE | 32.50 16.60 7.02 36.59 9.75 16.05 | 118.51 AVER | 995.17 6.21 39.54 97.62 86.79 66.49 | 1291.82 H.G. | 108.42 0.08 46.26 62.87 12.97 54.64 | 285.24 GERS | 105.40 90.05 189.25 0.00 145.61 372.82 | 903.14 LOT | 118.62 76.11 88.22 12.64 123.92 154.86 | 574.38 H.P. | 446.82 208.58 133.83 5.96 210.68 718.07 | 1723.94 TARN | 0.52 32.81 74.33 2.29 100.34 21.67 | 231.96 T.G. | 19.63 0.43 9.36 61.97 31.77 123.35 | 246.51 -----------------------------------------------------------------------------Sum | 1827.07 430.88 587.82 279.95 721.82 1527.95 | 5375.49

Considrons, par exemple, la cellule (1,1), soit ARIE x INF05 ; on obtient : e [870 (3970 13190)/73000]2 (3970 13190)/73000 32.50.

Cette valeur est relativement faible (par rapport aux autres valeurs du tableau), ce qui signie que les tr`s petites exploitations (moins de 5 hectares) nont rien de tr`s particulier en Ari`ge. e e e Considrons maintenant la cellule (2,1), soit AVER x INF05 ; on obtient : e [820 (13000 13190)/73000]2 (13000 13190)/73000 995.17.

Cette valeur est la plus grande du tableau des contributions, ce qui signie quen Aveyron, les tr`s e petites exploitations prsentent une particularit tr`s marque : elles sont soit tr`s nombreuses, e e e e e soit tr`s peu nombreuses (le carr intervenant dans lexpression du khi-deux supprime le signe et ne e e permet pas de dire quelle est celle des deux situations qui se prsente). Cest le tableau des prolse lignes, ci-dessous, qui va permettre de lever cette ambigu e : alors que ce type dexploitations t reprsente entre 14 % et 29 % de lensemble des exploitations dans les autres dpartements, elles e e ne sont que 6,3 % en Aveyron, autrement dit tr`s peu nombreuses. Ce phnom`ne est un lment e e e ee constitutif tr`s important de la liaison existant entre les dpartements et les surfaces. e e

2.2. EXEMPLE ILLUSTRATIF Les tableaux de prols

19

Il sagit des deux tableaux donnant les prols-lignes pour le premier et les prols-colonnes pour le second. Le logiciel SAS ne les exprime pas en pourcentages, mais en frquences, de sorte que les e sommes (en lignes pour le premier et en colonnes pour le second) valent 1.
Row Profiles | INF05 S0510 S1020 S2035 S3550 SUP50 -----------------------------------------------------------------------------ARIE | 0.219144 0.083123 0.183879 0.171285 0.118388 0.224181 --> 1 AVER | 0.063077 0.096923 0.189231 0.256154 0.166923 0.227692 --> 1 H.G. | 0.224510 0.104902 0.139216 0.179412 0.123529 0.228431 --> 1 GERS | 0.140426 0.075745 0.114894 0.216170 0.177872 0.274894 --> 1 LOT | 0.231228 0.134684 0.208582 0.197855 0.091776 0.135876 --> 1 H.P. | 0.285135 0.158108 0.221622 0.202703 0.074324 0.058108 --> 1 TARN | 0.183801 0.085151 0.130841 0.208723 0.174455 0.217030 --> 1 T.G. | 0.200924 0.106236 0.180139 0.255196 0.114319 0.143187 --> 1

On a dj` signal plus haut lintrt des prols dans lanalyse de la table de contingence. Il ea e e e est clair que ce sont les variations de prols, dune ligne a lautre ou dune colonne a lautre, qui ` ` dnissent la liaison entre les deux variables considres. Elles doivent donc ncessairement tre e e e e e prises en compte dans lanalyse de cette liaison.
Column Profiles | INF05 S0510 S1020 S2035 S3550 SUP50 -----------------------------------------------------------------------ARIE | 0.065959 0.043478 0.059984 0.043147 0.047094 0.062194 AVER | 0.062168 0.166008 0.202136 0.211294 0.217435 0.206848 H.G. | 0.173616 0.140975 0.116680 0.116117 0.126253 0.162823 GERS | 0.125095 0.117260 0.110929 0.161168 0.209419 0.225716 LOT | 0.147081 0.148880 0.143796 0.105330 0.077154 0.079665 H.P. | 0.159970 0.154150 0.134758 0.095178 0.055110 0.030049 TARN | 0.134193 0.108037 0.103533 0.127538 0.168337 0.146052 T.G. | 0.131918 0.121212 0.128184 0.140228 0.099198 0.086653 -----------------------------------------------------------------------TOTAL | 1 1 1 1 1 1

La notion dinertie en A.F.C. Le tableau qui suit dans les sorties du logiciel SAS est relatif a la notion dinertie. Avant de le ` dtailler, nous allons essayer de prciser cette notion dans le contexte particulier de lA.F.C. e e Rappelons tout dabord que la notion dinertie, ou de dispersion, est fondamentale en statistique. Elle se ram`ne a la notion de variance dans le cas unidimensionnel (voir le chapitre 2 du cours e ` SDE) et a dj` jou un rle central en A.C.P. (voir le chapitre 1). Cest encore le cas en A.F.C. o` ea e o u son expression a une signication particuli`re (elle reprsente lindicateur phi-deux, cest-`-dire le e e a khi-deux divis par n, le nombre total dobservations). e Tout ceci est expliqu ci-dessous, le plus simplement possible... Malheureusement pour les lece teurs non mathmaticiens, ces explications ne peuvent contourner une certaine technicit mathmae e e tique. Que les lecteurs rebuts par ce qui suit ne sinqui`tent pas et retiennent essentiellement le e e dernier alina. e Un prol-ligne est un lment comportant c termes (c est le nombre de colonnes de la table ee analyse) dont la somme vaut 1. Dun point de vue mathmatique, on peut donc reprsenter chaque e e e prol-ligne par un vecteur dans un espace vectoriel de dimension c (en pratique, on consid`re IR c e muni de la base canonique). Les coordonnes de ce vecteur sont les termes du prol-ligne correspone dant. On obtient ainsi, dans lespace considr, un nuage de r vecteurs (r est le nombre de lignes e e de la table analyse) dont on peut dterminer le barycentre, cest-`-dire le point moyen (chacune e e a des coordonnes du barycentre est la moyenne pondre des coordonnes correspondantes de lene e e e semble des prols-lignes ; les pondrations sont les eectifs marginaux des lignes). Le barycentre e

20

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES

est le vecteur reprsentant le prol-ligne moyen, autrement dit, dans notre exemple, la rpartition e e des exploitations agricoles selon les classes de S.A.U. dans lensemble de la rgion Midi-Pyrnes, e e e tous dpartements confondus. e On peut faire le mme raisonnement sur les prols-colonnes. Lespace considr est alors de e e e dimension r, on obtient dans cet espace un nuage de c points dont on peut dterminer le barye centre, reprsentant le prol-colonne moyen, autrement dit, dans notre exemple, la rpartition des e e exploitations agricoles selon les dpartements de la rgion Midi-Pyrnes, indpendamment de la e e e e e S.A.U. Dans chacun des espaces vectoriels considrs ci-dessus, on peut dterminer linertie du nuage e e e de points par rapport a son barycentre. Cest la somme pondre des carrs des distances des ` e e e prols a leur barycentre (formule analogue a celle dnissant la variance). Les pondrations prises ` ` e e en compte sont encore les eectifs marginaux (des lignes ou des colonnes selon le cas). Quant aux distances, ce sont les distances dnies dans chacun des deux espaces vectoriels considrs (qui e e e sont donc, dun point de vue mathmatique, des espaces euclidiens). En fait, il ne sagit pas de la e distance usuelle, mais dune distance spcique a lA.F.C., appele distance, ou encore mtrique, e ` e e du khi-deux. Elle est construite a partir des inverses des frquences des colonnes (dans IR c ) et de ` e celles des lignes (dans IRr ). On peut alors vrier que linertie du nuage des prols-lignes, dans lespace de dimension c, et e celle du nuage des prols-colonnes, dans lespace de dimension r, sont gales et ont pour expression e la valeur de lindicateur phi-deux calcul sur la table de contingence considre. e e e Les pourcentages dinertie des direntes dimensions e Comme en A.C.P., le tableau donnant la part dinertie restitue par chaque dimension (chaque e axe) permet de conna la qualit globale des rsultats (en particulier des graphiques) lorquon tre e e conserve seulement deux ou trois dimensions. Sur lexemple des exploitations agricoles, ce tableau est donn ci-dessous. e
Inertia and Chi-Square Decomposition Singular Values 0.23455 0.12210 0.04894 0.02792 0.02328 Principal Inertias 0.05501 0.01491 0.00239 0.00078 0.00054 ------0.07364 ChiSquares 4015.91 1088.29 174.83 56.90 39.55 ------5375.49

Percents 74.71 20.25 3.25 1.06 0.74

15 30 45 60 75 ----+----+----+----+----+--************************* ******* *

Les inerties totales des deux nuages (celui des prols-lignes et celui des prols-colonnes) sont identiques et se dcomposent de la mme mani`re selon les dirents axes factoriels (ou axes e e e e principaux, ou axes principaux dinertie) obtenus dans lanalyse. Il ny a donc quun seul tableau de rsultats qui, dans la colonne Principal Inertias (inerties e principales, cest-`-dire selon les axes principaux), donne les valeurs de linertie restitue par chaque a e axe (cest linertie du nuage, celui des prols-lignes ou celui des prols-colonnes, projet sur cet e axe). La somme de ces inerties est gale au phi-deux (ici 0.07364). e Comme en A.C.P., le premier axe est celui qui restitue la plus grande quantit dinertie ; le e second est celui qui, tout en tant orthogonal au premier (au sens de la mtrique du khi-deux), en e e restitue aussi le maximum ; et ainsi de suite. Les valeurs singuli`res (Singular Values), racines carres positives des inerties principales, e e nont pas dintrt pratique et ne sont pas utilises. e e e Les quantits gurant dans la colonne Chi-Squares (khi-deux) sont gales aux inerties princie e pales multiplies par leectif de la table de contingence. Cest la raison pour laquelle leur somme e est gale au khi-deux (on rappelle que 2 = n 2 ). On peut encore considrer que chaque axe de e e lanalyse restitue une part du khi-deux, donc de la liaison entre les deux variables initiales, la plus importante pour laxe 1 et ainsi de suite.

2.2. EXEMPLE ILLUSTRATIF

21

Les pourcentages (Percents) reprsentent les pourcentages du khi-deux restitus par chaque e e axe. Comme en A.C.P., on se sert des pourcentages cumuls pour choisir la dimension a retenir. e ` Dans notre exemple, les deux premi`res dimensions reprsentent quasiment 95 % de linertie totale. e e On ne retiendra donc que deux dimensions, ce qui permettra de ne raliser quun seul graphique. e Remarque 2 Lorquon ralise lA.F.C. dune table de contingence comportant r lignes et c coe lonnes, avec par exemple r c, la dimension de lespace dans lequel se trouve lensemble des rsultats est c 1 (si lon a r c, cette dimension est r 1 ; de faon gnrale, elle vaut e c e e inf(r 1, c 1)). Ainsi, dans lexemple considr, on a r = 8 et c = 6, ce qui explique que le e e tableau ci-dessus fournisse seulement 5 dimensions. La diminution de un par rapport a la plus pe` tite des deux dimensions provient du fait que la mthode op`re sur des pourcentages dont le dernier e e peut toujours se dduire des prcdents. e e e Les coordonnes des lignes et des colonnes e Ce sont ces coordonnes qui permettent de raliser le graphique reprsentant simultanment, e e e e selon les dimensions 1 et 2, les dpartements et les S.A.U. Leur dtermination se fait selon le mme e e e principe quen A.C.P. Nous donnons ci-dessous ces coordonnes. Le graphique correspondant est donn par la Figure e e 1.
Row Coordinates | Dim1 Dim2 ------------------------------ARIE | 0.037168 -.109849 AVER | -.236684 0.206059 H.G. | 0.023759 -.157132 GERS | -.261525 -.089482 LOT | 0.255187 0.032261 H.P. | 0.478228 0.052226 TARN | -.102814 -.087061 T.G. | 0.123568 0.068447 Column Coordinates | Dim1 Dim2 -------------------------------INF05 | 0.322690 -.183979 S0510 | 0.215688 0.069874 S1020 | 0.147020 0.149383 S2035 | -.047693 0.106435 S3550 | -.257888 -.011834 SUP50 | -.304488 -.103492

Linterprtation du graphique est donne plus bas. e e Les contributions ` linertie selon chaque axe a On a vu que les inerties de chaque nuage (celui des prols-lignes et celui des prols-colonnes) se dcomposaient, de la mme faon, selon les dirents axes. Ici, puisquon ne conserve que deux e e c e dimensions, on ne sintresse quaux inerties selon les deux premiers axes. e Pour chacun des deux axes retenus, les tableaux ci-dessous donnent les parts dinertie dues dabord a chaque ligne (ou dpartement), ensuite a chaque colonne (ou classe de S.A.U.). Ces part ` e ` sont exprimes en frquences et somment donc a 1. e e `

22

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES

Dim. 2 0.25 AVER 0.15 s2035 0.05 s3550 -0.05 s u pG5E0R S -0.15 -0.25 -0.5 -0.4 -0.3 -0.2 -0.1 0.0 Dim. 1 0.1 0.2 0.3 0.4 0.5 TARN ARIE H.G. inf05 T . G .s 0 5 1 0 LOT H.P. s1020

Fig. 2.1 Rsultats de lA.F.C. sur les exploitations agricoles de Midi-Pyrnes e e e


Partial Contributions to Inertia for the Row Points | Dim1 Dim2 ------------------------------ARIE | 0.001366 0.044019 AVER | 0.181341 0.507201 H.G. | 0.001434 0.231410 GERS | 0.200115 0.086450 LOT | 0.136049 0.008024 H.P. | 0.421421 0.018546 TARN | 0.025348 0.067070 T.G. | 0.032927 0.037281 ------------------------------| 1 1 Partial Contributions to Inertia for the Column Points | Dim1 Dim2 -------------------------------INF05 | 0.342003 0.410237 S0510 | 0.087925 0.034051 S1020 | 0.065503 0.249544 S2035 | 0.008926 0.164051 S3550 | 0.165276 0.001284 SUP50 | 0.330367 0.140833 -------------------------------| 1 1

Comment dtermine-t-on ces contributions ? Si on dsigne par ck la coordonne du dpartement e e e e numro ( = 1, . . . , 8) sur laxe k (k = 1, 2), linertie selon laxe k vaut : e
r

Ik =
=1

n+ k 2 (c ) . n

La part du dpartement e

vaut donc :

n+ k 2 (c ) n . Ik

Prenons lexemple de lAveyron ( = 2) sur laxe 1 (k = 1). Le tableau des inerties fournit : I1 = 0.05501. Celui des coordonnes fournit : c1 = 0.236684. Enn, la table de contingence e 2 13 n2+ = . On en dduit que la contribution de lAveyron a linertie du e ` initiale permet dcrire : e n 73

2.2. EXEMPLE ILLUSTRATIF nuage des dpartements selon laxe 1 vaut : e 13 (0.236684)2 73 0.05501

23

0.1813,

valeur donne dans le tableau ci-dessus. e Les contributions aux inerties servent a la fois a slectionner les lignes et les colonnes les ` ` e plus importantes dans lanalyse (cest-`-dire dans la dnition de la liaison) et, le cas chant, a a e e e ` interprter les axes des graphiques. e Signalons nanmoins, quen A.F.C., linterprtation concr`te des axes nest pas aussi fondae e e mentale quen A.C.P. On ne fait cette interprtation que si elle est simple a faire et si elle facilite e ` la comprhension des rsultats. Pour la faire, on utilise bien sr le graphique, mais aussi les contrie e u butions des lignes et celles des colonnes a linertie de leur nuage. Dans lexemple considr nous ` e e pouvons sans dicult interprter les axes (en particulier le premier). e e On voit ainsi que les dpartements les plus importants dans la dnition de laxe 1 (ceux qui e e contribuent le plus a son inertie) sont les Hautes-Pyrnes, le Gers et lAveyron. Du point de vue ` e e des tailles de S.A.U., il sagit des tr`s petites exploitations (INF05), des tr`s grandes (SUP50) et e e des assez grandes (S3550). Laxe 2, concernant les dpartements, est surtout dtermin par lAveyron et la Haute-Garonne ; e e e pour la S.A.U., il sagit surtout des tr`s petites exploitations et de celles de surface comprise entre e 10 et 20 hectares, puis, dans une moindre mesure, des surfaces S2035 et SUP50. Nous verrons dans le point 2.3 comment ces lments interviennent dans linterprtation des rsultats. ee e e Les cosinus carrs e Ces quantits indiquent, comme en A.C.P., la qualit de la reprsentation sur chaque axe e e e (autrement dit sur chaque dimension) de chaque modalit (ligne ou colonne). e Dans chacun des deux espaces de reprsentation des modalits (celui des lignes et celui des e e colonnes, chacun de dimension inf(r 1, c 1)), les angles dont on consid`re le cosinus sont les e angles entre chaque vecteur reprsentant une modalit et laxe considr. Plus cet angle est petit, e e e e plus son cosinus (donc son carr) est proche de 1, et plus la qualit de la reprsentation de la e e e modalit sur cet axe est bonne. Plus cet angle est grand (proche dun angle droit), plus son cosinus e (donc son carr) est proche de 0, et plus la qualit de la reprsentation de la modalit sur cet axe e e e e est mauvaise. On utilise les carrs des cosinus car on peut les additionner selon les direntes dimensions e e (proprit gomtrique classique). ee e e
Squared Cosines for the Row Points | Dim1 Dim2 ------------------------------ARIE | 0.046279 0.404245 AVER | 0.563739 0.427291 H.G. | 0.020186 0.882916 GERS | 0.889835 0.104173 LOT | 0.951223 0.015203 H.P. | 0.981701 0.011708 TARN | 0.438847 0.314675 T.G. | 0.536412 0.164587 Squared Cosines for the Column Points | Dim1 Dim2 -------------------------------INF05 | 0.751725 0.244357 S0510 | 0.819488 0.086004 S1020 | 0.447511 0.462010 S2035 | 0.128051 0.637744 S3550 | 0.919524 0.001936 SUP50 | 0.868303 0.100310

24

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES

% 100 90 80 70 60 50 40 30 20 10 0 ARIE AVER GERS H.G. H.P. Departements SAU inf05 s2035 s0510 s3550 s1020 sup50 LOT T.G. TARN

Fig. 2.2 Prols-lignes des dpartements e Prenons deux exemples. Le cosinus carr de langle entre le vecteur reprsentant lAveyron et le plan du graphique e e vaut : 0.5637 + 0.4273 = 0.9910 ; langle correspondant est de 5.4 degrs, autrement dit, tr`s petit. e e LAveyron est donc tr`s bien reprsent dans le plan. Ce nest pas le cas de lAri`ge dont le cosinus e e e e carr avec le mme plan vaut 0.0463 + 0.4042 = 0.4505, ce qui correspond a un angle de 47.8 e e ` degrs (plus de la moiti dun angle droit). e e On pourra donc interprter sans rserve la proximit, dans le plan, de lAveyron avec tout autre e e e dpartement ou toute autre surface bien reprsente. Il faudra par contre tre tr`s prudent en ce e e e e e qui concerne lAri`ge. e

2.2.3

Interprtation des rsultats e e

Prcisons tout dabord que cette interprtation se basera uniquement sur les rsultats en dimene e e sion 2, puisque 95 % de linformation utile (celle exprime par la dispersion, cest-`-dire linertie) e a est contenue dans ces deux seules dimensions. On va dailleurs voir que les phnom`nes les plus e e marquants sont ceux rvls par la dimension 1. e ee La gure 2.2 fournit le diagramme en barres des prols-lignes (les dpartements) qui permet e de mieux comprendre les explications qui vont suivre (on notera que le diagramme en barres des prols-colonnes contient la mme information statistique, mais que celui des prols-lignes nous e para plus commode, dans cet exemple, pour aider linterprtation). t e Puisque les surfaces de S.A.U. sont naturellement ordonnes, commenons par tudier leurs e c e positions dans le plan. La premi`re chose remarquable est que leur ordre (rappelons le, non pris en e compte dans lanalyse) est strictement respect sur laxe 1 qui est donc tr`s structurant : il ordonne, e e de la droite vers la gauche, les surfaces, des plus petites aux plus grandes. Par consquent, plus un e dpartement se trouve situ a droite, plus il comporte de petites exploitations et rciproquement. e e` e Ainsi, les Hautes-Pyrnes se caractrisent par la prsence de nombreuses petites exploitations e e e e et la relative raret des grandes exploitations : pr`s de 45 % des exploitations y ont moins de e e 10 hectares (le Lot, qui vient juste derri`re, en a moins de 37 %) ; seulement un peu plus de 13 e % y ont plus de 35 hectares (l` encore le Lot, juste derri`re, en a dj` pr`s de 23 %). Ce prol a e ea e traduit le fait quil sagit du dpartement le plus montagnard de la rgion, comme son nom e e ` lindique dailleurs. A loppos, lAveyron et le Gers se caractrisent par la prsence de grandes e e e exploitations et la raret des petites : les exploitations de plus de 35 hectares reprsentent pr`s e e e de 40 % en Aveyron et plus de 45 % dans le Gers ; celles de moins de 10 hectares reprsentent e seulement 16 % en Aveyron et 21.6 % dans le Gers. Les raisons gographiques en sont direntes : e e rgion de plateaux, de causses, pour lAveyron et de plaines et de collines pour le Gers ; dans les e deux cas, la gographie favorise la prsence de grandes exploitations. e e

2.2. EXEMPLE ILLUSTRATIF

25

On notera que la qualit de reprsentation en dimension 2 des dpartements cits est excellente e e e e (plus de 0.99 pour lAveyron, le Gers et les Hautes-Pyrnes ; 0.97 pour le Lot) ; il en va de mme e e e pour les surfaces cites (0.99 pour INF05 ; 0.91 pour S0510 ; 0.92 pour S3550 ; 0.97 pour SUP50). e En ce qui concerne les contributions des dpartements a laxe 1, les quatre dpartements cits e ` e e sont les seuls a avoir des contributions suprieures a 10 %, et ce de faon tr`s nette. Mme chose ` e ` c e e pour les surfaces INF05, S3550 et SUP50 (S0510 est un peu en dessous de 10 %). Pour ce qui est des contributions au khi-deux, on pourra vrier que les phnom`nes dj` e e e ea signals correspondent a la presque totalit des fortes contributions (suprieures a 100). e ` e e ` La question qui se pose ensuite est de savoir ce que lon peut dire de plus. En particulier, que reprsente laxe 2 ? Ce nest pas vraiment tr`s clair, et cest un phnom`ne courant que lessentiel e e e e ayant t dit sur laxe 1, le reste ne soit pas simple a interprter. Essayons nanmoins. Pour les ee ` e e dpartements, les seules contributions un peu importantes sont celles de la Haute-Garonne et de e lAveyron, qui sopposent nettement sur laxe 2. Pour ce qui est des surfaces, les contributions importantes sont celles de INF05 et S1020 et, dans une moindre mesure, S2035 et SUP50. Le tr`s e petit nombre, en Aveyron, dexploitations de surface infrieure a 5 hectares a dj` t signal (tr`s e ` eae e e e forte contribution au khi-deux). Dun autre ct, il faut galement signaler, dans ce dpartement, le oe e e grand nombre dexploitations moyennes, de S.A.U. comprise entre 20 et 35 hectares. Ceci permet donc daner le prol, assez particulier, de lAveyron : beaucoup de tr`s grandes exploitations e (SUP50) et de moyennes (S2035) ; une proportion proche de la moyenne de la rgion pour les e surfaces S1020 et S3550 ; tr`s peu de petites exploitations de moins de 10 hectares. Quen est-il e pour la Haute-Garonne ? Cest le seul dpartement (avec lAri`ge, mal reprsent dans le plan du e e e e graphique) a avoir plus de 20 % dexploitations de moins de 5 hectares et, en mme temps, plus de ` e 20 % dexploitations de plus de 50 hectares. Cest aussi un dpartement o` il y a relativement peu e u dexploitations moyennes. Lensemble de ces particularits provient de sa situation gographique, e e tire selon laxe nord-sud, avec, au sud, une zone de montagne (le Comminges) et, au nord, une e e zone de plaines et de collines (la plaine de la Garonne et le Lauragais). Pour conclure, prcisons que nous avons fait ici, a dessein, une interprtation tr`s dtaille de e ` e e e e cette A.F.C. Il nest pas toujours ncessaire dentrer autant dans le dtail. On retiendra essentiele e lement que linterprtation sappuie sur le (ou les) graphique(s), ncessite le recours a dirents e e ` e indicateurs (contributions aux axes, contributions au khi-deux, cosinus carrs) et quil ne faut jae mais oublier quon analyse les prols (lignes et colonnes) et que cest donc eux quil faut regarder avant davancer tout lment dinterprtation. Enn signalons que, lorsque certains eectifs de la ee e table de contingence initiale sont tr`s faibles (ce qui nest pas du tout le cas ici), il faut viter de e e tirer des conclusions htives concernant les modalits correspondantes. a e

26

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES

Chapitre 3

Analyse des Correspondances Multiple


Le chapitre 3 tait consacr a lAnalyse Factorielle des Correspondances (A.F.C.), mthode e e ` e factorielle de Statistique Descriptive Multidimensionnelle qui permet danalyser la liaison entre deux variables qualitatives (ventuellement catgorielles). Dans la mesure o` elle ne peut prendre e e u en compte que deux variables, lA.F.C. est naturellement limite (elle est dailleurs parfois appele e e Analyse des Correspondances Binaire, ou encore Analyse des Correspondances Simple). Dans la pratique, en particulier dans le domaine du traitement denqutes (ou de questione naires), il est rare quon se limite a deux variables (deux questions). Le probl`me statistique que ` e pose alors ce type de donnes est lanalyse de la liaison pouvant exister entre un nombre quele conque de variables qualitatives. LAnalyse des Correspondances Multiple (A.C.M.) est la mthode e factorielle de Statistique Descriptive Multidimensionnelle qui permet de traiter ce probl`me. e Dans son principe, lA.C.M. est une A.F.C. particuli`re. Ce qui change est le tableau des e donnes sur lequel on applique la mthode. Le probl`me fondamental est en eet de savoir quel e e e tableau statistique, croisant un nombre quelconque de variables qualitatives, peut gnraliser la e e table de contingence. En fait, la rponse a dj` t donne dans le cours SDE : cest le tableau e ea ee e de Burt. Ainsi, lA.C.M. est une A.F.C. ralise sur un tableau de Burt relatif a au moins trois e e ` variables qualitatives. La faon dinterprter les rsultats dune A.C.M. sera donc analogue a la faon dinterprter c e e ` c e ceux dune A.F.C. Malheureusement, certains indicateurs daide a linterprtation utiliss en A.F.C ` e e ne sont plus valables dans le contexte de lA.C.M. De plus, la prsence dun nombre plus important e de variables rend linterprtation plus dlicate. Une bonne matrise de lA.C.M. ncessite donc une e e e grande pratique de cette mthode (plus que de vastes connaissances mathmatiques). e e Dans le cadre de ce cours, notre ambition se limitera a prsenter rapidement la mthode et a ` e e ` en exposer le mcanisme dinterprtation sur un exemple rel relativement simple. e e e

3.1

Rappels sur le tableau de Burt

Nous reprenons, dans ce paragraphe, des notions dj` introduites dans le paragraphe 3 du chaea pitre 3 du cours SDE.

3.1.1

Les donnes considres e e e

Les donnes avec lesquelles on est amen a construire un tableau de Burt sont prcisemment e e` e celles considres dans une Analyse des Correspondances Multiple (A.C.M.). e e Soit donc un nombre quelconque (not p, p 3) de variables qualitatives, observes sur un e e 1 ensemble de n individus (lchantillon considr), chacun aect du mme poids . Les variables e e e e e n 1 p j seront notes X , . . . , X , le nombre de modalits de X sera not cj (j = 1, . . . , p), et on posera e e e p c = j=1 cj (nombre total de modalits considres, toutes variables confondues). e e e 27

28

CHAPITRE 3. ANALYSE DES CORRESPONDANCES MULTIPLE

Remarque 3 Comme en A.F.C., on peut utiliser en A.C.M. des variables catgorielles (variables e qualitatives, a modalits ordonnes ou non, ou variables quantitatives, discr`tes ou continues). On ` e e e parle alors de catgories pour dsigner soit les modalits, soit les valeurs, soit les classes, tant e e e e entendu que la structure de ces catgories (structure dordre ou structure numrique) nest pas e e prise en compte par lanalyse. Cela rend tr`s souple lutilisation de lA.C.M. car cest une mthode e e susceptible de traiter nimporte quelle nature de variable.

3.1.2

Dnition du tableau de Burt e

Nous redonnons ici la dnition du tableau de Burt (sa comprhension est facilite par lexemple e e e donn plus bas). Rappelons quun tableau de Burt est une gnralisation particuli`re de la table e e e e de contingence pour un nombre quelconque p de variables qualitatives. Le tableau de Burt est en fait une matrice carre (un tableau carr) c c, constitue de p 2 e e e e sous-matrices. Chacune des p sous-matrices diagonales est relative a lune des p variables ; la j i`me ` dentre elles est carre dordre cj , diagonale, et comporte sur la diagonale les eectifs marginaux e de X j . La sous-matrice gurant dans le bloc dindice (j, j ), j = j , est la table de contingence construite en mettant X j en lignes et X j en colonnes. Le tableau de Burt est donc symtrique. e

3.1.3

Illustration

Reprenons le mme exemple que dans le cours SDE : on a considr un chantillon de 797 e e e e tudiants de lUniversit Paul Sabatier (Toulouse III) ayant obtenu soit le DEUG A soit le DEUG e e B (diplmes scientiques de premier cycle, en deux ans), et uniquement ce diplme, durant la o o priode 19711983. Trois variables ont t prises en compte : la srie de bac, a 2 modalits (C, D) ; e ee e ` e lge dobtention du bac, a 4 modalits (moins de 18 ans, 18 ans, 19 ans, plus de 19 ans) ; la dure a ` e e dobtention du DEUG, a 3 modalits (2 ans, 3 ans, 4 ans). ` e Dans cet exemple, on a : n = 797 ; p = 3 ; c1 = 2, c2 = 4, c3 = 3 ; c = 9. Le tableau de Burt correspondant est donn ci-dessous. e
bacC 583 0 108 323 114 38 324 192 67 bacD 0 214 25 97 68 24 76 82 56 < 18 108 25 133 0 0 0 84 35 14 18ans 323 97 0 420 0 0 224 137 59 19ans 114 68 0 0 182 0 73 75 34 > 19 38 24 0 0 0 62 19 27 16 2ans 324 76 84 224 73 19 400 0 0 3ans 192 82 35 137 75 27 0 274 0 4ans 67 56 14 59 34 16 0 0 123

bacC bacD < 18 18ans 19ans > 19 2ans 3ans 4ans

3.2
3.2.1

Principes de lA.C.M.
Le probl`me e

Il sagit dtudier les liaisons pouvant exister entre les p variables considres. En fait, dans la e e e mesure o` les donnes se prsentent sous forme dun tableau de Burt, juxtaposition de tables de u e e contingence, seules les liaisons entre variables prises deux a deux sont considres (il sagit de ce ` e e que lon appelle en statistique les interactions dordre deux). Pour tudier ces liaisons, la dmarche e e sera de mme nature quen A.F.C. e

3.2.2

La mthode e

LA.C.M. consiste simplement a raliser lA.F.C. du tableau de Burt considr. On peut en ` e e e eet montrer dune part que cela a un sens, dautre part que, dans le cas o` lon fait lA.F.C. du u tableau de Burt relatif a deux variables qualitatives (cas o` p = 2), on obtient sensiblement les ` u mmes rsultats quen partant de la table de contingence relative a ces deux variables : lA.C.M. e e ` est donc bien une gnralisation de lA.F.C. e e

3.3. UN EXEMPLE ILLUSTRATIF

29

Linterprtation dune A.C.M. sera donc, dans ses grandes lignes, analogue a celle dune A.F.C. e ` Le probl`me est que certains indicateurs daide a linterprtation utiliss en A.F.C ne sont plus e ` e e valables en A.C.M., ce qui rend plus dlicate son interprtation. De plus, la prsence dun nombre e e e plus important de variables complique encore les choses. Une bonne ma trise de lA.C.M. ncessite e donc une grande pratique de cette mthode. e

3.3

Un exemple illustratif

Cet exemple concerne des tudiants inscrits pour la premi`re fois a lUniversit des Sciences e e ` e Sociales de Toulouse (Toulouse I) a lautomne 1990, en premi`re anne de DEUG de droit, et ` e e suivis jusquen 1996.

3.3.1

Les donnes e

Il y a 1635 tudiants pris en compte (n = 1635) et 5 variables qualitatives (p = 5). Les variables e sont les suivantes : le sexe, a 2 modalits : lle, gars ; ` e la srie de bac, a 5 modalits : bacA, bacB, bacCouD, bacG, autbac ; e ` e lge dobtention du bac, a 3 modalits : .18., .19., .20. ; a ` e la Catgorie Socio-Professionnelle (C.S.P.) des parents, a 6 modalits : art+com (artisans e ` e et commerants), empl (employs), inter (professions intermdiaires), ouvr (ouvriers), prolib c e e (professions librales), autcsp (autres C.S.P.) ; e la russite, au moins au DEUG, a 2 modalits : OUI, NON. e ` e Les donnes se prsentent sous la forme dun chier a 1635 lignes et 5 colonnes dont on donne e e ` ci-dessous les trois premi`res et les trois derni`res lignes. e e 1432 1432 2131 ... 1332 1535 1222 2 2 1 2 2 2

Remarque 4 Il faut noter ici une particularit qui est, dans la pratique, presque systmatique avec e e ce type de donnes (nombreuses variables qualitatives) : les modalits de chacune des variables ont e e t codes 1,2... Cest, bien entendu, nettement plus commode pour lenregistrement des donnes ee e e sur support informatique. Mais, cela ncessite un recodage pour faire apparatre explicitement les e modalits initiales dans un tableau ou sur un graphique. En eet, si lon arrive a comprendre, e ` dans le chier ci-dessus, que le 2 gurant ligne 3 et colonne 1 reprsente une lle, tandis que le e 2 gurant ligne 1 et colonne 4 reprsente un ls demploy, cela ne sera plus possible lorsquon e e rencontrera un 2 dans un graphique. Une phase de recodage des donnes est donc en gnral e e e ncessaire avant de mettre en uvre une A.C.M. e

3.3.2

LA.C.M. des donnes e

Comme dans les chapitres prcdents, ces donnes ont t traites avec le logiciel SAS. e e e ee e Le tableau de Burt Le premier rsultat fourni est le tableau de Burt, toujours appel Contingency Table dans e e SAS. Bien entendu, il est plus compliqu a lire quune table de contingence ordinaire croisant e ` seulement deux variables. Lorsquon interpr`te une liaison entre deux variables (parmi toutes celles considres), il est e e e en gnral conseill de consulter le tableau de Burt pour y lire les eectifs correspondants (il faut e e e toujours sassurer quon ne raisonne pas sur un eectif trop faible). On notera que les eectifs marginaux (ce sont les mmes en lignes et en colonnes puisquun tableau de Burt est symtrique) e e

30

CHAPITRE 3. ANALYSE DES CORRESPONDANCES MULTIPLE

ne sinterpr`tent pas facilement ici : chacun est gal a leectif de la modalit correspondante e e ` e multipli par le nombre p de variables considres (ici 5). Enn, leectif total est gal au nombre e e e e dobservations n (ici 1635) multipli par p2 (ici 25), soit 40875. e
Contingency Table fille gars autbac bacA bacB bacCouD bacG

fille 1014 0 32 366 339 92 185 gars 0 621 19 126 258 94 124 autbac 32 19 51 0 0 0 0 bacA 366 126 0 492 0 0 0 bacB 339 258 0 0 597 0 0 bacCouD 92 94 0 0 0 186 0 bacG 185 124 0 0 0 0 309 .18. 508 221 6 255 314 117 37 .19. 321 210 9 167 190 54 111 .20. 185 190 36 70 93 15 161 art+com 106 61 2 56 62 15 32 autcsp 232 119 20 107 91 24 109 empl 99 54 4 47 69 6 27 inter 156 98 6 70 120 21 37 ouvr 143 74 10 57 78 9 63 prolib 278 215 9 155 177 111 41 NON 550 390 45 287 265 70 273 OUI 464 231 6 205 332 116 36 ----------------------------------------------------------------------------Sum 5070 3105 255 2460 2985 930 1545 .18. .19. .20. art+com autcsp empl inter

fille 508 321 185 106 232 99 156 gars 221 210 190 61 119 54 98 autbac 6 9 36 2 20 4 6 bacA 255 167 70 56 107 47 70 bacB 314 190 93 62 91 69 120 bacCouD 117 54 15 15 24 6 21 bacG 37 111 161 32 109 27 37 .18. 729 0 0 63 125 61 132 .19. 0 531 0 65 115 63 74 .20. 0 0 375 39 111 29 48 art+com 63 65 39 167 0 0 0 autcsp 125 115 111 0 351 0 0 empl 61 63 29 0 0 153 0 inter 132 74 48 0 0 0 254 ouvr 90 62 65 0 0 0 0 prolib 258 152 83 0 0 0 0 NON 311 326 303 97 233 87 143 OUI 418 205 72 70 118 66 111 ----------------------------------------------------------------------------Sum 3645 2655 1875 835 1755 765 1270 ouvr fille gars autbac bacA bacB bacCouD bacG .18. 143 74 10 57 78 9 63 90 prolib 278 215 9 155 177 111 41 258 NON 550 390 45 287 265 70 273 311 OUI 464 231 6 205 332 116 36 418 ! ! ! ! ! ! ! ! ! Sum 5070 3105 255 2460 2985 930 1545 3645

3.3. UN EXEMPLE ILLUSTRATIF


.19. 62 152 326 205 ! 2655 .20. 65 83 303 72 ! 1875 art+com 0 0 97 70 ! 835 autcsp 0 0 233 118 ! 1755 empl 0 0 87 66 ! 765 inter 0 0 143 111 ! 1270 ouvr 217 0 143 74 ! 1085 prolib 0 493 237 256 ! 2465 NON 143 237 940 0 ! 4700 OUI 74 256 0 695 ! 3475 ---------------------------------------------------------Sum 1085 2465 4700 3475 ! 40875

31

Les pourcentages dinertie des direntes dimensions e Le tableau suivant donne les valeurs propres, ou inerties selon les axes (Principal Inertias), la dcomposition du khi-deux sur les axes et les pourcentages dinertie restitus par chaque axe. e e
Inertia and Chi-Square Decomposition Singular Values 0.61285 0.50322 0.48110 0.47320 0.45086 0.44737 0.44171 0.43237 0.42231 0.40973 0.38679 0.36548 0.31771 Principal ChiInertias Squares Percents 0.37558 0.25323 0.23145 0.22392 0.20328 0.20014 0.19510 0.18694 0.17835 0.16788 0.14961 0.13358 0.10094 ------2.60000 3387.43 2283.88 2087.51 2019.58 1833.36 1805.07 1759.67 1686.07 1608.55 1514.11 1349.33 1204.76 910.39 ------23449.71 14.45% 9.74% 8.90% 8.61% 7.82% 7.70% 7.50% 7.19% 6.86% 6.46% 5.75% 5.14% 3.88%

3 6 9 12 15 ----+----+----+----+----+--************************ **************** *************** ************** ************* ************* ************* ************ *********** *********** ********** ********* ******

Le probl`me est que ce tableau ne peut pas sinterprter comme les tableaux analogues rene e contrs en A.C.P. et en A.F.C. En eet, le tableau de Burt contient beaucoup dinformations e redondantes (en particulier, il est symtrique et tous les eectifs sont rpts deux fois). Les poure e ee centages ci-dessus tant relatifs a la totalit de linformation contenue dans le tableau, il sont donc e ` e largement sous-estims. Ainsi, les deux premiers axes de cette analyse ne reprsentent pas 24.19 e e % de la dispersion totale (14.45 + 9.74), mais davantage. Malheureusement, on ne peut pas savoir quel est le pourcentage rel. Ces pourcentages sont donc a prendre uniquement a titre indicatif. e ` ` Les coordonnes des modalits et leurs contributions ` linertie e e a Seulement deux ensembles de rsultats sont pris en compte ici : les coordonnes des colonnes e e sur les axes, permettant de raliser le (ou les) graphique(s), selon le nombre daxes retenus (deux ou e plus) ; les contributions des colonnes a linertie (la dispersion) selon chaque axe, qui sinterprettent ` exactement comme en A.F.C. Les autres quantits utilises en A.F.C. (les contributions au khie e deux, les prols et les cosinus carrs) nont plus dinterprtation directe en A.C.M. et ne sont en e e gnral pas utilises. e e e Remarque 5 Le tableau de Burt tant symtrique, ses lignes et ses colonnes sont identiques. Les e e lments de lA.C.M. relatifs aux lignes sont donc identiques a ceux relatifs aux colonnes et, par ee ` consquent, ne sont pas fournis. e

32

CHAPITRE 3. ANALYSE DES CORRESPONDANCES MULTIPLE

Nous donnons ci-apr`s les coordonnes de lensemble des modalits sur les deux premiers axes e e e (par soucis de simplicit, nous nutiliserons ici que les deux premiers axes), puis leurs contributions e a linertie de chacun de ces axes. `
Column Coordinates Dim1 fille gars autbac bacA bacB bacCouD bacG .18. .19. .20. art+com autcsp empl inter ouvr prolib NON OUI -0.11125 0.18165 1.62701 -0.21630 -0.40520 -0.91295 1.40826 -0.68841 0.09059 1.21001 0.05265 0.65135 -0.02064 -0.22781 0.51077 -0.58262 0.57376 -0.77603 Dim2 -0.53743 0.87754 0.56575 -0.81059 0.09334 1.55368 0.08171 -0.11547 -0.16661 0.46039 -0.36354 -0.25675 -0.68415 -0.14436 -0.29683 0.72329 -0.00691 0.00935

Partial Contributions to Inertia for the Column Points Dim1 fille gars autbac bacA bacB bacCouD bacG .18. .19. .20. art+com autcsp empl inter ouvr prolib NON OUI 0.004087 0.006674 0.043970 0.007497 0.031923 0.050491 0.199587 0.112521 0.001419 0.178820 0.000151 0.048500 0.000021 0.004293 0.018438 0.054504 0.100786 0.136315 Dim2 0.141475 0.231007 0.007885 0.156160 0.002513 0.216889 0.000997 0.004695 0.007120 0.038396 0.010661 0.011177 0.034593 0.002557 0.009236 0.124588 0.000022 0.000029

Le graphique Le graphique de lensemble des modalits selon les deux premi`res dimensions est donn par la e e e gure 1.

3.3.3

Interprtation e

Nous interpr`terons seulement les deux premi`res dimensions : cest susant ici et, de plus, e e linterptation de toute autre dimension se fait selon le mme principe. Le principe gnral est e e e e de reprer les modalits ayant des contributions importantes aux axes et de regarder ensuite leur e e positionnement sur le graphique.

3.3. UN EXEMPLE ILLUSTRATIF

33

Dimension 2 2 bacCouD

1 gars prolib .20. 0 bacB OUI . 1 8 . i n t e r. 1 9 . NON autbac

bacG

autcsp art+com ouvr fille empl bacA 0 Dimension 1 1 2

-1 -1

Fig. 3.1 Reprsentation graphique selon les deux premi`res dimensions e e Sur laxe 1, ces contributions sont celles du bac G (pratiquement 20 %), des bacheliers de 20 ans ou plus (pr`s de 18 %), de ceux de 18 ans ou moins (un peu plus de 11 %) et de la russite e e ou de lchec (13.6 % et 10 % respectivement). En observant le graphique, on voit que laxe 1 e discrimine la russite, a gauche, et lchec, a droite. On peut donc linterprter essentiellement e ` e ` e comme laxe dopposition entre la russite et lchec au DEUG de Droit. Les modalits repres e e e e e ci-dessus (fortes contributions a laxe 1) et proches de lchec sont le bac G et lobtention tardive ` e du bac ; la modalit proche de la russite est lobtention du bac jeune. On voit donc que le facteur e e prpondrant de la russite a ce DEUG est lge dobtention du bac (autrement dit, la qualit de e e e ` a e la scolarit secondaire). De plus, le bac G semble mal adapt aux tudes de droit. e e e Sur laxe 2, les contributions les plus importantes sont celles des garons (un peu plus de c 23 %) et des lles (un peu plus de 14 %), des bacs C ou D (21.7 %), du bac A (15.6 %) et des professions librales (environ 12.5 %). On remarque encore une nette discrimination, selon laxe 2, e entre les garons, en haut, et les lles, en bas. Les garons sont le plus souvent titulaires dun bac c c C ou D et ont souvent des parents appartenant aux professions librales, tandis que les lles sont e plus souvent titulaires dun bac A, sans que cela soit clairement li a la russite ou a lchec. Il e` e ` e sagit dun phnom`ne bien marqu dans lenseignement secondaire et que lon retrouve ici comme e e e sous-produit de notre analyse. Remarque 6 Pour terminer, on notera la particularit suivante : dans une A.C.M., toutes les e variables prises en compte jouent, a priori, le mme rle : lanalyse ne peut en privilgier aucune. e o e Nanmoins, dans la pratique, il est frquent quune variable joue un rle spcique, en ce sens que e e o e cest elle que lon cherche a expliquer a partir des autres : cest exactement le cas de la variable ` ` russite dans lexemple ci-dessus. Ce rle spcique napparat, ventuellement, quau niveau e o e e de linterprtation, autrement dit a posteriori. Lorsque cest le cas, cela signie, dune certaine e mani`re, que lA.C.M. a bien fonctionn, autrement dit que les variables expliquant le phnom`ne e e e e (ici la variable russite) ont bien t prises en compte et ont t mises en vidence par lanalyse. e ee ee e