BAMSIREPRINT04

BUREAU D'APPLICATION DES METHODES STATISTIQUES ET INFORMATIQUES
BAMSI REPRINT 04/2003
Introduction lanalyse des donnes
Samuel AMBAPOUR
BAMSII BAMS
BAMSI B.P. 13734 Brazzaville
BAMSI REPRINT 04/2003
Introduction lanalyse des donnes(*)

Samuel AMBAPOUR(**)
Ce cahier nest pas un cours. On y insiste sur le traitement pratique des donnes et sur les applications des diffrentes mthodes danalyse. Un mme exemple illustratif est utilis tout au long de lexpos et sert de base pour la comparaison des mthodes utilises. Pour des exposs thoriques complets de ces mthodes, le lecteur est invit consulter les ouvrages de base cits en rfrence. Grce loutil informatique et notamment de nombreux logiciels commercialiss sur micro-ordinateurs, lutilisateur de lanalyse des donnes peut dsormais se consacrer aux tches essentielles savoir, le choix de la mthode et linterprtation des rsultats. Dans ce cahier, il est fait usage du logiciel ADDAD diffus par lassociation du mme nom(***) (Association pour le Dveloppement et la Diffusion de lAnalyse des Donnes).
(*)
Ce texte a t publi dans les cahiers du CASP n3-4, dcembre 1992 Enseignant au CASP (***) Ce cahier sinspire, au niveau de la forme et du langage, des travaux de cette association.
(**)
TABLE DES MATIERES
1. INTRODUCTION 2. UN PEU DHISTOIRE 3. TYPES DE TABLEAUX ANALYSABLES 4. ANALYSE GENERAL 5. LANALYSE EN COMPOSANTES PRINCIPALES 5.1. Les donnes Les objectifs 5.2. La mthode 5.2.1. Le tableau de donnes 5.2.2. Analyse des points individus i de N J ( I ) dans RP 5.2.3. Analyse des points individus j de N I ( J ) dans Rn 5.2.4. Relation entre les points i de N J ( I ) et j de N I ( J ) 5.2.5. Analyse des points supplmentaires 5.3. Interprtation de lAnalyse en Composantes Principales 5.3.1. Tableau des donnes de base 5.3.2. Matrice de corrlations des variables 5.3.3. Vecteurs et valeurs propres de la matrice de corrlation 5.3.4. Tableau des facteurs sur I 5.3.5. Tableau des facteurs sur J 5.3.6. Reprsentations graphiques
6. LANALYSE FACTORIELLE DES CORRESPONDANCES 6.1. Les donnes Les objectifs 6.2. La mthode 6.2.1. Le tableau de donnes 6.2.2. Analyse des points i de N J ( I ) dans R p 6.2.3. Analyse des points j de N I ( J ) dans R n 6.2.4. Relations entre les points i de N J ( I ) et les points j de N I ( J ) 6.2.5. Elments supplmentaires 6.3. Interprtation dune analyse factorielle des correspondances 6.3.1. Tableau des donnes de base 6.3.2. Vecteurs et valeurs propres 6.3.3. Tableaux des facteurs sur I et sur J : aides linterprtation 6.3.4. Reprsentations graphiques 6.4. Analyse des correspondances multiples 6.4.1. Tableau disjonctif complet 6.4.2. Tableau de Burt 6.4.3. Equivalence entre les deux analyses prcdentes 6.4.4. Calcul de contributions dans le tableau disjonctif complet 6.4.5. Interprtation dune analyse des correspondances multiples 6.4.5.1. Tableau des donnes de base 6.4.5.2. Valeurs propres 6.4.5.3. Tableaux des facteurs sur i et J 6.4.5.4. Reprsentation graphique
7. CLASSIFICATION ASCENDANTE HIERARCHIQUE 7.1. Principes gnraux 7.1.1. Partition et hirarchie 7.1.2. Classification ascendante et classification descendante 7.1.3. Construction dune classification ascendante hirarchique 7.1.4. Critres dagrgation 7.2. Linterprtation dune classification ascendante hirarchique 7.2.1. Le tableau des donnes 7.2.2. Histogramme des indices de niveau de la hirarchie 7.2.3. Le tableau du contenu des classes 7.2.4. Reprsentation de la classification ascendante hirarchique 7.2.5. Calcul de contributions 7.2.5.1. Etude des classes par rapport des axes. Formulaire 7.2.5.2. Etude des classes par rapport des axes. Exemple 7.2.5.3. Etude des diples par rapport des axes. Formulaire 7.2.5.4. Etude des diples par rapport des axes. Exemple 7.2.5.5. Contributions relatives mutuelles entre classes et facteurs 7.2.6. Introduction des nuds de la classification dans le graphique de lanalyse factorielle REFERENCES BIBLIOGRAPHIQUES
Avec lAnalyse des Donnes fonde sur lusage de lordinateur, cest une nouvelle mthodologie que la statistique apporte la science et notamment aux sciences de lhomme. J-P. Benzcri LAnalyse des Donnes nest certes pas simplement un ensemble de techniques nouvelles et, sans tre le vecteur philosophique de la recherche du sens de toute chose, cest quand mme une nouvelle manire dtre, face un tableau de donnes. J-P. Fenelon. Les services rendus montrent bien que lAnalyse des Donnes constitue aujourdhui, et de loin, la partie la plus immdiatement rentable de la statistique. G. Morlat
1. Introduction
Il ny a pas trs longtemps, on ne pouvait pas traiter un tableau de 3000 lignes et 300 colonnes. Lapparition et le dveloppement des ordinateurs a du coup lev cet obstacle de calcul, et a permis la conservation et lexploitation des grandes masses de donnes. Cette amlioration continue de loutil informatique a fortement contribu au dveloppement et la vulgarisation de nombreuses mthodes statistiques, devenues maintenant dusage assez courant. Aujourdhui, des vastes donnes denqutes sont dpouilles et, fournissent de grands tableaux qui se prtent aisment linterprtation. Des donnes issues dinvestigations spcifiques sont rassembles et constituent une masse importante et apparemment indchiffrable dinformations mais, quon peut dsormais traiter sans difficults. Cependant, comment extraire les phnomnes, les lois, les connaissances que reclent ces donnes que nous ne pouvons apprhender directement [8] ?
La statistique classique nous a habitu tudier les variables les unes aprs les autres, de construire autant dhistogrammes que de variables. Comment faire pour que, ces nombreux graphiques se substitue un seul graphique, une carte plane ? Comment devant, la profusion des descriptions parcellaires fournies par lanalyse variable par variable, donner une vision globale de lensemble des rsultats ? Les techniques dites danalyse des donnes permettent de rpondre ces questions. Pour J-P. Fnelon lanalyse des donnes est un ensemble de techniques pour dcouvrir la structure, ventuellement complique, dun tableau de nombres plusieurs dimensions et de traduire par une structure plus simple et qui la rsume au mieux. Cette structure peut le plus souvent, tre reprsente graphiquement [31] . Ces techniques qui sont essentiellement descriptives, ont pour but de dcrire, de rduire, de classer et de clarifier les donnes en tenant compte de nombreux points de vue et dtudier, en dgageant les grands traits, les liaisons, les ressemblances ou les diffrences entre les variables ou groupes de variables. Les documents fournis sont qualifis de synthtiques et percutants et valent souvent mieux quun long discours. Cette approche descriptive et multidimensionnelle permet de dire que lAnalyse des Donnes, cest de la statistique descriptive perfectionne. Lanalyse des donnes recouvre principalement deux ensembles de techniques : les premires qui relvent de la gomtrie euclidienne et conduisent lextraction de valeurs et de vecteurs propres, sont appeles analyses factorielles ; les secondes, dites de classification automatique sont caractrises par le choix dun indice de proximit et dun algorithme dagrgation ou de dsagrgation qui permettent dobtenir une partition ou arbre de classification [53] . Parmi ces deux techniques, les premires occupent une place de choix, car elles sont utilises soit seules, soit conjointement avec les secondes, alors que ces dernires sont rarement appliques seules [ 28] . On sintressera surtout aux analyses factorielles dont on ne dcrira que les deux mthodes les plus employes. Il sagit de lanalyse en composantes principales (beaucoup utilise dans les pays anglo-saxons) et de lanalyse factorielle des correspondances (trs prise en France). La classification automatique sera introduite comme aide linterprtation dune analyse factorielle. Ce qui permet de complter et denrichir les rsultats de cette dernire. Cependant, vu la diversit des mthodes, on 7
regardera comment se prsentent les rsultats pour lune dentre elles : la classification ascendante hirarchique, qui est la plus labore des mthodes de classification.
2. Un peu dhistoire
Bien que ltude de la structure de vastes ensembles de donnes soit rcente, les principes dont les mthodes danalyse de donnes sinspirent sont anciens. En ce qui concerne lanalyse factorielle, il faut remonter aux travaux de Ch. Spearman (1904) qui introduit pour la premire fois le concept de facteur ; il cherche, derrire les notes obtenues par de nombreux sujets de nombreux tests, une variable explicative cache : le facteur gnral daptitude (analyse factorielle au sens des psychologues). Cest vers les annes 30 que se pose le problme de la recherche de plusieurs facteurs (travaux de C. Burt et de L.L Thurstone) ; on cherche deux puis plusieurs facteurs : mmoire, intelligence, etc. non observables directement mais susceptibles dexpliquer au sens statistique du terme les nombreuses notes obtenues par les sujets. Comme on le constate il sagissait dj de rsumer laide dun petit nombre de facteurs une information multidimensionnelle. De nos jours on ne fait gure appel lanalyse factorielle au sens des psychologues parce quelle suppose un modle a priori. Puis, lanalyse factorielle en composantes principales dveloppe par H. Hotelling (1933), mais dont on peut faire remonter le principe K. Pearson (1901) : les individus colonnes du tableau analyser tant considrs comme des vecteurs dun espace p dimensions, on proposait de rduire la dimension de lespace en projetant le nuage des points individus sur le sous-espace de dimension k
( k petit
fix) permettant
dajuster au mieux le nuage [53] . Dun point de vue plus rcent crit L. Lebart, lanalyse au composantes principales est une technique de reprsentation des donnes, ayant un caractre optimal selon certains critres algbriques et gomtriques spcifis et que lon utilise en gnral sans rfrence des hypothses de nature statistique ou un modle particulier [ 43] . Enfin, lanalyse factorielle des correspondances introduite par J.P Benzcri (1962), est actuellement en vogue. Elle fournit, sans hypothses a priori des reprsentations simplifies dans un certain sens linterprtation. Laissons sur ce point la parole au Professeur J.P Benscri : lanalyse des correspondances telle quon la pratique en 1977 ne se borne pas extraire des facteurs de tout tableau de nombres positifs. Elle donne pour la prparation des donnes des rgles telles que le codage sous-forme disjonctive complte ; aide critiquer la validit des rsultats, principalement par des calculs de
contribution ; fournit des procds efficaces de discrimination et de rgression ; se conjugue harmonieusement avec la classification automatique [ 6] . Sa logique est claire : le modle doit suivre les donnes non linverse ; le modle probabiliste est jug trop contraignant : statistique nest pas probabilit. Les deux mthodes prcdentes et celles qui en ont t drives, comme lanalyse factorielle discriminante (initie par Fisher en 1936, qui permet de dcrire la liaison entre une variable qualitative et un ensemble de variables quantitatives) et lanalyse canonique (introduite par Hotelling en 1936 et dont lobjectif initial tait dexprimer au mieux laide dun petit nombre de couples de variables la liaison entre deux ensembles de caractres quantitatifs) dpendent dun mme corps de rsultats mathmatiques quon exposera dans le paragraphe analyse gnrale. Sagissant de la classification automatique, compte tenu de la multiplicit des techniques existantes et leffervescence qui rgne autour de ce domaine, car selon R.M. Cormack (cit par Lebart) plus de 1000 articles sont publis par an sur ce thme, il est vraiment difficile de faire lhistorique de ces mthodes ; en effet nombreux sont les chercheurs qui ont contribu leur mise en uvre et dont les prcurseurs sont : Buffon (1749), Adanson (1757) et Linn (1758). Je me contenterai de rapprocher les objets, suivant le plus grand nombre de degrs de leurs rapports et leur de leurs ressemblances Les objets ainsi runis formeront plusieurs petites familles que je runirai encore ensemble afin den faire un tout dont les parties soient unies et lies intimement crivait Adanson [ 47 ] . Pour terminer cette page dhistoire, mentionnons lanalyse des donnes non mtriques introduite par une nouvelle cole de statisticiens amricains sous le nom de multidimensional scaling (J.D. Carrol, J.B. Kruskal, R.N. Shepard, ) et dont les principales mthodes sont : - lanalyse des proximits ; - lanalyse des prfrences ; - lanalyse de mesure conjointe (qui permet dexpliquer une variable qualitative ordinale laide des variables nominales). Ces mthodes ont trouv leurs applications surtout dans le domaine du marketing [9] .
10
3. Types de tableaux analysables

Les donnes se prsentent gnralement sous la forme dun tableau rectangulaire, dont les lignes correspondent des individus ou units statistiques et les colonnes des variables appeles caractres ou caractristiques. Les valeurs des variables peuvent tre : - quantitatives ordinales (jugement humain, temprature) ; - quantitatives mesurables (poids dun individu, revenu) ; - qualitatives ordinales (classe dge, le rang) ; - qualitatives nominales (sexe, situation matrimoniale). Lorsque dans un tableau, toutes les variables choisies sont quantitatives, on peut tablir un tableau de donnes quantitatives ; cest le cas par exemple o lon observe sur un ensemble de sujets I , un certain nombre de mesures J : poids, taille, ge. Ce tableau est encore appel tableau de mesures. A partir de deux variables qualitatives, on peut dfinir un tableau de contingence croisant les modalits de deux variables, lensemble des lignes correspond aux modalits de la premire variable et lensemble des colonnes aux modalits de la deuxime variable ; par exemple le tableau qui rpartit la population congolaise recense en 1974 selon les deux caractres rgion et classe dge. Si lon divise chaque valeur du tableau prcdent par le cardinal de la population, on obtient le tableau de frquences relatives que lon appellera simplement tableau de frquence. Si lon croise plus de deux variables qualitatives entre elles dfinies sur une mme population, on peut construire un tableau contenant lensemble des tableaux de contingence entre les variables prises deux deux. Le tableau ainsi obtenu est appel tableau de Burt. Cest un tableau symtrique qui comporte sur sa diagonale des rsultats quen terme de dpouillement denqute on appellerait des tris plats, alors quailleurs on a tous les tableaux des tris croiss des variables deux deux.
11
On rencontre aussi des tableaux de prfrence. Un ensemble I dindividus donne des jugements de prfrence globale sur un ensemble J dobjets ; on demande par exemple chaque personne interroge de noter de 1 4 lordre de prfrence pour quatre marques de bire : primus, kronenbourg, ngok, amstel. A lintersection de la
i me
ligne et de la j me colonne, on trouve le rang attribu par la personne i la bire j . Le tableau de prfrence est diffrent du tableau de rang. Reprenons le tableau de contingence qui rpartit la population congolaise selon les deux caractres rgion et classe dge. On obtient un tableau de rang si lintersection de la rgion i et de la classe dge j , on y inscrit le rang de la rgion i sur toutes les rgions, relativement leffectif de la classe dge j . Dans le tableau de prfrence rencontr ci-haut, la ligne est une permutation de 4 objets alors que dans le tableau de rang cest la colonne qui est une permutation de nombres de 1 9 (les 9 rgions du Congo). Les tableaux de proximits voluent la similarit ou la dissimilarit entre chaque couple dindividus par un indice de proximit ou de distance (tableau de distance inter-villes). Souvent, on observe des variables qui ne prennent que deux valeurs codes gnralement 0 et 1 ; elles conduisent des tableaux binaires : par exemple un individu doit rpondre par oui ou par non une question ; le oui est cod 1, le non est cod 0 ; on peut aussi citer le cas des tableaux de prsence-absence o il sagit du relev de la prsence ou de labsence dun caractre. Tel mnage possde ou ne possde pas le caractre : avoir un poste tlviseur : la prsence est cod 1, labsence est cod 0. Dune manire gnrale, un tableau rempli uniquement de 0 et de 1 est appel tableau logique. Cest le cas des tableaux prcdents. Nous verrons au 6.4.1 , quon peut transformer un tableau de donnes quantitatives en un tableau de description logique par dcoupage en classes des variables quantitatives. En fait, parler de tableau logique, cest dsigner un certain format de codage, qui peut recouvrir des domaines trs diffrents [31] . On peut galement mentionner les tableaux de notes. Il sagit dans le cas qui nous intresse des notes scolaires (type de tableaux analys dans ce cahier) comprises entre deux bornes (0 et 20). Ce tableau peut tre analys comme tel (cest ce que nous ferons dans les chapitres suivants). Dans bien de cas, pour donner la mme importance chaque observation, on ddoublera chaque colonne du tableau, cest--dire qu
12
chaque matire dorigine on lui fait correspondre une matire dite duale : avoir 15/20 en statistique, cest avoir 5/20 en la matire duale. Lanalyse factorielle dun tableau de notes ddoubl semble dun point de vue pratique donner des rsultats plus clairs et plus facilement interprtables que lanalyse du tableau initial [12] . Le tableau de description logique dcrit prcdemment peut tre considr comme un tableau de notes particulier dans lequel toutes les notes ne peuvent prendre que lune des valeurs 0 ou 1. Pour terminer, on peut citer les tableaux de correspondance chronologique ou tableaux ternaires ou encore tableaux multiples. Cest par exemple le cas du tableau o, I est lensemble dindustries (ou produits), J un ensemble de pays, T un ensemble dpoques, k IJT dsignant les changes pour le produit i , linstant t en provenance (ou destination) du pays j . Une gnralisation au cas quaternaire a t tudie et on obtient un tableau de la forme k IJPT o I est par exemple lensemble des pays exportateurs, J lensemble des mmes pays considrs comme exportateurs, P est un ensemble des classes de produits et T un ensemble dpoques : k IJPT est donc la valeur des importations du pays i en provenance du pays j (ou des exportations du pays j destination du pays i ), rentrant dans la classe de produits p et effectues en lanne t . Pour ltude de ces types de tableaux, on utilise trs largement la technique des points supplmentaires (cf 5.2.5) [14] . Le tableau soumis lanalyse doit possder certaines qualits : pertinence, homognit, exhaustivit. Il ne faut retenir dans la masse htrogne des faits que ce qui se rapporte un seul point de vue (pertinence), et ne pas mlanger les quantits exprimes en kilogrammes et en mtres (homognit). Lexhaustivit implique que les diffrentes zones du domaine dinvestigation sont bien reprsentes. A ces trois exigences il faut ajouter une condition assez vidente, mais parfois oublie : le tableau de donnes doit tre vaste et en statistique, linfini est parfois de lordre de 30 [ 42] .
13
4. Analyse gnrale
On part dun tableau rectangulaire reliant deux ensembles finis I et J . On a CardI observations sur lesquelles sont mesures CardJ variables : xij est la mesure de la variable j de J sur lindividu i de I . ( CardI = n, CardJ = p ) . xij peut tre la note obtenue par ltudiant i lpreuve j . Le tableau X peut admettre deux reprsentations [35] : - lune dans un espace vectoriel Rn avec un nuage de p points correspondant chacun une ligne ; - lautre dans un espace vectoriel Rp avec un nuage de n points correspondant chacun une colonne. Lanalyse factorielle revient faire la recherche des axes principaux dinertie (ou axes factoriels) des deux nuages. On cherche donc ajuster le nuage des n points par un sous-espace vectoriel de Rp, muni de la distance euclidienne usuelle (cest--dire que le carr de la distance entre deux points est gal la somme des carrs des diffrences de leurs coordonnes). On commence par dterminer une droite F1 passant par lorigine et ajustant au mieux le nuage tudier, en minimisant la somme des carrs des distances des points la droite. Ce calcul conduit un vecteur unitaire port par cette droite dit aussi vecteur propre relatif une valeur propre. De faon analogue on peut continuer lajustement et trouver dans Rp un certain nombre de vecteurs propres et de valeurs propres toutes positives dcroissant avec le rang. X tant la matrice du tableau, et X ' la matrice transpose, u les vecteurs propres et les valeurs propres seront solutions de lquation :
X ' Xu = u dans Rp
Le vecteur u est norme par la relation :

u 'u = 1 Le premier axe factoriel est donc le vecteur u1 correspondant 1 la plus grande valeur
propre de X ' X . Linertie explique par cet axe est 1 . En prolongeant le problme on trouve que le sous-espace qui explique la plus grande inertie contient les q premiers vecteurs propres u1 ,..., uq de X ' X . Linertie explique par ce sous-espace est gale la somme des valeurs propres correspondant ces vecteurs propres. On aura les formules correspondantes dans Rn. En effet, il est dmontr que [ 43] : si v est vecteur propre unitaire de XX ' relatif la valeur propre 0 ,
u = 1/ 2 X 'v est vecteur unitaire de X ' X relatif la mme valeur propre.
14
-rciproquement, si u est vecteur unitaire de X ' X relatif 0 , v = 1/ 2 Xu est vecteur unitaire de XX ' relatif . u est appel me axe factoriel dans R p . v est appel me axe factoriel dans R n .
15
5. Analyse en composantes principales

5.1. Les donnes les objectifs
En analyse en composantes principales, lensemble I est dcrit laide de p variables quantitatives, continues, homognes ou non a priori corrles entre elles deux deux. On cherche rpondre des questions du type suivant : quelles sont les variables qui sont lies positivement entre elles ? Quelles sont celles qui sopposent ? A propos des individus on cherchera valuer leur ressemblance et leur dissemblance, mettre en relief des groupes homognes dindividus. En rsum lanalyse en composantes principales (ACP) consiste transformer les p variables quantitatives, initiales en
p nouvelles variables non corrles, appeles composantes principales (ou facteurs).
5.2. La mthode
On ne dcrira ici, que lune des variantes de cette mthode et qui est de loin la plus employe : lanalyse en composantes principales normes. On suppose que les donnes de dpart sont non seulement htrognes quant leur moyenne, mais le sont galement quant leur dispersion et leur nature (disparit des units de mesure). Pour ramener chaque variable un cadre commun de comparabilit, on oprera sur chacune delle une transformation linaire ramenant sa moyenne zro et sa variance lunit (variable centre rduite).
5.2.1. Le tableau de donnes

On a les mmes ensembles I et J de lanalyse gnrale.
X = { xij i I , j J }
xj
. . . ... .xij . . .
On calcule : i)- La moyenne de la variable x j :

m x j = i xij i I avec M = {mi i I } M
16
o mi est le poids affect lindividu i ; mi = ii)- La variance de la variable x j :
1 et CardI
{m
i I} = M = 1
2 = var( x j ) = j
xij x j
2 mi ( xij x j ) i I M iii ) La variable centre et rduite qui a pour composantes sur lensemble I :
X ij =
o j est lcart type de x j
moy ( X j ) = { X ij i I } = 0
et var( X j ) = X ij moy ( X j ) i I = 1
2
iv)- Le coefficient de corrlation linaire entre deux variables x j et x j :

m rjj ' = i X ij X ij ' i I M qui prend les valeurs entre 1 et +1.
5.2.2. Analyse des points individus i de N J ( I ) dans R p

On se placera au centre de gravit du nuage des points de base (normalisation centrerduite). Le i me individu sera reprsent dans lespace des variables normes X j par un point ayant pour coordonne la valeur X ij et affect de masse (poids) mi . Si lon note par :
m N J ( I ) = ( X ij ; i ) i I le nuage des points i I ; M i) Le centre de gravit G de ce nuage a pour j me coordonne : m X GJ = i X ij i I M 1 mi mi = M xij i I x j M i I = 0 ; j
cest donc lorigine du systme daxes dans lequel est plac le nuage des individus. ii) La distance entre deux points de N j ( I ) scrit dans R p :
d 2 (i, i ' ) = ( X ij X i' j ) 2 j J
xij xi' j 2 ) jJ = ( j
(cest la distance euclidienne usuelle). Ainsi chaque variable aura une contribution gale la dispersion totale du nuage N J ( I ) . iii) La distance dun point de i au centre de gravit G du nuage N j ( I ) vaut : 17
2 d 2 (i, G ) = 2 (i ) = { X ij j J }
iv) Linertie dun point i par rapport au centre de gravit est : m I n ( I ) = i 2 (i ) M et linertie du nuage N J ( I ) sera gal :
m I n ( N J ( I )) = i 2 (i ) i I M m 2 = i ( X ij ) i I M j j m 2 = i X ij i I , j J M = {Var ( X j ) j J }
or var( X j ) = 1 I n = ( N J ( I )) = CardJ Linertie du nuage des points i est donc gale au nombre de variables ; cette inertie est aussi gale la somme des termes diagonaux (trace) de la matrice de corrlation entre les variables dont le terme gnral est rjj' . Cest donc cette matrice quil faudra diagonaliser pour la recherche des vecteurs et valeurs propres. v) Les facteurs et axes factoriels-Coordonnes des observations dans lespace factoriel. Soient { F (i ) i I } les facteurs associs lanalyse en composantes principales normes. Les facteurs sont de moyenne nulle, de variance gale , et sont deux orthogonaux. En effet :
M F (i) i I = 0
=
et
mi mi 2 F (i ) i I M
mi
M F (i) F (i) i I = 0
variables. Et donc :
si
On sait dj que la somme de toutes les valeurs propres est gale au nombre CardJ de
I n ( N J ( I )) = = CardJ
5.2.3. Analyse des points variables j de N I ( J ) dans R n
18
En ACP, lorigine des axes nest pas le centre de gravit du nuage des variables ; les axes factoriels issus du nuage des individus ne sont pas les axes principaux dinertie du nuage des variables. On a vu que Var ( X j ) = 1 cest--dire que d 2 (0, j ) = 1 ; les variables
X j sont donc situes sur une sphre de rayon 1 centre en 0, origine initiale des axes.
Lintersection de la sphre et dun plan factoriel est un cercle dit cercle de corrlation. La distance euclidienne usuelle entre deux points de N I ( J ) dans R n :
d 2 ( j , j ' ) = {( X ij X ij ' ) 2 i I } d 2 ( j , j ' ) = 2(1 rjj ' )
En tenant compte du fait que Var ( X j ) = Var ( X j ' ) = 1 et
ij
X ij ' = rjj ' , On trouve que :
o rjj' , est le coefficient de corrlation linaire entre les variables j et j ' . Ainsi, les proximits entre points variables sexpriment en termes de corrlations : rjj' = 1 les points j et j ' sont confondus ; rjj' = 1 les points j et j ' sont diamtralement opposs sur la sphre (0,1) ; rjj' = 0 les points j et j ' sont orthogonaux et se trouvent aux extrmits dun arc de 90.
5.2.4- Relation entre les points de N J ( I ) et j de N I ( J )

Nous avons vu au chapitre 4 les relations qui existent entre les matrices X ' X et XX ' en ce qui concerne les vecteurs et les valeurs propres. En utilisant ces proprits, on peut tablir les relations de transition entre les facteurs F (i ) de I et G ( j ) de J . On a :
F (i ) = 1/ 2 X ij G ( j )
et
G ( j ) = 1/ 2 X ij F (i)
Il faut signaler que ces formules ne sont pas barycentriques comme celles du 6.2.4 de lanalyse factorielle des correspondances ; les X ij pouvant tre ngatifs.
5.2.5- Analyse des points supplmentaires

On profite de ce paragraphe pour parler lments supplmentaires qui prsentent un grand intrt en analyse de donnes et plus particulirement en analyse factorielle des correspondances. On utilise les lments supplmentaires en analyse de donnes pour reprsenter [14] : - soit une observation releve dans des conditions douteuses (ou diffrentes des autres observations) ou encore une variable sur laquelle la prcision est moindre que sur les autres variables mesures ; - soit un lment aberrant, ou ayant perturb une analyse prliminaire ; 19
- soit un cas nouveau ; - soit des lments de nature diffrente de ceux analyss. On peut aussi utiliser des lments supplmentaires pour reprsenter un groupe de variables ou un groupe dindividus. Exemple 1 : un questionnaire a t soumis lensemble des tudiants du CASP ; aprs analyse, on recueille les rponses dun tudiant absent (cas nouveau) : on cherchera naturellement le placer sur les axes factoriels sans refaire lanalyse. Exemple 2 : on a ralis une enqute sur limage de marque de la S.N.E. Chaque client enqut rpond un questionnaire comportant deux parties : une fiche sociodmographique (ge, sexe, profession, revenus,) ; et une batterie dopinions relatives la socit. Si lon analyse la batterie dopinions, on mettra par exemple les variables socio-dmographiques en supplmentaires. Considrons la figure suivante :
Js
X ij
X 'ijs
Is
X is j
Si lon effectue lanalyse en composantes principales du tableau X ij (tableau principal), on peut projeter sur les axes factoriels ainsi trouvs les ensembles I s (ensemble des individus supplmentaires) et Js (ensemble des variables supplmentaires). Les coordonnes des individus supplmentaires is I s sont les composantes du vecteur
( X is j )u ' et, celles des variables supplmentaires js J s les composantes du vecteur ( X ijs )' v (voir 4). Techniquement, mettre des lments en supplmentaires dans
lanalyse consiste attribuer une masse nulle ces lments et calculer leurs coordonnes dans lespace factoriel.
20
5.3. Interprtation de lAnalyse en Composantes Principales

5.3.1. Tableau des donnes de base
Traitons par cette mthode le recueil dinformations qui est donn par le tableau 1. Nous y trouvons les notes moyennes par matire obtenues par les tudiants du CASP promotion 1991-1992 pendant la premire anne de leur scolarit.
ABDO BANZ BATA BOUK BOYE GOYI LIK1 LIK2 LOUZ MAKI MALO MAMP MATO MBIK MPOU NGUI NKOK NSEM NSON NZAK ONDZ SAFO SAM1 SAM2 TSIB 10 09 09 11 09 09 10 12 06 10 07 10 10 08 09 11 09 09 10 09 10 11 12 11 10 15 12 14 15 13 13 17 14 14 16 13 14 14 13 15 13 17 14 17 16 17 16 15 14 15 13 09 12 11 11 12 12 15 07 12 14 13 16 07 10 12 11 10 12 10 12 08 10 12 17 14 13 11 13 11 13 10 13 13 13 12 11 12 12 13 13 13 12 13 13 10 12 14 11 13 12 07 11 10 11 11 05 11 09 10 16 13 06 10 09 10 09 07 15 14 05 09 15 15 11 17 13 14 18 15 15 15 18 13 13 16 13 15 14 15 18 14 17 15 15 15 15 17 16 15 10 08 08 11 08 10 09 08 11 08 11 13 10 10 09 09 11 07 09 07 09 11 07 10 06 10 07 07 08 02 11 07 11 14 06 11 13 13 13 08 07 07 11 11 05 07 10 07 08 06 10 09 11 13 10 14 08 12 11 12 12 10 13 12 11 09 11 13 12 09 08 11 12 11 12 12 08 13 11 09 14 08 10 07 14 10 12 09 11 13 07 11 12 12 11 08 11 08 09 10 09 06 10 13 07 07 13 08 07 09 08 10 09 04 08 09 12 12 14 17 13 12 09 06 12 09 10 09 15 05 08 07 11 09 09 09 07 09 09 07 07 09 13 08 11 07 10 09 08 09 07 10 09 11 09 12 08 10 06 12 10 10 09 09 11 09 11 09 08 12 08 08 08 06 11 13 10 14 13 15 14 13 13 12 12 13 14 13 14 13 13 14 11 12 14 14 13 10 12 13 12 10 12 14 15 15 13 10 10 13 13 13 11 12 17 14 13 14 13 13 13 13 11 15 15 08 08 06 07 07 07 07 07 08 07 07 08 08 07 07 07 08 07 07 08 07 07 08 07 07 14 12 15 13 12 14 15 15 13 13 12 13 15 13 14 14 15 15 13 14 15 14 14 13 15 13 13 14 12 12 14 14 15 14 14 12 13 14 14 14 14 14 15 14 13 14 14 14 12 14 12 10 11 12 10 12 11 12 11 12 12 12 12 11 12 11 12 12 13 12 11 12 12 11 12
Tableau.1 : Notes des tudiants
Le chef de la scolarit du CASP peut tre amen se demander : - si les tudiants ont systmatiquement des rsultats meilleurs que ceux de leurs collgues ; - si les filles et les garons obtiennent des rsultats comparables ; - si un tudiant bon en mathmatique lest galement en dmographie ; - etc. Disons tout simplement quil veut analyser les donnes dont il dispose. Le tableau que nous allons tudier croise 25 tudiants (en lignes) et 19 matires (en colonnes) : le 21
nombre xij se trouvant la croise de la ligne i et de la colonne j est la note obtenue par ltudiant i lpreuve j . Ensemble J (dans lordre des colonnes du tableau)
STAT MSTA STAS STAE MATH PROB ECON DEMO INFO GEOE COME COMN TEXP ANGL HIST SPOR STAG APPG MOYG Cours de statistique et organisation de la statistique Mthodes statistiques Statistique de la sant Statistique de lducation et de lemploi Mathmatiques Probabilits Economie Dmographie Informatique Gographie conomie Comptabilit dentreprise Comptabilit nationale Techniques dexpression Anglais Histoire du Congo Activits sportives Stage pratique Apprciation du Directeur Gnral du Casp Moyenne gnrale
Ensemble I (des lignes)
Les tudiants sont reprs par leurs noms (sigle de 4 caractres). Dans lanalyse on mettra SPOR et MOYG en lments supplmentaires, pour la simple raison que la note de sport nintervient pas dans le systme de pondration et que la moyenne gnrale nest en fait quun rsum de toutes les notes. Il ny a pas dindividus supplmentaires dans lanalyse.
22
5.3.2. Matrice de corrlations des variables

Tous les coefficients du tableau 2 ont t multiplis par 1000. Cest une matrice symtrique, seul le triangle infrieur est dit.
STAT MSTA STAS STAE MATH PROB ECON DEMO INFO GEOE COME COMN TEXP ANGL
STAT MSTA STAS STAE MATH PROB ECON DEMO INFO GEOE COME COMN TEXP ANGL HIST STAT APPG
1000 262 341 78 68 544 -204 -254 -12 -49 228 112 -8 -173 46 325 118 1000 43 -80 -129 -52 -38 -210 -225 131 751 9 -8 90 108 442 242 1000 -64 123 271 -139 -54 154 64 153 -112 208 187 112 336 -16 1000 323 243 -172 84 394 177 -63 373 297 -397 -166 -87 139 1000 185 39 1 242 212 -60 -30 7 -29 104 -426 -431 1000 -180 -62 180 -159 136 354 -87 -114 141 236 -18 1000 563 44 60 -182 -83 -164 297 -40 -290 -319 1000 428 1000 109 -264 192 -248 -110 -367 0 278 472 -215 434 251 -146 76 5 163 1000 109 180 484 246 360 58 116 1000 288 195 126 141 435 121 1000 225 -331 -245 113 61 1000 229 305 9 22 1000 346 143 -164
HIST STAG APPG HIST STAG APPG 1000 -5 -232 1000 693 1000
Tableau 2 : matrice de corrlation entre les variables
23
Lexamen de cette matrice fait apparatre, avant toute analyse, les associations entre variables. Nous remarquons que le coefficient le plus lev vaut 0.751, cest celui de la comptabilit dentreprise (COME) avec les mthodes statistiques (MSTA) ; ensuite vient celui de stage pratique (STAG) avec lapprciation gnrale (APPG) qui est gal 0.693. On peut signaler des coefficients de corrlation moyens entre la dmographie (DEMO) et lconomie (ECON) soit 0.563 et entre statistique (STAT) et probabilits (PROB) soit 0.544. De faon gnrale on constate entre les variables, des coefficients de corrlation faibles : un coefficient de corrlation nul entre la dmographie (DEMO) et le stage pratique (STAG) et un coefficient quasi nul entre les mathmatiques (MATH) et la dmographie (DEMO). En dautres termes connaissant la valeur DEMO, on ne peut rien dire des valeurs STAG et MATH. Dans le nuage o les points sont des variables et les droites des individus, DEMO fait un angle droit avec STAG et avec MATH. Il faut nanmoins rappeler quun coefficient de corrlation est un indice quil faut interprter avec beaucoup de prcautions. Cest donc en dfinitive cette matrice de corrlation entre variables quil faut diagonaliser pour obtenir une reprsentation euclidienne des points variables.
5.3.3. Vecteurs et valeurs propres de la matrice de corrlation

Les vecteurs propres contiennent les informations affecter aux variables initiales et qui permettent le calcul des facteurs. Le tableau 3 rend donc compte de ce passage de lancien repre RJ des anciennes variables au nouveau repre RF des nouvelles variables (facteurs). Comme on la dj not la somme des valeurs propres est gale au nombre CardJ de variables. Dans le cas dun nuage sans direction dallongement (nuage sphrique), toutes les valeurs propres seraient gales 1. Ce cas limite permet de retenir comme axe priori tudier ceux dont les valeurs propres sont suprieures lunit (les six premires dans le cas prsent). La valeur 1 constitue donc un point de repre pour apprcier une valeur propre. Dans linterprtation dun facteur associ une valeur propre proche ou infrieure 1 il est conseill dtre trs prudent. Ce qui vient dtre dit nest valable que si on travaille sur les donnes centres et rduites (ACP norme cest--dire la mthode jusque ici dveloppe).
24
-------------------------------------------------------------------------------------------------------------------------------------NUMERO ! VAL PROPRE 1! VAL PROPRE 2 ! VAL PROPRE 3 ! VAL PROPRE ! -------------------------------------------------------------------------------------------------------------------------------------! -. 3.07452 ! 2.66202 ! 2.32011 ! 1.96808 ! -------------------------------------------------------------------------------------------------------------------------------------.06183 ! -0.3186 ! .32050 ! OBJET 1 ! - .33048 ! OBJET 2 ! OBJET 3 ! OBJET 4 ! OBJET 5 ! OBJET 6 ! OBJET 7 ! OBJET 8 ! OBJET 9 ! OBJET 10 ! OBJET 11 ! OBJET 12 ! OBJET 13 ! OBJET 14 ! OBJET 15 ! OBJET 16 ! OBJET 17 ! -.36071 ! -22630 ! -04945 ! 12295 ! -22630 ! 29212 ! 22630 ! 00108 ! -09790 ! -41111 ! -14995 ! -16463 ! -01500 ! -10733 ! -44550 ! 27514 ! -.19292 ! 01539 ! 45327 ! 20650 ! 21435 ! -04166 ! 21435 ! 48566 ! 20351 ! -12271 ! 40369 ! 14701 ! -29097 ! -13306 ! -05062 ! 10600 ! -.02134 ! 17381 ! 02122 ! 31472 ! -00401 ! 05790 ! 00401 ! 14409 ! 38798 ! 05832 ! -07915 ! 39255 ! 33802 ! 46651 ! -19581 ! -33571 ! -13812 ! 08163 ! 10787 ! 27844 ! 37095 ! -26369 ! 37095 ! -19273 ! -36938 ! -05264 ! -02468 ! -16085 ! -26204 ! 01130 ! -22215 ! -33841 !
Tableau 3 : Les quatre premiers vecteurs et valeurs propres.
On donne ci-dessous lhistogramme des valeurs propres qui permet de visualiser limportance et la dcroissance des valeurs propres. On note une dcroissance lente des valeurs propres. On peut faire remarquer que : (1 2 ) / 1 = (3.07452 2.66202) / 3.07452 = 0.13417 (2 3 ) / 2 = (2.66202 2.32011) / 2.66202 = 0.12844 (3 4 ) / 3 = (2.32011 1.96808) / 2.32011 = 0.15173 Si lcart relatif entre et +1 est faible, une lgre fluctuation dans le tableau des donnes peut avoir pour consquence la permutation des facteurs dordre et + 1 . En rgle gnrale si des valeurs propres successives sont proches lune de lautre, on considrera le sous-espace dfini par les axes associs ces valeurs propres, et non les axes sparment. En effet, il sagit dans un tel cas pratiquement dun sous-espace propre, et la position des axes dans ce sous-espace nest pas significative : elle est dfinie une rotation prs [ 60] .
25
LES VALEURS PROPRES
VAL (1) = 3.07452
----------------------------------------------------------------------------------------------------------------------------------!NUM ! VAL PROPRE ! POURC.! CUMUL ! VARIAT. ! *!HISTOGRAMME DES VALEURS PROPRES
-----------------------------------------------------------------------------------------------------------------------------------------------! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! 1! 2! 3! 4! 5! 6! 7! 8! 9! 11 ! 12 ! 13 ! 14 ! 15 ! 16 ! 17 ! 3.07452 ! 18.085 ! 2.07452 ! 15.659 ! 2.32011 ! 13.648 ! 1.96808 ! 11.577 ! 1.48126 ! 1.31772 ! .90442 ! .80785 ! .59308 ! .56950 .44687 .27241 .23710 .14339 .10191 .06428 .03548 ! ! ! ! ! ! ! ! 8.713 ! 7.751 ! 5.320 ! 4.752 ! 3.489 ! 3.350 ! 2.629 ! 1.602 ! 1.395 ! .843 ! .599 ! .378 ! 18.085 ! 33.744 ! 47.392 ! 58.969 ! 67.682 ! 75.434 ! 80.754 ! 85.506 ! 88.994 ! 92.344 ! 94.973 ! 96.576 ! 97.970 ! 98.814 ! 99.413 ! 99.791 ! ******* ! * ! *************** 2.426 ! * ! *************** 2.011 ! * ! *************** 2.071 ! * ! *************** 2.864 ! * ! ************** .962 ! * ! ************* 2.431 ! * ! ********* .568 ! * ! ******** 1.263 ! * ! ****** .139 ! * ! ****** .721 ! * ! 1.026 ! * ! .208 ! * ! .551 ! * ! .244 ! * ! .221 ! * ! .169 ! * ! **** *** ** * * * ! *************** ! ! *********** ! ******** ! ****
! 10 !
.209 ! 100.000 !
Tableau 4 : Histogramme des valeurs propres
Les deux premires valeurs propres reprsentent environ 34% de linertie et les six premires environ 75%. Notons que ces taux sont faibles. Du fait des faibles coefficients de corrlation entre les variables on ne pouvait pas sattendre trouver des valeurs propres trs leves. Il faut avouer quil est difficile de donner une rponse gnrale la question : partir de quel pourcentage dinertie peut-on ngliger les facteurs restants ? Cela dpend en gnral du nombre de variables : un % de 100% na pas le mme intrt sur un tableau de 20 variables et sur un tableau de 100 variables [57 ] . Cependant des taux dinertie faibles peuvent aussi donner des reprsentations de bonne qualit. On sassurera nanmoins quun fort pourcentage dinertie est presque une garantie dinterprtabilit au premier sens du terme. Nous essayerons de rsumer les donnes par les trois premiers facteurs.
26
5.3.4. Tableau des facteurs sur I

Le tableau 5 est en fait un tableau daide linterprtation dune analyse en composantes principales (comme dailleurs les tableaux 6 et 7).
! 1! 2! 3! 4! 5! 6! 7! 8! 9! 10 ! 11 ! 12 ! 13 ! 14 ! 15 ! 16 ! 17 ! 18 ! 19 ! 20 ! 21 ! 22 ! 23 ! 24 ! 25 ! ! I ! QLT 279 799 233 383 839 786 955 745 885 613 739 670 631 786 432 507 599 576 96 630 976 230 813 736 575 POID INR ! 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 20 ! 63 ! 20 ! 55 ! 61 ! 37 ! 48 ! 45 ! 70 ! 29 ! 45 ! 39 ! 32 ! 37 ! 26 ! 30 ! 24 ! 46 ! 27 ! 46 ! 50 ! 18 ! 50 ! 42 ! 37 ! 1000 ! 1#F 48 2563 -450 -856 1964 512 -1693 -1972 3683 -708 2923 1901 -375 2920 -309 -429 -1275 -1848 -658 -1915 -1706 -458 -913 1732 -2683 COR 0 245 24 31 148 17 140 202 453 40 442 216 10 542 9 15 163 174 38 187 136 28 39 170 460 CTR ! 0! 86 ! 3! 10 ! 50 ! 3! 37 ! 51 ! 177 ! 7! 111 ! 47 ! 2! 111 ! 1! 2! 21 ! 44 ! 6! 48 ! 38 ! 3! 11 ! 39 ! 94 ! 1000 ! 2#F 763 400 -830 2158 -2899 1711 -3696 2278 213 781 883 -1104 624 620 -233 -664 -720 2132 749 -608 -3936 -283 2075 -655 242 COR 67 6 81 198 322 186 665 270 2 49 40 73 29 24 5 35 52 231 50 19 724 11 202 24 4 CTR ! 9! 2! 10 ! 70 ! 126 ! 44 ! 205 ! 78 ! 1! 9! 12 ! 18 ! 6! 6! 1! 7! 8! 68 ! 8! 6! 233 ! 1! 65 ! 6! 1! 1000 ! 3#F -140 -1998 50 1630 2308 2248 -1726 -1435 -3210 1290 1899 1343 -1488 -533 1685 -600 492 -1418 288 1614 -1446 -822 -1825 587 1204 COR 2 148 0 113 204 321 145 107 344 133 187 108 165 18 253 29 24 102 7 133 98 89 156 19 93 CTR ! 0! 69 ! 0! 46 ! 92 ! 87 ! 51 ! 36 ! 178 ! 29 ! 62 ! 31 ! 38 ! 5! 49 ! 6! 4! 35 ! 1! 45 ! 36 ! 12 ! 57 ! 6! 25 ! 1000 !
ABDO! BANZ! BATA! BOUK! BOYE! GOYI! LIK1! LIK2! LOUZ! MAKI! MALO! MAMP! MATO! MBIK! MPOU! NGUI! NKOK! NSEM! NSON! NZAK! ONDZ! SAFO! SAM1! SAM2! TSIB! !
Tableau 5 : Facteurs sur I
Pour chacun des 25 tudiants on lit dabord : i) POID (masse statistique) : on constate que tous les individus ont reu le mme poids. m 1 mi = 1 ; M = mi = 25 ; pi = i = = 0, 04 (ici 40 exprim en millimes). M 25 ii) INR (inertie) ; les individus ayant le mme poids, cette inertie varie comme la distance au centre de gravit :
I n (i ) = pi 2 (i )
27
iii) QLT , sa qualit de reprsentation par sa projection dans lespace factoriel considr comme significatif. Ensuite on trouve pour chaque facteur : iv) # F ( F (i )) , coordonnes des individus ; lexamen de ces coordonnes permet de connatre comment se rpartissent les individus, ceux qui interviennent sur laxe du ct positif ou du ct ngatif. v) CTR , contribution relative de lindividu i et linertie explique par laxe .
CTR (i, ) = pi F2 (i ) / ;
on remarque que CTR varie comme F2 (i ) : les points les plus contributifs sont les plus excentrs et rciproquement. La contribution relative de ltudiant LOUZ linertie explique par laxe 1 est gale 177. En dautres termes si on appelle 1000 le facteur 1, LOUZ en explique 177. Pour linterprtation des axes, on classera les individus en deux groupes ; les uns de contribution relative forte avec une coordonne ngative, les autres de contribution forte avec une coordonne positive (il est conseill de choisir les individus de contribution relative suprieure la moyenne des contributions au moins). vi) COR qui mesure la qualit de la reprsentation de lindividu i par sa projection sur laxe . COR peut tre interprte comme le cosinus de langle form par un point avec sa projection sur le plan.
(i )
G
F (i )
cos 2 =
F2 (i ) 2 (i)
En prenant toujours le cas de ltudiant LOUZ on voit que cos 2 ( LOUZ , F1 ) = 453 ; si on appelle 1000 la situation de LOUZ, on en trouve 453 sur le facteur 1. On peut vrifier facilement que :
QLT = COR (i ) = 1000 (en millime). Comme on le constate les COR
=1
p
sadditionnent en ligne ; somms sur les 17 facteurs, on trouverait 1000 ; somms sur les 5 (on a extrait 5 facteurs, seulement trois sont imprims) facteurs, on trouve QLT = 885 pour LOUZ..
28
5.3.5 Tableaux de facteurs sur J .

! 1 ! 2 ! 3 ! 4 ! 5 ! 6 ! 7 ! 8 ! 9! 10! 11! 12! 13! 14! 15! 16! 17! ! J1 ! QLT POID 661 546 540 665 560 746 621 894 784 765 590 541 676 716 589 859 753 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 INR ! 59! 59 ! 59 ! 59 ! 59 ! 59 ! 59 ! 59 ! 59 ! 59 ! 59 ! 59 ! 59 ! 59 ! 59 ! 59 ! 59 ! 1000 ! 1#F -579 -632 -397 -87 216 -397 512 356 2 -172 -721 -263 -289 -26 -188 -781 -482 COR 336 400 157 8 46 157 262 127 0 29 520 69 83 1 35 610 233 CTR ! 109 ! 130 ! 51 ! 2! 15 ! 51 ! 85 ! 41 ! 0! 10 ! 169 ! 22 ! 27 ! 0! 12 ! 198 ! 76 ! 1000 ! 2#F 101 -315 25 740 337 350 -68 431 792 332 -200 659 240 -475 -217 -83 173 COR 10 99 1 547 114 122 5 186 628 110 40 434 58 225 47 7 30 CTR ! 4! 37 ! 0! 205 ! 43 ! 46 ! 2! 70 ! 236 ! 41 ! 15 ! 163 ! 22 ! 85 ! 18 ! 3! 11 ! 1000 ! 3#F -49 -33 265 32 479 -6 88 -332 219 591 89 -121 598 515 711 -298 -511 COR 2 1 70 1 230 0 8 110 48 349 8 15 358 265 505 89 261 CTR ! 1! 0! 30 ! 0! 99 ! 0! 3! 47 ! 21 ! 151 ! 3! 6! 154 ! 114 ! 218 ! 38 ! 113 ! 1000 !
STAT ! MSTA ! STAS ! STAE ! MATH! PROB ! ECON ! DEMO! INFO ! GEOE ! COME ! COMN! TEXP ! ANGL ! HIST ! STAG ! APPG ! !
Tableau 6 : Facteurs sur J .
On a donn chaque point variable une masse gale lunit et que les coordonnes factorielles de ces points sont assimilables aux coefficients de corrlation. On a
2 COR ( , j ) = G ( j ) . On interprtera donc laxe en fonction des variables qui lui sont
corrles. Comme le nuage N I ( j ) est situ dans une sphre de rayon 1, lusage des CTR nest pas vraiment ncessaire. On retiendra seulement que plus la variable se projette prs du cercle dans le plan principal, mieux cette variable est reprsente par sa projection.
! 18 ! 19 ! ! JSUP ! QLT POID INR ! SPOR ! MOYG ! 141 669 1 1 59 ! 59 ! 118 ! 1#F 179 -454 COR 32 206 CTR ! 0! 0! 0! 2#F 114 520 COR 13 270 CTR ! 0! 0! 0! 3#F -260 248 COR 68 62 CTR ! 0! 0! 0!
Tableau 7 : Facteurs sur J supplmentaires.
29
5.3.6. Reprsentations graphiques

Le but essentiel de lanalyse factorielle est de reprsenter les points de N J ( I ) et de N J ( J ) dans un espace de faible dimension par rapport aux dimensions dorigine. Ces reprsentations se font dans la plupart des cas dans un espace deux dimensions : 5.3.6.1. Reprsentation graphique associe aux points i Les graphiques 1 et 2 donnent une reprsentation des individus dans lespace factoriel (1,2) et (1,3). Si lon sest fix comme objectif la rpartition des individus, on peut interprter rapidement les rsultats de la faon suivante : laxe 1 oppose les individus BANZ, MBIK et LOUZ lindividu TSIB (voir leurs coordonnes, tableau 5). Cet axe oppose en fait les tudiants reus et non reus. Une exception : ltudiant MALO qui est reu mais qui se retrouve avec les non reus. On retrouve la mme rpartition sur laxe 2 : opposition entre BOYE, LIK1, ONDZ (groupe des non reus) et GOYI, BOUK, LIK2 et SAM1 (groupes des reus). On peut donc considrer ces axes comme des axes de russite. Ensuite, non loin de lorigine des axes, on constate des groupements dindividus selon toujours le critre russite : NZAK avec NKOK (reus), NGUI avec BATA (non reus), MAKI, ABDO et MATO (reus). On peut le vrifier aussi pour les points superposs indiqus en bas du graphique. Cependant compte tenu des remarques faites au 5.3.3 on est tent danalyser le plan (1,3). A quelques exceptions prs on retrouve la mme interprtation. Notons que dans cette analyse des individus, lorigine des axes reprsente lindividu moyen, dont les notes sont les moyennes calcules sur lensemble des tudiants. Le cas que nous venons dexaminer est celui o les individus prsentent de lintrt en euxmmes. Linformation essentielle est contenue dans les coordonnes. Dans dautres cas, en particulier lorsque les individus constituent un chantillon (situation typique des enqutes) on est en prsence des tres anonymes nayant dintrt que par leur ensemble et non par leur individualit [10] . Lattention sera alors attire par lallure gnrale de la rpartition de lensemble des individus. 5.3.6.2. Reprsentation graphique associe aux points j Les graphiques 3 et 4 donnent une reprsentation des points variables dans les plans factoriel (1,2) et (1,3). On peut se fixer comme lobjectif la structuration des variables : quelles sont celles qui sont associes ? Quelles sont celles qui sopposent ?
30
Un simple regard de leurs coordonnes sur le premier axe nous indique que la plupart des variables sont dun mme ct (ct ngatif). Deux variables sont bien corrles avec le premier facteur : il sagit de STAG et COME. Des variables moyennement corrles avec le premier facteur : STAT, MSTA et APG. Du ct positif de laxe on peut retenir la variable ECON moyennement corrle avec le premier facteur. De faon gnrale, laxe 1 peut donc tre considr comme axe de la pratique. Le deuxime facteur est corrl positivement avec linformatique (INFO), les statistiques de lducation (STAE) et la Comptabilit nationale (COMN). Du ct ngatif de laxe, se trouve la variable anglais (ANGL). Le troisime facteur peut tre considr comme facteur de culture gnrale. Sont effectivement corrles avec ce facteur les variables histoire (HIST), anglais (ANGL), techniques dexpression (TEXP) et la gographie (GEOE). 5.3.6.3. Reprsentation simultane des points i et des points j . Bien que des individus et variables soient des lments despaces diffrents, on peut par un certain artifice superposer la reprsentation des individus (plan principal) et celles des variables (cercle de corrlation). Une telle superposition avec des prcautions dinterprtation, rend plus vivante la visualisation. Le graphique 5 est donc issu des graphiques 1 et 3. Ainsi, si lon regarde simultanment les deux graphiques, un individu sera du ct des variables pour lesquelles il a de fortes valeurs et loppos des variables pour lesquelles il a de faibles valeurs.
31
AXE HORIZONTAL (1) AXE VERTICAL (2). Nombre de points : 25 Echelle : 4 caractres = .354 1 ligne = .147
Nombre de points superposs : 3 NSEM(LIK2) NSON(MAKI) SAFO(MPOU)
Graphique 1 : Reprsentation des points individus dans lespace factoriel (1,2).
32
Nombre de points superposs : 2 NSEM(LIK2) ONDZ(LIK2)
Graphique 2 : Reprsentation des points individus dans lespace factoriel (1,3).
33
Graphique 3 : Reprsentation des points variables dans lespace factoriel (1,2)
34
Nombre de points superposes: 1 MSTA (STAT)
Graphique 4:. Reprsentation des points variables dans lespace factoriel (1,3)
35
Nombre de points superposs : 2 SAM1 (BOUK) NSON(MAKI)
Graphique 5: Reprsentation simultane des individus et des variables dans lespace factoriel (1,2).
36
6. Lanalyse factorielle des correspondances

6.1. Les donnes Les objectifs
Lanalyse factorielle des correspondances a dabord t conue pour traiter les tableaux de contingence ; depuis, son domaine sest trs vite tendu dautres tableaux de donnes : les tableaux de notes, les tableaux de rang etc. Et rcemment elle sapplique des tableaux de description logique remplis exclusivement de 1 et de 0 ; cest par exemple le cas des tableaux mis sous forme disjonctive complte. En effet, si lon considre un ensemble Q , de questions (ou de variables qualitatives), pour toute question q de Q , on note J lunion disjointe des J q :
J = {J q q Q} (avec CardJ = p ).
Soit I ( CardI = n) un ensemble dindividus ayant rpondu toutes les questions de Q . Pour tout i et de I , et pour toute question q de Q , on suppose que lindividu i a adopt une seule modalit de rponse q , et lon code par 1 si lindividu i a choisi la modalit de rponse J de J q , et par 0 sinon. Le tableau ainsi obtenu est appel disjonctif complet : Disjonctif, car deux modalits j et j ' dune mme question sexcluent mutuellement : si lindividu i a choisi la modalit j de J q , il na pas adopt une modalit j ' ( j ' j ) de J q . Complet, car tout individu i correspond effectivement une modalit de rponse toute question q. Contrairement lanalyse en composantes principales, en analyse factorielle des correspondances (AFC) le tableau analyser est symtrique par rapport aux indices i et
j . Deux lignes sont considres comme proches si elles sassocient de la mme faon
lensemble des colonnes. Symtriquement, deux colonnes sont proches si elles sassocient de la mme faon lensemble des lignes. LAFC permet donc de traiter simultanment les ensembles I et J et de les confronter en vue de dcouvrir lordre gnral. Enfin, comme lACP, lanalyse factorielle des correspondances permet de raliser un (ou plusieurs) graphiques, partir du tableau de donnes, en rduisant les dimensions de lespace de reprsentation des donnes, tout en essayant de ne pas perdre trop dinformation au moment de cette rduction.
6.2. La mthode
Nous ne dirons rien sur la mthode ; nous bornant seulement citer J.P Benzcri : ainsi une mthode unique dont le formulaire reste simple est parvenue incorporer des ides et des problmes nombreux apparus dabord sparment, depuis plusieurs dcennies [ 6] .
37
6.2.1. Le tableau des donnes

Soient deux ensembles finis I et J en correspondance : on a :
k IJ = {kij i I , j J } , un tableau homogne de nombres sur le produit de ces deux

ensembles I et J ( CardI = n , CardJ = p ). On pose :
kij effectif de la case ( i , j ) ; kij 0 ;
ki = {kij j J } leffectif de la ligne i ; la colonne des lments ki est la colonne marginale ; k j = {kij i I } est leffectif de la colonne j ; la ligne des lments k j est la ligne marginale ; k = {ki i I } = {k j j J } = {kij i I , j J } est la somme du tableau. On a le schma
suivant :
Colonne de marge
kij
kij
total de la ligne
ligne de marge
kij
total gnral
total de la colonne
j
(cardinal de la
Divisons maintenant chaque valeur du tableau prcdent par k population).

f ij = kij / k : frquence dun couple (i, j ) .
fi = { fij j J } = ki / k est la frquence dune ligne i ; la colonne des fi est la colonne des
frquences marginales.
f j = { fij i I } = k j / k est la frquence de la colonne j ; la ligne des f j est la ligne des

frquences marginales. Par construction on a videmment :
{ f
i I } = { f j j J } = 1 .
38
Dfinissons maintenant le profil dun lment i de I et dun lment j de J le tableau une dimension, not respectivement f ji et fi j et dont le contenu est dtermin de la faon suivante :
f Ji = { f ji j = 1,..., CardJ } , avec
f ji = fij / fi = kij / ki et
f i 0 ; ki 0 ;
f ji est la frquence
conditionnelle du couple (i, j ) connaissant i .

f I j = { f i j i = 1,..., CardI } avec fi j = fij / f j = kij / k j et f j 0 ; ki 0 ; f ji est la frquence
conditionnelle du couple (i, j ) connaissant j Le tableau f Ji correspond au tableau des pourcentages en lignes. Cest donc le profil de la ligne i ; le tableau f I j correspond au tableau des pourcentages en colonnes ; on parle alors de profil de la colonne j . On a :
i I :
i j
= 1 ; j J :
j i
=1
6.2.2. Analyse des points i de N J ( I ) dans R p

Dans lespace des colonnes, le point i sera muni de la masse fi et reprsent par son profil
f ji (sa composante sur la j me variable est f ji = fij / fi ) ; on notera par : N J ( I ) = {( f ji , fi ) i I } , le nuage des points i I
i) Le centre de gravit, de ce nuage est f J = { f j ; j J } Comme le centre de gravit (ou barycentre) G dun systme, de points {(mi , xij ) i I } est le point moyen du systme, de la j me composante X G j tel que pour tout j :
{m ( x
i
ij
xGj ) i I } = 0
On a donc pour tout i : f fi ( f ji f j ) f i ( ij f j ) = f ij fi f j fi do
{ f ( f
i
i j
f j ) i I } = { fij i I } f j { fi i I } = 0
tant donn que
{ f
ij
i I } = f j , et
{ f
i I} = 1
ii)- La distance entre points de N J (i )
d 2 (i, i ' ) = {
' 1 i ( f j f ji )2 j J } fj
Cette distance mesure les proximits de forme entre lignes (ou entre colonnes) compte tenu de leurs poids diffrents. Elle est appele distance du 2 (chi-2) et vrifie ce quon appelle le principe dquivalence distributionnelle : Si deux lignes (ou deux colonnes) du tableau kIJ sont proportionnelles et quon les remplace par une seule ligne (ou par une seule colonne) qui en soit la somme colonne par colonne
39
(ou la somme ligne par ligne), les distances entre colonnes (ou entre lignes) ne sont pas changes au sein du nuage (N(J) (ou N(I)). En effet, si lon considre deux lments j1 et j2 de j tels que leurs profils sur j soient identiques ( f I j1 = f I j2 ) ; si on substitue aux colonnes j1 et
j2 une colonne js telle que :
f ijs = f ij1 + f ij2 , f js = f j1 + f j2 , alors la distance entre lments de I nest pas modifie. En
dautres termes on ne modifie pratiquement pas les rsultats dune analyse des correspondances si on regroupe deux rubriques trs voisines en ajoutant leurs poids. iii)- La distance dun point i au centre de gravit du nuage N J ( I ) est :
2 (i) = {
1 i ( f j f j )2 j J } fj
iv) De mme on peut calculer linertie de ce point i caractris par son profil
f ji et par son poids fi .

On a :
I n (i ) = f i 2 ( i )
v) Linertie du nuage N j ( I ) sera gale
I n ( N j ( I ) = {I n (i) i I }
= =
{ f f
i
1
j
f ij fi
f j )2 i I }
{ f
fi
j
fij fi
fi f j fi
)2 i I , j J }
do
I n ( N J ( I )) = {
1 ( fij fi f j )2 i I , j J } fi f j
compte tenu de la symtrie entre les indices i et j cette formule donc aussi linertie du nuage des points j . On a donc :
I n ( N J ( I )) = I n ( N I ( J ))
Remarque : Les profils peuvent tre considrs comme de coordonnes euclidiennes. Si lon considre la transformation suivante :
j J , i I , on associe f ji la quantit f ji f j1/ 2 alors la distance euclidienne usuelle
entre deux points i et i ' vaut :
d 2 (i, i ' ) = ( f ji f j1/ 2 f ji f j1/ 2 )2 =

'
' 1 i ( f j f ji ) 2 , fj
et on voit quelle concide bien avec la distance du chi-2. Avec cette transformation le centre de gravit du nouveau nuage que lon note N 'j ( I ) = {( f ji f j1/ 2 , fi ) i I } est : 40
f j' = { f j1/ 2 ; j J }
De tout ce qui prcde, on est conduit diagonaliser la matrice T des covariances, dont le terme gnral scrit :
t jj ' = fi ( f ji f j1/ 2 f j1/ 2 )( f ji . f j1/ 2 f j1/ 2 ) ; ' '
ce qui conduit la recherche des vecteurs propres et valeurs propres de la matrice des variances-covariances T qui joue le rle de X ' X dans lanalyse gnrale.
6.2.3. Analyse des points de N i ( J ) dans R n

Les ensembles I et J jouant un rle parfaitement symtrique, lanalyse des points j de
N I ( J ) se dduit de lanalyse des points i de N J ( I ) par permutation des indices i et j et

des ensembles I et J .
6.2.4. Relations entre les points i de N J ( I ) et les points j de N I ( J )

Comme en ACP, les facteurs sont de moyenne nulle et les axes factoriels sont deux deux orthogonaux (au sens de la mtrique du chi-2). On rappelle que linertie du nuage N J ( I ) projet sur laxe est gale celle du nuage N I ( J ) projet sur laxe (cest la valeur propre de rang ). On a entre les lments de I et de J les relations suivantes :
1/ G ( j ) = (1/ 2 ){ f ji F (i) i I } : projection de la colonne j sur laxe de rang de N I ( J ) ; 1/ F (i) = (1/ 2 ){ f ji G ( j ) j J } : projection de la ligne i sur laxe de rang de N J ( I ) ;
: valeur commune de linertie associe chacun de ces axes.

Ces formules sont appeles formules de transition et permettent la reprsentation simultane des deux ensembles I et J et ladjonction lun ou lautre des deux ensembles supplmentaires de masse nulle. Cette expression dune formule de transition est appele proprit barycentrique : les lments lourds attirant le barycentre, une colonne j attire dautant plus une ligne i que la valeur f ij est leve. Sur les plans factoriels, les points loigns de lorigine, retiennent particulirement lattention, car ce sont les profils les plus diffrents du profil moyen. Enfin, on peut recalculer les valeurs du tableau initial en fonction des marges et des facteurs. En effet, connaissant les lois marginales f I et f J , la suite des facteurs F et G jusqu lordre p , et les valeurs propres 1 ,..., p , on trouve que :
1/ fij = fi f j (1 + {(1/ 2 ) F (i)G ( j ) [1, p]} ;
cest la formule de reconstitution du tableau des donnes de dpart.
41
6.2.5- Elments supplmentaires

Soit is une ligne supplmentaire. Pour visualiser is sur le me axe factoriel on projette le profil de
1/ 2
F (is ) = (1/ ) { f G ( j ) j J }
is j
is
sur
cet
axe.
Labscisse
F (is )
de
cette
proposition
scrit :
De mme pour une colonne supplmentaire js , labscisse G ( js ) de la projection du profil

1/ js sur laxe scrit : G ( js ) = (1/ 2 ){ fi js F (i ) i I }
6.3- Interprtation dune analyse factorielle des correspondances.

6.3.1. Tableau des donnes de base
Reprenons notre exemple de le tableau1. Le chef de la scolarit du CASP dcide alors de mettre en place un systme pour reprer les tudiants en fonction du profil de leurs notes dans les diffrentes matires concernes. Le fichier analyser est donc un tableau o chaque tudiant reprsente une ligne et chaque matire une colonne.
6.3.2. Vecteurs et valeurs propres.

NUMERO ! ! OBJET 1 ! OBJET 2 ! OBJET 3 ! OBJET 4 ! OBJET 5 ! OBJET 6 ! OBJET 7 ! OBJET 8 ! OBJET 9 ! OBJET 10 ! OBJET 11 ! OBJET 12 ! OBJET 13 ! OBJET 14 ! OBJET 15 ! OBJET 16 ! OBJET 17 ! VAL PROPRE 1 ! 1.00000 ! -.22264 ! -.27437 ! -.24338 ! -.25169 ! -.23169 ! -.27993 ! -.21750 ! -.21272 ! -.23826 ! -.23125 ! -.22402 ! -.21464 ! -.21844 ! -.25735 ! -.25815 ! -.26638 ! -.26444 ! VAL PROPRE 2 ! .00750 ! .12390 ! .15444 ! .12723 ! -.05533 ! -.12409 ! .03318 ! -.25530 ! -.70959 ! -.18690 ! -.03079 ! .52647 ! -.05100 ! .12983 ! .03713 ! .13427 ! .06293 ! -.02175 ! VAL PROPRE 3 ! .00515 ! -.02777 ! .14066 ! -.11714 ! -.05474 ! -.77690 ! -.03768 ! .08272 ! .33829 ! -.05908 ! -.09632 ! .33496 ! .21780 ! -.05285 ! -.01092 ! -.14161 ! .15184 ! .13425 ! VAL PROPRE 4 ! .00327 ! .07969 ! .00110 ! .35144 ! -.06180 ! -.42761 ! .02703 ! .13412 ! -.10346 ! -.03532 ! -.03212 ! -.46833 ! -.49950 ! .07794 ! .26574 ! .26705 ! .14257 ! .12087 !
Tableau 8 : Vecteurs et valeurs propres de lAFC.
42
En analyse factorielle des correspondances, toutes les valeurs propres sont comprises entre 0 et 1. En effet, on extrait p valeurs propres, avec p inf(cardI , cardJ ) 1] ; on a : 1 1 2 ... p . Le vecteur propre associ la valeur propre 1, est dnomm vecteur propre trivial car il napporte rien pour lanalyse factorielle de N J ( I ) et N I ( J ) . La premire valeur propre considrer dans notre exemple est en loccurrence 1 = 0.00750 . On a ensuite 2 = 0.00515 et 3 = 0.00327 ; chacune des 3 colonnes correspond un vecteur propre (i.e les coordonnes des axes factoriels dans lespace des 17 variables). Comme en ACP, lhistogramme (tableau 9) reprsente les valeurs propres par des longueurs qui leurs sont proportionnelles, ce qui permet dapprcier dun regard la dcroissance des valeurs propres quand leur rang augmente. Sur notre exemple, on voit que chacune des deux premires valeurs propres est nettement spare de celle qui la suit : 1 vaut prs de 1.5 fois 2 ; 2 = 1.63 . En rgle gnrale, une valeur propre bien spare de celle qui la prcde et de celle qui la suit est le signe que laxe qui lui correspond est bien individualis, et lon cherchera linterprter cet axe ; deux valeurs propres voisines lune de lautre, mais bien spares des autres, sont le signe que le plan des axes qui leur correspond est bien individualis. On rappelle enfin que des valeurs propres leves indiquent des oppositions tranches dont linterprtation est souvent la fois vidente et attendue. Des valeurs propres faibles peuvent correspondre des corrlations plus discrtes que lanalyse aura rvles.
LES VALEURS PROPRES VAL (1) = 1.00000
----------------------------------------------------------------------------------------------------------------------------------------------!NUM ! VAL PROPRE ! POURC.! CUMUL! VARIAT. ! *! HISTOGRAMME DES VALEURS PROPRES ---------------------------------------------------------------------------------------------------------------------------------------------! ! ! ! ! ! ! ! ! ! ! ! ! ! ! ! 2! 3! 4! 5! 6! 7! 8! 9! 10 ! 11 ! 12 ! 13 ! 14 ! 15 ! 16 ! 17 ! .00750 .00515 .00327 .00289 .00254 .00202 .00105 .00086 ! 27.273 ! ! 18.744 ! ! 11.889 ! ! 10.499 ! ! ! ! ! 9.236 ! 7.340 ! 3.831 ! 3.146 ! 2.503 ! 1.752 ! 1.419 ! .979 ! .624 ! .375 ! .266 ! .125 ! 27.273 ! 46.016 ! 57.906 ! 68.405 ! 77.641 ! 84.981 ! 88.812 ! 91.958 ! 94.461 ! 96.212 ! 97.632 ! 98.610 ! 99.234 ! 99.609 ! 99.875 ! 100.000 ! ******* ! * ! *************** ! *************** ! 8.529 ! * ! *************** ! ****** 6.854 ! * ! ************* 1.390 ! * ! ************ 1.263 ! * ! *********** .1.836 ! * ! ******** 3.510 ! * ! **** .685 ! * ! *** .643 ! * ! *** .751 ! * ! ** .332 ! * ! ** .441 ! * ! * .355 ! * ! * .249 ! * ! .109 ! * ! .140 ! * !
.00069 ! .00048 ! .00039 ! .00027 ! .00017 ! .00010 ! .00007 ! .00003 !
Tableau 9 : Histogramme des valeurs propres
43
6.3.3 Les tableaux des facteurs sur I et sur J : aides linterprtation.

Dans les tableaux ci-dessous (tableaux 10 et 11) et pour chaque colonne (comme en ACP) on rappelle les notions suivantes : i) Le poids (POID) qui donne pour chaque tudiant i (ou pour chaque matire j ) la part quil a dans le total du tableau. Le total de la colonne poids pour chacun des tableaux vaut 1000.
f i = ki / k ; f j = k j / k
ii) Linertie (INR) qui donne en millimes la valeur de linertie de chaque point f Ji de
N J ( I ) (profil de la ligne affrente ltudiant i) ou f I j de N I ( J ) (profil de la colonne

affrente la note j ) par rapport au centre de gravit du nuage, rapport linertie totale du nuage.
INR (i ) = f i d 2 (i, G ) = f i 2 (i )
! 1 ! 2 ! 3 ! 4 ! 5 ! 6 ! 7 ! 8 ! 9 ! I ! QLT 398 614 208 562 870 869 983 787 839 720 703 693 772 891 789 609 699 748 731 918 984 654 719 755 668 POID 41 34 39 44 36 42 38 42 36 40 41 42 41 38 40 39 41 41 43 42 38 41 39 39 42 INR ! 15! 27! 15! 40! 64! 31! 53! 29! 77! 29! 45! 40! 49! 61! 26! 25! 17! 44! 32! 76! 54! 21! 45! 46 ! 40 ! 1000 ! 1#F -38 -20 32 37 108 -78 118 -46 -191 51 -91 -85 -73 -184 9 42 58 -7 1 161 118 -7 12 -48 112 COR 151 19 100 53 241 298 363 114 631 134 272 268 159 773 4 98 299 1 0 520 357 3 5 73 476 CTR! 8! 2! 5! 8! 56! 34! 70! 12! 177! 14! 45! 40! 29! 172! 0! 9! 19! 0! 0! 145! 71! 0! 1! 12! 70! 1000 ! 2#F -24 33 -22 41 -136 -39 123 3 90 -34 -105 -20 103 8 -19 -24 39 108 -31 -26 122 73 -91 -129 -37 COR 59 51 46 66 378 75 391 0 138 57 366 15 321 1 19 34 131 405 47 13 378 371 266 516 52 CTR ! 3#F 5! 7! 4! 14! 128! 12! 110! 0! 56! 9! 88! 3! 84! 0! 3! 5! 12! 94! 8! 5! 109! 42! 64! 125! 11! 1000! -7 8 -3 -87 107 50 61 3 -35 13 -26 13 68 20 68 59 6 -62 -84 -130 67 -43 -73 17 25 COR 5 3 1 300 236 123 98 0 21 9 23 7 140 9 260 197 3 134 341 337 113 128 170 9 23 CTR! 1! 1! 0! 101! 126! 32! 43! 0! 14! 2! 9! 2! 58! 5! 58! 41! 0! 49! 93! 215! 52! 23! 64! 3! 8! 1000! ABDO ! BANZ ! BATA ! BOUK ! BOYE ! GOYI LIK1 LIK2 ! ! !
LOUZ !
10 ! MAKI ! 11 ! MALO ! 12 ! MAMP ! 13 ! MATO ! 14 ! MBIK ! 15 ! MPOU ! 16 ! NGUI ! 17 ! NKOK ! 18 ! NSEM ! 19 ! NSON ! 20 ! NZAK ! 21! ONDZ ! 22 ! SAFO ! 23 ! SAM1 ! 24 ! SAM2 ! 25 ! TSIB ! ! !
44
iii) La qualit de reprsentation (QLT) qui sinterprte comme le carr du cosinus de langle que fait un point avec sa projection sur lespace factoriel engendr par les axes factoriels : plus le cosinus est lev, plus le point est corrl avec laxe et donc bien reprsent sur cet axe. On a ensuite, pour chaque facteur un groupe de trois colonnes. iv) Le facteur lui-mme ; on sait que chaque point du plan est dfini par ses deux coordonnes ou facteurs. Seuls sont imprims ici les trois premiers facteurs (1#F, 2#F et 3#F) sur les cinq extraits. v) COR qui mesure la qualit de la reprsentation dun point par sa projection sur laxe. La somme des COR est gale QLT .
cos 2 = Fi 2 (i ) / 2 (i )
vi) La contribution relative dun point un axe ( CTR ) permet de reprer les lments qui font laxe, cest--dire les lments qui ont le plus nuage projet sur laxe.
CTR = f i F 2 (i ) /
! J1 ! QLT ! ! ! 465 598 537 290 994 481 664 957 623 652 964 880 621 560 576 601 368 POID 50 75 59 63 54 78 47 45 57 53 50 46 48 66 67 71 70 INR ! 32! 25! 77! 19! 148! 25! 55! 173! 30! 56! 143! 70! 50! 25! 41! 15! 16! 1000! 1#F 48 49 45 -19 -46 10 -102 -289 -68 -12 203 -21 51 12 45 20 -7 COR 129 260 57 44 28 12 325 793 319 5 528 10 93 15 120 73 8 CTR! 15! 24! 16! 3! 15! 1! 65! 504! 35! 1! 277! 3! 17! 1! 18! 4! 0! 1000! 2#F -9 37 -35 -16 -241 -10 27 114 -18 -30 107 73 -17 -3 -39 41 36 COR 4 148 33 30 763 11 23 124 22 31 147 126 11 1 92 292 216 CTR! 1! 20! 14! 3! 604! 1! 7! 114! 3! 9! 112! 47! 3! 0! 20! 23! 18! 1000! 3#F 20 0 83 -14 -106 6 35 -28 -8 -8 -120 -133 20 59 59 31 26 COR 23 0 190 24 147 4 39 7 5 2 182 422 15 331 207 163 111 CTR! 6! 0! 124! 4! 183! 1! 18! 11! 1! 1! 219! 249! 6! 71! 71! 20! 15! 1000!
de part linertie du
1! STAT 3! STAS 4! STAE
2! MSTA !
5! MATH ! 6! PROB ! 7! ECON ! 8! DEMO ! 9! INFO ! 10! GEOE ! 11! COME ! 12! COMN ! 13! TEXP ! 14! ANGL ! 15! HIST ! 16! STAG ! 17! APPG ! ! !
Tableau 11 : Facteurs sur J
45
En examinant ces tableaux on peut reprer : les points excentrs pour lesquels INR est nettement suprieur POID comme LOUZ, NZAK (pour les individus) et DEMO, COME et MATH (pour les variables) ; cela ne peut tre d qu leur distance leve lorigine ; les points centraux, pour lesquels POID est nettement suprieur INR comme ABDO, BANZ (pour les individus), STAG et APPG (pour les variables) ; les points correspondant aux CTR les plus forts. Linterprtation des axes reposera sur lexamen de ces points qui font laxe. Dans notre exemple on slectionnera pour le premier axe LOUZ, MBIK et NZAK (pour les individus), DEMO et COME (pour les variables) ; les axes qui expliquent lcart des points au centre de gravit : ce sont ceux pour lesquels COR a une forte valeur ; Les points bien reprsents comme ONDZ, LIK1 et BOYE pour les individus et MATH, COME et DEMO pour les variables.
6.3.4. Reprsentations graphiques

En AFC, on utilise la reprsentation simultane de N J ( I ) et N I ( J ) sur les plans de coordonnes, rapports chacun deux axes factoriels. On sait, daprs les formules de transition (cf 6.4.2) que, au coefficient 1/ 2 prs, les points reprsentatifs dun nuage sont sur un axe, les barycentres des points reprsentatifs de lautre. On constate que ce coefficient est suprieur 1, et le nuage est dautant plus dilat dans la direction dun axe que la valeur propre correspondante est faible. Deux points de N J ( I ) proches rvlent un comportement semblable des caractres lignes correspondant pour ces deux axes de projection (il est de mme pour les proximits entre les points de N I ( J ) . Linterprtation des proximits entre les projections des points de N J ( I ) et de N I ( J ) est plus dlicate ; le seul cas dans lequel on puisse tenir compte de la proximit entre les projections de deux points appartenant lun N J ( I ) , lautre N I ( J ) , est celui o ces deux points sont situs la priphrie du nuage Lorsquil sagit par contre des points situs lintrieur du nuage, les proximits sont un vritable pige pour lintuition [ 60] . Dans notre exemple, par rapport aux facteurs imprims (ici 3) les reprsentations possibles sont les plans (1,2), (1,3) et (2,3). Nous nexaminerons que les plans (1,2) et (1,3) (graphiques 6 et 7).
46
AXE HORIZONTAL (1) AXE VERTICAL (2). Nombre de points : 44 ECHELLE : 4 caractres = 0.27 1 ligne = .011
Nombre de points superposs : 7 ONDZ(LIK1) MSTA(NKOK) STAG(BOUK) STAE(ABDO) TEXP(NGUI) STAS(MAKI) GEOE(NSON)
Graphique 6 : Reprsentation simultane des individus et des variables dans lespace factoriel (1,2).
En prenant en compte tous les lments ci-dessus numrs on peut rapidement interprter les rsultats de la faon suivante : laxe 1 oppose les individus LOUZ et MBIK aux individus NZAK, TSIB, et LIK1, la variable DEMO la variable COME. En combinant lanalyse des deux ensembles, on peut constater que LOUZ et MBIK qui ont une bonne note en dmographie, et ont une mauvaise note en comptabilit dentreprise. Par contre, les individus NZAK, TSIB et LIK1 qui sont bons en comptabilit dentreprise, sont mdiocres en dmographie.
47
Laxe 2 peut tre considr comme laxe des mathmatiques. En bas et gauche de cet axe, on trouve effectivement les meilleurs tudiants dans cette discipline : ce sont SAM2, MALO et SAM1. Sur laxe 3 les oppositions ne sont pas trs tranches. Cet axe est nanmoins domin par COME. On trouve ce point la priphrie du nuage ct de NZAK ; cette proximit peut tre explique par le fait que la meilleure note en comptabilit dentreprise a t obtenue par cet tudiant.
AXE HORIZONTAL (1) AXE VERTICAL (3). Nombre de points : 44 ECHELLE : 4 caractres = 0.27 1 ligne = .011
Nombre de points superposes:5HIST(NGUI) TEXP(STAT) NKOK(MAKI) SPOR(BANZ) STAE(ABDO)
Graphique 7 : Reprsentation des individus et des variables dans lespace factoriel (1,3).
Note : Le lecteur pet tre tent de comparer les rsultats graphiques issus dune ACP de ceux dune AFC. En effet, la tentation est grande, car on peut considrer lanalyse factorielle des correspondances comme une ACP classique sur des donnes transformes (profils) utilisant une distance particulire, la distance du chi-2. Si lon tente cette comparaison crit PH Cibois on saperoit que les rsultats sont comparables cette diffrence quen analyse en composantes principales, seules les lignes et colonnes les plus fortes en effectif sont prises en compte ce qui nest pas le cas en analyse des correspondances o une pondration est introduite [17] . En tenant compte du fait que, le premier facteur extrait en analyse factorielle des correspondances est un facteur trivial (cf. 48
6.3.2), = 1 et que lon ne numrote pas, il poursuit : si lon veut donc comparer les facteurs quivalents et en prenant la numrotation usuelle des facteurs il faut donc comparer le facteur 2 de lanalyse en composantes principales avec le facteur 1 de lanalyse des correspondances et ainsi de suite Il est dailleurs un cas o les deux mthodes donnent les mmes rsultats graphiques, cest dans la situation o les marges du tableau sont identiques et o de ce fait, la pondration de lAFC ne modifie rien.
6.4 Lanalyse des correspondances multiples

Lanalyse des correspondances multiples (ACM), est considre comme lapplication la plus fconde de lanalyse des correspondances et dont les fichiers denqutes socio-conomiques constituent le champ dapplication privilgi ; elle est lapplication de lanalyse factorielle des correspondances ltude des tableaux logiques (cf 6.1).
6.4.1- Tableau disjonctif complet

Reprenons la description du tableau sous forme disjonctive complte commence au paragraphe 6.1. en conservant les mmes notations. Les marges du tableau sont notes :
ki = {kij j J } = { {kij j jq } q Q} = CardQ = nombre de questions
avec
kj
{k = {k
ij
j
ij
j jq } = 1
j J } = nombre dindividus ayant fourni la rponse j la question q .
donc
{k
j J q } = CardI = n
k = {kij j I , j J } = {ki i I } = nCardQ

J1 = 2 J2 = 4 J3 = 5 J4 = 3
10
0010
00001
010
ki = CardQ
kj
k = nCardQ
49
On note les frquences marginales comme suit :
fi = ki / k = CardQ / nCardQ = 1/ CardI

Soit p j la proportion des individus ayant fourni la rponse j la question q :
Pj = k j / CardI . ( { p j j J q } = 1) .
On a alors : f j = p j / CardQ Le nombre dindividus ayant fourni la rponse j est I p j ; cela veut dire que le chiffre 1 se trouve
I p j fois dans la colonne j ; et le chiffre 0 se trouve I (1 p j ) fois.
Le tableau prcdent peut tre interprt de la manire suivante : dans une enqute comprenant quatre questions, lindividu i a choisi la modalit 1 de la premire question (question deux modalits de rponses), la modalit 3 de la deuxime question (question quatre modalits de rponses), la modalit 5 de la troisime question (question cinq modalits de rponses) et la modalit 2 de la quatrime question (question trois modalits de rponses). On vrifie bien que la ligne de marge ki est gale au nombre de questions cest--dire 4. Le tableau ainsi construit est form par la juxtaposition de 4 tableaux logiques et contient autant de fois la valeur 1 quil y a de ces tableaux (ici 4 bien sr). Les tableaux disjonctifs complets ont le dfaut dtre grands et leur analyse coteuse : une variante consiste effectuer lanalyse factorielle des correspondances sur le tableau de Burt.
6.4.2- Tableau de Burt

Si lon croise lensemble des modalits du tableau disjonctif complet avec elles-mmes, on obtient le tableau de Burt.
j J
, j ' J : B jj ' = {kij kij ' i I }
= nombre dindividus ayant adopt la fois les modalits j et j ' .
{B j J } = k B = {B j J } = k CardQ B = {B j J , j J } = n(CardQ)
' jj ' q j ' j jj ' j ' ' jj '
50
J1 J1
0 0
J2
J3
J4
J2
0
0 0 0 0 0
B j = k j CardQ
J3 J4
n(CardQ) 2
Il faut faire remarquer que : si j et j ' appartiennent au mme sous-ensemble jq de modalits, on a :
j, j ' J q : B jj' = 0 si j j '

= k j si j = j ' (nombre dindividus ayant adopt la modalit j ).
Le tableau de Burt ainsi construit, est donc form dune juxtaposition des tableaux de contingence entre les variables prises deux deux. Les tableaux contenant la diagonale croisent chaque variable avec elle mme et sont remplis de 0 lexception de leurs diagonales, remplies des effectifs de chaque modalit.
6.4.3- Equivalence entre les deux analyses prcdentes

On considre les deux tableaux kIJ et BJJ dfinis par :
k IJ = {kij i I , j J } et BJJ = {B jj' j J , j ' J }

avec
B jj ' = {kij kij ' / ki i I }
On a alors :
B j = B jj ' = kij kij ' / ki = ( kij / ki ) kij' = kij = k j B = B jj' = B j = k j = k

j , j' j j j' j' i i j' i
Pour procder lanalyse factorielle du tableau de Burt, il faut diagonaliser les matrices
UU ' et U 'U tant la matrice de terme gnral u jj ' dfini par :
u jj ' = ( B jj ' B j B j ' / B ) /( B j B j ' )1/ 2
51
En tenant compte du fait que

B j = k j ; B j' = k j' ; B = k :
u jj' = {kij kij ' / ki } k j k j' / k /(k j k j ' )1/ 2 On a donc u jj ' = t jj ' = terme gnral de la matrice de variances-covariances T du 6.2.2.
Ainsi lanalyse factorielle de BJJ revient diagonaliser la matrice T 2 . Lanalyse des correspondances de kIJ fournit les mmes facteurs que celle du tableau BJJ mais, les valeurs propres correspondantes sont diffrentes : la valeur propre de lanalyse de kIJ correspond la valeur propre 2 de lanalyse de BJJ .
6.4.4- Calculs de contributions dans lanalyse du tableau disjonctif complet.

i) Le carr de la distance au centre de gravit dun point j scrit dans R n :
2 ( j ) = d 2 ( j , G ) = {1 / fi (( fij / f j ) 2 fi ) i I }
Comme : fi = 1/ CardI et f j = p j / CardI on a en dfinitive : CardQ 1 2 fij ) i I} 2 ( j ) = {CardI ( pj CardI On peut dcomposer cette somme selon les valeurs prises par f ij ; on trouve que :
1 (CardI p j ) fois et 0 CardI (1 p j ) fois ; ce qui donne : CardQ CardI 1 pj 2 ) + (1 p j ) 2 ( j) = p j ( pj fij =
2 ( j ) = (1 p j ) p j
ii) La contribution de la modalit j vaut donc :
CTR( j ) = f j d 2 ( j, G ) = ( p j / CardQ)d 2 ( j, G )
CTR ( j ) = (1 p j ) / CardQ
Linertie due une modalit est dautant plus grande que leffectif dans cette modalit est faible. On vitera de dfinir les modalits que lon peut supposer a priori trop rares. iii)- La contribution dune question q est :
CTR ( q ) = {(1 p j ) / CardQ i jq }
Comme
{ p
j jq } = 1 on a :
CTR ( q ) = (Cardjq / CardQ ) 1
Elle est proportionnelle au nombre de modalits de la question. Du point de vue du codage des donnes cela suppose que, le nombre de modalits de chaque question doit tre voisin pour avoir des poids quivalents pour chaque question. iv)- Linertie totale est gale :
I n ( N I ( J )) = (CardJ / CardQ) 1 52
On remarque que cette inertie ne dpend pas des liaisons existant entre les variables. Elle vaut 1 si boutes les questions ont deux modalits de rponse.
6.4.5- Interprtation dune analyse des correspondances multiples.

6.4.5.1- Tableau des donnes de base. A partir du tableau des variables quantitatives (tableau1), on peut construire un tableau de description logique. La procdure est la suivante : - on rend toutes les variables qualitatives par dcoupage en classes. Le dcoupage peut se faire soit en classes deffectifs gaux, soit en classes damplitudes gales ; - la connaissance du domaine tudier peut aussi conduire lutilisateur fixer lui-mme les bornes de classes ; - dans tous les cas, il est conseill avant tout dcoupage, de construire les histogrammes des variables pour lensemble des individus. Ces derniers sont une aide prcieuse pour dlimiter les bornes des classes. De tout ce qui prcde, on retiendra tout simplement quen analyse de vos propres donnes aussi il faudrait parfois considrer la statistique comme une science exprimentale [31] . Dans lexemple choisi, on a dcoup chaque variable-matire en trois classes damplitudes gales. On a 19 3 = 57 variables nouvelles issues des 19 variables dorigine. Ainsi par exemple, pour la variable STAT, on aura les trois modalits STA1, STA2, et STA3. Le tableau disjonctif complet kIJ associ au dcoupage prcdent est donc un tableau 25 57. Cependant, on sait que lACM est trs sensible aux modalits rares qui peuvent perturber lanalyse (i.e rendre instable les axes) et relguer sur des axes ultrieurs des phnomnes plus intressants. On peut donc provisoirement abandonner ces modalits et par la suite les positionner en lments supplmentaires [ 49] . Fort de ce qui prcde, six variables seront positionnes en lments supplmentaires. Ce sont : PROB, ANGL, HIST, SPOR, APPG et MOYG. Le tableau des variables actives est donc de dimension 25 39 et celui des variables supplmentaires de dimension 25 18. 6.4.5.2. Valeurs propres En ACM chaque valeur propre est infrieure ou gale 1 et leur somme est gale linertie totale du nuage, soit : (CardJ CardQ ) / CardQ = (39 13) /13 = 2 dans notre exemple. Dans ces conditions, aucune valeur propre ne peut reprsenter plus que 100/inertie totale, soit : 100 CardQ /(CardJ CardQ )
53
LES VALEURS PROPRES

NUM ! VAL PROPRE !
VAL (1) = 1.00000

CUMUL ! VARIAT. !
POURC !
HISTOGRAMME DES VALEURS PROPRES !
2! 3! 4! 5! 6! 7! 8! 9! 10 ! 11 ! 12 ! 13 ! 14 ! 15 ! 16 ! 17 ! 18 ! 19 ! 20 ! 21 ! 22 ! 23 ! 24 ! 25 ! 26 ! 27 ! 28 ! 29 ! 30 ! 31 ! 32 ! 33 ! 34 ! 35 ! 36 ! 37 ! 38 ! 39 ! 2
.26448 ! .23987 ! .21365 ! .17759 ! .16227 ! .14655 ! .13548 ! .12249 ! .08959 ! .07595 ! .06882 ! .06724 ! .05017 ! .04701 ! .03601 ! .03142 ! .01971 ! .01881 ! .01462 ! .00950 ! .00530 ! .00309 ! .00040 ! .00000 ! .00000 ! .00000 ! .00000 ! .00000 ! .00000 ! .00000 ! .00000 ! .00000 ! .00000 ! .00000 ! .00000 ! .00000 ! .00000 ! .00000 !
13.224 ! 11.994 ! 10.683 ! 8.880 ! 8.113 ! 7.327 ! 6.774 ! 6.124 ! 4.479 ! 3.797 ! 3.441 ! 3.362 ! 2.509 ! 2.351 ! 1.801 ! 1.571 ! .985 ! .940 ! .731 ! .475 ! .265 ! .155 ! .020 ! .000 ! .000 ! .000 ! .000 ! .000 ! .000 ! .000 ! .000 ! .000 ! .000 ! .000 ! .000 ! .000 ! .000 ! .000 !
13.224 ! 25.218 ! 35.900 ! 44.780 ! 52.893 ! 60.220 ! 66.994 ! 73.119 ! 77.598 ! 81.395 ! 84.836 ! 88.198 ! 90.707 ! 93.057 ! 94.858 ! 96.429 ! 97.414 ! 98.355 ! 99.086 ! 99.560 ! 99.825 ! 99.980 ! 100.000 ! 100.000 ! 100.000 ! 100.000 ! 100.000 ! 100.000 ! 100.000 ! 100.000 ! 100.000 ! 100.000 ! 100.000 ! 100.000 ! 100.000 ! 100.000 ! 100.000 ! 100.000 !
******* ! * !
1.230 ! * ! 1.311 ! * ! 1.803 ! * ! .766 ! * ! .786 ! * ! .553 ! * ! .650 ! * ! 1.645 ! * ! .682 ! * ! .356 ! * ! .079 ! * ! .854 ! * ! .158 ! * ! .550 ! * ! .229 ! * ! .586 ! * ! .045 ! * ! .209 ! * ! .256 ! * ! .210 ! * ! .110 ! * ! .135 ! * ! .020 ! * ! .000 ! * ! .000 ! * ! .000 ! * ! .000 ! * ! .000 ! * ! .000 ! * ! .000 ! * ! .000 ! * ! .000 ! * ! .000 ! * ! .000 ! * ! .000 ! * ! .000 ! * ! .000 ! * !
*************** ! ************** ! *************** *************** *************** *************** *************** ************** ********** ********* ******** ******** ****** ***** **** **** ** ** ** * *
! *********** ! ***** ! *** ! ** !
*************** ! *********
Tableau 12 : Histogramme des valeurs propres de lACM
54
On peut dire que les valeurs propres issues dune ACM sont donc un peu particulires et difficilement interprtables (taux dinertie faibles). Elles donnent une ide trs pessimiste de linformation extraite [ 43] . 6.4.5.3 Tableaux des facteurs sur I et sur J Les coordonnes factorielles des points i de N ( I ) et j de N ( J ) sont donnes par les mmes formules que celles de lAFC ainsi que les rsultats numriques et les paramtres associs. Cependant on peut faire constater les rsultats suivants dans le tableau des facteurs sur J : - toutes les questions ont le mme poids soit 1/13=0.077 (77 en millime) ; la somme des poids des modalits dune mme variable vaut donc (en millime) 77 ; - les questions ayant le mme nombre de modalits CardJ q = 3 , les contributions linertie de toutes les questions sont gales : CTR (q ) = (CardJ q 1) / CardQ = 2 /13 = 0.154
! 1! 2! 3! 4! 5! 6! 7! 8! 9! 10! 11! 12! 13! I1 ABDO BANZ BATA ! BOUK ! BOYE ! GOYI LIK1 LIK2 LOUZ MAKI ! ! ! ! ! ! ! ! QLT 734 393 42 425 344 39 813 310 233 118 433 406 376 445 113 77 224 165 348 503 813 135 473 269 375 POID 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 INR ! 56 ! 31 ! 31 ! 53 ! 29 ! 40 ! 38 ! 41 ! 37 ! 37 ! 39 ! 43 ! 46 ! 38 ! 37 ! 34 ! 35 ! 39 ! 42 ! 42 ! 38 ! 41 ! 57 ! 35 ! 42 ! 1000 ! 1#F -602 512 -172 543 324 13 -1097 771 355 -214 699 59 80 705 -47 -289 186 505 -852 48 -1097 57 -271 -415 199 COR 130 169 19 111 72 0 628 287 69 24 253 2 3 263 1 50 20 130 346 1 628 2 26 100 19 CTR! 55 ! 40 ! 4! 45 ! 16 ! 0! 182 ! 90 ! 19 ! 7! 74 ! 1! 1! 75 ! 0! 13 ! 5! 39 ! 110 ! 0! 182 ! 0! 11 ! 26 ! 6! 1000 ! 2#F 649 -318 -164 757 -587 15 -412 195 -543 414 -239 -615 -713 -515 316 -175 355 -177 63 710 -412 336 849 -539 747 COR 151 65 18 215 236 0 88 18 160 92 30 177 222 140 54 18 72 16 2 242 88 56 253 168 265 CTR! 70 ! 17 ! 5! 96 ! 57 ! 0! 28 ! 6! 49 ! 29 ! 10 ! 63 ! 85 ! 44 ! 17 ! 5! 21 ! 5! 1! 84 ! 28 ! 19 ! 120 ! 48 ! 93 ! 1000 ! 3#F -1127 496 -88 511 231 282 429 -99 83 -64 -540 -696 -588 -280 326 119 482 195 -1 735 429 396 -744 -50 -437 COR 454 159 5 98 36 39 96 5 4 2 151 227 151 42 58 8 132 19 0 260 96 77 194 1 91 CTR! 238 ! 46 ! 1! 49 ! 10 ! 15 ! 34 ! 2! 1! 1! 55 ! 91 ! 65 ! 15 ! 20 ! 3! 43 ! 7! 0! 101 ! 34 ! 29 ! 104 ! 0! 36 ! 1000 !
MALO ! MAMP ! MATO !
14 ! MBIK ! 15 ! MPOU ! 16 ! NGUI ! 17! 18! 19! 20! 21! 22! 23! 24! NKOK ! NSEM ! NSON ! NZAK ! ONDZ ! SAFO ! SAM1 ! SAM2 ! !
25 ! TSIB
Linertie dune question INR (q ) la question q ramene linertie totale vaut donc :
INR ( q ) = CTR ( jq ) /inertie totale = 0,154/2=0,077 (77 en millime). La somme des inerties
des modalits dune mme variable vaut (en millime) 77.
55
J1
QLT
POID
INR !
1#F
COR
CTR !
2#F
COR
CTR !
3#F
COR
CTR !
1 ! STA1 ! 2 ! STA2 ! 3 ! STA3 ! 4 ! MST1 ! 5 ! MST2 ! 6 ! MST3 ! 7 ! STS1 8 ! STS2 9 ! STS3 ! ! !
388 493 80 777 561 516 426 555 547 453 386 622 243 107 297 158 416 122 190 65 469 264 282 68 335 475 103 372 265 455 500 384 485 455 627 504 202 277 25
34 25 18 40 15 22 34 25 18 34 37 6 28 28 22 28 31 18 34 31 12 43 22 12 28 25 25 28 34 15 28 31 18 28 28 22 31 22 25
22 ! 26 ! 29 ! 18 ! 31 ! 28 ! 22 ! 26 ! 29 ! 22 ! 20 ! 35 ! 25 ! 25 ! 28 ! 25 ! 23 ! 29 ! 22 ! 23 ! 32 ! 17 ! 28 ! 32 ! 25 ! 26 ! 26 ! 25 ! 22 ! 31 ! 25 ! 23 ! 29 ! 25 ! 25 ! 28 ! 23 ! 28 ! 26 ! 1000 !
553 -856 129 470 -69 -824 516 -1002 391 -62 199 -849 -118 406 -371 368 -700 615 -331 131 582 -303 288 555 -410 780 -318 630 -82 -954 -735 187 790 -884 727 202 334 -303 -152
240 345 5 240 1 264 209 472 48 3 36 63 8 93 53 76 327 120 86 11 65 116 32 59 95 286 48 223 5 228 304 23 197 440 297 16 74 36 11
39 ! 68 ! 1! 33 ! 0! 55 ! 34 ! 93 ! 11 ! 0! 6! 17 ! 1! 17 ! 11 ! 14 ! 57 ! 26 ! 14 ! 2! 16 ! 15 ! 7! 14 ! 18 ! 57 ! 9! 42 ! 1! 53 ! 57 ! 4! 44 ! 82 ! 55 ! 3! 13 ! 7! 2! 1000 !
-213 -71 485 -687 1355 308 220 -309 9 -749 432 1530 -355 156 256 379 -351 18 187 281 -1218 -204 442 -60 -646 599 128 -502 280 288 -532 172 512 -39 -713 967 -433 788 -148
36 2 74 511 459 37 38 45 0 441 172 204 71 14 26 81 82 0 27 53 282 53 76 1 235 169 8 142 62 21 159 20 83 1 286 363 125 241 10
6! 1! 18 ! 79 ! 118 ! 9! 7! 10 ! 0! 79 ! 29 ! 60 ! 15 ! 3! 6! 17 ! 16 ! 0! 5! 10 ! 76 ! 7! 18 ! 0! 48 ! 37 ! 2! 29 ! 11 ! 5! 33 ! 4! 20 ! 0! 59 ! 84 ! 24 ! 56 ! 2! 1000 !
378 -556 48 -156 -636 744 478 285 -1257 -111 439 -2023 540 42 -749 54 -100 85 312 -23 -801 273 -669 216 97 208 -317 108 -502 910 257 -715 806 -162 -279 567 -67 -4 87
112 145 1 26 101 215 180 38 499 10 178 356 164 1 218 2 7 2 77 0 122 95 174 9 5 20 47 7 198 207 37 341 205 15 44 125 3 0 4
23 ! 36 ! 0! 5! 29 ! 56 ! 36 ! 9! 137 ! 2! 33 ! 118 ! 38 ! 0! 57 ! 0! 1! 1! 15 ! 0! 37 ! 15 ! 45 ! 3! 1! 5! 12 ! 2! 40 ! 60 ! 9! 74 ! 56 ! 3! 10 ! 32 ! 1! 0! 1! 1000 !
10! STE1 ! 11! STE2 ! 12! STE3 ! 13! MAT1 ! 14! MAT2 ! 15! MAT3 ! 16! ECO1 ! 17! ECO2 ! 18! ECO3 ! 19! DEM1 ! 20! DEM2 ! 21! DEM3 ! 22! INF1 ! 23! INF2 ! 24! INF3 ! 25! GEO1 ! 26! GEO2 ! 27! GEO3 ! 28! COE1 ! 29! COE2 ! 30! COE3 ! 31! CON1 ! 32! CON2 ! 33! CON3 ! 34! TEX1 ! 35! TEX2 ! 36! TEX3 ! 37! STG1 ! 38! STG2 ! 39! STG3 !
Tableau 14 : Facteurs sur J
56
6.4.5.4- Reprsentation graphique Essayons dinterprter le plan (1,3). Essayer parce que lintrt dune telle tude est relativement limite. Parce que aussi ces mthodes ont t conues pour lanalyse de trs grands tableaux. En soumettant ce tableau (vu son format) une analyse de correspondances multiples, nous avons voulu avant tout, favoriser le ct pdagogique. La spcificit ici, contrairement aux mthodes prcdentes, rside dans le fait que ltude ne porte plus sur les variables elles-mmes, mais sur les modalits de ces variables. On ralise une analyse par niveaux de variable, plus pousse que celles des variables initiales. Laxe 1 (graphique 8) : les variables les plus contributives la formation de cet axe sont GEO2, TEX2, STS2, TEX1, STA2, ECON2 et CON1. Cet axe est donc essentiellement domin par les modalits 2 et 1 de ces variables. Du ct positif de laxe on trouve des variables GEO2 et TEX2 ; du ct ngatif, les variables STS2, TEX1, STA2, ECO2 et CON1. On peut dire que laxe 1 oppose entre elles les variables dont les modalits ont des valeurs moyennes (modalits 2). En ce qui concerne les individus, laxe 1 oppose les individus MBIK, LIK2, BOUK et NSEM aux individus LIK1, ONDZ, NSON et ABDO. Si on raisonne en termes de groupe dindividus, on trouve du ct positif de laxe, les tudiants ayant un niveau moyen en culture gnrale (GEO2, TEX2) et du ct ngatif, les tudiants moyens dans certaines disciplines comme la statistique et lconomie et ayant obtenu des mauvais rsultats dans dautres matires telles que la comptabilit ou les techniques dexpression. Laxe 3 est domin par les valeurs leves des modalits de certaines variables. Ce sont, du ct positif de laxe MST3, CON3 et COE3 et du ct ngatif STS3, STE3 et MAT3. Lopposition de ces variables sur cet axe constitue le trait dominant. On peut, comme pour laxe 1, tirer les conclusions similaires en ce qui concerne les individus ou groupe dindividus. Bien que ne participant pas la formation des axes, on peut utilement interprter les diffrentes positions des variables supplmentaires sur les axes (comme les positions respectives de MOY3 et APG3 sur laxe 1). Enfin, signalons que pour rendre linterprtation plus facile, il est conseill de joindre par un trait les modalits successives dune mme variable. Cela est trs important surtout lorsque les modalits des variables sont assez nombreuses (cas des enqutes).
57
Graphique 8 : Reprsentation des individus et des variables dans lespace factoriel (1,3)
58
7. La classification ascendante hirarchique

7.1. Principes gnraux
Disons demble quune classification nest jamais unique. Elle dpend des objets classer, et de la mthode pratique de classification utilise. On ne prsente dans ce cahier quune mthode de classification, parce que la plus connue et la plus prouve : la classification ascendante hirarchique (CAH). Dfinissons au pralable quelques notions.
7.1.1. Partition et hirarchie

Le terme de classification sert dsigner soit une partition soit une hirarchie. On obtient une partition si lon partage un ensemble I en un systme de classes non vides, de telle sorte que tout individu i appartienne une classe et une seule. Si lensemble I est divis en un nombre fini de classes, dont chacune est divise en un nombre fini de classes, etc., on parle alors dune hirarchie de classes embotes. Lexemple de classification hirarchique le plus connu et sans doute le plus cit est celui fourni par les sciences naturelles : les tres vivants sont partags en deux rgnes : le rgne animal et le rgne vgtal ; chacun de ces deux rgnes est lui-mme subdivis. Par exemple, parmi les animaux, on distingue : vertbrs, invertbrs ; puis parmi les vertbrs : mammifres, oiseaux, reptiles, batraciens et poissons [5] .
7.1.2. Classification ascendante et classification descendante

La construction dune hirarchie de classes peut se faire de deux faons : pour la premire, partir de la base en formant des paires dobjets qui se ressemblent beaucoup ; puis on adjoint une paire un troisime objet ou une autre paire ; ainsi, se construisent progressivement des classes de plus en plus grandes mais de moins en moins homognes. Ce mode de construction sappelle la classification ascendante hirarchique. Pour la seconde, on part du tout quon scinde en deux classes ; nouveau on scinde chacune de celles-ci en deux et ainsi de suite jusquaux lments composant cet ensemble. Ce procd est appel classification descendante hirarchique.
7.1.3- Construction dune classification ascendante hirarchique.

Supposons que les individus classer soient au nombre de 5. Cest--dire que
I ={1,2,3,4,5}. On construit la classification ascendante hirarchique (CAH), partir dun
ensemble J , selon le processus suivant : - on calcule les distances entre les individus pris deux deux. - on choisit un critre qui permet dagrger les diffrents lments pour former des classes.
59
Aprs avoir dfini la distance et le critre dagrgation, le processus se poursuit selon les tapes suivantes (voir schma ci-dessous) : - on cherche les deux lments de I les plus proches. Sur la figure, ce sont par exemple les lments (4) et (2) que lon agrge en un seul lment not (6). Cet nouvel lment est appel nud. Il est dfini par ses deux successeurs : lan et le benjamin (lments (4) et (2)), son poids (nombre dlments) et son indice de niveau (ici le nombre v6 ) qui nest autre que la distance entre les lments ((4) et (2)). - selon le mme critre dagrgation choisi, on calcule les distances entre le nouvel lment (ici (6)) et les lments restants. On se retrouve dans les conditions de ltape prcdente, mais cette fois-ci, avec 4 lments seulement classer. - on renouvelle le processus jusqu ce quil ny ait plus quun seul lment (lment (9)). niveau
V9 V8 (8)
(9)
V7 (6) V6 0 (4) (2) (1) (5)
(7)
(3)
Par rapport lexemple ci-dessus mentionn on peut faire le rcapitulatif suivant :

I = {1, 2, 3, 4, 5} est lensemble des lments sur lesquels est difi la classification ; N = {6, 7,8, 9} est lensemble des nuds, ou des classes construites ; ce sont :
6 = {4, 2} ; 7 = {5,3} ; 9 = {1, 2, 3, 4, 5}
Si lon note respectivement par A( n) et B ( n) lan et le benjamin on a :

A(9) = 8 ; A(8) = 6 ; A(7) = 5 ; A(6) = 4 B (9) = 7 ; B (8) = 1 ; B (7) = 3 ; B (6) = 2
Lensemble des classes terminales de la classification est lensemble de ses lments minimaux (composs de classes rduites un lment) : T = {(1), (2), (3), (4), (5)} . Les lments terminaux sont numrots de 1 CardI 1 . Les nuds de la classification sont numrots de CardI + 1 2CardI 1 .
60
7.1.3. Critres dagrgation

La construction de la CAH dpend de la formule choisie pour le critre dagrgation, ce qui revient dfinir une distance entre classes. On expose ici quatre critres classiques, en insistant sur lun dentre eux : le critre de linertie que lon adoptera dans la suite. i)- Le critre du saut minimum (dsaut)) : entre les ensembles de points q et q ' dsaut( q, q ' ) est la distance minima entre un point de q et un point de q . Le critre du saut minimum consiste donc choisir la plus petite des distances qui permet de passer dune classe une autre. ii)- Le critre du diamtre (ddiam) : ddiam( q, q ' ) est la distance maxima entre un point de q et un point de q ' . On prend pour distance entre les classes, la plus grande de toutes les distances. iii)- Le critre de la distance moyenne (dmoy) : dmoy( q, q ' ) est la moyenne des distances entre un point de q et un point de q ' . Ce critre apparat comme un compromis des deux critres prcdents. iv)- Le critre selon la variance (ou critre de linertie) : pour le calcul de ce critre, on suppose que lensemble I est considr comme un nuage de points munis de masse dans un espace euclidien. Cest justement le cas de lexemple trait dans ce cahier o les tudiants sont reprs en fonction du profil de leurs notes. Ce tableau peut donc tre considr comme un tableau de contingence ou comme un tableau de mesures). Soit I un ensemble fini ; N J ( I ) le nuage des lments i de I et affects de masse mi . On rappelle quune inertie est le produit dune masse par le carr dune distance.
I n ( N J ( I )) = {I n ( I ) i I }
Linertie du nuage N J ( I ) scrit :
= {mi 2 ( I ) i I }
o 2 (i ) = d 2 (i, G ) mesure le carr de la distance au centre de gravit G du point i . Soit q une partie de I , on notera par mi sa masse totale, et G ou simplement q son centre de gravit. - Linertie dune classe q scrit :
I n (q) = {mi d 2 (i, q) i q} ;

et linertie d une partition Q de I sera gale :
I n (Q) = {I n (q) q Q}
= {mq d 2 (q, G ) q Q} ; mq = {mi i q}
A toute partition de I en un ensemble Q de classes q correspondant une dcomposition de linertie du nuage N J ( I ) en inertie interclasses et inerties intra-classes suivant la formule (relation de Huygens) :
61
I n ( N J ( I )) = I n (Q) + {I n (q) q Q}
Linertie intra-classe est dautant plus faible que les classes obtenues sont plus compactes ; et linertie interclasse est dautant plus leve que les classes de la partition sont bien spares. En dautres termes, linertie intra-classe est une bonne mesure de lhomognit dune classe, de mme linertie interclasse est une bonne mesure de la diffrence entre les classes. Soient maintenant deux classes a et b de Qn 1 respectivement de masse ma et mb que lon agrge en une seule classe n de Qn de masse ma + mb . Le critre qui conduit aux choix de a et b est celui qui rend minimum la perte dinertie ralise en passant de
Qn 1 Qn :
(n) = [ I n (Qn 1 ) I n (Qn )] minimum.

Ce qui quivaut maximiser linertie de la partition Qn (ou encore maximiser le moment centr dordre 2 de la partition). A chaque pas, on minimise linertie intra-classe de la partition construite. La quantit ( n) est galement appele indice de niveau (cf. 7.1.3). m .m ( n) = a b d 2 ( a, b) ma + mb Linertie totale de la classe n peut selon la relation de Huygens tre dcompose en inertie des deux classes a et b dont la runion est n et (n) , terme proportionnel au carr de la distance entre an et benjamin du nud n :
I n = I a + I b + ( n)
Les (n) fournissent la dcomposition totale du nuage. On a :
{ (n) n N} = I
( N J ( I )).
7.2. Interprtation dune classification ascendante hirarchique.

7.2.1. Le tableau des donnes
Comme au 6.3.1, on considre le tableau 1 comme un tableau de correspondance et on dsire difier une CAH sur lensemble I des tudiants. On rappelle quelques formules du 6.2.1 : - la masse de llment i de I : mi = f i = ki / k ; - la distance de chi-2 entre profils :
d 2 (i, i ' ) = {1/ f j ( f ji f ji ) 2 j J }
'
- linertie de llment i :
I n (i) = fi {1/ f j ( f ji f j )2 j J }
- la masse de la classe q :
f q = { fi i q}
- le profil de la classe q :
62
f jq =
fq j fq
ij
iq
fq
- linertie du centre de gravit de la classe q par rapport au centre de gravit du nuage :
I n (q) = f q 2 (q) ; avec 2 (q) = {1/ f j ( f jq f j ) 2 j J }

- lindice de niveau du nud n : f f (n) = a b d 2 (a, b) = {1/ f j ( f ja f jb ) 2 j J } f a + fb
7.2.2- Histogramme des indices de niveau de la hirarchie

Chaque ligne donne successivement : le numro j du nud, lindice de niveau I ( J ) , exprim en millime, les numros de lAn A( J ) et du Benjamin B ( J ) , le taux dinertie
T ( J ) affrent au nud qui est le rapport de linertie du nud I ( J ) , linertie totale du
nuage (exprim en millime) et le taux dinertie cumul T (Q ) .

SOMME DES INDICES DE NIVEAU .29124 E-01 ! J! ! 49 ! ! 48 ! ! 47 ! ! 46 ! ! 45 ! ! 44 ! ! 43 ! ! 42 ! ! 41 ! ! 40 ! ! 39 ! ! 38 ! ! 37 ! ! 36 ! ! 35 ! ! 34 ! ! 33 ! ! 32 ! ! 31 ! ! 30 ! ! 29 ! ! 28 ! ! 27 ! ! 26 ! I(J) ! 4! 3! 3! 2! 2! 2! 2! 1! 1! 1! 1! 1! 1! 1! 1! 1! 1! 1! 1! 0! 0! 0! 0! 0! A(J)! B(J)! T(J) ! T(Q) ! HISTOGRAMME DES INDICES DE NIVEAU 46 ! 32 ! 42 ! 26 ! 40 ! 31 ! 20 ! 37 ! 38 ! 36 ! 13 ! 29 ! 5! 28 ! 2! 24 ! 18 ! 9! 11 ! 8! 22 ! 10 ! 15 ! 21 ! 48 ! 47 ! 45 ! 43 ! 44 ! 39 ! 41 ! 34 ! 33 ! 27 ! 35 ! 19 ! 16 ! 25 ! 30 ! 23 ! 4! 14 ! 12 ! 1! 17 ! 3! 6! 7! 150 ! 118 ! 86 ! 79 ! 72 ! 56 ! 52 ! 43 ! 42 ! 39 ! 31 ! 28 ! 24 ! 24 ! 23 ! 23 ! 20 ! 19 ! 19 ! 16 ! 13 ! 12 ! 12 ! 0! 150 ! ****************************************** 268 ! ********************************* 354 ! ************************ 433 ! ********************** 505 ! ******************** 560 ! **************** 612 ! *************** 655 ! ************ 697 ! ************ 736 ! *********** 767 ! ********* 795 ! ******** 819 ! ******* 843 ! ******* 866 ! ******* 889 ! ******* 909 ! ***** 928 ! ***** 947 ! ***** 963 ! **** 976 ! **** 988 ! *** 1000 ! *** 1000 ! *
Tableau 15 : Histogramme des indices de niveau
63
Avec le critre de linertie adopte, la somme des indices de niveau est gale linertie totale du nuage des individus.
! J! I(J) ! 4 ! A(J)! B(J)! P(J) ! 46 ! 32 ! 48 ! 47 ! 25 ! 17 ! LOUZ MPOU ! 47 ! 3 ! 42 ! 45 ! 15 ! BOYE MALO ! 46 ! ! 45 ! 2 ! 2 ! 26 ! 40 ! 43 ! 44 ! 8! 11 ! ONDZ MAKI LIK2 ! 44 ! ! 43 ! ! 42 ! ! 41 ! ! 40 ! ! 39 ! ! 38 ! ! 37 ! ! 36 ! ! 35 ! ! 34 ! ! 33 ! ! 32 ! ! 31 ! ! 30 ! ! 29 ! ! 28 ! ! 27 ! ! 26 ! 2 ! 2 ! 1 ! 1 ! 1 ! 1! 1 ! 1 ! 1 ! 1 ! 1 ! 1 ! 1 ! 1 ! 0 ! 0 ! 0 ! 0 ! 0 ! 31 ! 20 ! 37 ! 38 ! 36 ! 13 ! 29 ! 5! 28 ! 2! 24 ! 18 ! 9! 11 ! 8! 22 ! 10 ! 15 ! 21 ! 39 ! 41 ! 34 ! 33 ! 27 ! 35 ! 19 ! 16 ! 25 ! 30 ! 23 ! 4! 14 ! 12 ! 1! 17 ! 3! 6 7 6! 6! 4! 5! 5! 4! 3! 2! 3! 3! 2! 2! 2! 2! 2! 2! 2! 2! 2! MALO NZAK BOYE SAFO MAKI MATO SAFO BOYE MAKI BANZ SAM2 NSEM LOUZ MALO LIK2 SAFO MAKI MPOU ONDZ MBIK GOYI NGUI MAMP LIK1 BATA ABDO MAMP SAFO NGUI NKOK BATA BANZ NKOK NGUI BATA LIK2 SAM1 BOUK MBIK MAMP ABDO NKOK BATA GOYI LIK1 TSIB ABDO MATO NKOK SAM2 NSON TSIB LIK2 NSON BANZ NSON SAM1 NSEM MPOU ABDO BOUK GOYI LIK2 NSEM ABDO BOUK BOYE MALO SAM2 MATO NZAK TSIB NGUI MAMP SAM1 BANZ SAFO MPOU SAM2 MATO MAKI LIK2 NKOK GOYI SAM1 BANZ BATA ABDO NSON MALO NSEM MAMP BOUK MATO BANZ MAKI LIK2 TSIB BATA ABDO MPOU GOYI TSIB DESCRIPTION DES CLASSES DE LA HIERARCHIE
! 49 ! ! 48 !
3 !
Tableau 16 : Description des classes de la hirarchie
64
Lhistogramme des indices de niveau est dit pour permettre lutilisateur de voir comment varient les indices de niveau, et dindiquer quel niveau on peut couper larbre de classification pour avoir une partition convenable (classes stables). Si la dcroissance est trs forte, ceci symbolise le fait quil nexiste que quelques sparations principales. Les niveaux les plus bas de la hirarchie peuvent tre considrs comme des intermdiaires de calcul comme cela se prsente pour les axes de lanalyse des correspondances. On prendra cependant soin dexaminer des sparations des niveaux faibles.
7.2.3- Le tableau du contenu des classes

On a construit CardI 1 classes, cest--dire 25-1=24 classes. Les classes de la hirarchie sont numrotes de 26 49. Chaque classe est dcrite par : son numro J , son indice de niveau I ( J ) , ses successeurs A( J ) et B ( J ) , le nombre de ses lments P ( J ) et la liste des lments de chaque classe. Ces lments sont rangs dans lordre o ils sont imprims en marge de larbre. Prenons par exemple la classe 40 ; on a dabord les trois individus de la classe 36 cest--dire A(40) = 36 (MAKI, BATA et TSIB), puis les deux lments de
B (40) = 27 (MPOU et GOYI).
7.2.4. Larbre de classification hirarchique

Du tableau du contenu des classes, on dduit larbre de classification (Graphique 9) qui, comme on la dj dit, dfinit un systme embot de classes. La lecture descendante de larbre, dans le sens inverse de sa construction, permet dexaminer les partitions comprenant peu de classes. Si on coupe larbre au niveau le plus lev, on obtient deux classes. En effet, en partant du sommet, le nud 49 se scinde en ses deux successeurs immdiats A(49) = 46 et B (49) = 48 . Si on coupe maintenant larbre lgrement au dessus du niveau du nud 48, on obtient une partition en trois classes. En coupant ensuite larbre entre les nuds 46 et 47, on obtient une partition en quatre classes. De toute vidence, ces classes, seront dautant plus nombreuses que la coupure de larbre sera proche des lments terminaux. Lexamen de larbre amne en fait le praticien privilgier certaines partitions, juges bonnes , et en rejeter dautres, juges mauvaises [60]. On retrouve ici, quelques exceptions prs, la typologie suggre par lanalyse factorielle des correspondances (cf. 6.3.4). Les deux approches sont donc complmentaires et nous allons maintenant examiner leur interprtation conjointe.
65
Graphique 9 : Reprsentation de classification hirarchique
66
7.2.5- Calcul de contributions

Larbre de classification tabli au 7.2.4 permet de distinguer les classes les unes des autres, mais ne permet pas de connatre comment ces classes se sont formes et comment elles se sparent. Les calculs des contributions sont effectus pour le savoir. Lobjectif de ces calculs est de prciser : - en quoi une classe q scarte du centre de gravit du nuage : cest ltude de lexcentricit des classes par rapport des axes. Cette tude des classes se fait soit par rapport des variables (axes initiaux des variables associs un tableau de donnes), soit par rapport des axes factoriels ; - en quoi diffrent les deux successeurs a ( n) et b( n) en lesquels se scinde la classe n . Comme prcdemment, cette tude sera ralise dabord dans lespace rapport au systme daxes factoriels, ensuite dans lespace rapport au systme des axes dfinis par les variables ; - les contributions mutuelles entre classes et facteurs. 7.2.5.1 Etude des classes par rapport des axes. Formulaire Soit kIJ , un tableau de correspondance. On a effectu sur ce tableau une analyse factorielle des correspondances et une classification ascendante hirarchique sur I . On a donc sur I , un ensemble de facteurs et un systme de classes. Soit q une partie de I et on note par
f q sa masse. Sur les axes de lanalyse factorielle des correspondances, on peut placer la
classe q ; q tant un barycentre de points i , on a : F (q) = { fi F (i ) / f q i q} , avec
f q = { fi i q}
Pour une classe q , on calcule : - le cosinus carr de langle form entre le rayon vecteur de la classe q et laxe :
2 COR ( q ) = Cos ( q ) = F2 ( q ) / 2 (q ) . Cest la contribution relative de laxe lexcentricit
de la classe q , (rho(q ) = 2 (q )) tant lexcentricit de la classe q par rapport au centre du nuage).
COR (q) #0 intervient peu dans lcart de q au centre du nuage. COR (q) #1 explique lcart de q au centre du nuage.
La somme des COR donne la qualit de la reprsentation de la classe q dans lespace des facteurs retenus :
COR = QLT
- la contribution relative de la classe q au facteur : CTR (q) = f q F2 ( ) / .
CTR est la contribution relative de la classe q linertie interclasse par rapport linertie
totale de laxe .
CTR (q) #0 q nexplique pas linertie de laxe ; 67
CTR (q) #1 nexplique pas linertie de laxe .

7.2.5.2. Etude des classes par rapport des axes. Exemple a) Etude des classes par rapport des axes factoriels Les deux tableaux relatifs aux classes, concernent pour lun, les cinq classes les plus hautes de la hirarchie (tableau 17) et pour lautre, les classes terminales de cette hirarchie restreinte (tableau 18). Cette tude des classes est faite par rapport des axes factoriels. On a extrait cinq facteurs ; seuls les deux premiers facteurs sont indiqus. Pour le premier tableau la premire ligne nest pas utilisable (sauf la colonne poids) puisque le 2 ( q ) est gal zro. Le poids total du nuage tant normalis 1, le centre du nuage 49 pour poids 1000/1000=1.
AXES FACTORIELS 1 A 2 (TOUTES LES VALEURS SONT MULTIPLIEES PAR 1000) CLASSE 49 48 47 46 45 AINE BNJMN ! 46 32 42 26 40 48 ! 47 ! 45 ! 43 ! 44 ! ! POIDS 1000 673 599 327 446 INR 0 49 47 101 42 QLT ! 0! 984 ! 945 ! 984 ! 548 ! ! F1 0 -29 -8 60 -21 COR CTR ! F 2 0 401 31 401 166 0! 71 ! 5! 146 ! 25 ! 248 ! 0 -29 -38 60 -17 COR 0 396 630 396 101 CTR 0 104 160 214 23 501
Tableau 17 : Facteurs pour les 5 classes les plus hautes de la hirarchie
Dans cette tude de la position des classes par rapport aux axes factoriels, on note que le premier facteur est moyennement corrl avec la classe 48 et 46 (0.401) ; le deuxime facteur est corrl avec la classe 47 (0.630). Pour le reste des lignes, linterprtation se base sur la dfinition des formules ci-dessus indiques comme en ACP ou en AFC.
AXES FACTORIELS 1 A 2 (TOUTES LES VALEURS SONT MULTIPLIEES PAR 1000) CLASSE 32 42 26 43 40 44 AINE LOUZ 37 ONDZ NZAK 36 31 BNJMN ! MBIK ! 34! LIK1! 41 ! 27 ! 39 ! ! POIDS 74 153 75 252 204 241 1000 INR 120 91 105 74 55 59 504 QLT! 892! 783! 982! 974! 791! 728! ! F1 -197 29 119 42 26 -62 COR 820 49 346 210 88 537 CTR! 357! 16! 132! 56! 18! 114! 693! F2 44 -100 124 41 -32 -4 COR 41 580 376 191 127 2 CTR 26 284 212 76 38 1 637
Tableau 18 : Facteurs pour les six classes de la partition.
68
En ce qui concerne le tableau 18, il faudra relever les spcificits suivantes : - pour les six classes de la partition, un individu appartient une classe et une seule ; dans ce cas, la somme des poids des diverses classes est gale au poids total du nuage : 1000/1000 ; - par contre, linertie relativement lorigine 0 du centre dune classe q nest pas la somme des inerties des points constituant la classe ; mais elle est gale cette somme diminu de linertie interne de la classe q . Voil pourquoi le total de la colonne INR est infrieur 1 ; ce total reprsente linertie interclasse de la partition retenue (ici exprim en millime) et linertie intra-classes, le complmentaire 1 de ce total. De faon analogue la somme des CTR sur un facteur donne la part dinertie interclasse linertie du facteur. b) Etude des classes par rapport des variables Dans cette deuxime analyse, on recherche quelles sont les variables responsables de la distance dune classe q au centre de gravit du nuage. On se place donc ici dans lespace des profils sur lensemble des CardJ variables : chaque variable j correspond un axe, la coordonne sur cet axe tant la composante du profil relative la variable j . Bien que le nombre de variables ne soient pas leves, les rsultats imprims sur le listage, occupe une importante surface de papier imprim. On a donc laiss au programme de ne retenir que les variables ayant les plus fortes contributions aux nuds suprieurs (tableau 19). Les coordonnes du centre de gravit du nuage sont celles de la ligne 49, aux colonnes STAS, MATH, GEOE, etc. (profil sur J de la ligne de marge du tableau kIJ ). On peut donc comparer les lignes suivantes : classes 48, 47, 46, et 45 (aux colonnes indiques) avec la ligne 49 pour savoir en quoi ces classes diffrent de la classe 49 (centre du nuage). On dira par exemple que la classe 46 scarte du centre pour un taux moyen en comptabilit dentreprise et un taux faible en techniques dexpression. On confirme ces rsultats en lisant la colonne COR . On fini par tablir une liste des variables responsables de lcartement dune classe au centre du nuage. Notons que si, toutes les variables avaient t retenues, nous aurions obtenu pour toutes les lignes, QLT = 1000 . Le fait de navoir retenu que quelques variables, cette valeur de la qualit de reprsentation est descendue au dessous de 1000 et ce, pour toutes les classes. On vrifie que les valeurs des colonnes POIDS et INR sont les mmes que dans le tableau 17. On peut faire diter les rsultats similaires pour les centres de gravit des six classes de la partition, dfinies partir des cinq nuds les plus hauts.
69
(TOUTES LES VALEURS SONT MULTIPLIEES PAR 1000, A LEXCEPTION DE RHO2 QUI EST MULTIPLIE PAR 10** (5)) CLASSE AINE 49 48 47 46 45 46 32 42 26 40 BNJM ! 48 ! 47 ! 45 ! 43 ! 44 ! ! ! CLASSE AINE BNJM ! 49 48 47 46 45 46 32 42 26 40 48 ! 47 ! 45 ! 43 ! 44 ! ! ! CLASSE 49 48 47 46 45 AINE BNJMN ! 46 32 42 26 40 48 ! 47 ! 45 ! 43 ! 44 ! ! ! POIDS 1000 673 599 327 446 INR QLT 0 49 47 101 42 0 817 788 817 783 POIDS INR QLT RHO2 ! 1000 673 599 327 446 0 49 47 101 42 0 817 788 817 783 0! 212 ! 230 ! 897 ! 274 ! ! ! RHO2 ! 0! 212 ! 230 ! 897 ! 274 ! ! ! TEXP COR 51 52 53 51 55 0 1 11 -1 77 POIDS INR QLT RHO2! 1000 673 599 327 446 0 49 47 101 42 0 817 788 817 783 0! 212! 230! 897! 274! ! ! GEOE COR 58 58 58 57 62 0 1 6 -1 131 STAS COR 64 66 70 58 71 0 54 227 -54 304 CTR! MATH 0! 34! 135! 69! 160! ! 398! CTR! 0! 1! 5! 2! 99 ! ! 106 ! CTR ! 0! 1! 11 ! 2! 65 ! ! 78 ! 86 COME 54 45 47 72 48 COR 0 -647 -401 647 -271 163 CTR 0 216 129 445 77 58 62 62 50 58 COR 0 115 143 -115 1 CTR 0 38 46 79 0
Tableau 19 : Etude des classes par rapport aux variables initiales (variables ayant les plus fortes contributions aux nuds suprieurs)
7.2.5.3 Etude des diples par rapport des axes. Formulaire. A chaque nud n dune classification, est associ un diple ( a ( n), b( n)) form par les centres de ses deux successeurs immdiats. Dans lespace rapport au systme daxes factoriels, on cherche prciser la situation des segments joignant a (n), b(n) dans les diples. On calcule : - la diffrence D (n) = F (a(n) b(n)) ; elle renseigne sur la position relative de a ( n) par rapport b( n) . - COD ( n) = ( F ( a ( n) F (b( n))) 2 / a (n) b( n)
2 = D (n) / a(n) b(n) 2 2
70
2 = Qn Dn (n) / (n)
avec : Qn = f a ( n ) f b ( n ) / f n
COD (n) est le cosinus carr de langle form par laxe et la droite joignant les centres
des classes a ( n) et b( n) : si COD (n) #1 explique en quasi totalit la sparation entre a ( n) et b( n) ; si COD (n) #0 nexplique pas la sparation entre a ( n) et b( n) - linertie du diple a ( n) b( n) sur laxe rapport linertie totale sur cet axe (ou contribution relative du nud laxe) :
2 CTD = Qn D ( n) /
si CTD (n) #1 la dispersion du nuage sur laxe est due exclusivement aux lments des classes a ( n) et b( n) . 7.2.5.4. Etude des diples par rapport des axes. Exemple a) Etude des diples par rapport des axes factoriels On donne dans le tableau 20 les rsultats de cette tude. On rappelle que cinq facteurs ont t extraits, deux seulement sont prsents. On constate que, seul le nud 48 a un COD assez fort (0.679) sur laxe 1. Sur laxe 1, la sparation entre A(48) = 32 et B (48) = 47 est donc assez nette. De plus, on a sur le plan (1,2) COD1 + COD2 = 0.679 + 0.129 = 0.808 (qualit de reprsentation) : le diple est assez proche du plan (1,2). Linertie totale du nuage sur laxe 1 est expliqu 29% ( CTD (48)=291) par la dichotomie entre les deux classes A(48) = 32 et B (48) = 47 formant la classe 48. En projection sur laxe 1, la partition de I en deux classes : 32 et 47 a une inertie interclasse de : 291 1 (et une inertie intra-classe de 709 1 ). On vrifie que le total de la colonne CTD du tableau 20 est gal celui de la colonne CTR du tableau 18 (classes de la partition). Il en est de mme pour le total de la colonne IND (total IND =total INR =504).
AXES FACTORIELS 1 A 2 (TOUTES LES VALEURS SONT PULTIPLIES PAR 1000) NUD 49 48 47 46 46 AINE 46 32 42 26 40 BNJMN ! 48 ! 47 ! 45 ! 43 ! 44 ! ! ! POIDS 1000 673 599 327 446 IND 150 118 86 79 72 QLD ! 984 ! 875 ! 580 ! 972 ! 880 ! ! ! D1 89 -188 51 76 88 COD 401 679 116 148 409 CTD ! 217 ! 291 ! 36 ! 42 ! 106 ! ! 693 ! 637 D2 89 82 -84 83 -28 COD 396 129 319 176 40 CTD 318 82 147 74 16
Tableau 20 : Etude des diples par rapport aux axes factoriels.
71
b) Etude des diples par rapport des variables ; Cette tude complte la prcdente. Elle permet de dterminer les variables responsables de la sparation des classes. Comme prcdemment, on a retenu que les variables ayant les plus fortes contributions aux nuds suprieurs de la hirarchie (tableau 21). On signale la prsence de la colonne D 2 AB : cest le carr de la distance entre les centres de classe
a ( n) et b( n) .
Pour linterprtation, on cherche reprer les valeurs leves de la colonne COD . Le diple (46,48) est expliqu par la variable COME (comptabilit dentreprise) ; le diple (32,47) est expliqu par STAS (Statistique de la sant) ; le diple (26,43) par MATH (mathmatiques) ; le reste des diples na pas dexplications particulires.
TOUTES LES VALEURS SONT MULTIPLIEES PAR 1000, A LEXCEPTION DE D2AB QUI EST MULTIPLIE PAR 10**(4) NUD 49 48 47 46 46 AINE 46 32 42 26 40 BNJMN ! 48 ! 47 ! 45 ! 43 ! 44 ! ! ! NUD 49 48 47 46 46 AINE BNJMN ! POIDS 46 32 42 26 40 48 ! 47 ! 45 ! 43 ! 44 ! ! ! NUD 49 48 47 46 46 AINE BNJMN! 46 32 42 26 40 48 ! 47 ! 45 ! 43 ! 44 ! ! ! POIDS 1000 673 599 327 446 1000 673 599 327 446 POIDS IND QLD D2AB! 1000 673 599 327 446 150 118 86 79 72 817 341 449 517 264 198 ! 522 ! 220 ! 395 ! 189 ! ! ! IND QLD D2AB! GEOE 150 118 86 79 72 817 341 449 517 264 198 ! 522 ! 220 ! 395 ! 189 ! ! ! IND QLD D2AB! TEXP 150 118 86 79 72 817 341 449 517 264 198 ! 522 ! 220 ! 395 ! 189 ! ! ! 254 -1 -8 -8 -5 7 COD 1 22 61 10 52 -1 -5 -14 -13 13 COD 1 7 162 69 164 STAS -8 -28 -6 16 -5 COD 54 231 25 106 22 CTD! 102 ! 344 ! 27 ! 105 ! 20 ! ! 598 ! CTD! 3! 16 ! 252 ! 97 ! 213 ! ! 581 ! CTD 2 53 106 16 76 740 COME 26 -14 -3 6 4 COD 647 71 7 20 15 410 CTD 661 57 4 10 8 MATH -11 -5 16 -27 -3 COD CTD 115 10 193 312 10 117 8 113 167 5
Tableau 21 : Etude des diples par rapport aux variables initiales.
72
(7.2.5.5 Contributions relatives mutuelles entre classes et facteurs
Notons par I n ( N J ( I )) ou par M 2 N J ( I ) linertie totale du nuage. On sait dj que :
I n ( N J ( I )) = M 2 ( N J ( I )) = { (n) n N }
=
{ A}
( N ensemble des nuds et A ensemble des facteurs)
M 2 ( N J ( I )) = { (n; ) A; n N }
avec
2 (n; ) = Qn D (n)
( n; ) est la contribution absolue mutuelle de n et .

On peut aussi noter que :
(n) = { (n; ) A}
On peut enfin calculer les contributions relatives mutuelles entre classes et facteurs. Cest le rapport :
= { (n; ) n N }
(n; ) / M 2 ( N J ( I ))
TABLEAU DES CONTRIBUTIONS RELATIVES MUTUELLES SUR LES FACTEURS 1 A 5 NUD 49 48 47 46 46 AINE BNJMN ! 46 32 42 26 40 48 ! 47 ! 45 ! 43 ! 44 ! Q(N) IND INCUM! 220 66 114 58 111 150 118 86 79 72 150 ! 268 ! 354 ! 433 ! 505 ! F1 60 80 10 12 29 F2 59 15 27 14 3 F3 20 2 0 34 3 F4 0 0 11 17 22 F5 8 6 2 0 6
Tableau 22 : Contributions mutuelles : tude des facteurs.
Dans le tableau 21, on a limit le nombre des variables dans ltude des diples. Cette tude est ici complte (tableau 23) par le tableau des contributions mutuelles relatives entre diples et variables. La dernire ligne donne pour chaque variable linertie relative de
M J2 ( I ) par rapport laxe .
Les tableaux 22 et 23 nappellent aucun commentaire particulier.
73
TABLEAU DES CONTRIBUTIONS MUTUELLES (TOUTES LES VALEURS SONT MULTIPLIEES PAR 10 **(4)) LA DERNIERE COLONNE DONNE LA PART DE LINERTIE DUNE VARIABLE A LINERTIE TOTALE. NUD 49 48 47 46 46 AINE BNJMN ! IN(N) STAT MSTA 46 32 42 26 40 48 ! 47 ! 45 ! 43 ! 44 ! ! ! NUD 49 48 47 46 46 AINE BNJMN! IN(N) 46 32 42 26 40 48 ! 47 ! 45 ! 43 ! 44 ! ! ! 297 554 1498 1182 860 785 719 336 INFO 35 16 2 58 12 270 1498 1182 860 785 719 0 71 74 19 4 81 2 3 70 7 STAS! 81 ! 273 ! 21 ! 83 ! 16 ! ! 794 ! 192 CON 69 23 30 111 19 708 1469 TEXP 1 26 53 8 38 498 257 ANGL 2 14 2 40 2 265 549 HIST 0 15 50 12 115 415 1754 STAG 2 24 0 30 3 176 STAE 26 10 3 17 0 MATH 172 11 166 245 7 PROB 0 5 91 8 18 ECON 2 72 1 6 84 DEMO 56 526 217 8 266
GEOE COME! 2 9 140 54 118 969 ! 84 ! 6! 15 ! 11 ! ! 1465 !
Tableau 23 : Contributions mutuelles : tude des variables.
7.2.6. Introduction des nuds de la classification dans le graphique de lanalyse factorielle.

Une synthse pratique des procdures factorielles et celles de classification, consiste situer les classes obtenues par la CAH sur lespace factoriel. Les coordonnes de ces classes sont les barycentres des lments qui la composent. Dans lespace factoriel on peut reprsenter, soit les fourches (le triplet n , a ( n) , b( n) issues des classes suprieures, soit encore les classes de la partition retenue (successeurs des classes suprieures). On a choisi ici de ne reprsenter que les classes suprieures, pour viter une trop grande densit de points dans lespace factoriel. On donne dans le tableau 3.12 les coordonnes des classes dans lespace factoriel de dimension 5. Lexamen de la position de ces classes par rapport aux facteurs permet daffiner linterprtation des axes factoriels.
74
AXES FACTORIELS 1 N N N N N N N N N N N N N N N N N N N N N N N N 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 119 -35 44 26 -43 -85 -196 16 -16 -37 69 77 18 -48 26 17 29 42 -61 -20 60 -7 -28 0 2 124 -30 -27 60 -13 -59 44 82 -115 0 -31 -83 31 26 -31 52 -99 41 -3 -16 60 -37 -28 0 3 67 67 8 -13 -7 -3 -7 -69 -42 -2 13 79 -38 16 35 -50 16 -63 9 21 -33 20 17 0 4 -75 78 62 7 -25 -47 12 63 -49 5 42 -22 -17 -5 56 15 -36 16 -19 15 -4 2 3 0 5 -16 -41 -15 -50 64 -47 -34 35 47 67 11 16 -51 69 -10 -16 32 -22 29 11 -21 16 11 0
Tableau 24 : Coordonnes des classes dans lespace factoriel x 1000
Le graphique 10 donne la reprsentation de lensemble des 25 tudiants, des cinq fourches principales extraites de la classification, dans lespace factoriel (1,2). On a reli par un segment de droite les nuds que la classification a agrgs ensemble. Bien que tous les nuds ne soient pas reprsents, on retrouve les mmes oppositions rencontres lors de lanalyse factorielle des correspondances.
75
AXE HORIZONTAL (1) AXE VERTICAL (2). Nombre de points : 35 Echelle : 4 caractre(s)= .021 1 ligne = .009
Nombre de points superposs : 3 LIK1(26) ONDZ(26) NGUI(BATA)
Graphique 10 : Reprsentation dans lespace factoriel (1,2) des fourches issues des classes suprieures.
76
Bibliographie
[1] Benzcri, J.-P., & Coll., (1980). Lanalyse des donnes, Tome 1: la
taxinomie, Dunod [2] Benzcri, J.-P., & Coll., (1980). Lanalyse des donnes, Tome 2 : lanalyse des correspondances, Dunod [3] Benzcri, J.-P., Benzcri F., (1980). Pratique de lanalyse des donnes, Tome 1 : Analyse des correspondances. Expos lmentaire, Dunod [4] Benzcri, J.P., Bastin, CH., Bougarit, CH., Cazes, P., (1980). Pratique de lanalyse des donnes, Tome 2 : Abrg thorique. Etudes de cas modles, Dunod [5] Benzcri, J.-P., & Coll., (1981). Pratique de lanalyse des donnes, Tome 3 : Linguistique et lexicologie, Dunod [6] Benzcri, J.-P., (1982). Histoire et prhistoire de lanalyse des donnes, Dunod [7] Benzcri, J.-P., & Coll., (1986). Pratique de lanalyse des donnes, Tome 5 : Economie, Dunod [8] Bertier, P., Bouroche, J.M., (1975)Analyse des donnes multidimensionnelle, PUF [9] Bouroche, J.M., (1977). Analyse des donnes en marketing, Masson [10] Bouroche, J.M., Saporta, G., (1980). lanalyse des donnes, Collection Que sais-je ? PUF. [11] Cailliez, F. Pages J.P., (1976). Introduction lanalyse des donnes, Smash. [12] Cazes, P., Lecoutre, J.P., (1977). Etude de quelques problmes de codage en analyse des correspondances, Cahiers du Bureau universitaire de recherche oprationnelle, n27 pp.49-66. [13] Cazes, P., (1980). Lanalyse de certains tableaux rectangulaires dcomposs en blocs : gnralisation des proprits rencontres dans ltude des correspondances multiples. II Questionnaire : variantes de codages et nouveaux calculs de contributions, Cahiers de lAnalyse des donnes, Vol 5 n4 pp. 387-403. [14] Cazes, P., (1982). Note sur les lments supplmentaires en analyse des correspondances : I Pratique et utilisation, Cahiers de lAnalyse des donnes, Vol 7 n1 pp. 9-23. II Tableaux multiples, Cahiers de lAnalyse des donnes, Vol 7 n2, pp.133-154. [15] [16] Cazes, P., (1983). R., Lanalyse des correspondances comments de multiples. statistique Application et ltude des questionnaires, Bulletin de lADDAD n12. Cehessat, (1976). Exercices informatique applique, Dunod
77
[17] Cibois, PH., (1987). Lanalyse factorielle, Collection Que sais-je ? Puf [18] [19] Celeux, Chandon, G., Diday, E; et S., Ali., (1989). Classification automatique Thories des et donnes. Environnement statistique et informatique, Dunod. J.L., Pinson, (1981). Analyse typologique. applications. Masson [20] CNRS., (1955). Lanalyse factorielle et ses applications. [21] Corroyer, D., (1991). DS3. Un logiciel pour le traitement informatique et statistique des donnes et son enseignement. Apetisd (68, av. de la Faisandrie. 91800 Brunoy). [22] Corroyer, D., Pierre-Puyesegur, M.A., (1992). Lanalyse statistique et informatique des tableaux de contingence, Apetisd [23] Dervin, C., (1990). Comment interprter les rsultats dune analyse factorielle des correspondances. ITCF. [24] Diday, E., Lemaire, J., Pouget, J., Testu, F., (1982). Elments danalyse de donnes, Dunod [25] Droesbeke, J-J., Tassi, PH., (1990). Histoire de la Statistique. Collection Que sais-je ? Puf [26] Ducimetiere, P., (1970). Les mthodes de la classification numrique. Revue de Statistique applique. Vol XVIII n4, pp.5-25. [27] Escofier-Cordier, B., (1965). Lanalyse factorielle des correspondances. Cahiers du Bureau universitaire de recherche oprationnelle, n13. [28] Escofier, B., Pages, J., (1988) Analyses factorielles simples et multiples. Objectifs, mthodes et interprtation, Dunod. [29] Escoufier, Y., (1978). Cours danalyse des donnes, Montpellier. [30] Evrard, Y., Lemaire, P., (1976) Information et dcision en marketing, Dalloz [31] Fenelon, J.P., (1981). Quest-ce que lanalyse des donnes ?, Lefonen. [32] Foucart, T., (1981). Analyse factorielle, programmation sur micro-ordinateurs, Masson [33] Foucart, T., (1984). Analyse factorielle de tableaux multiples, Masson [34] Gendre, F., (1976). Lanalyse statistique multivarie, Librairie Droz. [35] Gibrat, R., (1978). Lanalyse des donnes : Premire partie : Journal de la Socit de Statistique de Paris n3, pp.201-228. Deuxime partie : les sciences humaines : impasse, checs et succs. Journal de la Socit de statistique de Paris n4 pp.312-331. [36] Grelet, Y., Lebeaux, M.O., (1980). Lecture commente de sorties de programmes en analyse des donnes, Bulletin de lADDAD n11. [37] Jambu, M., (1978). Classification automatique pour lanalyse des donnes, Tome 1 : Mthodes et algorithmes, Dunod.
78
[38] Jambu, M., Lebeaux, M.O., (1978). Classification automatique pour lanalyse des donnes, Tome 2 : Logiciels [39] Jambu, M., (1989). Exploration informatique et statistique des donnes, Dunod. [40] LADDAD., Logiciel de lAssociation pour le Dveloppement et la Diffusion de lAnalyse des donnes. (ADDAD, 22 rue Charcot, Paris 75013) [41] Lebart, L., Fenelon, J.P., (1971). Statistique et informatique applique, Dunod [42] Lebart, L., (1975). Validit des rsultats en analyse des donnes, Rapport CREDOC-DGRST. [43] Lebart, L., Morineau, A., Tabard, N., (1977). Techniques de la description statistique. Mthodes et logiciels pour lanalyse de grands tableaux, Dunod [44] Lebart, L., Morineau, A., Fenelon, J.P., (1979). Traitement des donnes statistiques. Dunod [45] [46] [47] [48] Lebart, L., Salem, J., A., (1988). (1980). Analyse statistique aux analyse de des donnes textuelles, statistiques des donnes, de Dunod. Lefebvre, Lerman, Masson, I.C., M., Introduction et analyses ordinale traitement multidimensionnelles, Masson (1981). (1980). Classification Dunod. Mthodologies gnrales statistique linformation de masse, Cedic/Nathan. [49] Morineau, A., (1983). Lecture commente dune analyse de correspondances multiples suivie dune classification (Programme SPAD), Cisia. [50] Morlat, G., (1976) Prface de lintroduction lanalyse des donnes. Smash [51] Moscarola, J., (1990) Enqutes et analyse de donnes. Vuibert [52] Nakache, J.P., Chevalier, A., Morice, V., (1981). Exercices comments de mathmatiques pour lanalyse statistique des donnes, Dunod. [53] Pages, J.P., Cailliez, F., Escoufier, Y., (1979). Analyse factorielle : un peu dhistoire et de gomtrie. Revue de Statistique Applique, Vol XXVII, n1 pp. 5-28. [54] Philippeau, G., (1986). Comment interprter les rsultats dune analyse en composantes principales. ITCF. [55] Pontier, J., Dufour, A.B., Normand, M., (1990). Le modle euclidien en analyse des donnes, Ellipses. [56] Robert, C., (1989). Analyse descriptive multivarie. Application lintelligence artificielle, Flammarion.
79
[57]
Saporta,
G.,
(1990).
Probabilits
Analyse
des
Donnes
et
Statistiques.
Editions Technip. [58] STATPC., (1989). Logiciel de traitement statistique : mthodes graphiques et numriques (Bleuse-Trillon B. 10, rue Croix de Malte 45000 Orlans). [59] Torrens Ibern, J., (1972). Modles et mthodes de lanalyse factorielle, Dunod [60] Volle, M., (1981). Analyse des donnes. Economica.
80

BAMSIREPRINT04

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

BAMSIREPRINT04

Transféré par

Droits d'auteur :

Formats disponibles

BUREAU D'APPLICATION DES METHODES STATISTIQUES ET INFORMATIQUES

BAMSI REPRINT 04/2003

Introduction lanalyse des donnes

BAMSI REPRINT 04/2003

Introduction lanalyse des donnes(*)

TABLE DES MATIERES

3. Types de tableaux analysables

Le vecteur u est norme par la relation :

5. Analyse en composantes principales

5.2.1. Le tableau de donnes

On calcule : i)- La moyenne de la variable x j :

o mi est le poids affect lindividu i ; mi = ii)- La variance de la variable x j :

o j est lcart type de x j

iv)- Le coefficient de corrlation linaire entre deux variables x j et x j :

5.2.2. Analyse des points individus i de N J ( I ) dans R p

d 2 (i, i ' ) = ( X ij X i' j ) 2 j J

5.2.3. Analyse des points variables j de N I ( J ) dans R n

En tenant compte du fait que Var ( X j ) = Var ( X j ' ) = 1 et

X ij ' = rjj ' , On trouve que :

5.2.4- Relation entre les points de N J ( I ) et j de N I ( J )

5.2.5- Analyse des points supplmentaires

5.3. Interprtation de lAnalyse en Composantes Principales

Tableau.1 : Notes des tudiants

Ensemble I (des lignes)

5.3.2. Matrice de corrlations des variables

Tableau 2 : matrice de corrlation entre les variables

5.3.3. Vecteurs et valeurs propres de la matrice de corrlation

Tableau 3 : Les quatre premiers vecteurs et valeurs propres.

LES VALEURS PROPRES

VAL (1) = 3.07452

Tableau 4 : Histogramme des valeurs propres

5.3.4. Tableau des facteurs sur I

Tableau 5 : Facteurs sur I

5.3.5 Tableaux de facteurs sur J .

Tableau 6 : Facteurs sur J .

Tableau 7 : Facteurs sur J supplmentaires.

5.3.6. Reprsentations graphiques

Nombre de points superposs : 3 NSEM(LIK2) NSON(MAKI) SAFO(MPOU)

Graphique 1 : Reprsentation des points individus dans lespace factoriel (1,2).

Nombre de points superposs : 2 NSEM(LIK2) ONDZ(LIK2)

Graphique 2 : Reprsentation des points individus dans lespace factoriel (1,3).

Graphique 3 : Reprsentation des points variables dans lespace factoriel (1,2)

Nombre de points superposes: 1 MSTA (STAT)

Nombre de points superposs : 2 SAM1 (BOUK) NSON(MAKI)

6. Lanalyse factorielle des correspondances

6.2.1. Le tableau des donnes

k IJ = {kij i I , j J } , un tableau homogne de nombres sur le produit de ces deux

Divisons maintenant chaque valeur du tableau prcdent par k population).

f j = { fij i I } = k j / k est la frquence de la colonne j ; la ligne des f j est la ligne des

f Ji = { f ji j = 1,..., CardJ } , avec

conditionnelle du couple (i, j ) connaissant i .

6.2.2. Analyse des points i de N J ( I ) dans R p

On a donc pour tout i : f fi ( f ji f j ) f i ( ij f j ) = f ij fi f j fi do

tant donn que

ii)- La distance entre points de N J (i )

j2 une colonne js telle que :

f ji et par son poids fi .

v) Linertie du nuage N j ( I ) sera gale

entre deux points i et i ' vaut :

d 2 (i, i ' ) = ( f ji f j1/ 2 f ji f j1/ 2 )2 =

6.2.3. Analyse des points de N i ( J ) dans R n

N I ( J ) se dduit de lanalyse des points i de N J ( I ) par permutation des indices i et j et

6.2.4. Relations entre les points i de N J ( I ) et les points j de N I ( J )

: valeur commune de linertie associe chacun de ces axes.