Vous êtes sur la page 1sur 62

Prsentation thorique

Etude dun cas individuelle mini projet

Exemples dapplication

Le Programme

Analyse des donnes

Presentation intuitive

Presentation deux tudes AD

Analyse des donnes

Mthode danalyse factorielle

Mth class

Analyse Factorielle Des Correspondance AFC

Analyse discriminante

(analyse discriminante Barycentrique)

analyse canonique

Classification Ascendante Hirarchique CAH

Class Desc Hira C

1 - HISTORIQUE :
Les mthodes d'analyse des donnes ont t labores depuis les annes 30 : H. HOTELLING posait les fondements de l'analyse en composante principale et de l'analyse cononique. Jusqu'aux annes 60, ces mthodes restaient inabordables pour les praticiens car elles ncessitent une masse considrable de calculs. Le dveloppement des ordinateurs a permis la vulgarisation des techniques statistiques d'analyse des donnes. Une impulsion importante fut donne par J.P. BENZECRI au laboratoire de statistique mathmatique l'universit de Paris. - La statistique classique s'est axe sur l'tude d'un seul caractre ou variable mesure.

2 - CLASSIFICATION DES MTHODES D'ANALYSE DES DONNES :


On peut classer les techniques d'analyse des donnes suivant deux points de vue : - Technique mathmatique utilise. - But poursuivi. a) Les techniques d'analyse factorielle (linaire) qui se ramnent toujours raisonner dans un espace euclidien et diagonaliser une matrice carre. Ces techniques reposent sur l'algbre linaire et la gomtrie euclidienne. b) Les techniques de classification qui font apparatre des structures telles que des arbres ou des partitions partir de tableaux de distances. Ces techniques reposent sur la thorie des graphes et la combinatoire.

3 - DOMAINE D'APPLICATION :
a) les tableaux de contingence croisant l'ensemble des modalits du caractre qualitatif X avec l'ensemble J des modalits du caractre qualitatif Y

Taille en m Poids en kg
< 50 50-60 60-70 70-80 >80kgs

< 1,50
5 45 61 36 0

1,5-1,6 1,6-1,7 1,7-1,8 >1,8


6 69 54 93 5 10 78 54 25 6 21 23 65 39 8 6 64 32 95 7

Ou bien I ensemble de CSP catgories socioprofessionnelles J ensemble de causes de dcs

Les tableaux homognes de nombres positifs


b) Les tableaux homognes de nombres positifs o l'addition de deux lignes ou de deux colonnes a un sens. Exemple: I ensemble d'entreprises J ensemble de secteurs k(i,j) : chiffre d'affaire de l'entreprise i dans le secteur j. Additionner deux lignes revient regrouper deux entreprises Additionner deux colonnes revient regrouper deux secteurs. Au lieu du chiffre d'affaire, on peut prendre le nombre de salaris de l'entreprise i dans le secteur j.

c) tableaux de mensuration o I est un ensemble d'animaux et J un ensemble de mensurations k(i,j) = mensuration j pour l'animal i viter les redondances et les combinaisons linaires (ex mesure totale et intermdiaires).

d) Les tableaux de teneur o I est par exemple un ensemble de roches et J un ensemble d'lments majeurs et o k(i,j) dsigne la teneur de l'lment j dans la roche i on a alors : {k(i,j) /jJ} = 100 (1)

Les tableaux de courbe


e) Les tableaux de courbe ou encore de particules d'air) et J un ensemble de classes granulomtriques et o k(i;j) reprsente la fraction du sdiment, appartenant la classe granulomtrique j. C'est un tableau qui vrifie aussi la relation (1) et rentre comme les tableaux de teneur dans la classe des tableaux de pourcentage.

Les tableaux de courbes


Les tableaux de courbes, o I est un ensemble de courbes, J un ensemble d'abscisses (utilises pour discrtiser les courbes, si on a affaire a des courbes continues). Si on a un dcoupage de l'axe des abscisses avec un pas constant, k(i,j) est gal la coordonne de la courbe i correspondant l'abscisse j. Sinon aj dsignant l'abscisse associe j, il faut prendre pour k(i,j) la surface dlimite par la courbe et l'axe des abscisses.

exemples : - courbes de thermoluminescence d'une srie de quartz l'axe des x correspond des nergies ou des tempratures. L'axe des y correspond des nergies ou tempratures.

- tude de la courbe de charge de la

consommation lectrique
laxe des x correspond au temps de 0 heure 24 heures laxe des y correspond la puissance consomme

Les tableaux d'change industriel

tableau d'change interindustriels (TEI) ou tableau de Leontief ou tableau d'importation et d'exportation. Ces tableaux sont des tableaux carrs (I = J) en gnral non symtriques car k(j,j') est diffrent de k(j',j). Car lchange de j vers j est diffrent de j vers j. Pour tudier de tels tableaux, on fait l'AFC du tableau accol son transpos, de faon ce que dans le cas des importations exportations entre pays par exemple chaque pays soit caractris par ses importations d'une part et ses exportations d'autre part. Chaque pays serait alors dcrit par son ct importateur et son ct exportateur k(j,j') dsigne le montant des importations de j vers j' (gal au montant des exportations de j' vers j). Dans le cas de tableaux d'change interindustriel k(j,j') dsigne le montant des changes de j vers j'. Ce tableau est le meilleur indicateur du dveloppement d'un pays, bien plus prcis que le PIB

Les tableaux de notes


Les tableaux de notes o I est par exemple un ensemble d'tudiants, J un ensemble de matire k(i,j) tant la note de l'tudiant i dans la matire j Dans le cas d'une sociomatrice I = J est un ensemble d'lves d'une mme classe et k(i,j) est la note d'affinit ou de prfrences donne par l'tudiant i l'tudiant j.

Les tableaux de rangs


Les tableaux de rangs : Ce type de tableau peut tre considr comme un cas particulier d'un tableau de notes, o en reprenant le cas d'un tableau croisant un ensemble d'tudiants I avec un ensemble de matires J. k (i,j) dsigne le rang (et non plus la note) de l'tudiant i dans la matire j. Ce rang varie de 1 card. J.

Les tableaux 0 - 1
Les tableaux 0 - 1 I un ensemble de relevs, J un ensemble d'espces on a k(i,j) = 1 si l'espce j est prsente dans le relev i. = 0 sinon. On peut remplacer le 1 correspondant la prsence par un coefficient d'abondance donnant l'importance de l'espce j dans le relev i.

Les tableaux disjonctifs complets


Les tableaux disjonctifs complets Ce sont des tableaux de 0 et 1 particuliers o I est un ensemble d'individus ( ou d'observations ) et o J = U { Jq / q Q}, Jq , tant l'ensemble de modalits d'un caractre qualitatif Xq (q Q) et Q l'ensemble des caractres qualitatifs considrs avec "i I et " j Jq:k (i,j) = 1 si i a pris la modalit j de Jq = o sinon

Les tableaux de BURT et sous tableaux de BURT


Les tableaux de BURT et sous tableaux de BURT : On reste dans les notations prcdentes et l'on dsigne par K et K' deux parties de Q et on pose : L = U { Jq / q K} L' = U { Jq/q K'} Le sous tableau de BURT CLL' est alors dfini par CLL' (j,j') = nombre total d'individus ayant pris les modalits j pour Jq et j' pour Jq'. Si K = K' et donc L = L' on dit que CLL est le tableau de BURT associ aux variables Xq(q k)

TABLEAU DE CORRESPONDANCE NOTION DE PROFIL LES NUAGES N(I) ET N(J)

I - TABLEAU DE CORRESPONDANCE-NOTION DE PROFIL 1 - Les tableau des donnes Le tableau des donnes met en correspondance deux ensembles que l'on a coutume de noter I et J. Par exemple I est un ensemble de mots et J un ensemble de textes. Ex. le Coran trait par M. KHARCHAF I est l'ensemble de mots du Coran ( et J est l'ensemble des Sourates ou des Roubaates

On dsigne gnralement par I les lignes ou individus et par J les colonnes ou variables. la croise de la ligne i et de la colonne j on inscrit le nombre d'occurrences du vocable i dans la sourate j.

2) Les marges : Au tableau prcdent, on adjoint une ligne de marge dont le jme terme est la somme des nombres inscrits dans la jme colonne ; et une colonne de marge dont le ime terme est la somme des nombres inscrits dans la ime ligne.

3) Masse d'un lment de I ou de J masse de i fi = k(i)/k masse de j fj = k(j)/k La masse d'un lment i ou j mesure l'importance relative de cet lment.

lments supplmentaires
Certains lments de I ou de J peuvent perturber l'analyse pour plusieurs raisons : La ligne i ou la colonne j comporte des erreurs, ou encore elles ont une particularit par rapport aux autres. Pour voir se situer ces lments par rapport aux autres sans pour autant leur donner de part la constitution des axes on les met en "lment supplmentaire ". Ces lments supplmentaires figurent au tableau brut comme les autres lments, mais on les exclut des calculs des totaux de lignes et de colonnes, ainsi que de celui du total gnral. L'analyse est d'abord faite sans eux, en tenant compte exclusivement des autres lments de I et de J, dit lments principaux. Puis on les inserre dans les rsultats. Projection sur les plans factoriels. On peut dire que les lments supplmentaires interviennent avec une masse nulle.

) La notion de profil : On note pour chaque ligne i son total k(i) de mme pour chaque colonne j caractrise par son total k(j) et son profil

4) La notion de profil : On note pour cahque ligne i son total k(i) de mme pour chaque colonne j caractrise par son total k(j) et son profil k = k(i,j) i j

j / i I = k(ij) / i I fj = f i I k(j)

k = k(i,j) i j

fJ = fj = k(j ) , j J profil de J sur la ligne de marge


k

fI = fi = k(i)
k

, i I

profil de I sur la colonne des marges

Tous ces profils ont un total gal 1 Ex : {fij / j J } = { k(ij) / k(i) } = k(i) / k(i) = 1 j de mme fji = {k(i,j)/k(j) / i I} = (1 / k(j)) {k(i,j) /iI} i {fj j J} = { k(j)/k / j J} = (1 / k) * k = 1 {fi i I} = { k(i)/k / i I} = (1 / k) * k = 1

d'une manire gnrale, on appelle profil sur J toute suite de nombres positifs ou nuls indics par J ayant pour somme 1. Intrt de la notion de profil par rapport la ligne brute des k(i,j) ex : Considrons un tableau 2 lignes i' et i" i' 40 15 25 20 10 k(i)=110 i" 40xk 15xk 25xk 20xk 10xk k(i") = 110k i' et i" sont proportionnelles quant aux profils

i" fJ

40k 15k 25k 20k 10k = , , , , 110k 110k 110k 110k 110k

i' fJ

40 15 25 20 10 = , , , , 110 110 110 110 110

On peut remarquer que fi' et fi" sont identiques. Il est intressant que 2 lignes proportionnelles soient reprsentes par le mme profil. Ce qu'on compare en analyse des donnes, ce n'est pas la longueur, mais les proportionnalits. Donc 2 lignes proportionnelles sont reprsentes par le mme point.

1 - Reprsentation spatiale des ensembles I et J L'espace des profils sur J : Un point de cet espace est un profil sur J, c..d. un ensemble de nombres positifs ou nuls indics par J et de somme 1. J = { j / j J } et { j / j J } =1 Un profil j est dfini par autant de paramtres que de nombres dans J. Ces paramtres tant lis par la relation d'avoir somme 1. L'espace des profils sur J est un espace a (Card J - 1) dimensions.

De mme un profil sur I est un ensemble de nombres rels positifs ou nuls indics par I . I = { i / i I} et { i / i I } =1 L'espace de tous les profils sur I est de dimension (Card I-1). Nuage N(I) dans l'espace des profils sur J : un lment du Nuage N(I) est un couple form d'un profil de ligne et de la masse de cette ligne.

Nuage N(J) dans l'espace des profils sur I : couples forms d'un profil de colonne et de sa masse. 2) Le simplexe des profils Card J = 2 10 20 1+ 2 = 1

N(J) =

j (fI

, fj ) , j J

(0,1)

j ( 1 2)
(1,0)

1 > 0 hachures 2 > 0 1 + 2 = 1=> j se trouve sur le segment de droite qui joint le point (1,0) au point (0,1). Cas o CardJ = 3

(0,0,1)

(0,1,0)

(1,0,0)

1 > 0 J dans l'angle tridre form par les 3 axes positifs 2 > 0 => 0 1, 0 2, 0 3 3>0 1 + 2 + 3 = 1 => J sur la portion triangulaire dfini par les 3 sommets (1,0,0) (0,1,0) et (0,0,1)

Cl : on voit que si CardJ = 2 => le simplexe des profils est un segment . CardJ = 3 , c'est une portion de plan. En gnral, on dit que c'est un simplexe CardJ sommets Les sommets d'un simplexe reprsentent les distributions pour lesquelles, il existe j tel que xj = 1 xj' = 0 si j' j notion de frquence.

CHAPITRE II
MOYENNE ET CENTRE DE GRAVITE DISPERSION ET INERTIE

DISTANCE EUCLILDIENNE ET
DISTANCE DISTRIBUTIONNELLE
Le centre de gravit d'un systme de points munis de masses est une gnralisation spatiale de la notion de moyenne arithmtique

I - CENTRE DE GRAVITE
1) Moyenne de nombres Soit une suite de n nombre x1, x2 ...xn affects des masses respectives m1, m2 ....mn, leur moyenne arithmtique ou pondre est m1x1+ m2 x2 +....mn xn/ m1+ m2 +...mn = { mixi/ i = 1,2 ...n/ {mi/i = 1,x} 2) Centre de gravit des nuages N(I) et N(J) son centre de gravit est un profil sur J . Soit gJ son centre de gravit,sa jme coordonne.

gj = {fi fij / i I} / {fi / i I} = {fi fij / i I} /{(k(i)/k) * (k(i,j)/k(i)) / i I} = k(i,j)/k / i I } = k(j)/k = fj gJ = fJ fJ est le centre de gravit du nuage N(I) qui est le profil de la ligne de marge. de mme pour N(J) gi = {fj fji / j I} / {fj / j J} = {fj fji /jJ}/ {(k(J)/k) * (k(i,j)/k(j)) /j J} = k(i,j)/k / j J } = k(i)/k = fi fI le centre de gravit du nuage N(J) qui n'est autre que le profil de la colonne des marges.

I I - METRIQUE DU X2
1) dfinition gnrale : Supposons que l'on observe la distribution d'une population concrte d'effectif k selon un caractre I et notons f cette distribution. peut-on considrer la population en question comme un chantillon provenant d'une population plus vaste dans laquelle, la distribution selon I serait p? Pour rpondre cette question, on calcule la quantit k (fi pi)/pi (1) i et on la compare un X2 Card I-1 degrs de libert.

Si cette quantit prend une valeur qui n'a qu'une faible probabilit d'tre dpasse par ce X2, on devra conclure que f s'carte trop de p pour que l'on puisse conserver l'hypothse que l'chantillon considr provient d'une population repartie selon p. Ce test est bien connu sous le nom de "test du X2 " Ce rsultat conduit dfinir une distance entre distributions l'aide d'une mtrique analogue celle que l'on utilise pour le test du X2 . Si l'on considre 3 distribution p, q et r, le carr de la distance entre p et q calcule avec la mtrique du X2 centrs sur r est donne par

|| p - q || r2 = (pi qi)2/ri avec cette notation, la quantit (1) s'crit k || f p ||2p On voit qu'une mtrique du X2 dpend de la distribution sur laquelle elle est centre. 2) Application l'analyse des correspondances : En analyse des correspondances, on utilisera i pour calculer la distance entre f J et f i ' , J la mtrique du X2 centre sur fJ fJ centre de gravit de N(I)

d (i, i ') f f
2 i J

i' J fJ

1/ f j ( f f )
i j

i' 2 j

d ( j, j ') f I fi
2 j

j' fI

1/ fi ( fi fi )
j i

j' 2

proprits qui justifient posteriori son choix. Les points de N(I) reprsentent des distributions . Il est naturel sur un ensemble de distributions d'utiliser une mtrique du X2 comme on le fait lors du test du X2 . Le centre de gravit reprsente donc la distribution moyenne par rapport aux distributions . Il est donc naturel de centrer la mtrique du X2 l'aide de

Le centre de gravit reprsente donc la distribution moyenne par rapport aux distributions . Il est donc naturel de centrer la mtrique du X2 l'aide de cette distribution.

Distance du X2 sur N(J). Elle est aussi appele distance distributionnelle.

III - L'INERTIE D'UN NUAGE DE POINTS

on pose fij = k(i,j)/k L'inertie du nuage N(I). o les points sont munis des masse fi est ou fJ est le profil moyen de N(I). Cette expression est analogue celle de l'inertie d'un corps en physique et identique la variance en statistique. Si l'on choisit la mtrique du X2 centre sur fJ, l'inertie du nuage devient

i 2 1 = (fifJ - fifj ) / iI,j J =( fi fj fi fJ

2 (fij - fifJ)

fi || fi - fJ || 2 / i I fJ J

1/ f ( f f )

fi f i f )2 ( J - J / i I, j J fj i i' 2 j j j

Cette expression est nulle quant fij = fifj. Si le tableau est gal au produit des marges, le nuage est concentr en un point.

IV - LES FORMULES DE TRANSITION EN ANALYSE DES CORRESPONDANCES : Les axes sont reprs par l'indice a . L'indice a = 1 tant attribu l'axe qui explique la plus grande inertie lindice 2 laxe qui explique la plus grande inertie aprs le premier et ainsi de suite. Nous appellerons Zi le point de projection de Xi sur l'axe a et nous noterons Fa (i) son abscisse

Zi
y
j

G (j)

Rj

Considrons le nuage N(J) des points Yj, et notons H son centre de gravit. Nous noterons la projection de Yj sur l'axe a et G a (j) son abscisse. Nous tablirons les rsultats suivants : L'inertie explique par l'axe de rang a est la mme dans l'analyse directe et dans l'analyse duale. Nous noterons cette inertie la . La proportion d'inertie par un sous espace de dimension p :

Il existe entre les Fl(i) et les Ga(j) les relations suivantes :

f 1 ij F(i) = f G(j) j i
G(j) = f ij f F (i) i j 1

CHAPITRE III

L'ANALYSE FACTORIELLE D'UN NUAGE

DE POINTS QUELCONQUES

I - RAPPEL D'ALGEBRE LINEAIRE :


1) Dans tout espace euclidien il existe une transformation linaire qui permet d'utiliser la mtrique euclidienne canonique. Considrons un espace E a k dimensions sur le corps R. Nous reprons les vecteurs et les oprateurs de E sur la base canonique de Rh (base forme des vecteurs des Rh dont toutes les composantes sont nulles, sauf une qui est gal 1). Considrons dans E les 2 mtriques suivantes, * l'une est la mtrique euclidienne C, dfinie partir du produit scalaire.

(V1/V2) = V'1CV2 o V1 est le vecteur transpos du vecteur colonne V1 et o est une forme bilinaire symtrique dfinie positive (c'est dire tq C = C', que V'CV 0 et V'CV = 0 V = 0) * l'autre est la mtrique euclidienne canonique, dfinie partir du produit scalaire C tant symtrique, il est possible de former avec ces vecteurs propres une base de E orthonorme au sens de la mtrique canonique (cf2).

Soit R l'oprateur orthogonal qui transforme les vecteurs de la base canonique de Rh en ceux de la base forme par les vecteurs propres de C. Notons la matrice diagonale des valeurs propres de C (C tant dfinie positive). Si E est repr par rapport la base des vecteurs propres de C, l'oprateur C s'crit alors en utilisant la matrice On vrifie que : C = R' R