Télécharger au format pdf ou txt
Télécharger au format pdf ou txt
Vous êtes sur la page 1sur 25

RESUMES, DOCUMENTS ET ANNEXES ANALYSE DE DONNEES

BREVE PRESENTATION DE L’ANALYSE DE DONNEES

 Pré requis : Algèbre linéaire (en particulier calcul matriciel et diagonalisation) ;


Statistiques (paramètres statistiques à une variable, moyenne, variance, écart type et à
deux variables, covariance, corrélation) et Probabilités (probabilités conditionnelles,
indépendance).

L’Analyse de Données regroupe diverses méthodes mathématiques permettant d’organiser des


données très nombreuses afin d’en faciliter l’interprétation, la classification…

Dans le cours d’Analyse de Données dispensé aux étudiants de deuxième année (L2), j’ai
décidé de ne m’intéresser qu’aux trois méthodes suivantes :

 Analyse en Composantes Principales (ACP)


 Analyse Factorielle des Correspondances (AFC)
 Analyse des Correspondances Multiples (ACM)

Les données auxquelles s’appliquent ces méthodes sont :

 En ACP : des variables quantitatives sur une population d’individus de taille


quelconque, ces variables n’étant pas pondérées, le but étant de faire disparaître les
« redondances » entre les variables, qui sont définies mathématiquement comme des
covariances ou des corrélations.
 En AFC : deux variables quelconques sur une population donnée (« tableau croisé »),
le but étant d’étudier de manière fine la dépendance entre ces deux variables.
 En ACM : des variables quelconques sur une population donnée (AFC simultanées), le
but étant, comme en AFC d’étudier la dépendance entre les diverses variables.

Le point commun entre ces diverses méthodes est le suivant : ce sont des méthodes d’analyse
factorielle. On considère les données initiales comme étant des points dans un espace de
grande dimension, les axes correspondant aux variables (ACP) ou aux modalités des variables
(AFC et ACM), ces axes étant trop nombreux pour permettre une représentation utile des
données et étant plus ou moins corrélés ou dépendants. Par un traitement d’Algèbre Linéaire
(changement de base), on se ramène à de nouveaux axes, appelés « facteurs » non corrélés et
par projection sur des plans bien choisis (portant une grande part de l’information), on peut
alors tenter d’analyser et d’interpréter les données, en ayant défini par ailleurs des paramètres
mathématiques permettant de contrôler la pertinence de l’interprétation.
RÉSUMÉ N°1

Statistiques :

Paramètre Définition

Moyenne 
X  E( X ) 
n
x
Variance

V ( X )  E X  X  

 
n
 ( x  X )


cov( X ;Y )  E( X  X )( Y  Y ) 
Covariance
n
( x  X )( y  Y )
Corrélation cov( X ;Y )
 ( X ;Y ) 
 X . Y

A noter que cov(X ; X)=V(X) et ρ(X

; X)=1.

 Variables (vecteurs) centrées :Xc


xc  x  X  X c  

 Variables (vecteurs) centrées et réduites : Xs


x X
xs   X s   et V(X s )  .
X

 matrice de variance-covariance 
1
  t X c . X c , Xc étant une variable centrée
n

 matrice des corrélations R



R  t X s .X s , Xs étant une variable centrée réduite
n
Algèbre linéaire :

 Valeur propre de M : λ tel que det(M-λI)=0


 Vecteur propre associé à λ : vecteur u tel que Mu=λu
RÉSUMÉ N°2 : ANALYSE EN COMPOSANTES PRINCIPALES

L’analyse en composantes principales (ACP) s’applique sur des variables quantitatives et de


même importance.

Dans ce résumé, nous noterons A la matrice des données, comportant n lignes, où n désigne le
nombre d’individus statistiques et p colonnes où p désigne le nombre de variables.

 Première étape : détermination de la matrice centrée réduite As


Cela est nécessaire si les variables sont exprimées dans des unités différentes, si elles sont
d’ordre de grandeur très différents ou si leurs variances sont très éloignées( ACP centrée et
réduite). Dans le cas contraire, on détermine la matrice centrée Ac (ACP centrée).

 Deuxième étape : détermination de la matrice des corrélations

Dans le cas d’une ACP centrée, on calcule la matrice de variance covariance

 Troisième étape : diagonalisation de R (ou Σ)


On détermine les valeurs propres de R qui forment, après classement par ordre décroissant, la
matrice diagonale Λ, puis on détermine les vecteurs propres normés associés à ces valeurs
propres qui forment la matrice de changement de base U.

On peut alors déterminer la qualité globale d’explication (qge) qui permet de choisir les axes
factoriels.

 Quatrième étape : détermination des composantes principales


On calcule la matrice F = As×U. On peut alors calculer la qualité (qlt) de représentation de
chaque individu par rapport à chaque facteur.

 Cinquième étape : détermination de la matrice des saturations

 Sixième étape : représentations graphiques


On réalise les cercles de corrélations ainsi que les représentations des individus dans les plans
choisis. On calcule les qlt ou cos2 :

 Septième étape : interprétation


A l’aide de tous les éléments précédents, on interprète les données en introduisant
éventuellement des points supplémentaires.
DOCUMENTS ET FIGURES – INTRODUCTION

Exemple n°1 :

X Y X Y

1 3,5 1,25 3,7

4,5 3,5 6 3,7

1,25 3,7 2 3

3,5 3,5 2,5 3,5

1,5 3,25 1 3,5

2 3 5 3,6

6 3,5 7 3

2,5 3,5 5,5 3,5

3 3,6 6,25 3,25

4 3,7 6,5 3,5

5 3 1,5 3,25

4,25 3,25 8 3,5


5 5,0

4,5

4 4,0

3,5

3 3,0

2,5

2 2,0
0 2 4 6 8 0 2 4 6 8 10

distribution homogène distribution scindée

Exemple n°2 :

x1 10 8 6 0 0 6 8

x2 0 6 8 10 -10 -8 -6

A B C D E F G

y1 20 19 16 5 -5 8 13

y2 5 13 15 15 -15 -9 -5
x2

(0,10) (6,8)
(8,6)

(10,0) x1

x2 (16,15)
(5,15) (19,13)

(0,10) (6,8)
(8,6)
(20,5)

(10,0) x1

x2 (16,15)
y2 (5,15) (19,13)

y1
(0,10) (6,8)
(8,6)
(20,5)
u2
u1

(10,0) x1
Documents Chapitre 3 : Analyse en composantes principales

x y z

magasin 1 4 5 6

magasin 2 7 7 8

magasin 3 5 6 3

magasin 4 8 7 4

magasin 5 6 5 4

4 5 6
7 7 8
 
Soit la matrice A des données brutes : A  5 6 3
 
8 7 4
6 5 4

Premier étape: Trouver la matrice centrée et réduite As.

 5 5 
 2  
 2 4 
 2 5 3 5
 2 2 4 
 5
AS   2 0  
 2 2 
 5 5
 2 
2 4 
 
 0 5 5
 
 2 4 

Deuxième étape: Trouver la matrice des corrélations R


 10 10 
 1 
 4 40 
R
10 1 
1
 4 4 
 10 1 
 1 
 40 4 

Troisième étape: Diagonalisation de R :

 Détermination des valeurs propres :

10 10
1 
4 40
10 1
det( R  I )  1  0
4 4
10 1
1 
40 4

1  1.855

On obtient, en classant les valeurs propres par ordre décroissant : 2  0.955
  0.191
 3

La matrice diagonale équivalente à R est donc

 Calcul des vecteurs propres

 0.668 
 
Pour λ1 = 1.855, on obtient u1   0.695 .
 0.265 
 

  0.297 
 
Pour λ2 = 0.955, on obtient u2    0.078 .
 0.952 
 

 0.683 
 
Pour λ3 = 0.191, on obtient u3    0.714 .
 0,154 
 
0.668  0.297 0.683 
On obtient alors la matrice U  0.695  0.078  0.714
 
0.265 0.952 0.154 

Quatrième étape: Calcul des composantes principales (la matrice F=As.U)

 0.704 0.465  0.036


 0.758 0.581  0.026
 
F   0.344  0.382  0.293
 
 0.704  0.465 0.036 
 0.414  0.199 0.319 

Cinquième étape: Calcul des saturations : corrélations entre les facteurs et le variables
d'origine (la matrice S)

0.910  0.290 0,298 


S  0,947  0.076  0,312
 
 0.361 0.930 0.067 

Sixième étape: Les représentations graphiques

 Représentation des variables : cercles des corrélations à partir de la matrice


des corrélations S
 Représentation des individus dans le plan 1-2

 Les points supplémentaires

1 1 1
Apointssupplémentaires   10 10 10
 
 1 10 1 
Analyse en composantes principales des moyennes de 34 élèves de
Seconde générale

Tableau de données :

Fr Maths Hist Angl Phy SVT Esp EPS SES

i1 11 13 10 7 9 11 15 11 9

i2 12 13 10 13 13 11 12 12 11

i3 15 15 11 15 12 12 19 11 14

i4 6 10 10 6 7 5 11 11 7

i5 11 7 8 13 9 11 5 15 8

i6 12 5 11 14 5 6 11 10 12

i7 13 10 9 9 13 12 12 15 7

i8 13 6 11 10 10 9 6 16 8

i9 10 6 10 9 5 6 12 11 5

i10 11 8 9 9 9 9 6 7 11

i11 11 6 9 4 7 8 7 12 9

i12 5 4 10 7 10 6 7 15 10

i13 9 2 8 8 5 7 8 10 13

i14 10 8 12 11 10 9 16 10 11

i15 16 13 11 6 10 12 15 10 14

i16 10 4 9 9 7 10 13 10 12

i17 14 11 10 10 9 8 8 12 17
i18 11 3 8 2 11 13 5 10 12

i19 11 8 10 13 12 13 7 11 12

i20 13 7 8 8 10 10 10 16 11

i21 10 2 9 6 4 9 8 9 11

i22 10 15 10 9 16 10 14 11 12

i23 13 12 11 9 13 11 13 11 13

i24 14 10 12 10 12 10 11 9 9

i25 14 18 11 12 17 16 16 12 15

i26 11 9 10 14 8 13 17 10 11

i27 11 12 8 8 11 10 15 14 12

i28 11 5 9 10 11 10 9 17 11

i29 13 15 9 5 13 11 10 11 14

i30 5 6 9 4 11 11 9 13 11

i31 6 7 9 7 8 4 7 13 5

i32 10 13 10 7 12 11 11 15 6

i33 12 9 11 12 10 8 12 11 11

i34 11 8 11 2 8 9 14 12 13

Statistiques élémentaires :

maximum : 16 18 12 15 17 16 19 17 17
minimum : 5 2 8 2 4 4 5 7 5

écart type : 2,56 4,00 1,13 3,29 2,94 2,51 3,64 2,29 2,74

moyenne : 11,03 8,82 9,79 8,76 9,91 9,74 10,91 11,85 10,79

taille : 34

Fr Maths Hist Angl Phy SVT Esp EPS SES

Matrice des données centrées et réduites :

Fr Maths Hist Angl Phy SVT Esp EPS SES

i1 -0,002 0,179 0,031 -0,092 -0,053 0,086 0,193 -0,064 -0,112

i2 0,065 0,179 0,031 0,221 0,180 0,086 0,051 0,011 0,013

i3 0,266 0,265 0,183 0,325 0,122 0,155 0,381 -0,064 0,201

i4 -0,337 0,050 0,031 -0,144 -0,170 -0,323 0,004 -0,064 -0,237

i5 -0,002 -0,078 -0,272 0,221 -0,053 0,086 -0,278 0,236 -0,175

i6 0,065 -0,164 0,183 0,273 -0,286 -0,255 0,004 -0,139 0,075

i7 0,132 0,050 -0,120 0,012 0,180 0,155 0,051 0,236 -0,237

i8 0,132 -0,121 0,183 0,064 0,005 -0,050 -0,231 0,311 -0,175

i9 -0,069 -0,121 0,031 0,012 -0,286 -0,255 0,051 -0,064 -0,362

i10 -0,002 -0,035 -0,120 0,012 -0,053 -0,050 -0,231 -0,363 0,013

i11 -0,002 -0,121 -0,120 -0,248 -0,170 -0,118 -0,184 0,011 -0,112

i12 -0,404 -0,207 0,031 -0,092 0,005 -0,255 -0,184 0,236 -0,050

i13 -0,136 -0,292 -0,272 -0,040 -0,286 -0,187 -0,137 -0,139 0,138

i14 -0,069 -0,035 0,334 0,117 0,005 -0,050 0,240 -0,139 0,013

i15 0,333 0,179 0,183 -0,144 0,005 0,155 0,193 -0,139 0,201
i16 -0,069 -0,207 -0,120 0,012 -0,170 0,018 0,098 -0,139 0,075

i17 0,199 0,093 0,031 0,064 -0,053 -0,118 -0,137 0,011 0,388

i18 -0,002 -0,249 -0,272 -0,353 0,063 0,223 -0,278 -0,139 0,075

i19 -0,002 -0,035 0,031 0,221 0,122 0,223 -0,184 -0,064 0,075

i20 0,132 -0,078 -0,272 -0,040 0,005 0,018 -0,043 0,311 0,013

i21 -0,069 -0,292 -0,120 -0,144 -0,344 -0,050 -0,137 -0,214 0,013

i22 -0,069 0,265 0,031 0,012 0,355 0,018 0,145 -0,064 0,075

i23 0,132 0,136 0,183 0,012 0,180 0,086 0,098 -0,064 0,138

i24 0,199 0,050 0,334 0,064 0,122 0,018 0,004 -0,214 -0,112

i25 0,199 0,393 0,183 0,169 0,413 0,428 0,240 0,011 0,263

i26 -0,002 0,008 0,031 0,273 -0,111 0,223 0,287 -0,139 0,013

i27 -0,002 0,136 -0,272 -0,040 0,063 0,018 0,193 0,161 0,075

i28 -0,002 -0,164 -0,120 0,064 0,063 0,018 -0,090 0,386 0,013

i29 0,132 0,265 -0,120 -0,196 0,180 0,086 -0,043 -0,064 0,201

i30 -0,404 -0,121 -0,120 -0,248 0,063 0,086 -0,090 0,086 0,013

i31 -0,337 -0,078 -0,120 -0,092 -0,111 -0,391 -0,184 0,086 -0,362

i32 -0,069 0,179 0,031 -0,092 0,122 0,086 0,004 0,236 -0,300

i33 0,065 0,008 0,183 0,169 0,005 -0,118 0,051 -0,064 0,013

i34 -0,002 -0,035 0,183 -0,353 -0,111 -0,050 0,145 0,011 0,138

Matrice de corrélation :

Fr Maths Hist Angl Phy SVT Esp EPS SES

Fr 1,000 0,468 0,317 0,350 0,324 0,527 0,335 -0,110 0,457


Maths 0,468 1,000 0,381 0,234 0,715 0,469 0,610 -0,022 0,257

Hist 0,317 0,381 1,000 0,334 0,206 0,033 0,495 -0,261 0,119

Angl 0,350 0,234 0,334 1,000 0,162 0,177 0,293 -0,020 0,102

Phy 0,324 0,715 0,206 0,162 1,000 0,649 0,268 0,242 0,253

SVT 0,527 0,469 0,033 0,177 0,649 1,000 0,332 0,003 0,402

Esp 0,335 0,610 0,495 0,293 0,268 0,332 1,000 -0,196 0,260

EPS -0,110 -0,022 -0,261 -0,020 0,242 0,003 -0,196 1,000 -0,300

SES 0,457 0,257 0,119 0,102 0,253 0,402 0,260 -0,300 1,000

Valeurs propres ordonnées par ordre décroissant :

λ1 λ2 λ3 λ4 λ5 λ6 λ7 λ8 λ9

3,490 1,502 1,182 0,884 0,533 0,492 0,472 0,356 0,089

Résumé du calcul des valeurs propres :

Axes Valeurs % de l'inertie %


propres totale cumulé

axe 1 3,490 38,8% 38,8%

axe 2 1,502 16,7% 55,5%

axe 3 1,182 13,1% 68,6%

axe 4 0,884 9,8% 78,4%

axe 5 0,533 5,9% 84,3%

axe 6 0,492 5,5% 89,8%


axe 7 0,472 5,2% 95,1%

axe 8 0,356 4,0% 99,0%

axe 9 0,089 1,0% 100,0%

diagram m e en bâtons de l'inertie totale


0,0% 10,0% 20,0% 30,0% 40,0% 50,0%

axe 1 38,8%
axe 2 16,7%
axe 3 13,1%
axe 4 9,8%
axe 5 5,9%
axe 6 5,5%
axe 7 5,2%
axe 8 4,0%
axe 9 1,0%

Vecteurs propres unitaires associés aux valeurs propres :

axe 1 axe 2 axe 3 axe 4 axe 5 axe 6 axe 7 axe 8 axe 9

l1 l2 l3 l4 l5 l6 l7 l8 l9

u1 u2 u3 u4 u5 u6 u7 u8 u9

3,490 0,089 0,356 0,472 1,502 0,884 0,492 0,533 1,182

0,389 -0,257 -0,217 -0,563 -0,041 0,383 0,250 0,410 0,199

0,441 0,511 -0,620 -0,018 0,127 -0,325 -0,013 -0,033 -0,190

0,282 0,193 0,430 0,089 -0,428 -0,130 -0,150 0,562 -0,390

0,242 0,024 -0,113 0,253 -0,181 0,742 -0,206 -0,345 -0,345


0,377 -0,602 -0,017 0,263 0,455 -0,182 -0,403 0,123 -0,091

0,381 0,370 0,547 -0,300 0,326 0,067 -0,229 -0,285 0,290

0,373 -0,313 0,197 -0,050 -0,241 -0,299 0,542 -0,483 -0,218

-0,079 0,163 0,180 0,167 0,618 0,216 0,536 0,219 -0,379

0,289 0,104 0,009 0,649 -0,114 0,079 0,279 0,138 0,607

Matrice des saturations :

axe 1 axe 2 axe 3 axe 4 axe 5 axe 6 axe 7 axe 8 axe 9

Fr 0,727 -0,050 0,216 0,360 0,299 0,175 -0,387 -0,129 -0,077

Maths 0,824 0,156 -0,207 -0,306 -0,024 -0,009 -0,012 -0,370 0,153

Hist 0,527 -0,524 -0,425 -0,122 0,410 -0,105 0,061 0,257 0,058

Angl 0,452 -0,222 -0,375 0,697 -0,252 -0,145 0,174 -0,067 0,007

Phy 0,705 0,558 -0,099 -0,171 0,089 -0,283 0,181 -0,010 -0,180

SVT 0,712 0,400 0,315 0,063 -0,208 -0,161 -0,206 0,327 0,111

Esp 0,696 -0,296 -0,238 -0,281 -0,352 0,380 -0,034 0,118 -0,094

EPS -0,148 0,757 -0,412 0,203 0,160 0,376 0,115 0,107 0,049

SES 0,539 -0,140 0,660 0,074 0,101 0,196 0,446 0,005 0,031
Composantes principales :

Axe 1 1 Axe 2 1&2 Axe 3 1&2&3

coord. qlt cum. coord. qlt cum. coord. qlt cum.

i1 0,122 0,141 0,141 -0,043 0,017 0,159 -0,071 0,048 0,206

i2 0,289 0,650 0,650 0,070 0,038 0,687 -0,108 0,091 0,779

i3 0,660 0,858 0,858 -0,163 0,052 0,910 -0,084 0,014 0,924

i4 -0,384 0,445 0,445 -0,163 0,080 0,525 -0,238 0,171 0,696

i5 -0,219 0,158 0,158 0,303 0,304 0,462 -0,060 0,012 0,474

i6 -0,100 0,032 0,032 -0,460 0,680 0,713 -0,072 0,017 0,729

i7 0,101 0,050 0,050 0,343 0,573 0,623 -0,157 0,120 0,742

i8 -0,113 0,051 0,051 0,143 0,081 0,132 -0,233 0,214 0,346

i9 -0,354 0,410 0,410 -0,252 0,208 0,618 -0,262 0,225 0,843


i10 -0,140 0,095 0,095 -0,166 0,133 0,228 0,235 0,268 0,496

i11 -0,359 0,716 0,716 0,029 0,005 0,721 0,104 0,060 0,781

i12 -0,459 0,565 0,565 0,108 0,031 0,597 -0,175 0,082 0,679

i13 -0,447 0,567 0,567 -0,168 0,080 0,646 0,287 0,233 0,879

i14 0,167 0,132 0,132 -0,325 0,501 0,633 -0,185 0,162 0,795

i15 0,427 0,573 0,573 -0,145 0,066 0,640 0,187 0,110 0,750

i16 -0,137 0,148 0,148 -0,164 0,213 0,361 0,166 0,219 0,580

i17 0,138 0,079 0,079 -0,088 0,033 0,112 0,219 0,201 0,313

i18 -0,235 0,132 0,132 0,223 0,119 0,252 0,493 0,583 0,835

i19 0,135 0,114 0,114 0,067 0,028 0,142 0,082 0,042 0,184

i20 -0,098 0,048 0,048 0,317 0,509 0,557 0,065 0,021 0,578

i21 -0,404 0,525 0,525 -0,230 0,170 0,695 0,274 0,242 0,936

i22 0,323 0,449 0,449 0,105 0,047 0,496 -0,069 0,021 0,517

i23 0,348 0,853 0,853 -0,037 0,010 0,863 0,020 0,003 0,866

i24 0,248 0,267 0,267 -0,215 0,200 0,467 -0,117 0,059 0,526

i25 0,826 0,927 0,927 0,180 0,044 0,971 0,025 0,001 0,972

i26 0,242 0,245 0,245 -0,196 0,161 0,405 -0,036 0,005 0,410

i27 0,085 0,043 0,043 0,220 0,290 0,333 0,036 0,008 0,340

i28 -0,121 0,071 0,071 0,312 0,472 0,542 -0,064 0,020 0,562

i29 0,234 0,243 0,243 0,173 0,133 0,375 0,255 0,287 0,662

i30 -0,284 0,288 0,288 0,228 0,185 0,472 0,090 0,029 0,501

i31 -0,593 0,731 0,731 0,032 0,002 0,733 -0,289 0,174 0,907

i32 0,014 0,001 0,001 0,291 0,396 0,397 -0,287 0,384 0,781

i33 0,106 0,128 0,128 -0,200 0,460 0,588 -0,132 0,200 0,788
i34 -0,018 0,002 0,002 -0,130 0,079 0,080 0,100 0,047 0,127

Cercles des corrélations :

axe 2 ; 16,6%
1,0

EPS

Phy
0,5
SVT

Maths
0,0
Fr
-1,0 -0,5 0,0 0,5 SES 1,0
Angl
Esp

-0,5 Hist

-1,0
axe 1 ; 38,7%
axe 3 ; 13,1%
1,0

SES

0,5

SVT
Fr

0,0
-1,0 -0,5 0,0 0,5 Phy 1,0
EspMaths

EPS Angl
Hist
-0,5

-1,0
axe 1 ; 38,7%

Représentation des individus


axe 2 ; 16,6%
0,4
i7
i5 I20
I28
0,3 I32
I30 I18 I27
0,2
I29 I25
i8
I12 0,1 I22
I19 i2
I31 I11
0,0
-0,8 -0,6 -0,4 -0,2 0,0 i1 0,2 I23
0,4 0,6 0,8 1,0
-0,1 I17
I34
I15
I13 i4 I16
i10 i3
-0,2 I33 I26
I21 I24
i9
-0,3
I14

-0,4
i6
-0,5
axe 1 ; 38,7%

axe 3 ; 13,1%
0,6

I18 0,5

0,4

I13I21 0,3
I29
i10 I17
0,2 I15
I16
I11 I30 0,1 I34
I20 I19
I27 I23 I25
0,0
-0,8 -0,6 -0,4 -0,2 0,0 0,2 I26
i5 I28
i6 i1 I220,4 0,6
i3
0,8 1,0
-0,1 I24i2
I33
i7
I12 I14
-0,2
i4 i8
i9
I31 -0,3 I32

-0,4
axe 1 ; 38,7%
axe 3 ; 13,1%
0,6

0,5 I18

0,4

I13 0,3
I21
I29
i10 I17
I15 0,2
I16
I34 0,1 I11 I30
I19 I20
I23 I25 I27
0,0
-0,5 -0,4 -0,3 -0,2 I26 -0,1 0,0 0,1 I22 0,2 0,3 i5I28 0,4
i6 i3 i1
I24I33 -0,1 i2
i7
I14 I12
-0,2
i4 i8
i9
-0,3 I31 I32

-0,4
axe 2 ; 16,6%

Vous aimerez peut-être aussi