Vous êtes sur la page 1sur 6

Analyse des Données - Correction Examen Terminal 2004-2005

Partie 1

Analyse en Composantes Principales

1. Le nuage des individus doit être représenté dans R4 car on observe 4 variables sur chacun des étudiants.
2. Le nuage des variables doit être représenté dans R10 car pour chaque variable, on observe 10 notes.
3. On a le tableau suivant :

Variables Moyennes Ecarts types Minimum Maximum


Statistique 12.688 2.2113 7.88 15.56
Informatique 10.815 1.7782 7.45 13.5
Mathematiques 12.48 2.5707 8.55 16.95
Anglais 9.90 1.7659 7.76 13.64

4. Le barycentre du nuage des individus est


 
12.688
 10.815 
G=
 12.48 

9.90
5. La matrice des écarts-types est
 
2.2113 0 0 0
 0 1.7782 0 0 
Ds =  
 0 0 2.5707 0 
0 0 0 1.7659
6. Le rôle du barycentre et de la matrice des écart-types est de centrer et réduire le tableau de données initial.
7. Dans le cadre de l’ACP normée, la matrice à diagonaliser est Z t Dn ZMp = n1 Z t Z. Par calcul matriciel littéral,
on montre aisément que cette matrice n’est autre que la matrice des corrélations.
8. D’après cette matrice des corrélations, on observe que la variable “Stats” présente une quasi absence de corrélation
linéaire avec les variables “Info” et “Basesm” et une faible corrélation négative avec la variable “Anglai”. La
variable “Info” est faiblement corrélée positivement avec la variable “Anglai” et corrélée négativement avec la
variable “Basesm”. Enfin, les variables “Basesm” et “Anglai” présentent une quasi absence de corrélation.
9. La dernière valeur propre est facile à calculer car d’après le cours, on sait que la somme des valeurs propres est
égale à l’inertie totale du nuage des individus laquelle est égale (dans le cadre de l’ACP normée) au nombre de
variables actives. Finalement, on obtient λ4 = 0.161.
10. L’inertie d’un axe est égale à la valeur propre associée. Par conséquent, on obtient

I(1) = 1.8721 I(2) = 1.3656 I(3) = 0.6013 I(4) = 0.161


11. L’inertie totale est égale au nombre de variables actives. Par conséquent, on a I = 4.
I(α)
12. Le pourcentage d’inertie associé à chacun des axes est calculé selon la formule P I(α) = I . On obtient

P I(1) = 46.80% P I(2) = 34.14% P I(3) = 15.03 P I(4) = 4.03%


Les pourcentages cumulés vallent
1
P IC(1) = 46.80% P IC(2) = 80.94% P IC(3) = 95.97 P IC(4) = 100%
13. D’après le critère de la moyenne, il convient de conserver les axes pour lesquels l’inertie est supérieure à 1. Dans
le cas présent, il convient de conserver les 2 premiers axes.
14. Le diagramme des valeurs propres confirme ce choix puisque l’on observe une perte de 50% d’inertie entre l’axe
2 et l’axe 3.
15. A partir du tableau, il est facile de voir que les deux premières colonnes correspondent aux deux composantes
principales, lesquelles représentent les coordonnées des individus sur les deux premiers axes factoriels.
16. Les deux propriétés sont :

Ψα = 0 et V ar(Ψα ) = λα
Elles sont facilement vérifiées.
17. Les individus qui contribuent fortement à la formation d’un axe sont les individus qui présentent de fortes
coordonnées positives ou négatives sur l’axe. Ils sont donc facilement observables sur un graphique car ce sont
ceux qui sont les plus éloignés du barycentre. Cette réponse se justifie directement à partir de la formule des
contributions.
18. La formule permettant de compléter le tableau est

1 Ψ2α (i)
Cri (α) =
n λα
On obtient

individus Cri (1)(%) Cri (2)(%)


1 2.09 16.38
2 13.85 8.64
3 9.90 3.78
4 32.73 3.54
5 29.80 3.31
6 7.96 34.29
7 0.03 23.50
8 0.31 0.18
9 3.34 5.43
10 0.00 0.95

Si l’on retient les individus qui contribuent significativement à la formation d’un axe, il convient de retenir les
individus pour lesquels la contribution est supérieure à n1 , c’est-à-dire 10%. Ainsi, pour l’axe 1, les individus
2,4 et 5 contribuent significativement à la formation de cet axe. Les individus 2 et 5 présentent une coordonnée
négative tandis que l’individu 4 présente une coordonnée positive. Pour l’axe 2, ce sont les individus 1, 6 et 7
qui contribuent de manière significative. 1 et 7 présentent une coordonnée négative tandis que 6 présente une
coordonnée positive. Effectivement, on retrouve bien les individus énumérés dans la précédente question.
19. Pour calculer les qualités de représentation, il convient de faire usage de la formule

Ψ2α (i)
Quali (α) =
~ i k2
kGE
On obtient alors

2
individus Quali (1)(%) Quali (2)(%) Quali (1 × 2)(%)
1 13.59 77.80 91.39
2 45.81 20.84 66.65
3 49.81 13.87 63.68
4 86.83 6.84 93.67
5 92.11 7.47 99.58
6 22.05 69.29 91.34
7 0.20 99.72 99.92
8 4.21 1.82 6.03
9 44.03 52.31 96.34
10 0.00 6.96 6.96
20. Les individus 2 et 3 sont bien représentés dans le plan factoriel principal, tandis que les individus 1, 4, 5, 6, 7 et
9 sont très bien représentés dans ce plan.
21. Pour calculer les coordonnées des variables, il suffit de faire usage de la relation de transition suivante :
p
ϕα = λα uα .
On obtient alors :
   
−0.0738 −0.8600
 −0.9527   −0.0808 
ϕ1 = 
 0.8859 
 et ϕ2 = 
 0.2001 

−0.4174 0.7612
22. La qualité de représentation des variables dans le plan factoriel principal est d’autant meilleure que les variables
sont proches du cercle des corrélations. Dans le cas présent, toutes les variables sont bien ou très bien représentées.
23. La corrélation entre une variable et un axe ou entre deux variables se mesure par l’angle direct qui existe entre
eux. Cette mesure est fiable à partir du moment où les variables présentent une bonne qualité de représentation.
24. Les variables “Info” et “Basesm” sont fortement corrélées avec l’axe 1. La variable “Info” est corrélée négativement
(-95%) tandis que la variable “Basesm” est corrélée positivement (88%). Les deux autres variables sont très peu
ou pas du tout corrélées avec cet axe (-7% et -41%). Pour l’axe 2, c’est l’inverse, c’est-à-dire que les variables
“Stats” et “Anglai” sont fortement corrélées avec cet axe tandis que les autres variables sont très peu ou pas
du tout corrélées avec cet axe. On note que la variable “Anglai” est corrélée positivement (76%) tandis que la
variable “Stats” est corrélée négativement (-86%).
25. Les deux axes sont des axes d’opposition. L’axe 1 est un axe d’opposition entre d’un côté les étudiants plutôt
bons en informatique (ouest) et de l’autre les étudiants plutôt bons en mathématiques (est). L’axe 2 est lui un
axe d’opposition entre d’un côté les étudiants plutôt bons en statistique (sud) et de l’autre les étudiants plutôt
bons en anglais (nord).
26. En faisant référence à la qualité de représentation des individus dans le premier plan factoriel, il convient
“d’éliminer” les étudiants 8 et 10. Ainsi, les étudiants 5 et 2 se distinguent de la moyenne par des notes parti-
culièrement élevées pour les variables “Info” et “Anglai”, plus faibles pour les deux autres variables. L’étudiant
4 se distingue de la moyenne par des notes particulièrement élevées pour les variables “Basesm” et “Stats” et
faibles pour les autres variables. De même, les étudiants 3 et 6 se distinguent de la moyenne par de bonnes
notes en “Basesm” et “Anglai” et de mauvaises notes pour les autres matières. Enfin, les étudiants 1, 7 et 9 se
distinguent de la moyenne par une bonne note en “Stats” et une mauvaise en “Anglai”.

3
Partie 2

Analyse Factorielle Discriminante

1. Le barycentre du nuage de points est G de coordonnées :


 
11.0909
G=
10.5454
2. Les barycentres partiels sont G1 et G2 dont les coordonnées sont données par :
   
8.8333 13.8
G1 = et G2 =
12.8333 7.8
3. La quantité
n1 n2
G1 + G2
n n
se calcule comme suit :
     
6 8.8333 5 13.8 11.0909
+ =
11 12.8333 11 7.8 10.5454
On note finalement que ce calcul mène au barycentre du nuage de points. Cela n’est pas surprenant puisque le
barycentre d’un nuage de points peut être vu comme une somme pondérée des barycentres des classes constituant
le nuage des individus.
4. En prenant G comme centre du nouveau repère, on obtient les nouvelles coordonnées suivantes :

Individus X1∗ X2∗ Y


1 -4.0909 1.4546 1
2 -3.5909 2.9546 1
3 -3.0909 0.4546 1
4 -2.0909 2.4546 1
5 -0.5909 4.4546 1
6 -0.0909 1.9546 1
7 1.4091 -3.5454 2
8 1.9091 -2.0454 2
9 2.9091 -4.5454 2
10 3.4091 -2.0454 2
11 3.9091 -1.5454 2
G1 -2.2576 2.2879 1
G2 2.7091 -2.7454 2
5. On obtient

4
Nuage des individus

6
1
Axe discriminant

4
1
1

2
G1 1
1

A 1
X2

0
−2 2
2 2

G2
2
−4

Droite discriminante
2
−6

−6 −4 −2 0 2 4 6

X1

6. Les matrices des covariances intra-classes s’exprime de la manière suivante :


   
2.2222 0.8472 0.86 0.41
T1 = et T2 =
0.8472 1.5556 0.41 1.26
7. Sous forme littérale, la matrice W s’exprime comme :
n1 n2
W = T1 + T2
n n
Par conséquent, on obtient
 
1.6030 0.6485
W =
0.6485 1.4212
(a) Les matrices C, Dk et W −1 s’expriment respectivement comme
6
     
−2.2576 2.2879 11 0 0.7651 −0.3491
C= D2 = 5 W −1
=
2.7091 −2.7454 0 11 −0.3491 0.8629

(b) La matrice à diagonaliser est alors d’après les résultats d’AFG la matrice C t D2 CW −1 . Le calcul matriciel
amène à la matrice suivante :
 
t 6.8428 −7.4835
C D2 CW −1
=
−6.9345 7.5838
(c) Il est facile de voir que les valeurs propres sont λ1 = 14.4266 et λ2 = 0.
(d) Seule la première valeur propre est non nulle. Un vecteur propre unitaire associé est u = (−0.7024; 0.7118).
On en déduit l’équation de la droite associée à ce vecteur : X2 = −1.0134X1.
(e) Un vecteur directeur de l’axe discriminant est donc w = (−0.7859, 0.8594). L’équation de droite est alors
X2 = −1.0935X1.
8. On a

5
f (x∗ ) := d2Mp (x∗ , G∗1 ) − d2Mp (x∗ ; G∗2 )
= < x∗ ; G∗1 >Mp − < x∗ ; G∗2 >Mp
= (x∗ )t W −1 G∗1 − (x∗ )t W −1 G∗2
= (x∗ )t W −1 (G∗1 − G∗2 ).

9. L’équation f (x∗ ) = 0 s’écrit

(x∗ )t W −1 (G∗1 − G∗2 ) = 0


Autrement dit, l’ensemble des points vérifiant cette équation est une droite perpendiculaire au sens de la métrique
W −1 à la droite passant par les barycentres partiels. A partir de ce produit matriciel, on aboutit à l’équation de
droite suivante :

−5.5571x∗1 + 6.0771x∗2 = 0
10. Dans le repère de centre G, les étudiants A et B ont pour coordonnées : A = (−4.0909, 0.4546) et B =
(−4.0909, −6.5454). Selon la règle géométrique d’affectation, on déduit que si f (x∗ ) > 0 alors l’individu est
associé au groupe 2 ; inversement, si f (x∗ ) < 0 alors l’individu est associé au groupe 1. Dans le cas présent, on a

f (x∗A ) = 25.50 et f (x∗B ) = −17.04


Par conséquent, l’étudiant A provient vraisemblablement du Calvados tandis que l’étudiant B provient vraisem-
blablement de Seine-maitime puisqu’ils sont associés respectivement au groupe 2 et 1.

Vous aimerez peut-être aussi