Vous êtes sur la page 1sur 7

I.U.

T de Caen STID 2ème année


Département STID Année Universitaire 2005-2006
Responsable de cours : Alain LUCAS

Correction Examen Analyse des Données

Partie A
Analyse en Composantes Principales

1. On dénombre 49 “individus” en l’occurence 49 moineaux. Les variables seront donc représentées dans R49 .
2. Dans le cas présent, on dénombre cinq variables actives. Ainsi, les moineaux seront représentés dans R5 .
3. D’après les sorties numériques, on note que la longueur moyenne entre l’extrémité du bec et de l’occiput est,
pour les moineaux, d’environ 31.46 mm. La dispersion est caractérisée par l’écart-type qui est de 0.79 mm. Ce
dernier traduit clairement une forte homogénéité dans les mesures.
4. Le barycentre du nuage des moineaux est donné par la matrice colonne constituée des moyennes de chacune des
variables :
 
157.98

 241.33 

G=
 31.46 

 18.47 
20.83
5. La matrice des écarts-types est une matrice diagonale, dont la diagonale est constituée par l’écart-type de chacune
des variables :
 
3.62 0 0 0 0

 0 5.02 0 0 0 

Ds = 
 0 0 0.79 0 0 

 0 0 0 0.56 0 
0 0 0 0 0.98
6. Pour réaliser une ACPN, il convient de centrer puis de normaliser le tableau de données.
7. La matrice à diagonaliser dans le cadre d’une ACPN est la matrice des corrélations :
 
1 0.73 0.66 0.65 0.61

 0.73 1 0.67 0.77 0.53 

∆=
 0.66 0.67 1 0.76 0.53 

 0.65 0.77 0.76 1 0.61 
0.61 0.53 0.53 0.61 1
On note dans un premier temps que l’ensemble des variables sont corrélées positivement. En conséquence, on
devrait, sur le premier axe factoriel, visualiser un effet de taille traduisant ainsi un facteur d’échelle classant les
moineaux des plus “petits” aux plus “grands”, et cela selon l’ensemble des cinq mesures.
Concernant les variables, on peut observer une forte corrélation entre elles, sauf entre les variables “longueur
du bréchet” et “longueur des ailes”, et entre “longueur du bréchet” et “longueur de la tête”, pour lesquels la
corrélation est de 53%. Pour fournir une explication pertinente il faudrait envisager de contacter un spécialiste
du domaine.
8. Dans le cadre de l’ACPN, on sait qu’il existe la relation suivante :
p
X
λα = p
α=1

9. On a autant de valeurs propres que de variables. Ainsi, on doit trouver dans le cas présent cinq valeurs propres.
10. Comme la somme des valeurs propres vaut cinq, on obtient aisément que λ2 = 0.5315. Le pourcentage d’inertie
associé vaut alors

λ2
P I(2) = = 10.63%
p
Ainsi, le pourcentage d’inertie cumulée est

λ1 + λ 2
P IC(2) = = 83.95%
p
Finalement, on obtient

λα PI(α) PIC(α)
3.6160 72.32 73.32
0.5315 10.63 82.95
0.3864 7.73 90.68
0.3016 6.03 96.71
0.1645 3.29 100.00

11. Le critère de la moyenne consiste à conserver les axes factoriels dont l’inertie est supérieure à 0.7. Dans le cas
présent, seule la première valeur propre est supérieure à 0.7. Ainsi, selon cette approche, on devrait conserver un
seul axe factoriel. Si maintenant on désire conserver 80% de l’information, il convient de conserver les N premiers
axes tels que le pourcentage d’inertie cumulée dépasse le seuil des 80%. Dans le cas présent, cette méthode
conduit à conserver les deux premiers axes.
12. Les deux premières composantes principales sont présentes dans le tableau de l’annexe 3. En particulier, la
première composante principale (resp. la seconde) est contenue dans la colonne coordonnée 1 (resp. coordonnée
2). Ces deux composantes principales représentent les coordonnées des moineaux dans le premier plan factoriel.
13. Pour calculer la contribution d’un “individu” i à la formation d’un axe α, on fait usage de la formule suivante :

1 Ψ2α (i)
Crα (i) =
n λα
A partir de cette formule, on observe que pour un axe α fixé, un individu contribue d’autant plus à la formation
de cet axe qu’il présente une coordonnée sur celui-ci importante en valeur absolue. Finalement, on en déduit
que les moineaux 25,29,30,36,37 et 40, lesquels présentent selon l’axe 1 des coordonnées importantes doivent
significativement contribuer à la formation de ce dernier. Cette interprétation est facilement corroborée via le
tableau de l’annexe 3.
14. Sachant que n = 49, et que dans le cas de l’axe 1 on a λ1 = 3.6160, on obtient aisément la tableau suivant :
i Cr1 (i)
25 7.98%
29 9.21%
30 7.94%
36 4.52%
37 10.34%
40 9.53%

2
15. La contribution moyenne d’un “individu” à la formation d’un axe α vaut
n
1X 1
Crα (i) = = 2.04%
n i=1 n

En notant, d’après l’annexe 3, tous les moineaux dont la contribution est supérieure à 2.04%, on aboutit au
tableau suivant :
Axe factoriel 1 Axe factoriel 2
Coord. négative Coord. positive Coord. négative Coord. positive
2 (2.7%), 4 (3.1%) 6 (2.1%), 9 (4.2%) 9 (2.4%), 14 (7.6%) 10 (6.8%), 11 (5.1%)
25 (8%), 30 (7.9%) 13 (3.2%), 20 (2.7%) 34 (9.9%), 39 (3.2%) 21 (4.4%), 26 (2.4%)
37 (10.4%), 39 (2.1%) 26 (2.6%), 29 (9.2%) 46 (4.3%) 31 (31.4%)
45 (3.6%) 36 (4.5%), 40 (9.6%)
49 (2.6%)
16. Concernant l’axe 1, on peut observer des contributions assez homogènes traduisant le fait que deux groupes
d’individus contribuent à la formation de cet axe. Un premier groupe, constitué des moineaux 2,4,25,30,37,39, et
45 contribue pour 37.8%, et s’oppose à un deuxième groupe, constitué des moineaux 6,9,13,20,26,29,36,40, et 49,
lequel contribue pour 40.7%. Par conséquent, le premier axe est un axe robuste. Concernant l’axe 2, on peut noter
une situation complètement différente due à la présence d’un moineau dont la contribution est anormalement
élevée. Il s’agit du moineau 31 dont la contribution est de 31.4%. Dans ce cas de figure, il serait opportun de
placer ce moineau en individu supplémentaire afin qu’il ne participe plus à la création des axes factoriels.
17. D’une manière générale, il est impossible de se rendre compte visuellement de la qualité de représentation d’un
individus dans un plan factoriel. Cette situation s’adapte bien évidemment au plan factoriel principal représenté
ici.
18. La qualité de représentation se calcule selon la formule suivante :

Ψ2α (i)
Qualα (i) =
~ i k2
kGE
~ i . Pour le moineau 12, on
Pour obtenir le dénominateur, il convient de calculer les coordonnées du vecteur GE
obtient :
   
(160 − 157.98)/3.62 0.5580
 (244 − 241.33)/5.02   0.5319 
~ 12 = 
   
GE  (31.1 − 31.46)/0.79 =
  −0.4557 

 (18.6 − 18.47)/0.56   0.2321 
(20.5 − 20.83)/0.98 −0.3367
Finalement, on obtient

~ 12 k2 = 0.9692
kGE
Comme on a Ψ1 (12) = 0.27, on en déduit que

Qual1 (12) = 7.52% Qual2 (12) = 10.57% Qual1×2 (12) = 18.09%


19. A partir du tableau de l’annexe 3, on note que les moineaux 1,3,5,8,12,21,34,35,38,41,42, et 43 présentent une
qualité de représentation sur le plan principale qui est moyenne, médiocre ou très médiocre. On repère sur le
graphique ces différents points afin de ne pas en tenir compte lors de l’interprétation.
20. Maintenant, à partir de la représentation graphique, on note l’existence de plusieurs groupes de moineaux. Le
premier est constitué des moineaux 25,30 et 37 ; le second est constitué des moineaux 29 et 40 ; un troisième
est constitué du moineau 31 ; un quatrième est constitué des moineaux 22,7,27,15,47,16,18,19,39,2,4 et 45 ; un
cinquième groupe est constitué des moineaux 33,32,48,44,46,24,28,6,49,9,20,13,26 et 36 (Attention, la constitution
de ces groupes est totalement arbitraire). Parmi ces groupes, on peut noter le caractère particulier des trois
3
premiers groupes. On peut observer à partir des données initiales que le premier groupe est constitué de trois
moineaux dont les caractéristiques sont plus faibles que pour les autres ; pour le second groupe, les moineaux
29 et 40 présentent des caractéristiques plus fortes que pour les autres moineaux ; enfin, concernant le troisième
groupe, c’est-à-dire le moineau 31, on observe qu’il présente un longueur de bréchet importante par rapport à
l’ensemble de l’échantillon (23.1 mm pour une moyenne de 20.83 mm).
21. La qualité de représentation des variables dans un plan factoriel se mesure (dans le cadre d’une ACPN) par
rapport à leur proximité au cercle de corrélation. Ainsi, plus un point-variable est proche du cercle, et meilleure
est la qualité de représentation. Dans l’étude menée ici, l’ensemble des variables sont bien représentées.
22. La corrélation entre une variable et un facteur α s’exprime en fonction de l’angle entre le vecteur-variable et l’axe
factoriel α. Plus cet angle est faible, et plus la variable est corrélée au facteur. Néanmoins, cette interprétation
est convenable dans la mesure où la variable est correctement représentée.
23. La qualité de représentation des variables sur un axe α est

Qualα (j) = ϕ2α (j)


Pour obtenir la qualité de représentation d’une variable sur un plan, il suffit d’additionner la qualité de représenta-
tion sur chacun des axes constituant le plan factoriel :

Qualα1 ×α2 (j) = ϕ2α1 (j) + ϕ2α2 (j)


Finalement, on obtient
j Qual1 (j) Qual2 (j) Qual1×2 (j)
1 73.96 0.16 74.12
2 77.44 4.84 82.28
3 73.96 5.76 79.72
4 81.00 1.69 82.69
5 57.76 40.96 98.72
24. Graphiquement, on observe aisément que les variables V1, V2, V3, et V4 sont corrélées fortement et positivement
avec le premier facteur. Concernant la variable V5, elle est aussi corrélée positivement avec le premier facteur,
mais plus faiblement. Concernant le second facteur, on note que la variable V5 est corrélée moyennement et
positivement avec ce dernier, tandis que les autres variables sont très faiblement corrélées avec celui-ci. En
conservant comme seuil de corrélation 60%, on obtient le tableau suivant :

Facteur 1 Facteur 2
Corrélation négative Corrélation positive Corrélation négative Corrélation positive
V1 (86%), V2 (88%) V5 (64%)
V3 (86%), V4 (90%)
V5 (76%)

25. On retrouve pour le premier facteur la présence d’un effet de taille comme le suggérait la matrice des
corrélations. Ainsi, ce premier facteur est un facteur d’échelle classant les moineaux de gauche à droite se-
lon la grandeur de leurs caractéristiques. Ainsi, un moineau ayant des caractéristiques faibles sera positionné
à gauche du barycentre, tandis qu’un moineau présentant des caractéristiques fortes sera positionné à droite.
Concernant le second facteur, on note qu’une seule variable est significativement corrélée avec ce dernier. Ainsi,
ce deuxième facteur est un facteur d’échelle classant de bas en haut les moineaux selon la longueur de leur
bréchet.
26. Le groupe constitué des moineaux 25,30, et 37 présente des grandeurs morphologiques faibles pour l’ensemble des
variables actives. A contrario, le groupe constitué des moineaux 29 et 40 présente des grandeurs morphologiques
fortes pour l’ensemble des variables actives. Concernant le moineau 31, il présente typiquement une forte valeur
pour la variable “longueur du bréchet”. Le quatrième groupe présente des données morphologiques inférieures à
la moyenne tandis que le cinquième groupe présente des données supérieures à la moyenne.
27. On observe clairement que les moineaux qui présentent des données morphologiques extrêmes sont morts. C’est
en particulier le cas des moineaux 25,30,37,29,40,34, et 31.
4
Partie B
Analyse Factorielle des Correspondances

1. Dans le cadre d’une AFC, les profils-lignes (resp. les profils-colonnes) représentent les distributions conditionnelles
de Y sachant X (resp. de X sachant Y ).
2. Le nuage des profils-lignes (resp. des profils-colonnes) sera représenté dans R13 (resp. dans R7 ).
3. Le barycentre des profils-lignes (resp. des profils-colonnes) est la distribution marginale de Y (resp. la distribution
marginale de X). Ainsi, on obtient :
 
0.0879

 0.1210 


 0.0529 
  

 0.0699 
 0.1531

 0.1248 


 0.1172 


 0.0473 


 0.1389 

G` = 
 0.0350 
 et Gc = 
 0.1786 


 0.0633 


 0.1361 


 0.1040 

 0.1002 

 0.0671 
 0.1758

 0.1361 

 0.0227 
0.0681
4. Pour le nuage des profils-lignes, la matrice des pondérations est une matrice diagonale Dn dont la diagonale est
constituée par les coefficients de la distribution marginale de X. Pour le nuage des profils-colonnes, la matrice des
pondérations est une matrice diagonale Dp dont la diagonale est constituée par les coefficients de la distribution
marginale de Y .
5. Pour le nuage des profils-lignes, la métrique asociée à l’espace de représentation sera Mp = Dp−1 , tandis que
pour le nuage des profils-colonnes, la métrique associée à l’espace de représentation sera Mn = Dn−1 . Dans l’un
et l’autre cas, cela revient à inverser chacun des coefficients de la diagonale des matrices de pondérations.
6. Le nombre d’axes factoriels dans le cas d’une AFC est donné selon la formule

N = min(n − 1, p − 1)
où n et p désignent respectivement le nombre de modalités des variables X et Y . Dans le cas présent, on a
clairement n = 7 et p = 13. Par conséquent, on doit trouver 6 axes factoriels.
7. On a

6 Pα
X λα i=1 λi
I= λα P I(α) = P IC(α) =
α=1
I I

Par conséquent, on obtient

α λα PI(α) PIC(α)
1 0.2417 49.73 49.73
2 0.1480 30.46 80.19
3 0.0406 8.36 88.55
4 0.0379 7.81 96.36
5 0.0126 2.59 98.95
6 0.0051 1.05 100.00
Inertie 0.4859
5
8. L’inertie moyenne se calcule comme suit :

6
1X
Imoy = λα
6 α=1

Dans le cas présent, cette inertie moyenne vaut Imoy = 0.0810. Selon le critère de la moyenne, on est amené à
conserver les deux premier axes factoriels.
9. (a) La formule permettant de calculer la contribution pour les profils-colonnes est

ϕ2α (j)
Crα (j) = f.j
λα
(b) Dans le cas présent, on obtient :

ϕ21 (1) 0.862


Cr1 (1) = f.1 = 0.0879 × ≈ 26.90%
λ1 0.2417
et

ϕ22 (5) 0.532


Cr2 (5) = f.5 = 0.1248 × ≈ 23.69%
λ2 0.1480
Par conséquent, on obtient le tableau complet suivant

Profils-colonnes Coordonnées Contributions Qualités de représentation


1 2 3 4 5 1 2 3 4 5 1 2 3 4 5
Elégant -0.86 0.31 0.15 0.23 -0.09 26.9 5.5 4.7 12.4 6.0 0.81 0.10 0.02 0.06 0.01
Arrogant 0.01 0.51 -0.28 -0.23 0.02 0.0 21.5 24.0 17.5 0.2 0.00 0.66 0.20 0.14 0.00
Sexy -0.95 0.18 0.17 0.07 -0.01 19.7 1.2 3.8 0.7 0.0 0.93 0.03 0.03 0.01 0.00
Retors -0.27 -0.02 -0.34 0.04 0.12 2.1 0.0 20.4 0.3 8.6 0.32 0.00 0.53 0.01 0.07
Insouciant -0.04 -0.53 0.12 -0.05 0.07 0.1 23.7 4.7 0.8 5.1 0.01 0.92 0.05 0.01 0.02
Cupide -0.14 0.11 0.00 -0.17 -0.25 0.4 0.4 0.0 3.4 23.1 0.16 0.09 0.00 0.23 0.52
Lâche -0.59 -0.26 -0.28 0.30 0.21 5.0 1.6 6.7 8.1 12.6 0.50 0.10 0.11 0.13 0.07
Ennuyeux 0.23 -0.02 0.19 0.09 0.06 1.3 0.0 5.6 1.5 1.5 0.44 0.00 0.31 0.08 0.03
Efficace 0.65 0.42 0.17 0.04 -0.03 18.2 12.3 7.7 0.5 0.9 0.67 0.28 0.05 0.00 0.00
Fainéant -0.30 -0.56 0.12 -0.47 -0.05 2.5 14.2 2.3 39.7 1.5 0.14 0.49 0.02 0.35 0.00
Travailleur 0.50 0.03 0.10 0.05 0.11 14.0 0.1 3.3 0.9 12.0 0.91 0.00 0.04 0.01 0.04
Intelligent 0.53 0.30 0.04 0.02 -0.11 2.6 1.3 0.1 0.0 2.0 0.74 0.23 0.00 0.00 0.03
Courageux 0.50 -0.63 -0.32 0.28 -0.22 7.0 18.1 16.7 14.2 26.5 0.28 0.45 0.11 0.09 0.06

(c) La contribution moyenne pour les profils-colonnes vaut 1/p = 7.69%. Ainsi, on obtient pour les deux axes
principaux le tableau suivant

Axe Factoriel 1 Axe Factoriel 2


Coord. négative Coord. positive Coord. négative Coord. positive
Elégant (27.1%) Efficace (18.2%) Insouciant (23.6 %) Arrogant (21.5%)
Sexy (19.7%) Travailleur (14%) Fainéant (14.2%) Efficace (12.3%)
Courageux (18.1%)

(d) La formule permettant de calculer la qualité de représentation d’un profil-colonne dans un plan factoriel est

Qualα1 ×α2 (j) = Qualα1 (j) + Qualα2 (j)


(e) Les profils-colonnes qui sont bien représentés dans le plan principal sont : Elégant (91%), Arrogant (66%),
Sexy (96%), Insouciant (93%), Lâche (60%), Efficace (95%), Fainéant (63%), Travailleur (91%), Intelligent
(97%), et Courageux (73%).
10. (a) La contribution moyenne pour les profils-lignes vaut 1/n = 14.28%. Ainsi, on obtient pour les deux axes
principaux le tableau suivant

6
Axe Factoriel 1 Axe Factoriel 2
Coord. négative Coord. positive Coord. négative Coord. positive
France (30.4%) Allemagne (18.8%) Irelande (35.4 %) France (13.4%)
Italie (25.4%) Hollande (13.5%) Allemagne (36.3%)

(b) Les profils-lignes qui sont bien représentés dans le plan principal sont : France (95%), Italie (90%), Angleterre
(71%), Irelande (77%) et l’Allemagne (92%). Notons que l’on peut également conserver la Hollande dont la
qualité est très proche du seuil des 60% avec une qualité égale à 58%.
11. On observe dans un premier temps que l’ensemble des pays bien représentés sont significativement éloignés
du barycentre. Cela signifie que ces pays possèdent des particularités spécifiques par rapport aux qualificatifs
donnés. Par ailleurs, on peut noter que trois sous-groupes semblent se distinguer : le sous-groupe des pays latins
(France et Italie), le sous-groupe des pays germaniques (Allemagne et Hollande), et enfin le sous-groupe des
pays anglo-saxons (Angleterre et Irelande). Cela signifie que les pays de chacun des groupes se ressemblent par
rapport aux qualificatifs.
12. De même que précédemment, on peut observer que les modalités qui sont bien représentées sont éloignées
du barycentre traduisant ainsi une spécificité par rapport aux pays. Par ailleurs, on peut noter l’existence de
sous-groupes pour les profils-colonnes : un sous-groupe constitué des modalités élégant et sexy, un sous-groupe
constitué des modalités fainéant et insouciant, et enfin un sous-groupe constitué des modalités intelligent et
efficace.
13. A partir des tableaux 9-c et 10-a, on peut observer que le premier axe factoriel oppose d’un côté les pays latins
comme la France et l’Italie, dont les habitants sont qualifiés d’élégant, de sexy, c’est-à-dire des qualificatifs
traduisant des caractéristiques superficielles, de peu efficaces, pas vraiment intelligents, et peu travailleurs, et de
l’autre les pays germaniques comme l’Allemagne et la Hollande, dont les habitants sont qualifiés d’efficace et de
travailleurs, c’est-à dire des qualificatifs traduisant des caractéristiques intellectuelles, mais pas élégant et peu
sexy. Cette observation visuelle est confirmée via l’annexe 7. Quant à l’axe 2, il semble opposer l’Ireland dont
les habitants sont qualifiés de Fainéants, d’insouciants, mais courageux, à l’Allemagne dont les habitants sont
qualifiés d’arrogants et d’efficaces. Ces commentaires sont aussi confirmés par l’annexe 7.

Vous aimerez peut-être aussi