Vous êtes sur la page 1sur 3

Analyse en Composantes Principales

Solution Sommaire du TD

EHTP : Analyse de données 2ème année

Analyse de l’intelligence chez 40 étudiants

3.1 Les données


P
sont elles homogènes ? Fallait il diagonaliser la matrice de variance
covariance ou la matrice de corrélation Ω ? Quels risques aurions nous couru si nous
avons opté pour l’autre choix ?

Les données sont hétérogènes. D’une part, les unités de mesure sont différentes et en
plus la variance du MRI est plus grande que les variances des autres variables. Ainsi, Il
fallait donc diagonaliser la matrice de corrélation (i.e. on est ramené à centrer
réduire les variables initiales).

Si on a opté pour la diagonalisation de la matrice de variance covariance (variable


centrée uniquement), l’axe de MRI expliquerait presque la totalité de la variance, en
plus la proximité entre individus n’aurait pas de sens à cause de l’hétérogénéité des
variables

3.2 Justifier, a posteriori et d’après le tableau des valeurs propres, le choix de la matrice
de variance covariance ou la matrice de corrélation Ω ?

Par définition, l’inertie totale n’est que la variance totale et qui n’est que la somme des
variances des variables utilisées initialement pour effectuer l’ACP. Ainsi, dans le cas où
les variables sont centrées réduites, la variance est égale à 1 pour chaque variable
et par conséquent, l’inertie totale égale au nombre de variables dans le cas où elles
sont centrées réduites. Par conséquent, dans notre cas, l’inertie totale est
théoriquement égale à 6, qui est le nombre de variables utilisées.

Si nous avions opté pour la matrice de variance covariance, la trace serait égale à la
somme des variances qui vaut 579.946 + 557.721 + 504.948 + .... + 5.224695e+09, ce qui est trop
loin de 6 = trace de la matrice de corrélation (somme des valeurs propres)

3.3 Considérant le nuage de points à traiter, quelle est la coordonnée de l’étudiant 2M


sur l’axe « MRI »?

Les variables ont été centrées réduites. Ainsi, la coordonnée de l’étudiant 2M sur l’axe
« MRI » sera : (1001121 - 908755.0) / 72282.0=1.28

3.4 Quelle est la valeur numérique de l’inertie du nuage des points traité ?

Les variables sont centrées réduites et la matrice de corrélation a été utilisée lors de l’ACP.
Par conséquent, l’inertie totale est égale à la somme des valeurs propres et qui vaut 6.

3.5 Les données sont-elles factorisables ?

Vérifions les trois conditions recommandées lors de l’exécution de l’ACP sous R.

a) Plusieurs variables sont corrélées (ou anti-corrélées) ?


En analysant la matrice des corrélations entres les variables initiales, on
constate qu’on a presque le 1/3 des corrélations qui dépasse 0.5. Ce qui prouve que
certaines variables initiales sont corrélées entre elles.

1
b) L'indice de KMO (Kaiser-Meyer-Olkin) qui tend vers 1 ?
0.50 et moins ==> misérable
entre 0.60 et 0.70 ==> médiocre
entre 0.70 et 0.80 ==> moyen
entre 0.80 et 0.90 ==> méritoire
plus que 0.9 ==> merveilleux.

D’après les sorties de l'ACP, on constate que l’indice de KMO est de 0.479. Par
conséquent, cet indice est misérable dans notre cas. Ainsi, cette condition
est rejetée.

c) La signification de Bartlett tend vers 0 ?


(test de sphéricité) Comparer la matrice de corrélation à la matrice
identité à l'aide de Khi2.
Si la signification de Bartlett :
tend vers 0 ==> c'est très significatif,
inférieur à 0.05 ==> significatif,
entre 0.05 et 0.10 ==> acceptable
au dessus de 0.10 ==> on rejette.

D’après les sorties de l'ACP, on constate que la signification du test de Bartlett


vaut 0.000. Par conséquent, la signification du test est excellente.

Ainsi, on a deux conditions sont vérifiées parmi les trois recommandées. Par conséquent, les
données sont factorisables.

3.6 Combien de CP retiendrez-vous (critère de valeur propre moyenne, critère de Kaiser,


critère de Cattel) ? justifiez votre réponse

* Critère 1 : Critère de la valeur propre moyenne


On retient les composantes principales dont les valeurs propres dépassent la valeur
propre moyenne.
=====> on retient DEUX Composantes principales

* Critère 2 : Critère de Kaiser


Lorsque les données sont centrées réduites, on retient les composantes principales tel que
la valeur propre associée dépasse strictement 1.
=====> on retient DEUX Composantes principales

* Critère 3 : Critère de Cattel ou de coude


On retient les q premières composantes principales tel que l'apport en variance
des dernières CP est remarquablement plus faible par rapport aux premières.
=====> on retient DEUX Composantes principales

* Critère 4 : Critère de la variance expliquée


Si on se fixe un maximum de perte d'information de 10% (variance résiduelle).
On retiendra par les q premières composantes principale tel que Q = 90%.
=====> on retient TROIS (dans le cas Q=90%) ou DEUX (dans le cas Q=80%) Composantes
principales

3.7 Donner un sens au premier axe factoriel ?

D’après le cercle de corrélation (projection des variables sur le plan (O,U1,U2)),


Les variables PIQ (score de performance), FSIQ (score global) et VIQ (score
verbal) sont corrélées positivement avec l’axe 1. Ainsi, cet axe exprime ce groupe de
variables qui expriment l’intelligence, ainsi qu’on peut nommer l’axe 1 l’axe de
l’intelligence.

2
3.8 Donner un sens au deuxième axe factoriel ?

D’après le cercle de corrélation (projection des variables sur le plan (O,U1,U2)),


Les variables Weight (poids) et Height (taille) sont corrélées avec l’axe 2. Ce groupe de
variables exprime l’état physique des étudiants. L’axe 2 explique donc le
physique. On note aussi que la variable MRI est plutôt corrélée avec l’axe 2
(corrélation d’environ 0.7) que l’axe 1 (corrélation d’environ 0.5). Ceci montre
que la taille du cerveau est plutôt liée au physique de l’individu qu’à sa capacité
mentale.

3.9 Quel est le pourcentage de variance expliqué par la 1ère CP ? par la 2ème CP ? par
le plan dirigé par les deux premiers axes (O,U1,U2)?

D’après les sorties de l'ACP dans le tableau des valeurs propres, on constate
que le pourcentage de variance expliquée par la première composante principale
est de 49.6% et celui expliqué par la deuxième composante principale est de
34.6%. Par conséquent, le plan dirigé par les deux premiers axes (O,U1,U2)
explique 84.2%.

3.10 Sur le plan (O,U1,U2), y a-t-il des variables mal représentées ? des individus mal
représentés ?

Pour les variables :


===================
Une variable est bien représentée si elle est située loin du centre du cercle de
corrélation et s’approche du bord du cercle. Ainsi, toutes les variables sont
bien représentées dans notre cas.

Pour les individus :


===================
Un individu est bien représenté sur le plan (O,U1,U2) si le cosinus carré de
l’angle entre l’individu et le plan n’est pas faible. Par convention, si le cosinus
carré n'est pas faible et tend vers 1. Ainsi, on constate que tous les individus sont
bien représentés.

3.11 Selon le cercle de corrélation (O,U1,U2), que peut on dire de la corrélation entre :

a. Height et Weight ? Corrélés : angle tend vers 0 (r=0.63)


b. FSIQ et VIQ ? Corrélés : angle tend vers 0 (r=0.94)
c. PIQ et Height ? Non corrélés : angle presque droit (r=-0.07)
d. MRI et Weight ? Corrélés mais pas fortement : angle proche de 40° (r=0.43)
e. MRI et PIQ ? Corrélés mais pas fortement : angle proche de 50° (r=0.39)

Vérifier vos résultats sur la matrice de corrélation

3.12 Analyser la projection des individus et répondre aux questions suivantes :

a. Que peut-on dire de la répartition H/F ?


==> C’est une répartition selon le physique (axe 2) : les hommes sont de grand
physique, les femmes le contraire
b. Citez 2 individus de grand physique ? 2 autres de petit physique ?
==> deux individus de grand physique : 28M et 33M contre deux individus de petit
physique : 1F et 23F
c. Citez 2 individus de grand indicateur d’intelligence ?
2 autres de faibles indicateurs d’intelligence ?
==> deux individus de grands indicateurs d’intelligence : 12M et 3M contre deux
individus de faibles indicateurs d’intelligence : 20M et 27F

Vous aimerez peut-être aussi