Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Partie A
Analyse en Composantes Principales
Le tableau de données suivant regroupe 10 étudiants sur lesquels on a observé la note sur 20 de quatre modules : le
module de Statistique, le module d’Informatique, le module de Mathématiques et le module d’Anglais.
On souhaite réaliser une Analyse en Composantes Principales Normée (ACPN) sur ce tableau de données afin d’en
extraire une information.
1. Indiquer dans quel espace doit être représenté le nuage des individus? Justifier votre réponse.
2. Indiquer dans quel espace doit être représenté le nuage des variables? Justifier votre réponse.
3. Compléter le tableau suivant :
11. Quelle est la propriété qui permet sans calcul de déterminer l’inertie totale? Combien vaut-elle dans le cas
présent ?
12. En déduire pour chacun des axes les pourcentages d’inertie, puis les pourcentages d’inertie cumulés.
13. Selon le critère de la moyenne combien d’axes doit-on conserver? Justifier votre réponse.
14. Représenter le diagramme des valeurs propres. Ce diagramme confirme-t-il la réponse fournie à la question
précédente ? Justifier votre réponse.
A partir de ce tableau, identifier les deux premières composantes principales :Ψ1 et Ψ2 .Que représentent-elles?
16. Ces composantes principales vérifient deux propriétés statistiques. Indiquer ces deux propriétés puis vérifier
que ces dernières sont bien satisfaites.
17. Comment à partir de la représentation graphique des individus dans le plan factoriel principal (et donc sans
calcul) peut-on identifier (sous réserve d’une bonne qualité de représentation) les individus qui contribuent
fortement à la formation de chacun des axes ? Justifier votre réponse.
18. On souhaite déterminer la contribution des individus à la formation de chacun des axes.Dans ce but, rappeler
la formule qui permet de réaliser ces calculs, puis compléter le tableau de la page suivante. A partir des valeurs
numériques obtenues ci-dessus, déterminer explicitement les individus qui contribuent significativement à la
formation des deux premiers axes (on pourra dissocier les individus qui présentent une coordonnée positive de
2
ceux qui présentent une coordonnée négative et ce pour chacun des axes).
Individus Cri (1)% Cri (2)%
1 2.09
2 13.85 8.64
3 9.90 3.78
4 32.73 3.54
5
6 34.29
7 0.03 23.50
8 0.31 0.18
9 3.34 5.43
10 0.00 0.95
19. On souhaite maintenant déterminer les qualités de représentation des individus sur chacun des axes puis sur le
plan principal.Dans ce but, rappeler les formules permettant de réaliser ces calculs, puis compléter le tableau
suivant :
Individus Quali (1)(%) Quali (2)(%) Quali (1 × 2)(%)
1 13.59 77.80
2 20.84
3 49.81 13.87 63.68
4 86.83 6.84 93.67
5 92.11 7.47 99.58
6 22.05 69.29 91.34
7
8 4.21 1.82
9 44.03 52.31 96.34
10 0.00 6.96 6.96
Note: on pourra s’aider de la matrice suivante :
1.0320 0.8913 −0.3637 −0.9400
0.2089 0.9757 −0.4221 2.1178
0.0054
−0.5989 1.7369 0.5889
0.8104
−1.8924 1.5035 −0.7475
−0.4200 1.5099 −1.5307 1.1212
Z= −2.1743 −0.8801
0.9978 0.5096
−0.2276 −1.2118
1.2988 0.10404
−0.1619 −0.85198 −0.7138 −0.3284
0.5481 0.72264 −0.6166 −0.4643
−1.1478 0.01968 −0.3637 −0.6455
20. Quels sont les individus qui sont bien et très bien représentés dans le plan principal?
21. On possède les deux premiers vecteurs propres correspondant au nuage des individus :
−0.0540 −0.7359
−0.6963 −0.0691
u1 = et u2 =
0.6474 0.1712
−0.3051 0.6514
En déduire les coordonnées des variables sur les deux premiers axes. Vos calculs sont-ils en accord avec la
représentation du nuage des variables dans le premier plan factoriel ?
22. A quoi mesure-t-on la qualité de représentation des variables dans le plan principal? En déduire les variables
bien ou très bien représentées.
23. A quoi mesure-t-on la corrélation entre une variable et un axe ou entre deux variables. Quelle condition doit
être satisfaite afin que cette mesure soit fiable ?
24. Identifier les variables corrélées avec chacun des axes (on précisera si la corrélation est positive ou négative, et
l’on s’aidera des valeurs numériques des coefficients associés).
25. Caractériser les deux axes factoriels.
3
26. En déduire une interprétation de la position des individus dans le plan factoriel principal.
4
Partie B
Analyse Factorielle Discriminante
Considérons un échantillon de n individus sur lesquels on observe p + 1 variables : p variables quantitatives notées
X1 , X2 , ..., Xp et une variable qualitative Y présentant k modalités. Les n individus de l’échantillon peuvent alors être
séparés en k classes notées C1 , C2 , ..., Ck correspondant aux k modalités de la variable Y . Selon une approche
géométrique, ces individus sont représentés par un point de l’espace Rp auquel on associe un identifiant caractérisé par
un entier compris entre 1 et k afin d’identifier la classe d’appartenance de chacun des individus.
L’Analyse Factorielle Discriminante (AFD) est une méthode qui présente deux objectifs : le premier, descriptif,
consiste à chercher dans l’espace Rp les directions qui séparent au mieux (selon un critère) les k classes d’individus ; le
second, prédictif, consiste à associer un nouvel individu dont on connait les valeurs des p variables quantitatives à une
des classes Cl pour l = 1, 2, . . . , k. Selon cette seconde approche, l’AFD peut être vue comme une régression dont la
variable à expliquer est qualitative.
L’objectif de cet exercice est de réaliser une AFD sur un échantillon de 11 étudiants (n = 11) sur lesquels on observe
deux variables explicatives (p = 2) : la note du module de Mathématiques (X1 ) et la note du module de Français (X2 ).
Par ailleurs, on désigne par Y la variable qualitative indiquant l’origine géographique de ces étudiants dont les
modalités sont : 1 si l’étudiant vient de Seine-Maritime et 2 si l’étudiant vient du Calvados (on suppose que les
étudiants sur lesquels on travaille viennent de l’un ou l’autre de ces départements). Notons que dans le cas présent, il
existe un unique axe qui sépare au mieux les individus des deux classes. Les données concernant cet exemple sont
regroupées dans le tableau suivant :
Individus X1 X2 Y
1 7 12 1
2 7.5 13.5 1
3 8 11 1
4 9 13 1
5 10.5 15 1
6 11 12.5 1
7 12.5 7 2
8 13 8.5 2
9 14 6 2
10 14.5 8.5 2
11 15 9 2
w = W −1 u
Déterminer le vecteur w, puis représenter l’axe associé dans le repère de centre G
9. On dispose de deux nouveaux étudiants dont on connaît les notes. On voudrait pouvoir identifier leur
département d’origine. Dans ce but, il convient de définir une règle d’allocation. La règle la plus simple est la
règle géométrique qui consiste à associer le nouvel individu à la classe C1 si on a
d2Mp (x∗ , G∗1 ) < d2Mp (x∗ , G∗2 )
où x∗ représente les coordonnées du nouvel individu dans le repère de centre G,G∗1 et G∗2 désignent les
barycentres partiels des classes C1 et C2 dans le repère de centre G, et où Mp est la métrique de Mahalanobis
définie dans la question 8.
2
En faisant usage du produit scalaire matriciel, montrer que l’écart d2Mp (x∗ , G∗1 ) − d2Mp (x∗ , G∗2 ) s’exprime
comme suit: f (x∗ ) := d2Mp (x∗ , G∗1 ) − d2Mp (x∗ , G∗2 ) = (x∗ )t W −1 (G∗1 − G∗2 )
10. Identifier l’ensemble des points de R2 pour lesquels on a f (x∗ ) = 0. Représenter cet ensemble sur le
graphique.
11. Considérons les étudiants A et B dont les notes sont respectivement (7,11) et (7,4). Trouver à l’aide de la
fonction f une prévision de leur département d’origine.
12. Confirmer votre prédiction par une méthode graphique en plaçant les points correspondants dans le repère de
centre G.