Vous êtes sur la page 1sur 4

I.U.

T de Caen STID 2ème année


Département STID Année Universitaire 2004-2005
Responsable de cours : Alain LUCAS

7. Dans le cadre de l’ACP normée, il convient de diagonaliser une matrice. Laquelle ? Justifier à l’aide d’un produit
matriciel votre réponse (pas de valeurs numériques).
Analyse des Données 8. L’utilisation d’un logiciel a permis d’obtenir la matrice des corrélations suivantes :

Examen terminal - Durée 3h 


1.0000 0.1513 −0.0863 −0.3743

 0.1513 1.0000 −0.7679 0.3340 
∆ :=  
– Seule la calculatrice type collège est autorisée.
 −0.0863 −0.7679 1.0000 −0.0829 
– Seul le cours est autorisé. −0.3743 0.3340 −0.0829 1.0000
– On rappelera les formules utilisées.
– On conservera quatre chiffres après la virgule.
– On pourra répondre directement sur le document. Commenter brièvement dans le contexte ces coefficients.
9. La réalisation de l’ACP a donné les valeurs propres suivantes :
Partie A
Analyse en Composantes Principales λ1 = 1.8721 λ2 = 1.3656 λ3 = 0.6013 λ4 = . . .
Calculer la dernière valeur propre.
10. Calculer l’inertie associée à chacun des axes.
Le tableau de données suivant regroupe 10 étudiants sur lesquels on a observé la note sur 20 de quatre modules :
le module de Statistique, le module d’Informatique, le module de Mathématiques et le module d’Anglais. 11. Quelle est la propriété qui permet sans calcul de déterminer l’inertie totale ? Combien vaut-elle dans le cas
présent ?
identifiant Statistique Informatique Mathématiques Anglais 12. En déduire pour chacun des axes les pourcentages d’inertie, puis les pourcentages d’inertie cumulés.
1 14.97 12.4 11.55 8.24
13. Selon le critère de la moyenne combien d’axes doit-on conserver ? Justifier votre réponse.
2 13.15 12.55 11.4 13.64
3 12.7 9.75 16.95 10.94 14. Représenter le diagramme des valeurs propres. Ce diagramme confirme-t-il la réponse fournie à la question
4 14.48 7.45 16.35 8.58 précédente ? Justifier votre réponse.
5 11.76 13.5 8.55 11.88 15. Les composantes principales issues de l’analyse sont les suivantes :
6 7.88 9.25 15.05 10.8
identifiant Comp.1 Comp.2 Comp.3 Comp.4
7 15.56 11 11.9 7.76
8 12.33 9.3 10.65 9.32 1 -0.6250 -1.4957 0.0011 -0.4976
9 13.9 12.1 10.9 9.08 2 -1.6100 1.0861 1.3466 0.2721
10 10.15 10.85 11.55 8.76 3 1.3616 0.7184 1.0829 -0.4238
4 2.4754 -0.6950 0.5518 0.3769
5 -2.3618 0.6727 -0.1164 0.1093
On souhaite réaliser une Analyse en Composantes Principales Normée (ACPN) sur ce tableau de données afin d’en 6 1.2207 2.1638 -0.7192 -0.2610
extraire une information. 7 0.0798 -1.7913 -0.0071 -0.0514
8 0.2400 -0.1581 -0.7010 0.8919
1. Indiquer dans quel espace doit être représenté le nuage des individus ? Justifier votre réponse. 9 -0.7903 -0.8614 -0.1427 -0.1775
2. Indiquer dans quel espace doit être représenté le nuage des variables ? Justifier votre réponse. 10 0.0097 0.3605 -1.2960 -0.2389
3. Compléter le tableau suivant : A partir de ce tableau, identifier les deux premières composantes principales : Ψ1 et Ψ2 . Que représentent-elles ?
16. Ces composantes principales vérifient deux propriétés statistiques. Indiquer ces deux propriétés puis vérifier que
Variables Moyennes Ecarts types Minimum Maximum ces dernières sont bien satisfaites.
Statistique 12.688 2.2113 · 15.56 17. Comment à partir de la représentation graphique des individus dans le plan factoriel principal (et donc sans
Informatique · 1.7782 7.45 · calcul) peut-on identifier (sous réserve d’une bonne qualité de représentation) les individus qui contribuent
Mathematiques · · · · fortement à la formation de chacun des axes ? Justifier votre réponse.
Anglais 9.90 · · 13.64 18. On souhaite déterminer la contribution des individus à la formation de chacun des axes. Dans ce but, rappeler
la formule qui permet de réaliser ces calculs, puis compléter le tableau de la page suivante. A partir des valeurs
numériques obtenues ci-dessus, déterminer explicitement les individus qui contribuent significativement à la
Commenter succinctement dans le contexte les valeurs numériques obtenues.
formation des deux premiers axes (on pourra dissocier les individus qui présentent une coordonnée positive de
4. Déterminer le barycentre du nuage des individus. ceux qui présentent une coordonnée négative et ce pour chacun des axes).
5. Déterminer la matrice des écarts-types.
6. Quel est le rôle du barycentre et de la matrice des écarts-types en ACP ?

1 2
individus Cr1 (i) (%) Cr2 (i) (%) 23. A quoi mesure-t-on la corrélation entre une variable et un axe ou entre deux variables. Quelle condition doit être
1 2.09 · satisfaite afin que cette mesure soit fiable ?
2 13.85 8.64 24. Identifier les variables corrélées avec chacun des axes (on précisera si la corrélation est positive ou négative, et
3 9.90 3.78 l’on s’aidera des valeurs numériques des coefficients associés).
4 32.73 3.54 25. Caractériser les deux axes factoriels.
5 · · 26. En déduire une interprétation de la position des individus dans le plan factoriel principal.
6 · 34.29
7 0.03 23.50
8 0.31 0.18
9 3.34 5.43
10 0.00 0.95
19. On souhaite maintenant déterminer les qualités de représentation des individus sur chacun des axes puis sur le
plan principal. Dans ce but, rappeler les formules permettant de réaliser ces calculs, puis compléter le tableau
suivant :

individus Quali (1) (%) Quali (2) (%) Quali (1 × 2) (%)


1 13.59 77.80 ·
2 · 20.84 ·
3 49.81 13.87 63.68
4 86.83 6.84 93.67
5 92.11 7.47 99.58
6 22.05 69.29 91.34
7 · · ·
8 4.21 1.82 ·
9 44.03 52.31 96.34
10 0.00 6.96 6.96
Note : on pourra s’aider de la matrice suivante :
 
1.0320 0.8913 −0.3637 −0.9400

 0.2089 0.9757 −0.4221 2.1178 


 0.0054 −0.5989 1.7369 0.5889 


 0.8104 −1.8924 1.5035 −0.7475 

 −0.4200 1.5099 −1.5307 1.1212 
Z= 

 −2.1743 −0.8801 0.9978 0.5096 


 1.2988 0.10404 −0.2276 −1.2118 


 −0.1619 −0.85198 −0.7138 −0.3284 

 0.5481 0.72264 −0.6166 −0.4643 
−1.1478 0.01968 −0.3637 −0.6455
20. Quels sont les individus qui sont bien et très bien représentés dans le plan principal ?
21. On possède les deux premiers vecteurs propres correspondant au nuage des individus :
   
−0.0540 −0.7359
 −0.6963   −0.0691 
u1 = 
 0.6474 
 et u2 = 
 0.1712 

−0.3051 0.6514
En déduire les coordonnées des variables sur les deux premiers axes. Vos calculs sont-ils en accord avec la
représentation du nuage des variables dans le premier plan factoriel ?
22. A quoi mesure-t-on la qualité de représentation des variables dans le plan principal ? En déduire les variables
bien ou très bien représentées.

3 4
Partie B
Individus X1∗ X2∗ Y
Analyse Factorielle Discriminante 1 -4.0909 1.4546 1
2 · 2.9546 1
Considérons un échantillon de n individus sur lesquels on observe p + 1 variables : p variables quantitatives notées 3 -3.0909 · 1
X1 , X2 ,..., Xp et une variable qualitative Y présentant k modalités. Les n individus de l’échantillon peuvent alors être 4 -2.0909 · 1
séparés en k classes notées C1 , C2 ,..., Ck correspondant aux k modalités de la variable Y . 5 -0.5909 4.4546 1
Selon une approche géométrique, ces individus sont représentés par un point de l’espace Rp auquel on associe 6 -0.0909 1.9546 1
un identifiant caractérisé par un entier compris entre 1 et k afin d’identifier la classe d’appartenance de chacun des 7 1.4091 · 2
individus. 8 1.9091 -2.0454 2
L’Analyse Factorielle Discriminante (AFD) est une méthode qui présente deux objectifs : le premier, descriptif, 9 · -4.5454 2
consiste à chercher dans l’espace Rp les directions qui séparent au mieux (selon un critère) les k classes d’individus ; 10 3.4091 · 2
le second, prédictif, consiste à associer un nouvel individu dont on connaı̂t les valeurs des p variables quantitatives à 11 3.9091 -1.5454 2
une des classes Cℓ pour ℓ = 1, 2, · · · , k. Selon cette seconde approche, l’AFD peut être vue comme une régression dont G1 -2.2576 · 1
la variable à expliquer est qualitative. G2 · -2.7454 2
L’objectif de cet exercice est de réaliser une AFD sur un échantillon de 11 étudiants (n = 11) sur lesquels on
observe deux variables explicatives (p = 2) : la note du module de Mathématiques (X1 ) et la note du module de 5. Dans un repère orthonormé de centre G, représenter le nuage des individus ainsi que les barycentres partiels. On
Français (X2 ). Par ailleurs, on désigne par Y la variable qualitative indiquant l’origine géographique de ces étudiants pourra identifier chacun des points par le groupe auquel il appartient.
dont les modalités sont : 1 si l’étudiant vient de Seine-Maritime et 2 si l’étudiant vient du Calvados (on suppose que 6. Désignons par Tℓ (ℓ = 1, 2) la matrice des covariances à l’intérieur de la classe Cℓ . Cette matrice est d’ordre 2 × 2
les étudiants sur lesquels on travaille viennent de l’un ou l’autre de ces départements). Notons que dans le cas présent, et admet pour terme général
il existe un unique axe qui sépare au mieux les individus des deux classes. Les données concernant cet exemple sont
regroupées dans le tableau suivant : 1 X ℓ ℓ
tℓj1 j2 = (xij1 − X j1 )(xij2 − X j2 ), pour 1 ≤ j1 , j2 ≤ 2 et ℓ = 1, 2,
nℓ
i∈Cℓ


où X j représente la moyenne de la variable Xj au sein de la classe Cℓ .
Individus X1 X2 Y
En d’autres termes, la matrice T1 (resp. T2 ) est la matrice des covariances associée aux variables X1 et X2
1 7 12 1 calculée sur les individus de la classe C1 (resp C2 ). Compléter les deux matrices suivantes :
2 7.5 13.5 1
3 8 11 1 
2.2222 ·
 
· 0.41

4 9 13 1 T1 = T2 =
0.8472 · · 1.26
5 10.5 15 1
6 11 12.5 1 7. Désignons maintenant par W la matrice des covariances intra-classes. Par définition, cette matrice est obtenue
7 12.5 7 2 comme somme pondérée des matrices T1 et T2 :
8 13 8.5 2
n1 n2
9 14 6 2 W = T1 + T2
10 14.5 8.5 2 n n
11 15 9 2 Calculer W .
8. Identifier l’axe factoriel discriminant (c’est-à-dire l’axe qui sépare au mieux les individus des deux classes) revient
à réaliser une ACP sur la matrice C d’ordre k × p de terme général

1. Déterminer le barycentre G de ce nuage de point. cℓj = X j − X j , pour 1 ≤ ℓ ≤ k et 1 ≤ j ≤ p,
2. Désignons par Gℓ le barycentre partiel des individus de la classe Cℓ (ℓ = 1, 2). Calculer les deux barycentres
représentant les barycentres partiels exprimés dans le nouveau repère, à laquelle on associe la matrice des
partiels G1 et G2 .
pondérations
3. Soit nℓ le nombre d’individus de la classe Cℓ . Calculer la quantité
 
ν1 0 ··· 0
n1 n2
G1 + G2  .. 
n n  0 ν2 . 0 
Dk = 
 . .
,
 .. .. ..
. ..

Que constatez-vous ? . 
4. En se servant du tableau ci-après, exprimer les nouvelles coordonnées des individus ainsi que celles des barycentres 0 · · · 0 νk
partiels dans le repère de centre G : nℓ
où l’on a νℓ = n .

L’ACP est alors réalisée dans l’espace Rp muni d’une métrique particulière dite de Mahalanobis et définie par
Mp = W −1 .
5 6
(a) Dans le cadre de l’exemple, identifier les valeurs numériques intervenant dans les matrices C, Dk et W −1 .
(b) A partir des résultats du cours, indiquer la matrice à diagonaliser (on l’exprimera en fonction des matrices
C, Dk et W −1 avant de donner les valeurs numériques).
(c) Identifier les valeurs propres.
(d) Pour la valeur propre non nulle, trouver un vecteur propre u associé. Par construction, la droite de vecteur
directeur u doit passer par les barycentres partiels G1 et G2 . Vérifier en traçant cette droite dans le repère
de centre G que cette propriété est bien vérifiée.
Rappel : la droite va s’écrire dans le cas présent X2 = aX1 où a est le coefficient issu du vecteur directeur
v = (1, a).
(e) Par définition, l’axe discriminant est caractérisé par un vecteur directeur w obtenu selon le produit matriciel
suivant :

w = W −1 u
Déterminer le vecteur w, puis représenter l’axe associé dans le repère de centre G.
9. On dispose de deux nouveaux étudiants dont on connaı̂t les notes. On voudrait pouvoir identifier leur département
d’origine. Dans ce but, il convient de définir une règle d’allocation. La règle la plus simple est la règle géométrique
qui consiste à associer le nouvel individu à la classe C1 si on a

d2Mp (x∗ , G∗1 ) < d2Mp (x∗ ; G∗2 )

où x∗ représente les coordonnées du nouvel individu dans le repère de centre G, G∗1 et G∗2 désignent les barycentres
partiels des classes C1 et C2 dans le repère de centre G, et où Mp est la métrique de Mahalanobis définie dans
la question 8.
En faisant usage du produit scalaire matriciel, montrer que l’écart d2Mp (x∗ , G∗1 ) − d2Mp (x∗ ; G∗2 ) s’exprime comme
suit :

f (x∗ ) := d2Mp (x∗ , G∗1 ) − d2Mp (x∗ ; G∗2 ) = (x∗ )t W −1 (G∗1 − G∗2 ).

10. Identifier l’ensemble des points de R2 pour lesquels on a f (x∗ ) = 0. Représenter cet ensemble sur le graphique.
11. Considérons les étudiants A et B dont les notes sont respectivement (7, 11) et (7, 4). Trouver à l’aide de la
fonction f une prévision de leur département d’origine.
12. Confirmer votre prédiction par une méthode graphique en plaçant les points correspondants dans le repère de
centre G.

Vous aimerez peut-être aussi