Vous êtes sur la page 1sur 7

ENSA - Agadir

ANNÉE UNIVERSITAIRE 2019-2020

ANALYSE DES DONNÉES


Examen terminal - Durée: 3h

-Seule la calculatrice type collège est autorisée.


-Seul le cours est autorisé.
-On rappellera les formules utilisées.
-On conservera quatre chiffres après la virgule.
-On pourra répondre directement sur le document.

Partie A
Analyse en Composantes Principales

Le tableau de données suivant regroupe 10 étudiants sur lesquels on a observé la note sur 20 de quatre modules : le
module de Statistique, le module d’Informatique, le module de Mathématiques et le module d’Anglais.

Identifiant Statistique informatique Mathématiques Anglais


1 14.97 12.4 11.55 8.24
2 13.15 12.55 114 13.64
3 12.7 9.75 16.95 10.94
4 14.48 7.45 16.35 8.58
5 11.76 13.5 8.55 11.88
6 7.88 9.25 15.05 10.8
7 15.56 11 11.9 7.76
8 12.33 9.3 10.65 9.32
9 13.9 12.4 10.9 9.08
10 10.15 10.85 11.55 8.76

On souhaite réaliser une Analyse en Composantes Principales Normée (ACPN) sur ce tableau de données afin d’en
extraire une information.

1. Indiquer dans quel espace doit être représenté le nuage des individus? Justifier votre réponse.
2. Indiquer dans quel espace doit être représenté le nuage des variables? Justifier votre réponse.
3. Compléter le tableau suivant :

Variables Moyennes Ecarts types Minimum Maximum


Statistique 12.688 2.2113 15.56
Informatique 1.7782 7.45
Mathematiques
Anglais 9.90 13.64

Commenter succinctement dans le contexte les valeurs numériques obtenues.

4. Déterminer le barycentre du nuage des individus.


5. Déterminer la matrice des écarts-types.
6. Quel est le rôle du barycentre et de la matrice des écarts-types en ACP?
7. Dans le cadre de l’ACP normée, il convient de diagonaliser une matrice. Laquelle ? Justifier à l’aide d’un
produit matriciel votre réponse (pas de valeurs numériques).

8. L’utilisation d’un logiciel a permis d’obtenir la matrice des corrélations suivantes :

1.0000 0.1513 −0.0863 −0.3743


 
 0.1513 1.0000 −0.7679 0.3340 
∆=
−0.0863 −0.7679 1.0000 −0.0829
−0.3743 0.3340 −0.0829 1.0000

Commenter brièvement dans le contexte ces coefficients.

9. La réalisation de l’ACP a donné les valeurs propres suivantes :

λ1 = 1.8721 λ2 = 1.3656 λ3 = 0.6013 λ4 = ...

Calculer la dernière valeur propre.

10. Calculer l’inertie associée à chacun des axes.

11. Quelle est la propriété qui permet sans calcul de déterminer l’inertie totale? Combien vaut-elle dans le cas
présent ?

12. En déduire pour chacun des axes les pourcentages d’inertie, puis les pourcentages d’inertie cumulés.

13. Selon le critère de la moyenne combien d’axes doit-on conserver? Justifier votre réponse.

14. Représenter le diagramme des valeurs propres. Ce diagramme confirme-t-il la réponse fournie à la question
précédente ? Justifier votre réponse.

15. Les composantes principales issues de l’analyse sont les suivantes :

Identifiant Comp.1 Comp.2 Comp.3 Comp.4


1 -0.6250 -1.4957 0.0011 -0.4976
2 -1.6100 1.0861 1.3466 0.2721
3 1.3616 0.7184 1.0829 -0.4238
4 2.4754 -0.6950 0.5518 0.3769
5 -2.3618 0.6727 -0.1164 0.1093
6 1.2207 2.1638 -0.7192 -0.2610
7 0.0798 -1.7913 -0.0071 -0.0514
8 0.2400 -0.1581 -0.7010 0.8919
9 -0.7903 -0.8614 -0.1427 -0.1775
10 0.0097 0.3605 -1.2960 -0.2389

A partir de ce tableau, identifier les deux premières composantes principales :Ψ1 et Ψ2 .Que représentent-elles?

16. Ces composantes principales vérifient deux propriétés statistiques. Indiquer ces deux propriétés puis vérifier
que ces dernières sont bien satisfaites.

17. Comment à partir de la représentation graphique des individus dans le plan factoriel principal (et donc sans
calcul) peut-on identifier (sous réserve d’une bonne qualité de représentation) les individus qui contribuent
fortement à la formation de chacun des axes ? Justifier votre réponse.

18. On souhaite déterminer la contribution des individus à la formation de chacun des axes.Dans ce but, rappeler
la formule qui permet de réaliser ces calculs, puis compléter le tableau de la page suivante. A partir des valeurs
numériques obtenues ci-dessus, déterminer explicitement les individus qui contribuent significativement à la
formation des deux premiers axes (on pourra dissocier les individus qui présentent une coordonnée positive de

2
ceux qui présentent une coordonnée négative et ce pour chacun des axes).
Individus Cri (1)% Cri (2)%
1 2.09
2 13.85 8.64
3 9.90 3.78
4 32.73 3.54
5
6 34.29
7 0.03 23.50
8 0.31 0.18
9 3.34 5.43
10 0.00 0.95

19. On souhaite maintenant déterminer les qualités de représentation des individus sur chacun des axes puis sur le
plan principal.Dans ce but, rappeler les formules permettant de réaliser ces calculs, puis compléter le tableau
suivant :
Individus Quali (1)(%) Quali (2)(%) Quali (1 × 2)(%)
1 13.59 77.80
2 20.84
3 49.81 13.87 63.68
4 86.83 6.84 93.67
5 92.11 7.47 99.58
6 22.05 69.29 91.34
7
8 4.21 1.82
9 44.03 52.31 96.34
10 0.00 6.96 6.96
Note: on pourra s’aider de la matrice suivante :
1.0320 0.8913 −0.3637 −0.9400
 
 0.2089 0.9757 −0.4221 2.1178 
 0.0054
 −0.5989 1.7369 0.5889 

 0.8104
 −1.8924 1.5035 −0.7475
−0.4200 1.5099 −1.5307 1.1212 
Z= −2.1743 −0.8801

0.9978 0.5096 
−0.2276 −1.2118
 
 1.2988 0.10404
−0.1619 −0.85198 −0.7138 −0.3284
 
 0.5481 0.72264 −0.6166 −0.4643
−1.1478 0.01968 −0.3637 −0.6455
20. Quels sont les individus qui sont bien et très bien représentés dans le plan principal?
21. On possède les deux premiers vecteurs propres correspondant au nuage des individus :
−0.0540 −0.7359
   
−0.6963 −0.0691
u1 =  et u2 = 
0.6474  0.1712 
−0.3051 0.6514
En déduire les coordonnées des variables sur les deux premiers axes. Vos calculs sont-ils en accord avec la
représentation du nuage des variables dans le premier plan factoriel ?

22. A quoi mesure-t-on la qualité de représentation des variables dans le plan principal? En déduire les variables
bien ou très bien représentées.
23. A quoi mesure-t-on la corrélation entre une variable et un axe ou entre deux variables. Quelle condition doit
être satisfaite afin que cette mesure soit fiable ?
24. Identifier les variables corrélées avec chacun des axes (on précisera si la corrélation est positive ou négative, et
l’on s’aidera des valeurs numériques des coefficients associés).
25. Caractériser les deux axes factoriels.

3
26. En déduire une interprétation de la position des individus dans le plan factoriel principal.

4
Partie B
Analyse Factorielle Discriminante
Considérons un échantillon de n individus sur lesquels on observe p + 1 variables : p variables quantitatives notées
X1 , X2 , ..., Xp et une variable qualitative Y présentant k modalités. Les n individus de l’échantillon peuvent alors être
séparés en k classes notées C1 , C2 , ..., Ck correspondant aux k modalités de la variable Y . Selon une approche
géométrique, ces individus sont représentés par un point de l’espace Rp auquel on associe un identifiant caractérisé par
un entier compris entre 1 et k afin d’identifier la classe d’appartenance de chacun des individus.
L’Analyse Factorielle Discriminante (AFD) est une méthode qui présente deux objectifs : le premier, descriptif,
consiste à chercher dans l’espace Rp les directions qui séparent au mieux (selon un critère) les k classes d’individus ; le
second, prédictif, consiste à associer un nouvel individu dont on connait les valeurs des p variables quantitatives à une
des classes Cl pour l = 1, 2, . . . , k. Selon cette seconde approche, l’AFD peut être vue comme une régression dont la
variable à expliquer est qualitative.
L’objectif de cet exercice est de réaliser une AFD sur un échantillon de 11 étudiants (n = 11) sur lesquels on observe
deux variables explicatives (p = 2) : la note du module de Mathématiques (X1 ) et la note du module de Français (X2 ).
Par ailleurs, on désigne par Y la variable qualitative indiquant l’origine géographique de ces étudiants dont les
modalités sont : 1 si l’étudiant vient de Seine-Maritime et 2 si l’étudiant vient du Calvados (on suppose que les
étudiants sur lesquels on travaille viennent de l’un ou l’autre de ces départements). Notons que dans le cas présent, il
existe un unique axe qui sépare au mieux les individus des deux classes. Les données concernant cet exemple sont
regroupées dans le tableau suivant :

Individus X1 X2 Y
1 7 12 1
2 7.5 13.5 1
3 8 11 1
4 9 13 1
5 10.5 15 1
6 11 12.5 1
7 12.5 7 2
8 13 8.5 2
9 14 6 2
10 14.5 8.5 2
11 15 9 2

1. Déterminer le barycentre G de ce nuage de point.


2. Désignons par Gl le barycentre partiel des individus de la classe Cl (l = 1, 2). Calculer les deux barycentres
partiels G1 et G2
3. Soit nl le nombre d’individus de la classe Cl . Calculer la quantité
n1 n2
G1 + G2
n n
Que constatez-vous?
4. En se servant du tableau ci-après, exprimer les nouvelles coordonnées des individus ainsi que celles des
barycentres partiels dans le rep‘ere de centre G:
Individus X1∗ X2∗ Y
1 -4.0909 1.4546 1
2 2.9546 1
3 -3.0909 1
4 -2.0909 1
5 -0.5909 4.4546 1
6 -0.0909 1.9546 1
7 1.4091 2
8 1.9091 -2.0454 2
9 -4.5454 2
10 3.4091 2
11 3.9091 -1.5454 2
G1 -2.2576 1
G2 -2.7454 2
5. Dans un repère orthonormé de centre G, représenter le nuage des individus ainsi que les barycentres partiels.
On pourra identifier chacun des points par le groupe auquel il appartient.
6. Désignons par Tl (l = 1, 2) la matrice des covariances à l’intérieur de la classe Cl . Cette matrice est d’ordre
22 et admet pour terme général
1 X l l
tlj1 ,j2 = (xij1 − X j1 )(xij2 − X j2 ) pour1 ≤ j1 , j2 ≤ 2 et l = 1, 2
nl
i∈Cl

Où Xjl représente la moyenne de la variable Xj au sein de la classe Cl .


En d’autres termes, la matrice T1 (resp. T2 ) est la matrice des covariances associée aux variables X1 et X2
calculée sur les individus de la classe C1 (resp C2 ). Compléter les deux matrices suivantes :
   
2.2222 . . 0.41
T1 = et T2 =
0.8472 . . 1.26
Désignons maintenant par W la matrice des covariances intra-classes. Par définition, cette matrice est obtenue
comme somme pondérée des matrices T1 et T2
n1 n2
W = T1 + T2
n n
Calculer W
• [8.] Identifier l’axe factoriel discriminant (c’est-à-dire l’axe qui sépare au mieux les individus des deux classes)
revient à réaliser une ACP sur la matrice C d’ordre k × p de terme général
l
clj = X j − X j pour 1 ≤ l ≤ k et 1 ≤ j ≤ p.
représentant les barycentres partiels exprimés dans le nouveau repère, à laquelle on associe la matrice des
pondérations
v1 0 . . . 0
 
..
 0 v2
 . 0
Dk =  .

 . . . . . . . .. 

. .
0 . . . 0 vk
nl
où l’on a vl = n .
L’ACP est alors réalisée dans l’espace Rp muni d’une métrique particulière dite de Mahalanobis et définie par
Mp = W 1 .
(a) Dans le cadre de l’exemple, identifier les valeurs numériques intervenant dans les matrices C, Dk et W −1
(b) A partir des résultats du cours, indiquer la matrice à diagonaliser (on l’exprimera en fonction des matrices
C, Dk et W −1 avant de donner les valeurs numériques).
(c) Identifier les valeurs propres.
(d) Pour la valeur propre non nulle, trouver un vecteur propre u associé. Par construction, la droite de vecteur
directeur u doit passer par les barycentres partiels G1 et G2 . Vérifier en traçant cette droite dans le repère
de centre G que cette propriété est bien vérifiée.
Rappel: la droite va s’écrire dans le cas présent X2 = aX1 où a est le coefficient issu du vecteur directeur
v = (1, a).
(e) Par définition, l’axe discriminant est caractérisé par un vecteur directeur w obtenu selon le produit
matriciel suivant :

w = W −1 u
Déterminer le vecteur w, puis représenter l’axe associé dans le repère de centre G
9. On dispose de deux nouveaux étudiants dont on connaît les notes. On voudrait pouvoir identifier leur
département d’origine. Dans ce but, il convient de définir une règle d’allocation. La règle la plus simple est la
règle géométrique qui consiste à associer le nouvel individu à la classe C1 si on a
d2Mp (x∗ , G∗1 ) < d2Mp (x∗ , G∗2 )
où x∗ représente les coordonnées du nouvel individu dans le repère de centre G,G∗1 et G∗2 désignent les
barycentres partiels des classes C1 et C2 dans le repère de centre G, et où Mp est la métrique de Mahalanobis
définie dans la question 8.

2
En faisant usage du produit scalaire matriciel, montrer que l’écart d2Mp (x∗ , G∗1 ) − d2Mp (x∗ , G∗2 ) s’exprime
comme suit: f (x∗ ) := d2Mp (x∗ , G∗1 ) − d2Mp (x∗ , G∗2 ) = (x∗ )t W −1 (G∗1 − G∗2 )
10. Identifier l’ensemble des points de R2 pour lesquels on a f (x∗ ) = 0. Représenter cet ensemble sur le
graphique.
11. Considérons les étudiants A et B dont les notes sont respectivement (7,11) et (7,4). Trouver à l’aide de la
fonction f une prévision de leur département d’origine.
12. Confirmer votre prédiction par une méthode graphique en plaçant les points correspondants dans le repère de
centre G.

Vous aimerez peut-être aussi