Vous êtes sur la page 1sur 4

Université Ferhat Abbas, Sétif 1 Date : 04/03/2021

Faculté des sciences 2éme année Master IFIA-F3I


Département d’informatique Durée : 1h 30mn

Corrigé Type du Contrôle Analyse des Données

PARTIE 1 : (7.5 points) (0.75 point pour chaque réponse totalement juste (sans case fausse cochée))
Q1 : En analyse factorielle, la projection des points sur un nouvel axe doit être :
 Parallèle à l’axe des abscisses (l’axe des X)
 Parallèle à l’axe des ordonnées (l’axe des Y)
 Perpendiculaire à cet axe factoriel
Q2 : Parmi les principes de base de l’analyse des données :
 Trop de données tue la donnée
 Le modèle doit suivre les données et non l'inverse
 Un graphe fait parler les données
Q3 : La quantité d’informations portée par un nuage de points est égale à :
 La somme des inerties portées par les principaux vecteurs propres de ce nuage de points
 La somme des inerties portées par tous les vecteurs propres de ce nuage de points
 La somme des valeurs dans la diagonale de la matrice de corrélation de ce nuage de points
Q4 : Les contraintes que les vecteurs unités du nouveau espace réduit doivent vérifier sont :
 Contrainte d’orthogonalité : u1*u2=0
 Contrainte d’unicité : u1*u1=0
 Contrainte d’orthogonalité : u1*u2=1
Q5 : En AFD :
 L’inertie inter-classes est à minimiser
 L’inertie intra-classes est à minimiser
 La somme des inerties inter-classes et intra-classes est à maximiser
Q6 : On utilise plusieurs types de distances en analyse factorielle :
 Distance Khi2 en ACM et en AFC
 Distance Khi2 pour les données numériques
 Distance euclidienne pour les données alphanumériques
Q7 : Lorsque les données sont centrées et réduites :
 Leur moyenne = 0
 Leur écart type = 0
 Leur moyenne = Leur écart type
Q8 : L’objectif de l’Analyse en Composantes Principales (ACP) est de :
 Réduire le nombre de variables (colonnes)
 Réduire le nombre d’individus (lignes)
 Réduire le nombre de variables et d’individus (colonnes et lignes)
Q9 : Quelle est la phrase juste :
 Lorsqu’on étudie la relation entre les variables numériques, on parle de « Corrélation »
 Lorsqu’on étudie la relation entre les variables numériques, on parle de « Correspondance »
 Lorsqu’on étudie la relation entre les variables nominales, on parle de « Correspondance »
Q10 : Si on fait une ACP sur une matrice de 5 lignes et 10 colonnes :
 On aura un message d’erreur car le nombre de variables est supérieur au nombre de données
 On aura 5 vecteurs propres et 10 valeurs propres
 On aura 10 vecteurs propres et 10 valeurs propres

1/4
PARTIE 2 : (4.5 points) Questions de cours
Quelle est la différence entre donnée et information (1.5)

Une données est une mesure ou une caractéristique (Exemple : 100), tandis que l’information est une données
dans un contexte pour la comprendre (exemple : l’eau bout à 100° Celsius)

Quelle est la différence entre L’AFC et L’ACM (1.5)

L’objectif de l’AFC est d’étudier des liaisons (correspondances) existantes entre deux variables nominales,
tandis que l’ACM peut étudier les liaisons entre plus de deux variables nominales (qualitatives)

Quelle est la différence entre L’ACP et L’AFD (1.5)

L’ACP projette les points (individus) sur les axes factoriels, tant dit que l’AFD projette les centres de gravité des
clusters sur les axes factoriels. Donc, L'AFD peut être vue comme une ACP sur les centres de gravité

V1 V2 V3
PARTIE 3 : (9 points) Analyse en Composantes Principales (ACP) 9 5 3
 
3 1 2
Faites une ACP sur la matrice X, sachant que V1, V2, V3 sont ses vecteurs colonnes. X: 
6 4 7
 
2 6 0 
1- Centrage-réduction des données (vecteurs V1, V2, V3) : (0.5) 
XV1=(9+3+6+2)/4=20/4=5 donc V1 centré = V1-5 = (4, -2, 1, -3)
XV2=(5+1+4+6)/4=16 /4=4 donc V2 centré = V2-4 = (1, -3, 0, 2)
XV3=(3+2+7+0)/4=12 /4=3 donc V3 centré = V2-3 = (0, -1, 4, -3)

Réduction : (0.5)
σV1=racine[1/4[42+(-2)2+12+(-3)2)]]=2.73 donc V1 réduit = V1/2.73=(1.46 , -0.73, 0.36, -1.09)

σV2=racine[1/4[12+(-3)2+02+22)]]=1.87 donc V2 réduit = V2/1.87=(0.53, -1.60, 0, 1.06)

σV3=racine[1/4[02+(-1)2+42+(-3)2)]]=2.54 donc V3 réduit = V3/2.54=(0, -0.39, 1.57, -1.18)

 1.46 0.53 0 
 
Donc, la matrice centrée et réduite résultante sera : Xcentrée/réduite =   0.73  1.60  0.39 
 0.36 0 1.57 
 
  1.09  1.18 
 1.06 

 Pour quoi on fait le centrage des données ? (0.25)


Pour déplacer le point origine du repaire vers le centre du nuage des points et avoir un meilleur
angle de vision de ce nuage (éviter par exemple que le nuage soit très loin du point repaire)

 Comment vérifier que les données ont été vraiment centrées ? (0.25)
Les données centrées ont une moyenne (de chaque vecteur colonne) = 0.
Donc, inutile de centrer des données déjà centrées (x–0=x)

 Pour quoi on fait la réduction des données ? (0.25)


Pour unifier les unités de mesures entre les variables formant les axes du repaire.
Exemple, si un axe mesure une distance en centimètre, il sera (si on ne fait pas la réduction) plus
influant dans les résultats des calculs qu’un autre axe mesurant une autre distance en mètre.

2/4
 Comment vérifier que les données ont été vraiment réduites ? (0.25)
Les données réduites ont un écart type = 1.
Donc, inutile de réduire des données déjà réduite (x/1=x)

2- Déduire la matrice des corrélations Г : (1)

 1.46  0.73 0.36  1.09   1.46 0.53 0   1 0.19 0.53 


   
Г=1/4* X'c/r* Xc/r =1/4 *  0.53  1.60 0 1.06   0.73  1.60  0.39   0.19 
 0.16 
  0.36  1
0 1.57  
 0.39 1.57  1.18  1 
0
 

  0.53  0.16
*   1.09 1.06  1.18  =

 Est-ce que cette matrice des corrélations sera la même la matrice des covariances de ces
données, pourquoi ? (0.5)
Oui, pour les données centrées-réduites, la matrice des covariances est la même la matrice des
corrélations entre les variables. Cela puisque les écarts types des variables seront =1.

3- Calculer les valeurs propres λi de Г : (1.5)


1   0.19 0.53 
 
Det (Г-ΛI)=  0.19 1   0.16 
 0.53  0.16 1    =0

4-
Donc, si on développe suivant la première ligne on aura :

(1-λ)(-1)2[(1-λ)2-0.162] + (0.19)(-1)3 [0.19*(1-λ)+0.16*0.53] + (0.53)(-1)4[-0.19*0.16-0.53(1-λ)]= 0

(1-λ)[(1-λ)2-0.02] - (0.19)[0.19*(1-λ)+0.08] + (0.53)[-0.03-0.53(1-λ)]= 0

(1-λ)[(1-λ)2-0.02] - 0.03*(1-λ)-0.01 -0.01-0.28(1-λ)= 0 (pour simplifier on arrondi les 0.01 à 0) ⇨

(1-λ)[(1-λ)2-0.02] -0.31*(1-λ) = 0 ⇨

(1-λ)[(1-λ)2-0.33]= 0 ⇨ (1-λ)[1 + -2λ+ λ2-0.33]= 0 ⇨ (1-λ)[ λ2 -2λ+ 0.67]= 0

Ainsi, les solutions seront : λ1= 1 en plus des solutions de l’équation : λ2 -2λ+ 0.67

Donc, les valeurs propres seront : λ1= 1 λ2= 1.57 λ3= 0.42

 Comment vérifier que le calcul des valeurs propres est juste ? (0.5)
Leur somme = la somme des valeurs diagonaux dans la matrice des corrélations
4- Rechercher les vecteurs propres correspondants aux valeurs propres trouvées : (1.5)
Premier vecteur propre (pour la valeur propreλ1=1.57) : c’est la solution du système d’équations suivant :

x + 0.19y + 0.53z = 1.57x


0.19x + y - 0.16z = 1.57x
0.53x - 0.16y + 1z = 1.57x

3/4
Deuxième vecteur propre (λ2=1) : c’est la solution du système d’équations suivant :
x + 0.19y + 0.53z = 1x
0.19x + y - 0.16z = 1x
0.53x - 0.16y + 1z = 1x

Troisième vecteur propre (λ3=0.42) : c’est la solution du système d’équations suivant :


x + 0.19y + 0.53z = 0.42x
0.19x + y - 0.16z = 0.42x
0.53x - 0.16y + 1z = 0.42x

Ainsi, les vecteurs propres résultat seront :


V1 V2 V3
-0.71 -0.22 0.66
-0.04 -0.92 -0.36
-0.69 0.29 -0.65

 Comment prouver que les axes factoriels trouvés sont orthogonaux deux à deux (0.5)
La contrainte d’orthogonalité entre deux vecteur u1 et u2 est que le produit vectoriel : u1*u2=0
5- Normer les vecteurs propres trouvés : (0.5)
Norme de V1 = ||V1||=racine(0.712+0.042+0.692) =1
Les vecteurs sont déjà normé (normer un vecteur= diviser par sa norme)

 Comment vérifier que les vecteurs propres ont été vraiment normés ? (0.5)
Les axes factoriels sont vraiment normés, puisque : u1 * u'1 =1 et u2 * u'2 =1 et u3 * u'3 =1

 Combien de composante principal vous allez gardez, pourquoi ? (0.5)


On peut garder deux axes factoriels puisque ils vont nous concerner la majorité (85%) de l’inertie
(quantité d’information) existante dans le nuage des points étudié.

4/4

Vous aimerez peut-être aussi