Travaux Dirugé Analyse de Donné

UNIVERSITE MOHAMMED PREMIER
ECOLE NATIONALE DES SCIENCES APPLIQUEES

OUJDA-MAROC
I NTRODUCTION À L’ ANALYSE DE
DONNÉES
T RAVAUX D IRIGÉS CORRIGÉS
M. D EROUICH
A NNÉE UNIVERSITAIRE : 2020 - 2021

Table des matières
1 Introduction à l’analyse des données 3
2 Analyse bivariée 9
3 Analyse en composante principale (ACP) 19
2
Chapitre 1
Introduction à l’analyse des

données
Exercice 1.1. :
On considère deux séries statistiques de taille n
1. Montrer que la variance d’une série ( xi )i = 1..n est égale à V = x2 − x2 où
1 n
x2 = ∑ ni xi2 et x est la moyenne arithmétique de la série.
n i =1
2. Soient ( xi ) et ( yi ) deux séries statistiques liées par la relation suivante :
x −a
∀i yi = i avec b 6= 0 a, b ∈ R Montrer les propriétés suivantes :
b
x−a V ( x) σ ( x)
i) y = ii )V ( y) = 2
iii )σ ( y) =
b b |b|
Corrigé 1.1. :
1.
p
1
V (X) =
N ∑ ni ( xi − X )2
i =1
p
1 2

= ∑ ni xi2 − 2xi X + X
N i =1
!
p p p
1 2
= ∑ ni xi2 − 2 ∑ ni xi X + ∑ ni X
N i =1 i =1 i =1
p p p
1 1 2 1
=
N ∑ ni xi2 − 2X N ∑ ni xi + X N ∑ ni
i =1 i =1 i =1
p
1 2
=
N ∑ ni xi2 − X
i =1
2
V (X) = X2 −X
3
X−a
2. Soit Y =
b
p
1
Y = ∑ ni yi
N i =1
p
1 xi − a
= ∑ ni
N i =1
b
p p
1 1 1 a
=
bN ∑ ni xi − N ∑ ni b
i =1 i =1
1 a
= X−
b b
X−a
Y =
b
p
1
V (Y ) =
N ∑ ni ( yi − Y )2
i =1
p 2
xi − a X − a

1
= ∑ ni −
N i =1
b b
p
1 1 2
= ∑ ni xi − X
b2 N i =1
V (X)
V (Y ) =
b2
σX
σY =
|b|
Exercice 1.2. :
On a relevé les nombres d’allumettes contenues respectivement dans 20 boîtes, lors
d’un contrôle dans une usine de fabrication. Les résultats sont les suivants : 40, 42,
32, 38, 40, 48, 30, 38, 36, 40, 34, 40, 34, 40, 38, 40, 42, 44, 36, 42.
1. Ranger ces résultats en classes d’intervalles de 4 allumettes, borne supé-
rieure exclue.
2. Tracer l’histogramme de cette distribution.
3. Calculer la moyenne et l’écart type de cette série.
4. Calculer les moments d’ordre l, d’ordre 2 et d’ordre 3 par rapport à la valeur
moyenne .
Corrigé 1.2. :
1.
4
2.
3. On a N = 20 donc
p
1
X = ∑ ni ci
N i =1
792
=
20
= 39.6
p
1 2
V (X) =
N ∑ ni ci2 − X
i =1
2
= X2 − X
= 1584 − 39.62
= 15, 84
p
1
4. On a mq =
N ∑ ni ( xi − x 0 )q .
i =1
p
1
m1 = ∑ ni xi − X
N i =1
0
=
20
= 0
5
p
1 2
m2 = ∑ ni xi − X
N i =1
316.5
=
20
= 15, 84
p
1 2
m3 = ∑ ni xi − X
N i =1
−130, 56
=
20
= −6, 528
Exercice 1.3. :
Les résultats d’un certain processus aléatoire sont des nombres entiers que l’on
classe suivant l’histogramme ci-dessous.
1. Calculer la valeur moyenne. Quel est le mode ? quelle est la médiane ?

2. Tracer le polygône des fréquences et le polygône des effectifs cumulés.
3. Retrouver la valeur de la médiane.
Corrigé 1.3.
Classe [1,2[ [2,3[ [3,4[ [4,5[ [5,6[

ci 1,5 2,5 3,5 4,5 5,5
ni 2 10 5 2 1
effe cumulés 2 12 17 19 20
fréquences 0,1 0,5 0,25 0,1 0,05
1. La valeur moyenne de cette série statistique est :

p
1
X = ∑ ni ci
N i =1
60
= =3
20
6
la classe modale est [2 − 3[ puisqu’il est qui corespond à l’effectif maximum
10.
N N
On a = 10 =⇒ 2 ≤ < 12 =⇒ Nm = 2, Nm+1 = 12, xm = 2 et xm+1 = 3
2 2
Me − xm x − xm
= m+1 donc
N Nm+1 − Nm
− Nm
2
N
 
− Nm
Me = xm + ( xm+1 − xm )  2
 
Nm+1 − Nm

10 − 2

= 2 + (3 − 2)
12 − 2
= 2.8
2.
Polygône des fréquences
Polygône des effectifs cumulés

3. D’après le graphe précédent : Me = 2
Exercice 1.4. :
On reprend les données de l’exemple 1.1 du cours : effectuant le changement de
variable
x − 1.7125
z=
0.0664
1. Calculer z, V ( z) et σ ( z)
2. En déduire x, V ( x) et σ ( x)
7
Corrigé 1.4. 1. On a N = 80 donc
p
1
Z = ∑ ni zi
N i =1
0
'
80
' 0
p
1 2
V (Z) =
N ∑ ni zi2 − Z
i =1
79, 950827
=
80
= 0.9994
' 1
⇒ σZ ' 1
X − 1.7125
2. On a Z =
0.0664
=⇒ X = 0.0664Z + 1.7125
=⇒ X = 0.0664Z + 1.7125 = 1.7125
=⇒ V ( X ) = 0.06642 V ( Z ) = 0, 00440625
p
=⇒ σ X = V ( X ) = 0, 06638
8
Chapitre 2
Analyse bivariée
Exercice 2.1. :
1. Montrer que :|ρ( X, Y )| ≤ 1.

2. On considère deux séries statistiques ( xi ) et ( yi ) de taille n
Soient αi et βi deux séries statistiques liées aux séries statistiques ( xi ) et ( yi )
par les relations suivantes :
x −c
∀i αi = i avec d 6= 0 c, d ∈ R
d
y − c0
∀i βi = i 0 avec d0 6= 0 c0 , d0 ∈ R
d
Montrer les propriétés suivantes :
1 |dd0 |
i ) cov(α, β) = 0 cov( x, y) et ii ) ρ(α, β) = ρ( x, y)
dd dd0
Corrigé 2.1. :
1.
p
1
V (X) =
N ∑ ni ( xi − X )2
i =1
p
1 2

= ∑ ni xi2 − 2xi X + X
N i =1
!
p p p
1 2
= ∑ ni xi2 − 2 ∑ ni xi X + ∑ ni X
N i =1 i =1 i =1
p p p
1 1 2 1
=
N ∑ ni xi2 − 2X N ∑ ni xi + X N ∑ ni
i =1 i =1 i =1
p
1 2
=
N ∑ ni xi2 − X
i =1
2
V (X) = X2 −X
9
X−a
2. Soit Y =
b
p
1
Y = ∑ ni yi
N i =1
p
1 xi − a
= ∑ ni
N i =1
b
p p
1 1 1 a
=
bN ∑ ni xi − N ∑ ni b
i =1 i =1
1 a
= X−
b b
X−a
Y =
b
p
1
V (Y ) =
N ∑ ni ( yi − Y )2
i =1
p 2
xi − a X − a

1
= ∑ ni −
N i =1
b b
p
1 1 2
= ∑ ni xi − X
b2 N i =1
V (X)
V (Y ) =
b2
σX
σY =
|b|
Exercice 2.2. :
Le tableau suivant représente des âges de patients X et les tensions artérielles Y de
9 malades.
L’âge X 56 42 72 36 63 47 55 49 38
T.A Y 147 125 160 118 149 128 150 145 115
1. 1. Représenter le nuage de points M( xi ; yi ) dans le repère orthogonal ci-dessous.
2. Calculer la moyenne et l’écart-type de chacun des deux caractère X et Y.
3. Placer le point G ( X, Y ) dans le repère précédent.
4. Calculer la covariance et le coefficient de corrélation du couple (X,Y). Que peut-on
conclure ?
5. Trouver la droite de régression de X en Y.
6. Lorsque l’âge est 75 ans , quelle Tension artérielle Y peut-on prévoir ?
Corrigé 2.2. :
10
1.
2. On a n = 9
1 n
X = xi
n i∑
=1
458
=
9
= 50.89
1 n
Y = yi .
n i∑
=1
1237
=
9
= 137.44 !
1 n 2 2
V ( X ) = σ X2 = xi − X
n i∑
=1
24428
= − 50.892
9
= 124.54
⇒ σ X = 11.16
11
!
1 n 2 2
V (Y ) = σY2 = yi −Y .
n i∑
=1
172093
= − 137.442
9
= 230.47
⇒ σY = 15.18
3. Voir figure
4.
!
1 n
σ XY = cov( X, Y ) = xi yi −XY
n i∑
=1
64378
= − 50.89 × 137.44
9
= 158.72
cov( X, Y )
ρ( X, Y ) =
σ XσY
158.72
=
11.16 × 15.18
= 0, 94
5. l’équation de la droite de régression de Y en X :
cov( X, Y )
Y − Y = a X − Y avec a = .
V (X)
Donc :Y − 137, 44 = 1, 274385408( X − 50, 89)

l’équation de la droite de régression de X en Y :
cov( X, Y )
X − X = a0 Y − Y avec a0 =

.
V (Y )
Donc :X − 50, 89 = 0, 688665095(Y − 137, 44)

6. Lorsque l’âge est 75 ans c.à.d X = 75 donc :
Y = 137, 44 + 1, 274385408(75 − 50, 89) = 168, 1654322.
Exercice 2.3. :
sur un échantillon de 100 étudiants, on relevé la taille X en centimètre, ainsi que le
12
poids Y en kilogrammes comme l’indique le tableau suivant
X Y [50, 60[ [60, 70[ [70, 80[ [80, 90[ [90, 100[
[150, 160[ 10 3 1 0 0
[160, 170[ 2 12 6 7 2
[170, 180[ 1 7 11 17 4
[180, 190[ 0 2 2 4 9
1. Calculer la moyenne et l’écart-type de chacun des deux caractères X et Y
2. Calculer la covariance et le coefficient de corrélation du couple (X,Y). Que

peut-on conclure ?
3. Trouver la droite de régression de Y en X.
Corrigé 2.3. :
1. On a n = 100, p = 5 et q = 4
p
1
X = ni. xi
n i∑
=1
17100
=
100
= 171, 00
q
1
Y = n. j y j
n j∑
=1
7580
=
100
= 75, 80
13
!
p
1 2
V (X) = ni. Xi2 −X
n i∑
=1
2932700
= − 1712
100
= 86, 00
⇒ σ X = 9, 27
!
q
1 2
= ∑ n. j Yi2 −Y
n j=1
590900
= − 75.802
100
= 163, 36
⇒ σ y = 12, 78
2.
!
p q
1
σ XY = cov( X, Y ) = ∑ ni j xi y j −XY
n i∑
=1 j=1
1303600
= − 171 × 75, 80
100
= 74, 20
cov( X, Y )
ρ( X, Y ) =
σ XσY
74, 20
=
9, 27 × 12, 78
= 0, 63
3. l’équation de la droite de régression de Y en X :

cov( X, Y )
Y − Y = a X − X avec a = .
V (X)
Donc : Y − 75, 80 = a( X − 171) avec : a = 0, 862790698
Exercice 2.4. :
On dispose pour un secteur industriel donné et sur une période de 8 années du
nombre de salariés Y (en milliers) et du chiffre d’affaires X (en dizaines de mil-
liards) :
Année 1 2 3 4 5 6 7 8
X 3 4 5 6 8 9 11 13
Y 3.5 4.2 5 5.5 6 6.5 6.7 7.2
Ln(X) 1,1 1,4 1,6 1,8 2,1 2,2 2,4 2,6
14
1. Représenter le nuage de points ( xi , yi ).
2. Calculer la moyenne et l’écart-type de chacun des deux caractères X et Y.
3. Calculer la covariance du couple ( X, Y ).
4. a) Donner le coefficient de corrélation linéaire ρ( X, Y ) de la série statistique
( xi , yi ) . Un ajustement affine est-il justifié ?
b) Ecrire une équation de la droite de régression D de Y en X . Représenter
D dans le repère précédent
5. Calculer la moyenne et l’écart-type de variable Z.
6. Calculer la covariance du couple ( Z, Y ).
7. a) Donner le coefficient de corrélation linéaire ρ( Z, Y ) de la série statistique
( zi , yi ) . Un ajustement affine est-il justifié ?
b) Ecrire une équation de la droite de régression ∆ de Y en Z .
8. En l’an 2010, on prévoit pour le secteur étudié un chiffre d’affaires de 400
milliards.
i)Utiliser les droites ( D ) : Y = aX + b et (∆) : Y = a0 Z + b0 pour proposer
deux prévisions du nombre d’employés de ce secteur à l’horizon 2010.
ii) Quelle prévision vous semble la plus appropriée
Corrigé 2.4. :
1.
15
2. 1 n
X = xi
n i∑
=1
59
=
8
= 7, 375
1 n
Y = yi .
n i∑
=1
44, 6
=
8
= 5, 575
!
1 n 2 2
V (X) = σ X2 = xi −X
n i∑
=1
521
= − 7, 3752
8
= 10, 734375
⇒ σ X = 3, 276335606
!
n
1 2
V (Y ) = σY2 = ∑ yi2 − Y .
n i =1
260, 12
= − 5, 5752
8
= 1, 434375
⇒ σY = 1, 197653957
3.
!
1 n
σ XY = cov( X, Y ) = xi yi −XY
n i∑
=1
359, 1
= − 7, 375 × 5, 575
8
= 3, 771875
4. a) On a
cov( X, Y )
ρ( X, Y ) =
σ XσY
3, 771875
=
3, 276335606 × 1, 197653957
= 0, 961252664
⇒ ρ2 ( X, Y ) = 0.92 > 0.75
donc l’ajustement affine est justifié
16
b) l’équation de la droite de régression : de Y en X :
cov( X, Y )
Y − Y = a X − X avec a = .
V (X)
Donc :Y − 5.575 = a( X − 7.375) avec : a = 0, 35138
5.
1 n
Z = Zi
n i∑
=1
15, 12561478
=
8
= 1, 891
!
1 n 2 2
V ( Z ) = σ Z2 = Zi − Z
n i∑
=1
30, 41019332
= − 1, 8912
8
= 0, 226520689
⇒ σ Z = 0, 475941896
6.
!
1 n
σ ZY = cov( Z, Y ) = Zi Yi −ZY
n i∑
=1
88, 86158867
= − 1, 891 × 5, 575
8
= 0, 567035784
7. a) On a
cov( Z, Y )
ρ( Z, Y ) =
σ ZσY
0, 567035784
=
0, 475941896 × 1, 197653957
= 0, 99477572
⇒ ρ2 ( Z, Y ) = 0, 989578733 > 0.75
donc l’ajustement affine est justifié

b) l’équation de la droite de régression : de Y en Z :
cov( X, Y )
Y − Y = a Z − Z avec a = .
V (X)
Donc :Y − 5.575 = A( Z − 1, 9) avec : A = 2, 503241
17
8. i ) X Prévision fournie parY = aX + b :
X = 40en dizaines de milliards =⇒ Y (40) = 17, 03886 donc Y ' 17039
salariés
X Prévision fournie par Y = AZ + B :
X = 40 en dizaines de milliards
Z = Ln( X ) ' 3, 688879454 =⇒ Y (ln(40)) = 10, 07627 donc Y ' 10076
salariés
ii ) On a ρ2 ( Z, Y ) > ρ2 ( X, Y ) donc Y = AZ + B fourni une qualité d’ajuste-
ment meilleure que celle du Y = aX + b
par conséquent la prévision la plus appropriée est : Y ' 10076 salariés
18
Chapitre 3
Analyse en composante principale

(ACP)
Exercice 3.1. :  
1 −1 0 0
 
1  −1 1 0 0 
Soit V le tableau suivant : V =  .
4 
 0 0 1 −1 

0 0 −1 1
1. Calculer le trace de V
2. Déterminer les différentes valeurs propres de V
3. Trouver un vecteur propre associé à la valeur propre λ = 0
4. Déterminer des vecteurs propres orthonormés de V associés aux valeurs
propres de V différentes de 0
Exercice 3.2. :  
1 0 −1
 
 0
 1 − 1 

 −1 1 0 
Soit X le tableau suivant : X =  .
 
 0 −1 1 
 
 −1 0 1 
 
1 −1 0
On considère les six vecteurs x1 , x2 , · · · , x6 de R3 (muni de la métrique euclidien
usuelle) dont les composantes sont données par les lignes de X . On pose mi = 1/6
pours i = 1; 2; · · · , 6
1. Montrer que le nuage N de six vecteurs est centré à l’origine de R3 . Calculer
6
V = 1/6 ∑ xi xi0
i =1
19
2. Calculer IG , moment d’inertie de N par rapport à l’origine
3. Déterminer les différentes valeurs propres de V
4. Déduire la dimension de l’espace qui contient le nuage des individus
5. Trouver un vecteur propre associé à la valeur propre λ = 0
6. Déterminer des vecteurs propres orthonormés de V associés aux valeurs
propres de V différentes de 0, et représenter N dans le sous-espace de R3
engendré par ces vecteurs.
Exercice 3.3. :
On considère Le tableau Y de notes sur 20 obtenues par 9 élèves en mathématiques,
physique , français, et anglais.(n=9 individus , p=4 variables) :
mathématiques physique français anglais

Jean 6.0 6.0 5.0 5.5
Aline 8.0 8.0 8.0 8.0
Annie 6.0 7.0 11.0 9.5
Monique 14.5 14.5 15.5 15.0
Didier 14.0 14.0 12.0 12.5
André 11.0 10.0 5.5 7.0
Pierre 5.5 7.0 14.0 11.5
Brigitte 13.0 12.5 8.5 9.5
Evelyne 9.0 9.5 12.5 12.0
 
9.67
 
 9.83 
1. montrer que le centre de gravité est donné par le vecteur : G =  .

 10.22 

10.06
2. On désire soumettre le tableau Y à un ACP. Pour cela on est conduit à recher-
cher les vecteur propre de la matrice V = 1/9X 0 X des variances-covariances
des cinq variables, qui est
11.389 9.917 2.657 4.824

9.917 8.944 4.120 5.481
V=
2.657 4.120 12.062 9.293
4.824 5.481 9.293 7.914
a- Indiquer la transformation qui permet de passer de la matrice Y à la ma-

trice X. Calculer la première ligne de X
b- Calculer IG , moment d’inertie de N par rapport à l’origine
20
c- Les deux plus grandes valeurs propres de la matrice V des variances-
covariances sont λ1 = 28.253, λ2 = 12.075 . Quels sont les taux d’iner-
tie expliquée par chacun des deux axes factoriels correspondant ? En li-
mitant la représentation à l’espace des 2 premiers facteurs. Quel est le
taux d’inertie totale expliquée par cette représentation ? que peut-on en
conclure ?
d- Les deux vecteurs propres normés de V sont donnés dans le tableau ci-
dessous :
1 2
Maths 0.515 -0.567
Physique 0.507 -0.372
Français 0.492 0.650
Anglais 0.485 0.323
Calculer les coordonnées de " Jean " sur les deux axes factoriels.
3. Calculer les coefficients de corrélation linéaire entre le premier facteur et les
5 variables
4. Les corrélations entre les variables et les autres facteurs sont données ci-
dessous
1 2 3 4
math 0.81 -0.584 0.01 -0.02
phys 0.90 -0.432 -0.03 0.02
fran 0.75 0.651 -0.02 -0.01
ang 0.92 0.399 0.04 0.02
Donner brièvement un interprétation possible pour les 2 facteurs.
5. Le tableau suivant donne les coordonnées des individus (les élèves) sur les
deux premiers axes (les facteurs)
F1 F2
Jean -8.61 -1.41
Aline -3.88 -0.50
Annie -3.21 3.47
Monique 9.85 0.60
Didier 6.41 -2.05
André -3.03 -4.92
Pierre -1.03 6.38
Brigitte 1.95 -4.20
Evelyne 1.55 2.63
21
i − Créer une nouvelle variable (Note_moy) donnant la moyenne des notes
de chaque élève.
ii − Calculer la corrélation entre le 1er axe et Note_moy, puis interpréter le
résultat.
6. En utilisant les résultats obtenus à la première et à la troisième question,
−−→
calculer le carré du cosinus de l’angle α entre Gu1 et un axe ∆1 de vecteur
directeur unitaire a1 (l’indice ponctuel de la représentation de " Jean " sur le
premier axe factoriel). Puis sur le plan des deux premiers facteurs. Conclure.
22
UNIVERSITE MOHAMMED PREMIER
ECOLE NATIONALE DES SCIENCES APPLIQUEES
OUJDA-MAROC
Filière : GC3 & GI3 Année universitaire : 2016-2017
Elément de module : Analyse des données Enseignant : M. Derouich
Corrigé
Corrigé 3.1. :
On a :  
1 −1 0 0
 
1  −1 1 0 0 
V=  .
4 
 0 0 1 −1 

0 0 −1 −1
1
1. Donc le trace de V est : tra(V ) = ×4 = 1
4
2. Les différentes valeurs propres de V on a :
1/4 − λ −1/4 0 0
−1/4 1/4 − λ 0 0
det(V − λI ) = .
0 0 1/4 − λ −1/4
0 0 −1/4 1/4 − λ
−λ −λ 0 0
−1/4 1/4 − λ 0 0
= .
0 0 1/4 − λ −1/4
0 0 −λ −λ
1 1 0 0
−1/4 1/4 − λ 0 0
= λ2 .
0 0 1/4 − λ −1/4
0 0 1 1
1 0 0 0
−1/4 1/2 − λ 0 0
= λ2 .
0 0 1/2 − λ −1/4
0 0 0 1
1
= λ 2 ( − λ )2
2
23
Donc λ1 = 0 et λ1 = 1/2
3. Le vecteur
 propre  propre λ = 0
 associé à la valeur
x  x−y = 0


   (
 y   −x + y = 0 x= y
 z  ∈ ker(V ) ⇐⇒  z − t = 0 ⇐⇒
Soit u =  
  
 z= t
−z + t = 0

t 
       
1 0 1 0
       
 1   0   1   0 
=⇒ u = x   0  + z  1  donc u1 =  0  et u2 =  1 
      
       
0 1 0 1
En normalisant les vecteurs u1 et u2 on obtient finalement
 √   
1/ 2 0
 √   
 1/ 2   0 
 0  u2 =  1/√2 
u1 =    
   √ 
0 1/ 2
4. Déterminer
 desvecteurs propres orthonormés
 de V associés à λ2 = 1/2
x 

 x − y = 2x (
  
 y  1  − x + y = 2y y = −x
 z  ∈ ker(V − 2 I ) ⇐⇒  z − t =
Soit v =  ⇐⇒

  
 2z t = −z
− z + t = 2t

t 
       
1 0 1 0
       
 −1   0   −1   0 
=⇒ v = x  
 + z  1  donc v1 =  0  et v2 =  1  En
      
 0       
0 −1 0 −1
normalisant les vecteurs v1 et v2 on obtient finalement
 √   
1/ 2 0
 √   
 −1/ 2   0 
v1 =   v2 =  √ 
0  1/ √2 
   
 
0 −1/ 2
Corrigé 3.2. :
 
1 0 −1
 

 0 1 −1 

 −1 1 0 
Soit X le tableau suivant : X =  .
 

 0 −1 1 


 −1 0 1 

1 −1 0
24
On considère les six vecteurs x1 , x2 , · · · , x6 de R3 (muni de la métrique euclidien
usuelle) dont les composantes sont données par les lignes de X . On pose mi = 1/6
pours i = 1; 2; · · · , 6
 
1 0 −1
 
 0
 1 −1  
 −1 1 0 
1. On a X = 
 

 0 −1 1 
 
 −1 0 1 
 
1 −1 0
       
1 0 −1 0
donc x1 =  0 , x2 =  1 , x3 =  1 , x4 =  − 1 ,
       
−1 −1 0 1
   
−1 1
x5 =  0  et x6 =  −1 
   
1 0
     
1 0 −1
     
 0   1   −1   
  
 −1   1   0 
   0
=⇒  = =  = 0 donc : G =  0 
       
 0   −1   1 
  
 −1   0   1 
   0
     
1 −1 0
 
6
4 − 2 − 2
1
et V = 1/6 ∑ xi xi0 =  −2 4 −2 

i =1
6
−2 −2 4
2. Le moment d’inertie de N par rapport à l’origine IG = tr(V ) = 2,
25
3. Les différentes valeurs propres de V on a :
2/3 − λ −1/3 −1/3
det(V − λI ) = −1/3 2/3 − λ −1/3 .
−1/3 −1/3 2/3 − λ
−λ −1/3 −1/3
= −λ 2/3 − λ −1/3 .
−λ −1/3 2/3 − λ
1 −1/3 −1/3
= −λ 1 2/3 − λ −1/3 .
1 −1/3 2/3 − λ
1 −1/3 −1/3
= −λ 0 1−λ 0 .
0 0 1−λ
= −λ (1 − λ )2
Donc λ1 = 0 et λ1 = 1
4. Comme V admet deux valeurs propres distinctes donc le nuage des indivi-
dus est contenu dans le plan
5. Le vecteur propre associé à la valeur propre λ = 0
  
x  4x − 2y − 2z = 0

Soit u =  y  ∈ ker(V ) ⇐⇒ −2x + 4y − 2z = 0
 

z −2x − 2y + 4z = 0

( (
6x − 6y = 0 y= x
⇐⇒ ⇐⇒
4z = 2x + 2y z= x
   
1 1
=⇒ u = x  1  donc u1 =  1 
   
1 1
6. Les vecteurs propres orthonormés de V associés au valeur propre λ2 = 1 :
  
x  4x − 2y − 2z =
 6x
Soit v =  y  ∈ ker(V − I ) ⇐⇒ −2x + 4y − 2z = 6y
 

z −2x − 2y + 4z = 6z


 x+y+z = 0
 n
⇐⇒ x + y + z = 0 ⇐⇒ z = − x − y

x+y+z = 0

       
1 0 1 0
=⇒ v = x  0  + y  1  donc v1 =  0  et v2 =  1 
       
−1 −1 −1 −1
26
 
α
Soit W  β  un vecteur propre associé à
 
γ
lambda2 = 1 orthogonal à v1
Donc
 W verifie :


 4α − 2β − 2γ = 6α




 −2α + 4β − 2γ = 6β ( (

 −2α − 2β + 4γ = 6δ α +β+γ = 0 2α + β = 0
  ⇐⇒ ⇐⇒


 α α −γ = 0 γ= α
et(10 − 1)  β  =

0

  



 γ
 
1
D’où : W  −2 
 
1
En normalisant les vecteurs v1 et W on obtient finalement
 √   √ 
1/ 2 1/ 6
√ 
v1 =  0  W =  −2/ 6 
  
√ √
−1/ 2 1/ 6
La représentation graphique dans le plan engendré par v1 et W : On a la co-

ordonnée de xi sur ∆v1 est : xit .v1 donc
 √ 
1/ 2
√ √ √
xt1 .v1 = (1 0 − 1)  0  = 1/ 2 + 1/ 2 = 2
 
√
−1/ 2
 √ 
1/ 6
√  √ √
xt1 .W = (1 0 − 1)  −2/ 6  = 1/ 6 − 1/ 6 = 0

√
1/ 6
D’où
∆ v1 ∆ v2
√
x1 2 0
√ √
x2 2/2 − 6/2
√ √
x3 − 2/2 − 6/2
√ √
x4 − 2/2 6/2
√
x5 − 2 0
√ √
x6 2/2 6/2
27
Corrigé 3.3. :
On considère le tableau Y de notes sur 20 obtenues par 9 élèves en mathématiques,
physique , français, et anglais.(n=9 individus , p=4 variables) :
1. On a
mathématiques physique français anglais

Jean 6.0 6.0 5.0 5.5
Aline 8.0 8.0 8.0 8.0
Annie 6.0 7.0 11.0 9.5
Monique 14.5 14.5 15.5 15.0
Didier 14.0 14.0 12.0 12.5
André 11.0 10.0 5.5 7.0
Pierre 5.5 7.0 14.0 11.5
Brigitte 13.0 12.5 8.5 9.5
Evelyne 9.0 9.5 12.5 12.0
Moyenne 9.67 9.83 10.22 10.06
 
9.67
 
 9.83 
Donc le centre de gravité est donné par le vecteur : G =  .

 10.22 

10.06
2. On soumettre le tableau Y à un ACP.
11.389 9.917 2.657 4.824

9.917 8.944 4.120 5.481
V=
2.657 4.120 12.062 9.293
4.824 5.481 9.293 7.914
a- Indiquer la transformation qui permet de passer de la matrice Y à la ma-

trice X. On a :  
6.0 6.0 5.0 5.5
 8.0 8.0 8.0 8.0 
 
 
 6.0 7.0 11.0 9.5 
 
 14.5 14.5 15.5 15.0 
 
 
Y=  14.0 14.0 12.0 12.5 

 11.0 10.0 5.5 7.0 
 
 
 5.5 7.0 14.0 11.5 
 
 13.0 12.5 8.5 9.5 
 
9.0 9.5 12.5 12.0
28
 
6.0 − 9.67 6.0 − 9.83 5.0 − 10.22 5.5 − 10.06
8.0 − 9.67 8.0 − 9.83 8.0 − 10.22 8.0 − 10.06
 
 
 

 6.0 − 9.67 7.0 − 9.83 11.0 − 10.22 9.5 − 10.06 

14.5 − 9.67 14.5 − 9.83 15.5 − 10.22 15.0 − 10.06
 
 
 
=⇒ X = 
 14.0 − 9.67 14.0 − 9.83 12.0 − 10.22 12.5 − 10.06 

11.0 − 9.67 10.0 − 9.83 5.5 − 10.22 7.0 − 10.06
 
 
 

 5.5 − 9.67 7.0 − 9.83 14.0 − 10.22 11.5 − 10.06 

13.0 − 9.67 12.5 − 9.83 8.5 − 10.22 9.5 − 10.06
 
 
9.0 − 9.67 9.5 − 9.83 12.5 − 10.22 12.0 − 10.06
la première ligne de X est : X1 (−3.67 − 3.83 − 5.22 − 4.56)
b- On a  
11.389 9.917 2.657 4.824
 
 9.917 8.944 4.120 5.481 
V= 

 2.657 4.120 12.062 9.293 

4.824 5.481 9.293 7.914
donc IG = tr(V ) = 40.30.
c- Les deux plus grandes valeurs propres de la matrice V des variances-
covariances sont λ1 = 28.253, λ2 = 12.03 .
λ1 28.253 λ 12.03
Donc : I∆1 = = = 0.7 et I∆2 = 2 = = 0.3
IG 40.30 IG 40.30
I∆1 + I∆2 = 0.7 + 0.3 = 1 = 100% donc le nuage est pratiquement dan
un espace de dimension 2
d- Les deux vecteurs propres normés de V sont donnés dans le tableau ci-
dessous :
1 2
Maths 0.515 -0.567
Physique 0.507 -0.372
Français 0.492 0.650
Anglais 0.492 0.323
   
0.515 −0.567
   
 et a2 =  −0.372 
 0.507   
On note a1 =  0.492   0.650 
   
0.485 0.323
Les coordonnées de " Jean " sur axe ∆1 sont
donnéespar :
0.515
 
 0.507 
X1 .a1 = (−3.67 − 3.83 − 5.22 − 4.56).    = −8.61
 0.492 

0.485
29
De même les coordonnées de " Jean " sur axe
 ∆2 sont données par :
−0.567
 
 −0.372 
X1 .a2 = (−3.67 − 3.83 − 5.22 − 4.56).  0.650  = −1.41

 
0.323
3. Les coefficients de corrélation linéaire entre le premier facteur et les 4 va-

riables :
p a11 √ 0.515
ρ(1, 1) = λ1 × √ = 28.253 × = 0.811
V1 3.37
p a12 √ 0.507
ρ(1, 2) = λ1 × √ = 28.253 × = 0.9
V2 2.99
p a13 √ 0.492
ρ(1, 3) = λ1 × √ = 28.253 × = 0.75 · · ·
V2 3.47
4. Les corrélations entre les variables et les autres facteurs sont données ci-
dessous
1 2 3 4
math 0.81 -0.584 0.01 -0.02
phys 0.90 -0.432 -0.03 0.02
fran 0.75 0.651 -0.02 -0.01
ang 0.92 0.399 0.04 0.02
Interprétation
Ainsi, on voit que le premier facteur est corrélé positivement, et assez forte-
ment, avec chacune des 4 variables initiales : plus un élève obtient de bonnes
notes dans chacune des 4 disciplines, plus il a un score élevé sur l’axe 1 ; réci-
proquement, plus ses notes sont mauvaises, plus son score est négatif ; l’axe
1 représente donc, en quelques sortes, le résultat global (dans l’ensemble des
4 disciplines considérées) des élèves. En ce qui concerne l’axe 2, il oppose,
d’une part, le français et l’anglais (corrélations positives), d’autre part, les
mathématiques et la physique (corrélations négatives). Il s’agit donc d’un
axe d’opposition entre disciplines littéraires et disciplines scientifiques, sur-
tout marqué par l’opposition entre le français et les mathématiques.
30
5. Le tableau suivant donne les coordonnées des individus (les élèves) sur les
deux premiers axes (les facteurs)
F1 F2
Jean -8.61 -1.41
Aline -3.88 -0.50
Annie -3.21 3.47
Monique 9.85 0.60
Didier 6.41 -2.05
André -3.03 -4.92
Pierre -1.03 6.38
Brigitte 1.95 -4.20
Evelyne 1.55 2.63
 
−4, 3194444
 −1, 9444444 
 
 
 −1, 5694444 
 
 4, 93055556 
 
 
i − Note_moy =   3, 18055556  .

 −1, 5694444 
 
 
 −0, 4444444 
 
0, 93055556
 
 
0, 80555556
14, 11138
ii − =⇒ ρ( Note_moy, F1) = = 0, 99989 ' 1
5, 312961 × 2, 6563
Ce qui justifier l’assimilation du premier facteur à la moyenne
31
6. l’indice ponctuel de la représentation de " Jean " sur le premier axe factoriel :
On a la première ligne de X est : X1 (−3.67 − 3.83  − 5.22 − 4.56)
0.515
 
 0.507 
Le vecteur directeur unitaire a1 de ∆1 est :   
 0.492 

0.485
( X1 .a1 ) 2 (−8.61) 2
Donc cos2 (αU1 ,∆1 ) = = = 0.97 ( U1 : " Jean " )
k X1 k2 8.462
De même l’indice ponctuel de la représentation de " Jean " sur le eeuxième
axe factoriel :
On a la première ligne de X est : X1 (−3.67 − 3.83 − 5.22 − 4.56)
−0.567
 
 −0.372 
Le vecteur directeur unitaire a2 de ∆2 est :   0.650 

 
0.323
( X .a ) 2 (− 1.41 ) 2
1 2
Donc cos2 (αU1 ,∆2 ) = = = 0.026 L’indice ponctuel de la
k X1 k2 8.462
représentation de " Jean " sur le plan des deux premiers facteurs :
cos2 (αU1 ,∆1 L ∆2 ) = cos2 (αU1 ,∆1 ) + cos2 (αU1 ,∆2 ) = 0.999
On a cos2 (αU1 ,∆1 L ∆2 ) ' 1 donc " Jean " est bien représenté dans le plan des
deux premiers axes.
32

Travaux Dirugé Analyse de Donné

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Travaux Dirugé Analyse de Donné

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSITE MOHAMMED PREMIER

ECOLE NATIONALE DES SCIENCES APPLIQUEES

A NNÉE UNIVERSITAIRE : 2020 - 2021

1 Introduction à l’analyse des données 3

3 Analyse en composante principale (ACP) 19

Introduction à l’analyse des

1. Calculer la valeur moyenne. Quel est le mode ? quelle est la médiane ?

Classe [1,2[ [2,3[ [3,4[ [4,5[ [5,6[

1. La valeur moyenne de cette série statistique est :

Polygône des fréquences

Polygône des effectifs cumulés

=⇒ X = 0.0664Z + 1.7125 = 1.7125

1. Montrer que :|ρ( X, Y )| ≤ 1.

5. l’équation de la droite de régression de Y en X :

Donc :Y − 137, 44 = 1, 274385408( X − 50, 89)

Donc :X − 50, 89 = 0, 688665095(Y − 137, 44)

1. Calculer la moyenne et l’écart-type de chacun des deux caractères X et Y

2. Calculer la covariance et le coefficient de corrélation du couple (X,Y). Que

3. Trouver la droite de régression de Y en X.

3. l’équation de la droite de régression de Y en X :

Donc : Y − 75, 80 = a( X − 171) avec : a = 0, 862790698

donc l’ajustement affine est justifié

donc l’ajustement affine est justifié

Analyse en composante principale

mathématiques physique français anglais

11.389 9.917 2.657 4.824

a- Indiquer la transformation qui permet de passer de la matrice Y à la ma-

2. Le moment d’inertie de N par rapport à l’origine IG = tr(V ) = 2,

La représentation graphique dans le plan engendré par v1 et W : On a la co-

mathématiques physique français anglais

11.389 9.917 2.657 4.824

a- Indiquer la transformation qui permet de passer de la matrice Y à la ma-

9.0 9.5 12.5 12.0

3. Les coefficients de corrélation linéaire entre le premier facteur et les 4 va-

Vous aimerez peut-être aussi