Vous êtes sur la page 1sur 14

Chapitre I

Analyse en composantes
principales ”ACP”

Cours 4
Lamia JAAFAR Belaid Analyse 2
ACP
Ajustement du nuage des variables: analyse

Commentaires
Soit le nuage des variables Nk : Voir Figure! L’angle θkl
formalise la liaison entre les points Mk , Ml .
Variables centrées ⇒ r (k, l) = cos θkl : r = 0 ⇔ Var.
orthogonales et r = 1 ⇔ Var. colinéaires!
La norme de chaque variable k est telle que
P  ¯ 2

||xk || = 1I Ii=1 xikσ−k xk = 1 = rkk .
Variables réduites ⇒ variables situées sur l’hypersphère
de rayon 1, centrée en 0!
Les liaisons entre variables vont être automatiquement
détectées par le graphique de l’image approchée obtenue
par la technique d’ajustement!
Le critère de maximisation fait
Pdonc intervenir
s 2 2 2
P P
k (OHk ) = k cos θks = k r (k, vs )!

Lamia JAAFAR Belaid Analyse 2


ACP
Ajustement du nuage des variables: analyse du graphique

Les vecteurs variables sont presque de norme 1 ⇒


l’approximation obtenue est quasiment parfaite! avec une
minime déformation de l’image projetée!
Les variables sont corrélées positivement deux à deux!
(r ≥ 0, 33). La matrice des corrélations le montre!
Voir Matrice!
Deux mois consécutifs sont étroitement corrélés
(r ≥ 0, 77).

Lamia JAAFAR Belaid Analyse 2


ACP
Nuage des variables NK : étude

Question: Quelle relation relie les ajustements des deux


nuages dans les deux espaces RI et RK ?
Proposition 6
Sous les mêmes notations que précédemment, on a: λs = µs
et les formules de transition entre les deux espaces RI et RK
sont données par:

Xus

 vs = √ ,


νs
X tv
s
 us = √ ,


νs

avec λs = µs = νs 6= 0
Proof.
Voir démonstration Escape the proof!

Lamia JAAFAR Belaid Analyse 2


Dans RK , X t Xus = λs us et dans RI , XX t vs = µs vs .
Donc XX t Xus = λs Xus et X t XX t vs = µs X t vs .
On déduit alors que pour chaque s : λs ≤ µs et µs ≤ λs ⇒ les
valeurs propres non nulles de X t X et XX t sont alors égales.
D’autre part, dire que Xus est un vecteur propre de XX t associé
Xus
à λs donne vs = ||Xus ||
.
X t vs
De même us = ||X t vs ||
.
Or ||Xus ||2 =< Xus , Xus >= ust X t Xus = λs .
Xus X t
Donc vs = √ √ vs , avec λs = µs = νs .
νs et aussi us = νs

Retour Next slide!

Lamia JAAFAR Belaid Analyse 2


Soit Fs = Xus , Gs = X t vs ⇒ Fs est issu de la projection de
NI sur le sieme axe et Gs est issu de la projection de NK sur
le sieme axe!
Fs est le vecteur composante principale et us est le facteur
principal (vecteur propre) d’ordre s.
On déduit des relations de dualité entre les deux espaces.
En particulier, on a:
K PK
k =1 xik Gs (k)
X
Fs (i) = xik us (k) = √ .
νs
k =1

L’analyse factorielle consiste donc à analyser


simultanément le nuage NI et le nuage NK . L’étude de Nk
est une aide à l’interprétation!
De la détermination de λs , us , Fs on récupère
automatiquement µs , vs , Gs !

Lamia JAAFAR Belaid Analyse 2


Reconstruction des données et aide à l’interprétation

Proposition 7
La reconstruction exacte du tableau de données X est:
K
X √
X = νs vs ust .
s=1

Proof.
Voir démonstration Escape the proof!

Les axes factoriels donnent des images approchées des


nuages NI , NK =⇒ définir des indicateurs de mesure de la
qualité de la reconstruction!

Lamia JAAFAR Belaid Analyse 2



Comme Xus = νs vs , donc:

Xus ust = νs vs ust .
K K
X X √
D’où Xus ust = νs vs ust .
s=1 s=1
Or les us sont deux à deux orthogonaux, et de norme 1 et donc
K
X √
X = νs vs ust .
k =1

Retour Next slide!

Lamia JAAFAR Belaid Analyse 2


Aide à l’interprétation

La reconstruction est bonne si les inerties sont


importantes!
Les valeurs propres sont les inerties des nuages de points!
Les S premiers axes factoriels permettent de reconstruire
le tableau de données avec une bonne précision.
Cette précision dépend donc d’une certaine
”proportionnalité” des valeurs propres!

K
I X
x − x̄k 2
( ik
X
1
L’inertie totale est définie par Itot = I ) ⇒
σk
i=1 k =1
K
X
Itot (X ) = λk = trace(X t X ) = K .
k =1

Lamia JAAFAR Belaid Analyse 2


Aide à l’interprétation
Mesure de la reconstruction!
En se limitant aux S premiers axes factoriels, on obtient
une approximation du tableau de données avec une
certaine estimation!
K
X
La précision de la reconstruction est bonne si νs est
s=1
une bonne proportion de la trace de X t X !
Le taux d’inertie P
de la reconstruction est défini par
S S
tr (X ∗t X ∗)
P
νs νs
τS = tr (X t X )
= P s=1
K = s=1
K , où X ∗ est le tableau
s=1 νs
approximé X .
L’inertie expliquée par chaque axe d’ordre s est mesurée
νs
par !
K
La reconstruction des données pluviométriques est de plus de
94%!
Lamia JAAFAR Belaid Analyse 2
Aide à l’interprétation

Qualité de la représentation d’une variable ou d’un individu!

La qualité de représentation d’un point i par l’axe s est

(OHsi )2
QLTs (i) = = cos2 (θ(Oi, s)).
Oi 2

Dans le jeu de données pluviométriques:


pour le mois de janvier, on trouve sa coordonnée sur la
dimension 1 vaut 0.945 ou encore cos2 (θ) = 0.894 =⇒
Janvier est très bien projeté et donc trés bien représenté!
La qualité de représentation de la ville de Tabarka est
d’ordre 98%.

Lamia JAAFAR Belaid Analyse 2


Aide à l’interprétation

Contribution d’un individu ou d’une variable à la construction


d’un axe!

La contribution d’une variable (resp. un individu) à la


construction d’un axe se mesure par:

F2
CTR(i) = PI is .
2
i=1 Fis

resp.
r (k, vs )2
CTR(k) = PK ,
r 2 (k, v )
k =1 s

Tabarka contribue à la construction du premier axe factoriel


avec 50.54% et 8.30% pour le second axe!

Lamia JAAFAR Belaid Analyse 2


Aide à l’interprétation

Considérer des variables illustratives!

Variables quantitatives: longitude, latitude, moyenne,


amplitude thermique, taux de pluie en saison estivale, ect
Variables qualitatives: modalités ”NE,NO,SE,SO”

En présence d’un grand nombre de variables quantitatives:


calculer les coefficients de corrélation entre chaque
variable et les axes!
faire un tri=⇒ ne garder que celles qui sont significatives!

Lamia JAAFAR Belaid Analyse 2


ACP en analyse de données
Conclusion

Dresser le tableau de données individus× variables


Choisir les variables actives (quantitatives!)
Centrer et réduire les données
Appliquer une ACP
Choisir le nombre de dimensions à interpréter selon la
synthèse des résultats
Interpréter tous les graphiques (nuage des individus,
nuage des variables) simultanément
Utiliser des indicateurs de mesures comme aide à
l’interprétation
Utiliser des individus et/ou des variables supplémentaires
pour enrichir l’interprétation
Revenir toujours aux données pour confirmer vos
interprétations
Lamia JAAFAR Belaid Analyse 2

Vous aimerez peut-être aussi