Académique Documents
Professionnel Documents
Culture Documents
Dhafer Malouche
ESSAI-U2S-ENIT
dhafer.malouche@me.com
2012-2013
Plan
Les données
Représentations Graphiques
Représentation des individus
Représentation des variables
Les données
Représentations Graphiques
Représentation des individus
Représentation des variables
Individus et variables
Éléments de l’analyse
I pi est le poids de chaque individu wi dans l’échantillon E :
n
X
pi ∈ [0, 1], pi = 1
i=1
Géométries dans Rn et Rd
I Centre de gravité de NI , g = t (x 1 , . . . , x d ) ∈ Rd où
n
pi xij est la moyenne de x j
X
xj =
i=1
⇒ Var(x j ) =k x j k2 dans Rn .
0
I Covariance entre les variables x j et x j
n
0 0 0
pi xij xij =< x j , x j > .
X
Cov(x j , x j ) =
i=1
0
I Corrélation entre les variables x j et x j
0 0
j j0 Cov(x j , x j )< xj, xj >
Cor(x , x ) = p = = cos α
Var(x j ) Var(x j 0 ) k x j k k x j0 k
0
où α est l’angle entre les vecteurs x j et x j dans Rn .
Les données 8
Écriture matricielle
I Matrice Variances-Covariances :
V = t XDX
où (σ j )2 = Var(x j ).
Calcul des composantes principales 9
Les données
Représentations Graphiques
Représentation des individus
Représentation des variables
Problème
Projection Orthogonale
I Soit x = t (x 1 , . . . , x d ) ∈ Rd et u = t (u 1 , . . . , u d ) ∈ Rd ,
k u k= t uu = 1. La projection orthogonale de x sur la droite
< u > est
x ⊥ =< x, u > ·u = t xu · u
t xuest la coordonnée de x sur < u >.
I Calculons la distance entre x et x ⊥ :
d(x, x ⊥ )2 = k x − x ⊥ k2 =< x − x ⊥ , x − x ⊥ >
= t ( x − t xu · u) ( x − t xu · u)
= t xx − (t xu)2 −t xu t ux + (t xu)2 t uu
= t xx − ( t xu)2 (∗)
(∗) est une formule de pythagore,
k x k2 =k x − x ⊥ k2 + k x ⊥ k2
Calcul des composantes principales 12
Formalisme mathématique
I On va chercher u ∈ Rd , k u k= t uu = 1, tel que
n
X
pi d(xi , xi⊥ )2
i=1
soit minimale.
I Comme
I = ni=1 pi d(xi , xi⊥ )2 =
P Pn t
Pn t 2
i=1 pi xi xi − i=1 pi ( xi u)
= tr(V ) − t u V u
I ou d’une façon équivalente :
t
max uV u
u∈Rd , kuk=1
Calcul des composantes principales 13
Solution
I Posons
L(λ) = t u V u = t u V u − λ( t uu − 1)
I u est un maximum si
∂ t ∂
u V u = 0, ⇐⇒ L(λ) = 0
∂u ∂u
I Mais
∂
L(λ) = 2Vu − 2λu
∂u
I Si u est un maximum de t u V u alors u est un vecteur propre
de V de norme 1.
I V étant une matrice définie positive : V admet d valeurs
propres positives
λ1 ≥ λ2 ≥ . . . . . . ≥ λd .
Solution...suite
I u 1 = t (u11 , . . . , udj ) ∈ Rd un vecteur propre, k u 1 k= 1,
associé à λ1 .
I On a t (u 1 )Vu 1 = λ1 t (u 1 )u 1 = λ1 .
I La coordonnée
Pd de chaque individu wi sur < u 1 > est
t x u1 = j 1
i j=1 xi uj .
I Les coordonnées de tous les individus s’écrivent dans la
matrice colonne suivante
d d
x1j uj1 , . . . ,
X X
C 1 = X u1 = t xnj uj1
j=1 j=1
Précautions
I Comme C 1 = u11 x 1 + . . . + uj1 x j , donc x 1 , . . . , x d doivent être
mesurées avec la même unité.
I Comme Var(C 1 ) est maximale, donc il faut que les valeurs des
variances de x 1 , . . . , x d ne soient pas très différentes les unes
des autres.
I Solution : réduire toutes les variables
x 1 , . . . , x d −→ z 1 , . . . , z d
xij − x j
zij = .
σj
C’est l’Analyse en Composantes Principales normée.
I Par contre, si toutes les variables x j sont des variables
ordinales (enquêtes de satisfaction) il est souhaitable d’utiliser
une ACP non-normée.
Calcul des composantes principales 17
Propriétés
I On peut construire toutes les composantes principales
C 1 , C 2 , . . . , C d telles
d
X
k k
C =Xu = ujk x j , Var(C k ) = λk
j=1
I Posons C = (C 1 | . . . | C d ) (n × d)
et u = (u 1 | . . . | u d ) (d × d) :
λ1 0
C = X u = (Cik ), t CDC = Λ et u t u = Id où Λ =
.. .
.
0 λj
1
Cette Conditionne entraı̂ne que t uu = Id ⇒ t u = u−1 et donc u t u = Id
Représentations Graphiques 19
Les données
Représentations Graphiques
Représentation des individus
Représentation des variables
IC = X u ⇐⇒ X = C t u
⇒ ∀, i = 1, . . . , n, xi = dk=1 Cik u k .
P
I Pour représenter les individus sur le plan engendré par les deux
premiers axes principaux, il suffit de considérer les deux
premières colonnes de C.
Représentations Graphiques 21
Qualité de la représentation
NIk = (x1 )⊥ ⊥ est la projection du nuage N sur
I
k , . . . , (xn )k I
< u k >.
I L’inertie totale du nuage NI s’exprime par
n
X n
X d
X d
X
2 t t j 2
I = pi d(0, xi ) = pi (xi )xi = tr( XDX ) = (σ ) = λk
i=1 i=1 j=1 k=1
Qualité de la représentation...
1. Contribution d’un individu wi à l’inertie totale
Pd k 2
pi t (xi )xi k=1 (Ci )
Ctr(xi ) = = P d
I k=1 λk
Ctr(xi ) permet d’indiquer la présence d’une observation
aberrante.
2. Contribution d’un individu wi à l’inertie du k−ième axe
principal < u k >
(C k )2
Ctrk (xi ) = Pd i
l=1 λl
Interprétation et qualités
I Rappelons que
d
X p
j
∀, j = 1, . . . , d, x = ujk λk Z k
k=1
d
X
∀, k = 1, . . . , d, C k = ujk x j
j=1
Pd
⇒ Var(x j ) =k x j k2 = k 2
k=1 (uj ) λk
(ujk )2 λk
⇒ Ctrk (x j ∼ Z k ) = est la contribution de Z k dans
Var(x j )
l’explication de x j .
Représentations Graphiques 25
Interprétation et qualités
Var(C k ) = λk et Var((x j )⊥ k 2
k ) = (uj ) λk .
⇒ Ctrk (C k ∼ x j ) = (ujk )2
√
j k j k < xj, Z k > ujk λk
Cor(x , C ) = Cor(x , Z ) = p =p .
Var(x j ) Var(Z k ) Var(x j )
k (x j )⊥
k k
2 (ujk )2 λk k 2
2 j
, (x j )⊥ j
cos x k = = = Cor(x , C ) .
k x j k2 Var(x j )
Récapitulation
C=Xu
Les données
Représentations Graphiques
Représentation des individus
Représentation des variables
< y , (y k )⊥ > k (y k )⊥ k
Ryk|x 1 ,...,x d = Cor(y , (y k )⊥ ) = k ⊥
=
k y kk (y ) k ky k
Comme k y k2 =k (y k )⊥ k2 + k y − (y k )⊥ k2 (Pythagore).
Alors
2 k y − (y k )⊥ k2
Ryk|x 1 ,...,x d =1−
k y k2
mesure la part de (y k )⊥ dans l’explication de y .
I Si ACP-normée alors (Ryk|x 1 ,...,x d )2 =k (y k )⊥ k2 et
Pd k 2
k=1 (Ry |x 1 ,...,x d ) mesure le cœfficient de corrélation partiel
I
xlj = pi xij
X
wi ∈El
4. On représente (gl )⊥
k la projection orthogonale de gl sur le
k−ième axe principal < u k >,
(gl )⊥ t k
k = ( gl u ) · u
k
Représentation des variables supplémentaires 32
Individus supplémentaires
I ws un individu supplémentaire qu’on a envie de le représenter
sur un k−ième axe principal < u k >.
I ∀ j = 1 . . . d, xsj = x j (ws ). Donc ws a pour coordonnées dans
Rd : xs = t (xs1 , . . . , xsd ).
I D’abord, il faut faire subir à xs les mêmes transformations que
les xi :
xsj − x j
centrer xsj − x j ou centre et réduire
σj
où x j et σ j sont resp. la moyenne et l’écart-type de la variable
x j (sans l’observation xs ).
I La représentation de ws sur < u k > se fait par projection
orthogonale :
(xs )⊥ = ( t xs u k ) · u k .
Application 1 : étude du climat des différents pays d’Europe 34
Les données
Représentations Graphiques
Représentation des individus
Représentation des variables
Les données
Représentations Graphiques
Représentation des individus
Représentation des variables