Vous êtes sur la page 1sur 39

Analyse en Composantes Principales

Exploration de données Quantitatives

Dhafer Malouche

ESSAI-U2S-ENIT
dhafer.malouche@me.com

2012-2013
Plan

Les données

Calcul des composantes principales

Représentations Graphiques
Représentation des individus
Représentation des variables

Représentation des variables supplémentaires

Application 1 : étude du climat des différents pays d’Europe

Application 2 : étude de la performance des points de ventes (PV)


d’une Banque
Les données 3

Les données

Calcul des composantes principales

Représentations Graphiques
Représentation des individus
Représentation des variables

Représentation des variables supplémentaires

Application 1 : étude du climat des différents pays d’Europe

Application 2 : étude de la performance des points de ventes (PV)


d’une Banque
Les données 4

Individus et variables

I E = {w1 , . . . , wn } un échantillon de taille n.


I x 1 , . . . , x d , d variables quantitatives.
I y une variable quantitative supplémentaire, y = f (x 1 , . . . , x d ),
f inconnue.
I A une variable qualitative supplémentaire à r modalités :
a1 , . . . , ar .
I les observations :
I quantitatives : xij = x j (wi ), ∀ i = 1 . . . n et j = 1 . . . d.
I supplémentaire quantitative : yi = y (wi ), ∀ i = 1 . . . n.
I supplémentaire qualitative : al = A(wi ), ∀ i = 1 . . . n et
l = 1 . . . r.
x 1 , . . . , x d variables actives, y et A variables supplémentaires.
Les données 5

Éléments de l’analyse
I pi est le poids de chaque individu wi dans l’échantillon E :
n
X
pi ∈ [0, 1], pi = 1
i=1

. Matrice des poids


 
p1 0
D=
 .. 
. 
0 pn

I Nuage des individus : chaque individu wi est représenté par


xi = t (xi1 , . . . , xid ) ∈ Rd . NI = { xi ∈ Rd , i = 1 . . . n}.
I Nuage des variables : chaque variable x j est représentée par
x j = t (x1j , . . . , xnj ) ∈ Rn . NV = { x j ∈ Rn , j = 1 . . . d}.
Les données 6

Géométries dans Rn et Rd
I Centre de gravité de NI , g = t (x 1 , . . . , x d ) ∈ Rd où
n
pi xij est la moyenne de x j
X
xj =
i=1

Pour la suite X est une matrice centrée ⇒ g = 0.


I Rd est un espace euclidien muni du produit scalaire usuel :
d
xij xij0 .
X
t
< xi , x >= (xi )x =
i0 i0
j=1

I Rn est un espace euclidien muni du produit scalaire :


n
0 0 0
pi xij xij .
X
< x j , x j >= t (x j ) D x j =
i=1

C’est un produit scalaire de métrique D.


Les données 7

Variances, Covariances et Corrélations


I Variance de la variable x j :
n
pi (xij )2
X
j
Var(x ) =
i=1

⇒ Var(x j ) =k x j k2 dans Rn .
0
I Covariance entre les variables x j et x j
n
0 0 0
pi xij xij =< x j , x j > .
X
Cov(x j , x j ) =
i=1

0
I Corrélation entre les variables x j et x j
0 0
j j0 Cov(x j , x j )< xj, xj >
Cor(x , x ) = p = = cos α
Var(x j ) Var(x j 0 ) k x j k k x j0 k
0
où α est l’angle entre les vecteurs x j et x j dans Rn .
Les données 8

Écriture matricielle
I Matrice Variances-Covariances :

V = t XDX

où X est la matrice centrée des données.


I Matrice des corrélations :

R = Dσ−1 VDσ−1 = t (XDσ−1 ) D (XDσ−1 )

où Dσ est la matrice diagonale


 1 
σ 0
Dσ = 
 .. 
. 
0 σj

où (σ j )2 = Var(x j ).
Calcul des composantes principales 9

Les données

Calcul des composantes principales

Représentations Graphiques
Représentation des individus
Représentation des variables

Représentation des variables supplémentaires

Application 1 : étude du climat des différents pays d’Europe

Application 2 : étude de la performance des points de ventes (PV)


d’une Banque
Calcul des composantes principales 10

Problème

I Trouver un sous-espace vectoriel de dimension faible (2 ou 3)


pour faire une représentation des graphiques des variables et
des individus.
I Cette représentation a pour objectif de bien montrer
I les relations existantes entre les variables : les corrélations.
I les similarités et les éventuels sous-groupes dans l’échantillon
E.

I Chercher une suite de variables artificielles C 1 , . . . , C k ,


k << d, qui
I sont combinaisons linéaires des variables x 1 , . . . , x d ,
I non-corrélées entre elles
I et captent le maximum de variance du nuage NI .
Calcul des composantes principales 11

Projection Orthogonale
I Soit x = t (x 1 , . . . , x d ) ∈ Rd et u = t (u 1 , . . . , u d ) ∈ Rd ,
k u k= t uu = 1. La projection orthogonale de x sur la droite
< u > est
x ⊥ =< x, u > ·u = t xu · u
t xuest la coordonnée de x sur < u >.
I Calculons la distance entre x et x ⊥ :
d(x, x ⊥ )2 = k x − x ⊥ k2 =< x − x ⊥ , x − x ⊥ >

= t ( x − t xu · u) ( x − t xu · u)

= t xx − (t xu)2 −t xu t ux + (t xu)2 t uu

= t xx − ( t xu)2 (∗)
(∗) est une formule de pythagore,
k x k2 =k x − x ⊥ k2 + k x ⊥ k2
Calcul des composantes principales 12

Formalisme mathématique
I On va chercher u ∈ Rd , k u k= t uu = 1, tel que
n
X
pi d(xi , xi⊥ )2
i=1

soit minimale.
I Comme
I = ni=1 pi d(xi , xi⊥ )2 =
P Pn t
Pn t 2
i=1 pi xi xi − i=1 pi ( xi u)

= tr( t XDX ) − t u t XDX u

= tr(V ) − t u V u
I ou d’une façon équivalente :
t
max uV u
u∈Rd , kuk=1
Calcul des composantes principales 13

Solution
I Posons
L(λ) = t u V u = t u V u − λ( t uu − 1)
I u est un maximum si
∂ t ∂
u V u = 0, ⇐⇒ L(λ) = 0
∂u ∂u
I Mais

L(λ) = 2Vu − 2λu
∂u
I Si u est un maximum de t u V u alors u est un vecteur propre
de V de norme 1.
I V étant une matrice définie positive : V admet d valeurs
propres positives
λ1 ≥ λ2 ≥ . . . . . . ≥ λd .

I u est le vecteur propre associé à la plus grande valeur de V .


Calcul des composantes principales 14

Solution...suite
I u 1 = t (u11 , . . . , udj ) ∈ Rd un vecteur propre, k u 1 k= 1,
associé à λ1 .
I On a t (u 1 )Vu 1 = λ1 t (u 1 )u 1 = λ1 .
I La coordonnée
Pd de chaque individu wi sur < u 1 > est
t x u1 = j 1
i j=1 xi uj .
I Les coordonnées de tous les individus s’écrivent dans la
matrice colonne suivante
 
d d
x1j uj1 , . . . ,
X X
C 1 = X u1 = t  xnj uj1 
j=1 j=1

I C 1 est aussi une combinaison linéaire des variables x 1 , . . . , x d :


d
X
C1 = uj1 x j
j=1

I Var(C 1 ) = t (C 1 )DC 1 = t (u 1 ) t XDXu 1 = t (u 1 )Vu 1 = λ1 .


C 1 est la première composante principale.
Calcul des composantes principales 15

Une deuxième approche...

I Chercher une variable artificielle C , combinaison linéaire des


variables x 1 , . . . , x d , et qui soit de variance maximale.
I D’une façon
Pdéquivalente : chercher les réels α1 , . . . , αd tels
j
que C = j=1 αj x soit de variance maximale.
Les αj doivent vérifier dj=1 (αj )2 = 1.
P

I Ce problème est équivalent à


t
max uV u
u∈Rd , kuk=1

I Solution : C 1 première composante principale.


Calcul des composantes principales 16

Précautions
I Comme C 1 = u11 x 1 + . . . + uj1 x j , donc x 1 , . . . , x d doivent être
mesurées avec la même unité.
I Comme Var(C 1 ) est maximale, donc il faut que les valeurs des
variances de x 1 , . . . , x d ne soient pas très différentes les unes
des autres.
I Solution : réduire toutes les variables
x 1 , . . . , x d −→ z 1 , . . . , z d

xij − x j
zij = .
σj
C’est l’Analyse en Composantes Principales normée.
I Par contre, si toutes les variables x j sont des variables
ordinales (enquêtes de satisfaction) il est souhaitable d’utiliser
une ACP non-normée.
Calcul des composantes principales 17

Les autres composantes principales


I Chercher un vecteur unitaire u ∈ Rd orthogonal à u 1 et tel que
n
X
pi d(xi , xi⊥ )2
i=1

soit minimale où xi⊥ pour tout i = 1, . . . , n, est la projection


orthogonale de xi sur < u >.
I Solution : u 2 un vecteur propre associé à λ2 ≤ λ1 et
orthogonal à u 1 .

C 2 = X u 2 = dj=1 uj2 x j est la deuxième composante


P
I
principale.
I C 1 et C 2 sont deux variables non corrélées :

Cov(C 1 , C 2 ) = t (C 1 )D(C 2 ) = t (u 1 ) t XDX (u 2 ) = λ2 t (u 1 )u 2 = 0


Calcul des composantes principales 18

Propriétés
I On peut construire toutes les composantes principales
C 1 , C 2 , . . . , C d telles
d
X
k k
C =Xu = ujk x j , Var(C k ) = λk
j=1

où u 1 , . . . , u d est une base orthonormée de vecteurs propres


de V :
0
< u k , u k >= δkk 0 1 et Vu k = λk u k .

I Posons C = (C 1 | . . . | C d ) (n × d)
et u = (u 1 | . . . | u d ) (d × d) :
 
λ1 0
C = X u = (Cik ), t CDC = Λ et u t u = Id où Λ = 
 .. .

.
0 λj
1
Cette Conditionne entraı̂ne que t uu = Id ⇒ t u = u−1 et donc u t u = Id
Représentations Graphiques 19

Les données

Calcul des composantes principales

Représentations Graphiques
Représentation des individus
Représentation des variables

Représentation des variables supplémentaires

Application 1 : étude du climat des différents pays d’Europe

Application 2 : étude de la performance des points de ventes (PV)


d’une Banque
Représentations Graphiques 20

Reconstitution des données

IC = X u ⇐⇒ X = C t u

⇒ ∀, i = 1, . . . , n, xi = dk=1 Cik u k .
P

⇒ (Ci1 , . . . , Cid ) sont les coordonnées de l’individu wi dans la


BON {u 1 , . . . , u d } et si (xi )⊥
k est le projeté orthogonal de xi
k
sur < u > (le k−ième axe principal) est
 
d
xij ujk  u k .
X
(xi )⊥ k k
k = Ci u =

j=1

I Pour représenter les individus sur le plan engendré par les deux
premiers axes principaux, il suffit de considérer les deux
premières colonnes de C.
Représentations Graphiques 21

Qualité de la représentation
NIk = (x1 )⊥ ⊥ est la projection du nuage N sur

I
k , . . . , (xn )k I
< u k >.
I L’inertie totale du nuage NI s’exprime par
n
X n
X d
X d
X
2 t t j 2
I = pi d(0, xi ) = pi (xi )xi = tr( XDX ) = (σ ) = λk
i=1 i=1 j=1 k=1

I L’inertie du nuage NIk s’exprime par


n
X n
X  
Ik = pi d(0, (xi )⊥
k)
2
= pi t (xi )⊥ ⊥ t k t k
k (xi )k = (u ) XDXu = λk .
i=1 i=1

I La qualité de la représentation sur < u k > se mesure par


λk
Pd .
l=1 λl
Représentations Graphiques 22

Qualité de la représentation...
1. Contribution d’un individu wi à l’inertie totale
Pd k 2
pi t (xi )xi k=1 (Ci )
Ctr(xi ) = = P d
I k=1 λk
Ctr(xi ) permet d’indiquer la présence d’une observation
aberrante.
2. Contribution d’un individu wi à l’inertie du k−ième axe
principal < u k >
(C k )2
Ctrk (xi ) = Pd i
l=1 λl

3. cos2 de l’angle entre xi et (xi )⊥


k mesure la qualité de la
représentation de xi sur < u k >
(Cik )2
cos2k (xi ) = t (x )x
i i
Représentations Graphiques 23

Reconstitution des données


IC = X u ⇐⇒ X = C t u
⇒ ∀, j = 1, . . . , d, x j = dk=1 ujk C k .
P

I Comme {C 1 , . . . , C d } est une famille de vecteurs orthogonaux


2 à 2 dans Rn muni de la métrique D, ∀ k 6= k 0 ,
0 0 0 p
Cov(C k , C k ) =< C k , C k >= t (C k )D(C k ) et k C k k= λk .
On considère la famille {Z 1 , . . . , Z d } où ∀ k = 1, . . . , d
Ck
Zk = √
λk
< Z k > est appelé le k−ième axe unitaire.
I La projection orthogonale de x j sur < Z k >, s’exprime alors
p
(x j )⊥ = ujk λk Z k .

⇒ ujk λk est la coordonnée de x j sur < Z k >.
Représentations Graphiques 24

Interprétation et qualités

I Rappelons que
d
X p
j
∀, j = 1, . . . , d, x = ujk λk Z k
k=1
d
X
∀, k = 1, . . . , d, C k = ujk x j
j=1
Pd
⇒ Var(x j ) =k x j k2 = k 2
k=1 (uj ) λk
(ujk )2 λk
⇒ Ctrk (x j ∼ Z k ) = est la contribution de Z k dans
Var(x j )
l’explication de x j .
Représentations Graphiques 25

Interprétation et qualités

Comme dj=1 (ujk )2 = 1 ⇒ λk = dj=1 (ujk )2 λk , et comme


P P
I

Var(C k ) = λk et Var((x j )⊥ k 2
k ) = (uj ) λk .

⇒ Ctrk (C k ∼ x j ) = (ujk )2

I Calculons la corrélation entre x j et C k ?


j k j k < xj, Z k > ujk λk
Cor(x , C ) = Cor(x , Z ) = p =p .
Var(x j ) Var(Z k ) Var(x j )

Si X est une matrice centrée-réduite (i.e., Var(x j ) = 1, ∀ j.


p
Cor(x j , C k ) = ujk λk .
Représentations Graphiques 26

Qualité de représentation des variables

I On calcule de cos2 de l’angle entre x j et (x j )⊥


k :

  k (x j )⊥
k k
2 (ujk )2 λk k 2
2 j
, (x j )⊥ j

cos x k = = = Cor(x , C ) .
k x j k2 Var(x j )

I Dans le cas d’une ACP normée, Var(x j ) =k x j k2 = 1, ∀ j.


I k (x j )⊥ 2 j 2 j
k k ≤k x k = 1 ⇒ la projection de x se trouve à
l’intérieur d’un cercle de rayon : cercle de corrélation.
k 2
k (x j )⊥ j ⊥
2 2 j
 j

I
k k = cos x , (x )k = Cor(x , C ) = (ujk )2 λk
⇒ Si (x j )⊥ est la projection de x j sur le plan < Z 1 , Z 2 >, alors
(x j )⊥ se trouve à l’intérieure du cercle de corrélation.
Représentations Graphiques 27

Récapitulation

1. Centrer ou Centrer et réduire X , Calculer V = t XDX

2. Diagonaliser V : Λ matrice diagonale des valeurs propres, u :


matrices des vecteurs propres, t uu = Id

3. Matrice coordonnées des individus dans {u 1 , . . . , u d } :

C=Xu

4. Matrice coordonnées des variables dans {Z 1 , . . . , Z d } :



u Λ
Représentation des variables supplémentaires 28

Les données

Calcul des composantes principales

Représentations Graphiques
Représentation des individus
Représentation des variables

Représentation des variables supplémentaires

Application 1 : étude du climat des différents pays d’Europe

Application 2 : étude de la performance des points de ventes (PV)


d’une Banque
Représentation des variables supplémentaires 29

Représentation d’une variable quantitatives dans Rn .


1. Rn est l’espace des variables

2. y = t (y1 , . . . , yn ) les observations d’une variable quantitative


supplémentaire.
La variable y a subi les mêmes transformations que
x 1 , . . . , x d : y est centrée (réduite) si x 1 , . . . , x d sont centrées
(réduites).

3. On représente (y k )⊥ la projection orthogonale de y sur un


k−ième axe unitaire < Z k >
1
(y k )⊥ = t (y )DZ k · Z k = √ t (y )DZ k · C k
λk
d t
Pd X (y )DZ k k
4. Comme Ck = k j
j=1 uj x , ⇒ (y k )⊥ = √ uj · x j .
j=1
λ k
Représentation des variables supplémentaires 30

Cœfficient de corrélation partiel


I Le cœfficient de corrélation partiel fourni par (y k )⊥ entre y et
x 1 , . . . , x d est le cœfficient de corrélation entre y et (y k )⊥

< y , (y k )⊥ > k (y k )⊥ k
Ryk|x 1 ,...,x d = Cor(y , (y k )⊥ ) = k ⊥
=
k y kk (y ) k ky k

Comme k y k2 =k (y k )⊥ k2 + k y − (y k )⊥ k2 (Pythagore).
Alors
 2 k y − (y k )⊥ k2
Ryk|x 1 ,...,x d =1−
k y k2
mesure la part de (y k )⊥ dans l’explication de y .
I Si ACP-normée alors (Ryk|x 1 ,...,x d )2 =k (y k )⊥ k2 et
Pd k 2
k=1 (Ry |x 1 ,...,x d ) mesure le cœfficient de corrélation partiel
I

fourni par les composantes principales entre y et x 1 , . . . , x d


Représentation des variables supplémentaires 31

Représentation d’une variable qualitative dans Rd .


1. Rd l’espace des individus.
2. A est la variables qualitative à r modalités {A1 , . . . , Ar }. On
peut définir r sous-groupes d’individus E1 , . . . , Er où
El = {wi ∈ E , A(wi ) = al }

3. On définit g1 , . . . , gr les centres de gravité resp. de


E1 , . . . , Er : ∀ l = 1, . . . , r , gl a pour coordonnées dans Rd ,
xl = t (xl1 , . . . , xld ) où

xlj = pi xij
X

wi ∈El

4. On représente (gl )⊥
k la projection orthogonale de gl sur le
k−ième axe principal < u k >,
(gl )⊥ t k
k = ( gl u ) · u
k
Représentation des variables supplémentaires 32

Représentation d’une variable qualitative dans Rd .


I Décomposition de la variance :
Variance Totale = Variance intra-classes + Variance inter-classes

I Appliquée à notre échantillon E


X r
X X pi r
X
2 2
pi d(0, wi ) = ql d(wi , gl ) + ql d(0, gl )2
ql
i=1 l=1 wi ∈El l=1
P
où ql = wi ∈El pi .
I Pouvoir de séparation de la k−ième composante est
r
1 X
Λk = ql d(0, (gl )⊥
k)
2
λk
l=1

Λk est le rapport entre la variance totale de E k la projection


de E sur < u k > et la variance inter-classe de E k , Λk ∈ [0, 1].
Représentation des variables supplémentaires 33

Individus supplémentaires
I ws un individu supplémentaire qu’on a envie de le représenter
sur un k−ième axe principal < u k >.
I ∀ j = 1 . . . d, xsj = x j (ws ). Donc ws a pour coordonnées dans
Rd : xs = t (xs1 , . . . , xsd ).
I D’abord, il faut faire subir à xs les mêmes transformations que
les xi :

xsj − x j
centrer xsj − x j ou centre et réduire
σj
où x j et σ j sont resp. la moyenne et l’écart-type de la variable
x j (sans l’observation xs ).
I La représentation de ws sur < u k > se fait par projection
orthogonale :
(xs )⊥ = ( t xs u k ) · u k .
Application 1 : étude du climat des différents pays d’Europe 34

Les données

Calcul des composantes principales

Représentations Graphiques
Représentation des individus
Représentation des variables

Représentation des variables supplémentaires

Application 1 : étude du climat des différents pays d’Europe

Application 2 : étude de la performance des points de ventes (PV)


d’une Banque
Application 1 : étude du climat des différents pays d’Europe 35

La base des données

I Dimensions : 35 individus (des villes), 17 variables


I 16 Variables quantitatives : Moyenne des températures par
mois de Janvier à Décembre, Moyenne des température,
Amplitude (différence entre la température moyenne maximale
et minimale, 2 variables de positionnement (longitude,
latitude).
I 1 Variable qualitative : Région d’appartenance.

I Questions : Peut-on résumer ces température par un nombre


réduit de composantes ? Quelles les plus grandes disparités
entre les pays ?
Application 1 : étude du climat des différents pays d’Europe 36

Sélection variables et individus

I Echantillon d’apprentissage : les individus constitués par la


capitale de chaque pays.
I Les observations restantes seront traitées comme des individus
supplémentaires.
I Variables actives : Les variables représentants la température
moyenne pour chaque mois : 12 variables.
I Variables supplémentaires quantitatives : Moyenne,
Amplitude, Longitude, Latitude.
I Variable supplémentaire qualitative : Région d’appartenance.
Application 2 : étude de la performance des points de ventes (PV) d’une Banque
37

Les données

Calcul des composantes principales

Représentations Graphiques
Représentation des individus
Représentation des variables

Représentation des variables supplémentaires

Application 1 : étude du climat des différents pays d’Europe

Application 2 : étude de la performance des points de ventes (PV)


d’une Banque
Application 2 : étude de la performance des points de ventes (PV) d’une Banque
38
La base des données

I Dimensions : 102 individus et 14 variables


I 12 Variables quantitatives : Age du PV, Nbre de cadres et
non-cadres, Age moyen des employés, Ancienneté moyenne,
Superficie du PV, Nbre de réclamations, Age du responsable
du PV, Ancienneté du responsable du PV, Ancienneté du
responsable du PV dans le PV, Qualité des clients.
I 2 Variables qualitatives : Classe du PV, Concept du PV.

I Questions : Expliquer soit la performance des PV soit la


Qualité des clients par les descriptions internes du PV.
Application 2 : étude de la performance des points de ventes (PV) d’une Banque
39
Sélection variables et individus
I Echantillon d’apprentissage : tirer au hasard le 92
observations=102-10 de l’échantillon total.
I Les 10 observations restantes seront traitées comme des
individus supplémentaires : étudier le caractère ”prédictif” du
modèle obtenu par l’ACP.
I Variables actives : Age du PV, Nbre de cadres et non-cadres,
Age moyen des employés, Ancienneté moyenne, Superficie du
PV, Nbre de réclamations, Age du responsable du PV,
Ancienneté du responsable du PV, Ancienneté du responsable
du PV dans le PV.
I Variables supplémentaires qualitatives : Classe du PV (variable
réponse), Concept du PV.
I Variable supplémentaire quantitative : Qualité client.

Vous aimerez peut-être aussi