Académique Documents
Professionnel Documents
Culture Documents
Jean-Marc Lasgouttes
http://ana-donnees.lasgouttes.net/
σxy cov(x, y)
cor(x, y) = rxy = =p p .
σx σy var(x) var(y)
1
Propriétés Fausses corrélations
— cov(x, x) = var(x) et cor(x, x) = 1
— cov(x, y) = cov(y, x) et donc cor(x, y) = cor(y, x). Quand ? Elles peuvent se trouver quand on a peu de don-
nées
Propriétés du coefficient de corrélation Exemple 1 Âge de Miss America et nombre de meurtres
par vapeur ou objets brûlants : r = 0, 87 entre 1999 et 2009.
Borne On a toujours (inégalité de Cauchy-Schwarz) Age of Miss America
correlates with
Murders by steam, hot vapours and hot objects
−1 ≤ cor(x, y) ≤ 1.
1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
25 yrs 8 murders
Murders by steam
sont linéairement liées : 22.5 yrs
6 murders
21.25 yrs
4 murders
● ● ●
●●
50 million barrels 60 deaths
0.8
●
●
0.88
● ●
●
●
●
●
● ●
● x2 0.023
0.4
●
●
●
●
● ● ● 0 million barrels 40 deaths
● ●
● ● ● ● 1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
0.0
●
●
●
● ●● Railway train collisions US crude oil imports from Norway
0.0
●
● ● ●
● ●
● ● tylervigen.com
● ●
−1.0 −0.5
● ●
● ●
●
●●
●
● ●
●
●
●
●
● ●
x3 −0.087
● ●● ● ● ●
● ●
● ● ● ●
● ● ● ●
● ● ●
●●
● ● ●
● ● ●● ● ●
● ● ●
0.8
● ● ●
● ● ●
● ● ● x4
0.4
● ●● ●
http://www.tylervigen.com/spurious-correlations.
● ●
● ● ● ●
● ● ● ● ●●
● ● ● ● ●
●
● ● ● ● ● ●● ● ●● ● ● ●
● ●●●●
● ● ● ● ●
●
● ● ●● ● ●
● ● ● ● ●
●
0.0
● ● ● ● ●● ● ● ● ● ●
● ●
4
● ●
3
y
● ●
2
● ●
1
−4 −2 0 2 4
Une matrice carrée telle que A0 = A est dite symétrique. ou, en notation matricielle,
Trace la trace d’une matrice carrée est la somme des termes Y = X − 1n g0 = (In − 1n 10n Dp )X
de sa diagonale
Un individu est représenté par Définition Si l’on note rj` = σj` /σj σ` , c’est la matrice
p×p
e0i = [x1i , . . . , xji , . . . , xpi ] 1 r12 · · · r1p
r21 1
R= . .. ,
La matrice des poids .. .
rp1 1
Définition on associe aux individus un poids pi tel que
Symétrie Comme rj` = r`j , la matrice R est symétrique :
p1 + · · · + pn = 1 R0 = R.
Formule matricielle R = D1/σ VD1/σ , où
que l’on représente par la matrice diagonale de taille n
1
p1 0 σ1 0
..
p2 D1/σ = .
Dp = . . 1
. . 0 σp
0 pn
●
●
●
1
● ●
● ● ●●
● ●
●
● ●
● ●
●
−1
−1
−2
−2 −1 0 1 2 −2 −1 0 1 2
Motivation afin de pouvoir considérer la structure du
nuage des individus, il faut définir une distance, qui induira
une géométrie.
Distance euclidienne classique la distance la plus simple Cas particuliers
entre deux points de Rp est définie par
Métrique usuelle Si m1 , . . . , mp = 1, alors M = Ip et on
p
X note hu, vi = hu, viI .
d2 (u, v) = (uj − vj )2 = ku − vk2
j=1 Métrique réduite diviser les variables par σj est équivalent
à prendre mj = 1/σj2 . On a D1/σ2 = D1/σ D1/σ et donc
Généralisation simple on donne un poids mj > 0 à la
hD1/σ u, D1/σ vi = u0 D1/σ D1/σ v = u0 D1/σ2 v = hu, viD1/σ2 .
variable j
p
X Travailler avec la métrique D1/σ2 , c’est comme utiliser la
d2 (u, v) = mj (uj − vj )2
métrique I sur des variables réduites.
j=1
√ La plupart du temps en ACP, on fait l’analyse
Cela revient à multiplier la coordonnée j par mj
avec la métrique usuelle sur les données
centrées-réduites.
Interprétation L’inertie totale mesure l’étalement du Av1 = 2v1 , Av2 = 4v2 et Av3 = 6v3 .
nuage de points
On dit que v1 , v2 et v3 sont vecteurs propres de A associés
aux valeurs propres λ1 = 2, λ2 = 4 et λ3 = 6.
Calcul de l’inertie Propriétés (valables en général)
— −v1 ou 3v1 sont aussi vecteurs propres de A associés
Forme matricielle L’inertie totale est aussi donnée par la
à λ1 ;
trace de la matrice VM (ou MV)
— On a Tr(A) = 5 + 4 + 3 = 12 = λ1 + λ2 + λ3 .
Ig = Tr(VM) = Tr(MV)
Résultat principal (admis)
Métrique usuelle M = Ip correspond au produit scalaire
usuel et Propriété Il existe p réels λ1 , . . . , λp et p vecteurs
Xp
Ig = Tr(V) = σi2 a1 , . . . , ap , tels que
j=1
VMak = λk ak .
Métrique réduite obtenue quand M = D1/σ2 = D21/σ
— Les λk ≥ 0 sont les valeurs propres de VM et sont
Ig = Tr(D1/σ2 V) = Tr(D1/σ VD1/σ ) = Tr(R) = p. classées par ordre décroissant :
●
c i1
var(ck ) = c0k Dp ck = a0k MY0 Dp YMak
a2 a1
●
c i2● ●
● = a0k MVMak = λk a0k Mak = λk .
●●
0
●
cov(ck , c` ) = c0k Dp c` = · · · = λ` a0k Ma` = 0.
●
Les composantes principales ne sont pas corrélées entre
elles.
−2
−2 −1 0 1 2 Facteurs principaux
ei − g = (yi1 , yi2 )0 = yi1 (1, 0)0 + yi2 (0, 1)0 = ci1 a1 + ci2 a2 Définition on associe à ak le facteur principal uk = Mak
de taille p. C’est un vecteur propre de MV car
Les composantes principales
MVuk = MVMak = λk Mak = λk uk
Coordonnées
Pp des individus supposons que ei − g =
Calcul en pratique, on calcule les uk par diagonalisation
`=1 ci` a` , alors de MV, puis on obtient les ck = Yuk . Les ak ne sont pas
p
X intéressants.
hei − g, ak iM = ci` ha` , ak iM = cik
`=1
Interprétation Si on pose u0k = (u1k , . . . , upk ), on voit
que la matrice des ujk sert de matrice de passage entre la
La coordonnée de l’individu centré ei −g sur l’axe principal
nouvelle base et l’ancienne
ak est donc donné par la projection M-orthogonale
p
X p
X
cik = hei − g, ak iM = (ei − g)0 Mak . cik = yij ujk , ck = yj ujk ck = Yuk
Composantes principales ce sont les variables ck = j=1 j=1
Qu’est-ce que c’est ? pour deux composantes principales Les akj forment de matrice de passage entre l’ancienne base
c1 et c2 , on représente chaque individu i par un point d’abs- et la nouvelle.
cisse ci1 et d’ordonnée ci2 . Approximation Les k premiers termes fournissent la
meilleure approximation de Y par une matrice de rang
0.5 1.0
●
k au sens des moindres carrés (théorème de Eckart-Young).
c i2 ei
●● ●
●
●
● ●
●
● ●
●
c i1
−0.5
●
● ● ●
●●
−2 −1 0 1 2
Composantes principales elles sont données par ck = cov(zj , ck ) = cov a`j c` , ck = a`j cov(c` , ck ) = λk akj
`=1 `=1
Zuk .
cov(zj , ck ) λk akj p
cor(zj , ck ) = p = √ = λk ujk
Nombre d’axes à retenir var(ck ) λk
Dimension de l’espace des individus L’ACP visant à ré- Position dans un plan On sait que var(zj ) = 1, mais on
duire la dimension de l’espace des individus, on veut conser- peut aussi écrire
ver aussi peu d’axes que possible. Il faut pour cela que les X p Xp
variables d’origine soient raisonnablement corrélées entre var(zj ) = cov(zj , zj ) = cov zj , akj ck = akj cov(zj , ck )
elles. k=1 k=1
Les seuls critères utilisables sont empiriques. p
X p
X 2
Interprétation des axes on s’efforce de ne retenir que des = λk a2kj = cor(zj , ck ) .
axes à propos desquels une forme d’interprétation est pos- k=1 k=1
sible (soit directement, soit en terme des variables avec Par conséquent, les 2 premières coordonnées sont dans un
lesquels ils sont très corrélés). On donnera des outils à cet disque de rayon 1, puisque
effet plus loin dans le cours.
2 2
Critère de Kaiser (variables centrées-réduites) on ne re- cor(zj , c1 ) + cor(zj , c2 ) ≤ 1
tient que les axes associés à des valeurs propres supérieures
à 1, c’est-à-dire dont la variance est supérieure à celle des Le cercle des corrélations
variables d’origine.
Une autre interprétation est que la moyenne des valeurs Qu’est-ce que c’est ? c’est une représentation où, pour
propres étant 1, on ne garde que celles qui sont supérieures deux composantes principales, par exemple c1 et c2 , on repré-
à cette moyenne. sente chaque variable zj par un point d’abscisse cor(zj , c1 )
Éboulis des valeurs propres on cherche un « coude » dans et d’ordonnée cor(zj , c2 ).
le graphe des valeurs propres
3.5
●
3.0
●
2.5
2.0
1.5
1.0
●
●
●
0.5
●
●
●
●
●
0.0
2 4 6 8 10
pi c2ik
≥ αpi ,
λk
ou de manière équivalente
p
|cik | ≥ αλk
Choix de α selon les données, on se fixe en général une
valeur de l’ordre de 2 à 4, que l’on garde pour tous les axes
Individus sur-représentés
Qu’est-ce que c’est ? c’est un individu qui joue un rôle Angle entre un individu et un axe principal
trop fort dans la définition d’un axe, par exemple
Il est défini par son cosinus carré. Le cosinus de l’angle
pi c2ik entre l’individu centré i et l’axe principal k est
> 0, 25
λk
kcik ak kM
cos(\
ei , ak ) = .
Effet il « tire à lui » l’axe k et risque de perturber les kei − gkM
représentations des autres points sur les axes de rang ≥ k.
Il est donc surtout problématique sur les premiers axes. Un et comme les ak forment une base orthonormale,
tel individu peut être le signe de données erronées.
c2
Solution on peut le retirer de l’analyse et le mettre en cos2 (\
ei , ak ) = Pp ik 2 .
`=1 ci`
« individu supplémentaire ».
Cette grandeur mesure la qualité de la représentation de
l’individu i sur l’axe principal ak .
Partie VII. Qualité de
Angle entre un individu et un sous-espace prin-
l’analyse cipal
Qualité on compare aux autres axes en divisant par la Usage Elle est significative si :
somme sur la ligne i, qui est — n̂ et n − n̂ sont assez grands (en général> 30, pour
que le théorème central limite s’applique)
pi c2ik c2ik — sa valeur absolue est supérieure à 2 (un peu significa-
= . tive) ou 3 (significative).
pi c2i1 + pi c2i2 + · · · + pi c2ip c2i1 + c2i2 + · · · + c2ip
Sinon, on dira qu’on ne peut pas affirmer si la catégorie est
C’est la qualité de représentation de l’individu i par liée à l’axe
l’axe k. Idée du calcul Si les n̂ individus étaient pris au hasard, ĉk
serait une variable aléatoire centrée (les z sont de moyenne
nulle) et de variance λn̂k n−n̂
n−1 car le tirage est sans remise.
Partie VIII. Interprétation
Individus supplémentaires
externe Méthode on « met de coté » certains individus pour qu’ils
Variables supplémentaires quantitatives ne soient pas utilisées dans l’analyse (ils ne sont pas pris en
compte dans le calcul des covariances). On cherche ensuite
Motivation 1 les composantes principales étant définies à savoir si ils sont liés à un axe donné.
pour maximiser les contributions, le fait que les corrélations Cas des individus sur-représentés on peut décider d’uti-
obtenues soient proches de 1 peut ne pas être significatif. Par liser ces points en individus supplémentaires, en particulier
contre, une corrélation forte entre une composante principale quand les points constituent un échantillon et ne présentent
et une variable n’ayant pas participé à l’analyse est très pas d’intérêt en eux-mêmes.
significative.
Représentation on les ajoute à la représentation sur les
Motivation 2 les variables peuvent naturellement se sépa- plans principaux. Pour calculer leur coordonnée sur un axe
rer en deux paquets : offre/demande, produits détenus par fixé, on écrit
des clients et données personnelles (âge, nombre d’enfants, Xp
Méthode on « met de coté » certaines variables pour où les ẑ j sont les coordonnées centrées-réduites d’un individu
qu’elles ne soient pas utilisées dans l’analyse (on diminue supplémentaire ẑ.
donc la dimension de R en enlevant des lignes et des co- Ces individus peuvent servir d’échantillon-test pour véri-
lonnes). On cherche ensuite à savoir si elles sont liées à un fier les hypothèses tirées de l’ACP sur les individus actifs.
axe donné.
Données les données représentent les valeurs de p variables Qualité de la représentation d’un individu elle permet
mesurées sur n individus ; les individus peuvent avoir un de vérifier que tous les individus sont bien représentés par
poids. En général (et dans ce résumé), on travaille sur des le sous-espace principal choisi ; elle s’exprime comme le
données centrées réduites Z (on retranche la moyenne et on carré du cosinus de l’angle entre l’individu et sa projection
divise par l’écart type). orthogonale.
Matrice de corrélation c’est la matrice R de variance- Individus supplémentaires quand un individu est sur-
covariance des variables centrées réduites. Elle possède p représenté sur un des premiers axes, on peut le supprimer
valeurs propres λ1 ≥ · · · ≥ λp ≥ 0. de l’analyse et le réintroduire dans la représentation comme
individu supplémentaire.
Inertie totale c’est la moitié de la moyenne des distances
au carré entre les individus ; elle mesure l’étendue du nuage Variables supplémentaires quantitatives certaines va-
de points. C’est la grandeur qu’on cherche à garder maximale riables peuvent être mises de coté lors de l’ACP et reportées
et elle peut s’écrire séparément sur le cercle des corrélation.
Variables supplémentaires qualitatives elles peuvent être
Ig = λ1 + λ2 + · · · + λp = p. représentées sur la projection des individus, et leur liaison
aux axes est donnée par les valeurs-test.
Facteurs principaux uk ce sont des vecteurs propres or-
thonormés de R associés aux λk : Ruk = λk uk . Leur j e
composante (sur p) ujk est le poids de la variable j dans la Résumé des notations
composante k.
Notation taille description
Composantes principales ck ce sont les vecteurs Zuk de
dimension n. Leur ie coordonnée cik est la valeur de la X, Y, Z n×p données
composante k pour l’individu i. Les ck sont décorrélées et brutes/centrées/centrées-
leur variance est var(ck ) = λk . réduites
xj , yj , zj , n variable brute/centrée/centrée-
réduite
Deux p n poids p1 , . . . , pn des individus (de
somme égale à 1).
Nombre d’axes on se contente en général de garder les
Dp n×n matrice de poids des individus
axes interprétables de valeur propre supérieure à 1 (critère
(diagonale)
de Kaiser).
σj2 réel > 0 variance de xj
Cercle des corrélations il permet de visualiser comment σj` , rj` réel covariance/corrélation de xj
les variables sont corrélées (positivement ou négativement) et x`
avec les composantes principales. À partir de là, on peut V, R p×p matrice de variance-
soit trouver une signification physique à chaque composante, covariance/corrélation de X
soit montrer que les composantes séparent les variables en M p×p métrique sur les variables (diago-
paquets. nale)
Représentation des individus pour un plan principal ck n composante principale (nouvelle
donné, la représentation des projections des individus per- variable)
met de confirmer l’interprétation des variables. On peut λk réel > 0 Variance de ck . On a λ1 > . . . >
aussi visualiser les individus aberrants (erreur de donnée ou λp > 0.
individu atypique). ak p axe principal : poids de ck dans
Contribution d’un individu à une composante c’est la chaque variable zj
part de la variance d’une composante principale qui provient uk p facteur principal : poids de
d’un individu donné. Si cette contribution est supérieur de chaque variable dans ck
2 à 4 fois au à son poids, l’individu définit la composante.
Si elle est très supérieure aux autres, on dit qu’il est sur-
représenté et on peut avoir intérêt à mettre l’individu en
donnée supplémentaire.