Académique Documents
Professionnel Documents
Culture Documents
76
Introduction
Analyse en Composantes Principales
statistique descriptive
78
26
objectif = déterminer des espaces de dimension
faible sur lesquels il soit possible de voir
au « mieux » les individus :
PROJECTION
79
80
81
27
82
83
Notations
.
x1j
. x2j
j J
X = ........x ........ X . Rn
i
.
.
xnj
.
84
28
REMARQUE :
Ce choix doit être fait en fonction des buts de l’étude ; les variables
doivent notamment décrire le plus possible les phénomènes que
l’on cherche à mettre en évidence.
85
86
87
29
matriciellement:
g X ' D1
Y X 1g ' ( I 11' D) X
88
89
On a Z YD 1
s
avec D 1 matrice diagonale des inverses des écart-types:
s
1 0
s1
1
s2
D1 .
s
.
0 1
s p
90
30
I-2 Espace des individus
p
n points de R = nuage de points
g = centre de gravité du nuage
91
92
A. La métrique
En physique : formule de Pythagore
d 2 (ei ; e j ) ( xil x lj ) 2 ( xik x kj )2 ...
31
métriques usuelles en ACP:
M=I
(Phytagore à utiliser s’il n’y a pas de problème de
variances trop différentes ou d’unité de mesures
différentes)
M D1
s2
(plus utilisée c’est l’option par défaut de beaucoup de
logiciels d’ACP car en plus de permettre de s’affranchir
des unités de mesure, elle donne à chaque caractère la
même importance quelle que soit sa dispersion dans le
calcul des distances. En effet elle revient à réduire les
variables ce qui les rend sans dimension et toutes de
même variance 1)
94
REMARQUE :
M symétrique positive T tq M T 'T
B - L’inertie
notion fondamentale de l’ACP.
On appelle inertie totale du nuage de points la
moyenne pondérée des carrés des distances
des points au centre de gravité.
Elle mesure la dispersion du nuage autour de
son centre de gravité.
n n
2
Ig pi ( ei g )' M ( ei g) pi ( ei g)
i 1 i 1
96
32
décomposition de Huyghens:
n
Ia pi (ei a )' M (ei a)
i 1
2
Ig ( g a )' M ( g a) Ig ( g a)
Par ailleurs, on peut montrer que l’inertie totale est égale à la moitié de la
moyenne des carrés de toutes les distances entre les n individus.
97
si M =I Ig s 2j
j 1
Si M D1 Ig trace R p
s2
(p = nombre de variables ; l’inertie ne dépend alors pas des valeurs des variables
mais uniquement de leur nombre)
98
x1j
x2j
J
X . Rn
.
xnj
99
33
distance entre variables : métrique M D
Pour des variables centrées :
n
k ' l
X D X p i x ik x il v kl
i=1
(le produit scalaire est égale à la covariance)
j 2
X s 2j
D
(l’écart type représente la « longueur » de la variable)
X k,X l
v kl
co s kl k l
rkl
X X sk sl
(le cosinus de l’angle entre variables est égal au coefficient de corrélation linéaire)
100
101
102
34
espaces initiaux de dimension trop
grande
104
105
35
la recherche du sous espace F peut
s’effectuer de façon séquentielle
106
107
108
36
Linertie des points projetés sur sécrit :
n
v a r( c ) p i c i2 c'D c u'X 'DXu u 'V u
i 1
Rappelons quon se limite au cas usuel de lACP normée ; la matrice des
données centrées réduites correspond donc à la matrice des corrélations
109
110
Définitions :
facteurs principaux u : Ru u
Ils contiennent les coefficients des variables initiales dans la combinaison c Xu
j
composantes principales c : c Xuj
(ce sont les variables artificielles définies par les facteurs principaux ,
elles contiennent les coordonnées des projections des individus sur
les axes définis par les u j )
111
37
II-3 Propriétés des facteurs principaux et
composantes principales
II-3-1 variance dune composante principale
var( ci ) i
les composantes principales sont les combinaisons linéaires des variables initiales de
variance maximale
On a: Vu Ru u et u 'u 1
var(c) c ' Dc u ' X ' DXu
'
uVu u ' Ru u ' ( u) u 'u
112
c est la variable la plus liée aux au sens de la somme des carrés des
corrélations
p
c 'D Z Z 'D c
m ax r (c; x j ) m ax
j 1 c 'D c
solution : c tq ZZ ' Dc c
vecteur propre de '
ZZ D associé à sa plus grande valeur propre
113
114
38
En résumé, l’ACP consiste à effectuer un changement
d’axes dans l’espace des individus qui remplace les
variables initiales (corrélées en général) par de nouvelles
variables (combinaisons linéaires des variables initiales)
non corrélées et de variance maximale : ce sont les
COMPOSANTES PRINCIPALES.
FACTEURS PRINCIPAUX
115
116
117
39
critère usuel = % dinertie totale expliquée
k k
i i
i 1 i 1
p
I g
i
i 1
118
119
120
40
critères empiriques : *règle de Kaiser
(cas le plus fréquent des matrices de corrélation) * règle du coude
121
122
r ( c, X j )
et on s’intéresse aux coefficients les plus forts en valeur
absolue et proches de 1.
123
41
ACP normée :
' j
r (c, X j ) r (c , z j ) c Dz
s j sc
r (c, X ) j c ' Dz j
' '
r (c, X j ) u Z Dz
j ( z j ) ' DZu
( z j )' DZ est la jème ligne de Z' DZ R donc ( z j )' DZ est le jème composante de Ru u
r ( c, X j ) uj
124
125
(On peut les choisir positifs et alors la première composante sera positivement corrélée
avec toutes les variables )
126
42
Les individus sont rangés sur l’axe 1 par
valeurs croissantes de l’ensemble des
variables (en moyenne).
127
p i c k2i
contributions des individus : CTR i
k
n
(où cki représente la valeur pour lindividu i de la kième composante ck et k pc 2
i ki )
i 1
129
43
III 3 Interprétation externe
130
131
132
44