Académique Documents
Professionnel Documents
Culture Documents
7
Construire un nouveau système de représentation
(composantes principales, axes factoriels, facteurs : combinaisons linéaires des variables
originelles)
qui permet synthétiser l’information
Analyser un tableau de données – Variables toutes Variables « actives »
quantitatives quantitatives c.-à-d. seront
j : 1.., p utilisées pour la construction
des facteurs
Modele CYL PUISS LONG LARG POIDS V.MAX
Alfasud TI 1350 79 393 161 870 165
Les données « autos » Audi 100 1588 85 468 177 1110 160
Simca 1300 1294 68 424 168 1050 152
(Saporta, 2006 ; page Citroen GS Club 1222 59 412 161 930 151
Fiat 132 1585 98 439 164 1105 165
428) Lancia Beta 1297 82 429 169 1080 160
Peugeot 504 1796 79 449 169 1160 154
Renault 16 TL 1565 55 424 163 1010 140
i : 1.., n
Renault 30
Toyota Corolla
2664
1166
128
55 xij 452
399
173
157
1320
815
180
140
Questions :
(1) Quelles sont les véhicules qui se ressemblent ? (proximité entre les
individus)
(2) Sur quelles variables sont fondées les ressemblances / dissemblances
(3) Quelles sont les relations entre les variables
Position du problème (1)
Analyse des proximités entre les
individus
Que voit-on dans ce graphique Positionnement des individus (2 variables)
? Les variables CYL et PUISS sont liées.
1.
CYL x PUIS
2. « Opel Reckord » et « Taunus 2000 (Ford) »
ont le Renault 30
120
3. « Renault 30 » et « Toyota Corolla » ont des Datsun 200L
Alfetta 1.66
profils opposés…
100
Opel Rekord
Fiat 132
PUISS
Taunus 2000
80
M
P r n a i c eas9s2198500
z d
Citroen GS Club 1222 59 l sRudnaTcIho Peugeot 504
Afa
Simca 1300 1294 68
Lada 1300 1294 68 SLm
i adcaa11330000
60
Citroen GS Club
Alfasud TI 1350 79
Toyota Corolla Renault 16 TL
Rancho 1442 80
Renault 16 TL 1565 55 2000 2500 3000
1000 1500
Alfetta 1.66 1570 109 CYL
Fiat 132 1585 98
Audi 100 1588 85
Mazda 9295 1769 83
Peugeot 504 1796 79
Princess 1800 1798 82
Opel Rekord 1979 100 Que faire si on veut prendre en compte (p
Taunus 2000 1993 98 >
Datsun 200L 1998 115
Renault 30 2664 128
2) variables simultanément ?
1500 2500
CYL On pourrait croiser les variables 2 à 2,
mais
100
460
LONG points atypiques.
400
175
LARG
160
1200
POIDS
800
170
V.MAX
140
1
Positionnement des individus – Principe de l’ACP (1) – Notion
d’inertie
Principe : Construire un système de représentation de p
d 2 (i, i')
x
dimension réduite (q << p) qui préserve les distances Distance euclidienne
xi' j2
entre les individus. On peut la voir comme une entre 2 individus (i,
i’)
j
1
ij
1 n 2
Autre écriture de l’inertie : écart par rapport au barycentre G I p d (i,G)
n i1
(vecteur constitué des moyennes des p variables)
CYL x PUIS
12
0
L’inertie indique la dispersion autour du
10
0
barycentre, c’est une variance PUISS
multidimensionnelle (calculée sur p dimensions) 8 G
0
6
0
10.17
%
% 1 est la part d’inertie expliquée par le 1er
89.83%
2
n
1
-2
Fi 2
2
10.17%
n
I p
i1 0.203372
-3
2 2
-3 -2 -1 0 1 2 3
p
CYL.CR
(3) Et bien évidemment
: k 1.797 0.203 2 I
p k 1
Maximisation Les inerties expliquées s’additionnent. Prendre tous les « p »
facteurs
possibles permet de récupérer toute l’information 9
Préservation des (1) Les proximités entre individus sont préservées si on prend un nombre q de
proximités
composantes suffisamment représentatives (en terme de % d’inertie
dans le repère réduit exprimée)
(2) Si on prend les « p » facteurs, on retrouve les distances dans le repère
Distances dans le repère originel Si on ne tient compte que de la 1ère
d 2 (1,2)réduites)
(1.2814 (1.1273))2 (1.4953
sont approximées. On constate
(1.2933))2 néanmoins que les proximités sont assez
0.06455 bien respectées (globalement).
d (2,6) 1.14415
2
d 2F (1,2) (1.9335 1.7117) 2
1
d 2 (1,6) 1.72529
0.06340
Modele CYL PUISS Modele F1 (89.83%) F2 (10.17%)
d F (2,6) 0.92783
2
2 Citroen GS Club -1.1273 -1.2933 2 Citroen GS Club 1.7117 0.1174 d 2F (1,6) 1.147632
1
3 Simca 1300 -0.9292 -0.8389 3 Simca 1300 1.2502 -0.0639
4 Lada 1300 -0.9292 -0.8389 4 Lada 1300 1.2502 -0.0639
5 Lancia Beta -0.9209 -0.1319 5 Lancia Beta 0.7444 -0.5580
Si on tient compte des 2 composantes,
6 Alfasud TI -0.7751 -0.2834 6 Alfasud TI 0.7484 -0.3477
7 Rancho -0.5219 -0.2329 7 Rancho 0.5337 -0.2044 on retrouve les distances exactes entre
8 Renault 16 TL -0.1835 -1.4953 8 Renault 16 TL 1.1871 0.9276
les individus.
9 Alfetta 1.66 -0.1697 1.2316 9 Alfetta 1.66 -0.7509 -0.9909
10 Fiat 132 -0.1284 0.6761 10 Fiat 132 -0.3873 -0.5689
d 2F1 ,F2 (1,2) (1.9635 1.7117 ) 2 (0.1513 0.1174)2
11 Audi 100 -0.1202 0.0196 11 Audi 100 0.0711 -0.0989 0.06455
12 Mazda 9295 0.3779 -0.0814 12 Mazda 9295 -0.2097 0.3248
13 Peugeot 504 0.4522 -0.2834 13 Peugeot 504 -0.1194 0.5201 d 2F1,F
2
(2,6) 1.14415
14 Princess 1800 0.4577 -0.1319 14 Princess 1800 -0.2304 0.4169 d 2F1,F
2
(1,6) 1.72529
15 Opel Rekord 0.9558 0.7771 15 Opel Rekord -1.2254 0.1263
16 Taunus 2000 0.9943 0.6761 16 Taunus 2000 -1.1812 0.2250
17 Datsun 200L 1.0081 1.5346 17 Datsun 200L -1.7980 -0.3723 Une des questions clés de l’ACP est de
18 Renault 30 2.8408 2.1911 18 Renault 30 -3.5581 0.4594
définir le nombre de composantes « q
Données centrées et Coordonnées dans le
» à retenir pour obtenir une
réduites repère factoriel approximation suffisamment
satisfaisante !!! 10
Position du problème (2)
Analyse des relations entre les
variables
16
Relations entres variables – Principe de l’ACP (2) – Matrice des
corrélations
Le coefficient de corrélation mesure la liaison
(linéaire)
entre deux variables X et
j m
X
1500 2500
CYL
CYL 1 0.797 0.701 0.630 0.789 0.665
PUISS 1 0.641 0.521 0.765 0.844
Matrice des corrélations PUISS
60 100
LONG 1 0.849 0.868 0.476
R
460
LARG 1 0.717 0.473 LONG
sur les données « autos POIDS 1 0.478
400
» V.MAX 1
160 175
LARG
POIDS
800 1200
Elle traduit numériquement ce que l’on peut observer
dans V.MAX
140 170
les graphiques croisés des variables
1500 2500 400 440 800 1200
17
Notion de covariance
X X X
n
i,1 X1 i,2 2
cov( X 1 , X 2 )
i 1
n
cov( X 1 , X 1 ) ? 1
C’est le signe de la covariance qui importe :
cov(X1, X2) > 0 : X1 augmente quand X2 augmente
cov(X1, X2) < 0 : X1 augmente quand X2 diminue
cov( X1 , X2 )
( X1 , X 2 )
( X1 ) ( X2
)
cov( X1 , X1
( X1 , X1 )
) ( X1 ) ( 1X
)
var(X 1 )
( X1, X1 )
var(X 1 )
NB : ρ2 = part de la variance partagée entre les 2 variables
Notion de corrélation : ACP normée
1 ( X 1 , X 2 ) ... ( X 1 , X ... ( X1 , X p )
( X2 , 1 1 ) 2 ( Xj
j ... ( X2 , X p )
,X ) ...
X ) ... ...
C ( X...j , X ... 1
( X ,
j j p
... ... ...
2) ... ...
X ) 1
( X..., X ) ( X...p , X ... ( X p , X ... ( X1 , X )
p 1
Propriétés2) : ... j ) ...
C est une matrice carré de taille p x p ...
C est une matrice symétrique
C possède une diagonale de 1
ACP non-normée ou ACP normée?
1 2 var( X 1 ) var( X 2 )
1.284028 0.04908323 0.6165556 0.7165556 1.333111
La première « composante principale » ou CP1 associée à λ1 porte 96%
de la variance totale
La deuxième « composante principale » ou CP2 associée à λ2 porte 4%
seulement de la variance totale
A partir d’une seule dimension (CP1), il est possible ici de résumer 96%
de l’information de départ contenue dans deux dimensions (X1, X2)
Un cas simple à 2 variables
Détermination des 2 vecteurs propres V1 et V2 :
Résolution des 2 systèmes d’équations CVj - λjVj = 0
0
λ2
0.6165556 0.6154444 v2,1 0.04908323 v2,1
0.6154444 0.7165556 v
v 2,2 2,2
2 2
V1 0.6778736 NB : v1,1
0.7351785 v 1,2 1
0.7351785 2,2
2 2
V2 0.677873 NB : v2,1
v 1
6
P 0.7351785
0.7351785 0.6778736
0.6778736
D 1.28402
0
8 0 0.04908323
C PDPt
Un cas simple à 2 variables
L’information (variance) portée par CP1 est tellement importante que
l’on peut se passer de CP2 :
Cela revient à compresser l’information originale portée par deux
dimensions sur une seule dimension avec une perte ici de 4% de
l’information d’origine
Attention :
L’ACP non-normée est une application rare et en général, on travail avec la
matrice des corrélations (ACP normée)
Un cas simple à 2 variables
Cas de l’ACP normée sur le même jeu de donnée :
C 1 0.93
0.93
C 1I 1 0.93
0.93
I ) 1 1 0.932
•det(C 1
•2 2 0.1351 0
• b 2 4ac
b b
1 2a 1.93 2 2a 0.07
Un cas simple à 2 variables
Une solution possible (cf. sous la contrainte que V1 et V2 soient tout 2
des vecteurs unitaires de taille 1)
NB : v 2 v 2
1 1 1
1,1
2 1,2
V12 2 V
1
1 NB : v 2 v 2
2 2 1
2,1
2,2
1 1
2 2
P 1
1
2 2
D 1 0
0 1
Un cas simple à 2 variables
V1 et V2 sont les vecteurs directeur de CP1 et CP2 :
X ' Pt X V2
t
V1
V2
V1