Vous êtes sur la page 1sur 18

Analyse en composantes principales(ACP)

Il sagit dtudier un tableau individus Variables lorsque les variables sont quantitatives. Il
sagit tout dabord de prsenter une analyse exploratoire permettant de dcrire les individus
dans leurs multiples dimensions et de visualiser les relations entre les variables ; il sagit
ensuite dtudier lanalyse en composantes principales ce qui permet de visualiser dobtenir
une carte des individus en fonction de leurs proximits et une carte des variables en fonction
de leurs corrlations
Les lignes du tableau double entres reprsentent des individus et les colonnes reprsentes
les variables. A lintersection de la ligne i et de la colonne k se trouve la valeur de la variable k pour
lindividu i.


Figure 1.1 Tableau des donnes en ACP. xik : valeur de la variable k pour lindividu i. I : nombre dindividus et ensemble
des individus. K : nombre de variables et ensemble des variables.

Les questions que lon se pose sur les individus et celles que lon se pose sur les variables ne sont pas
de mme nature.
propos de deux individus, on essaie dvaluer leur ressemblance : deux individus se ressemblent
dautant plus quils possdent des valeurs proches pour lensemble des variables. En ACP, la distance
d(i ,l) entre deux individus i et l est dfinie par :
( )
2
2
( , )
ik lk
k K
d i l x x


propos de deux variables, on essaie dvaluer leur liaison. En ACP, la liaison entre deux variables
est mesure par le coefficient de corrlation linaire (dans de rares situations, on utilise la covariance),
not usuellement r. Soit :
cov( , ) 1
( , )
( ) ( )
k h ik k ih h
k h
k h
X X x X x X
r k h
I s s
V X V X

= =


Avec et
k h
X X sont les moyennes de et X
k h
X et et S
k h
S sont les carts types
Applique un tel tableau, lobjectif gnral de lACP est une tude exploratoire. Les deux voies
principales de cette exploration sont :
Un bilan des ressemblances entre individus. On cherche alors rpondre des questions du type
suivant : quels sont les individus qui se ressemblent ? Quels sont ceux qui diffrent ? Plus
gnralement, on souhaite dcrire la variabilit des individus .Pour cela, on cherche mettre en
vidence des groupes homognes dindividus dans le cadre dune typologie des individus. Selon un
autre point de vue, on cherche les principales dimensions de variabilit des individus.




Un bilan des liaisons entre variables. Les questions sont alors : quelles variables sont corrles
positivement entre elles ? Quelles sont celles qui sopposent (corrles ngativement) ? Existe-t-il des
groupes de variables corrles entre elles ? Peut-on mettre en vidence une typologie des variables ?

Un autre aspect de ltude des liaisons entre variables consiste rsumer lensemble des variables par
un petit nombre de variables synthtiques appeles ici composantes principales. Ce point de vue est
trs li au prcdent : une composante principale peut tre considre comme le reprsentant (la
synthse) dun groupe de variables lies entre elles.
Naturellement, ces deux voies ne sont pas indpendantes du fait de la dualit inhrente ltude dun
tableau rectangulaire : la structure du tableau peut tre analyse la fois par lintermdiaire de la
typologie des individus et de la typologie des variables.
Aussi, cherche-t-on en gnral relier ces deux typologies. Pour cela, on caractrise les classes
dindividus par des variables (on slectionne ainsi les variables pour lesquelles lensemble des
individus dune classe possde des valeurs particulirement grandes ou particulirement petites). De
mme, on caractrise un groupe de variables lies entre elles par des individus types (on slectionne
ainsi les individus qui possdent des valeurs particulirement grandes ou des valeurs particulirement
petites pour un ensemble de variables lies positivement entre elles). Enfin, dans la situation idale, les
deux typologies peuvent tre superposes : chaque groupe de variables caractrise un groupe
dindividus et chaque groupe dindividus rassemble les individus types dun groupe de variables.
Ajoutons enfin que la notion de principale dimension de variabilit des individus rejoint celle de
variable synthtique.



1. Analyses exploratoire de donnes multidimensionnelles

Le tableau suivant va servir de fil conducteur. Les lignes du tableau reprsente les
modles de voitures de lanne 1989. et les colonnes les caractristiques techniques :
cylindre, puissance, vitesse, poids, longueur, largeur.
Numro modle Cylindre Puissance Vitesse poids Longueur Largeur
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
Honda
R19
Fiat tipo
Peugeot 205
R21
Citroen bx
Bmw 530i
Rover 827i
R25
Opel omega
Peugeot 405 break
Ford sierra
Bmw 325i
Audi 90 quattro
Ford scorpio
Renaut espace
Nissan vanette
Vw caravane
Ford fiesta
Fiat uno
Peugeot 205
Peugeot 205 rallye
Seat ibiza sxi
Citroen ax sport
1396
1721
1580
1769
2068
1769
2986
2675
2548
1998
1905
1993
2494
1994
2933
1995
1952
2109
1117
1116
1580
1294
1461
1294
90
92
83
90
88
90
188
177
182
122
125
115
171
160
150
120
87
112
50
58
80
103
100
95
174
180
170
180
180
182
226
222
226
190
194
185
208
214
200
177
144
149
135
145
159
189
181
184
850
965
970
1080
1135
1060
1510
1365
1350
1255
1120
1190
1300
1220
1345
1265
1430
1320
810
780
880
805
925
730
369
415
395
440
446
424
472
469
471
473
439
451
432
439
466
436
436
457
371
364
370
370
363
350
166
169
170
169
170
168
175
175
180
177
171
172
164
169
176
177
169
184
162
155
156
157
161
160


Etude descriptive des individus
On peut remarquer que
- Peugeot 205 rallye, la Seat ibza sxi et la Citroen AX sport ont de fortes puissances et
vitesse par rapport leurs autres caractristiques.
- La Nissan Vanette et la VW caravelle se caractrisent par de petites vitesses
- La Renault 21 a une petite puissance par rapport sa cylindre. Cest une diesel.

Dune manire gnrale, lensemble des caractristiques voluent dans le mme sens, des
petites voitures au plus grandes.
Etude descriptive des variables
Tableau 2
Statistiques descriptives
N MinimumMaximum Moyenne Ecart type
CYLINDRE 24 1116,00 2986,001906,1250 527,9087
PUISSANC 24 50,00 188,00 113,6667 38,7844
VITESSE 24 135,00 226,00 183,0833 25,2154
POIDS 24 730,00 1510,001110,8333 230,2912
LONGUEUR 24 350,00 473,00 421,5833 41,3405
LARGEUR 24 155,00 184,00 168,8333 7,6537

Corrlations
CYLINDRE PUISSANCVITESSEPOIDSLONGUEURLARGEUR
CYLINDRE 1,000 ,861 ,693 ,905 ,864 ,709
PUISSANC ,861 1,000 ,894 ,746 ,689 ,552
VITESSE ,693 ,894 1,000 ,491 ,532 ,363
POIDS ,905 ,746 ,491 1,000 ,917 ,791
LONGUEUR ,864 ,689 ,532 ,917 1,000 ,864
LARGEUR ,709 ,552 ,363 ,791 ,864 1,000

Le tableau 2 donne quelques statistiques lmentaire et la matrice de corrlations entre les
variables.
Toutes les variables sont corrls positivement
La vitesse est essentiellement corrle la puissance et moins aux autres variables.
Les variables du groupe(Cylindre, longueur et poids) sont bien corrles entre elles
Comme corrlation importantes, il reste Longueur et Largeur(0.86) et Puissance et
Vitesse(0.89).
On peut rsumer cette premire analyse en prenant comme indice de proximit entre les
variables leurs corrlations :
A la premire tape on regroupe les deux premires variables les plus corrles : Poids et
Longueur(0.917).
A la deuxime tape on recherche la plus forte corrlation restante : Poids et Cylindre (0.90).
la variable cylindre vient rejoindre le groupe( Poids, Longueur)
A la troisime, le groupe Puissance et vitesse, se forme avec une corrlation de 0.894.
A la quatrime tape, la largeur vient rejoindre le groupe (Cylindre, Poids, Longueur) ;
corrlation Longueur Largeur =0.864.
Et enfin, les deux groupes (Puissance, Vitesse) et (Cylindre, Poids, Longueur, Largeur)
fusionnent. La plus forte corrlation entre une variable dun groupe et une variable de lautre
groupe vaut 0.861 ; Puissance et Cylindre.

On peut mesurer la proximit entre chaque variable et lensemble de toutes les autres, y
compris elle mme , en utilisant plutt les corrlations carres. Il sagit de mesurer en quoi
une variable reprsente plus quelle mme : par exemple, limportance de la variable
Cylindre est calcul en faisant la moyenne de toutes ses corrlations carres avec lensemble
des variables :
2 2 2 2 2
1 0.861 0.963 0.905 0.864 0.709 4.29
6 6
+ + + + +
=
Le tableau suivant donne la proximit de chaque variable lensemble de toutes les variables :

Variable Proximit
Cylindre
Puissance
Vitesse
Poids
Longueur
Largeur
0.715
0.646
0.489
0.681
0.682
0.552

Ainsi la variable qui rsume le mieux lensemble des six variables est la Cylindre. La vitesse
est une variable plus indpendante des autres.

2. Lanalyse en composantes principales

Les donnes sont reprsentes dans un tableau Individus Variables. Il y a p variables X
1
,
X
2
,, X
p
observes sur n individus. On note x
ij
la valeur prise par la variable X
j
pour
lindividu i.
Lanalyse ACP consiste rechercher un petit nombre de nouvelles variables Y
1
, , Y
m

appeles composantes principales non corrles entre elles et rsumant aussi bien que
possible les donnes de dpart. Le critre de linertie permet dobtenir les composantes
principales et qui prsente trois avantages :
- lapproche est gometrique, ce qui permet dobtenir une comprhension plus profonde
de la mthodes et des aides linterprtation
- lanalyse des correspondances prsente dans les chapitres suivants repose sur une
gnralisation de lACP qui ne peut se concevoir que dans le cadre gomtrique
- les sorties des programmes dACP correspondent cette approche

2.1 Prsentation de lACP selon lapproche gomtrique

Le nuage de points est associs aux donnes et ses caractristiques
Le centre de gravit du nuage N est le point g dont les coordonnes sont les moyennes des
diffrentes variables :
1 2
...
p
x x x
g x
p
+
= =
dans notre exemple g =(196 114 183 1111 422 169)
le vecteur g reprsente en quelque sorte les caractristiques dune voiture moyenne

la dispersion autour du centre de gravit est mesure laide de linertie totale du nuage de
points N dfinit par
2
1
( , ) ( , )
i i
I N g d x g
n
=

ou
2
( , )
i i
d x g reprsente le carre de la distance du point x
i
au centre
de gravit g calcule en utilisant la formule :
2 2
( , ) ( )
i i ij j
d x g x x =


Linertie totale peut se calculer directement des variances des variances
2 2 2 2
1 1 1 1 1 1
1 1 1
( , ) ( , ) ( ) ( )
p p p p n n
i i ij j ij j j
j j i j i j
I N g d x g x x x x s
n n n
= = = = = =
= = = =




Dans notre exemple :
I(N,g) =267072 +1441 +609 +50824 +1638 +56 =321640
On voit que linertie du nuage est essentiellement due la cylindre. Un changement
dchelle pourrait disparatre cette importance. Dans la pratique, il est pratique et mme
prfrable dobtenir une description des donnes indpendante du choix de lunit de mesure.
On peut rendre les donnes homognes en transformant les variables dorigine en variables
centres et rduites dont la moyenne est nulle et la variance est gale un.
Le centre de gravit est 0 et linertie totale =p

Premire axe principale et premire composante principale
On cherche faire passer une droite
1
le mieux possible au milieu du nuage de points.
La droite
1
D sappelle le premier axe principal. On peut montrer que la droite
1
D passe par
lorigine 0, centre de gravit du nuage des donnes normes et est engendre par le vecteur u
1

appelle vecteur propre associ la plus grande valeur propre
1

Directions principales - plans principaux - reprsentation des individus

Le nuage prsente gnralement des directions d'allongement privilgies, celle d'allongement
maximal D
1
est dite premire direction principale (du nuage), la suivante D
2
parmi toutes
celles perpendiculaires D
1
est la seconde direction principale, la suivante D
3
parmi toutes
celles perpendiculaires D
1
et D
2
est la troisime direction principale, etc.

On choisit un vecteur unitaire u
k
sur chaque direction D
k
et on obtient une base orthonorme
de R
p
, c'est la base principale du nuage.


+-------------------------------------------------+-------------------------------------------------------+
I | * * * I
I | * D
1
* * I
I * | * * * I
I * | * * * I
I - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - I
I * * * | G * * * I
I * * * | * * I
I * * * * | * I
I * * * * * | I
I * * | I
+-------------------------------------------------+-------------------------------------------------------+

On appelle plan principal ixj le plan vectoriel dtermin par les directions D
i
et D
j
. En
gnral, le nuage est approximativement situ dans un sous-espace de R
p
de faible dimension,
engendr par les premires directions principales; l'examen de ses projections sur quelques
plans principaux bien choisis (1x2, 1x3, etc.) permet alors de dcouvrir ses particularits et de
dcrire sa structure assez prcisment.


Composantes principales - reprsentation des variables

De mme que les variables initiales sont associes aux axes canoniques de R
p
, de nouvelles
variables appeles composantes principales sont associes aux axes principaux: la composante
principale c
k
est le vecteur de R
n
qui donne les coordonnes des individus sur l'axe principal
D
k
muni du vecteur unitaire u
k
.

Les composantes principales sont naturellement des combinaisons linaires des variables
initiales, on montre qu'elles sont centres et non corrles.

L'examen des corrlations entre les variables initiales et les composantes principales permet
d'interprter ces dernires et les axes principaux correspondants.

Les programmes usuels permettent de reprsenter ces quantits dans lecercle des corrlations.
Cette reprsentation n'est pas de mme nature que celle des individus sur les plans principaux.
Et si certains logiciels superposent les deux sur les mmes graphiques, il faut garder l'esprit
que la position des points-variables par rapport aux points-individus n'y est pas directement
interprtable!


Une prsentation alternative de l'ACP, moins intuitive mais quivalente, et privilgiant les
variables, l'introduit comme la recherche de nouvelles variables (les composantes principales)
non corrles entre elles, et les plus corrles avec l'ensemble des variables initiales.


AIDES A L'INTERPRETATION

Mme si tout n'a pas t dtaill, on aura compris que les bases mathmatiques de
l'ACP sont rduites. L'art de l'analyste est celui de l'interprtation des rsultats, cela
ncessite la fois la comprhension des mthodes employes et la connaissance du
domaine des donnes tudies.

L'interprtation s'appuie sur l'examen de diffrentes quantits calcules et dites par
les logiciels d'ACP.





i




--------+-----------------------------------------------------+-----------------------
0 i
k
D
k

Taux d'inertie

Il s'agit des inerties successives I
1
, I
2
, I
3
, etc. suivant les axes principaux D
1
, D
2
, D
3
, etc. du
nuage. Leurs valeurs relatives traduisent l'importance de l'allongement suivant ces directions
successives.

On dite les taux relatifs I
1
/I, I
2
/I, I
3
/I, etc., ainsi que les taux relatifs cumuls. Lorsque ces
derniers approchent 100%, on considre que l'on a assez d'axes principaux pour reprsenter
convenablement le nuage.


Contributions des axes aux individus (COR)

Il s'agit des ratios tels que:
( , )
ki
i
I
Cor k i
I
=

qui mesure la qualit de la reprsentation de l'individu i sur l'axe principal D
k
.
On a:
( , ) 1
k
Cor k i =


Il n'est licite de commenter la position de l'individu i sur le plan principal kxh que si le ratio:
[ ]
ki hi
i
I I
I
+
n'est pas trop faible.

La considration de ces ratios, qui sont des cosinus carrs, n'est pertinente que pour les points
pas trop proches de l'origine. Pour ceux-ci, c'est plus leur position, centrale, que la direction
dans laquelle se manifeste leur faible loignement, qui les caractrise.


Contributions des individus aux axes (CTR)

Il s'agit des ratios tels que: ( , )
ki
k
I
CTR i k
I
=
qui mesure la part prise par l'individu i dans la dtermination de l'axe principal D
k
.
On a: ( , ) 1
i
CTR i k =



Contributions des axes aux variables (COR)
Il s'agit des coefficients de corrlation au carr tels que:

2
( , ) ( , )
k j
COR k i cor c x =
entre la variable initiale x
.j
et la composante principale c
k
.
Elles permettent comme on l'a vu
de dgager la signification des axes.
( , ) 1
k
COR k j =


Ces quantits les carrs de celles figures dans le cercle des corrlations utilis pour
reprsenter graphiquement les variables.


Contributions des variables aux axes (CTR)

Il s'agit des ratios tels que:
2
2
( , )
( , )
( , )
k j
k i
i
cor c x
CTR j k
Cor c x
=


On a : ( , ) 1
j
CTR j k =


i
L'observation des premiers plans principaux ne permet aucune conclusion, et peut mme tre
source de contresens, si elle ne s'accompagne pas de l'examen des quantits prcdentes. Il
faut donc toujours les faire diter par le logiciel utilis et les consulter.


Elments supplmentaires

Si on craint que l'influence de certains individus ne soit excessive pour la dtermination des
axes principaux, il est possible de les placer en lments supplmentaires, c'est dire qu'ils ne
font pas partie du nuage dont on cherche les directions principales, mais on peut figurer leur
position sur les plans principaux obtenus.

On traite de la mme manire des variables en lments supplmentaires, elles ne font pas
partie de l'ensemble des variables de base mais on peut examiner leurs corrlations avec les
composantes principales obtenues.

Aprs une premire ACP des donnes tudies, il est recommand d'prouver la stabilit des
configurations observes en effectuant de nouvelles analyses laissant en lments
supplmentaires les individus ou variables d'importance trop marque, ou encore les donnes
douteuses.



CONCLUSION

L'ACP est une technique de statistique descriptive dont le principe est simple mais qui met en
oeuvre des calculs numriques importants, pour cette raison elle n'a pu se dvelopper qu'avec
l'apparition des ordinateurs.

Il est prsent possible de traiter des donnes de taille consquente sur micro-ordinateur.

L'ACP est conseiller pour un premier examen, une mise en forme ou une prsentation
synthtique de donnes abondantes croisant des individus avec des variables quantitatives. On
n'omettra cependant pas d'examiner pralablement les donnes par les mthodes statistiques
usuelles (moyenne, cart-type, graphiques, corrlation, etc.).

Un reproche frquemment adress l'ACP et aux techniques connexes est qu'elles ne
rvleraient que des vidences. Le propos est injuste, mais il est rassurant que souvent les
premiers axes retrouvent et confirment ce qui tait dj connu.

Comme avec les autres mthodes descriptives, il faut tre trs prudent pour infrer des
modles explicatifs ou causals partir des configurations obtenues.



Elments supplmentaires

Si on craint que l'influence de certains individus ne soit excessive pour la
dtermination des axes principaux, il est possible de les placer en lments
supplmentaires, c'est dire qu'ils ne font pas partie du nuage dont on cherche les
directions principales, mais on peut figurer leur position sur les plans principaux
obtenus.

On traite de la mme manire des variables en lments supplmentaires, elles ne font
pas partie de l'ensemble des variables de base mais on peut examiner leurs corrlations
avec les composantes principales obtenues.

Aprs une premire ACP des donnes tudies, il est recommand d'prouver la
stabilit des configurations observes en effectuant de nouvelles analyses laissant en
lments supplmentaires les individus ou variables d'importance trop marque, ou
encore les donnes douteuses.


Exemple : Une entreprise multinationale souhaite implanter dans un pays X lune
de ses units de production. Elle ralise une tude pour valuer lattractivit
conomique des 22 rgions (Tableau ci-dessous).. Objectif : est il possible de
rsumer les 7 variables en 2 ou 3 maximum, avec un minimum de perte
dinformation de manire pouvoir interprter plus facilement cette dernire.

REGION POPUL TACT SUPERF NBENT NBBREV CHOM TELEPH
R1 1624,00 39,14 8280,00 35976,00 241,00 5,20 700,00
R2 2795,00 36,62 41308,00 85531,00 256,00 10,20 1300,00
R3 1320,00 37,48 26013,00 40494,00 129,00 9,30 600,00
R4 1390,00 38,63 17589,00 35888,00 91,00 9,00 600,00
R5 1600,00 38,26 31582,00 40714,00 223,00 8,10 750,00
R6 2795,00 36,62 27208,00 73763,00 296,00 9,50 1300,00
R7 2370,00 38,78 39151,00 56753,00 229,00 7,90 1100,00
R8 1340,00 37,85 25606,00 24060,00 155,00 9,30 550,00
R9 240,00 8680 8273
R10 1090,00 37,27 16202,00 27481,00 159,00 7,10 450,00
R11 1730,00 37,80 12317,00 37461,00 181,00 10,80 750,00
R12 10660 46,04 12012 273604 6722 7,3 5800
R13 2110,00 32,12 27376,00 62202,00 179,00 13,20 1000,00
R14 720,00 38,06 16942,00 21721,00 73,00 7,90 350,00
R15 2300,00 34,34 23547,00 48353,00 185,00 8,60 960,00
R16 2430,00 37,14 45348,00 78771,00 237,00 9,00 1100,00
R17 3960,00 32,05 12414,00 78504,00 278,00 12,60 1600,00
R18 3060,00 37,93 32082,00 72027,00 339,00 9,60 1300,00
R19 1810,00 34,39 19399,00 36285,00 139,00 9,80 750,00
R20 1590,00 36,82 25809,00 44598,00 133,00 10,10 750,00
R21 4260,00 34,96 31400,00 132552,00 610,00 11,00 2300,00
R22 5350,00 39,44 48698,00 159634,00 1474,00 7,40 2500,00

Popul =population de la rgion en milliers dindividus
Tact =Taux dactivit ( Population active/population totale de la rgion) en %
SUPERF =superficie de la rgion en KM carrs
NBENTR =nombre dentreprises dans la rgion
NBREV =nombre de brevets dposs au cours de lanne
CHOM =taux de chmage en %
TELEPH =nombre de lignes tlphoniques en place dans la rgion

Etape 1 : reprage des observations aberrantes

Les individus prsentent des valeurs extrme risquent de fausser lanalyse ; les
individus pour les quels beaucoup dinformations manquent sont galement dun
intrt limit pour lanalyse. Dans le tableau ci-dessus, 4 informations sur les 7
manquent pour la rgion 9. Par ailleurs les valeurs prises par la rgion 12 sont
atypiques. Ces deux rgions seront supprimes.

Etape 2

Centrer et rduire les variables pour enlever lhtrognit des units de mesure

Etape 3 : calcul dune matrice de corrlations entre les variables initiales
Dans notre exemple :
Matrices des Corrlations
CHOM NBENTR TACT POPUL NBREVSUPERF TELZEPH
CHOM 1,000 ,190 -,766 ,246 -,137 -,003 ,236
NBENTR ,190 1,000 -,098 ,951 ,863 ,649 ,978
TACT -,766 -,098 1,000 -,203 ,192 ,193 -,172
POPUL ,246 ,951 -,203 1,000 ,827 ,513 ,984
NBREV -,137 ,863 ,192 ,827 1,000 ,541 ,836
SUPERF -,003 ,649 ,193 ,513 ,541 1,000 ,551
TELEPH ,236 ,978 -,172 ,984 ,836 ,551 1,000

Lanalyse de la matrice des corrlations permet le reprage de trois situations
diffrentes, des corrlations leves proches de 0,8-0,9 (en gras) indiquant une
premire dimension. Deux variables faiblement corrles avec les autres ( CHOM
et TACT) mais assez fortement lies entre elles ( r =-0,76) suggrant une
deuxime dimension. Enfin la variable SUPERF est corrle avec les variables du
groupe 1, mais plus faiblement ( r proche de 0,5-0,6) et constitue une dimension
elle seule.

Etape 4 : calcul des combinaisons linaires.

Lanalyse factorielle construit des combinaisons linaires des variables de dpart.
Ces calculs donnent un tableau comportant la variance de chacune des
composantes principales, ainsi que la part de variance initiale reprsente par
chacune de celle-ci :

Variance explique totale

Comp Total % de la variance % cumuls Sommel% de la variance % cumuls
1 4,158 59,395 59,395 4,158 59,395 59,395
2 1,899 27,126 86,521 1,899 27,126 86,521
3 ,595 8,495 95,016
4 ,205 2,926 97,942
5 ,105 1,503 99,446
6 3,243E-
02
,463 99,909
7
6,379E-03
9,113E-02 100,000
Mthode d'extraction : Analyse des principaux composants.

Etape 5 : Choix des composantes principales
Graphique des valeurs propres
Numro de composant
7 6 5 4 3 2 1
V
a
l
e
u
r

p
r
o
p
r
e
5
4
3
2
1
0


Matrice des composantes
Composante
1 2
nombre d'entreprises ,990
nombre de lignes de tlphones ,979
population en milliers ,966
nombre de brevets dposs ,884
superficie en km carr ,676
population active/pop totale ,941
taux de chmage(%) -,905
Mthode d'extraction : Analyse en composantes principales.
a 2 composantes extraites.
Etape 6 :Linterprtation est facile en terme graphique

Diagramme de composantes
Composante 1
1,0 ,5 0,0 -,5 -1,0
C
o
m
p
o
s
a
n
t
e

2
1,0
,5
0,0
-,5
-1,0
tax de chmage(%)
population active/po
superficie en km car
nobre de brevets d
population en m
nobre de lignes
nobre d'entrep

Les coordonnes reprsentent les corrlations des variables de dpart avec les
composantes. Laxe horizontal reprsente la 1
re
composante, il peut sinterprter
comme tant le potentiel de dveloppement conomique des rgions le nombre
dentreprise, le nombre de lignes tlphoniques, la population et le nombre de
brevets lui sont trs fortement corrles, la superficie lest moins.
La 2
me
composante oppose le taux de chmage et le taux dactivit et peut
sinterprter comme tant lactivit actuelle de la rgion. Le fait que les
corrlations sont de signe oppos montre que plus le rapport population active sur
population totale est lev, plus le taux de chmage est faible.









Qualit de reprsentation

InitialExtraction
nombre d'entreprises1,000 ,979
nombre de lignes de tlphones1,000 ,967
population en milliers1,000 ,946
nombre de brevets dposs1,000 ,882
superficie en km carr1,000 ,532
population active/pop totale1,000 ,894
taux de chmage(%) 1,000 ,857
Mthode d'extraction : Analyse des principaux composants.

Lanalyse de la communalit se base sur le principe suivant :
Plus la communalit est proche de zro plus la variable en question est mal restitue
Plus la communalit est proche de un plus la variable en question est bien restitue

Etape 7 : visualisation des individus sur les composantes

REGR factor score 2 for analysis 1
2 1 0 -1 -2 -3
R
E
G
R

f
a
c
t
o
r

s
c
o
r
e



1

f
o
r

a
n
a
l
y
s
i
s




1
4
3
2
1
0
-1
-2
R22
R21
R20
R19
R18
R17
R16
R15
R14
R13
R11
R10
R8
R7
R6
R5
R4
R3
R2
R1

Vous aimerez peut-être aussi