Académique Documents
Professionnel Documents
Culture Documents
3-Exemple Acp
3-Exemple Acp
Composantes Principales
ACP
Exemple : ACP
• Les données présentées dans cet exemple
correspondent à la mesure de paramètres
démographiques dans 51 Etats des Etats-Unis
en 2001.
• Afin de supprimer les effets d'échelle, les
variables initiales ont été converties en taux
pour 1000 habitants.
• Le but est ici d'analyser les corrélations entre
les variables et d'identifier des états se
différenciant fortement des autres.
2
L’Analyse en Composantes Principales
• Tableau de définition des variables d’intérêt :
Code Libellé de la variable
PT Population totale
TN Taux de naissance
TM Taux de mortalité
3
ACP (Tableau des données)
Etat PT IDN AME IIN TN TM P<65 P>65
Alabama 4464356 -1,78 -0,02 0,69 14,41 10,28 869,21 130,79
Alaska 634892 -1,72 -0,24 2,09 15,95 4,64 941,95 58,05
Arizona 5307331 14,25 -0,03 4,29 15,88 7,77 869,54 130,46
Arkansas 2692090 0,36 -0,01 1,07 14,35 10,51 861,06 138,94
California 34501130 -2,01 -0,04 7,88 15,37 6,72 894,03 105,97
Colorado 4417714 9,32 -0,06 3,57 14,57 6,26 903,52 96,48
Connecticut 3425074 -2,37 -0,02 3,50 12,52 9,00 862,64 137,36
Delaware 796165 5,39 -0,04 2,12 14,01 8,79 869,45 130,55
District of Columbia
571822 -7,77 -0,07 5,73 14,33 10,76 880,75 119,25
Florida 16396515 12,52 -0,03 5,76 12,54 10,13 826,28 173,72
Georgia 8383915 7,07 -0,07 2,71 16,16 7,75 904,37 95,63
Hawaii 1224398 -2,50 -0,29 4,32 15,44 6,87 866,18 133,82
Idaho 1321006 6,40 -0,03 2,24 15,00 7,34 887,18 112,82
Illinois 12482301 -7,28 -0,02 4,76 14,87 8,72 880,26 119,74
Indiana 6114745 -1,99 0,00 1,23 14,08 9,19 876,78 123,22
Iowa 2923179 -5,68 0,00 1,21 12,83 9,70 851,89 148,11
Kansas 2694641 -6,36 -0,05 2,28 14,53 9,35 868,32 131,68
Kentucky 4065556 0,15 -0,06 0,75 13,63 9,89 875,51 124,49
Louisiana 4465430 -7,98 -0,04 0,70 15,69 9,37 884,16 115,84
Maine 1286670 6,62 -0,02 0,58 10,31 9,79 856,33 143,67
Maryland 5375156 2,18 -0,06 4,02 14,16 8,30 886,72 113,28
Massachusetts 6379304 -3,25 -0,01 3,24 12,72 9,02 865,26 134,74
Michigan 9990817 -2,70 0,00 1,93 13,63 8,88 877,62 122,38
Minnesota 4972294 0,65 0,00 1,96 13,36 7,70 880,00 120,00
Mississippi 2858029 -3,11 -0,05 0,52 15,98 10,21 879,31 120,69
Missouri 5629707 -0,03 -0,02 1,13 13,50 9,88 866,01 133,99
Montana 904433 -1,73 -0,03 0,41 11,84 9,08 865,50 134,50 4
Nebraska 1713235 -6,56 -0,04 1,79 14,18 8,90 864,92 135,08
Nevada 2106074 27,35 -0,03 6,45 14,22 7,17 888,64 111,36
ACP (Tableau des données)
Etat PT IDN AME IIN TN TM P<65 P>65
New Hampshire 1259181 10,80 0,00 1,07 11,33 7,83 880,58 119,42
New Jersey 8484431 -3,64 -0,01 5,68 13,09 8,54 868,76 131,24
New Mexico 1829146 -5,47 -0,05 2,61 14,80 7,50 881,45 118,55
New York 19011378 -10,78 -0,01 6,75 13,68 8,44 871,35 128,65
North Carolina 8186268 5,43 -0,10 2,09 14,85 8,95 879,64 120,36
North Dakota 634448 -13,48 -0,08 0,72 11,99 9,39 852,22 147,78
Ohio 11373541 -3,69 0,00 0,89 13,88 9,75 867,46 132,54
Oklahoma 3460097 -3,21 -0,06 1,51 13,96 10,16 867,79 132,21
Oregon 3472867 5,16 0,00 3,18 12,97 8,65 872,75 127,25
Pennsylvania 12287150 -1,92 0,00 1,49 11,77 10,79 844,70 155,30
Rhode Island 1058920 3,65 -0,02 2,79 11,68 9,65 856,18 143,82
South Carolina 4063011 4,02 -0,08 1,10 14,09 9,26 877,96 122,04
South Dakota 756600 -3,44 -0,03 0,71 13,63 9,45 857,51 142,49
Tennessee 5740021 1,50 -0,02 1,06 13,89 9,78 875,88 124,12
Texas 21325018 2,94 -0,05 4,99 16,86 7,07 900,66 99,34
Utah 2269789 -5,73 -0,02 3,27 20,41 5,52 913,76 86,24
Vermont 613090 2,78 0,00 1,14 10,32 8,52 872,19 127,81
Virginia 7187734 2,55 -0,17 3,15 13,94 7,98 887,65 112,35
Washington 5987973 3,67 -0,07 3,68 13,42 7,46 888,00 112,00
West Virginia 1801916 -2,47 0,00 0,27 11,34 11,90 847,08 152,92
Wisconsin 5401906 0,55 0,00 1,12 12,70 8,75 869,77 130,23
Wyoming 494423 -4,13 -0,05 0,79 12,40 8,05 882,27 117,73
5
L’Analyse en Composantes Principales
Statistique simple :
Variable Observations Minimum Maximum Moyenne Ecart-type
IDN 51 -13,483 27,349 0,246 6,911
AME 51 -0,293 -0,001 -0,044 0,056
IIN 51 0,272 7,879 2,530 1,891
TN 51 10,313 20,406 13,864 1,736
TM 51 4,645 11,896 8,733 1,389
P< 65 51 826,278 941,949 874,883 18,494
P> 65 51 58,051 173,722 125,117 18,494
6
L’Analyse en Composantes Principales
7
L’Analyse en Composantes Principales
8
L’Analyse en Composantes Principales
Matrice de corrélation (Pearson (n)) :
Variables IDN AME IIN TN TM P< 65 P> 65
IDN 1 0,020 0,206 -0,060 -0,232 0,095 -0,095
AME 0,020 1 -0,133 -0,308 0,422 -0,377 0,377
IIN 0,206 -0,133 1 0,295 -0,412 0,204 -0,204
TN -0,060 -0,308 0,295 1 -0,506 0,640 -0,640
TM -0,232 0,422 -0,412 -0,506 1 -0,779 0,779
P < 65 0,095 -0,377 0,204 0,640 -0,779 1 -1,000
P> 65 -0,095 0,377 -0,204 -0,640 0,779 -1,000 1
• Les taux de la proportion de gens étant âgés de plus et moins de 65 ans sont
parfaitement corrélés (r = -1). Les deux variables sont donc redondantes.
• L'immigration provenant d'autres états des USA est très peu corrélée avec les
autres variables, y compris avec l'immigration provenant de pays étrangers.
Cela indique que les raisons d'immigration sont sûrement différentes pour les
populations concernées.
9
L’Analyse en Composantes Principales
• Les valeurs propres et les facteurs sont triés par ordre décroissant de la
variabilité représentée.
• Dans notre cas, on voit que la première valeur propre vaut 3.567 et
représente 51% de la variabilité. Cela signifie que si l'on représente les
données sur un seul axe, alors on aura toujours 51% de la variabilité totale qui
sera préservée.
• Le nombre de facteurs est 6, alors que nous avions au départ 7 variables.
Cela est dû aux deux variables redondantes. L'information peut être
synthétisée sur 6 dimensions. Le nombre de dimensions utiles est
13
automatiquement détecté par la méthode utilisée.
L’Analyse en Composantes Principales
3eme méthode : le « Scree-test » ou test du coude.
• On observe le graphique des valeurs propres et on ne retient que
les valeurs qui se trouvent à gauche du point d’inflexion.
Vecteurs propres :
F1 F2 F3 F4 F5 F6
IDN 0,085 0,777 -0,458 -0,193 0,373 0,058
AME -0,280 0,195 -0,222 0,896 -0,134 -0,116
IIN 0,221 0,520 0,745 0,148 -0,182 0,267
TN 0,396 -0,192 0,226 0,309 0,781 -0,222
TM -0,468 -0,150 0,047 0,056 0,385 0,778
P< 65 0,495 -0,122 -0,257 0,140 -0,160 0,359
P> 65 -0,495 0,122 0,257 -0,140 0,160 -0,359
15
L’Analyse en Composantes Principales
F1 F2 F3 F4 F5 F6
IDN 0,726 60,308 21,010 3,711 13,908 0,337
AME 7,858 3,792 4,937 80,278 1,786 1,349
IIN 4,864 27,012 55,463 2,196 3,326 7,140
TN 15,665 3,678 5,115 9,566 61,032 4,944
TM 21,862 2,251 0,224 0,317 14,854 60,491
P< 65 24,513 1,480 6,625 1,966 2,547 12,870
P> 65 24,513 1,480 6,625 1,966 2,547 12,870
18
L’Analyse en Composantes Principales
• On peut choisir d’exclure certaines variables. Pour choisir les
variables à éliminer, on observe leur qualité de représentation
Taux de PTaux
o p < 65
-0,25 de ans
mo rtalité
naissance
-0,5
-0,75
-1
-1 -0,75 -0,5 -0,25 0 0,25 0,5 0,75 1
20
F1 (50,96 %)
L’Analyse en Composantes Principales
Lorsque deux variables sont loin du centre du graphique, alors si elles sont :
• Proches les unes par rapport aux autres, alors elles sont significativement
positivement corrélées (r proche de 1);
• Orthogonales les unes par rapport aux autres, alors elles sont significativement
non-corrélées (r proche de 0);
• Symétriquement opposées par rapport au centre, alors elles sont
significativement négativement corrélées (r proche de -1).
Variables (axes F1 et F3 : 62,90 %)
1
Immigratio n
0,75 internatio nale
nette
0,5
0,25
naissance
Taux de
mortalité
0
Américains
migrants
-0,25 P o p < 65 ans
avec
Immigratio n
l'étranger
-0,5 do mestique
nette
-0,75
-1
-1 -0,75 -0,5 -0,25 0 0,25 0,5 0,75 1
21
F1 (50,96 %)
L’Analyse en Composantes Principales
Dans notre exemple, on voit bien la forte corrélation entre le taux de mortalité
et le taux de personnes dont l'âge est supérieur à 65 ans.
Variables (axes F1 et F2 : 67,72 %)
1 Immigratio n
do mestique
nette
0,75 Immigratio n
internatio nale
0,5 nette
A méricains
migrants
F2 (16,76 %)
0,25
P o p > 65 ans avec
l'étranger
0
Taux de PTaux
o p < 65
-0,25 de ans
mo rtalité
naissance
-0,5
-0,75
-1
-1 -0,75 -0,5 -0,25 0 0,25 0,5 0,75 1
22
F1 (50,96 %)
L’Analyse en Composantes Principales
Nous pourrions déduire du graphique ci-dessous que les variables Immigration
domestique, et Immigration Internationale ne sont pas corrélées, ce que l'on
peut voir également sur la matrice des corrélations,alors qu'elles le sont d’après
le graphique précédent.
Variables (axes F1 et F3 : 62,90 %)
1
Immigratio n
0,75 internatio nale
nette
0,5
Taux de
F3 (11,93 %)
P o p > 65 ans
0,25
naissance
Taux de
mo
0 rtalité
A méricains
migrants
-0,25 P o p < 65 ans
avec
Immigratio n
l'étranger
-0,5 do mestique
nette
-0,75
-1
-1 -0,75 -0,5 -0,25 0 0,25 0,5 0,75 1
F1 (50,96 %) 23
L’Analyse en Composantes Principales
Nevada
4
Flo rida
F2 (16,76 %)
A rizo na
2
New Hampshire Co lo rado
Califo rnia
Rho Orego n
de Island
M aine New Jersey Washingto n
Vermo Delaware
nt Idaho
M aryland Texas
MCo
P ennsylvania
nnecticut
assachusetts
New
MNo
innesorkta linaGeo rgia
YoCaro
rth
0
WiscoSo nsinuth
District
Caro Virginia
West Virginia AMM isso
Tennessee
rkansas
o M uri
ntanaichigan Illinoois
lina
f
Io wa Indiana
Kentucky New Hawaii
So uthA Dako
Ohio
labama
Oklaho ta
Nebraskama
Kansas ming exico
Co lumbia
Wyo M
M ississippi Utah
-2 No rth Dako ta Lo uisiana A laska
-4
-6 -4 -2 0 2 4 6 8
F1 (50,96 %) 27
L’Analyse en Composantes Principales
Graphique des individus (F1,F3)
Observations (axes F1 et F3 : 62,90 %)
3
New Yo rk
District o f Hawaii
2 Califo rnia
Flo rida Co lumbia
F3 (11,93 %)
-4
-5 -4 -3 -2 -1 0 1 2 3 4 5 6 7
F1 (50,96 %) 28
L’Analyse en Composantes Principales
Contributions des individus (%) :
F1 F2 F3 F4 F5 F6
Alabama 0,620 1,121 0,375 0,291 2,799 0,646
Alaska 22,638 4,911 2,360 9,397 4,027 1,389
Arizona 0,385 7,131 0,027 0,054 7,550 4,278
Arkansas 1,344 0,204 0,091 0,263 4,715 0,157
California 3,922 1,757 8,218 2,353 3,246 0,244
Colorado 4,480 1,957 2,051 0,012 0,876 0,118
Connecticut 0,681 0,202 0,934 0,063 1,704 0,088
Delaware 0,044 0,475 0,280 0,076 1,068 0,464
District of Columbia 0,014 0,383 8,429 0,159 0,000 30,103
Florida 4,683 14,682 6,534 1,904 4,157 1,520
Georgia 4,016 0,058 1,630 0,096 2,011 1,923
Hawaii 2,135 0,511 12,339 35,845 1,739 6,722
Idaho 1,009 0,488 1,668 0,443 0,240 2,212
Illinois 0,170 0,173 3,731 3,046 0,482 0,711
Indiana 0,090 0,531 0,708 1,388 0,039 0,001
Iowa 2,803 0,545 0,137 0,175 0,044 2,908
Kansas 0,125 1,367 1,060 0,013 0,336 0,048
Kentucky 0,167 0,738 1,004 0,323 0,736 2,249
Louisiana 0,065 5,480 0,103 1,306 1,378 0,189
Maine 3,248 1,011 3,336 2,023 1,125 0,040
Maryland 0,685 0,338 0,096 0,022 0,183 1,800
Massachusetts 0,590 0,044 0,571 0,483 1,734 0,055
Michigan 0,042 0,237 0,229 1,331 0,451 0,005
Minnesota 0,032 0,030 1,034 0,776 1,750 2,249 29
Mississippi 0,001 3,316 0,291 0,369 7,710 1,748
L’Analyse en Composantes Principales
Contributions des individus (%) :
F1 F2 F3 F4 F5 F6
Missouri 0,836 0,160 0,347 0,025 0,646 0,101
Montana 1,136 0,343 1,349 0,366 1,551 0,633
Nebraska 0,291 1,286 0,505 0,055 0,012 2,520
Nevada 2,411 28,875 1,150 0,004 1,332 1,327
New Hampshire 0,024 2,558 9,090 0,086 3,419 0,237
New Jersey 0,049 0,927 4,850 1,181 3,571 0,089
New Mexico 0,505 0,828 0,263 0,207 0,517 3,308
New York 0,001 0,033 12,888 3,066 6,348 0,236
North Carolina 0,280 0,008 0,194 1,821 3,468 0,762
North Dakota 2,411 5,064 1,310 2,331 2,585 3,208
Ohio 0,776 1,008 0,213 0,766 0,323 0,041
Oklahoma 0,462 1,106 0,059 0,245 1,208 1,376
Oregon 0,072 1,726 0,200 0,339 0,356 0,014
Pennsylvania 5,532 0,001 0,102 0,028 0,004 0,000
Rhode Island 1,900 1,434 0,009 0,354 0,398 0,078
South Carolina 0,005 0,075 1,227 1,100 1,725 0,792
South Dakota 1,311 0,850 0,003 0,070 0,552 2,974
Tennessee 0,185 0,157 1,350 0,262 0,855 1,348
Texas 4,891 0,397 0,410 2,282 0,560 0,033
Utah 11,548 2,729 0,145 13,185 3,866 12,467
Vermont 0,841 0,427 3,904 0,086 9,307 0,009
Virginia 1,592 0,018 0,114 8,841 0,005 1,814
Washington 1,035 0,634 0,034 0,473 1,808 0,119
West Virginia 7,440 0,378 0,259 0,057 0,162 3,339
Wisconsin 0,475 0,000 1,361 0,212 0,646 1,036 30
Wyoming 0,004 1,290 1,427 0,348 4,676 0,276
L’Analyse en Composantes Principales
Cosinus carrés des observations :
F1 F2 F3 F4 F5 F6
Alabama 0,406 0,242 0,058 0,042 0,229 0,024
Alaska 0,825 0,059 0,020 0,075 0,018 0,003
Arizona 0,098 0,596 0,002 0,003 0,239 0,062
Arkansas 0,645 0,032 0,010 0,027 0,281 0,004
California 0,533 0,079 0,262 0,070 0,055 0,002
Colorado 0,783 0,112 0,084 0,000 0,019 0,001
Connecticut 0,569 0,056 0,183 0,011 0,177 0,004
Delaware 0,099 0,354 0,149 0,038 0,301 0,060
District of Columbia 0,004 0,033 0,510 0,009 0,000 0,445
Florida 0,388 0,400 0,127 0,034 0,043 0,007
Georgia 0,837 0,004 0,080 0,004 0,052 0,023
Hawaii 0,157 0,012 0,213 0,574 0,016 0,028
Idaho 0,557 0,088 0,215 0,053 0,016 0,070
Illinois 0,091 0,030 0,469 0,356 0,032 0,022
Indiana 0,122 0,237 0,225 0,410 0,007 0,000
Iowa 0,869 0,056 0,010 0,012 0,002 0,052
Kansas 0,143 0,517 0,285 0,003 0,048 0,003
Kentucky 0,179 0,259 0,251 0,075 0,098 0,138
Louisiana 0,028 0,764 0,010 0,121 0,073 0,005
Maine 0,657 0,067 0,158 0,089 0,028 0,000
Maryland 0,722 0,117 0,024 0,005 0,024 0,109
Massachusetts 0,556 0,014 0,126 0,099 0,203 0,003
Michigan 0,081 0,150 0,103 0,557 0,108 0,001
Minnesota 0,041 0,012 0,303 0,211 0,272 0,161
Mississippi 0,000 0,474 0,030 0,035 0,417 0,043 31
L’Analyse en Composantes Principales
Cosinus carrés des observations :
F1 F2 F3 F4 F5 F6
Missouri 0,788 0,050 0,077 0,005 0,076 0,005
Montana 0,606 0,060 0,169 0,042 0,103 0,019
Nebraska 0,294 0,427 0,120 0,012 0,002 0,146
Nevada 0,194 0,765 0,022 0,000 0,013 0,006
New Hampshire 0,007 0,244 0,617 0,005 0,123 0,004
New Jersey 0,022 0,139 0,517 0,117 0,202 0,002
New Mexico 0,444 0,239 0,054 0,040 0,057 0,166
New York 0,000 0,002 0,670 0,148 0,176 0,003
North Carolina 0,234 0,002 0,038 0,330 0,360 0,036
North Dakota 0,447 0,309 0,057 0,094 0,060 0,034
Ohio 0,568 0,243 0,036 0,122 0,029 0,002
Oklahoma 0,412 0,324 0,012 0,048 0,134 0,070
Oregon 0,089 0,705 0,058 0,092 0,055 0,001
Pennsylvania 0,994 0,000 0,004 0,001 0,000 0,000
Rhode Island 0,759 0,188 0,001 0,031 0,020 0,002
South Carolina 0,006 0,030 0,352 0,293 0,263 0,055
South Dakota 0,710 0,152 0,000 0,008 0,037 0,092
Tennessee 0,233 0,065 0,398 0,072 0,134 0,097
Texas 0,860 0,023 0,017 0,087 0,012 0,000
Utah 0,698 0,054 0,002 0,173 0,029 0,043
Vermont 0,274 0,046 0,298 0,006 0,377 0,000
Virginia 0,436 0,002 0,007 0,527 0,000 0,028
Washington 0,653 0,131 0,005 0,065 0,142 0,004
West Virginia 0,948 0,016 0,008 0,002 0,003 0,024
Wisconsin 0,485 0,000 0,325 0,047 0,082 0,060
Wyoming 0,003 0,295 0,233 0,053 0,405 0,011 32
L’Analyse en Composantes Principales
• Le graphique des individus permet de représenter les
individus sur une carte à deux dimensions, et ainsi
d'identifier des tendances.
• On voit dans notre exemple que sur la base des variables
démographiques dont on dispose, le Nevada et la Floride
sont assez particuliers, de même que l'Utah et Alaska qui
semblent partager des caractéristiques : en regardant les
données, on s'aperçoit que ces deux états ont une
population nettement plus jeune que la moyenne, et une
natalité très élevée.
33
L’Analyse en Composantes Principales
Biplot
Biplot (axes F1 et F2 : 67,72 %)
Nevada
4
Flo rida
Immigratio n
doImmigratio
mestique
F2 (16,76 %)
A rizo nan
2 nette nale
New internatio
Hampshire
Rho A méricains
de IslandOrego n Co lo rado
Califo rnia
M aine New Jerseynette Washingto n
PMomigrants
Vermo
Cop> Delaware
nt
nnecticut
65 ansavec M aryland Idaho Texas
P ennsylvania assachusetts New
M inneso
No Yo
rth rk
Carota Geo rgia
lina
l'étranger
0
Taux Wisco
de nsin
So uth Caro
District Virginia
West Virginia AMM isso
Tennessee
rkansas
o M
ntanauri
ichigan PTaux
Illino lina
o pois
<f 65
de ans
Hawaii
Io
mo wa
rtalité
So uth Dako
Ohio Indiana
Kentucky
ta New
Co lumbia M exico
A
Oklaho
labama
Nebraska ma
Kansas Wyo naissance
ming
M ississippi Utah
-2 No rth Dako ta Lo uisiana A laska
-4
-6 -4 -2 0 2 4 6 8
F1 (50,96 %)
34
L’Analyse en Composantes Principales
Biplot
Biplot (axes F1 et F3 : 62,90 %)
3
NewImmigratio
Yo rk nHawaii
District o f
internatio nale Califo rnia
F3 (11,93 %)
-3
-5 -4 -3 -2 -1 0 1 2 3 4 5 6 7
F1 (50,96 %)
35