Vous êtes sur la page 1sur 5

Analyse des Données, TD no 5 2

IUT de Caen - Département STID STID 2ème année


Responsable : Alain LUCAS 3. A l’aide du logiciel R2 , on a obtenu le tableau des profils-lignes et celui des profils-colonnes (exprimés
en %). Compléter le tableau suivant, puis commenter :
XXX
XX Age 0-19 ans 20-39 ans 40-59 ans 60-74 ans 75 ans et +
Régions XXXX
Alsace · 28.64 27.43 12.34 6.37
Analyse des Données Aquitaine 22.79 25.44 27.87 14.40 9.50
Auvergne 21.96 25.06 28.23 14.91 9.84
Basse-Normandie 25.09 25.56 27.10 13.65 ·
Bourgogne 23.38 24.91 27.72 14.44 9.54
Bretagne 24.48 25.79 26.92 14.04 8.77
Fiche de TD no 5 Centre 24.36 25.56 27.45 13.71 8.92
Champagne-Ardenne 25.33 26.99 27.32 12.61 7.76
Corse 21.96 25.55 27.87 15.56 9.05
Franche-Comté 25.30 26.74 27.16 13.04 7.76
L’INSEE a estimé pour l’année 2004 la population de la France métropolitaine par région, et ce selon 5 Haute-Normandie 26.50 27.09 27.37 11.94 7.09
classes d’âge : 0-19 ans, 20-39 ans, 40-59 ans, 60-74 ans, et 75 ans et +. Le tableau de contingence ı̂le-de-France 26.15 30.66 26.90 10.36 5.94
ci-dessous rend compte de cette estimation 1 : Languedoc-Roussillon 23.58 25.34 27.08 14.68 9.32
Limousin 20.20 24.02 27.88 16.03 11.88
Lorraine 24.96 27.21 27.52 13.05 7.25
XXX Midi-Pyrénées 22.81 25.90 27.48 14.31 9.51
XX Age 0-19 ans 20-39 ans 40-59 ans 60-74 ans 75 ans et + Total Nord - Pas-de-Calais 28.11 28.20 26.06 11.04 6.58
Régions XXXX
Pays de la Loire 25.65 26.60 26.70 12.93 8.13
Alsace 452 483 513 675 492 004 221 400 114 297 1 793 859
Picardie 27.01 27.09 27.50 11.62 6.76
Aquitaine 693 881 774 550 848 615 438 417 289 173 3 044 636
Poitou-Charentes 22.74 24.61 27.65 14.98 10.02
Auvergne 291 217 332 397 374 479 197 793 130 520 1 326 406
Provence-Alpes-Côte d’Azur 23.81 25.52 27.05 14.48 9.14
Basse-Normandie 361 705 368 522 390 687 196 774 124 145 1 441 833
Rhône-Alpes 25.91 27.62 26.79 12.44 7.24
Bourgogne 379 598 404 391 449 948 234 427 154 931 1 623 295
Profil moyen · 27.19 27.12 12.81 7.87
Bretagne 739 502 779 010 813 367 424 072 264 934 3 020 885
Centre 604 570 634 392 681 381 340 213 221 370 2 481 926 4. Compléter le tableau suivant, puis commenter :
Champagne-Ardenne 338 450 360 717 365 027 168 473 103 663 1 336 330
XX
Corse 59 968 69 774 76 100 42 496 24 722 273 060 XX Age 0-19 ans 20-39 ans 40-59 ans 60-74 ans 75 ans et + Profil moyen
RégionsXXXX
Franche-Comté 288 139 304 594 309 318 148 511 88 368 1 138 930
Haute-Normandie 477 639 488 347 493 367 215 229 127 835 1 802 417 Alsace 3.00 3.13 3.01 2.86 2.41 2.97
Aquitaine 4.60 4.72 5.19 5.67 6.09 5.05
ı̂le-de-France 2 952 022 3 461 256 3 037 702 1 169 180 670 671 11 290 831
Auvergne · 2.03 2.29 2.56 2.75 2.20
Languedoc-Roussillon 580 728 624 085 666 796 361 422 229 442 2 462 473 Basse-Normandie 2.40 2.25 2.39 2.55 2.62 2.39
Limousin 145 745 173 319 201 164 115 653 85 737 721 618 Bourgogne 2.51 2.47 2.75 3.03 3.26 2.69
Lorraine 581 806 634 190 641 311 304 179 169 018 2 330 504 Bretagne 4.90 4.75 4.97 5.49 5.58 5.01
Midi-Pyrénées 616 083 699 474 742 117 386 616 256 759 2 701 049 Centre 4.01 3.87 4.16 4.40 4.66 4.11
Nord - Pas-de-Calais 1 132 347 1 135 966 1 049 691 444 490 265 212 4 027 706 Champagne-Ardenne 2.24 2.20 2.23 2.18 2.18 2.21
Corse 0.40 0.43 0.47 0.55 · 0.45
Pays de la Loire 861 178 893 127 896 524 434 099 272 933 3 357 861
Franche-Comté 1.91 1.86 1.89 1.92 1.86 1.89
Picardie 506 420 507 919 515 569 217 905 126 788 1 874 601 Haute-Normandie 3.16 2.98 3.01 2.78 2.69 2.99
Poitou-Charentes 384 660 416 320 467 657 253 388 169 445 1 691 470 ı̂le-de-France 19.56 21.10 18.56 15.13 14.13 ·
Provence-Alpes-Côte d’Azur 111 9702 120 0315 127 2036 680 784 429 718 4 702 555 Languedoc-Roussillon 3.85 3.80 4.07 4.68 4.83 4.08
Rhône-Alpes 1 527 319 1 628 501 1 579 564 733 554 426 817 5 895 755 Limousin 0.97 1.06 1.23 1.50 1.81 1.20
Total 15 095 162 16 404 841 16 364 424 7 729 075 4 746 498 60 340 000 Lorraine 3.85 3.87 3.92 3.94 3.56 3.86
Midi-Pyrénées 4.08 4.26 4.53 5.00 5.41 4.48
Nord - Pas-de-Calais 7.50 6.92 6.41 5.75 5.59 6.68
Dans la suite, on se propose de réaliser une Analyse Factorielle des Correspondances (AFC) de ce tableau Pays de la Loire 5.70 5.44 5.48 5.62 5.75 5.56
Picardie 3.35 3.10 3.15 2.82 2.67 3.11
de contingence, dans un double but : faire apparaı̂tre sous forme graphique la structure interne du tableau, Poitou-Charentes 2.55 2.54 2.86 3.28 3.57 2.80
et dresser une typologie des régions de France métropolitaine selon les classes d’âge. Provence-Alpes-Côte d’Azur 7.42 7.32 7.77 8.81 9.05 7.79
Rhône-Alpes 10.12 9.93 9.65 9.49 8.99 9.77
Partie A
1. Indiquer dans quel espace seront représentés les profils-lignes (resp. les profils-colonnes). Préciser dans 5. Identifier explicitement le barycentre de chacun des nuages : nuage des profils-lignes et nuage des
chacun des cas la dimension du sous-espace vectoriel contenant les profils. profils-colonnes.
2. A chacun des nuages correspond un barycentre. Indiquer comment on obtient les coordonnées d’un tel 6. Préciser la métrique associée à chacun des espaces de travail.
barycentre à partir d’un tableau de contingence. 7. Préciser le nombre de valeurs propres que l’on va obtenir lors de l’AFC du tableau de contingence.
1 2
estimations révisées le 17 janvier 2006 utiliser en particulier les fonctions prop.table et margin.table

1
Analyse des Données, TD no 5 3 Analyse des Données, TD no 5 4
8. A l’aide de SAS, on a réalisé l’AFC du tableau de contingence, et on a obtenu les valeurs propres
Coordonnées Contributions
suivantes : λ1 = 0.00666, λ2 = 0.00037, λ3 = 0.00008, λ4 = 0.00004. Compléter alors le tableau Modalités 1 2 3 4 1 2 3 4
suivant : Alsace -0.0533 -0.0144 -0.0277 0.0045 0.0127 0.0166 0.2793 0.0140
Aquitaine 0.0915 -0.0158 0.0010 -0.0072 0.0634 0.0341 0.0006 0.0617
Valeurs propres % d’inertie % d’inertie cumulée Auvergne 0.1164 -0.0252 -0.0038 -0.0093 0.0447 0.0377 0.0039 0.0452
Basse-Normandie 0.0424 0.0208 0.0007 -0.0020 0.0064 0.0279 0.0001 0.0022
Bourgogne 0.0932 0.0001 0.0020 -0.0081 0.0351 0.0000 0.0013 0.0420
Bretagne 0.0540 0.0102 -0.0005 0.0071 0.0219 0.0142 0.0002 0.0591
Centre 0.0556 0.0079 0.0036 -0.0076 0.0191 0.0069 0.0065 0.0563
Champagne-Ardenne -0.0058 0.0058 -0.0011 -0.0067 0.0001 0.0020 0.0003 0.0234
Corse 0.1043 -0.0272 -0.0297 0.0116 0.0074 0.0090 0.0489 0.0143
Franche-Comté 0.0029 0.0098 -0.0075 -0.0000 0.0000 0.0049 0.0132 0.0000
Combien d’axes est-on alors amené à conserver ? Justifier votre réponse. Haute-Normandie -0.0396 0.0217 -0.0054 -0.0137 0.0070 0.0379 0.0106 0.1321
9. Préciser la formule permettant de calculer la contribution d’un profil-colonne à la formation d’un axe. ı̂le-de-France -0.1173 -0.0245 0.0048 0.0001 0.3860 · 0.0519 0.0000
Compléter alors le tableau suivant : Languedoc-Roussillon 0.0860 0.0016 -0.0009 0.0086 0.0453 0.0003 0.0004 0.0713
Limousin 0.1990 -0.0382 0.0263 -0.0032 0.0711 0.0473 0.1018 0.0029
Lorraine -0.0092 -0.0019 -0.0223 -0.0001 0.0005 0.0004 0.2358 0.0000
Coordonnées Contributions Midi-Pyrénées 0.0859 -0.0191 0.0070 0.0007 0.0495 0.0444 0.0269 0.0005
Modalités 1 2 3 4 1 2 3 4 Nord - Pas-de-Calais -0.0869 0.0382 0.0122 0.0029 0.0757 0.2637 0.1225 0.0129
Pays de la Loire 0.0076 0.0183 0.0071 0.0029 0.0005 0.0502 0.0345 0.0112
0-19 ans -0.0572 0.0300 0.0023 0.0004 0.1227 0.6101 0.0158 0.0012
Picardie -0.0552 0.0286 -0.0087 -0.0189 0.0142 0.0690 0.0292 0.2604
20-39 ans -0.0685 -0.0214 0.0035 0.0050 0.1914 · 0.0420 0.1577 Poitou-Charentes 0.1188 -0.0054 0.0039 -0.0034 0.0594 0.0022 0.0052 0.0075
40-59 ans 0.0103 -0.0079 -0.0060 -0.0093 0.0043 0.0463 0.1216 0.5566 Provence-Alpes-Côte d’Azur 0.0758 0.0030 -0.0011 0.0082 0.0672 0.0018 0.0012 0.1221
60-74 ans 0.1247 0.0043 -0.0136 0.0096 0.2990 0.0063 0.2894 0.2772 Rhône-Alpes -0.0297 0.0099 -0.0046 0.0051 · 0.0261 0.0257 0.0609
75 ans et + 0.1800 -0.0011 0.0234 -0.0020 · 0.0002 0.5311 0.0074 15. Identifier les profils-lignes qui contribuent à la formation de chacun des axes préalablement conservés,
en précisant le signe de leur coordonnée. Vérifier vos observations à l’aide du graphique 2.
10. Identifier les profils-colonnes qui contribuent à la formation de chacun des axes préalablement conservés, 16. Quelle observation peut-on faire concernant la contribution de la modalité Ile-de-France au premier
en précisant le signe de leur coordonnée. Vérifier vos observations à l’aide du graphique 2 obtenu sous axe ? Quelle conséquence cette observation a-t-elle sur la représentation graphique ? Quelle stratégie
SPAD. est-il opportun de réaliser pour contrer ce phénomène ?
11. Préciser la formule permettant de calculer la distance au carré d’un profil-colonne au barycentre du Partie B
nuage des profils correspondant. Calculer cette distance au carré pour le profil-colonne 0-19 ans.
Une nouvelle AFC a été réalisée en plaçant la modalité Ile-de-France en modalité supplémentaire. Les
12. Préciser la formule permettant de calculer la qualité de représentation d’un profil-colonne le long d’un résultats sont contenus dans l’annexe.
axe α. Compléter alors le tableau suivant :
1. Indiquer les axes que l’on va maintenant conserver pour l’analyse.

Coordonnées Qualités 2. A l’aide d’un tableau, regrouper les profils-lignes et profils-colonnes qui contribuent significativement à
la formation des axes conservés. On distinguera ces profils selon le signe de leur coordonnée. Proposer
Modalités 1 2 3 4 1 2 3 4
alors (si possible !) une interprétation contextuelle des axes factoriels.
0-19 ans -0.0572 0.0300 0.0023 0.0004 · · 0.0012 0.0000
20-39 ans -0.0685 -0.0214 0.0035 0.0050 0.9046 0.0883 0.0024 0.0047 3. En se basant uniquement sur le premier axe factoriel, interpréter la position des profils-colonnes en
40-59 ans 0.0103 -0.0079 -0.0060 -0.0093 0.3621 0.2154 0.1247 0.2978 terme de ressemblance-dissemblance. Quelle information complémentaire nous apporte cette analyse
dans le cadre de l’interprétation du premier axe factoriel ?
60-74 ans 0.1247 0.0043 -0.0136 0.0096 0.9814 0.0012 0.0116 0.0058
75 ans et + 0.1800 -0.0011 0.0234 -0.0020 0.9832 0.0000 0.0167 0.0001 4. En se basant uniquement sur le premier axe factoriel, interpréter la position des profils-ligness en terme
de ressemblance-dissemblance.
13. Identifier les profils-colonnes qui présentent au moins une bonne qualité de représentation sur chacun 5. Proposer alors une interprétation simultanée des deux nuages de modalités.
des axes préalablement conservés. En déduire les profils-colonnes qui présentent au moins une bonne
qualité de représentation sur le plan factoriel principal. Confirmer vos observations via le graphique 3
obtenu sous SPAD.
14. Préciser la formule permettant de calculer la contribution d’un profil-ligne à la formation d’un axe.
Compléter alors le tableau suivant :
Analyse des Données, TD no 5 5 Analyse des Données, TD no 5 6

Graphique 2 : plan factoriel principal, taille proportionnelle à la contribution

ANNEXE

Graphique 1 : carte des régions de France métropolitaine

Graphique 3 : plan factoriel principal, taille proportionnelle à la qualité


Analyse des Données, TD no 5 7 Analyse des Données, TD no 5 8

Graphique 4 : plan factoriel principal avec IdF en supplémentaire


Résultats AFC avec Ile-de-France en supplémentaire taille proportionnelle à la contribution

Tableau des inerties

Valeurs propres % d’inertie % d’inertie cumulée


0,00435 94,25% 94,25%
0,00017 3,73% 97,97%
0,00005 1,12% 99,09%
0,00004 0,91% 100,00%

Tableau des profils-colonnes

Contributions Qualités
Modalités 1 2 3 4 1 2 3 4 Gℓ
0-19 ans 0.2476 0.4210 0.0004 0.0834 0.9342 0.0628 0.0000 0.0030 0.2476
20-39 ans 0.1027 0.1683 0.1689 0.2962 0.8992 0.0583 0.0176 0.0249 0.2639
40-59 ans 0.0090 0.1386 0.5573 0.0235 0.4204 0.2573 0.3117 0.0106 0.2717
60-74 ans 0.2494 0.0275 0.2680 0.3214 0.9713 0.0042 0.0124 0.0120 0.1337
75 ans et + 0.3913 0.2446 0.0055 0.2756 0.9693 0.0240 0.0002 0.0066 0.0831

Graphique 5 : plan factoriel principal avec IdF en supplémentaire


Tableau des profils-lignes taille proportionnelle à la qualité

Contributions Qualités
Modalités 1 2 3 4 1 2 3 4 Gc
Alsace 0.0465 0.3799 0.0165 0.0009 0.7534 0.2433 0.0032 0.0001 0.0366
Aquitaine 0.0634 0.0195 0.0582 0.0376 0.9720 0.0118 0.0106 0.0055 0.0621
Auvergne 0.0531 0.0318 0.0435 0.0062 0.9666 0.0229 0.0094 0.0011 0.0270
Basse-Normandie 0.0010 0.0404 0.0031 0.0602 0.3057 0.5010 0.0117 0.1816 0.0294
Bourgogne 0.0325 0.0077 0.0437 0.0089 0.9727 0.0091 0.0156 0.0026 0.0331
Bretagne 0.0089 0.0220 0.0551 0.0521 0.8154 0.0791 0.0598 0.0457 0.0616
Centre 0.0088 0.0205 0.0578 0.0023 0.8522 0.0788 0.0669 0.0021 0.0506
Champagne-Ardenne 0.0063 0.0031 0.0220 0.0132 0.9247 0.0182 0.0385 0.0186 0.0272
Corse 0.0083 0.0330 0.0136 0.0303 0.8251 0.1298 0.0161 0.0289 0.0056
Franche-Comté 0.0031 0.0018 0.0000 0.0098 0.9501 0.0213 0.0000 0.0286 0.0232
Haute-Normandie 0.0384 0.0003 0.1336 0.0090 0.9579 0.0003 0.0397 0.0021 0.0367
Ile-de-France 0.8394 0.0792 0.0002 0.0812
Languedoc-Roussillon 0.0385 0.0075 0.0675 0.0409 0.9626 0.0075 0.0201 0.0098 0.0502
Limousin 0.1041 0.0012 0.0018 0.1893 0.9822 0.0004 0.0002 0.0172 0.0147
Lorraine 0.0126 0.1466 0.0000 0.0686 0.6607 0.3046 0.0000 0.0346 0.0475
Midi-Pyrénées 0.0485 0.0174 0.0014 0.2030 0.9481 0.0135 0.0003 0.0381 0.0551
Nord - Pas-de-Calais 0.2552 0.1581 0.0149 0.1207 0.9711 0.0238 0.0007 0.0044 0.0821
Pays de la Loire 0.0070 0.0593 0.0113 0.0069 0.7335 0.2455 0.0141 0.0069 0.0685
Picardie 0.0618 0.0018 0.2669 0.0533 0.9426 0.0011 0.0485 0.0078 0.0382
Poitou-Charentes 0.0658 0.0085 0.0082 0.0044 0.9928 0.0051 0.0015 0.0006 0.0345
Provence-Alpes-Côte d’Azur 0.0501 0.0120 0.1160 0.0649 0.9529 0.0090 0.0263 0.0119 0.0959
Rhône-Alpes 0.0861 0.0278 0.0650 0.0175 0.9768 0.0125 0.0088 0.0019 0.1202
Analyse des Données, TD no 5 9 Analyse des Données, TD no 5 10

Graphique 6 : plan factoriel principal avec IdF en supplémentaire


Procédure simplifiée pour réaliser une AFC sous SAS

Etape 1 : disposer le fichier (ici regions.txt) sous la forme suivante

1 a11 a12 · · · a1p 1


2 a21 a22 · · · a2p 1
3 a31 a32 · · · a3p 1
.. .. .. .. .. ..
. . . . . .
n an1 an2 · · · anp 1
où aij représente l’effectif ou la fréquence de la case (i, j) du tableau de contingence. La première colonne
permet d’identifier les profils-lignes. Cette identification est “portée” soit par des chiffres (comme ici), soit
directement par le nom des modalités. Quant à la dernière colonne, elle “porte” le code ±1 selon que la
modalité correspondante est active (+1) ou supplémentaire (-1).

Etape 2 : lecture des données sous SAS


data regions ;
infile ‘C :/regions.txt’ ;
title ’AFC regions France metropolitaine’ ;
input ident V1 V2 V3 V4 V5 code ;
;

Etape 3 : réalisation de l’AFC via la PROC CORRESP


proc corresp data=regions dimens=4 ;
var V1 V2 V3 V4 V5 ;
id ident ;
weight code ;
run ;

Note : pour placer la modalité Ile-de-France en supplémentaire, il suffit d’attribuer la valeur -1 au croi-
sement de la ligne correspondante et de la colonne code.

Vous aimerez peut-être aussi