Académique Documents
Professionnel Documents
Culture Documents
1
Sommaire
Introduction.................................................................................................................................2
2. La classification hiérarchique..........................................................................................6
2.1. La procédure RECIP/SEMIS ......................................................................................7
2.2. La procédure PARTI/DECLA ....................................................................................8
2.2.1. Recherche de la meilleure partition.....................................................................8
2.2.2. Réalisation de la coupure en 4 classes.................................................................9
2.2.3. Interprétations....................................................................................................11
Introduction
2
Le tableau de données décrit le nombre d’étudiants inscrits dans l’enseignement
supérieur selon les académies de la France métropolitaine et les différents types
d’établissements au cours de l’année 2007-2008 (cf. Annexe 1).
Ainsi, au cours de cette période, 2 229 075 étudiants sont répartis dans 26
académies et dans 8 établissements d’enseignement supérieur.
Afin d'étudier les différentes relations entre les deux ensembles de données, les
académies d’une part et les établissements d’enseignement supérieur d’autre part,
nous réalisons successivement trois types d’analyse de données : l’analyse
factorielle des correspondances, la classification hiérarchique et l’analyse en
composantes principales.
Valeur Pourcentage
Numéro Pourcentage
propre cumulé
1 0,0318 53,23 53,23
2 0,0110 18,40 71,64
3 0,0091 15,24 86,88
4 0,0050 8,42 95,29
5 0,0014 2,39 97,68
6 0,0009 1,46 99,14
7 0,0005 0,86 100,00
3
Pour une meilleure interprétation de l’analyse factorielle des correspondances, il est
nécessaire de connaître les effectifs théoriques afin de mieux décrire les liens entre
les 2 variables qualitatives (cf. Annexe 1). Il est utile aussi de se référer aux
contributions et cosinus carrés des individus et des variables (cf. Annexe 2).
4
étudiants de cette académie sont d’une part, surreprésentés dans les IUT et les STS
et d’autre part, sous-représentés dans les établissements « autres ».
De même , les établissements CPCGE et IUFM contribuent très peu à la variance
de l’axe, mais sont bien représentés sur ce 1er axe (respectivement 0.62 et 0.56 aux
cosinus carrés). Ainsi, les étudiants de l’académie de Paris sont très présents dans
les CPCGE, mais sont sous-représentés dans les IUFM.
5
L’axe 3 est constitué principalement des écoles de commerce concernant les
établissements d’enseignement et de Reims, Versailles et Créteil concernant les
académies.
Cela se traduit par une surreprésentation (respectivement sous-représentation) des
académies de Reims et Versailles (respectivement Créteil) dans les écoles de
commerce.
Bien que la contribution à la variance de l’axe 3 soit faible pour la modalité « écoles
d’ingénieurs », cette dernière est bien représentée sur cet axe (la valeur du cosinus
carré vaut 0.53). Ainsi, l’académie de Versailles est surreprésentée dans ce type
d’établissement d’enseignement (l’effectif observé vaut 11 321 alors que l’effectif
théorique vaut 8 139). Inversement, l’académie de Créteil est sous-représentée dans
les écoles d’ingénieurs (l’effectif observé vaut 5 024 alors que l’effectif théorique vaut
6 029).
De même, l’académie de Rouen est bien représentée sur cet axe (la valeur du
cosinus carré vaut 0.62). Sa position traduit une surreprésentation dans les écoles
d’ingénieurs et dans les écoles de commerce.
2. La classification hiérarchique
Cette méthode permet aussi de présenter les proximités entre les individus (c’est-à-
dire les académies) en procédant de cette manière :
- regroupement en classes de 2 individus les plus proches
- regroupement par 2 des classes les plus proches
- réitération de l’étape précédente jusqu’à obtenir une unique classe
Remarque : la distance euclidienne usuelle sera utilisée pour calculer les
ressemblances entre les individus. Le critère de Ward sera utilisé pour calculer
l’écart entre deux sous-ensembles disjoints.
6
2.1. La procédure RECIP/SEMIS
Les regroupements successifs sont décrits dans le tableau suivant :
Nb
d'éléments Poids du Indice de
Numéro Ainé Benjamin
terminaux noeud niveau
du noeud
27 5 18 2 95412,00 0,00008
28 14 1 2 192134,00 0,00011
29 8 7 2 129189,00 0,00012
30 22 6 2 151483,00 0,00012
31 9 20 2 87094,00 0,00013
32 12 27 3 117475,00 0,00014
33 15 3 2 113990,00 0,00016
34 4 28 3 297688,00 0,00020
35 29 24 3 196675,00 0,00022
36 13 25 2 266051,00 0,00029
37 11 30 3 307434,00 0,00038
38 23 31 3 136278,00 0,00052
39 33 37 5 421424,00 0,00073
40 38 17 4 188784,00 0,00074
41 2 16 2 151468,00 0,00082
42 35 32 6 314150,00 0,00101
43 10 40 5 272833,00 0,00123
44 26 21 2 207548,00 0,00157
45 41 39 7 572892,00 0,00174
46 44 36 4 473599,00 0,00232
47 43 34 8 570521,00 0,00255
48 42 47 14 884671,00 0,00323
1046490,0
49 46 45 11 0,00503
0
1931160,0
50 49 48 25 0,00813
0
2229080,0
51 19 50 26 0,02826
0
Somme des
indices de 0,05982
niveau
Lecture :
- le nœud 27 résulte du regroupement du nœud 5 (Caen) et du nœud 18
(Orléans-Tours). Il est donc constitué de 2 éléments.
- le nœud 32 résulte du regroupement du nœud 12 (Limoges) et du nœud
27(cf. ci- dessus). Il est donc constitué de 1 + 2 éléments soit 3 éléments.
7
2.2. La procédure PARTI/DECLA
La procédure PARTI/DECLA construit des partitions par coupure de l’arbre
d'agrégation obtenu précédemment avec la procédure RECIP/SEMIS.
2.2.1. Recherche de la meilleure partition
8
Étudions d’abord l’histogramme des indices de niveau :
D’après ce graphique, nous remarquons des sauts pour une coupure en 4 classes
(les 3 dernières barres) et pour une coupure en 3 classes (les 2 dernières barres).
Cependant, il est difficile de choisir clairement le nombre de classes.
C'est pourquoi nous nous référons à SPAD qui peut déterminer les 3 meilleures
répartitions qui sont les suivantes :
- 4 classes
- 5 classes
- 7 classes
Nous choisissons donc une coupure en 4 classes.
9
Coupure en 4 classes
Il en résulte :
Classe 1 (Effectif : 13)
Classe 2 (Effectif : 7)
Classe 3 (Effectif : 5)
10
Classe 4 (Effectif : 1)
RK (Rang) : rang de l’individu. Plus le rang de l’individu est grand, plus celui-ci se
trouve éloigné du centre de gravité de sa classe.
Distance : carré de la distance entre l’individu et le centre de gravité de sa classe.
2.2.3. Interprétations
Pour interpréter les différentes classes, nous nous intéressons uniquement aux
informations suivantes qui sont présentes dans les tableaux de résultats :
- GLOBAL : pourcentage de la fréquence dans l’échantillon.
Ici, il correspond à la somme d’étudiants inscrits dans un établissement dans toutes
les académies divisées par le nombre total d’étudiants.
11
Par exemple, le 54.99% pour les universités du tableau ci-dessous, s’obtient en
faisant la somme de tous les effectifs des étudiants en universités des 26 académies
(1 225 717) divisés par le nombre total d’étudiants en France (2 229 075).
Logiquement, les pourcentages obtenus sont les mêmes quelle que soit la classe.
- FRE/CLA : pourcentage de la fréquence dans la classe.
Il s’agit du même type de calcul que précédemment sauf qu’ici, plutôt que de prendre
l’ensemble des étudiants français, nous prenons uniquement ceux appartenant à la
classe étudiée.
Ainsi, par exemple, le 6.22% pour les IUT du tableau ci-dessous, s’obtient en
sommant tous les effectifs des étudiants en IUT des 13 académies qui forment la
classe 1 divisé par le nombre total d’étudiants dans cette classe.
Ainsi, les pourcentages obtenus dépendent directement de chaque classe.
Classe 1 :
Classe 2 :
12
Dans les 7 académies présentes dans cette classe, près d’un étudiant sur deux
étudie à l’université. Par ailleurs, 14.75% étudient dans d’autres établissements et
12.45% dans les STS.
Globalement, par rapport à tous les étudiants français, les étudiants des académies
de la classe 2 sont plus présents dans les établissements suivants : STS, Écoles
d’ingénieurs, IUT, Autres et IUFM.
À l’inverse, ils sont moins nombreux en CPCGE, universités et en écoles de
commerce. Par exemple, seulement 2.60% des étudiants des académies de la
classe 2 sont inscrits en école de commerce alors que le pourcentage vaut 4.29%
pour l’ensemble des académies.
Classe 3 :
Dans cette classe, nous trouvons des pourcentages plus élevés, comparés à la
tendance générale, concernant le nombre d’étudiants en écoles d’ingénieurs, de
commerce, en IUFM et CPCGE.
En revanche, les pourcentages d’étudiants en IUT, universités, STS et autres
établissements dans ces académies sont moins importants que ceux de l’échantillon
global.
Classe 4
Cette classe, qui se résume à un seul individu (l’académie de Paris), possède une
similarité avec les autres classes dans la mesure où plus d’un étudiant sur deux de
13
cette académie est inscrit en université. En revanche, la particularité de cette classe
est que plus de 25% des étudiants sont dans d’autres établissements (contre 14.13%
pour l’échantillon global). Cette académie contient aussi des pourcentages
d’étudiants en écoles de commerce et CPCGE plus élevés par rapport à ceux qui
prennent en compte toutes les Académies françaises.
Inversement, l’académie de Paris a des proportions d’étudiants en universités,
écoles d’ingénieurs, IUFM, STS et IUT inférieurs à celles observées dans toutes les
académies. Par exemple, 0.72% des étudiants parisiens sont inscrits à l’IUT alors
que sur l’ensemble des académies métropolitaines, le pourcentage vaut 5.18 %.
14
3 0,2589 3,24 95,01
4 0,1783 2,23 97,24
5 0,1027 1,28 98,52
6 0,0717 0,90 99,42
7 0,0353 0,44 99,86
8 0,0115 0,14 100,00
Pour résumer le tableau de départ, nous n’utilisons pas les résultats de ces 8 étapes,
mais uniquement les premières qui correspondent à des variances expliquées
importantes. Nous remarquons d'une part que la variance expliquée par l’axe 4 est
faible : 2.23 %. D’autre part, les 3 premières étapes fournissent l’essentiel de
l’information soit 95.01 % de la variance totale. Ainsi, nous retenons uniquement les
3 premières étapes.
Nous voyons que toutes les variables sont liées fortement et positivement à l’axe 1
(leur coordonnée respective sur cet axe est supérieure à 0.85 sauf pour la variable
IUT où sa coordonnée vaut 0.57).
Concernant l’axe 2, seule la variable « IUT » est liée fortement à cet axe (0.72)
Graphiquement, le regroupement de toutes les variables à droite du cercle de
corrélation signifie que toutes les variables sont corrélées positivement entre elles.
Cela se confirme dans les matrices des corrélations puisque les coefficients de
corrélations sont tous strictement positifs. De plus, la majorité des variables sont
15
fortement corrélées entre elles puisque la plupart des coefficients de corrélation sont
proches de 1 :
Exemple : R(Universités, CPCGE) = 0.94 ; R(STS, IUFM)=0.87
Toutefois, quelques variables sont significativement non corrélées les unes par
rapport aux autres. Par exemple, « autres » et IUT sont quasiment orthogonaux. Là
aussi, ceci se confirme dans la matrice de corrélation puisque :
R (Autres, IUT) = 0.16 ; ou encore R(Écoles de commerce, IUT) = 0.15
3.4.2. Représentation des individus
16
Interprétation de l’axe 1 :
Interprétation de l’axe 2 :
L’intérêt de cet axe est plutôt marginal puisque les interprétations que nous allons
obtenir vont répéter les explications pour l’axe 1.
En effet, puisque seule la variable IUT est intéressante ici, en observant le graphique
ci-dessus, il est facile de voir que les 2 groupes signalés en vert et en bleu
rassemblent des académies ayant un nombre important d’étudiants en IUT. À
17
l’inverse, le groupe en rose contient des académies possédant peu d’étudiants en
IUT.
18
3 groupes sont visibles :
- le groupe atypique formé uniquement par l’académie de Versailles (représenté en
bleu sur le graphique) se caractérise par un nombre très élevé d’étudiants en école
d’ingénieurs. En effet, il y en a 11 321 étudiants ce qui constitue l’effectif le plus
élevé parmi toutes les Académies françaises.
- le groupe délimité en vert comprenant les académies suivantes : Toulouse, Lyon,
Nantes, Amiens et Nancy-Metz. Suite à l’analyse du premier facteur, nous savons
que pour ces 3 premières académies, les effectifs en écoles de commerces sont
élevés. Mais grâce à l’examen de ce 3e facteur, nous pouvons y ajouter les
académies d’Amiens et de Nancy-Metz.
Exemple : l’académie de Nancy-Metz contient 5 814 étudiants en école
d’ingénieurs.
- le 3e groupe (en rouge) composé de 3 académies (Grenoble, Aix-Marseille et
Montpellier) est caractérisé par un faible nombre d’étudiants dans ce type
d’établissement.
Exemple : l’académie de Grenoble recense 1 519 étudiants en école
d’ingénieurs.
19
3.6.1. Distance à l’origine
Cette colonne est un critère « d’originalité ». En effet, cela permet de trouver
facilement quelles sont les académies les plus « moyennes » (c’est-à-dire les plus
proches du centre de gravité) et celles qui sont les plus « originales » (c’est-à-dire les
plus éloignées du centre de gravité). Ainsi, nous retrouvons le fait que Paris soit
clairement une académie atypique. Dans une moindre mesure, il y a les académies
de Versailles, Lille, Corse et Lyon.
3.6.2. Contributions des individus
Elles permettent de détecter les académies qui contribuent le plus à la formation des
axes.
Ainsi, les académies qui contribuent essentiellement à la formation du premier axe
sont : Paris (33.6 %), Versailles (13.1%), Corse (9%) et Lille (8.5%). Cela se retrouve
bien sur le graphique de représentation des individus du facteur 1 (cf. 3.4.2) puisque
ces 4 académies sont placées aux extrémités de l’axe 1 (à gauche comme à droite).
De la même manière, les académies jouant un rôle important dans la formation du
2nd axe sont : Paris (54.6%), Lille (10.2%) et Créteil (10%).
Enfin, les académies de Versailles (21.3%), Grenoble (20.6%) et Lyon (15.6%) sont
les principaux acteurs de la formation du 3e axe.
20
Conclusion
Au terme de cette étude, nous avons effectué trois types d’analyse de données :
l’analyse factorielle des correspondances, la classification hiérarchique et une
analyse en composantes principales.
Ces trois méthodes ont permis d’obtenir plusieurs informations sur les effectifs
d’étudiants dans l’enseignement supérieur au cours de l’année 2007-2008.
Ces trois analyses présentent des résultats plus ou moins similaires. Cependant,
nous avons pu voir que, dans le cadre de cette étude, l’analyse en composantes
principales fournit moins d’informations précises comparées aux deux autres
méthodes.
Globalement, nous avons pu voir que les académies métropolitaines présentent des
effectifs variés selon les types d’établissements. De plus, nous avons identifié
plusieurs similitudes, mais aussi des disparités entrent certaines académies.
21
Annexe 1 : Tableau de données
22
Source : http://media.education.gouv.fr/file/2008/76/0/chap6-2_33760.pdf (p.2)
Écoles Écoles de
Académies Universités IUT IUFM STS CPCGE Autres
d'ingénieurs commerce
Aix-Marseille 63 634 56 119 4 210 5 286 3 168 3 091 10 336 10 257 3 219 3 519 2 781 4 977 4 548 4 383 10 161 14 425
Amiens 17 571 23 574 2 763 2 220 2 000 1 298 5 777 4 309 1 076 1 478 4 123 2 091 1 157 1 841 8 404 6 059
Besançon 16 623 18 830 2 514 1 774 1 360 1 037 4 626 3 442 904 1 181 2 686 1 670 382 1 471 5 149 4 840
Bordeaux 64 439 58 042 5 161 5 467 3 176 3 197 10 603 10 608 2 805 3 640 3 685 5 148 5 543 4 534 10 142 14 919
Caen 21 344 20 529 2 888 1 934 1 406 1 131 4 786 3 752 1 184 1 287 1 220 1 821 524 1 603 3 981 5 277
Clermont-
24 380 2 714 1 312 4 810 1 348 2 176 1 206 5 313
Ferrand 23 787 2 241 1 310 4 348 1 492 2 110 1 858 6 114
Corse 3 689 3 063 369 289 258 169 500 560 102 192 0 272 66 239 587 787
Créteil 74 461 67 975 8 349 6 403 4 312 3 744 11 941 12 424 3 146 4 262 5 024 6 029 1 318 5 309 15 067 17 472
Dijon 22 687 22 929 2 776 2 160 1 523 1 263 5 252 4 191 1 514 1 438 1 750 2 034 1 777 1 791 4 420 5 894
Grenoble 44 079 46 217 7 417 4 353 2 220 2 546 10 082 8 447 2 600 2 898 1 519 4 099 3 622 3 610 12 510 11 880
Lille 84 504 85 754 7 956 8 077 6 047 4 723 18 304 15 673 5 355 5 377 8 040 7 606 4 654 6 698 21 091 22 042
Limoges 12 187 12 132 1 797 1 143 727 668 3 208 2 217 510 761 1 055 1 076 126 948 2 453 3 118
Lyon 85 122 83 878 6 660 7 901 3 982 4 620 11 976 15 330 5 326 5 260 10 957 7 439 7 552 6 551 20 964 21 560
Montpellier 57 324 49 531 3 859 4 665 2 758 2 728 10 033 9 053 2 182 3 106 2 464 4 393 3 237 3 869 8 220 12 732
Nancy-Metz 41 766 43 850 5 441 4 130 2 651 2 415 8 426 8 015 2 326 2 750 5 814 3 889 1 318 3 425 12 004 11 271
Nantes 51 505 59 715 5 745 5 625 2 840 3 289 15 133 10 914 3 851 3 744 7 197 5 296 4 674 4 664 17 652 15 349
Nice 29 455 28 872 3 827 2 720 1 918 1 590 4 919 5 277 2 237 1 810 1 352 2 561 4 279 2 255 4 519 7 421
Orléans-Tours 31 278 31 936 4 579 3 008 2 438 1 759 7 672 5 837 2 298 2 003 2 250 2 833 1 434 2 494 6 130 8 209
Paris 156 743 163 815 2 141 15 430 4 380 9 023 16 172 29 941 14 325 10 272 8 804 14 529 20 113 12 795 75 235 42 107
Poitiers 26 668 24 962 3 174 2 351 1 654 1 375 5 316 4 562 1 221 1 565 1 501 2 214 2 143 1 950 3 718 6 416
Reims 17 582 22 356 3 005 2 106 1 512 1 231 5 401 4 086 1 217 1 402 2 199 1 983 4 400 1 746 5 341 5 746
Rennes 58 795 59 510 6 812 5 605 2 588 3 278 13 216 10 877 3 606 3 732 6 522 5 278 2 055 4 648 14 630 15 296
Rouen 24 574 27 045 3 904 2 547 1 874 1 490 5 590 4 943 1 421 1 696 3 204 2 399 3 030 2 112 5 587 6 952
Strasbourg 43 177 37 109 3 968 3 495 2 151 2 044 6 040 6 782 2 301 2 327 2 795 3 291 475 2 899 6 579 9 538
Toulouse 62 392 62 418 6 333 5 879 2 813 3 438 10 360 11 408 3 428 3 914 8 274 5 536 4 022 4 875 15 890 16 044
Versailles 89 738 91 770 7 091 8 644 6 443 5 055 13 546 16 773 7 358 5 755 11 321 8 139 12 083 7 168 19 311 23 588
23
Remarque : les nombres en rouge sont les effectifs théoriques que nous avons calculés.
24
Annexe 2
Contributions des
fréquences actives
Distance
Poids
Libellé de la variable à Axe 1 Axe 2 Axe 3 Axe 4
relatif
l'origine
Universités 54,99 0,00785 1,30 24,76 7,96 8,58
IUT 5,18 0,17386 21,88 3,14 1,64 16,05
IUFM 3,03 0,07274 3,87 0,11 2,65 0,04
STS 10,05 0,06292 12,10 6,48 0,61 19,84
CPCGE 3,45 0,04695 3,18 0,05 0,49 0,02
Écoles d'ingénieurs 4,88 0,15534 0,90 38,29 8,65 44,96
École de commerce 4,29 0,27322 14,43 7,53 67,60 2,31
Autres 14,13 0,12060 42,34 19,64 10,41 8,19
25
Montpellier 4,04 0,04769 1,46 9,96 1,21 0,12
Nancy-Metz 3,58 0,03663 0,85 7,23 1,38 1,09
Nantes 4,87 0,03549 0,00 10,74 0,89 2,41
Nice 2,36 0,07955 0,20 6,70 8,80 2,84
Orléans 2,61 0,04844 2,89 0,02 0,06 3,70
Paris 13,36 0,18319 74,91 0,30 5,36 2,03
Poitiers 2,04 0,04505 1,72 2,46 0,56 0,85
Reims 1,82 0,14758 0,04 0,27 23,73 8,65
Rennes 4,86 0,02485 1,50 3,27 2,37 0,01
Rouen 2,21 0,04297 0,67 0,64 6,41 0,38
Strasbourg 3,03 0,06168 2,34 2,13 7,10 3,49
Toulouse 5,09 0,01595 0,08 2,35 0,01 7,25
Versailles 7,49 0,04292 0,44 0,61 23,80 13,77
26
Cosinus carrés des individus actifs
Poids Distance à
Identificateur Axe 1 Axe 2 Axe 3 Axe 4
relatif l'origine
Aix-Marseille 4,58 0,03419 0,09 0,83 0,01 0,00
Amiens 1,92 0,13498 0,00 0,93 0,01 0,00
Besançon 1,54 0,07547 0,28 0,68 0,02 0,00
Bordeaux 4,74 0,02922 0,15 0,74 0,03 0,01
Caen 1,67 0,05643 0,73 0,01 0,14 0,10
Clermont 1,94 0,01187 0,84 0,01 0,13 0,00
Corse 0,25 0,12463 0,22 0,34 0,28 0,03
Créteil 5,55 0,04131 0,47 0,02 0,43 0,00
Dijon 1,87 0,02189 0,67 0,03 0,09 0,15
Grenoble 3,77 0,05118 0,08 0,01 0,01 0,79
Lille 7,00 0,00976 0,38 0,15 0,08 0,00
Limoges 0,99 0,07977 0,75 0,06 0,12 0,06
Lyon 6,84 0,01881 0,09 0,02 0,10 0,72
Montpellier 4,04 0,04769 0,24 0,57 0,06 0,00
Nancy-Metz 3,58 0,03663 0,21 0,61 0,10 0,04
Nantes 4,87 0,03549 0,00 0,68 0,05 0,07
Nice 2,36 0,07955 0,03 0,39 0,43 0,08
Orléans 2,61 0,04844 0,73 0,00 0,00 0,15
Paris 13,36 0,18319 0,97 0,00 0,02 0,00
Poitiers 2,04 0,04505 0,60 0,30 0,06 0,05
Reims 1,82 0,14758 0,00 0,01 0,80 0,16
Rennes 4,86 0,02485 0,39 0,30 0,18 0,00
Rouen 2,21 0,04297 0,23 0,07 0,62 0,02
Strasbourg 3,03 0,06168 0,40 0,13 0,35 0,09
Toulouse 5,09 0,01595 0,03 0,32 0,00 0,45
Versailles 7,49 0,04292 0,04 0,02 0,68 0,22
Bibliographie indicative
L'Analyse des données: Mode d'emploi, méthodes et études de cas
Thierry Foucart (1997)