Académique Documents
Professionnel Documents
Culture Documents
-------------
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
-------------
Université d’Abomey-Calavi
-------------
_________________________________________________
_________________________________________________
Réalisé par :
Supervisé par :
ii
Table des figures
iii
Table des matières
Introduction 1
I ACM ET CLASSIFICATION 2
iv
TABLE DES MATIÈRES
2 Classification 17
2.1 Présentation des méthodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.1 Objectif de la classification . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.2 Présentation des méthodes . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.3 La CAH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Principe de la méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Choix de l’indice d’agrégation . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.4 La classification mixte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.1 Classification ascendante hiérarchique . . . . . . . . . . . . . . . . . . . . 19
Choix du nombre de classes . . . . . . . . . . . . . . . . . . . . . . . . . 19
Dendrogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Illustration des classes de la CAH . . . . . . . . . . . . . . . . . . . . . . 20
2.2.2 Classification mixte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Illustration des classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3 Description des classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3.1 Description des classes par les axes . . . . . . . . . . . . . . . . . . . . . 24
2.3.2 Description des classes par les variables . . . . . . . . . . . . . . . . . . . 24
2.3.3 Homogénéité des classes . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4 Conclusion partielle de la première partie . . . . . . . . . . . . . . . . . . . . . . 26
3 Analyse discriminante 28
3.1 Présentation de la méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2.1 Présentation de la base utilisée . . . . . . . . . . . . . . . . . . . . . . . 28
3.2.2 Vérification de l’existence de différences entre les trois groupes . . . . . . 29
3.2.3 Choix de la meilleure fonction discriminante . . . . . . . . . . . . . . . . 29
3.2.4 Estimation des coefficients du modèle . . . . . . . . . . . . . . . . . . . . 30
Conclusion 34
Annexe b
.1 Recodage des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . b
.2 Nuage des modalités ACM 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . c
.3 Contribution des pays, ACM 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . d
.4 Représentativité des pays, ACM 1 . . . . . . . . . . . . . . . . . . . . . . . . . . e
.5 Nuage des modalités ACM 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . f
.6 Contribution des pays, ACM 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . g
.7 Représentativité des pays, ACM 2 . . . . . . . . . . . . . . . . . . . . . . . . . . h
.8 Pays représentatifs sur l’axe 1 et 2 . . . . . . . . . . . . . . . . . . . . . . . . . . i
.9 Construction de l’indicateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . l
.10 Dendrogramme de la CAH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . n
.11 Illustration des classes de la CAH . . . . . . . . . . . . . . . . . . . . . . . . . . o
.12 Illustration des classes de la classification mixte . . . . . . . . . . . . . . . . . . p
.13 Description des classes par les variables . . . . . . . . . . . . . . . . . . . . . . . q
Les méthodes d’analyse multidimensionnelle des données sont des méthodes statistiques
destinées à la description de vastes ensembles de données, de sorte à en ressortir l’essentiel de
l’information. On distingue entre autres l’analyse en composantes principales (ACP) qui se prête
aux données quantitatives, l’analyse factorielle des correspondances simples (AFC) qui permet
de mettre en évidence les correspondances entre les modalités de deux caractères qualitatifs,
l’analyse factorielle des correspondances multiples (ACM) qui est une extension de l’AFC à
plus de deux caractères qualitatifs, la classification ascendante hiérarchique (CAH) qui permet
de partitionner une population en sous-groupes homogènes et l’analyse discriminante qui sert
à prédire la valeur prise par une variable catégorielle à partir de plusieurs facteurs quantitatifs.
Le présent travail s’inscrit dans le cadre du cours d’analyse de données 2 et est la suite
logique de celui effectué en analyse de données 1 : cette fois-ci, il sera utilisé la même base
que celle utilisée pour faire le premier travail mais en ayant transformé par le biais des quar-
tiles, toutes les variables quantitatives en qualitatives. Ce qui revient donc à travailler sur une
base de 141 individus statistiques (qui sont ici les pays) décrits sur dix-neuf (19) variables
toutes qualitatives. Vu le nombre élevé de variables qualitatives, les outils de la statistique
descriptive ne sont pas appropriés pour l’analyse. Nous allons donc faire recours à l’analyse
des correspondances multiples, à la Classification et à l’analyse discriminante afin d’achever le
travail commencé au compte du cours d’analyse des données 1. Ces différents outils permettront
entre autre d’aboutir à la classification des différents pays de l’étude en des groupes homogènes
en utilisant un indicateur construit à cet effet et à donner une description des différentes classes.
Ainsi, le travail est structuré en deux grandes parties. Dans la première grande partie,il sera
question de l’analyse des correspondances multiples et de la classification. La seconde grande
partie sera consacrée à l’analyse discriminante.
1
Première partie
ACM ET CLASSIFICATION
2
Chapitre Premier
3
1.1. PRÉSENTATION DE LA MÉTHODE EN LIEN AVEC LES DONNÉES
I g = λ1 + λ2 + · · · + λr
avec r = min(n − 1, m − p) est le nombre de valeurs propres non nulles, n étant le nombre
d’individus. Le pourcentage d’inertie expliquée par un axe α est donc donnée par la formule :
λα
× 100
λ1 + λ2 + · · · + λr
Il est important de noter ici que les pourcentages d’inertie expliqués par les axes sont générale-
ment faibles. On ne peut donc pas les interpréter comme en AFC ou en ACP. De plus, il n’est
pratique de retenir un nombre d’axes à partir de ces pourcentages (voir sous-section 1.2.2) .
1.1.3.3. Contributions
La contribution (CTR) d’un élément e à la formation d’un axe factoriel qui mesure
pour cet élément (variable, modalité ou individu), la part d’information qu’elle apporte pour
la formation de l’axe. Ce sont les points dont la contribution est supérieure à la moyenne qui
permettent de donner un sens à l’axe. L’interprétation des axes factoriels se fera donc à l’aide
des individus et des modalités contribuant le plus à la formation de l’axe avec la règle suivante :
si une modalité a une forte contribution positive à la formation de l’axe, les individus ayant une
forte contribution positive à la formation dudit axe présentent cette modalité.Par ailleurs, il faut
s’assurer que les points contribuant le plus à l’axe sont bien représentés sur l’axe. Autrement,
on les met en éléments supplémentaires.
En pratique, :
— les individus les plus excentrés sur les plans factoriels sont ceux qui contribuent le plus
à leur formation ;
— les modalités les plus excentrées, par contre, ne sont pas nécessairement celles qui contri-
buent le plus à la formation. En effet, leur contribution dépend de leur fréquence.
p 2 1
( ) (µ − )2
p−1 p
De ce tableau, seuls les taux d’inertie corrigés des deux premiers axes factoriels sont su-
périeurs à 10018
, soit environ 5, 5556. Donc seuls ces deux axes seront retenus pour l’analyse.
L’inertie expliquée par ces axes représente 29, 17% de l’inertie totale du nuage.
L’interprétation des résultats de cette première ACM reposera alors essentiellement sur
l’interprétation du nuage des variables et celui des individus projetés dans le premier plan
factoriel, l’objectif étant d’identifier les variables et les individus bien représentés sur l’un au
moins des axes constitutifs du plan.
Ces tableaux nous montrent que le premier plan factoriel ressort quelques oppositions que
nous mettrons en exergue dans la section suivante. Le nuage des modalités en annexe .2 montre
déjà les différents regroupements de modalités qu’on peut avoir avec cet ACM.
et positivement). Cet axe porte donc l’effet forme et réflète donc la grande partie des disparités
entre les pays étudiés.
Du même tableau, il ressort que l’axe 1 oppose les pays présentant les modalités (positive-
ment corrélées) PIB par tête très élevé, Valeur ajoutée agricole faible, valeur ajoutée agricole
par travailleur très élevée, amélioration des sources d’eau très élevée, le nombre d’abonnés té-
léphoniques très élevé, la population âgées de plus de 65 ans très élevé, faible taux de mortalité
infantile, faible population de 0 à 14 ans, etc. à des pays présentant les modalités (négativement
corrélées) faible PIB par tête , faible valeur ajoutée agricole par tête, valeur ajoutée ajoutée très
élevée, faible amélioration des sources d’eau, faible nombre d’abonnés téléphoniques, un taux
de mortalité infantile très élevé, faible population âgé de plus de 65 ans, population très élevés
entre 0 et 14 ans, etc..
La première catégorie de modalités (corrélées positivement) est un ensemble d’indicateurs
de richesse et de développement économique, technologique, démographique et
social, et caractérise les pays dits "développés" ou "riches". Par contre, la seconde catégorie
est un ensemble d’indicateurs de précarité et de pauvreté sur les plans économique,
social, technologique ou social, et caractérise les pays dits "en voie de développement" ou
"pauvres" On peut donc conclure que cet axe oppose des pays "riches" au pays "pauvres"
ou les pays "développés aux pays "en voie de développement" Ce résultat est corroboré
par le constat fait dans la sous section 1.2.4.
En effet, l’axe 1 oppose les pays comme le Madagascar, le Bénin, le Congo, etc. à ceux
comme les Etats-Unis, le Japon, le Canada, la Belgique, etc. Par conséquent, l’axe 1 peut être
considéré comme un indicateur de sous développement économique, technologique,
démographique et social.
Conclusion
De ce qui précède, on peut conclure que le plan factoriel pourrait caractériser le
niveau de développement des pays sur les plans économique, technologique, sociale
et démographique d’un côté, et leur émergence d’un autre côte. Ces résultats sont
conformes à ceux de l’ACP réalisée sur la même base en Analyse de données 1.
utilisées pour réaliser cette seconde ACM. Les résultats obtenus sont présentés dans les sous
Le tableau 1.5 présente pratiquement les mêmes résultats qu’à la première ACM. La seule
différence est que les modalités initialement négativement représentatives sur l’axe 1 le sont
maintenant positivement et vice versa. Le tableau 1.6 présente aussi les mêmes résultats avec
la même remarque.
Conclusion
De tout ce qui précède, le plan factoriel étudié caractérise l’émergence et le niveau de
développement des pays sur divers plans : économique, technologique, sociale et démographique.
A partir de cela, il est possible de construire des indicateurs afin de mieux caractériser ces pays.
pour une modalité j d’une variable représentée sur un axe α est donné par la formule :
λ1 I1 + λ2 I2
I=
λ1 + λ2
I − Imin
Inormé = .
Imax − Imin
De ce qui précède, on peut conclure que l’indicateur globale renseigne sur le niveau
de développement d’un pays. Lorsqu’il est inférieur à 0,08, le pays est dit "développé" ;
lorsqu’il est compris entre 0,08 et 0,64, le pays est dit "émergent" et lorsqu’il est supérieur à
0,64, alors le pays est dit "en voie de développement".
Classification
2.1.3 La CAH
La CAH fournit une typologie d’un ensemble d’individus décrits par les variables quantita-
tives ou transformées en quantitatives. La transformation des variables qualitatives en quanti-
17
2.1. PRÉSENTATION DES MÉTHODES
tatives se fait en considérant tous les axes factoriels provenant de l’analyse de ces variables.
Principe de la méthode
On suppose avoir un tableau de N individus décrits sur des variables quantitatives ou
transformées en quantitatives. La CAH fournit une chaine de partitions binaires en utilisant
l’algorithme suivant :
Étape 0 :
Chaque individu forme une classe. A cette étape, la variance ( ou l’inertie) intra est nulle et la
variance inter est maximale.
Étape 1 :
On regroupe les individu i et i’ les plus proches. On aura ainsi N − 1 classes dont une ( Celle
contenant i et i’) présente une variance intra non nulle. L’inertie intra a donc augmenté et
l’inertie inter a par conséquent diminué. On remet ensuite à jour le tableau des distances et
on se pose la question de savoir : quel indice d’agrégation choisir ? La réponse à cette
question sera donnée plus bas.
Par suite, la classe i, i’ est remplacée par son centre de gravité.
.. ..
..
.. ..
..
Étape N-k :
On aura N − k classes avec une inertie intra-classe supérieure à celle des étapes précédentes et
l’inertie inter-classe quant à elle sera supérieure à celle des étapes précédentes.
Étape N-1 :
C’est la dernière étape.On aura une seule classe qui est formée de tous les individus. L’inertie
intra-classe est maximale et est égale à l’inertie totale, et l’inertie interclasse est nulle.
2.2 Application
Dendrogramme
Le dendrogramme de cette classification est présenté à la figure 8 de l’annexe .10. Pour cette
représentation, le nombre d’éléments finaux a été fixé à 50 pour une bonne visualisation de la
figure. On obtient que la première classe regroupe 58% des individus, la deuxième en regroupe
19% et la dernière 23%. La caractérisation des classes est présenté dans le tableau 2.1.
Horeb SEIDOU
Tunisie, Panama, Tur-
Classe 1 82 0,26 0,09 -0,49 1,63 -10,24 72,00 0,36 0,04 -0,60 0,59 -10,75 quie, Paraguay, Brésil
2.2. APPLICATION
Belarus, Arabie-
Saoudite, Oman,
Soudan, Uzbekistan
Tchad, Conco RD,
Classe 2 27 1,87 1,11 0,74 7,64 6,31 35,00 1,55 1,55 0,63 8,53 6,37 Guinée Bissau, Mali
Tajikistan, Bengla-
desh, Côte d’Ivoire,
Djibouti, Ghana
Belgique, Danemark,
Classe 3 32 1,86 -1,19 0,64 -9,10 6,14 34,00 1,78 1,78 0,62 -9,30 6,12 Allemagne, Suède,
22
Pays-bas
Malaisie, Seychelles,
Lithunie, United Arab
Emirates, Grèce
Source : Réalisé par les auteurs sous Excel, 2021
Florian SIAKEN
2.2. APPLICATION
On sait que l’axe qui décrit le mieux une classe est celui dont la valeur-test en valeur absolu
est la plus élevé. Du tableau précédent, il vient que seul l’axe 2 caractérise la classe 1. Les
classes 2 et 3 sont caractérisées par les axes 1 et 2 mais plus par l’axe 1 d’après les valeur-tests
et les cosinus carres. Ainsi, d’après le sens des axes factoriels, on pourrait dire que les pays de
la classe 1 contient des pays caractérisés d’émergents tandis que les classes 2 et 3 regroupent
les pays caractérisés plus par le sous développement économique, technologique,démographique
et social et dans une moindre mesure que par l’émergence.
classes. Autrement dit, on se servira des paramétrages mode classe et classe mode dans
SPAD. Les valeur-tests seront aussi utilisées pour l’analyse dans cette partie afin d’étudier la
significativité des variables. Une variable/modalité étant significative pour une classe lorsque
sa valeur-test est supérieure à 2. Le tableau 12 de l’annexe .13 qui découle des analyses faites
sous SPAD résume la situation. De ce tableau, il ressort trois éléments importants :
— les modalités (qui permettent par ricochet d’identifier les variables correspondantes)
caractéristiques des pays de la première classe sont : Moyen MI, Elevé MP, Elevé GDP_c,
Elevé Internet, Elevé Pop_65+, Elevé PC, Elevé S_VA, Elevé IWS, Moyen Pop_0-14 .
On remarque que ces modalités sont celles qui sont négativement corrélées à l’axe 2. Ce
qui justifie que les la classe 1 est constituée en grande partie des pays dits émergents.
— les modalités caractéristiques des pays de la deuxième classe sont : Faible Internet, Faible
IWS, T_ Elevé P_0-14 Faible MP, Faible GDP_c, Faible PC, T_Elevé MI, T_Elevé
A_ VA, Faible Pop_65+, T_Elevé Pop_g, T_Elevé R_pop, Faible S_VA, Faible IWS.
Ces modalités sont celles qui sont positivement corrélées à l’axe 1 et caractérisent les
pays dits sous-développés Ainsi, avec une faible probabilité de se tromper, on pourrait
affirmer que la classe 2 est composée des pays sous-développés.
— les modalités caractéristiques de la troisième classe sont : Faible MI, T_Elevé MP,
T_Elevé Internet, T_Elevé GDP_c, T_Elevé PC, Faible A_VA, Faible Pop_0-14,
T_Elevé IWS, T_Elevé A_VApW, T_Elevé Pop_ 65+, T_Elevé S_VA, Faible Pop_g,
Faible R_pop . Ces modalités sont celles négativement corrélées à l’axe 1 et caractérisent
les pays dits développés. C’est alors qu’on pourrait dire sans un grand risque de se
tromper que les pays de la classe 3 sont des pays développés.
Par ailleurs, des deux avant-dernières colonnes de ce tableau, il résulte par exemple pour
la classe 1 que 44,44% des pays présentent un moyen taux croissance du PIB élevé mais
que sur l’ensemble des pays de la base ayant un taux de croissance du PIB élevé, 94,12%
sont de la classe 1. La même interprétation peut se faire pour les autres modalités de
la classe 1 ainsi que de celles des autres classes en se référant aux pourcentages de ces
modalités dans la classe concernée et aux pourcentages des classes dans ces différentes
modalités.
Intra-classe
( toutes inférieures à 0,35 ). Cela signifie que les pays des classes 2 et 3 se ressemblent entre
eux.
27
Chapitre Trois
Analyse discriminante
3.2 Application
28
3.2. APPLICATION
Le tableau 3.3 présente les résultats du test de Wilks. D’après ce tableau les deux fonctions
sont significatives au seuil de 5%. Autrement dit, dans 95% des cas, la connaissance de leurs
valeurs pour un nouveau pays permettra d’identifier sa typologie. Les fonctions discriminantes
permettent donc de classer de nouveaux pays selon les trois groupes de l’étude.
En tenant compte de ces coefficients, les fonctions discriminantes peuvent se calculer comme
suit :
F1 = 0, 771 × (GDP _c_1) + 0, 717 × (A_V ApW _1) + 0, 608 × (P op_0 − 14_1) − 0, 364 × (R_pop)
+ 0, 515 × (S_V A) + 1, 081 × (Internet_1) + 0, 389 × (GDP _c_2) + 0, 420 × (A_V ApW _2)
+ 0, 580 × (IW S_2) + 0, 075 × (P op_0 − 14_2) + 0, 687 × (Internet_2)
et
F2 = 0, 007 × (GDP _c_1) + 0, 018 × (A_V ApW _1) − 0, 701 × (P op_0 − 14_1) − 0, 577 × (R_pop)
− 0, 628 × (S_V A) + 0, 475 × (Internet_1) + 0, 698 × (GDP _c_2) + 0, 582 × (A_V ApW _2)
+ 0, 264 × (IW S_2) + 0, 569 × (P op_0 − 14_2) + 0, 61 × (Internet_2)
Ainsi, pour un nouveau pays dont les modalités sont connues, il suffira de trouver à partir de
ces dernières les coordonnées factorielles pour chacune des variables du modèle. On calculera
ensuite les valeurs prises par les fonctions discriminantes (scores), ce qui permettra de le classer.
Le pays sera en effet affecté à sa catégorie selon sa distance par rapport aux centres de
gravité des groupes. Les valeurs des fonctions discriminantes pour chacun des trois centre de
gravité est donnée dans le tableau suivant :
Le graphique suivant illustre la répartition des pays selon leur catégorie après affectation.
Ainsi, dans le cas de cette étude, sur les 32 pays développés, 30 ont été bien classés et 2
l’ont mal été. De même, sur les 71 pays émergents, 68 ont été bien classés et 3 l’ont mal été.
Par contre, tous les pays en voie de développement ont été bien classés.
34
ANNEXE
a
.1. RECODAGE DES VARIABLES
Horeb SEIDOU
.2. NUAGE DES MODALITÉS ACM 1
c
Source : Réalisé par les auteurs sous SPAD, 2021
Florian SIAKEN
.3 Contribution des pays, ACM 1
Graphique 3 – Représentation des individus selon leurs contributions dans le plan factoriel, ACM 1
Horeb SEIDOU
.3. CONTRIBUTION DES PAYS, ACM 1
d
Source : Réalisé par les auteurs sous SPAD, 2021
Florian SIAKEN
.4 Représentativité des pays, ACM 1
Graphique 4 – Représentation des individus selon leurs CO2 dans le plan factoriel, ACM 1
Horeb SEIDOU
e
.4. REPRÉSENTATIVITÉ DES PAYS, ACM 1
Florian SIAKEN
.5 Nuage des modalités ACM 2
Horeb SEIDOU
.5. NUAGE DES MODALITÉS ACM 2
f
Source : Réalisé par les auteurs sous SPAD, 2021
Florian SIAKEN
.6 Contribution des pays, ACM 2
Graphique 6 – Représentation des individus selon leurs contributions dans le plan factoriel, ACM 2
Horeb SEIDOU
.6. CONTRIBUTION DES PAYS, ACM 2
g
Source : Réalisé par les auteurs sous SPAD, 2021
Florian SIAKEN
.7 Représentativité des pays, ACM 2
Graphique 7 – Représentation des individus selon leurs CO2 dans le plan factoriel, ACM 2
Horeb SEIDOU
h
.7. REPRÉSENTATIVITÉ DES PAYS, ACM 2
Florian SIAKEN
.8. PAYS REPRÉSENTATIFS SUR L’AXE 1 ET 2
.9 Construction de l’indicateur
Horeb SEIDOU
.10. DENDROGRAMME DE LA CAH
n
Source : Réalisé par les auteurs sous SPAD, 2021
Florian SIAKEN
.11 Illustration des classes de la CAH
Horeb SEIDOU
o
.11. ILLUSTRATION DES CLASSES DE LA CAH
Florian SIAKEN
.12 Illustration des classes de la classification mixte
Horeb SEIDOU
p
.12. ILLUSTRATION DES CLASSES DE LA CLASSIFICATION MIXTE
Florian SIAKEN
.13. DESCRIPTION DES CLASSES PAR LES VARIABLES