TP Acm

RÉPUBLIQUE DU BÉNIN
-------------
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
-------------
Université d’Abomey-Calavi
-------------
_________________________________________________
ECOLE NATIONALE D’ECONOMIE

APPLIQUEE ET DE MANAGEMENT
_________________________________________________
Filière : Cycle ISE Discipline : Analyse des Données 2
_________________________________________________
PROJET D0ANALYSE DES DONNEES 2

_________________________________________________
Réalisé par :
SEIDOU Horeb & SIAKEN Florian

Elèves ISE 2ème année
Supervisé par :
Novembre M. HADAROU Soulémana

2021 Ingénieur Statisticien Economiste
AVANT-PROPOS
L’École Nationale d’Economie Appliqée et de Management du Bénin fait partie

des quatre écoles africaines de statistique rattachées au CAPESA. Elle forme
à cet effet, conjointement avec l’ENSEA de Côte d’Ivoire, l’ISSEA de Yaoundé
et l’ENSAE du Sénégal, des Ingénieurs Statisticiens Économistes (ISE) dont la
durée de formation est de trois ans.
L’unité de formation des ISE est axée sur la théorie mais également sur la
pratique afin de permettre aux apprenants qui y sont formés d’être d’excellents
ingénieurs de conception aptes à faire valoir leur savoir-faire sur le marché
du travail dès la sortie de promotion. Pour ce faire, dans le cadre du module
de cours d’Analyse Des Données 2, un projet est initié afin de renforcer leurs
capacités pratiques à faire des analyses factorielles. Le présent rapport de projet
est élaboré dans ce cadre et porte sur l’analyse des correspondances multiples,
les méthodes de classification et l’analyse discriminante.
Horeb SEIDOU i Florian SIAKEN

Liste des tableaux
1.1 Taux d’inertie et taux corrigé de BENZECRI . . . . . . . . . . . . . . . . . . . . 6

1.2 Corrélation Modalités-Axe 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4 Variables sélectionnées pour cette seconde ACM . . . . . . . . . . . . . . . . . . 10
1.7 Regroupement des pays en fonction de l’indicateur . . . . . . . . . . . . . . . . . 15
2.1 Caractérisation des classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.2 Caractérisation des classes obtenues à l’issue de la classification mixte . . . . . . 23
2.3 Description des classes par les axes . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.4 Décomposition de l’inertie calculée sur 30 axes . . . . . . . . . . . . . . . . . . . 26
3.1 Variables introduites dans le modèle . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.2 Valeur propres et corrélation globale . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3 Test de Wilks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.4 Coefficients des fonctions discriminantes canoniques . . . . . . . . . . . . . . . . 30
3.5 Fonctions aux centres des groupes . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.6 Scores de quelques pays . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.7 Matrice de confusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
8 Recodage des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . b
9 Pays représentatifs sur l’axe 1, ACM2 . . . . . . . . . . . . . . . . . . . . . . . . i
10 Pays représentatifs sur l’axe 2, ACM2 . . . . . . . . . . . . . . . . . . . . . . . . k
11 Valeurs de l’indicateur pour les premiers et les derniers pays . . . . . . . . . . . m
12 Description des classes par les variables . . . . . . . . . . . . . . . . . . . . . . . q
ii
Table des figures
2.1 Histogramme des indices de niveau . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.1 Fonctions discriminantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

2 Représentation des modalités dans le plan factoriel, ACM 1 . . . . . . . . . . . c
3 Représentation des individus selon leurs contributions dans le plan factoriel,
ACM 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . d
4 Représentation des individus selon leurs CO2 dans le plan factoriel, ACM 1 . . e
5 Représentation des modalités dans le plan factoriel, ACM 2 . . . . . . . . . . . f
6 Représentation des individus selon leurs contributions dans le plan factoriel,
ACM 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . g
7 Représentation des individus selon leurs CO2 dans le plan factoriel, ACM 2 . . h
8 Dendrogramme de la CAH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . n
9 Graphique illustratif des classes de la CAH . . . . . . . . . . . . . . . . . . . . . o
10 Graphique illustratif des classes de la classification mixte . . . . . . . . . . . . . p
iii
Table des matières
Liste des tableaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii

Table des figures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii
Introduction 1
I ACM ET CLASSIFICATION 2
1 Analyse des Correspondances Multiples 3

1.1 Présentation de la méthode en lien avec les données . . . . . . . . . . . . . . . . 3
1.1.1 Présentation de la base d’étude et justification du choix de la méthode
adoptée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.1.2 Présentation de l’ACM . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.3 Interprétation d’une ACM . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.3.1. Inertie expliquée . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.3.2. Cosinus carrés . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.3.3. Contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Interprétation des résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.1 Description de la base et préalable de l’ACM . . . . . . . . . . . . . . . . 5
1.2.2 Choix du nombre d’axes . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.3 Nuages des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.4 Nuage des individus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.5 Interprétation des axes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
Interprétation du premier axe factoriel . . . . . . . . . . . . . . . . . . . 8
Interprétation du second axe factoriel . . . . . . . . . . . . . . . . . . . . 9
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3 ACM après sélection de variables . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.1 Liste des variables sélectionnés . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3.2 Choix des axes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.3.3 Nuage des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
iv
TABLE DES MATIÈRES
1.3.4 Nuage des individus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.3.5 Interprétation des axes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Interprétation du premier axe factoriel . . . . . . . . . . . . . . . . . . . 12
Interprétation du second axe factoriel . . . . . . . . . . . . . . . . . . . . 13
Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4 Construction de l’indicateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.1 Méthode utilisée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.2 Interprétation de l’indicateur . . . . . . . . . . . . . . . . . . . . . . . . 14
Interprétation des deux premiers indicateurs . . . . . . . . . . . . . . . . 14
Interprétation de l’indicateur global . . . . . . . . . . . . . . . . . . . . . 15
2 Classification 17
2.1 Présentation des méthodes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.1 Objectif de la classification . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.2 Présentation des méthodes . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.3 La CAH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Principe de la méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Choix de l’indice d’agrégation . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.4 La classification mixte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.1 Classification ascendante hiérarchique . . . . . . . . . . . . . . . . . . . . 19
Choix du nombre de classes . . . . . . . . . . . . . . . . . . . . . . . . . 19
Dendrogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
Illustration des classes de la CAH . . . . . . . . . . . . . . . . . . . . . . 20
2.2.2 Classification mixte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Illustration des classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3 Description des classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3.1 Description des classes par les axes . . . . . . . . . . . . . . . . . . . . . 24
2.3.2 Description des classes par les variables . . . . . . . . . . . . . . . . . . . 24
2.3.3 Homogénéité des classes . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4 Conclusion partielle de la première partie . . . . . . . . . . . . . . . . . . . . . . 26
II Analyse factorielle discriminante (AFD) 27
3 Analyse discriminante 28
3.1 Présentation de la méthode . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3.2.1 Présentation de la base utilisée . . . . . . . . . . . . . . . . . . . . . . . 28
3.2.2 Vérification de l’existence de différences entre les trois groupes . . . . . . 29
3.2.3 Choix de la meilleure fonction discriminante . . . . . . . . . . . . . . . . 29
3.2.4 Estimation des coefficients du modèle . . . . . . . . . . . . . . . . . . . . 30
Horeb SEIDOU v Florian SIAKEN

TABLE DES MATIÈRES
3.2.5 Quelques scores de pays . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

3.2.6 Qualité du classement . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.3 Conclusion partielle de la partie . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
Conclusion 34
Annexe b
.1 Recodage des variables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . b
.2 Nuage des modalités ACM 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . c
.3 Contribution des pays, ACM 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . d
.4 Représentativité des pays, ACM 1 . . . . . . . . . . . . . . . . . . . . . . . . . . e
.5 Nuage des modalités ACM 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . f
.6 Contribution des pays, ACM 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . g
.7 Représentativité des pays, ACM 2 . . . . . . . . . . . . . . . . . . . . . . . . . . h
.8 Pays représentatifs sur l’axe 1 et 2 . . . . . . . . . . . . . . . . . . . . . . . . . . i
.9 Construction de l’indicateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . l
.10 Dendrogramme de la CAH . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . n
.11 Illustration des classes de la CAH . . . . . . . . . . . . . . . . . . . . . . . . . . o
.12 Illustration des classes de la classification mixte . . . . . . . . . . . . . . . . . . p
.13 Description des classes par les variables . . . . . . . . . . . . . . . . . . . . . . . q
Horeb SEIDOU vi Florian SIAKEN

Introduction
Les méthodes d’analyse multidimensionnelle des données sont des méthodes statistiques
destinées à la description de vastes ensembles de données, de sorte à en ressortir l’essentiel de
l’information. On distingue entre autres l’analyse en composantes principales (ACP) qui se prête
aux données quantitatives, l’analyse factorielle des correspondances simples (AFC) qui permet
de mettre en évidence les correspondances entre les modalités de deux caractères qualitatifs,
l’analyse factorielle des correspondances multiples (ACM) qui est une extension de l’AFC à
plus de deux caractères qualitatifs, la classification ascendante hiérarchique (CAH) qui permet
de partitionner une population en sous-groupes homogènes et l’analyse discriminante qui sert
à prédire la valeur prise par une variable catégorielle à partir de plusieurs facteurs quantitatifs.
Le présent travail s’inscrit dans le cadre du cours d’analyse de données 2 et est la suite
logique de celui effectué en analyse de données 1 : cette fois-ci, il sera utilisé la même base
que celle utilisée pour faire le premier travail mais en ayant transformé par le biais des quar-
tiles, toutes les variables quantitatives en qualitatives. Ce qui revient donc à travailler sur une
base de 141 individus statistiques (qui sont ici les pays) décrits sur dix-neuf (19) variables
toutes qualitatives. Vu le nombre élevé de variables qualitatives, les outils de la statistique
descriptive ne sont pas appropriés pour l’analyse. Nous allons donc faire recours à l’analyse
des correspondances multiples, à la Classification et à l’analyse discriminante afin d’achever le
travail commencé au compte du cours d’analyse des données 1. Ces différents outils permettront
entre autre d’aboutir à la classification des différents pays de l’étude en des groupes homogènes
en utilisant un indicateur construit à cet effet et à donner une description des différentes classes.
Ainsi, le travail est structuré en deux grandes parties. Dans la première grande partie,il sera
question de l’analyse des correspondances multiples et de la classification. La seconde grande
partie sera consacrée à l’analyse discriminante.
1
Première partie
ACM ET CLASSIFICATION
2
Chapitre Premier
Analyse des Correspondances

Multiples
1.1 Présentation de la méthode en lien avec les données
1.1.1 Présentation de la base d’étude et justification du choix de

la méthode adoptée
On dispose d’un tableau de 18 variables quantitatives et une qualitative, décrit sur 141
individus. Les 18 premières sont des grandeurs économiques, sociales et démographiques relevées
sur 141 pays du monde. Ces variables ont ensuite été recodées comme suit : il a été calculé les
différents quartiles de la variable, puis les observations ont été classées entre ces quartiles
selon qu’elles soient "Faible", "Moyen", "Elevé" et "Très Elevé". On obtient donc finalement un
tableau de 19 variables qualitatives décrit sur 141 individus (pays). L’objectif de cette étude est
de classer ces pays en fonction d’un indicateur obtenu suite un regroupement de ces derniers.
Lorsqu’on dispose d’un volumineux fichier de données, il est difficile d’appréhender globa-
lement l’information contenue dans ce dernier avec les méthodes statistiques classiques. En
effet, la statistique descriptive nous enseigne seulement comment dégager des pourcentages et
comment représenter l’intensité entre deux caractères, par exemple le PIB en fonction de la
population d’un ensemble de pays. Ces méthodes ne permettent pas d’extraire les informations
d’un grand fichier, d’où l’on veut déduire les relations statistiques entre diverses caractéristiques.
L’analyse des Correspondances Multiples (ACM)est une méthode de description statistique
multidimensionnelle d’un tableau de données qualitatives. Comme l’ACP pour les données
quantitatives, elle permet pour des données qualitatives :
— de faire des représentations graphiques du contenu du tableau de données. Il s’agit ici
de représenter les "similitudes" entre les individus et entre les modalités des variables
qualitatives ;
— de recoder en données numériques, sur lesquelles on peut ensuite appliquer d’autres
méthodes de l’analyse factorielle (comme la classification).
Le choix de l’ACM dans cette étude se justifie donc non seulement par la nature et la taille du
tableau, mais également par l’objectif poursuivi par l’étude.
3
1.1. PRÉSENTATION DE LA MÉTHODE EN LIEN AVEC LES DONNÉES
1.1.2 Présentation de l’ACM

L’ACM est en fait une généralisation de l’AFC. Sur le plan technique, il s’agit d’une simple
application de cette dernière. L’ACM peut être définie comme l’AFC du tableau de Burt.
Il s’agit en effet d’un assemblage particulier des tableaux de contingence, une généralisation
particulière de la table de contingence pour un nombre quelconque p de variables qualitatives.
Le tableau de Burt est en fait une matrice carrée symétrique constituée de p2 sous matrices.
Chacune des p sous matrices diagonales est relative à l’une des p variables ; la j ème d’entre elles
est carrée d’ordre cj , diagonale, et comporte sur la diagonale les effectifs marginaux de X j . La
sous matrice figurant dans le bloc d’indice (j, j’), j 6= j 0 , est la table de contingence construite
0
en mettant X j en lignes et X j en colonnes.
L’ACM est un outil adapté à l’exploitation des données d’enquêtes en s’assurant au préalable
de transformer toutes les données en variables qualitatives. Il est possible de prendre en compte
dans une analyse que quelques variables. On peut dès lors effectuer plusieurs analyses en mettant
à chaque fois un paquet de variables en actif et d’autres en illustratif.
1.1.3 Interprétation d’une ACM

A l’instar des autres méthodes d’analyse factorielle, l’ACM présente les mêmes aides à
l’interprétation. Ces éléments d’interprétation permettent d’éviter tout effet de déformation et
pour surtout faciliter la lecture des plans de projection des individus et des modalités.
1.1.3.1. Inertie expliquée

En ACM, l’inertie totale du nuage des individus et du nuage des modalités(variables) est
donnée par :
m
Ig = −1
p
avec m le nombre de modalité et p le nombre de variable. On peut donc constater que cette
grandeur ne dépend pas du nombre de modalités par variable. Par ailleurs, elle est également
obtenue en faisant la somme des quantités d’information apportées par les axes. Autrement dit,
I g = λ1 + λ2 + · · · + λr
avec r = min(n − 1, m − p) est le nombre de valeurs propres non nulles, n étant le nombre
d’individus. Le pourcentage d’inertie expliquée par un axe α est donc donnée par la formule :
λα
× 100
λ1 + λ2 + · · · + λr
Il est important de noter ici que les pourcentages d’inertie expliqués par les axes sont générale-
ment faibles. On ne peut donc pas les interpréter comme en AFC ou en ACP. De plus, il n’est
pratique de retenir un nombre d’axes à partir de ces pourcentages (voir sous-section 1.2.2) .
Horeb SEIDOU 4 Florian SIAKEN

1.2. INTERPRÉTATION DES RÉSULTATS
1.1.3.2. Cosinus carrés

Le cosinus carré (CO2) d’un élément e, cosinus de l’angle formé par l’élément et l’axe
factoriel, qui est un indicateur mesurant la qualité de représentation de e (qui peut être un
individu ou une modalité). Lorsque l’angle est proche de 0, c’est-à-dire que le CO2 est proche
de 1, l’élément est bien représenté. Dans le cas inverse, l’angle est proche de 90◦ et le CO2 est
proche de 0. Les variables sur lesquelles on peut se prononcer sont donc celles qui ont un CO2
relativement élevé.
En pratique, si deux individus sont bien projetés alors s’ils sont proches en projections, ils
sont effectivement proches dans leur espace d’origine et on peut alors interpréter leur proximité :
— la proximité entre deux individus s’interprète en terme de distance (du χ2 ) : deux indi-
vidus se ressemblent s’ils ont choisi les mêmes modalités ;
— la proximité entre deux modalités de deux variables différentes s’interprète en terme de
distance (du χ2 ) : deux modalités se ressemblent si elles sont possédées par les mêmes
individus.
1.1.3.3. Contributions
La contribution (CTR) d’un élément e à la formation d’un axe factoriel qui mesure
pour cet élément (variable, modalité ou individu), la part d’information qu’elle apporte pour
la formation de l’axe. Ce sont les points dont la contribution est supérieure à la moyenne qui
permettent de donner un sens à l’axe. L’interprétation des axes factoriels se fera donc à l’aide
des individus et des modalités contribuant le plus à la formation de l’axe avec la règle suivante :
si une modalité a une forte contribution positive à la formation de l’axe, les individus ayant une
forte contribution positive à la formation dudit axe présentent cette modalité.Par ailleurs, il faut
s’assurer que les points contribuant le plus à l’axe sont bien représentés sur l’axe. Autrement,
on les met en éléments supplémentaires.
En pratique, :
— les individus les plus excentrés sur les plans factoriels sont ceux qui contribuent le plus
à leur formation ;
— les modalités les plus excentrées, par contre, ne sont pas nécessairement celles qui contri-
buent le plus à la formation. En effet, leur contribution dépend de leur fréquence.
1.2 Interprétation des résultats
1.2.1 Description de la base et préalable de l’ACM

Comme dit plus haut, la base qui fait l’objet de cette étude présente des variables démo-
graphiques, socio-économiques et financiers de quelques pays. Ces dernières ont été recodées
en variables qualitatives. Chacune d’elle possède donc quatre modalités : "Faible", "Moyen",
"Elevé" et "Très Elevé". On se retrouve donc avec :

— la variable identification : "Pays" ;

— une variable nominale que nous mettrons en illustratif : "Continent" ; 18 variables qua-
litatives qui sont les différents agrégats recodés.
Pour des soucis de présentation des graphiques, les variables ont toutes été renommées, selon
le tableau 8 présenté en annexe .1.
Par ailleurs, comme en ACP, un examen des DISTO a été effectué afin de toujours garantir
la robustesse du modèle. Cet examen permet de détecter les individus atypiques pour les mettre
en illustrative. Ces derniers influencent en effet l’analyse et empêchent les autres individus de
révéler toute leur originalité. Au regard des résultats obtenus, aucun individu atypique n’a
été détecté.
1.2.2 Choix du nombre d’axes

L’ACM fournit généralement des valeurs propres faibles. En effet, toutes les valeurs propres
sont inférieures à l’inverse du nombre moyen de modalités de la base à analyser. Ici donc, la
1
valeur propre associée à l’axe α est telle que, λα < X , soit λα < 0, 25 dans ce cas.
1 p
mq
p q=1
De ce fait, le taux d’inertie apporté par les différents plans factoriels est relativement
faible. C’est d’ailleurs l’une des particularités de l’ACM par rapport à l’ACP ou à l’AFC.
Considérant cet aspect, l’un des critères du choix du nombre d’axes consiste à interpréter les
axes d’inertie supérieure à l’inverse du nombre de variables actives. Mais ce critère est peu
utilisable en pratique puisqu’il amène à choisir généralement un très grand nombre d’axes à
interpréter.
Pour remédier à cela, on utilise la formule de Benzecri de taux d’inertie corrigé.
Cette formule permet de définir un critère consistant à remplacer les taux d’inertie pour les
valeurs propres µ supérieures à p1 par :
p 2 1
( ) (µ − )2
p−1 p
p désignant le nombre de variables actives et µ , une valeur propre issue de l’ACM.

1
Le tableau 1.1 présente les 5 premières valeurs propres supérieures à 18 ' 0, 556, leurs taux
d’inertie ainsi que les taux corrigés par la formule de Benzecri :
Tableau 1.1 – Taux d’inertie et taux corrigé de BENZECRI

Valeurs propres Taux d’inertie Taux corrigé
0,5298 17,66 25,2163
0,3454 11,51 9,4194
0,1672 5,57 1,3977
0,1254 4,18 0,5461
0,1099 3,66 0,3313
Source : Réalisé par les auteurs sous Excel, 2021

De ce tableau, seuls les taux d’inertie corrigés des deux premiers axes factoriels sont su-
périeurs à 10018
, soit environ 5, 5556. Donc seuls ces deux axes seront retenus pour l’analyse.
L’inertie expliquée par ces axes représente 29, 17% de l’inertie totale du nuage.
L’interprétation des résultats de cette première ACM reposera alors essentiellement sur
l’interprétation du nuage des variables et celui des individus projetés dans le premier plan
factoriel, l’objectif étant d’identifier les variables et les individus bien représentés sur l’un au
moins des axes constitutifs du plan.
1.2.3 Nuages des variables

Pour déterminer les modalités bien représentées, c’est-à-dire celles qui contribuent significa-
tivement à la construction du premier plan factoriel, les contributions et les cosinus carrés des
différentes modalités ont été utilisés.
Dans le cadre de ce travail, il est fait référence aux poids relatifs des modalités pour dé-
terminer celles qui contribuent le plus à la formation des axes retenus : ce sont celles dont la
coordonnée de la contribution sur l’axe considéré est supérieure à leur poids relatif.
Par ailleurs comme dans le cas des analyses factorielles déjà étudiées jusqu’ici ( ACP &
AFC), la qualité de la représentation d’un élément, ici une modalité, est mesurée par le CO2.
Le CO2 en ACM étant faible, on fait dans ce travail l’hypothèse que la représentation d’une
modalité sur un axe factoriel est de bonne qualité si le CO2 de la modalité sur cet axe est
supérieur ou égal à 0,2.
Il en résulte donc les deux tableaux suivants qui résument les corrélations des modalités aux
axes 1 et 2 :
Tableau 1.2 – Corrélation Modalités-Axe 1

Modalités positivement corrélées Modalités négativement corrélées
T _Elevé GDP _C F aible GDP _C
T _Elevé A_V ApW F aible A_V ApW
F aible A_V A T _Elevé A_V A
T _Elevé IW S F aible IW S
T _Elevé M P F aible M P
F aible M I T _Elevé M I
T _Elevé P C F aible P C
F aible P op_0 − 14 T _Elevé P op_0 − 14
T _Elevé P op_65+ F aible P op_65+
F aible R_P op T _Elevé R_P op
T _Elevé S_V A F aible S_V A
F aible P op_G T _Elevé P op_G
T _Elevé Internet F aible Internet
Source : Réalisé par les auteurs, 2021


Modalités positivement corrélées Modalités négativement corrélées
T _Elevé GDP _C Elevé GDP _C
F aibleA_V A ElevéA_V ApW
T _Elevé M P Elevé M P
F aible M I M oyen M I
F aible Internet Elevé P C
T _Elevé Internet M oyen P op_0 − 14
Elevé P op_65+
Elevé Internet
Ces tableaux nous montrent que le premier plan factoriel ressort quelques oppositions que
nous mettrons en exergue dans la section suivante. Le nuage des modalités en annexe .2 montre
déjà les différents regroupements de modalités qu’on peut avoir avec cet ACM.
1.2.4 Nuage des individus

Les graphiques 3 et 4 des annexes .3 et .4 présentent les nuages des individus respectivement
en fonction de leurs contributions à la formation des axes et de leurs cosinus carré. Sur ces
représentations, plus le cercle d’un pays est gros, plus il contribue à la formation des axes ou
plus il est bien représenté (selon la figure).
Selon le graphique 3, les pays qui contribue le plus à la formation des axes en général et
du premier en particulier, sont majoritairement les pays de l’Afrique subsaharienne d’un côté
(catégorie 1) et ceux de l’Europe de l’autre côté (catégorie 2). L’axe 1 oppose en effet les pays
comme le Madagascar, le Bénin, le Congo, le Chad, le Niger, le Burkina Faso, le Malawi, la
Tanzanie, etc., à ceux comme les Etats-Unis, le Japon, la Finlande, l’Italie, les Royaumes-Unis,
le Canada, la Belgique, etc.
Par ailleurs, ces mêmes pays sont les plus représentés sur le premier axe factoriel (voir
graphique 4). La première catégorie est représentée négativement alors que la seconde est re-
présentée positivement par rapport à l’axe 1.
En ce qui concerne l’axe 2, les pays qui contribuent le plus à sa formation sont notamment
les pays de l’Asie, de l’Amérique du Nord ou (en moindre proportion) les pays de l’Afrique du
Nord. Ce sont les pays comme les Philippines, l’Egypte, la Chine, l’Iran, l’Indonésie, la Turquie,
la Tunisie, la Colombie, la Chilie, etc. Il est important de noter qu’après analyse du graphique
4, ces mêmes pays sont bien représentés sur l’axe 2, mais négativement.
1.2.5 Interprétation des axes
Interprétation du premier axe factoriel

En se référant au tableau 1.2, on peut constater qu’un grand nombre de modalités contri-
buent à la formation de l’axe 1 et sont également bien représentées sur ce dernier (négativement

et positivement). Cet axe porte donc l’effet forme et réflète donc la grande partie des disparités
entre les pays étudiés.
Du même tableau, il ressort que l’axe 1 oppose les pays présentant les modalités (positive-
ment corrélées) PIB par tête très élevé, Valeur ajoutée agricole faible, valeur ajoutée agricole
par travailleur très élevée, amélioration des sources d’eau très élevée, le nombre d’abonnés té-
léphoniques très élevé, la population âgées de plus de 65 ans très élevé, faible taux de mortalité
infantile, faible population de 0 à 14 ans, etc. à des pays présentant les modalités (négativement
corrélées) faible PIB par tête , faible valeur ajoutée agricole par tête, valeur ajoutée ajoutée très
élevée, faible amélioration des sources d’eau, faible nombre d’abonnés téléphoniques, un taux
de mortalité infantile très élevé, faible population âgé de plus de 65 ans, population très élevés
entre 0 et 14 ans, etc..
La première catégorie de modalités (corrélées positivement) est un ensemble d’indicateurs
de richesse et de développement économique, technologique, démographique et
social, et caractérise les pays dits "développés" ou "riches". Par contre, la seconde catégorie
est un ensemble d’indicateurs de précarité et de pauvreté sur les plans économique,
social, technologique ou social, et caractérise les pays dits "en voie de développement" ou
"pauvres" On peut donc conclure que cet axe oppose des pays "riches" au pays "pauvres"
ou les pays "développés aux pays "en voie de développement" Ce résultat est corroboré
par le constat fait dans la sous section 1.2.4.
En effet, l’axe 1 oppose les pays comme le Madagascar, le Bénin, le Congo, etc. à ceux
comme les Etats-Unis, le Japon, le Canada, la Belgique, etc. Par conséquent, l’axe 1 peut être
considéré comme un indicateur de sous développement économique, technologique,
démographique et social.
Interprétation du second axe factoriel

Du tableau 1.3, le second axe oppose les pays présentant les modalités (corrélées positive-
ment) PIB par tête très élevé, faible valeur ajoutée agricole, nombre d’abonnés téléphoniques
élevé, faible taux de mortalité et nombre d’utilisateurs internet faible, à des pays présentant
les modalités (négativement corrélées) PIB par tête élevé, valeur ajoutée agricole par tête éle-
vée, nombre d’abonnés téléphoniques élevé, taux moyen de mortalité infantile, un nombre élevé
d’utilisateurs d’ordinateurs portables ou d’internet, une population moyenne de 0 à 14 ans et
élevée de plus de 65 ans. L
La seconde catégorie de modalités, qui est plus intéressante dans ce cas, constitue des indi-
cateurs d’émergence. Le constat fait dans la sous section 1.2.4 réconforte dans ce résultat.
En effet, les pays négativement corrélés à l’axe 2 sont la Chine, l’Iran, l’Indonésie, la Turquie,
la Tunisie, la Colombie, la Chilie, etc., reconnus comme des "pays émergents". On peut donc
conclure que l’axe 2 porte "l’effet taille" et pourrait caractériser l’émergence des pays.

1.3. ACM APRÈS SÉLECTION DE VARIABLES
Conclusion
De ce qui précède, on peut conclure que le plan factoriel pourrait caractériser le
niveau de développement des pays sur les plans économique, technologique, sociale
et démographique d’un côté, et leur émergence d’un autre côte. Ces résultats sont
conformes à ceux de l’ACP réalisée sur la même base en Analyse de données 1.
1.3 ACM après sélection de variables
1.3.1 Liste des variables sélectionnés

Il s’agit dans cette sous section de reprendre l’Analyse des Correspondances Multiples en
considérant que les variables significatives. Ce sont en effet les variables dont au moins une
modalité a été bien représentée dans le premier axe factoriel et a contribué à sa formation. Le
tableau ci dessous présente donc ces variables : Ce sont les variables du tableau 1.4 qui seront
Tableau 1.4 – Variables sélectionnées pour cette seconde ACM

Variables sélectionnées sur l’axe 1 Variables sélectionnées sur l’axe 2
— GDP per capita, PPP (constant — GDP per capita, PPP (constant
2000 international $) 2000 international $)
— Agriculture value added per — Agriculture value added per
worker (constant 2000 US$) worker (constant 2000 US$)
— Agriculture, value added (% of — Agriculture, value added (% of
GDP) GDP)
— Improved water source (% of po- — Mobile phone subscribers (per
pulation with access) 1,000 people)
— Mobile phone subscribers (per — Mortality rate, infant (per 1,000
1,000 people) live births)
— Mortality rate, infant (per 1,000 — Personal computers (per 1,000
live births) people)
— Personal computers (per 1,000 — Population ages 0-14 (% of to-
people) tal)
— Population ages 0-14 (% of to- — Population ages 65 and above
tal) (% of total)
— Population ages 65 and above — Internet users (per 1,000 people)
(% of total)
— Rural population (% of total po-
pulation)
— Services, etc., value added (% of
GDP)
— Population growth (annual %)
— Internet users (per 1,000 people)
Source : Réalisé par les auteurs
utilisées pour réaliser cette seconde ACM. Les résultats obtenus sont présentés dans les sous

sections sui suivent.
1.3.2 Choix des axes

En se basant sur le critère de Benzecri présentée en section 1.2.2, les deux premiers axes
factoriels sont ceux choisis pour cette analyse. L’inertie expliquée par ces axes représente 38, 51%
de l’inertie totale du nuage. On interprètera donc que le premier axe factoriel.
1.3.3 Nuage des variables

Le même travail fait à la sous section 1.2.3 a été fait ici, avec les mêmes critères. Cela a
permis d’obtenir les tableaux suivants :

Modalités négativement corrélées Modalités positivement corrélées
T _Elevé GDP _C F aible GDP _C
T _Elevé A_V ApW F aible A_V ApW
F aible A_V A T _Elevé A_V A
T _Elevé IW S Faible IWS
T _Elevé M P Faible MP
Faible MI T _Elevé M I
T _Elevé P C Faible PC
F aible P op_0 − 14 T _Elevé P op_0 − 14
T _Elevé P op_65+ F aible P op_65+
F aible R_P op T _ElevéR_P op
T _ElevéS_V A T _Elevé P op_G
F aible P op_G Faible Internet
T _Elevé Internet

Modalités négativement corrélées Modalités positivement corrélées
Elevé GDP _C T _Elevé GDP _C
Elevé A_V ApW Faible IWS
Elevé IW S Faible MP
Elevé MP Faible MI
Moyen MI Faible Internet
Elevé PC
M oyen P op_0 − 14
Elevé P op_65+
Elevé Internet
Le tableau 1.5 présente pratiquement les mêmes résultats qu’à la première ACM. La seule
différence est que les modalités initialement négativement représentatives sur l’axe 1 le sont
maintenant positivement et vice versa. Le tableau 1.6 présente aussi les mêmes résultats avec
la même remarque.

1.3.4 Nuage des individus

Les résultats obtenus concernant les individus ne sont pas si différents de ceux obtenus au
niveau de la première ACM. Les graphiques 6 et 7 des annexes .6 et .7 présentent le nuage des
individus, le premier selon leur contribution à la formation des axes et l’autre selon leurs cosinus
carrés. Selon le premier graphique, les pays qui contribuent le plus à la formation de l’axe 1 sont
d’un côté (négativement) les pays comme les Etats-Unis d’Amérique, le Canada, le Croatie, le
Singapour, le Portugal, le Japon, la Finlande, l’Australie, etc, et d’un autre côté (positivement)
les pays comme le Bénin, le Tchad, la Mauritanie, le Cameroun, le Djibouti, le Madagascar, le
Niger, le Congo, la Burundi, etc. Ce sont également tous des pays bien représentés sur cet axe
(voir graphique 7).
En ce qui concerne l’axe 2, les pays comme la Turquie, la Chine, la Colombie, le Brésil,
l’Iran, la Bolivie, les Philippines, la Namibie, le Guatemala, la Géorgie, l’Afrique du Sud, etc.,
sont les pays qui contribuent le plus à la formation de son axe (voir graphique 6). Ce sont
également des pays bien représentés sur cet axe (voir graphique 6).
Les résultats obtenus ci-dessus sont corroborés par les tableaux 9 et 10 présentés dans l’an-
nexe .8. Ce sont en effet des tableaux qui présentent respectivement les individus (pays) qui
contribuent à la formation de l’axe 1 et de l’axe 2, et qui y sont bien représentés (respective-
ment). Les mêmes critères de choix pour la contribution et le CO2 utilisés dans la section 1.2.3
sont utilisés. Alors sont "OUI" pour la colonne Décision Coor les pays dont la contribution est
supérieure ou égale au poids relatif et sont "OUI" pour la colonne Décision CO2 les variables
dont le CO2 est supérieur ou égal à 0,2. Il faut noter que les tableaux ont été filtrés pour
supprimer les variables présentant des "NON" pour l’une ou l’autre des colonnes. Les pays qui
y sont présentés sont donc les mieux représentés et les plus significatifs sur chacun des deux
axes.
1.3.5 Interprétation des axes
Interprétation du premier axe factoriel

A l’instar de l’ACM précédente, le premier axe factoriel porte l’effet forme. En effet, un
très grand nombre de modalités y sont bien représentées et contribuent à sa formation (tableau
1.5). Il illuste la plus grande disparités entre les pays de l’étude.
L’axe 1 oppose des modalités (du côté positif) comme PIB par tête très élevés, valeur
ajoutée agricole par tête très élevée, faible valeur ajoutée agricole, amélioration des sources d’eau
très élevée, faible taux de mortalité infantile, nombre d’abonnés téléphoniques très élevé, faible
population âgée de 0 à 14 ans, population de 65 ans et plus très élevé, etc. aux modalités (côté
négatif)comme faible PIB par tête, faible valeur ajoutée agricole par tête, valeur ajoutée agricole
très élevée, faible amélioration des sources d’eau, faible nombre d’abonnées téléphoniques, taux
très élevé de mortalité infantile, faible nombre d’utilisateurs d’ordinateurs, faible population de
65 ans et plus, population très élevée de 0 à 14 ans, etc. Ces variables caractérisent le niveau de
développement d’un premier. Les premières modalités caractérisent les pays "développés" alors

1.4. CONSTRUCTION DE L’INDICATEUR
que les dernières caractérisent ceux "en voie de développement".

Par ailleurs, les résultats de la section 1.3.4 viennent conforter cette conclusion. Les pays
représentés positivement sont bien des pays réellement "développés" et ceux négativement re-
présentés sont dits "en voie de développement". Par conséquent, tout comme pour la première
ACM, l’axe 1 traduit l’effet de développement économique, social, technologique et
démographique.
Interprétation du second axe factoriel

D’après le tableau 1.6, l’axe 2 oppose les pays ayant des valeurs élevés de PIB par tête,
valeur ajoutée agricole par tête, amélioration de sources d’eau, taux mortalité infantile, nombre
d’abonnés téléphoniques et d’utilisateurs d’ordinateurs, de population de 65 ans et plus, etc. à
des pays ayant de faibles valeurs pour le taux de mortalité infantile, d’utilisateurs de l’internet
et un PIB par tête élevé. La première catégorie caractérise les pays ayant amorcé un réel
développement sur divers plans, donc qui sont émergents. Les pays comme la Chine, l’Indonésie,
la Turquie, le Brésil, le Vietnam, la Venezuela, la Tunisie, l’Iran, etc. qui se retrouvent bien
représentés sur l’axe 2 et qui contribuent à sa formation, conforme dans cette conclusion.
Concernant la seconde catégorie de modalités, par contre, il est difficile de se prononcer sur
le type de pays qu’ils caractérisent.
On peut conclure que l’axe 2 est un indicateur d’émergence.
Conclusion
De tout ce qui précède, le plan factoriel étudié caractérise l’émergence et le niveau de
développement des pays sur divers plans : économique, technologique, sociale et démographique.
A partir de cela, il est possible de construire des indicateurs afin de mieux caractériser ces pays.
1.4 Construction de l’indicateur

Il s’agit ici de construire l’indicateur qui traduit le phénomène décrit par le plan factoriel
de l’ACM réalisée dans la section précédente.
1.4.1 Méthode utilisée

Pour construire l’indicateur traduisant le phénomène décrit par le plan factoriel, il faudra
construire deux indicateurs préalables : un premier traduisant la réalité décrit par le premier
axe factoriel et un second pour celle du second axe factoriel.
Dans un premier temps, il a fallu calculer les coordonnées des individus (pays) pour chacune
des variables bien représentées pour l’ACM 2, que ce soit sur le premier axe ou sur le second
(ce sont les variables citées en sous-section 1.3.1). Pour une modalité i, sa coordonnée calculée

pour une modalité j d’une variable représentée sur un axe α est donné par la formule :
Coorαj (i) = Cαj × 1j{1} (i)
où Cαj est la coordonnée factorielle de la modalité j suivant l’axe α.

Pour avoir chacun des indicateur I1 et I2 , respectivement sur l’axe 1 et 2, il a fallu faire
la somme, pour chaque individu i, des coordonnées Coorαj (i) avec α ∈ {1, 2}. Une fois ces
indicateurs construits, l’indicateur général I suivant la formule :
λ1 I1 + λ2 I2
I=
λ1 + λ2
avec λα , α ∈ {1, 2} la valeur propre de l’axe factorielle α.

Cet indicateur a été ensuite normé en utilisant la formule suivante :
I − Imin
Inormé = .
Imax − Imin
Ce dernier est compris entre 0 et 1.

Les résultats obtenus sur les 15 premiers pays et 15 derniers pays sont présentés en annexe
.9.
1.4.2 Interprétation de l’indicateur
Interprétation des deux premiers indicateurs

Conformément à l’interprétation faite des deux axes du premier plan factoriel (voir sous
section 1.3.5), le premier indicateur calculé peut être qualifié d’indicateur de développement
économique pendant que le second pourrait être qualifié d’indicateur d’émergence.
En effef, on constate que les pays qui prennent de fortes valeurs pour le premier indicateur
sont des pays comme le Mali, le Tchad, le Niger, l’Uganda, la Mozambique, la Guinée, l’Ethiopie,
etc. Ce sont là des pays en voie de développement et ce sont les mêmes pays on retrouve du
côté positif du premier axe factoriel. A l’opposée, les pays qui prennent de faible pour cet
indicateur sont des pays comme la Belgique, le Danemark, la France, le Japon, l’Espagne, les
Etats-Unis, le Luxembourg, l’Australie, etc. Ce sont des pays dits "développés", les mêmes qui
se retrouvent du côté négatif du premier axe factoriel. Dans l’intervalle [-5, 5], on retrouve des
pays qui balancent entre les deux extrêmes de développement. Ainsi, on peut conclure que pour
un pays donné, plus sa valeur est élevée, (supérieur à 5) et moins il est développé
plus sa valeur est petite (inférieure à -5) et plus il l’est.
Concernant le second indicateur, on constate que plus sa valeur est basse et plus le
pays est émergent. En effet, pour des valeurs faibles de l’indicateur, on retrouve les pays dits
émergents comme la Chine, la Tunisie, la Turquie, la Colombie, le Thaïlande, l’Iran, la Chine,
l’Afrique du Sud, etc.

Interprétation de l’indicateur global

Pour l’interprétation de cet indicateur, il sera utilisé sa valeur normé, donc comprise entre
0 et 1. Il a fallu dans un premier temps diviser les pays en fonction de leurs valeurs pour
l’indicateur et selon une règle clair. Pour ce faire, on a choisi les différents quartiles : le premier
et le dernier. L’ensemble des pays est ainsi divisé en trois groupes :
— le premier présentant des valeurs de l’indicateur entre le minimum et le premier quartile,
donc entre 0 et 0,0964. Il s’agit des pays comme la Belgique, le Danemark, l’Allemagne, le
Canada, l’Estonie, les Etats Unis, la Finlande, la France, le Luxembourg, les Royaumes-
Unis, etc mais aussi la Chili, le Suriname, l’Uruguay et la Tunisie à l’extrémité. Mis à part
les derniers pays qui sont des pays émergents, les autres sont des pays dits "développés" ;
— le deuxième groupe présente des valeurs de l’indicateur entre le premier quartile et le
dernier quartile, donc entre 0,0964 et 0,6497. Ce groupe est dominé entre autres par
des pays la Mauritanie, l’Afrique du Sud, la Turquie, le Brésil, le Costa Rica, la Chine,
la Colombie, le Jamaïque, le Pérou, la Roumanie, l’Iran, le Guatemala, l’Azerbaïdjan,
la Namibie etc. Ces pays sont dits "émergents". Cependant, dans le groupe, on note la
présente à l’extrémité des pays comme le Sénégal, le Soudan et la Gambie qui sont des
pays en voie de développement ;
— le dernier groupe prend les pays qui ont un indicateur proche de 1 : entre 0,6497 et 1. Ce
sont tous des pays en voie de développement : le Djibouti, la Côte d’Ivoire, le Cameroun,
le Ghana, l’Angola, le Népal, la Mauritanie, le Bénin, le Burundi, etc.
Ce regroupement est presque parfait, à l’exception de certains pays devant appartenir à d’autres
groupes qui se sont glissés dans les groupes 1 et 2. Il y a donc nécessité de réajustement, se
basant sur les données et la réalité économique de ces pays. Le regroupement final est donc
celui-ci :
Tableau 1.7 – Regroupement des pays en fonction de l’indicateur

Groupe Seuil de l’indicateur Type de pays Exemples de pays
Groupe 1 0 à 0,08 Pays développés la Belgique, le Dane-
mark, l’Allemagne, le
Canada, l’Estonie, les
Etats Unis, la Finlande, la
France, le Luxembourg, les
Royaumes-Unis
Groupe 2 0,08 à 0,64 Pays émergents la Mauritanie, l’Afrique du
Sud, la Turquie, le Brésil,
le Costa Rica, la Chine, la
Colombie, le Jamaïque, le
Pérou, la Roumanie, l’Iran,
le Guatemala, l’Azerbaïd-
jan, la Namibie

Groupe 3 0.64 à 1 Pays en voie de dé- le Djibouti, la Côte d’Ivoire,

veloppement le Cameroun, le Ghana,
l’Angola, le Népal, la Mau-
ritanie, le Bénin, le Burundi
De ce qui précède, on peut conclure que l’indicateur globale renseigne sur le niveau
de développement d’un pays. Lorsqu’il est inférieur à 0,08, le pays est dit "développé" ;
lorsqu’il est compris entre 0,08 et 0,64, le pays est dit "émergent" et lorsqu’il est supérieur à
0,64, alors le pays est dit "en voie de développement".

Chapitre Deux
Classification
2.1 Présentation des méthodes
2.1.1 Objectif de la classification

On dispose d’un ensemble d’individus décrits sur un paquets de variables quantitatives ou
qualitatives ou mélangées. Les méthodes de classification cherchent à partitionner l’ensemble
des individus en des groupes homogènes. Les individus d’une même classe doivent se ressembler
par rapport aux variables d’analyse. Le nombre de classes à former est a priori inconnu et
doit être relativement faible pour que la méthode puisse être considérée comme résumé de
l’information. Il peut cependant arriver que les données présentent les classes naturelles ( pays
développés, pays émergents, pays en voie de développement). Dans ce cas l’objectif serait de
retrouver ces classes.
Par ailleurs, pour le même groupe d’individus, on peut effectuer différents regroupements selon
ce que l’on recherche. C’est ainsi que pour un groupe de personnes physiques par exemple, la
classification peut être faite suivant la catégorie socio-professionnelle ou le niveau de richesse.
2.1.2 Présentation des méthodes

Il existe en général deux méthodes de classification : les méthodes hiérarchiques et les
méthodes non hiérarchiques.
Les méthodes de classification hiérarchique (CH) se divisent en deux grands groupes : la classi-
fication ascendante hiérarchique (CAH) et la classification descendante hiérarchique
(CDH). La CH n’est conseillée que lorsque les données ne sont pas très volumineuses et les
méthodes non hiérarchiques sont limitées par le fait qu’on fixe a priori le nombre de classes.
C’est pour lever en partie ces limites qu’on procède souvent à une classification mixte.
Conformément à la consigne reçue, il s’agira de s’appesantir sur CAH et la classification mixte.
Ceci pourrait se justifier par la taille du tableau à disposition et la précision voulue des résultats.
2.1.3 La CAH
La CAH fournit une typologie d’un ensemble d’individus décrits par les variables quantita-
tives ou transformées en quantitatives. La transformation des variables qualitatives en quanti-
17
2.1. PRÉSENTATION DES MÉTHODES
tatives se fait en considérant tous les axes factoriels provenant de l’analyse de ces variables.
Principe de la méthode
On suppose avoir un tableau de N individus décrits sur des variables quantitatives ou
transformées en quantitatives. La CAH fournit une chaine de partitions binaires en utilisant
l’algorithme suivant :
Étape 0 :
Chaque individu forme une classe. A cette étape, la variance ( ou l’inertie) intra est nulle et la
variance inter est maximale.
Étape 1 :
On regroupe les individu i et i’ les plus proches. On aura ainsi N − 1 classes dont une ( Celle
contenant i et i’) présente une variance intra non nulle. L’inertie intra a donc augmenté et
l’inertie inter a par conséquent diminué. On remet ensuite à jour le tableau des distances et
on se pose la question de savoir : quel indice d’agrégation choisir ? La réponse à cette
question sera donnée plus bas.
Par suite, la classe i, i’ est remplacée par son centre de gravité.
.. ..
..
.. ..
..
Étape N-k :
On aura N − k classes avec une inertie intra-classe supérieure à celle des étapes précédentes et
l’inertie inter-classe quant à elle sera supérieure à celle des étapes précédentes.
Étape N-1 :
C’est la dernière étape.On aura une seule classe qui est formée de tous les individus. L’inertie
intra-classe est maximale et est égale à l’inertie totale, et l’inertie interclasse est nulle.
Choix de l’indice d’agrégation

L’indice d’agrégation utilisé en CAH n’est ni l’indice de saut minimum ni l’indice de saut
maximum. Il convient de rappeler que l’idée de la classification est de :
— trouver une partition qui résume au mieux l’information contenue dans le tableau. Il
faut donc un nombre de classes faible.
— trouver les classes distinctes l’une de l’autre avec une homogénéité à l’intérieur de chaque
classe. Il faut donc une inertie inter grande.
Ces deux caractéristiques sont antagonistes. Une solution à ce problème consiste à minimiser
à chaque étape la perte de l’information résultant du regroupement.On choisit alors l’indice
d’agrégation qui répond à ce critère. On montre que l’indice approprié est la stratégie moment
partition qui est d’ailleurs l’indice utilisé dans la plupart des logiciels statistiques.

2.2. APPLICATION
2.1.4 La classification mixte

Comme il a été dit plus haut, c’est en partie en réponse aux insuffisances des méthodes
hiérarchiques et de partitionnement (non hiérarchiques) qu’il est souvent fait recours à la clas-
sification mixte qui comme le qualificatif mixte l’indique, combine les méthodes de CH et de
CNH pour la construction des partitions.
On fait l’hypothèse qu’on a N individus à classifier. On procède alors comme suit :
— on cherche une partition en K classes avec K > k où k est le nombre de classes final
désiré. on a évidemment K < N . Cette recherche doit se faire par une méthode de
partitionnement.
— on calcule les K centres de gravité sur la partition obtenue. Ces K centres de gravité
sont considérés comme K individus.
— on effectue une classification hiérarchique sur les K centres de gravité et on détermine
le nombre final de classes k à retenir.
— on peut ensuite améliorer la partition en k classes par une méthode de partitionnement.
2.2 Application
2.2.1 Classification ascendante hiérarchique
Choix du nombre de classes

Après l’ACM réalisé précédemment, il a été réalisé une classification ascendante hiérarchique
(CAH). Pour cela, les 30 premiers axes factoriels obtenus à l’issu de l’ACM ont été pris en
compte. Ces derniers regroupent 97, 08% de l’information. On obtient donc l’histogramme des
indices de niveau suivant :
D’après ce graphique, on constate qu’il y a une forte perte d’inertie si on passe de 2 à 1
classe. En effet, on constate une premiière grande chute de la dernière barre à l’avant dernière.
On ne peut donc pas prendre une seule classe. De même, il y a une perte d’inertie lorsqu’on
passe de 3 à 2 classes ou de 4 à 3 classes. On peut donc choisir 3 classes. Ce résultat est
confirmé par le dendrogramme de la figure 8 de l’annexe .10. De plus, la document faite autour
des niveaux de développement des pays conforte ce choix des classes.
Dendrogramme
Le dendrogramme de cette classification est présenté à la figure 8 de l’annexe .10. Pour cette
représentation, le nombre d’éléments finaux a été fixé à 50 pour une bonne visualisation de la
figure. On obtient que la première classe regroupe 58% des individus, la deuxième en regroupe
19% et la dernière 23%. La caractérisation des classes est présenté dans le tableau 2.1.

2.2. APPLICATION
Graphique 2.1 – Histogramme des indices de niveau
Source : Réalisé par les auteurs sous SPAD, 2021
Illustration des classes de la CAH

Le graphique illustratif des classes de cette CAH est présenté à la figure 9 de l’annexe
.11. Ce graphique présente distinctement les trois classes obtenues. Le tableau 2.1 présente les
différentes caractéristiques de chacune des classes. Il s’agit notamment du nombre de pays, de
la distance de ces dernière du centre, des coordonnées et valeurs test sur les deux axes choisis
avant et après consolidation et les parangons.
La DISTO ou distance des classes à l’origine représente le carré entre l’individu et le centre
de gravité de la classe. Il s’agit de la distance de Khi-2 mesurée dans le sous espace vectoriel
de 30 axes choisi.
Les parangons sont les individus les plus "caractéristiques" de chaque classe. Ce sont les
individus de chaque classe qui sont les plus proches du centre de gravité, mais aussi les plus
éloignés. Dans le tableau 2.1, pour chaque classé, il est présenté dans un premier temps les 5
individus plus proches du centre de gravité et, dans un second temps, les 5 individus les plus
éloignés.
D’autres caractéristiques comme la coordonnée de représentation de la classe ainsi que sa
valeur test par axe factoriel choisi sont mentionnées dans le même tableau, mais avant et après
consolidation. Les coordonnées et la valeur test sont des grandeurs qui permettent de décider
de l’axe qui caractérise le mieux une classe. La consolidation, quant-à elle, présente l’intérêt
de réaffecter les individus d’une classe à une autre classe dont ils sont plus proches de façon
à améliorer l’homogénéité des classes. Ce processus s’effectue par des itérations successives à
centres mobiles. Les calculs sont arrêtées dès que l’accroissement de l’inertie inter-classes devient
trop faible d’une itération à l’autre. Dans ce cas, il a fallu 4 itérations pour obtenir des classes
tout à fait homogènes et présentant ces résultats. L’interprétation approfondie de ces derniers

2.2. APPLICATION
et globalement du tableau 2.1 se feront dans la section 2.3.

Tableau 2.1 – Caractérisation des classes
Avant consolidation Après consolidation
Coor V-test Coor V-test
Classe Pays DISTO Pays DISTO Parangons
Axe 1 Axe 2 Axe1 Axe2 Axe 1 Axe 2 Axe1 Axe2
Horeb SEIDOU
Tunisie, Panama, Tur-
Classe 1 82 0,26 0,09 -0,49 1,63 -10,24 72,00 0,36 0,04 -0,60 0,59 -10,75 quie, Paraguay, Brésil
2.2. APPLICATION
Belarus, Arabie-
Saoudite, Oman,
Soudan, Uzbekistan
Tchad, Conco RD,
Classe 2 27 1,87 1,11 0,74 7,64 6,31 35,00 1,55 1,55 0,63 8,53 6,37 Guinée Bissau, Mali
Tajikistan, Bengla-
desh, Côte d’Ivoire,
Djibouti, Ghana
Belgique, Danemark,
Classe 3 32 1,86 -1,19 0,64 -9,10 6,14 34,00 1,78 1,78 0,62 -9,30 6,12 Allemagne, Suède,
22
Pays-bas
Malaisie, Seychelles,
Lithunie, United Arab
Emirates, Grèce
Florian SIAKEN
2.2. APPLICATION
2.2.2 Classification mixte

Après la classification ascendante hiérarchique, il a été réalisé une classification mixte. Ses
méthodes ont été décrites dans la première section de ce chapitre.
Pour la réaliser sous SPAD, on a construit une seule partition par l’algorithme des centres
mobiles autour de 3 des parangons les plus proches des classes choisies en CAH. Il s’agit en
effet du premier parangon de chaque classe, celui qui est le plus proche du centre de gravité.
Les centres choisis sont donc la Tunisie, le Tchad et la Belgique. On se retrouve donc en face
de 3 classes également.
Illustration des classes

Le graphique illustratif de ces classes se retrouve à la figure 10 de l’annexe .12. On y distingue
chaque classe avec les pays qu’elle renferme. Le tableau 2.2 présente les caractéristiques de ces
classes. Les éléments qui y sont sont décrits plus haut dans la dernière partie de la sous section
2.2.1. On peut constater que les résultats sont pratiquement les mêmes qu’en CAH à l’exception
de quelques différences.
On constate en effet qu’ici il n’y a eu de consolidation. Les classes obtenues sont homogènes
et n’ont donc pas besoin de réaffectation. Par ailleurs, les classes 1 et 2 ne comportent plus les
mêmes nombres d’individus. Néanmoins, bien que les coordonnées, les distances à l’origine et
les valeurs-test soient légèrement différentes, elles reflètent les mêmes réalités que celles de la
CAH. De plus, on peut relever quelques légères différences au niveau des parangons, surtout au
niveau de ceux les plus éloignés. Une interprétation plus approfondie sera faite dans la section
2.3.
Tableau 2.2 – Caractérisation des classes obtenues à l’issue de la classification mixte

Coor V-test
Classe Pays DISTO Axe 1 Axe 2 Axe1 Axe2 Parangons
Tunisie, Panama, Tur-
Classe 1 62 0,4544 -0,06088 -0,66305 -0,76033 -10,3497 quie, Paraguay, Brésil
Belarus, Arabie-Saoudite,
Oman, Lesotho, Géorgie
Tchad, Congo RD, Guinée
Classe 2 45 1,14547 0,96836 0,4476 9,34717 5,3996 Bissau, Mali
Sao Tome et Principe, Ré-
publique du Kyrie, Inde,
Ouzbékistan, Swaziland
Belgique, Danemark, Al-
Classe 3 34 1,77533 -1,17065 0,61667 -9,30347 6,12494 lemagne, Suède, Pays-bas
Malaisie, Seychelles, Li-
tuanie, United Arab Emi-
rates, Grèce

2.3. DESCRIPTION DES CLASSES
2.3 Description des classes

On rappelle ici que l’objectif fondamental de la classification est de donner une description
des classes. C’est cet objectif qui justifie cette partie du travail. Pour l’atteindre, on a pris en
compte les 30 premiers axes factoriels pour faire la classification en 3 classes en se référant à
la littérature relative au regroupement des pays. Ces axes expliquent 97, 08% des informations
contenues dans le tableau initial. Toutefois, ce sont les deux premiers axes factoriels qui carac-
térisent les classes comme on verra dans la prochaine section. Le principe de la description des
classes étant le même lorsqu’on a effectué une classification hiérarchique ou une classification
mixte en un même nombre de classes, pour éviter un travail redondant,il sera juste fait la des-
cription des classes issues de la CAH. Ainsi Une description des 3 classes obtenues à l’issue du
processus de la classification ascendante hiérarchique sera faite d’abord par les axes, ensuite
par les variables et enfin il sera fait allusion à l’homogénéité des classes.
2.3.1 Description des classes par les axes

Il s’agit ici de d’identifier les axes qui caractérisent les différentes classes qu’on a. On a le
tableau récapitulatif suivant qui découle de l’analyse des résultats fournis par le logiciel SPAD
et notamment du fichier Excel y afférant :
Tableau 2.3 – Description des classes par les axes

Classes Axes caractéristiques Coordonnées Cosinus Carrés Valeur-Tests
1 Axe 2 -0,60 0,983 -10,748
2 Axe 1 1,05 0,717 8,532
Axe 2 0,63 0,256 6,372
3 Axe 1 -1,17 0,772 -9,303
Axe 2 0,62 0,214 6,125
On sait que l’axe qui décrit le mieux une classe est celui dont la valeur-test en valeur absolu
est la plus élevé. Du tableau précédent, il vient que seul l’axe 2 caractérise la classe 1. Les
classes 2 et 3 sont caractérisées par les axes 1 et 2 mais plus par l’axe 1 d’après les valeur-tests
et les cosinus carres. Ainsi, d’après le sens des axes factoriels, on pourrait dire que les pays de
la classe 1 contient des pays caractérisés d’émergents tandis que les classes 2 et 3 regroupent
les pays caractérisés plus par le sous développement économique, technologique,démographique
et social et dans une moindre mesure que par l’émergence.
2.3.2 Description des classes par les variables

On va à présent voir les variables qui caractérisent les différentes classes. Les variables étant
qualitatives, il sera d’une part observé pour chaque classe le poids de chaque modalité par
rapport aux autres modalités dans la classe et d’autre part, il sera observé pour chaque classe
les modalités qui sont bien représentées dans la classe et très peu représentées dans les autres

2.3. DESCRIPTION DES CLASSES
classes. Autrement dit, on se servira des paramétrages mode classe et classe mode dans
SPAD. Les valeur-tests seront aussi utilisées pour l’analyse dans cette partie afin d’étudier la
significativité des variables. Une variable/modalité étant significative pour une classe lorsque
sa valeur-test est supérieure à 2. Le tableau 12 de l’annexe .13 qui découle des analyses faites
sous SPAD résume la situation. De ce tableau, il ressort trois éléments importants :
— les modalités (qui permettent par ricochet d’identifier les variables correspondantes)
caractéristiques des pays de la première classe sont : Moyen MI, Elevé MP, Elevé GDP_c,
Elevé Internet, Elevé Pop_65+, Elevé PC, Elevé S_VA, Elevé IWS, Moyen Pop_0-14 .
On remarque que ces modalités sont celles qui sont négativement corrélées à l’axe 2. Ce
qui justifie que les la classe 1 est constituée en grande partie des pays dits émergents.
— les modalités caractéristiques des pays de la deuxième classe sont : Faible Internet, Faible
IWS, T_ Elevé P_0-14 Faible MP, Faible GDP_c, Faible PC, T_Elevé MI, T_Elevé
A_ VA, Faible Pop_65+, T_Elevé Pop_g, T_Elevé R_pop, Faible S_VA, Faible IWS.
Ces modalités sont celles qui sont positivement corrélées à l’axe 1 et caractérisent les
pays dits sous-développés Ainsi, avec une faible probabilité de se tromper, on pourrait
affirmer que la classe 2 est composée des pays sous-développés.
— les modalités caractéristiques de la troisième classe sont : Faible MI, T_Elevé MP,
T_Elevé Internet, T_Elevé GDP_c, T_Elevé PC, Faible A_VA, Faible Pop_0-14,
T_Elevé IWS, T_Elevé A_VApW, T_Elevé Pop_ 65+, T_Elevé S_VA, Faible Pop_g,
Faible R_pop . Ces modalités sont celles négativement corrélées à l’axe 1 et caractérisent
les pays dits développés. C’est alors qu’on pourrait dire sans un grand risque de se
tromper que les pays de la classe 3 sont des pays développés.
Par ailleurs, des deux avant-dernières colonnes de ce tableau, il résulte par exemple pour
la classe 1 que 44,44% des pays présentent un moyen taux croissance du PIB élevé mais
que sur l’ensemble des pays de la base ayant un taux de croissance du PIB élevé, 94,12%
sont de la classe 1. La même interprétation peut se faire pour les autres modalités de
la classe 1 ainsi que de celles des autres classes en se référant aux pourcentages de ces
modalités dans la classe concernée et aux pourcentages des classes dans ces différentes
modalités.
2.3.3 Homogénéité des classes

Il s’agit ici de décrire les classes en utilisant les inerties et notamment les inerties inter-
classes. Il est donc important de savoir que plus une classe a une inertie intra faible, plus elle
est homogène. Le tableau suivant présente la décomposition de l’inertie calculée sur 30 axes
utilisés pour la classification avant et après la consolidation.
De l’analyse de ce tableau, il résulte que peu importe que ce soit avant ou après la consolida-
tion, la classe la plus moins homogène est la classe 1. Ainsi il y a une plus grande dissemblance
entre la pays de cette classe que ceux des deux autres classes. En plus, cette classe est moins
homogène avant la consolidation qu’après. Ce qui n’est pas le cas pour les deux autre classes
qui en plus de garder leur sens d’homogénéité présentent des inerties intra relativement faibles

2.4. CONCLUSION PARTIELLE DE LA PREMIÈRE PARTIE
Tableau 2.4 – Décomposition de l’inertie calculée sur 30 axes

Inerties Inerties Inerties
avant après
Inter-classes 0,93120 0,99738
Intra-classe
Classe 1 / 3 1,58302 1,34195

Classe 2 / 3 0,19035 0,33104
Classe 3 / 3 0,20794 0,24215
Totale 2,91252 2,91252

Quotient (I. inter / I. totale) 0,31973 0,34245
( toutes inférieures à 0,35 ). Cela signifie que les pays des classes 2 et 3 se ressemblent entre
eux.
2.4 Conclusion partielle de la première partie

Deuxième partie
Analyse factorielle discriminante

(AFD)
27
Chapitre Trois
Analyse discriminante
3.1 Présentation de la méthode

L’analyse discriminante est un outil statistique qui est utilisé pour des fins descriptives
et d’affectation afin d’analyser une diversité de situations dans différents domaines comme
la finance, le marketing. Elle est utilisée pour modéliser la valeur d’une variable dépendante
qualitative et sa relation avec un ou plusieurs variables explicatives.
On dispose en effet de p variables quantitatives ou transformées en quantitative sur les indi-
vidus. On dispose également d’une variable qualitative à k modalités sur les différents individus.
La variable quantitative divise la population en k sous groupes. L’AFD cherche une combinaison
linéaire des variables explicatives pouvant le mieux discriminer les différents groupes d’indivi-
dus. Ces combinaisons sont appelées fonctions discriminantes. Après avoir retrouvé la meilleure
fonction discriminante, on espère prévoir la classe d’un nouvel individu sachant les valeurs de
ses variables explicatives.
Ainsi, l’analyse factorielle discriminante a deux objectifs : un objectif descriptif qui
consiste à trouver les valeurs (ou modalité) des variables explicatives qui caractérisent le mieux
une classe donnée ; et un objectif prévisionnel qui consiste en l’affectation d’un nouvel in-
dividu et cela sur la base d’une règle de décision construite sur ses variables explicatives.
Généralement, on construit une fonction score qui sera la règle de décision.
3.2 Application
3.2.1 Présentation de la base utilisée

L’objectif poursuivi dans cette partie est de caractériser le niveau de développement des
pays, à partir des différentes variables qui sont bien représentées sur les deux axes factoriels,
obtenus lors de l’ACM finale en première partie de ce rapport. Ces dernières sont des variables
quantitatives. La variable dépendante quant-à elle renseigne la typologie des pays et possède
trois modalités codées 2,2 et 3. 1 correspond à "Pays développé", 2 à "Pays émergent" et 3
correspond à "Pays en voie de développement". On a donc trois groupes à discriminer. En
raison d’une difficulté à implémenter une discrimination de 3 groupes sous SPAD, on a dû faire
recours à SPSS. Les résultats obtenus sont présentés dans les sections qui suivent.
28
3.2. APPLICATION
3.2.2 Vérification de l’existence de différences entre les trois groupes

Il s’agit ici de voir s’il existe de significatives différences entre les trois classes. Autrement
dit, on détermine les variables les plus discriminantes, celles qui influencent le plus les trois
groupes. Cette détermination se fait en utilisant deux tests : le test de Fisher (F) et le
Lambda de Wilks.
— Au sens du test de F, une variable influence les groupes lorsque sa statistique F est
élevé ou lorsque la probabilité qui y correspond est supérieure à 0, 05. Dans le cas
contraire, elle n’influence pas les groupes.
— Au sens du Lambda de Wilks, une variable influence les groupes lorsque son Lambda
de Wilks est inférieur à 0, 90. Dans le cas contraire, elle n’influence pas les groupes.
Lorsque une variable n’influence pas les trois groupes, elle est éliminée du modèle.
Le tableau 3.1 montre que onze (11) des variables ont un Lambda de Wilks inférieur à
0, 90 et une probabilité de Fisher pratiquement nulle (inférieure à 0, 05). Elles influencent donc
toutes les trois groupes et seront par conséquent incluses dans le modèle de discrimination. Les
autres ont été supprimées.
Tableau 3.1 – Variables introduites dans le modèle

Lambda de Wilks F exact
Statistiques ddl1 ddl2 ddl3 Statistiques ddl1 ddl2 Sig.
Internet_1 0,280 1 2 138 177,304 2 138 0,000
Internet_2 0,131 2 2 138 120,973 4 274 0,000
Pop_0-14_1 0,097 3 2 138 100,327 6 272 0,000
GDP_c_2 0,073 4 2 138 91,316 8 270 0,000
S_VA 0,060 5 2 138 82,392 10 268 0,000
A_VApW_1 0,053 6 2 138 74,451 12 266 0,000
A_VApW_2 0,046 7 2 138 68,863 14 264 0,000
Pop_0-14_2 0,043 8 2 138 62,855 16 262 0,000
GDP_c_1 0,040 9 2 138 58,113 18 260 0,000
IWS_2 0,037 10 2 138 54,338 20 258 0,000
R_pop 0,034 11 2 138 51,374 22 256 0,000
Source : Réalisé par les auteurs sous SPSS, 2021
3.2.3 Choix de la meilleure fonction discriminante

Il s’agit ici de vérifier la validité de l’analyse discriminante. On fait en fait le choix de
ou des fonction(s) discriminantes (scores) à choisir. Pour cela, il va falloir se baser sur deux
indicateurs : la corrélation globale et le Lambda de Wilks.
Le tableau 3.2 présente la corrélation globale et la valeur propre de chacune des deux
fonctions discriminantes. D’après ce tableau,les corrélation canoniques des deux fonctions sont
proches de 1. Les deux fonctions peuvent donc être utilisées pour l’analyse. Par ailleurs, la
première fonction discriminante (première valeur propre) concentre 77,5% de l’inertie totale
pendant que la seconde n’en contre que 22,5%.

3.2. APPLICATION
Le tableau 3.3 présente les résultats du test de Wilks. D’après ce tableau les deux fonctions
sont significatives au seuil de 5%. Autrement dit, dans 95% des cas, la connaissance de leurs
valeurs pour un nouveau pays permettra d’identifier sa typologie. Les fonctions discriminantes
permettent donc de classer de nouveaux pays selon les trois groupes de l’étude.
Tableau 3.2 – Valeur propres et corrélation globale

Fonction Valeur % de la va- % cumulé Corrélation
propre riance canonique
1 7,910a 77,5 77,5 0,942
2 2,291a 22,5 100,0 0,834
Source : Réalisé par les auteurs sous SPSS,2021
Tableau 3.3 – Test de Wilks

Test de Lambda Khi-carré ddl Sig.
la ou des de Wilks
fonctions
de 1 à 2 0,034 449,316 22 0,000
2 0,304 158,429 10 0,000
3.2.4 Estimation des coefficients du modèle

Les pouvoirs discriminants des axes sont obtenus dans le tableau 3.4 ci après.
Tableau 3.4 – Coefficients des fonctions discriminantes canoniques

Fonction
1 2
GDP_c_1 0,771 0,007
A_VApW_1 0,717 0,018
Pop_0-14_1 0,608 -0,701
R_pop -0,364 -0,577
S_VA 0,515 -0,628
Internet_1 1,081 0,475
GDP_c_2 0,389 0,698
A_VApW_2 0,420 0,582
IWS_2 0,580 0,264
Pop_0-14_2 0,075 0,569
Internet_2 0,687 0,610
(Constante) 0,000 0,000
Coefficients non standardisés
Source : Réalisé par les auteurs sous
SPSS,2021
En tenant compte de ces coefficients, les fonctions discriminantes peuvent se calculer comme

3.2. APPLICATION
suit :
F1 = 0, 771 × (GDP _c_1) + 0, 717 × (A_V ApW _1) + 0, 608 × (P op_0 − 14_1) − 0, 364 × (R_pop)
+ 0, 515 × (S_V A) + 1, 081 × (Internet_1) + 0, 389 × (GDP _c_2) + 0, 420 × (A_V ApW _2)
+ 0, 580 × (IW S_2) + 0, 075 × (P op_0 − 14_2) + 0, 687 × (Internet_2)
et
F2 = 0, 007 × (GDP _c_1) + 0, 018 × (A_V ApW _1) − 0, 701 × (P op_0 − 14_1) − 0, 577 × (R_pop)
− 0, 628 × (S_V A) + 0, 475 × (Internet_1) + 0, 698 × (GDP _c_2) + 0, 582 × (A_V ApW _2)
+ 0, 264 × (IW S_2) + 0, 569 × (P op_0 − 14_2) + 0, 61 × (Internet_2)
Ainsi, pour un nouveau pays dont les modalités sont connues, il suffira de trouver à partir de
ces dernières les coordonnées factorielles pour chacune des variables du modèle. On calculera
ensuite les valeurs prises par les fonctions discriminantes (scores), ce qui permettra de le classer.
Le pays sera en effet affecté à sa catégorie selon sa distance par rapport aux centres de
gravité des groupes. Les valeurs des fonctions discriminantes pour chacun des trois centre de
gravité est donnée dans le tableau suivant :
Tableau 3.5 – Fonctions aux centres des groupes

Fonction
Typologie 1 2
Pays déve- -2,773 2,326
loppé
Pays -1,135 -1,356
émergent
Pays en Voie 4,455 0,574
de Déve-
loppement
(PVD)
3.2.5 Quelques scores de pays

Le tableau ci-après présente pour quelques pays de la base les scores 1 et 2, les groupes
effectifs et les groupes

3.2. APPLICATION
Tableau 3.6 – Scores de quelques pays

Scores discriminants
Groupe effectif Groupe prévu Fonction 1 Fonction 2
Albanie Emergent Emergent -0,844 -1,604
Belgique Développé Développé -2,702 3,233
Bénin PVD PVD 4,056 1,014
Brésil Emergent Emergent -2,298 -2,225
Cameroun PVD PVD 3,319 -0,341
Chine Emergent Emergent -0,744 -2,173
Danemark Développé Développé -2,702 3,233
Mexique Développé Emergent** -3,074 -1,279
Tchad PVD PVD 5,447 0,791
** : Pays mal classé
3.2.6 Qualité du classement

Il s’agit ici de s’assurer que les fonctions discriminantes classifient bien les individus en
sous-groupes. Le tableau 3.7 présente le classement des pays en utilisant le modèle choisit. De
ce tableau, il ressort que 96,5% des observations originales sont correctement classées, ce qui
permet d’affirmer que le pouvoir prédictif du modèle est relativement meilleur.
Tableau 3.7 – Matrice de confusion

Appartenance au groupe
Typologie prévu Total
Pays dé- Pays PVD
veloppé émergent
Pays dé- 30 2 0 32
veloppé
Effectif Pays 3 68 0 71
émergent
Original PVD 0 0 38 38
Pays dé- 93,8 6,3 0,0 100,0
veloppé
% Pays 4,2 95,8 0,0 100,0
émergent
PVD 0,0 0,0 100,0 100,0
a. 96,5% des observations originales sont classées correctement.
Le graphique suivant illustre la répartition des pays selon leur catégorie après affectation.

3.3. CONCLUSION PARTIELLE DE LA PARTIE
Graphique 3.1 – Fonctions discriminantes
Ainsi, dans le cas de cette étude, sur les 32 pays développés, 30 ont été bien classés et 2
l’ont mal été. De même, sur les 71 pays émergents, 68 ont été bien classés et 3 l’ont mal été.
Par contre, tous les pays en voie de développement ont été bien classés.
3.3 Conclusion partielle de la partie

Conclusion
34
ANNEXE
a
.1. RECODAGE DES VARIABLES
.1 Recodage des variables
Tableau 8 – Recodage des variables

Variables Code
GDP per capita, PPP (constant 2000 international $) GDP _c
GDP per capita growth (annual %) GDP _g
Gross fixed capital formation (% of GDP) FCBF
Agriculture value added per worker (constant 2000 US$) A_V ApW
Agriculture, value added (% of GDP) A_V A
Exports of goods and services (% of GDP) Exports
Foreign direct investment, net inflows (% of GDP) FDI
Improved water source (% of population with access) IWS
Industry, value added (% of GDP) I_V A
Mobile phone subscribers (per 1,000 people) MP
Mortality rate, infant (per 1,000 live births) MI
Personal computers (per 1,000 people) PC
Population ages 0-14 (% of total) P op_0 − 14
Population ages 65 and above (% of total) P op_65+
Rural population (% of total population) R_pop
Services, etc., value added (% of GDP) S_V A
Population growth (annual %) P op_g
Internet users (per 1,000 people) Internet
Continent Continent
Horeb SEIDOU b Florian SIAKEN

.2 Nuage des modalités ACM 1
Graphique 2 – Représentation des modalités dans le plan factoriel, ACM 1
Horeb SEIDOU
.2. NUAGE DES MODALITÉS ACM 1
c
Florian SIAKEN
.3 Contribution des pays, ACM 1
Graphique 3 – Représentation des individus selon leurs contributions dans le plan factoriel, ACM 1
Horeb SEIDOU
.3. CONTRIBUTION DES PAYS, ACM 1
d
Florian SIAKEN
.4 Représentativité des pays, ACM 1
Graphique 4 – Représentation des individus selon leurs CO2 dans le plan factoriel, ACM 1
Horeb SEIDOU
e
.4. REPRÉSENTATIVITÉ DES PAYS, ACM 1
Florian SIAKEN
.5 Nuage des modalités ACM 2
Graphique 5 – Représentation des modalités dans le plan factoriel, ACM 2
Horeb SEIDOU
.5. NUAGE DES MODALITÉS ACM 2
f
Florian SIAKEN
.6 Contribution des pays, ACM 2
Graphique 6 – Représentation des individus selon leurs contributions dans le plan factoriel, ACM 2
Horeb SEIDOU
.6. CONTRIBUTION DES PAYS, ACM 2
g
Florian SIAKEN
.7 Représentativité des pays, ACM 2
Graphique 7 – Représentation des individus selon leurs CO2 dans le plan factoriel, ACM 2
Horeb SEIDOU
h
.7. REPRÉSENTATIVITÉ DES PAYS, ACM 2
Florian SIAKEN
.8. PAYS REPRÉSENTATIFS SUR L’AXE 1 ET 2
.8 Pays représentatifs sur l’axe 1 et 2
Tableau 9 – Pays représentatifs sur l’axe 1, ACM2

Pays Poids relatif Contri Décision Contri CO2 Décision CO2
Angola 0,71 0,76 OUI 0,26 OUI
Australia 0,71 1,74 OUI 0,62 OUI
Austria 0,71 1,64 OUI 0,58 OUI
Belgium 0,71 1,85 OUI 0,66 OUI
Benin 0,71 1,11 OUI 0,37 OUI
Burkina 0,71 1,55 OUI 0,53 OUI
Faso
Burundi 0,71 1,47 OUI 0,50 OUI
Cambodia 0,71 0,89 OUI 0,30 OUI
Cameroon 0,71 0,77 OUI 0,26 OUI
Canada 0,71 1,50 OUI 0,53 OUI
Chad 0,71 1,63 OUI 0,56 OUI
Comoros 0,71 1,19 OUI 0,39 OUI
Congo, 0,71 1,63 OUI 0,56 OUI
Dem. Rep.
Congo, Rep. 0,71 0,89 OUI 0,30 OUI
Cote 0,71 0,74 OUI 0,24 OUI
d’Ivoire
Croatia 0,71 1,19 OUI 0,42 OUI
Czech Re- 0,71 1,65 OUI 0,58 OUI
public
Denmark 0,71 1,85 OUI 0,66 OUI
Eritrea 0,71 1,13 OUI 0,37 OUI
Estonia 0,71 1,55 OUI 0,54 OUI
Ethiopia 0,71 1,48 OUI 0,50 OUI
Finland 0,71 1,74 OUI 0,62 OUI
France 0,71 1,74 OUI 0,62 OUI
Germany 0,71 1,85 OUI 0,66 OUI
Greece 0,71 1,14 OUI 0,39 OUI
Guinea 0,71 1,36 OUI 0,46 OUI
Guinea- 0,71 1,63 OUI 0,56 OUI
Bissau
Horeb SEIDOU i Florian SIAKEN


Hungary 0,71 1,53 OUI 0,54 OUI
Iceland 0,71 1,13 OUI 0,39 OUI
Italy 0,71 1,64 OUI 0,58 OUI
Japan 0,71 1,74 OUI 0,62 OUI
Kenya 0,71 1,21 OUI 0,41 OUI
Korea, Rep. 0,71 1,27 OUI 0,43 OUI
Lao PDR 0,71 1,22 OUI 0,41 OUI
Latvia 0,71 1,35 OUI 0,47 OUI
Lithuania 0,71 0,92 OUI 0,31 OUI
Luxembourg 0,71 1,74 OUI 0,62 OUI
Madagascar 0,71 1,39 OUI 0,48 OUI
Malawi 0,71 1,55 OUI 0,53 OUI
Mali 0,71 1,63 OUI 0,56 OUI
Mauritania 0,71 0,89 OUI 0,30 OUI
Mozambique 0,71 1,41 OUI 0,48 OUI
Nepal 0,71 0,96 OUI 0,31 OUI
Netherlands 0,71 1,85 OUI 0,66 OUI
Niger 0,71 1,55 OUI 0,53 OUI
Nigeria 0,71 1,03 OUI 0,34 OUI
Norway 0,71 1,55 OUI 0,54 OUI
Poland 0,71 1,20 OUI 0,40 OUI
Portugal 0,71 1,27 OUI 0,43 OUI
Singapore 0,71 1,15 OUI 0,40 OUI
Slovak Re- 0,71 1,37 OUI 0,48 OUI
public
Slovenia 0,71 1,37 OUI 0,48 OUI
Spain 0,71 1,56 OUI 0,55 OUI
Sweden 0,71 1,85 OUI 0,66 OUI
Tanzania 0,71 1,48 OUI 0,50 OUI
Togo 0,71 1,17 OUI 0,39 OUI
Uganda 0,71 1,55 OUI 0,53 OUI
United 0,71 1,42 OUI 0,51 OUI
Kingdom
Horeb SEIDOU j Florian SIAKEN


States
Yemen, 0,71 1,26 OUI 0,42 OUI
Rep.
Zambia 0,71 1,27 OUI 0,42 OUI
Source : Réalisé par les auteurs sous Excel,2021
Tableau 10 – Pays représentatifs sur l’axe 2, ACM2

Pays Poids relatif Décision Contri CO2 Décision CO2
Albania 0,71 1,28 OUI 0,26 OUI
Angola 0,71 0,92 OUI 0,20 OUI
Australia 0,71 0,99 OUI 0,22 OUI
Belgium 0,71 1,17 OUI 0,27 OUI
Bolivia 0,71 1,09 OUI 0,22 OUI
Brazil 0,71 1,77 OUI 0,35 OUI
Burkina 0,71 1,30 OUI 0,28 OUI
Faso
Burundi 0,71 1,01 OUI 0,22 OUI
Chad 0,71 1,47 OUI 0,32 OUI
China 0,71 1,01 OUI 0,20 OUI
Colombia 0,71 1,64 OUI 0,33 OUI
Congo, 0,71 1,47 OUI 0,32 OUI
Dem. Rep.
Czech Re- 0,71 0,91 OUI 0,21 OUI
public
Denmark 0,71 1,17 OUI 0,27 OUI
Dominican 0,71 1,27 OUI 0,26 OUI
Republic
Ecuador 0,71 1,12 OUI 0,23 OUI
El Salvador 0,71 1,69 OUI 0,34 OUI
Ethiopia 0,71 1,12 OUI 0,24 OUI
Finland 0,71 1,00 OUI 0,23 OUI
France 0,71 0,99 OUI 0,22 OUI
Germany 0,71 1,17 OUI 0,27 OUI
Guinea- 0,71 1,47 OUI 0,32 OUI
Bissau
Horeb SEIDOU k Florian SIAKEN

.9. CONSTRUCTION DE L’INDICATEUR
Pays Poids relatif Décision Contri CO2 Décision CO2

Indonesia 0,71 1,13 OUI 0,23 OUI
Iran, Isla- 0,71 1,63 OUI 0,33 OUI
mic Rep.
Japan 0,71 1,00 OUI 0,23 OUI
Kazakhstan 0,71 1,02 OUI 0,20 OUI
Luxembourg 0,71 0,99 OUI 0,22 OUI
Madagascar 0,71 1,22 OUI 0,27 OUI
Malawi 0,71 1,30 OUI 0,28 OUI
Mali 0,71 1,47 OUI 0,32 OUI
Mauritius 0,71 1,09 OUI 0,23 OUI
Mexico 0,71 1,15 OUI 0,23 OUI
Morocco 0,71 1,24 OUI 0,25 OUI
Mozambique 0,71 0,97 OUI 0,21 OUI
Netherlands 0,71 1,17 OUI 0,27 OUI
Niger 0,71 1,30 OUI 0,28 OUI
Panama 0,71 1,71 OUI 0,35 OUI
Paraguay 0,71 1,55 OUI 0,31 OUI
Spain 0,71 0,97 OUI 0,22 OUI
St. Vincent 0,71 1,21 OUI 0,25 OUI
and the
Grenadines
Suriname 0,71 1,42 OUI 0,29 OUI
Sweden 0,71 1,17 OUI 0,27 OUI
Tanzania 0,71 1,12 OUI 0,24 OUI
Thailand 0,71 1,22 OUI 0,26 OUI
Tunisia 0,71 2,20 OUI 0,44 OUI
Turkey 0,71 2,06 OUI 0,41 OUI
Uganda 0,71 1,30 OUI 0,28 OUI
Kingdom
Venezuela, 0,71 1,05 OUI 0,21 OUI
RB
Source : Réalisé par les auteurs sous Excel,2021
.9 Construction de l’indicateur
Horeb SEIDOU l Florian SIAKEN

.9. CONSTRUCTION DE L’INDICATEUR
Tableau 11 – Valeurs de l’indicateur pour les premiers et les derniers pays

Pays Indicateur 1 Indicateur 2 Indicateur global Indicateur normé
Albania 1,189608 -7,309891 -2,128021328 0,266047741
Algeria 2,733327 -5,056436 -0,307269415 0,367553134
Angola 9,472908 6,679617 8,382596189 0,85200586
Argentina -6,002106 -5,199595 -5,688860004 0,067533969
Armenia -0,118796 -5,350684 -2,160971082 0,26421082
Australia -14,342192 6,044065 -6,384776614 0,028737201
Austria -13,911009 6,044065 -6,121898283 0,043392447
Azerbaijan 4,221864 -5,036457 0,608041906 0,418580973
Bangladesh 8,130467 2,85277 6,070411184 0,723103483
Belarus -4,313545 1,458725 -2,060441347 0,269815268
Belgium -14,777092 6,044065 -6,64992108 0,013955619
Belize -1,2265 -6,089166 -3,124555795 0,210491779
Benin 11,454612 5,305687 9,05448772 0,889463249
Bolivia 4,540303 -5,46297 0,635702049 0,420123003
Botswana 1,57873 -4,006408 -0,601329981 0,351159504
.. .. .. .. ..
. . . . .
Trinidad and Tobago -5,630145 -3,688882 -4,872407272 0,113050524
Tunisia -3,135414 -8,349425 -5,170611111 0,09642591
Turkey -2,47491 -8,029144 -4,642907151 0,125844964
Uganda 13,523877 6,627859 10,83213816 0,988565772
Ukraine -4,060479 -4,817587 -4,356002737 0,141839644
United Arab Emirates -8,381333 4,581748 -3,321423268 0,199516583
United Kingdom -12,952569 6,044065 -5,537568411 0,075968348
United States -13,363169 4,460953 -6,405837763 0,027563059
Uruguay -6,156124 -3,633236 -5,171359225 0,096384203
Uzbekistan 5,921073 -1,377297 3,072283164 0,555960358
Venezuela, RB -1,623522 -5,900405 -3,292927747 0,201105184
Vietnam 1,947511 -4,299325 -0,490831109 0,357319724
Yemen, Rep. 12,191479 5,209793 9,466301171 0,912421504
Zambia 12,263284 6,627859 10,06359538 0,945720156
Zimbabwe 6,725212 -0,454588 3,92270387 0,6033706
Horeb SEIDOU m Florian SIAKEN

.10 Dendrogramme de la CAH
Graphique 8 – Dendrogramme de la CAH
Horeb SEIDOU
.10. DENDROGRAMME DE LA CAH
n
Florian SIAKEN
.11 Illustration des classes de la CAH
Graphique 9 – Graphique illustratif des classes de la CAH
Horeb SEIDOU
o
.11. ILLUSTRATION DES CLASSES DE LA CAH
Florian SIAKEN
.12 Illustration des classes de la classification mixte
Graphique 10 – Graphique illustratif des classes de la classification mixte
Horeb SEIDOU
p
.12. ILLUSTRATION DES CLASSES DE LA CLASSIFICATION MIXTE
Florian SIAKEN
.13. DESCRIPTION DES CLASSES PAR LES VARIABLES
.13 Description des classes par les variables
Tableau 12 – Description des classes par les variables

Classes Var. Mod. Caract. % mode % classe Valeur-
classe mode Test
Moyen MI 45,83 97,06 6,48
MI
Elevé MI 37,50 81,82 3,94
Elevé MP 45,83 97,06 6,48
MP
Moyen MP 37,50 79,41 3,68
Elevé GDP_c 44,44 94,12 5,95
GDP_c
Moyen GDP_c 38,89 82,35 4,11
Moyen Internet 44,44 94,12 5,95
Internet
Elevé Internet 44,44 94,12 5,95
Elevé Pop_ 65+ 43,06 91,18 5,46
Pop_ 65+
Moyen Pop_ 65+ 33,33 70,59 2,44
1 Elevé PC 41,67 88,24 4,99

PC
Moyen PC 40,28 85,29 4,54
Elevé A_VA 40,28 85,29 4,54
A_VA
Moyen A_VA 36,11 76,47 3,26
Moyen Pop_0-14 40,28 85,29 4,54
Pop_0-14
Elevé Pop_0-14 38,89 82,35 4,11
Elevé A_VApW 40,28 85,29 4,54
A_VApW
Moyen A_VApW 37,50 79,41 3,68
Moyen IWS 37,50 87,10 4,52
IWS
Elevé IWS 37,50 87,10 4,52
S_VA Elevé S_VA 34,72 73,53 2,85
Internet Faible Internet 94,29 94,29 10,78
IWS Faible IWS 82,86 82,86 8,69
Pop_0-14 T_Elevé Pop_0-14 85,71 78,95 8,64
MP Faible MP 80,00 80,00 8,22
GDP_c Faible GDP_c 80,00 80,00 8,22
A_VApW Faible A_VApW 80,00 80,00 8,22
2 PC Faible PC 80,00 80,00 8,22

MI T_Elevé MI 82,86 74,36 8,02
Horeb SEIDOU q Florian SIAKEN

.13. DESCRIPTION DES CLASSES PAR LES VARIABLES
Classes Var. Mod. Caract. % mode % classe Valeur-

classe mode Test
A_VA T_Elevé A_VA 77,14 71,05 7,25
Pop_ 65+ Faible Pop_ 65+ 71,43 71,43 6,83
Pop_g T_Elevé Pop_g 71,43 65,79 6,38
R_pop T_Elevé R_pop 65,71 60,53 5,52
S_VA Faible S_VA 54,29 54,29 4,24
MI C7=Faible MI 97,06 94,29 11,04
MP T_Elevé MP 97,06 86,84 10,42
Internet T_Elevé Internet 94,12 84,21 9,87
GDP_c T_Elevé GDP_c 94,12 84,21 9,87
PC T_Elevé PC 91,18 81,58 9,35
A_VA Faible A_VA 82,35 80,00 8,40
3 Pop_0-14 Faible Pop_0-14 82,35 80,00 8,40

IWS T_Elevé IWS 88,24 68,18 7,97
A_VApW T_Elevé A_VApW 82,35 73,68 7,91
Pop_ 65+ T_Elevé Pop_ 65+ 82,35 73,68 7,91
S_VA T_Elevé S_VA 76,47 68,42 6,99
Pop_g Faible Pop_g 55,88 54,29 4,38
R_pop Faible R_pop 52,94 51,43 3,95
Horeb SEIDOU r Florian SIAKEN

TP Acm

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

TP Acm

Transféré par

Droits d'auteur :

Formats disponibles

RÉPUBLIQUE DU BÉNIN

ECOLE NATIONALE D’ECONOMIE

Filière : Cycle ISE Discipline : Analyse des Données 2

PROJET D0ANALYSE DES DONNEES 2

SEIDOU Horeb & SIAKEN Florian

Novembre M. HADAROU Soulémana

L’École Nationale d’Economie Appliqée et de Management du Bénin fait partie

Horeb SEIDOU i Florian SIAKEN

1.1 Taux d’inertie et taux corrigé de BENZECRI . . . . . . . . . . . . . . . . . . . . 6

2.1 Caractérisation des classes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

3.1 Variables introduites dans le modèle . . . . . . . . . . . . . . . . . . . . . . . . . 29

2.1 Histogramme des indices de niveau . . . . . . . . . . . . . . . . . . . . . . . . . 20

3.1 Fonctions discriminantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

Liste des tableaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii

1 Analyse des Correspondances Multiples 3

1.3.4 Nuage des individus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

II Analyse factorielle discriminante (AFD) 27

Horeb SEIDOU v Florian SIAKEN

3.2.5 Quelques scores de pays . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

Horeb SEIDOU vi Florian SIAKEN

Analyse des Correspondances

1.1 Présentation de la méthode en lien avec les données

1.1.1 Présentation de la base d’étude et justification du choix de

1.1.2 Présentation de l’ACM

1.1.3 Interprétation d’une ACM

1.1.3.1. Inertie expliquée

Horeb SEIDOU 4 Florian SIAKEN

1.1.3.2. Cosinus carrés

1.2 Interprétation des résultats

1.2.1 Description de la base et préalable de l’ACM

Horeb SEIDOU 5 Florian SIAKEN

— la variable identification : "Pays" ;

1.2.2 Choix du nombre d’axes

p désignant le nombre de variables actives et µ , une valeur propre issue de l’ACM.

Tableau 1.1 – Taux d’inertie et taux corrigé de BENZECRI

Horeb SEIDOU 6 Florian SIAKEN

1.2.3 Nuages des variables

Tableau 1.2 – Corrélation Modalités-Axe 1

Horeb SEIDOU 7 Florian SIAKEN

Tableau 1.3 – Corrélation Modalités-Axe 2

1.2.4 Nuage des individus

1.2.5 Interprétation des axes

Interprétation du premier axe factoriel

Horeb SEIDOU 8 Florian SIAKEN

Interprétation du second axe factoriel

Horeb SEIDOU 9 Florian SIAKEN

1.3 ACM après sélection de variables

1.3.1 Liste des variables sélectionnés

Tableau 1.4 – Variables sélectionnées pour cette seconde ACM

Source : Réalisé par les auteurs

Horeb SEIDOU 10 Florian SIAKEN

sections sui suivent.

1.3.2 Choix des axes

1.3.3 Nuage des variables

Tableau 1.5 – Corrélation Modalités-Axe 1

Tableau 1.6 – Corrélation Modalités-Axe 2

Horeb SEIDOU 11 Florian SIAKEN

1.3.4 Nuage des individus

1.3.5 Interprétation des axes

Interprétation du premier axe factoriel

Horeb SEIDOU 12 Florian SIAKEN

que les dernières caractérisent ceux "en voie de développement".

Interprétation du second axe factoriel