Projet ADD-1 - Copie - Copie - 052753

Communauté Economique et Monétaire de l’Afrique Centrale
Institut Sous régional de Statistique et d’Economie Appliquée
ANALYSE MULTIDIMENSIONELLE DES DONNEES (ACP – AFC -ACM)
Rédigé par :
ALATSA DONGHO Geovanel
ASSOUMANE DJIBRILA
Sous la supervision de :
Dr DONGMEZO KENFAC PAUL BRICE
Enseignant permanent à l’ISSEA
1
INTRODUCTION GENERALE ........................................................................................ 5
CHAPITRE 1 ANALYSE DES COMPOSANTES PRINCIPALES ................................... 6
Introduction ............................................................................................................................ 6
I. Présentation de la base de données et traitement de données ............................................ 6
II. Réduction de dimension ..................................................................................................... 8
1. Analyse de la matrice de corrélation ............................................................................... 8
2. Indice KMO et test de Bartlett ........................................................................................ 9
3. Qualité de représentation et choix de nombre d’axes factoriels ...................................... 9
4. Réalisation de l’ACP ..................................................................................................... 10
5. Qualité de représentation d’un point et contribution à la formation des axes ............... 10
6.Liaison entre les variables ..................................................................................................... 11
7. Liaison entre les individus............................................................................................. 12
Conclusion ............................................................................................................................ 13
CHAPITRE 2 ANALYSE FACTORIELLE DES CORRESPONDANCES .................... 14
INTRODUCTION ................................................................................................................ 14
I. Présentation des données ............................................................................................... 14
1. Présentation et description du jeu de données ............................................................... 14
b) Sources de données ......................................................................................................... 14
c) Description du tableau de données ................................................................................ 14
d) Présentation des données ............................................................................................... 15
2. Statistiques descriptives ................................................................................................ 15
3. Interprétation des résultats ............................................................................................... 17
Test du Khi-2 ................................................................................................................. 17
a)
Présentation des différents profils ................................................................................. 17
b)
Choix du nombre d’axe factoriel ................................................................................... 18
c)
d)
Contributions à la formation des axes factoriels et qualité de représentation des points
19
Conclusion ........................................................................................................................... 20
CHAPITRE 3 ANALYSE DES CORRESPONDANCES MULTIPLES .......................... 22
Introduction .......................................................................................................................... 22
1. Présentation et description du jeu de données ............................................................... 22
2. Problématique et objectifs de l’étude ............................................................................ 23
3. Statistiques descriptives ................................................................................................ 23
4. Interprétation des résultats d’analyse ............................................................................ 24
5. CHOIX DU NOMBRE D’AXE FACTORIELE .......................................................... 26
6. MESURE DE LA DISCRIMINATION ........................................................................ 28
7. PRESENTATION DES PROFILS ................................................................................ 30
8. POLITIQUE POUR L’AMELIORATION DES RENDEMENTS DE LA Kmer Bank.
32
CONCLUSION ....................................................................................................................... 33
2
LISTE DES TABLEAUX
Tableau 1 : Quelques statistiques descriptives ........................................................................... 7
Tableau 2: Tableau de corrélation .............................................................................................. 8
Tableau 3 : Indice KMO et test de Bartlett ................................................................................ 9
Tableau 4: Valeurs propres et pourcentages d’inertie ................................................................ 9
Tableau 5 : Répartition des Filières de formation par niveau d’étude et de sexe..................... 15
Tableau 6 : Test du Khi-2 ......................................................................................................... 17
Tableau 7: Profils ligne ............................................................................................................ 17
Tableau 8 : Profils colonne....................................................................................................... 17
Tableau 9 : Présentation des variables ..................................................................................... 23
Tableau 10: Statistiques descriptives ....................................................................................... 24
3
SIGLES ET ABBREVIATIONS
AMD : Analyse Multidimensionnelle des Données
ACP : Analyse En Composantes Principales
CAH : Classification P a g e | 4Hiérarchique Ascendante
AFC : Analyse Factorielle Des Correspondances
ACM : Analyse Des Correspondances Multiples
KMO : Kaiser Meyer Olkin
4
INTRODUCTION GENERALE
L’Analyse des données, aujourd’hui plus que par le passé est un outil
incontournable d’aide à la prise de décision. En effet il y a une nécessité de mieux
comprendre ou cerner les problèmes et les phénomènes auxquels nous faisons face
au quotidien ; les méthodes d’analyses des données apparaissent donc comme les
moteurs de la compréhension des phénomènes, en ce sens qu’un phénomène ne
peut être compris que s’il est véritablement observé, étudié et analysé. Dans notre
projet nous nous intéressons aux méthodes d’ADD. Par ce projet nous passons de
la théorie à la pratique il convient donc pour nous dès à présent de réaliser un
travail qui sera principalement piloter par nous-même.
La tâche qui nous a été confiée est de chercher des bases de données adaptées et
appliquer sur ces bases des méthodes appropriées d’ADD pour répondre à des
problématiques spécifiques que nous avons posées au préalable. Pour cela nous
présentons dans ce rapport l’analyse en composantes principale (ACP), l’analyse
factorielle des correspondances (AFC) et enfin l’analyse des correspondances
multiples (ACM).
5
CHAPITRE 1 ANALYSE DES COMPOSANTES
PRINCIPALES
Introduction
L’ACP, l’analyse en composantes principales consiste à transformer des variables
corrélées statistiquement (c’est-à-dire liées entre elles) en nouvelles variables
décorrélées les unes des autres appelées composantes principales, Elle permet de
réduire le nombre de variables, de simplifier une analyse et de pouvoir identifier
le facteur qui provoque le plus de variance. Pour notre projet il est question de
savoir les villes de France qui se ressemblent démographiquement et celles
reflétant le plus l’aspect démographique de la France. Pour répondre à ces
questions nous présenterons d’abord les caractéristiques démographiques de la
population Française avant d’illustrer les villes similaires et celles qui reflètent le
plus les caractéristiques démographiques de la population en France.
I. Présentation de la base de données et traitement de données
1. Source de données
Les données que nous utiliserons pour notre analyse sont issues de nos de nos
enseignants en analyse de données. Ces données fournissent les informations sur
la situation démographique des 22 régions de France et la France à travers 12
variables démographiques.
2. Description du tableau de données
Notre jeu de données est un tableau croisé(lignes-colonnes) :

▪ 14 colonnes dont les deux premières représentent respectivement les individus
et leur code et les 11 autres représentent les variables (statistiques sur la
population). Ces variables regroupées en trois groupes sont :
- Les classes d’âge
✓ H00 : Hommes 0-25 ans 1968 (% de la population totale)
✓ F00 : Femmes 0-25 ans 1968 (% de la population totale)
✓ H25 : Hommes 25-44 ans 1968 (% de la population) totale)
✓ F25 Femmes 25-44 ans 1968 (% de la population totale)
6
✓ H65 : Hommes 65 et plus 1968 (% de la population totale)
✓ F65 : Femmes 65 et plus 1968 (% de la population totale)
- Indice de vieillesse II-Fécondité – mortalité
✓ TFG : Taux de fécondité générale (67-69)
✓ DMH : Durée moyenne de vie Hommes (67-69)
✓ DMF : Durée moyenne de vie Femmes (67-69)
- Comportement global
✓ TRE : Taux net de reproduction
✓ TAN : Taux d’accroissement naturel
▪ 23 lignes dont les 22 premières sont les individus (régions de France) et la dernière
est la France sur lesquelles les 12 variables sont mesurées.
3. Statistiques descriptives
Nous présentons dans le tableau ci-dessous quelques statistiques qui nous

permettrons de caractériser la situation démographique dans les différentes
régions de France ainsi qu’en France dans l’ensemble.
Tableau 1 : Quelques statistiques descriptives
Ecart
N Minimum Maximum Moyenne
type
H00 23 17,2 22,6 20,396 1,7201
F00 23 16,3 21,8 19,539 1,7047
H25 23 11,6 15,1 12,665 0,987
F25 23 11,2 14,2 12,1 0,6551
H65 23 4,2 7,5 5,435 0,9301
F65 23 6,5 11,4 8,526 1,1951
IVI 23 18,6 43,6 27,13 6,7327
TFG 23 57,9 83,5 72,248 7,7159
DMH 23 64,8 69,4 67,496 1,4342
DMF 23 72,8 76,9 74,991 0,9746
TRE 23 10,4 14,2 12,561 1,2427
TAN 23 12 92 57,26 27,227
N valide
23
(liste)
Source : Sortie Spss élaborée par Auteurs
7
A partir de notre Tableau nous pouvons dire qu’en 1968 les femmes et les
hommes ayant un âge compris entre 0 et 25 ans représentent en moyenne chacun
20% de la population française, les hommes et les femmes dont l’âge est compris
entre 25 et 44ans représentent en moyenne chacun 12% de la population en France
puis au-delà de 65ans les hommes représentent 8,5% et les femmes 5,4% de la
population française.
Entre 1967 et 1969 le taux de fécondité en France est de 72% en moyenne avec
un écart d’environ 8%, la durée de vie moyenne chez les hommes est de 67 ans et
celle des femmes est de 75 ans avec un écart d’environ un an pour les deux sexes.
Le taux net de reproduction est de 12,5% en moyenne et le taux d’accroissement
naturel est de 57% en moyenne avec des écarts respectifs de 1% et 27%.
Nous allons maintenant nous intéresser aux corrélations qui pourraient exister
entre les variables considérées dans cette analyse et aussi les ressemblances qui
pourraient exister entre les régions de France.
II. Réduction de dimension
1. Analyse de la matrice de corrélation

La matrice de corrélation nous permettra de voir s’il existe une forte corrélation
entre les variables.
Tableau 2: Tableau de corrélation
H00 F00 H25 F25 H65 F65 IVI TFG DMH DMF TRE TAN
H00 1 0,997 -0,131 -0,025 -0,768 -0,835 -0,888 0,963 -0,71 -0,774 0,917 0,868
F00 0,997 1 -0,13 0,005 -0,792 -0,845 -0,904 0,955 -0,721 -0,772 0,909 0,88
H25 -0,131 -0,13 1 0,77 -0,367 -0,361 -0,214 -0,07 -0,038 0,056 -0,284 0,232
F25 -0,025 0,005 0,77 1 -0,556 -0,49 -0,4 -0,084 -0,111 -0,068 -0,322 0,378
H65 -0,768 -0,792 -0,367 -0,556 1 0,963 0,972 -0,706 0,74 0,661 -0,576 -0,903
F65 -0,835 -0,845 -0,361 -0,49 0,963 1 0,972 -0,788 0,717 0,73 -0,636 -0,923
IVI -0,888 -0,904 -0,214 -0,4 0,972 0,972 1 -0,834 0,756 0,729 -0,717 -0,94
TFG 0,963 0,955 -0,07 -0,084 -0,706 -0,788 -0,834 1 -0,671 -0,713 0,948 0,855
DMH -0,71 -0,721 -0,038 -0,111 0,74 0,717 0,756 -0,671 1 0,897 -0,698 -0,604
DMF -0,774 -0,772 0,056 -0,068 0,661 0,73 0,729 -0,713 0,897 1 -0,704 -0,625
TRE 0,917 0,909 -0,284 -0,322 -0,576 -0,636 -0,717 0,948 -0,698 -0,704 1 0,705
TAN 0,868 0,88 0,232 0,378 -0,903 -0,923 -0,94 0,855 -0,604 -0,625 0,705 1
De l’analyse visuel de ce tableau qui nous donne les coefficients de corrélation

entre les variables, nous pouvons dire qu’en retirant les variables H25 et F25 nos
variables sont fortement corrélés avec des coefficients de corrélation pour la
plupart supérieures à 0.7 en valeur absolue.
8
2. Indice KMO et test de Bartlett
Il est question dans l’analyse du tableau 2 ci-dessous de s’assurer de la pertinence
de nos résultats.
Tableau 3 : Indice KMO et test de Bartlett
Indice de Kaiser-Meyer-
Olkin pour la mesure de la 0,741
qualité d'échantillonnage.
Khi-carré
Test de 614,473
approx.
sphéricité de
ddl 66
Bartlett
Signification 0
On observe que KMO>0,7 et Test de Bartlett<0,05 ceci dit qu’il existe une bonne
corrélation entre les variables et nous aurons une factorisation intéressante qui
résume l’information contenue dans les données en utilisant l’analyse en
composante principale (ACP).
3. Qualité de représentation et choix de nombre d’axes factoriels
Nous avons retenu les deux premiers axes factoriels qui résument 89,4% de
l’information contenue dans nos données, en appliquant la règle de Kaiser qui
préconise de garder que les axes dont les valeurs propres sont supérieures ou
égales à 1. Ceci s’illustre bien dans le tableau 4.
Tableau 4: Valeurs propres et pourcentages d’inertie

Sommes extraites du carré
Valeurs propres initiales
des chargements
Composante
% de la % % de la %
Total Total
variance cumulé variance cumulé
1 8,304 69,199 69,199 8,304 69,199 69,199
2 2,434 20,283 89,482 2,434 20,283 89,482
3 0,674 5,619 95,101
4 0,331 2,762 97,863
5 0,147 1,223 99,086
6 0,059 0,492 99,578
7 0,022 0,182 99,76
9
8 0,016 0,13 99,89
9 0,008 0,065 99,955
10 0,004 0,029 99,984
11 0,001 0,011 99,995
12 0,001 0,005 100
4. Réalisation de l’ACP
La première valeur propre vaut 8,304 et la deuxième valeur propre 2,434 l’écart
entre ces deux valeurs est significatif pour justifier notre choix pour ces deux
premiers axes, nous visualisons cela sur le graphique 1.
Graphique 1: pourcentage d’inertie par composante
Source : Sortie R élaborée par Auteurs

5. Qualité de représentation d’un point et contribution à la formation des axes
Le graphique 1 Nous montre que toutes les variables contribuent bien à la

formation de nos axes avec un pourcentage d’information extraire de plus de 80%
en moyenne chacune, ainsi il y a moins de perte d’information en les réduisant à
l’aide de l’ACP.
Graphique 2 : Contribution des variables à la formation des axes
10
89%
TRE 95%
71%
DMH 68%
92%
IVI 98%
98%
H65 96%
94%
H25 81%
97%
H00 97%
0 0,2 0,4 0,6 0,8 1 1,2
Source : Sortie Excel élaborée par Auteurs
6.Liaison entre les variables
Graphique 3 : Cercle de corrélation
Source : Sortie sous R élaborée par Auteurs
Ce cercle permet de visualiser graphiquement la dispersion des variables

dans le plan factoriel et d’en dégager les corrélations. Dans notre cas, nous avons
apprécier les différentes corrélations à travers la matrice de corrélation. Il faut
noter que toutes nos variables sont bien représentées dans le plan factoriel.
Les variables H25 et F25 sont corrélées et participent fortement à la
formation du second axe, les autres variables participent tous à la formation du
premier axe mais certaines sont opposées aux autres. On observe bien que les
11
variables TFG, F00, H00, TRE et TAN sont opposées aux variables DMF, DMH,
M, F65 et H65
Les variables TFG, F00 et H00 sont fortement corrélées mais relativement
elles sont moins corrélées avec les variables TRE et TAN.
Les variables M, F65 et H65 sont fortement corrélées et elles sont moins
corrélées avec les variables DMH et DMF qui sont bien corrélées entre elles.
Ainsi nous pouvons dire que le premier axe porte l’information sur le
vieillissement et le comportement global des personnes de plus de 25 ans, et le
deuxième axe porte caractérise les personnes de moins de 25 ans.
7. Liaison entre les individus
Graphique 4 : Nuages de point des variables et des régions de France
Source : Sortie sous R élaborée par Auteurs
Le graphique 3 nous montre que les nuages sont relativement bien

représentés, les régions de France pourront être regroupés en trous groupe,
d’abord la région de Bretagne, Champagne-Ardenne, Franche-Comté, Picardie,
Nord-Pas-de-Calais, Pays de la Loire et Basse Normandie présentent relativement
les mêmes caractéristiques démographiques, ensuite les régions de Midi-
Pyrénées, Auvergne, Aquitaine, Languedoc-Roussillon ont aussi les mêmes
caractéristiques et enfin, les régions de Bourgogne, Poitou-Charentes et Centre.
Les caractéristiques démographiques du premier groupe s’opposent à ceux des
12
deux autres. Toute fois la France est mal représentée sur le nuage de point, pour
cela, nous affirmons avec précaution que les régions de Rhône-Alpes et Alsace
sont celle qui reflète au mieux les caractéristiques démographiques de la France.
Conclusion
Au terme de notre analyse nous constatons qu’il était de mieux visualiser les
résultats que nous avons obtenues en ACP, il en ressort donc que nous pouvons
regrouper les régions de France en trois selon leur ressemblance ou leur proximité
ainsi qu’une région qui pourras refléter les caractéristiques démographiques de la
France. Ces groupes de régions ont chacune leurs particularités en termes de
variables démographiques.
13
CHAPITRE 2 ANALYSE FACTORIELLE DES
CORRESPONDANCES
INTRODUCTION
L’analyse factorielle des correspondances (AFC) est l’une des méthodes
d’analyse des données permettant d’analyser le lien entre deux variables
qualitatives nominales observées sur des individus et le comportement de l’une
par rapport à l’autre. Pour notre travail, il sera question de savoir les disciplines
est le même, Quelles sont les disciplines privilégiées par les femmes
(respectivement les hommes). Pour répondre à ces questions nous allons dans un
premier temps présenter la répartition des formations en fonction du diplôme
d’étude et le sexe, dans un second temps nous montrerons le lien existant entre les
deux variables.
I. Présentation des données
1. Présentation et description du jeu de données
b) Sources de données
Le jeu de données représente le nombre d’étudiants des universités françaises par
discipline et par cursus selon le sexe lors de l’année 2007-2008. Le tableau croise
les variables qualitatives Discipline et Niveau-sexe. Il comprend en lignes les 10
disciplines de l’université et en colonnes les croisements des variables niveau
(licence, master et doctorat) et sexe (homme et femme). L’AFC est alors
appliquée entre une variable (Discipline) et le croisement de deux variables
(Niveau-sexe), ce qui est fréquent en AFC. Nous disposons de plus par discipline
du nombre total d’étudiants par niveau, par sexe et du total global (cf. Tableau 6).
c) Description du tableau de données
Nos données sont répertoriées dans un tableau de contingence à 10 lignes et 9
colonnes dont :
▪ Les lignes sont ventilées par les disciplines
▪ Et les colonnes par les 6 cursus selon le sexe et de nombre total d’étudiant
par niveau
▪ Et à l’intersection de la ligne i et de la colonne j se trouve le nombre d’étudiant
en niveau j et en filière i.
14
d) Présentation des données
Les données utilisées pour faire notre AFC se présentent dans le tableau de
contingence suivant :
Tableau 5 : Répartition des Filières de formation par niveau d’étude et de sexe

Filière & Diplôme Licence-F Licence-H Master-F Master-H Doctorat-F Doctorat-H Licence Master Doctorat Total
Droit, sciences politiques 69373 37317 42371 21693 4029 4342 106690 64064 8371 179125
Sciences economiques, gestion 38387 37157 29466 26929 1983 2552 75544 56395 4535 136474
Administration economique et sociale 18574 12388 4183 2884 0 0 30962 7067 0 38029
Lettres, sciences du langage, arts 48691 17850 17672 5853 4531 2401 66541 23525 6932 96998
Langues 62736 21291 13186 3874 1839 907 84027 17060 2746 103833
Sciences humaines et sociales 94346 41050 43016 20447 7787 6972 135396 63463 14759 213618
Pluri-lettres-langues-sciences humaines 1779 726 2356 811 13 15 2505 3167 28 5700
Sciences fondamentales et applications 22559 54861 17078 48293 4407 11491 77420 65371 15898 158689
Sciences de la nature et de la vie 24318 15004 11090 8457 5641 5232 39322 19547 10873 69742
Sciences et techniques des activites physiques et sportives 8248 17253 1963 4172 188 328 25501 6135 516 32152
Total 389011 254897 182381 143413 30418 34240 643908 325794 64658 1034360
Source : Sortie Excel élaborée par auteurs
Graphique 5: Répartition des étudiants par filière de formation
Droit, sciences politiques
Sciences economiques, gestion

3%
Administration economique et
7% 17% sociale
Lettres, sciences du langage, arts
15% Langues
1% 13% Sciences humaines et sociales
4% Pluri-lettres-langues-sciences
21% humaines
9% Sciences fondamentales et
10% applications
Sciences de la nature et de la vie
Sciences et techniques des activites

physiques et sportives

Au regard de ce graphique nous observons que 21% des étudiants étudient
les sciences humaines et sociales viennent les 17% sont en droit et sciences
15
politiques,15% sont en sciences de la nature et de la vie,13% sont en sciences
économiques et gestion,10% sont en langues,9% sont en lettres, sciences du
langage et arts,7% sont en Administration économique et sociale, et enfin ceux
des filières suivantes sont peu représentés : sciences et techniques des activités
physiques et sportives (3%) et pluri-lettres-langues-sciences (1%).
Graphique 6 : Répartition des étudiants par niveau d’étude

800000
600000
NOMBRE D'ÉTUDIANT
400000
200000
0
Licence-F Licence-H Master-F Master-H Doctorat-F Doctorat- Licence Master Doctorat
DIPLÔME H
Droit, sciences politiques
Sciences economiques, gestion
Administration economique et sociale
Lettres, sciences du langage, arts
Langues
Sciences humaines et sociales
Pluri-lettres-langues-sciences humaines

Le graphique ci-dessus montre qu’il y’a plus d’étudiants en Licence ensuite
Master et Doctorat, Il y’a plus de femme dans les formations de niveau Licence
et Master, alors qu’en Doctorat les effectifs sont presque égaux. Les femmes
étudient pour la plupart les sciences humaines et sociales et les hommes les
sciences fondamentales et applications.
Ces analyses étant insuffisantes pour ressortir clairement la répartition des filières
de formations en fonction du diplôme d’étude et le sexe d’un étudiant, nous allons
procéder à l’analyse factorielle.
16
3. Interprétation des résultats
a) Test du Khi-2
Tableau 6 : Test du Khi-2

KHI-2 233907,3
P-Value 0,00
Source : Sortie python élaborée par auteurs
Sur notre base de données, l’hypothèse d’indépendance est rejetée puisque

la probabilité critique est très proche de 0 (P-Value=0,00) et notre Khi-2 est très
significatif (Khi2=233907).
Ainsi il existe des associations entre certaines disciplines et certaines
combinaisons niveau-sexe, qu’une AFC permet de visualiser.
b) Présentation des différents profils
Tableau 7: Profils ligne

Licence-F Licence-H Master-F Master-H Doctorat-F Doctorat-H Licence Master Doctorat Moyenne
Droit, sciences politiques 0,19 0,10 0,12 0,06 0,01 0,01 0,30 0,18 0,02 0,11
Sciences economiques, gestion 0,14 0,14 0,11 0,10 0,01 0,01 0,28 0,21 0,02 0,11
Administration economique et sociale 0,24 0,16 0,05 0,04 0,00 0,00 0,41 0,09 0,00 0,11
Lettres, sciences du langage, arts 0,25 0,09 0,09 0,03 0,02 0,01 0,34 0,12 0,04 0,11
Langues 0,30 0,10 0,06 0,02 0,01 0,00 0,40 0,08 0,01 0,11
Sciences humaines et sociales 0,22 0,10 0,10 0,05 0,02 0,02 0,32 0,15 0,03 0,11
Pluri-lettres-langues-sciences humaines 0,16 0,06 0,21 0,07 0,00 0,00 0,22 0,28 0,00 0,11
Sciences fondamentales et applications 0,07 0,17 0,05 0,15 0,01 0,04 0,24 0,21 0,05 0,11
Sciences de la nature et de la vie 0,17 0,11 0,08 0,06 0,04 0,04 0,28 0,14 0,08 0,11
Sciences et techniques des activites physiques et sportives 0,13 0,27 0,03 0,06 0,00 0,01 0,40 0,10 0,01 0,11

A l’observation de ce tableau on voit bien que les étudiants sont en moyenne
équitablement réparties dans les toutes les filières de l’université (11% pour
chaque filière), une valeur en noir représente le pourcentage des étudiants en
filière i pour le diplôme j.
Tableau 8 : Profils colonne
17
Licence-F Licence-H Master-F Master-H Doctorat-F Doctorat-H Licence Master Doctorat
Droit, sciences politiques 0,18 0,15 0,23 0,15 0,13 0,13 0,17 0,20 0,13
Sciences economiques, gestion 0,10 0,15 0,16 0,19 0,07 0,07 0,12 0,17 0,07
Administration economique et sociale 0,05 0,05 0,02 0,02 0,00 0,00 0,05 0,02 0,00
Lettres, sciences du langage, arts 0,13 0,07 0,10 0,04 0,15 0,07 0,10 0,07 0,11
Langues 0,16 0,08 0,07 0,03 0,06 0,03 0,13 0,05 0,04
Sciences humaines et sociales 0,24 0,16 0,24 0,14 0,26 0,20 0,21 0,19 0,23
Pluri-lettres-langues-sciences humaines 0,00 0,00 0,01 0,01 0,00 0,00 0,00 0,01 0,00
Sciences fondamentales et applications 0,06 0,22 0,09 0,34 0,14 0,34 0,12 0,20 0,25
Sciences de la nature et de la vie 0,06 0,06 0,06 0,06 0,19 0,15 0,06 0,06 0,17
Sciences et techniques des activites physiques et sportives 0,02 0,07 0,01 0,03 0,01 0,01 0,04 0,02 0,01
Moyenne 0,10 0,10 0,10 0,10 0,10 0,10 0,10 0,10 0,10

Ce tableau nous indique que les étudiants sont aussi en moyenne reparties de façon
égale dans les différents niveaux d’études (10% dans chaque niveau d’étude), une
valeur en noir représente le pourcentage des étudiants dans la filière i par rapport
au niveau d’étude j.
c) Choix du nombre d’axe factoriel
Pour le choix du nombre d’axe factoriel, nous allons utiliser la méthode de la part
d’inertie et celle du coude.
Au regard du Graphique 6, d’une part on observe qu’avec seulement trois
premiers axes factoriels on a plus de 90% de l’inertie. Donc les trois (3) axes
factoriels portent une très grande partie de l’information. Ainsi d’après la règle de
la part d’inertie on retient les trois (3) premiers axes. De plus, on observe que le
coude qui correspond à une forte diminution d’inertie se situe de la troisième
valeur propre. Donc la règle du coude nous permet de retenir aussi les trois (3)
premiers axes factoriels. Ainsi la méthode du coude vient confirmer le résultat
obtenu en utilisant la méthode d’inertie.
Graphique 7 : Choix d’axe factoriels
18
Source : sortie sous R élaborée par auteurs
d) Contributions à la formation des axes factoriels et qualité de représentation

des points
Graphique 8: Nuages des point lignes et colonnes
Source : sortie sous R élaborée par auteurs
19
Le graphique 8 montre que les nuages sont bien représentés sauf les nuages des
modalités colonne 1 et 7 qui sont très proche de l’origine, on observe que les
femmes sont pour la plupart inscrites en licence Lettre, sciences du langage et en
master pluri-lettres-langues-sciences humaines et sciences de la nature et de la vie
par contre les hommes sont en master dans les sciences fondamentales et
applications.
Conclusion
Cette analyse nous permis de faire quelques rapprochements entre la filière
de formation et le niveau par sexe. Nous avons noté que la proximité entre les
filières et les niveaux par sexe est expliquée par l’effectif des étudiants dans ces
filières et l’effectif des étudiants dans les niveaux d’études par sexe. Nous avons
réussi à faire un rapprochement entre trois filières de formation et 2 niveaux de
formation par sexe. Mais rappelons que la liaison entre les deux variables est
faible.
20
21
CHAPITRE 3 ANALYSE DES CORRESPONDANCES
MULTIPLES
Introduction
Le chapitre précédant nous a permis de déployer une Analyse Factorielle des

Correspondances (AFC), une méthode d’analyse multidimensionnelle qui permet
d’analyser la liaison entre deux variables qualitatives. Encore appelé Analyse des
Correspondance Binaire, l’AFC est limité car ne prenant en compte que deux
variables. D’où l’intérêt pour nous d’aborder dans ce chapitre une autre méthode
d’analyse multidimensionnel, qui cette fois prend en compte plusieurs variables
qualitatives, il s’agit de l’Analyse des Correspondances Multiples (ACM). En
effet les données d’enquête sur la satisfaction des clients, ou sur les
caractéristiques des clients d’une banque ont généralement plusieurs variables
qualitatives.
Il sera donc question dans ce dernier chapitre de notre projet d’analyse
multidimensionnelle de données, de déployer un modèle d’Analyse des
Correspondances Multiples sur des données sur les caractéristiques des clients
ayant un crédit à la Kmer Bank. Il sera donc question pour nous de ressortir le
profil des différents clients de la banque afin de favoriser la prise des décisions
par les dirigeants.
1. Présentation et description du jeu de données
a. Sources des données
Les données utilisées dans le cadre de ce projet, proviennent du service
client de la banque Kmer Bank, la première banque de Kangaré, qui est
un pays imaginaire. Ce jeu de donnée représente les caractéristiques de 66
clients ayant fait des prêts dans ladite banque.
b. Description de la base de données
Le jeu de données sur lequel porte notre étude est un ensemble de données
constitué de dix (10) variables, résumés dans les tableaux ci-dessous :
22
Tableau 9 : Présentation des variables
Variables signification
Marche Indique la façon dont le client se déplace au quotidien
Assurance indique le type d'assurance dont bénéfice le client
Endettement indique le type d'endettement d client
Famille indique la situation matrimoniale du client
Enfants indique le nombre d'enfant du client
Logement indique si le client possède le logement dans lequel il vit
Profession indique le rang que le client occupe au sein de l'entreprise dans laquelle il travail
Age indique l’Age du client
intitulé indique si le client est un monsieur ou une dame
impayé indique si le client a des dettes impayées à la banque
Source : sortie sous Excel élaborée par auteurs
2. Problématique et objectifs de l’étude
L’objectif de cette étude est de ressortir le profil ou les caractéristiques des clients
ayant pris des crédits à la Kmer Bank. Par la suite, ces résultats pourront être
utilisés afin détecter les créanciers douteux de la banque, et permettre à l’avenir
d’éviter l’accès au crédit à des clients présentant un certain profil.
Plus spécifiquement, notre travail visera à répondre à la question suivante :
- Quel est le profil du client le plus enclin à rembourser son crédit ?
- Quels sont les clients dont le crédit peut être qualifié de douteux ?
- Quelles politiques la banque peut-elle mettre en œuvre pour encourager
le remboursement des dettes ou empêcher la survenue des clients
douteux
Les variables de notre base étant qualitatives, il sera question de présenter les
effectifs et les fréquences des variables. Le tableau ci-dessous :
23
Tableau 10: Statistiques descriptives
Variables Modalités Effectifs Fréquence Variables Modalités Effectifs Fréquence
End_1 18 27,27% Accedant a la propriete 6 9,09%
End_2 15 22,73% Locataire 23 34,85%
Endettement Endettement
End_3 19 28,79% Loge par la famille 6 9,09%
End_4 14 21,21% Loge par l'employeur 3 4,55%
Mobilier / Ameublement 17 25,76% Proprietaire 28 42,42%
Moto 8 12,12% Cadre moyen 17 25,76%
Marche Renovation 18 27,27% Cadre sup. 8 12,12%
Marche
Scooter 6 9,09% Ouvrier non qualifie 11 16,67%
Voiture 17 25,76% Ouvrier qualifie 18 27,27%
AID 31 46,97% Retraite 12 18,18%
AID + Chomage 13 19,70% MLLE 5 7,58%
Assurance
Sans Assurance 12 18,18% Assurance MME 8 12,12%
Senior 10 15,15% MR 53 80,30%
Celibataire 17 25,76% Imp_0 42 63,64%
Impayé
Divorce 5 7,58% Imp_1 24 36,36%
Famille Marie 25 37,88% Au moins un 1 27 40,91%
Enfants
Union libre 13 19,70% Sans Enfants 39 59,09%
Veuf 6 9,09%

On a dans le tableau ci-dessus les différentes modalités de variables avec
leur effectif et d’autre part les proportions de chaque modalité afin d’étudier la
représentativité de chaque modalité. Le déploiement est conditionné par le fait
que les modalités soient bien représentées. En effet, chaque modalité des
différentes variables doit avoir une proportion supérieure à 5%. C’est le cas pour
nos données, ce qui pourrait constituer un justifier l’usage d’une ACM.
4. Interprétation des résultats d’analyse

a. Mesure de la corrélation entre les variables
Tableau 11: Corrélation entre les variables
24
Corrélations entre les variables
Assuranc Endett Famill Logeme Professi
Marche Impaye e ement e Enfants nt on Intitule Age2
Marche 1,000 0,721 0,598 0,700 0,660 0,685 0,602 0,670 0,765 0,678
Impaye 0,721 1,000 0,638 0,787 0,678 0,804 0,679 0,695 0,822 0,735
Assurance 0,598 0,638 1,000 0,502 0,685 0,819 0,748 0,801 0,721 0,822
Endettement 0,700 0,787 0,502 1,000 0,746 0,602 0,562 0,591 0,786 0,626
Famille 0,660 0,678 0,685 0,746 1,000 0,692 0,700 0,732 0,780 0,742
Enfants 0,685 0,804 0,819 0,602 0,692 1,000 0,768 0,797 0,847 0,819
Logement 0,602 0,679 0,748 0,562 0,700 0,768 1,000 0,720 0,815 0,651
Profession 0,670 0,695 0,801 0,591 0,732 0,797 0,720 1,000 0,784 0,862
Intitule 0,765 0,822 0,721 0,786 0,780 0,847 0,815 0,784 1,000 0,736
Age2 0,678 0,735 0,822 0,626 0,742 0,819 0,651 0,862 0,736 1,000
Valeur propre 7,490 0,753 0,415 0,378 0,308 0,191 0,157 0,141 0,101 0,066
Source : Sortie SPSS à partir des données de la Kmer Bank
L’analyse de la corrélation entre les variables de la base, présenté dans le

tableau précèdent, permet d’arriver au fait que la variable qui détermine si un
client possède ou non des impayés, est fortement la marche, l’endettement, le
fait d’avoir des enfants, l’intitulé et l’Age du client. On peut donc soupçonner
que ces variables sont celle qui influence le plus sur le fait d’avoir ou pas un crédit
impayé.
b. Analyse du alpha de Cronbach

Afin d’interpréter les résultats de notre analyse avec pertinence, il est
important de vérifier préalablement quel avaleur du alpha de Cronbach nous le
permet.
Tableau 12 : Statistique du alpha de Cronbach
Variance représentée
Alpha de Total (Valeur
Dimension Cronbach propre) Inertie % de la variance
1 1,000 10,000 1,000 100,000
2 ,854 4,317 ,432 43,174
Total 14,317 1,432
Moyenne ,956a 7,159 ,716 71,587
25
L’on peut voir grâce au tableau précèdent, que la moyenne des alphas de
Cronbach est de 0,956. Étant supérieur à 0,7, il est acceptable, il est une mesure
de la corrélation entre toutes les variables de notre jeu de données. Et les
résultats issus de notre analyse des Correspondances Multiples.
5. CHOIX DU NOMBRE D’AXE FACTORIELE
En ACM, l’inertie total de dépend que du nombre de variables (P) et du

nombre de modalités (K), et est calculée à partir de la forme suivante :
𝐾
𝐼= −1
𝑃
Notre inertie totale est donc égale à 3. Toutefois cette valeur n’est pas
intéressante. Nous appuyons notre choix de la dimension du sous espace de
projection sur l’ajustement des parts d’inertie des axes factoriels dont les valeurs
propres associées sont supérieures à 0,2. Pour ce faire nous recalculons lesdites
valeurs propres par la formule proposée par Benzecri.
𝑃 1
β′ = ( )2 ∗ (𝛽 − )2 Avec P la valeur propre supérieure à 1/𝑃 et 𝑃 le nombre
𝑃−1 𝑃
de variables.
Ainsi après le calcul on a le tableau ci-dessous :
Tableau 13 : Resumé d’information des axes
26
On observe qu’avant de recalculer, les nouvelles valeurs propres en

utilisant la méthode de Benzecri. On ne peut utiliser aucune des méthodes pour
effectuer le choix du nombre d’axes factoriel. D’où la nécessité d’ajustement des
parts d’inertie. A présent nous pouvons appliquer les méthodes du choix d’axes
factoriels. Pour cela, nous allons utiliser la méthode de la part d'inertie et celle
du coude.
Graphique 9 : Screen plot
Source : Sortie Excel à partir des données de la Kmer Bank
Source : Sortie Python à partir des données de la Kmer Bank
27
Au regard du Graphique précédent, d'une part on observe qu’avec
seulement deux (2) premiers axes factoriels on a plus de 78% d’inertie. Donc les
deux (2) premiers axes factoriels portent une très grande partie de l'information.
Ainsi d'après la règle de la part d’inertie on retient les deux (2) premiers axes
factoriels. D'autre part, on observe que le coude qui correspond a une forte
diminution d'inertie se situe au niveau de la deuxième valeur propre. Donc la
règle du coude nous permet de retenir aussi deux (2) premiers axes factoriels.
Ainsi la méthode du coude vient confirmer le résultat obtenu en utilisant la
méthode de la part d’inertie.
Après ajustement des parts d’inertie par la méthode de Benzecri, nous

choisissons deux (2) axes factoriels en s’appuyant sur la méthode du coude et
celle de la part d’inertie.
6. MESURE DE LA DISCRIMINATION
L’analyse de la discrimination permet d’analyser les variables, afin de
déterminer comment ces dernières sont regroupées et discrimine les individus
de la population.
28
graphique 1 : Mesure de discrimination 1
Ainsi, le graphique ci-dessus fais ressortir un regroupement des variables

de notre jeu de données en trois groupes de variables fortement corrélées entre
elles.
 Le premier regroupement, est constitué de variables fortement corrélées

entre elles, qui discriminent le mieux les individus de la population, il s’agit
de l’Age, la Profession et l’Assurance. Ces variables sont celles qui
permette le mieux de différencier les clients de la banque. Il est donc
important que les conditions d’accès aux crédits soient nettement plus
accentuées sur des critères émanant du contrôle de ces variables.
 Le second regroupement de variables est constitué de variables tout aussi
corrélées entre elles, mais qui discriminent moins les individus de la
population que les variables du groupe précèdent, il s’agit de : la marche,
29
le logement, la famille et l’endettement. Ces variables permettent
également de discriminer les clients de la banque, mais dans une moindre
mesure que celles du premier groupe. Ainsi, elles peuvent également
donner lieu à l’objet de critère de second rang lors du traitement des
demande de clients pour l’accès au crédit.
 Enfin, le troisième regroupement, est celui des variables qui ne
discriminent quasiment pas les clients de la Kmer Bank, il s’agit de :
Intitulé, Enfant et Impaye. Ces variables corrélées entre elles, une
condition ou une politique d’accès aux crédits axés sur l’une d’entre elle
aurait un impact négligeable sur le nombre de crédit douteux accordés aux
clients.
Ainsi, il ressort de l’analyse de la discrimination, que les variables des deux

premiers sont celles devant faire l’objet de beaucoup d’attention pour
l’établissement de condition et de politique d’accès au crédit.
7. PRESENTATION DES PROFILS

Le graphique suivant permet de représenter les indivis et les modalités de nos
variables, afin de dégager les profils qui ressortent de notre analyse.
Tracé joint des points de la catégorie
30
Source : Sortie Python à partir des données de la Kmer Bank
On peut ressortir ici trois principaux profils de clients qui peuvent être
discriminé au moyen des variables retenu précédent : l’Age, la Profession
l’Assurance, la marche, le logement, la famille et l’endettement.
Le premier groupe, qui nous intéresse le plus, celui des clients favorables
au remboursement de leur crédit, du fait de leur proximité par rapport à la
modalité qui traduit le fait de ne pas avoir d’impayé. Sur la figure précédente, ce
profil est distingué par l’encadré vert. En nous référant aux résultats sur la
discrimination, on retient que les bons clients de l’entreprise (ceux qui sont
31
favorables au crédit) sont pour la plupart grand (âgée de plus de 50 ans, sont des
cadres moyens, ou supérieur, marié et roulant en moto ou en voiture et ayant
souscrit à une Assurance invalidité et Décès.
Le second groupe, qui nous intéressent également, mais dans le sens où

ils constituent un danger pour les intérêts de la Kmer Bank. Ce groupe est
constitué d’individus ne pouvant potentiellement pas assurer le paiement de
leur crédit. Il ressort de l’analyse du profil de ces personnes sont caractérisés par
la jeunesse (Age en dessous de la trentaine), ils sont des ouvriers non qualifiés,
il se déplacent en scooter, sont logé par la famille, sont célibataire ou divorcé,
sans enfant et ayant souscrit à une Assurance invalidité et Décès et Chômage.
Enfin le troisième groupe, est constitué de personnes n’entrant dans aucun

des groupes précédents, l’analyse de leur profil permet de dégager qu’ils sont
des retraités, veuf, propriétaire de maison et ayant des dettes de type 2.
8. POLITIQUE POUR L’AMELIORATION DES RENDEMENTS DE LA

Kmer Bank.
Afin d’améliorer ses rendements, il est important pour la Banque de mettre
sur pieds un certain nombre de politique pour limiter l’emprunt.
En effet, en fonction de l’appartenance à l’un des groupes présentés ci-

dessus, on peut attribuer mention au client. Concernant au client du premier
groupe, ont leurs associe la mention « BON CLIENT », ceux du second groupe la
mention « MAUVAIS CLIENT » et le troisième groupe la mention « A
EXAMINER ».
Ainsi, le premier groupe est constitué de ceux qui méritent l’accès au

crédit. Les clients entrant dans le second groupe, certes ne mérite pas d’avoir
accès au crédit, cependant les dirigeants de la Kmer Bank peuvent leurs exiger
des garanti beaucoup plus importantes.
32
Pour pallier au problème de non-remboursement de crédit des clients de
ce groupe, la Kmer Bank peut exiger les des paiements beaucoup plus fréquents
(journalier, hebdomadaire ou mensuels). Enfin, les clients du troisième groupe,
leur dossier doivent encore être examiner au travers d’enquêtes, de descentes
sur le terrain et d’autre variables doivent entrer en jeu, afin de déterminer
l’accessibilité de ces derniers aux crédits.
CONCLUSION
Parvenus au terme de projet sur l’analyse des correspondances multiples.
Il en ressort donc que ces méthodes viennent répondre à des problématiques
clairement posées. Nous avons abordé dans le cade de ce travail, la
problématique associée à l’analyse des données d’une banque afin de l’aider à
mieux cerner le profil de ses clients et d’accroitre la rentabilité de son service de
crédit. Il est à noter qu’aux sorties de ces travaux, nous avons donné des
éléments de réponses aux questions posées ; Il est important de noter que les
variables capitales lors de l’analyse d’un dossier de demande de crédit sont :
33
l’Age, la Profession, l’Assurance la marche, le logement, la famille et
l’endettement.
34

Projet ADD-1 - Copie - Copie - 052753

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Projet ADD-1 - Copie - Copie - 052753

Transféré par

Droits d'auteur :

Formats disponibles

Communauté Economique et Monétaire de l’Afrique Centrale

Institut Sous régional de Statistique et d’Economie Appliquée

ANALYSE MULTIDIMENSIONELLE DES DONNEES (ACP – AFC -ACM)

I. Présentation de la base de données et traitement de données

Notre jeu de données est un tableau croisé(lignes-colonnes) :

Nous présentons dans le tableau ci-dessous quelques statistiques qui nous

II. Réduction de dimension

1. Analyse de la matrice de corrélation

Source : Sortie Spss élaborée par Auteurs

De l’analyse visuel de ce tableau qui nous donne les coefficients de corrélation

3. Qualité de représentation et choix de nombre d’axes factoriels

Tableau 4: Valeurs propres et pourcentages d’inertie

Graphique 1: pourcentage d’inertie par composante

Source : Sortie R élaborée par Auteurs

Le graphique 1 Nous montre que toutes les variables contribuent bien à la

Source : Sortie Excel élaborée par Auteurs

6.Liaison entre les variables

Graphique 3 : Cercle de corrélation

Source : Sortie sous R élaborée par Auteurs

Ce cercle permet de visualiser graphiquement la dispersion des variables

Graphique 4 : Nuages de point des variables et des régions de France

Source : Sortie sous R élaborée par Auteurs

Le graphique 3 nous montre que les nuages sont relativement bien

Tableau 5 : Répartition des Filières de formation par niveau d’étude et de sexe

Source : Sortie Excel élaborée par auteurs

Graphique 5: Répartition des étudiants par filière de formation

Droit, sciences politiques

Sciences economiques, gestion

1% 13% Sciences humaines et sociales

Sciences et techniques des activites

Source : Sortie Excel élaborée par auteurs

Graphique 6 : Répartition des étudiants par niveau d’étude

Source : Sortie Excel élaborée par auteurs

Tableau 6 : Test du Khi-2

Sur notre base de données, l’hypothèse d’indépendance est rejetée puisque

b) Présentation des différents profils

Tableau 7: Profils ligne

Source : Sortie Excel élaborée par auteurs

Tableau 8 : Profils colonne

Source : Sortie Excel élaborée par auteurs

Graphique 7 : Choix d’axe factoriels

d) Contributions à la formation des axes factoriels et qualité de représentation

Graphique 8: Nuages des point lignes et colonnes

Source : sortie sous R élaborée par auteurs

Le chapitre précédant nous a permis de déployer une Analyse Factorielle des

2. Problématique et objectifs de l’étude

Source : Sortie Excel élaborée par auteurs

4. Interprétation des résultats d’analyse

Tableau 11: Corrélation entre les variables

Source : Sortie SPSS à partir des données de la Kmer Bank

L’analyse de la corrélation entre les variables de la base, présenté dans le

b. Analyse du alpha de Cronbach

Tableau 12 : Statistique du alpha de Cronbach

Moyenne ,956a 7,159 ,716 71,587

Source : Sortie SPSS à partir des données de la Kmer Bank

5. CHOIX DU NOMBRE D’AXE FACTORIELE

En ACM, l’inertie total de dépend que du nombre de variables (P) et du

Ainsi après le calcul on a le tableau ci-dessous :

Tableau 13 : Resumé d’information des axes

On observe qu’avant de recalculer, les nouvelles valeurs propres en

Graphique 9 : Screen plot

Source : Sortie Excel à partir des données de la Kmer Bank

Source : Sortie Python à partir des données de la Kmer Bank