Académique Documents
Professionnel Documents
Culture Documents
Par
Année académique
2021-2022
Page 0 sur 30
«Cours d’Initiation à l’analyse des données». Destiné aux étudiants de L2 Santé Publique,
dispensé par l’Ass. MANDA MULALA Célestin
PLAN DU COURS
I. OBJECTIF GENERAL
II. OBJECTIFS SPECIFIQUES
III. Chapitre I : INTRODUCTION A L’ANALYSE DES DONNEES
1.1. Définition
1.2. But
1.3. I.0 Les Tableaux des données
1.4. Les différents types des données multidimensionnelles
1.5. Méthodes de l’analyse en composantes principales ACP
1.6. L’analyse factorielle des correspondances (AFC)
1.7. Distance entre les profils, Métrique du χ²
IV. Chapitre II : MESURE ET ANALYSE MULTI-VARIEE DE LA
PAUVRETE
2.1. Introduction
2.2. Définition
2.3. Choix des indicateurs de bien être
2.4. Critères de choix des indicateurs de bien-être
2.5. Mesure de la pauvreté multidimensionnelle
2.6. Les indicateurs et Seuil relatif selon les besoins sociaux de
base
2.7. Biens de confort et d’équipement
2.8. Résultats attendus
2.9. Sources des données
V. Chapitre III : PRESENTATION DES RESULTATS
3.1. Variance totale expliquée
3.2. Matrice des composantes
3.3. Interprétation
3.4. Matrice des composantes
3.5. Analyse de l’incidence de la pauvreté
3.6. Tableau de privations (indices synthétiques)
VI. Chapitre IV : CONCLUSION ET SUGGESTIONS
POLITIQUES.
VII. BIBLIOGRAPHIE
Page 1 sur 30
«Cours d’Initiation à l’analyse des données». Destiné aux étudiants de L2 Santé Publique,
dispensé par l’Ass. MANDA MULALA Célestin
I. OBJECTIF GENERAL
Page 2 sur 30
«Cours d’Initiation à l’analyse des données». Destiné aux étudiants de L2 Santé Publique,
dispensé par l’Ass. MANDA MULALA Célestin
Chapitre I : INTRODUCTION A L’ANALYSE DES DONNEES
1. Définition :
- L’analyse des données (aussi appelée analyse exploratoire des
données ou AED) est un sous domaine des statistiques qui se
préoccupe de la description de données conjointes. On cherche par
ces méthodes à donner les liens pouvant exister entre les différentes
données (les données brutes) et à en tirer une information statistique
qui permet de décrire de façon plus succincte les principales
informations contenues dans ces données. On peut également
chercher à classer les données en différents sous-groupes plus
homogènes.
- L’analyse de données est un domaine qui vise à faire le lien entre les
différentes données statistiques pour les classer, les décrire et les
analyser de manière succincte.
2. But :
- Le but de ces méthodes est de synthétiser les grands tableaux pour
en fournir une présentation simplifiée.
- L'objectif de l’analyse des données est d’extraire une information
statistique qui permet de cerner plus précisément le profil de la
donnée.
- L’analyse des données permet de traiter un nombre très important de données et
de dégager les aspects les plus intéressants de la structure de celles-ci.
- D'autres techniques permettent de regrouper les données de façon à faire
apparaître clairement ce qui les rend homogènes, et ainsi mieux les connaître.
L’analyse des données permet de traiter un nombre très important de données et
de dégager les aspects les plus intéressants de la structure de celles-ci.
Page 3 sur 30
«Cours d’Initiation à l’analyse des données». Destiné aux étudiants de L2 Santé Publique,
dispensé par l’Ass. MANDA MULALA Célestin
Page 4 sur 30
«Cours d’Initiation à l’analyse des données». Destiné aux étudiants de L2 Santé Publique,
dispensé par l’Ass. MANDA MULALA Célestin
Page 5 sur 30
«Cours d’Initiation à l’analyse des données». Destiné aux étudiants de L2 Santé Publique,
dispensé par l’Ass. MANDA MULALA Célestin
Page 6 sur 30
«Cours d’Initiation à l’analyse des données». Destiné aux étudiants de L2 Santé Publique,
dispensé par l’Ass. MANDA MULALA Célestin
4. Les principales méthodes de l’analyse des données
Pour cela, il est très important de bien estimer les corrélations entre les
variables que l’on étudie. On a alors souvent recours à la matrice des
corrélations. Dans le cadre de ce travail, nous allons nous limité à deux de
ces méthodes : L’analyse en composantes principales (ACP) et l’analyse
factorielle des correspondants (AFC).
Page 7 sur 30
«Cours d’Initiation à l’analyse des données». Destiné aux étudiants de L2 Santé Publique,
dispensé par l’Ass. MANDA MULALA Célestin
Les champs d’application sont aujourd’hui multiples, allant de la biologie
à la recherche économique et sociale, et plus récemment le traitement
d’images.
Page 8 sur 30
«Cours d’Initiation à l’analyse des données». Destiné aux étudiants de L2 Santé Publique,
dispensé par l’Ass. MANDA MULALA Célestin
Page 9 sur 30
«Cours d’Initiation à l’analyse des données». Destiné aux étudiants de L2 Santé Publique,
dispensé par l’Ass. MANDA MULALA Célestin
Page 10 sur 30
«Cours d’Initiation à l’analyse des données». Destiné aux étudiants de L2 Santé Publique,
dispensé par l’Ass. MANDA MULALA Célestin
A. Espace des variables
Pour trouver cette droite, il faut déterminer un vecteur unitaire u1 porté par
cette droite avec d(0,u1)=1. Une fois u1 déterminé, on peut démontrer que
le sous-espace H2 s’ajustant au mieux au nuage de points contient
nécessairement u1.
Cette matrice est telle qu’il existe p vecteurs et p constantes λ qui vérifient
l’équation matricielle suivante : C.v = λv
Les p vecteurs v sont les vecteurs propres et les constantes associées sont
les valeurs propres.
Ces vecteurs sont orthogonaux deux à deux et unitaires (de longueur égale
à 1). Ils peuvent être rangés par ordre décroissant des valeurs propres
associées : le premier vecteur propre v1 est associé à la valeur propre la
plus élevé λ1. Les droites engendrées par ces vecteurs propres sont
appelées respectivement le 1er, 2ème, et pième axe principal d’inertie du
nuage.
L’inertie expliquée par H1, le premier axe Principal engendré par v1 est
égale à :
I(H1)= λ1
Page 11 sur 30
«Cours d’Initiation à l’analyse des données». Destiné aux étudiants de L2 Santé Publique,
dispensé par l’Ass. MANDA MULALA Célestin
L’inertie expliquée par H2, le plan engendré par v1 et v2 est égale à :
I(H2)= λ1+ λ2
Les valeurs propres de C représentent donc les parts d’inertie expliquée par
chacun des axes principaux du nuage des individus.
Page 12 sur 30
«Cours d’Initiation à l’analyse des données». Destiné aux étudiants de L2 Santé Publique,
dispensé par l’Ass. MANDA MULALA Célestin
La recherche d’axes portant le maximum d’inertie équivaut à la
construction de nouvelles variables (auxquelles sont associés ces axes) de
variance maximale.
Page 13 sur 30
«Cours d’Initiation à l’analyse des données». Destiné aux étudiants de L2 Santé Publique,
dispensé par l’Ass. MANDA MULALA Célestin
En d’autres termes, on effectue un changement de repère dans Rp de façon
à se placer dans un nouveau système de représentation où le premier axe
apporte le plus possible de l’inertie totale du nuage, le deuxième axe le
plus possible de l’inertie non prise en compte par le premier axe, et ainsi
de suite.
Il y en a p.
Le premier axe est celui associé à la plus grande valeur propre λ1.
On le note u1.
Composantes principales
Exemple :
Page 14 sur 30
«Cours d’Initiation à l’analyse des données». Destiné aux étudiants de L2 Santé Publique,
dispensé par l’Ass. MANDA MULALA Célestin
L’analyse factorielle des correspondances (en sigle AFC) est une méthode
statistique d’analyse des données mise au point par Jean-Paul Benzecri à
l’Université Pierre-et-Marie-Curie à Paris (ISUP et Laboratoire de
statistique multidimensionnelle).
Le principe de ces méthodes est de partir sans a priori sur les données et de
les décrire en analysant la hiérarchisation de l’information présente dans
les données. Pour ce faire, les analyses factorielles étudient l’inertie du
nuage de points ayant pour coordonnées les valeurs présentes sur les lignes
du tableau de données.
Page 15 sur 30
«Cours d’Initiation à l’analyse des données». Destiné aux étudiants de L2 Santé Publique,
dispensé par l’Ass. MANDA MULALA Célestin
- L’histogramme des valeurs propres permet de voir le type de répartition
de l’information entre les différents axes et l’étendue en dimension de
celle-ci.
- Le premier axe d’inertie oppose les points, c’est-à-dire les lignes du
tableau ayant les plus grandes distances ou “différences”.
- La première valeur propre d’inertie, (associée à ce premier axe) mesure
la quantité d’information présente le long de cet axe, c’est-à-dire dans
cette opposition.
Chaque ligne du tableau des fréquences lignes peut être vue comme la liste
des coordonnées d’un point dans un espace à q dimensions. On obtient
ainsi le nuage des individus lignes.
Page 16 sur 30
«Cours d’Initiation à l’analyse des données». Destiné aux étudiants de L2 Santé Publique,
dispensé par l’Ass. MANDA MULALA Célestin
La ressemblance entre le profil colonne j et le profil colonne 1 est mesuré
par :
2.1. Introduction
La pauvreté est l’un des plus grands problèmes auxquels font face les
diverses sociétés du monde actuel. Ses conséquences diffèrent selon la
région du monde que l’on traite, allant de l’exclusion sociale dans les pays
riches jusqu’à la malnutrition et la mort dans les pays les plus pauvres. Ces
problèmes sont des vraies maladies pour une société, raison pour laquelle
tous les gouvernements qui ont un souci pour le sort des individus du pays
de cette catégorie ont déclaré leur intention de lutter contre ce fléau.
2.2. Définition
Page 17 sur 30
«Cours d’Initiation à l’analyse des données». Destiné aux étudiants de L2 Santé Publique,
dispensé par l’Ass. MANDA MULALA Célestin
Le rapport du PNUD 2007 affirmait que le manque de revenu ne fournit
qu’une vue partielle des multiples facteurs agissant sur le bien être des
individus. Une nouvelle mesure de la pauvreté prenant en compte d’autres
indicateurs tels que l’espérance de vie, la santé, l’alimentation, l’éducation
…serait le mieux indiqué. C’est ainsi qu’un indice de pauvreté a été
élaborer par Anand et Sen en 1997 (Sami BIBI, 2002). Cet indice appelé
IPH se met sous la forme suivante :
Page 18 sur 30
«Cours d’Initiation à l’analyse des données». Destiné aux étudiants de L2 Santé Publique,
dispensé par l’Ass. MANDA MULALA Célestin
plusieurs indicateurs de bien-être individuel et d’un seuil de pauvreté
relatif à chacun des indicateurs sélectionnés.
2.6. Les indicateurs et Seuil relatif selon les besoins sociaux de base
Comme cela a été indiqué plus haut, ce qui a motivé le choix des
indicateurs et le choix de la méthodologie de calcul des seuils c’est à la
fois la disponibilité des données issues l’enquête de 2005 auprès des
ménages et les normes retenues par cette enquête comme minimum de
bien-être. Afin d’assurer une meilleure compréhension des variables
retenues dans cette étude, il est opportun d’expliciter le contenu des
indicateurs qui ont été attachés à ces variables.
A. Dimension éducation
B. Dimension santé
C. Dimension Emploi
D. Dimension eau
Page 19 sur 30
«Cours d’Initiation à l’analyse des données». Destiné aux étudiants de L2 Santé Publique,
dispensé par l’Ass. MANDA MULALA Célestin
E. L’information
H. Énergie
G. Habitat
Pour cette variable, le ménage est jugé par la nature des matériaux de
murs, un ménage avec matériaux de murs en planche, bois ou natte sera
considéré pauvre.
J. Éducation
Page 20 sur 30
«Cours d’Initiation à l’analyse des données». Destiné aux étudiants de L2 Santé Publique,
dispensé par l’Ass. MANDA MULALA Célestin
La mesure de la pauvreté multidimensionnelle implique habituellement la
construction des indices de privation qui incorporent l’information fournie
par plusieurs indicateurs de privation.
Les résultats attendus de cette étude sont d’une part identifier les individus
pauvres dans les différentes dimensions et les groupes prioritaires et,
d’autre part présenter les contours d’une politique efficace de lutte contre
la pauvreté.
Les données qui font l’objet d’analyse dans cette étude sont issues des
bases de données de l’enquête congolaise auprès des ménages (2005).
Compte tenu de la disponibilité des informations sur les ménages dont les
données ont été recueillies par l’INS, nous n’avons retenu que les ménages
dont le répondant aux questionnaires fut le chef de ménage; ce qui nous
donne un échantillon de 2081 ménages. L’ACP appliquée à ces 2081
ménages et tenant des variables retenues donne les résultats ci-après.
Page 21 sur 30
«Cours d’Initiation à l’analyse des données». Destiné aux étudiants de L2 Santé Publique,
dispensé par l’Ass. MANDA MULALA Célestin
Page 22 sur 30
«Cours d’Initiation à l’analyse des données». Destiné aux étudiants de L2 Santé Publique,
dispensé par l’Ass. MANDA MULALA Célestin
Page 23 sur 30
«Cours d’Initiation à l’analyse des données». Destiné aux étudiants de L2 Santé Publique,
dispensé par l’Ass. MANDA MULALA Célestin
3.2 Matrice des composantes
3.3 Interprétation
Page 24 sur 30
«Cours d’Initiation à l’analyse des données». Destiné aux étudiants de L2 Santé Publique,
dispensé par l’Ass. MANDA MULALA Célestin
Il s’en suit que l’ampleur des privations au sein des ménages se résume sur
l’accès à l’eau potable, Emploi et de biens de confort tel que les chaises
fauteuils; Nos indices synthétiques.
Page 25 sur 30
«Cours d’Initiation à l’analyse des données». Destiné aux étudiants de L2 Santé Publique,
dispensé par l’Ass. MANDA MULALA Célestin
3.5 Analyse de l’incidence de la pauvreté
On a le graphique suivant :
Commentaires :
Page 26 sur 30
«Cours d’Initiation à l’analyse des données». Destiné aux étudiants de L2 Santé Publique,
dispensé par l’Ass. MANDA MULALA Célestin
– 48% de chef de ménage d’aucun niveau souffre de la privation en eau
potable, 36% manque d’emploi, 70% manque des chaises fauteuils.
– 40%, de chef de ménage du niveau non formel sont privés d’eau, 27%
manquent d’emploi, 48% n’ont pas des fauteuils.
– 52% de niveau secondaire sont privés d’eau, 22% sont privés d’emploi,
53% n’ont pas des fauteuils.
Il ressort que les chefs de ménages avec un faible niveau sont les plus
concernés par des privations en eau potable, Emploi, chaise fauteuils.
Voir le graphique ci haut.
Il est à remarquer que la privation en eau est fortement liée aux
autres privations (voir la matrice de corrélation).
Il en résulte de l’analyse que 648, soit 31% de ménages sont privés
simultanément de l’eau et des biens de confort tel que les chaises
fauteuils.
Page 27 sur 30
«Cours d’Initiation à l’analyse des données». Destiné aux étudiants de L2 Santé Publique,
dispensé par l’Ass. MANDA MULALA Célestin
Chapitre IV : CONCLUSION ET SUGGESTIONS
POLITIQUES.
Comme l’État joue un rôle principal dans l’offre de ses services de base on
ne peut que constater que l’amélioration de la situation dans ces
dimensions dépendra largement, mais pas exclusivement, à l’initiative
prises par cet acteur.
Les résultats de notre analyse suggèrent que l’accès aux services de base
mérite une attention particulière dans la formulation d’une stratégie de
développement.
Page 28 sur 30
«Cours d’Initiation à l’analyse des données». Destiné aux étudiants de L2 Santé Publique,
dispensé par l’Ass. MANDA MULALA Célestin
Étant donné que la privation en eau est corrélée à l’habitat il convient que
nous suggérions au gouvernement de promouvoir :
Tel fut le but de notre travail, ce travail présente une méthodologie pour
trouver les indices synthétiques à partir de plusieurs indicateurs de
privation; nous avons aussi les différentes corrélations entre les différentes
privations. Les ménages pauvres se caractérisent par la privation en eau
potable, le manque d’emploi pour le chef de ménage, manque des chaises
fauteuils.
V. BIBLIOGRAPHIE
1. Cours d’analyse des données, L1 Mathématiques. Prof Eugene Mbuyi
(2007-2008),
2. Cours de Statistique descriptive G2 Math, Prof Manya Ndjadi Leonard
(2006-2007)
3. Rapport mondial(2007) Programme nations Unis pour le développent,
PNUD,
4. Jean François Durand, Élément d’analyse factoriel, Université
Montpellier II.
5. Pierre Delgado, Mathématiques Appliquées, 2eme Edition
6. https://fr.wikipedia.org/wiki/Analyse_des_correspondances_multiples
7. https://www.lpsm.paris/pageperso/goutte/index_fichiers/
AutresEnseignement/Master_2_Info/Cours4_EID_07_08.pdf
8. https://fr.wikipedia.org/wiki/Analyse_des_donn%C3%A9es
Page 29 sur 30
«Cours d’Initiation à l’analyse des données». Destiné aux étudiants de L2 Santé Publique,
dispensé par l’Ass. MANDA MULALA Célestin