Vous êtes sur la page 1sur 24

Master 1 « Economie du développement »

Master 1 « Economie internationale »


Master 1 « Monnaie, banque, finance et assurance »

Statistiques et probabilités appliquées


Analyse exploratoire simple

Base de donnée utilisée pour la suite du cours :


Base de données microéconomiques tirées du « Ghana Living Standards Survey » de 2017 qui décrit 14 006 individus
par un ensemble de variables portant sur un grand nombre de caractéristiques socio-économiques du chef de
ménage, ses revenus, ses dépenses de consommation et ses actifs ; cette base de données est représentative à
l’échelle nationale
Analyse exploratoire simple

Analyse des distributions statistiques des variables qualitatives

• Effectifs, fréquences et fréquences cumulées :

Variable qualitative « pure » Variable ordinale (qualitative ordonnée)


Effectif par Fréquence par Effectif par Fréquence par Fréquence
Modalités Modalités
modalité modalité (%) modalité modalité (%) cumulée (%)
1. Accra 604 4,31 1_No school 9550 68,19 0,00
2. Other Urban 5411 38,63 2_Primary education 539 3,85 68,19
3. Rural Coastal 1148 8,20 3_Basic secondary education 3026 21,61 72,03
4. Rural Forest 3064 21,88 4_Secondary education 610 4,36 93,64
5. Rural Savannah 3779 26,98 5_Superior education 281 2,01 97,99
Somme 14006 100 Somme 14006 1

Variable quantitative discrétisée


Classes de taille de ménages Effectif par Fréquence par Fréquence
(nombre d'individus) classe classe cumulée
Ménage individuel 2854 0,204 0,000
2 à 4 individus 5488 0,392 0,204
5 à 9 individus 5018 0,358 0,596
10 individus et plus 646 0,046 0,954
Somme 14006 1
Analyse exploratoire simple

Analyse des caractéristiques des distributions statistiques des variables quantitatives


• Tendance centrale, dispersion et forme :
Pourcentage de la
Revenu du ménage Log10 (revenu per
Statistique Âge dépense consacré à
per capita capita)
l'alimentation
Nb. d'observations 14006 14006 14006 14006
Minimum 15,000 27,033 1,432 0,012
Maximum 99,000 66148,211 4,821 1,000
Amplitude 84,000 66121,178 3,389 0,988
1er Décile 27,000 650,823 2,813 0,305
1er Quartile 34,000 1232,140 3,091 0,416
Médiane 44,000 2384,697 3,377 0,542
3ème Quartile 57,000 4355,673 3,639 0,669
9ème Décile 70,000 7453,742 3,872 0,782
Intervalle inter-quartile 23,000 3123,533 0,548 0,253
Intervalle inter-décile 43,000 6802,919 1,059 0,478
Somme 647674,000 48454565,312 46999,520 7589,041
Moyenne 46,243 3459,558 3,356 0,542
Variance 253,201 13977815,421 0,172 0,033
Ecart-type 15,912 3738,692 0,414 0,182
Coefficient de variation 0,344 1,081 0,124 0,335
Asymétrie (Skewness) 0,543 4,128 -0,303 -0,031
Aplatissement (Kurtosis) -0,370 33,414 0,378 -0,377
Analyse exploratoire simple

Les représentations graphiques univariées, construction et apports


• Les graphiques dédiés à la représentation de la distribution des variables qualitatives

Diagramme en tuyaux d’orgues (Bar chart) – Effectifs, fréquences


Analyse exploratoire simple

Les représentations graphiques univariées, construction et apports


• Les graphiques dédiés à la représentation de la distribution des variables qualitatives
Diagramme à secteurs circulaires (Pie chart) - Fréquences

𝛼 = 𝑓 360°
Analyse exploratoire simple

Les représentations graphiques univariées, construction et apports


• Les graphiques dédiés à la représentation de la distribution des variables quantitatives
Histogramme – Granularité, densité, effectif et fréquence
Analyse exploratoire simple

Les représentations graphiques univariées, construction et apports


• Les graphiques dédiés à la représentation de la distribution des variables quantitatives
Courbe cumulative – Fonction de répartition
Analyse exploratoire simple

Les représentations graphiques univariées, construction et apports


• Les graphiques analytiques pour les variables continues
Un résumé des caractéristiques de la distribution : le diagramme « boîte à moustaches » (boxplot)

*o Valeur extrême (plus de 3 intervalles interquartiles de Q3)


o Outliers (moins de 3 intervalles interquartiles de Q3)

Limite supérieure « normale »


Min [(Q3 + 1,5 (Q3 – Q1) ; xMAX]
Moustache (whiskers)

Troisième quartile Q3

Boîte (Box) + Moyenne


Médiane
Intervalle interquartile

Premier quartile Q1

Moustache (whiskers)
Limite inférieure « normale »
Max [(Q1 – 1,5 (Q3 – Q1) ; xMIN]

o Outlier (moins de 3 intervalles interquartiles de Q1)


Analyse exploratoire simple

Les représentations graphiques univariées, construction et apports


• Les graphiques analytiques pour les variables continues
Un résumé des caractéristiques de la distribution : tendance centrale, dispersion et forme
Analyse exploratoire simple

Les représentations graphiques univariées, construction et apports


• Les graphiques analytiques pour les variables continues
Un résumé des caractéristiques de la distribution : tendance centrale, dispersion et forme
Analyse exploratoire conditionnelle

Croisement de deux variables qualitatives


• Le tableau de contingence : effectifs, fréquences absolues et distributions marginales

Statut dans l'emploi \ 2. Other 3. Rural 4. Rural 5. Rural


1. Accra Total
Localisation Urban Coastal Forest Savannah
1. Employed 483 4314 956 2633 2700 11086

2. Unemployed 42 448 76 153 482 1201

3. Not in labor force 79 649 116 278 597 1719

Total 604 5411 1148 3064 3779 14006

Statut dans l'emploi \ 2. Other 3. Rural 4. Rural 5. Rural


1. Accra Total
Localisation Urban Coastal Forest Savannah
1. Employed 0,034 0,308 0,068 0,188 0,193 0,792

2. Unemployed 0,003 0,032 0,005 0,011 0,034 0,086

3. Not in labor force 0,006 0,046 0,008 0,020 0,043 0,123

Total 0,043 0,386 0,082 0,219 0,270 1,000


Analyse exploratoire conditionnelle

Croisement de deux variables qualitatives


• Le tableau de contingence : distributions conditionnelles
Distributions conditionnelles en lignes (profils-lignes)
Statut dans l'emploi \ 2. Other 3. Rural 4. Rural 5. Rural
1. Accra Total
Localisation Urban Coastal Forest Savannah
1. Employed 0,044 0,389 0,086 0,238 0,244 1,000

2. Unemployed 0,035 0,373 0,063 0,127 0,401 1,000

3. Not in labor force 0,046 0,378 0,067 0,162 0,347 1,000

Total 0,043 0,386 0,082 0,219 0,270 1,000

Distributions conditionnelles en colonnes (profils-colonnes)


Statut dans l'emploi \ 2. Other 3. Rural 4. Rural 5. Rural
1. Accra Total
Localisation Urban Coastal Forest Savannah
1. Employed 0,800 0,797 0,833 0,859 0,714 0,792

2. Unemployed 0,070 0,083 0,066 0,050 0,128 0,086

3. Not in labor force 0,131 0,120 0,101 0,091 0,158 0,123

Total 1,000 1,000 1,000 1,000 1,000 1,000


Analyse exploratoire conditionnelle

Croisement de deux variables qualitatives


• Représentations graphiques du tableau de contingence : cluster bar chart des profils-lignes

16 % des inactifs du
pays vivent dans la
zone rurale forestière
Analyse exploratoire conditionnelle

Croisement de deux variables qualitatives


• Représentations graphiques du tableau de contingence : cluster bar chart des profils-colonnes

Proportions 1

12 % des individus 0,9

vivant dans les villes 0,8


autres qu’Accra sont
des inactifs 0,7

0,6

0,5

0,4

0,3

0,2

0,1

0
1. Accra 2. Other Urban 3. Rural Coastal 4. Rural Forest 5. Rural Savannah

1. Employed 2. Unemployed 3. Not in labor force


Analyse exploratoire conditionnelle

Croisement de deux variables quantitatives


• Le nuage de points et les droites d’ajustement
Analyse exploratoire conditionnelle

Croisement de deux variables quantitatives


• Le nuage de points et les droites d’ajustement
Analyse exploratoire conditionnelle

Croisement d’une variable quantitative et d’une variable qualitative – Analyse des caractéristiques conditionnelles
• Distributions comparées
Analyse exploratoire conditionnelle

Croisement d’une variable quantitative et d’une variable qualitative – Analyse des caractéristiques conditionnelles
• Distributions comparées – Fonctions de répartition
Analyse exploratoire conditionnelle

Croisement d’une variable quantitative et d’une variable qualitative – Analyse des caractéristiques conditionnelles
• Tableaux de caractéristiques et boxplots comparés

log (revenu log (revenu


Statistique per capita) per capita)
| Urbain | Rural
Nb. d'observations 6015 7991
Minimum 2,190 1,432
Maximum 4,821 4,747
1er Quartile 3,371 2,934
Médiane 3,574 3,198
3ème Quartile 3,789 3,452
Moyenne 3,579 3,187
Variance 0,101 0,159
Ecart-type 0,318 0,399
Coefficient de variation 0,089 0,125
Analyse exploratoire conditionnelle

Croisement d’une variable quantitative et d’une variable qualitative – Analyse des caractéristiques conditionnelles
• Tableaux de caractéristiques et boxplots comparés
Analyse exploratoire conditionnelle

Croisement d’une variable quantitative et d’une variable qualitative – Analyse des caractéristiques conditionnelles
• Tableaux de caractéristiques et boxplots comparés
Analyse exploratoire conditionnelle

Croisement d’une variable quantitative et d’une variable qualitative – Analyse des caractéristiques conditionnelles
• Graphiques de caractéristiques comparées (moyennes / écarts-types)
Analyse exploratoire conditionnelle

Croisement d’une variable quantitative et d’une variable qualitative – Analyse des caractéristiques conditionnelles
• Graphiques de caractéristiques comparées (moyennes / écarts-types)

Vous aimerez peut-être aussi