Vous êtes sur la page 1sur 7

OUTILS STATISTIQUES

TRAVAUX PRATIQUES
« STATISTIQUE DESCRIPTIVE »
ETUDE DE CAS
ENQUETES NATIONALES SUR LA POPULATION
ET LA SANTE FAMILIALE

Septembre-Décembre 2022

MUSTAPHA BERROUYNE
INGENIEUR EN CHEF
STATISTICIEN DEMOGRAPHE CHERCHEUR
On se propose de réaliser des travaux pratiques pour l’élément de module « Statistique
descriptive », assuré par le Professeur Abdesselam Fazouane, avec les outils statistiques Stata, R
et Spss.
Pour ce faire, un extrait de la base de données d’une Enquête Nationale sur la Population et la Sante
Familiale, provenant du questionnaire « FEMMES » (BD.xlsx), a été retenu pour réaliser ces travaux
pratiques.
1. Création/manipulation d’une base de données
Donner le code Stata pour :
✓ Importer le fichier « BD.xlsx »1 et créer un fichier « dta ».
On suppose que le fichier BD.xlsx se trouve dans le chemin suivant : « D:\TP »
import excel «D:\TP\BD.xlsx", sheet("Sheet1") firstrow
✓ Nommer ce fichier (base de données) par « BD.dta ».
save «D:\TP\BD.dta"
✓ Renommer les variables comme suit :
Ancien nom Nouveau nom Etiquette Ancien nom Nouveau nom Etiquette
de la variable de la variable de la variable de la variable de la variable de la variable
V1 m_interv Mois de l'interview V7 n_scolaire Niveau scolaire
V2 a_interv Année de l'interview V8 fecondite Nombre d’enfants
Moyens contraceptifs
V3 m_naiss Mois de naissance V9 m_contrac
utilisés
V4 a_naiss Année de naissance V10 q_b_e Quintile du bien être
V5 region Région de résidence V11 poids Pondération
V6 milieu Milieu de résidence

rename V1 m_interv
rename V2 a_interv
rename V3 m_naiss
rename V4 a_naiss
rename V5 region
rename V6 milieu
rename V7 n_scolaire
rename V8 fecondite
rename V9 m_contrac
rename V10 q_b_e
rename V11 poids
✓ Donner les étiquettes de ces variables.
label variable m_interv "Mois de l'interview "
label variable a_interv "Année de l'interview"
label variable m_naiss "Mois de naissance"
label variable a_naiss "Année de naissance"
label variable region "Région de résidence"
label variable milieu "Région de résidence"
label variable n_scolaire "Niveau scolaire"
label variable fecondite "Niveau scolaire"
label variable m_contrac "Moyens contraceptifs "
label variable q_b_e "Quintile du bien être"
label variable poids "Pondération"
✓ Donner les étiquettes des valeurs des variables suivantes

1
Ce fichier vous sera communiqué.
Page | 2
Variable Valeurs Etiquettes Variable Valeurs Etiquettes
2 Laayoune-Boujdou-sakia Al Hamra 1 Milieu urbain
milieu
3 Guelmim-Es-smara 2 Milieu rural
4 Souss-Massa-Draa 0 Sans
5 Gharb-Chrarda-Bni Hssen 1 Primaire
n_scolaire
6 Chaouia-Ouardigha 2 Secondaire
7 Marrakech-Tensift-Al Haouz 3 Supérieur
8 Oriental 0 Jamais
region 9 Grand-Casablanca 1 Méthodes folkloriques
u_contrac
10 Rabat-Sale-Zemmour-Zaer 2 Méthodes traditionnelles
11 Doukkala-Abda 3 Méthodes modernes
12 Tadla-Azilal 1 Le plus pauvre
13 Meknes-Tafilalet 2 Second
14 Fes-Boulemane q_b_e 3 Moyen
15 Taza-Al Hoceima-Taounate 4 Quatrième
16 Tanger-Tetouan 5 Le plus riche

* Variable région
label define region 2 "Laayoune-Boujdou-sakia Al Hamra" 3 "Guelmim-Es-smara" 4 "Souss-Massa-Draa" 5
"Gharb-Chrarda-Bni Hssen" 6 "Chaouia-Ouardigha" 7 "Marrakech-Tensift-Al Haouz" 8 "Oriental" 9 " Grand-
Casablanca" 10 "Rabat-Sale-Zemmour-Zaer" 11 "Doukkala-Abda" 12 "Tadla-Azilal" 13 "Meknes-Tafilalet" 14 "
Fes-Boulemane" 15 "Taza-Al Hoceima-Taounate" 16 " Tanger-Tetouan"

label define milieu 1 "Milieu urbain" 2 "Milieu rural"


label define n_scolaire 0 "Sans" 1 "Primaire" 2 "Secondaire" 3 "Supérieur", replace
label define u_contrac 0 "Sans" 1 "Méthodes folkloriques" 2 "Méthodes traditionnelles" 3 "Méthodes modernes"
label define q_b_e 1 "Le plus pauvre" 2 "Second" 3 "Moyen" 4 "Quatrième" 5 "Le plus riche"

label values region region


label values milieu milieu
label values n_scolaire n_scolaire
label values u_contrac u_contrac
label values q_b_e q_b_e
✓ Créer les variables suivantes :
dinterv_cmc = 12 * (a_interv-1900) + m_ interv
dnaiss_cmc = 12 * (a_naiss-1900) + m_naiss
age = (dinterv_cmc- dnaiss_cmc) / 12

* Création de nouvelles variables


generate dnaiss_cmc = 12 * (a_naiss-1900) + m_naiss
generate dinterv_cmc = 12 * (a_interv-1900) + m_interv
generate age = (dinterv_cmc-dnaiss_cmc) / 12
✓ Créer l’étiquette de la variable age : « Age de la femme ».
label variable age "Age de la femme"
✓ Recoder les valeurs de la variable « age » en « age_g », qui comprend 7 classes comme suit :
Valeurs Valeurs Etiquettes Valeurs Valeurs Etiquettes
« age_g
1 » 15 ≤« age » 19 Moins
age ≤ « age_g
de 20»ans « age_g
5 » 35 ≤« age » 39 35-39
age ≤ « age_g
ans»
2 20 ≤ age ≤ 24 20-24 ans 6 40 ≤ age ≤ 44 40-45 ans

Page | 3
3 25 ≤ age ≤ 29 25-29 ans 7 45 ≤ age ≤ 49 45-49 ans
4 30 ≤ age ≤ 34 30-34 ans

recode age (15/19=1) (20/24=2) (25/29=3) (30/34=4) (35/39=5) (40/44=6) (45/49=7) ,g(age_g)
✓ Sauvegarder le fichier BD.dta
save "D:\TP\BD.dta"

-------------------------------------
2. Sélection de données et fusion de fichiers
Donner le code Stata pour :
✓ Créer les bases de données relatives aux deux milieux de résidence (variable « milieu »), et les
nommer, respectivement, par BD_URBAIN et BD_RURAL.
/* Sous population des citadins milieu =1 (urbain) */
use "D:\TP\BD.dta" if milieu ==1
save "D:\TP\BD_URBAIN.dta"
/* Sous population des ruraux milieu = 2 (rural) */
use "D:\TP\BD.dta" if milieu ==2
save "D:\TP\BD_RURAL.dta"
✓ Fusionner les 2 bases de données BD_URBAIN et BD_RURAL. Nommer ce fichier par BD_URBRUR.
/* Fusion des BD_URBAIN et BD_RURAL */
use "D:\TP\BD_URBAIN.dta"
append using "D:\TP\BD_RURAL.dta"
save "D:\TP\BD_URBRUR.dta"
✓ Ouvrir la base de données BD.dta en récupérant uniquement les 7 premières variables. Nommer
ce fichier par BD7P.dta
/* Ouvrir la base de données BD.dta en récupérant uniquement les 7 premières variables */
use m_inter a_inter m_naiss a_naiss region n_scolaire using "D:\TP\BD.dta"
/* Nommer ce fichier par BD7P.dta */
save "D:\TP\BD_7P.dta"

✓ Ouvrir la base de données BD.dta en récupérant uniquement les 7 dernières variables. Nommer
ce fichier par BD7D.dta
/* Ouvrir la base de données BD.dta en récupérant uniquement les 7 dernières variables. */
use fecondite m_contract q_b_e poids dinterv_cmc dnaiss_cmc age age using "D:\TP\BD.dta"
/* Nommer ce fichier par BD7D.dta
save "D:\TP\BD_7D.dta"
✓ Fusionner les fichiers BD7P.dta et BD7D.dta, en précisant les conditions nécessaires pour la
réussite de cette opération.
/* Fusionner les fichiers BD7P.dta et BD7D.dta, en précisant les conditions nécessaires pour la réussite de cette
opération.*/
use "D:\TP\BD_7P.dta"
append using "D:\TP\BD_7P.dta"
save "D:\TP\BD_BD.dta"
3. Agrégation de données
On souhaite créer une base de données qui contient des données agrégées du nombre moyen
d’enfants donné par les femmes marocaines selon la région de résidence.
Donner le code Stata pour :
✓ Créer cette base de données. Nommer ce fichier par NME_REGION.dta.
collapse (mean) fecondite, by(region)
save "D:\TP\ NME_REGION.dta.dta"

Page | 4
✓ Reprendre cette manipulation en considérant la variable « age » de la femme.
collapse (mean) age, by(region)
save "D:\TP\ AGE_REGION.dta.dta"

-------------------------------------
4. Analyse statistique univariée
❖ Avec le logiciel Stata
On considère de nouveau la base de données BD.dta. Donner le code Stata pour :
✓ Faire un tri à plat pour les variables de la base de données.
✓ Résumer ces variables.
✓ Calculer les paramètres de tendances centrales [La (les) moyenne(s), la médiane, les quartiles).
✓ Calculer les paramètres de dispersion (La variance et l'écart-type)
✓ Calculer les paramètres de forme (l’asymétrie et l’aplatissement).
✓ Construire graphiques pour les paramètres de tendances centrales (Boite à moustaches).
✓ Construire la courbe de Lorenz pour la variable « age ».
✓ Calculer l’indice de concentration de Gini pour la variable « age ».
✓ Proposer et construire des graphiques.
* Lecture de la base de données
use "D:\TP\BD.dta"
* Tri à plat
tab region
tab milieu
tab n_scolaire
tab fecondite

* Résumé des variables


sum age
sum age, detail
* Les paramètres de tendances centrales
** La (les) moyenne(s)
mean age
means age
* ou bien
tabstat age, statistics(mean)
mode age
** La médiane
tabstat age, statistics(p50)

** Les quartiles
tabstat age, statistics(p25 p50 p75)
* Les paramètres de dispersion
** La variance et l'écart-type
sum age, detail
* Les Paramètres de forme
sum age, detail
* ou bien
tabstat age, statistics(skewness kurtosis)

* L’ensemble de ces statistiques peut être obtenu en codant


sum age, detail

* Représentation des PTC sous forme de graphique


* Boite à moustache

Page | 5
graph box age
graph box age, over(milieu)

* L’indice de concentration de Gini


* C’est l’outil principal de l’analyse des inégalités de revenus au sein d’une population.
* La courbe de Lorenz
* Installation de la commande lorenz
ssc install lorenz
* La courbe de Lorenz
lorenz age
lorenz age, g

* Installation de la commande inequal2


ssc install inequal2

* L’indice de concentration de Gini

inequal2 age

-------------------------------------
5. Analyse statistique bivariée (Corrélation et indépendance)
- Cas où les deux variables sont quantitatives
La question de recherche traitée est : Y a-t-il une association entre l’âge des femmes marocaines
(« age ») et leur nombre d’enfants mis au monde (« fecondite ») ?

On considère de nouveau la base de données BD.dta. Donner le code Stata pour :


✓ Ouvrir cette base de données.
* Lecture de la base de données
use "D:\TP\BD.dta"
✓ Résumer les variables.
* Par exemple
sum age fecondite, detail
✓ Construire le tableau croisé des variables « age » et « fecondite ».
Interpréter les résultats obtenus.
tabulate age fecondite
✓ Construire le diagramme du nuage de points (« fecondite » -axe X- et « age » -axe Y-).
Interpréter les résultats obtenus.
twoway (scatter age fecondite)
ou bien
graph matrix fecondite age
✓ Obtenir la matrice des corrélations entre « age » et « fecondite ».
Interpréter les résultats obtenus et conclure.
pwcorr fecondite age

- Cas où les deux variables sont qualitatives


La question de recherche traitée est : Y a-t-il une association entre le niveau de vie des femmes
marocaines (« q_b_e ») et leur niveau scolaire (« n_scolaire » ?

✓ Construire le tableau croisé des variables « age » et « n_scolaire ».


Interpréter les résultats obtenus et conclure.
tabulate age n_scolaire

-------------------------------------
Page | 6
6. Analyse statistique bivariée (Régression linéaire simple)
On considère de nouveau la base de données BD.dta. Donner le code Stata pour :
✓ Réaliser une régression linéaire simple entre le nombre d’enfants donné par les femmes
(« fecondite » - variable à expliquer- et age de la femme (« age ») – variable explicative.
𝐟𝐞𝐜𝐨𝐧𝐝𝐢𝐭𝐞 = a0 + a1 ∗ 𝐚𝐠𝐞 (1)
Interpréter les résultats obtenus et conclure.
regress fecondite age

Page | 7

Vous aimerez peut-être aussi