TP Solution-Stata

OUTILS STATISTIQUES
TRAVAUX PRATIQUES
« STATISTIQUE DESCRIPTIVE »
ETUDE DE CAS
ENQUETES NATIONALES SUR LA POPULATION
ET LA SANTE FAMILIALE
Septembre-Décembre 2022
MUSTAPHA BERROUYNE
INGENIEUR EN CHEF
STATISTICIEN DEMOGRAPHE CHERCHEUR
On se propose de réaliser des travaux pratiques pour l’élément de module « Statistique
descriptive », assuré par le Professeur Abdesselam Fazouane, avec les outils statistiques Stata, R
et Spss.
Pour ce faire, un extrait de la base de données d’une Enquête Nationale sur la Population et la Sante
Familiale, provenant du questionnaire « FEMMES » (BD.xlsx), a été retenu pour réaliser ces travaux
pratiques.
1. Création/manipulation d’une base de données
Donner le code Stata pour :
✓ Importer le fichier « BD.xlsx »1 et créer un fichier « dta ».
On suppose que le fichier BD.xlsx se trouve dans le chemin suivant : « D:\TP »
import excel «D:\TP\BD.xlsx", sheet("Sheet1") firstrow
✓ Nommer ce fichier (base de données) par « BD.dta ».
save «D:\TP\BD.dta"
✓ Renommer les variables comme suit :
Ancien nom Nouveau nom Etiquette Ancien nom Nouveau nom Etiquette
de la variable de la variable de la variable de la variable de la variable de la variable
V1 m_interv Mois de l'interview V7 n_scolaire Niveau scolaire
V2 a_interv Année de l'interview V8 fecondite Nombre d’enfants
Moyens contraceptifs
V3 m_naiss Mois de naissance V9 m_contrac
utilisés
V4 a_naiss Année de naissance V10 q_b_e Quintile du bien être
V5 region Région de résidence V11 poids Pondération
V6 milieu Milieu de résidence
rename V1 m_interv
rename V2 a_interv
rename V3 m_naiss
rename V4 a_naiss
rename V5 region
rename V6 milieu
rename V7 n_scolaire
rename V8 fecondite
rename V9 m_contrac
rename V10 q_b_e
rename V11 poids
✓ Donner les étiquettes de ces variables.
label variable m_interv "Mois de l'interview "
label variable a_interv "Année de l'interview"
label variable m_naiss "Mois de naissance"
label variable a_naiss "Année de naissance"
label variable region "Région de résidence"
label variable milieu "Région de résidence"
label variable n_scolaire "Niveau scolaire"
label variable fecondite "Niveau scolaire"
label variable m_contrac "Moyens contraceptifs "
label variable q_b_e "Quintile du bien être"
label variable poids "Pondération"
✓ Donner les étiquettes des valeurs des variables suivantes
1
Ce fichier vous sera communiqué.
Page | 2
Variable Valeurs Etiquettes Variable Valeurs Etiquettes
2 Laayoune-Boujdou-sakia Al Hamra 1 Milieu urbain
milieu
3 Guelmim-Es-smara 2 Milieu rural
4 Souss-Massa-Draa 0 Sans
5 Gharb-Chrarda-Bni Hssen 1 Primaire
n_scolaire
6 Chaouia-Ouardigha 2 Secondaire
7 Marrakech-Tensift-Al Haouz 3 Supérieur
8 Oriental 0 Jamais
region 9 Grand-Casablanca 1 Méthodes folkloriques
u_contrac
10 Rabat-Sale-Zemmour-Zaer 2 Méthodes traditionnelles
11 Doukkala-Abda 3 Méthodes modernes
12 Tadla-Azilal 1 Le plus pauvre
13 Meknes-Tafilalet 2 Second
14 Fes-Boulemane q_b_e 3 Moyen
15 Taza-Al Hoceima-Taounate 4 Quatrième
16 Tanger-Tetouan 5 Le plus riche
* Variable région
label define region 2 "Laayoune-Boujdou-sakia Al Hamra" 3 "Guelmim-Es-smara" 4 "Souss-Massa-Draa" 5
"Gharb-Chrarda-Bni Hssen" 6 "Chaouia-Ouardigha" 7 "Marrakech-Tensift-Al Haouz" 8 "Oriental" 9 " Grand-
Casablanca" 10 "Rabat-Sale-Zemmour-Zaer" 11 "Doukkala-Abda" 12 "Tadla-Azilal" 13 "Meknes-Tafilalet" 14 "
Fes-Boulemane" 15 "Taza-Al Hoceima-Taounate" 16 " Tanger-Tetouan"
label define milieu 1 "Milieu urbain" 2 "Milieu rural"

label define n_scolaire 0 "Sans" 1 "Primaire" 2 "Secondaire" 3 "Supérieur", replace
label define u_contrac 0 "Sans" 1 "Méthodes folkloriques" 2 "Méthodes traditionnelles" 3 "Méthodes modernes"
label define q_b_e 1 "Le plus pauvre" 2 "Second" 3 "Moyen" 4 "Quatrième" 5 "Le plus riche"
label values region region

label values milieu milieu
label values n_scolaire n_scolaire
label values u_contrac u_contrac
label values q_b_e q_b_e
✓ Créer les variables suivantes :
dinterv_cmc = 12 * (a_interv-1900) + m_ interv
dnaiss_cmc = 12 * (a_naiss-1900) + m_naiss
age = (dinterv_cmc- dnaiss_cmc) / 12
* Création de nouvelles variables

generate dnaiss_cmc = 12 * (a_naiss-1900) + m_naiss
generate dinterv_cmc = 12 * (a_interv-1900) + m_interv
generate age = (dinterv_cmc-dnaiss_cmc) / 12
✓ Créer l’étiquette de la variable age : « Age de la femme ».
label variable age "Age de la femme"
✓ Recoder les valeurs de la variable « age » en « age_g », qui comprend 7 classes comme suit :
Valeurs Valeurs Etiquettes Valeurs Valeurs Etiquettes
« age_g
1 » 15 ≤« age » 19 Moins
age ≤ « age_g
de 20»ans « age_g
5 » 35 ≤« age » 39 35-39
age ≤ « age_g
ans»
2 20 ≤ age ≤ 24 20-24 ans 6 40 ≤ age ≤ 44 40-45 ans
Page | 3
3 25 ≤ age ≤ 29 25-29 ans 7 45 ≤ age ≤ 49 45-49 ans
4 30 ≤ age ≤ 34 30-34 ans
recode age (15/19=1) (20/24=2) (25/29=3) (30/34=4) (35/39=5) (40/44=6) (45/49=7) ,g(age_g)
✓ Sauvegarder le fichier BD.dta
save "D:\TP\BD.dta"
-------------------------------------
2. Sélection de données et fusion de fichiers
✓ Créer les bases de données relatives aux deux milieux de résidence (variable « milieu »), et les
nommer, respectivement, par BD_URBAIN et BD_RURAL.
/* Sous population des citadins milieu =1 (urbain) */
use "D:\TP\BD.dta" if milieu ==1
save "D:\TP\BD_URBAIN.dta"
/* Sous population des ruraux milieu = 2 (rural) */
use "D:\TP\BD.dta" if milieu ==2
save "D:\TP\BD_RURAL.dta"
✓ Fusionner les 2 bases de données BD_URBAIN et BD_RURAL. Nommer ce fichier par BD_URBRUR.
/* Fusion des BD_URBAIN et BD_RURAL */
use "D:\TP\BD_URBAIN.dta"
append using "D:\TP\BD_RURAL.dta"
save "D:\TP\BD_URBRUR.dta"
✓ Ouvrir la base de données BD.dta en récupérant uniquement les 7 premières variables. Nommer
ce fichier par BD7P.dta
/* Ouvrir la base de données BD.dta en récupérant uniquement les 7 premières variables */
use m_inter a_inter m_naiss a_naiss region n_scolaire using "D:\TP\BD.dta"
/* Nommer ce fichier par BD7P.dta */
save "D:\TP\BD_7P.dta"
✓ Ouvrir la base de données BD.dta en récupérant uniquement les 7 dernières variables. Nommer
ce fichier par BD7D.dta
/* Ouvrir la base de données BD.dta en récupérant uniquement les 7 dernières variables. */
use fecondite m_contract q_b_e poids dinterv_cmc dnaiss_cmc age age using "D:\TP\BD.dta"
/* Nommer ce fichier par BD7D.dta
save "D:\TP\BD_7D.dta"
✓ Fusionner les fichiers BD7P.dta et BD7D.dta, en précisant les conditions nécessaires pour la
réussite de cette opération.
/* Fusionner les fichiers BD7P.dta et BD7D.dta, en précisant les conditions nécessaires pour la réussite de cette
opération.*/
use "D:\TP\BD_7P.dta"
append using "D:\TP\BD_7P.dta"
save "D:\TP\BD_BD.dta"
3. Agrégation de données
On souhaite créer une base de données qui contient des données agrégées du nombre moyen
d’enfants donné par les femmes marocaines selon la région de résidence.
✓ Créer cette base de données. Nommer ce fichier par NME_REGION.dta.
collapse (mean) fecondite, by(region)
save "D:\TP\ NME_REGION.dta.dta"
Page | 4
✓ Reprendre cette manipulation en considérant la variable « age » de la femme.
collapse (mean) age, by(region)
save "D:\TP\ AGE_REGION.dta.dta"
-------------------------------------
4. Analyse statistique univariée
❖ Avec le logiciel Stata
On considère de nouveau la base de données BD.dta. Donner le code Stata pour :
✓ Faire un tri à plat pour les variables de la base de données.
✓ Résumer ces variables.
✓ Calculer les paramètres de tendances centrales [La (les) moyenne(s), la médiane, les quartiles).
✓ Calculer les paramètres de dispersion (La variance et l'écart-type)
✓ Calculer les paramètres de forme (l’asymétrie et l’aplatissement).
✓ Construire graphiques pour les paramètres de tendances centrales (Boite à moustaches).
✓ Construire la courbe de Lorenz pour la variable « age ».
✓ Calculer l’indice de concentration de Gini pour la variable « age ».
✓ Proposer et construire des graphiques.
* Lecture de la base de données
use "D:\TP\BD.dta"
* Tri à plat
tab region
tab milieu
tab n_scolaire
tab fecondite
* Résumé des variables

sum age
sum age, detail
* Les paramètres de tendances centrales
** La (les) moyenne(s)
mean age
means age
* ou bien
tabstat age, statistics(mean)
mode age
** La médiane
tabstat age, statistics(p50)
** Les quartiles
tabstat age, statistics(p25 p50 p75)
* Les paramètres de dispersion
** La variance et l'écart-type
sum age, detail
* Les Paramètres de forme
sum age, detail
* ou bien
tabstat age, statistics(skewness kurtosis)
* L’ensemble de ces statistiques peut être obtenu en codant

sum age, detail
* Représentation des PTC sous forme de graphique

* Boite à moustache
Page | 5
graph box age
graph box age, over(milieu)
* L’indice de concentration de Gini

* C’est l’outil principal de l’analyse des inégalités de revenus au sein d’une population.
* La courbe de Lorenz
* Installation de la commande lorenz
ssc install lorenz
* La courbe de Lorenz
lorenz age
lorenz age, g
* Installation de la commande inequal2

ssc install inequal2
* L’indice de concentration de Gini
inequal2 age
-------------------------------------
5. Analyse statistique bivariée (Corrélation et indépendance)
- Cas où les deux variables sont quantitatives
La question de recherche traitée est : Y a-t-il une association entre l’âge des femmes marocaines
(« age ») et leur nombre d’enfants mis au monde (« fecondite ») ?

✓ Ouvrir cette base de données.
* Lecture de la base de données
use "D:\TP\BD.dta"
✓ Résumer les variables.
* Par exemple
sum age fecondite, detail
✓ Construire le tableau croisé des variables « age » et « fecondite ».
Interpréter les résultats obtenus.
tabulate age fecondite
✓ Construire le diagramme du nuage de points (« fecondite » -axe X- et « age » -axe Y-).
Interpréter les résultats obtenus.
twoway (scatter age fecondite)
ou bien
graph matrix fecondite age
✓ Obtenir la matrice des corrélations entre « age » et « fecondite ».
Interpréter les résultats obtenus et conclure.
pwcorr fecondite age
- Cas où les deux variables sont qualitatives

La question de recherche traitée est : Y a-t-il une association entre le niveau de vie des femmes
marocaines (« q_b_e ») et leur niveau scolaire (« n_scolaire » ?
✓ Construire le tableau croisé des variables « age » et « n_scolaire ».

tabulate age n_scolaire
-------------------------------------
Page | 6
6. Analyse statistique bivariée (Régression linéaire simple)
✓ Réaliser une régression linéaire simple entre le nombre d’enfants donné par les femmes
(« fecondite » - variable à expliquer- et age de la femme (« age ») – variable explicative.
𝐟𝐞𝐜𝐨𝐧𝐝𝐢𝐭𝐞 = a0 + a1 ∗ 𝐚𝐠𝐞 (1)
regress fecondite age
Page | 7

TP Solution-Stata

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

TP Solution-Stata

Transféré par

Droits d'auteur :

Formats disponibles

OUTILS STATISTIQUES

label define milieu 1 "Milieu urbain" 2 "Milieu rural"

label values region region

* Création de nouvelles variables

* Résumé des variables

* L’ensemble de ces statistiques peut être obtenu en codant

* Représentation des PTC sous forme de graphique

* L’indice de concentration de Gini

* Installation de la commande inequal2

* L’indice de concentration de Gini

On considère de nouveau la base de données BD.dta. Donner le code Stata pour :

- Cas où les deux variables sont qualitatives

✓ Construire le tableau croisé des variables « age » et « n_scolaire ».

Vous aimerez peut-être aussi