Vous êtes sur la page 1sur 31

OUTILS STATISTIQUES

LOGICIEL STATA

Mustapha BERROUYNE
INGENIEUR EN CHEF
STATISTICIEN DEMOGRAPHE
CHERCHEUR

ROYAUME DU MAROC
SUPPORT
HAUT COMMISSARIAT AU PLANDE COURS
TRAVAVAUX
INSTITUT NATIONAL DE STATISTIQUEPRATIQUES
2014201
ET D’ECONOMIE APPLIQUEE

ANNEE UNIVERSITAIRE 2022-2023 Page | 1


PLAN

Introduction
1. L’environnement stata
2. Comment lire les données ?
3. Sauvegarder les données et le travail
4. Le do-file
5. Le log-file
6. Les données
7. Chercher de l’aide
8. Décrire les données
9. Extensions des fichiers stata
10. Commandes de gestion des variables
11. FONCTIONS ET EXPRESSIONS
12. Création d’une nouvelle variable
13. Transformation d’une variable
14. Ajout des observations
15. Ajout des variables

Mustapha Berrouyne 1 PRESENTAION DU LOGICIEL STATA


INTRODUCTION

Stata est un logiciel de gestion de données et d’analyse statistique à visée


généraliste. Son interface graphique permet d’effectuer une analyse en utilisant
les menus déroulant de son interface graphiques ou bien en tapant directement
la ligne de commande à effectuer.
Il existe pour tous les systèmes d’exploitation (Windows, Linux, Mc, etc.).

 MODE DE FONCTIONNEMENT
- Mode commande interactif
- Mode Menu
- Mode de programmation (fichiers .do)

Mustapha Berrouyne 2 PRESENTAION DU LOGICIEL STATA


1. L’ENVIRONNEMENT STATA

Mustapha Berrouyne 3 PRESENTAION DU LOGICIEL STATA


1. L’ENVIRONNEMENT STATA
LES DIFFÉRENTES FENÊTRES STATA
- Fenêtre COMMAND (bandeau du bas) : permet de taper les commandes, qui
peuvent être exécutées par la touche « ENTREE »
- Fenêtre RESULTS (plus grande fenêtre) : décrit les résultats des commandes et
indique le cas échéant pourquoi STATA n’a pas pu réaliser la commande
- Fenêtre REVIEW (en haut à gauche) : liste l’ensemble des commandes
réalisées ; en rouge apparaissent celles qui ont échoué.
On peut cliquer sur une des commandes listées dans cette fenêtre pour qu’elle apparaisse à
nouveau dans la fenêtre Command.

- Fenêtre VARIABLES (en haut à droite) : donne la liste des variables de la base
chargée par STATA, avec leur label (ce qu’elles veulent dire)
On peut cliquer sur une variable listée dans cette fenêtre pour qu’elle apparaisse
directement dans la fenêtre Command.

- Fenêtre PROPERTIES (en bas à droite) : indique les propriétés des variables et
de la base de données.

Mustapha Berrouyne 4 PRESENTAION DU LOGICIEL STATA


1. L’ENVIRONNEMENT STATA
LA BARRE D’OUTILS
- Bandeau situé tout en haut

Permet d’effectuer certaines commandes de base sans passer par la fenêtre


COMMAND :
- Charger une base
- « Voir » les données
- Editer les données (= les modifier)
- Créer ou charger un do-file (cf. plus bas)
- Faire des graphiques
- Exécuter des traitements statistiques.
- …

Mustapha Berrouyne 5 PRESENTAION DU LOGICIEL STATA


1. L’ENVIRONNEMENT STATA
INTERFACE DE STATA

Mustapha Berrouyne 6 PRESENTAION DU LOGICIEL STATA


2. COMMENT LIRE LES DONNÉES ?
Une base de données STATA est un tableau :
- Une ligne = une observation statistique (un ménage, un individu, une
entreprise, un pays, une maladie, un individu une année donnée, etc.).
- Une colonne = une variable (âge, salaire, lieu, secteur d’activité, taux de
pauvreté, etc.).
- Une cellule = valeur d’une variable pour un individu statistique.
- Plusieurs types de variables :
▪ Variables numériques (numeric) : âge, année d’observation, durée passée en
emploi, ….
▪ Variables caractères (string): pays, nom de l’entreprise, statut matrimonial,…

Mustapha Berrouyne 7 PRESENTAION DU LOGICIEL STATA


2. COMMENT LIRE LES DONNÉES ?
LECTURE/IMPORTATION D’UNE BASE DE DONNÉES

Première étape : « charger » des données dans STATA


✓ La commande use :
- Pour les cas où vous disposez des données sous forme STATA (.dta)
▪ Taper dans la fenêtre COMMAND l’instruction :
Use « Chemin_du_fichier\Nom_du_fichier.dta », clear (pour ouvrir la
totalité du fichier).
▪ OU dans la barre d’outils, cliquer sur l’onglet « Open » et trouver le fichier.
▪ use var1 var2 var3 …. using "nom_fichier.dta", clear (pour ouvrir le fichier
avec les variables mentionnées var1 var2 var3…).
clear pour effacer le fichier de données déjà utilisé par Stata

Mustapha Berrouyne 8 PRESENTAION DU LOGICIEL STATA


2. COMMENT LIRE LES DONNÉES ?
LECTURE/IMPORTATION D’UNE BASE DE DONNÉES

✓ La commande import Excel :


- Pour les cas où vous disposez des données sous forme Excel (.xls) ou CSV (.csv)
▪ Taper dans la fenêtre Command l’instruction :
Import excel « Chemin_du_fichier\Nom_du_fichier.xls », clear
- A faire au préalable sur votre fichier Excel ou CSV :
▪ Le séparateur des décimales sous STATA est le point  avant le chargement du
fichier, transformer toutes les virgules en points (sinon les variables avec des
virgules seront lues comme des variables string par STATA).

Mustapha Berrouyne 9 PRESENTAION DU LOGICIEL STATA


2. COMMENT LIRE LES DONNÉES ?
LECTURE/IMPORTATION D’UNE BASE DE DONNÉES
✓ La commande import Excel :

▪ Indiquer sur la première ligne le nom des variables pour qu’il soit enregistré
correctement par STATA (en ajoutant l’option « firstrow »).

 Toujours vérifier que les données ont été correctement chargées par STATA
en regardant les données dans le « browser » (commande browse).

 A partir de la version 16, Stata importe les données des logiciels SPSS, SAS, etc.

Mustapha Berrouyne 10 PRESENTAION DU LOGICIEL STATA


3. SAUVEGARDER LES DONNÉES ET LE TRAVAIL
- Vous pouvez vouloir sauvegarder plusieurs aspects de votre travail :
▪ Les données, si vous les avez modifiées (ajout de labels, création de
variables, concaténation, fusion, suppression d’observations, etc.)

▪ Vos commandes successives (création d’une base, traitement des données,


statistiques descriptives, économétrie)

▪ Les résultats de vos commandes (graphiques, sorties de résultats, etc.)

▪ Des commandes différentes.


- Pour travailler de manière efficace sur STATA, il faut utiliser un fichier .do
(appelé do-file).
▪ Permet de conserver en mémoire les commandes faites et de pouvoir
retrouver les mêmes résultats à chaque fois.

Mustapha Berrouyne 11 PRESENTAION DU LOGICIEL STATA


4. LE DO-FILE

- Pour ouvrir un do-file :


▪ Icone « do-file editor » dans la barre d’outils

▪ Ouvre une nouvelle fenêtre, l’éditeur de do-files, dans lequel vous pouvez
ouvrir vos do-files sauvegardés ou en composer un nouveau
- Pour utiliser un do-file :
▪ On écrit nos commandes dans le do-file plutôt que de les écrire dans la
fenêtre COMMAND (et on sauvegarde le do-file).

▪ On sélectionne les instructions qu’on veut réaliser et on clique sur l’icone «


Execute selection (do) » (flèche à côté d’une feuille) dans l’éditeur de do-files.

▪ Permet d’avoir sur un fichier l’ensemble des commandes qu’on a réalisées,


ou qu’on veut réaliser  Constitue le « programme ».

▪ Permet de sauvegarder et de réutiliser plus tard son programme.

Mustapha Berrouyne 12 PRESENTAION DU LOGICIEL STATA


5. LE LOG-FILE
- Le log-file permet de conserver les résultats obtenus au cours d’une session
de travail STATA.
▪ Le log-file enregistre les résultats de l’ensemble des commandes lancées.
- Pour ouvrir un log-file :
▪ Taper la commande : log using nom_du_fichier.log

▪ Ou cliquer sur l’icone « log Begin/Close/Suspend/Resume » (sorte de petit


cahier avec des lignes)
- Pour fermer un log-file :
▪ Taper la commande : log close

▪ Cliquer sur le même icone que pour l’ouverture, et sélectionner « close ».

Mustapha Berrouyne 13 PRESENTAION DU LOGICIEL STATA


6. LES DONNÉES
- Pour sauvegarder les données elles-mêmes, suite à des modifications :
▪ La commande la plus simple est save :
▪ save nom_fichier_de_données.dta
▪ Ne marche que si le fichier de données n’existe pas déjà (sécurité pour éviter
de détruire des données).
- Si le fichier de données existe déjà et qu’on veut enregistrer les modifications
des données dessus, il faut ajouter l’option replace :
▪ save nom_fichier_de_données.dta, replace
- Si on ne veut pas enregistrer les changements dans les données, on ferme
simplement la base :
▪ Commande clear

Mustapha Berrouyne 14 PRESENTAION DU LOGICIEL STATA


7. CHERCHER DE L’AIDE
- Vous pouvez oublier certaines commandes. L’essentiel avec STATA c’est de
savoir comment trouver l’information. Plusieurs possibilités :
▪ Chercher dans les manuels.

▪ Chercher sur Internet.


- Dans STATA :
▪ Le logiciel intègre une version abrégée du User Manual

▪ Pour y accéder il suffit de taper la commande help, suivi du nom de la


commande sur laquelle on veut avoir des informations

▪ Ex : help regress
- Vous pouvez aussi lancer une recherche sur Internet à partir de STATA, avec la
commande findit :
▪ Ex : findit regress
- Vous pouvez aussi retrouver une commande (traitement statistique) sans
passer le menu déroulant, avec la commande db (dialog box) :
▪ Ex : db regress
Mustapha Berrouyne 15 PRESENTAION DU LOGICIEL STATA
8. DÉCRIRE LES DONNÉES
- Regarder la base de données brutes

▪ Pour visualiser la base de données, taper la commande browse ou edit : une


fenêtre avec l’ensemble des observations apparaît

▪ Attention, edit vous permet de faire des changements dans les données.

- La commande list permet aussi de voir l’ensemble des données mais dans la
fenêtre RESULTS

▪ Pas très lisible !

▪ On peut aussi taper la commande list suivie d’une variable : dans la fenêtre
RESULTS il apparaît la valeur prise par cette variable pour chaque individu de
la base

▪ ex : list milieu.

Mustapha Berrouyne 16 PRESENTAION DU LOGICIEL STATA


8. DÉCRIRE LES DONNÉES
DESCRIPTION DES DONNÉES
Il y a plusieurs commandes qui permettent de décrire et de voir les données :
- edit : voir la base de données et permet de la modifier à la main
- edit ou edit variables
- browse : voir la base de données et ne permet pas de la modifier à la main
- browse ou browse variables

Mustapha Berrouyne 17 PRESENTAION DU LOGICIEL STATA


8. DÉCRIRE LES DONNÉES
DESCRIPTION DES DONNÉES

- describe : la commande describe permet de décrire les données de façon


générale (format de la variable, label des modalités de la variable, label de la
variable)
- describe : décrit toute la base
- describe variables : ne décrit que les variables indiquées

- list : permet d’afficher la base de données ou un extrait de cette base dans la


fenêtre des résultats list ou list variables
Exemple :
use "D:\Session-4\AVEC-STATA\BD.dta"

Mustapha Berrouyne 18 PRESENTAION DU LOGICIEL STATA


8. DÉCRIRE LES DONNÉES
DESCRIPTION DES DONNÉES
. desc

Contains data from D:\Session-4\AVEC-STATA\BD.dta


obs: 11,069
vars: 13 20 Sep 2022 15:25
size: 1,151,176

storage display value


variable name type format label variable label

milieu double %12.0g milieu Milieu


district double %12.0g District
numen double %12.0g Numero du menage
pauvrete double %12.0g pauvrete Quintile de bien-etre
Q103 double %12.0g Age de la femme
Q104 double %12.0g Q104 Fréquention de l'école
Q105 double %12.0g Q105 Quel est le plus haut niveau atteint
Q108 double %12.0g Q108 Pouvez vous lire lettre ou journal
Q201 double %12.0g Q201 Avez-vous donnee naissance a des enfants
Q208 double %12.0g Nombre total d'enfants
Q221 double %12.0g Nombre total des enfants moins 5 ans
Q221A double %12.0g Nombre total des enfants en vie
Q221B double %12.0g Nombre total des décès
. desc milieu Q103

storage display value


variable name type format label variable label

milieu double %12.0g milieu Milieu


Q103 double %12.0g Age de la femme

Mustapha Berrouyne 19 PRESENTAION DU LOGICIEL STATA


8. DÉCRIRE LES DONNÉES
DESCRIPTION DES DONNÉES
- La commande describe

▪ La commande describe donne des informations de base sur les variables :


• Type de variable
• Label
• Format de compression
▪ Elle peut être abrégée en desc

▪ On peut ajouter un nom de variable après describe pour que les


informations soient données uniquement pour cette variable.

• Ex : describe milieu

Mustapha Berrouyne 20 PRESENTAION DU LOGICIEL STATA


8. DÉCRIRE LES DONNÉES
DESCRIPTION DES DONNÉES

- La commande summarize

▪ La commande summarize affiche dans la fenêtre Results le nombre


d’observations, la valeur moyenne, le min, le max et l’écart type pour chaque
variable

▪ Elle peut être abrégée en sum

▪ Si on veut davantage de détails sur la distribution (médiane, percentiles,


etc.), on peut ajouter l’option detail (qu’on peut abréger en d)
• Ex : summarize, detail OU sum, d
▪ On peut l’utiliser suivie d’un nom de variable ; les statistiques sont alors
données uniquement sur cette variable
• Ex : sum Q103, d

Mustapha Berrouyne 21 PRESENTAION DU LOGICIEL STATA


8. DÉCRIRE LES DONNÉES
DESCRIPTION DES DONNÉES
- La commande tabulate

▪ La commande tabulate donne le nombre d’observations et la fréquence de


chaque valeur d’une variable. Elle peut être utilisée pour regarder la
distribution d’une variable.

▪ Elle peut être abréger en tab


• Ex : tabulate milieu OU tab milieu
▪ Si on place deux noms de variables à la suite de cette commande, elle donne un
tableau de distribution croisée

▪ Usage très fréquent !


• Ex : tab pauvrete milieu

Mustapha Berrouyne 22 PRESENTAION DU LOGICIEL STATA


9. EXTENSIONS DES FICHIERS STATA
- Fichier données : c’est un fichier de données sous format stata avec
l’extension .dta (les variables sont en colonnes et les individus sont en ligne).

- Fichier programme : c’est un fichier de commandes au format ASCII. Il permet


à l’utilisateur de :

▪ lancer plusieurs commandes Stata en une seule opération;

▪ Garder une trace des commandes exécutées.

L’extension de ce programme est .do

On peut appeler un fichier do-file à partir du menu (do-file Editor) ou bien


taper doedit dans la partie réservée aux commandes.

C’est un fichier de base dans Stata.

- Fichier résultats : c’est un fichier qui permet de stocker toutes les


commandes exécutées ainsi que les résultats obtenus.

Mustapha Berrouyne 23 PRESENTAION DU LOGICIEL STATA


10. COMMANDES DE GESTION DES VARIABLES
- Etiquetage des variables et des modalités :

▪ Pour une meilleure description et une meilleure lecture des fichiers de


données on affecte un label à chaque variable et à chaque modalité

- Label des variables :

▪ label var var1 "nom de la variable"

- Label des modalités :

▪ label define var1 1 "label1" 2 "label2" 3 "label3" …

▪ label values var1 var1

Mustapha Berrouyne 24 PRESENTAION DU LOGICIEL STATA


11. FONCTIONS ET EXPRESSIONS

Mustapha Berrouyne 25 PRESENTAION DU LOGICIEL STATA


12. CRÉATION D’UNE NOUVELLE VARIABLE
Les principale commandes de création de variables sont : generate et egen
La commande egen est une extension de la commande generate, elle est utilisée
pour créer des variables avec des fonctions spécifiques.
Exemples :
gen var3=var1+var2 /*addition*/
gen var4=5*var1 /*multiplication*/
gen var6=var2/var1 /*division*/
gen logvar=log(var) /*logarithme*/
gen numero=int(identifiant/450) /*partie entière*/

Création des « dummy » variables (dichotomiques)


gen var1=var2==1 /*(var1 est une variable dichotomique prenant la valeur 1 si
var2 est égale à 1, 0 sinon)*/
gen urbain=milieu==1 ; Ou bien
tabulate milieu, gen(var) /* créer deux variables dichotomiques pour chaque
modalité de la variable milieu*/
egen ecatype =sd(Q103) /*écart type de la variable Q103*/
egen somme=sum(var1) /*somme de la variable1*/

Mustapha Berrouyne 26 PRESENTAION DU LOGICIEL STATA


12. CRÉATION D’UNE NOUVELLE VARIABLE

Il existe d’autres commandes relatives à la gestion des variables :


rename : permet de renommer la variable
rename anc_var new_var
drop : permet de supprimer une ou plusieurs variables
drop var1 var2 ….
keep : permet de conserver dans le fichier les variables choisies
keep var1 var2 var3 …
sort : permet de trier le fichier selon des clés choisis
sort numen

Mustapha Berrouyne 27 PRESENTAION DU LOGICIEL STATA


13. TRANSFORMATION D’UNE VARIABLE
Il s’agit de recourir à des transformations des variables initiales à d’autres
formes de variables selon l’usage.
Exemple :
-transformer l’âge en groupe d’âge (Q103);
recode Q103 (min/24=1) (25/39=2) (40/max=3), g(groupe_age) /*créer une
autre variable*/

Mustapha Berrouyne 28 PRESENTAION DU LOGICIEL STATA


14. AJOUT DES OBSERVATIONS

Supposons qu’on dispose de deux bases de données, l’une pour le milieu urbain
« BD_URBAIN » et l’autre pour le milieu rural « BD_RURAL » et on veut les
fusionner en une seule base. Il s’agit là d’ajout d’observations et la commande
qu’on utilise dans Stata est append.
use BD_URBAIN, clear
append using BD_RURAL
save BD_MAROC, replace

Mustapha Berrouyne 29 PRESENTAION DU LOGICIEL STATA


15. AJOUT DES VARIABLES
L’objectif est de fusionner deux bases de données contenant des individus en
commun et des variables différentes.
Supposons qu’on dispose de deux bases de données (MODULE1) et (MODULE2)
de 11069 individus et qu’on veut fusionner ces deux bases.
1- il faut s’assurer que les individus ont un identifiant unique dans les deux bases
2- Trier les deux bases selon cet identifiant
3- utiliser la commande merge dans stata pour la fusion
use MODULE1, clear
sort N
save MODULE1, replace
use MODULE2, clear
sort N
merge 1:1 N using MODULE1
. merge 1:1 N using MODULE1

Result # of obs.

not matched 0
matched 11,069 (_merge==3)

save MODULE12
Mustapha Berrouyne 30 PRESENTAION DU LOGICIEL STATA

Vous aimerez peut-être aussi