Remi - Danhoundo-Formation - Stata - Beninedu - Com-Introduction À STATA Pour L Analyse de Données

Introduction à STATA
pour l’analyse de
données
Pourquoi STATA ?
1. Logiciel intuitif : interface et fenêtres

2. Relativement flexible : dispose souvent de
nombreuses options, et permet aussi de
programmer
3. Grosse communauté d'utilisateurs : nombreux
modules supplémentaires, aide et documentation
sur Internet, travail des "Stata boys"
4. Particulièrement adapte aux variables qualitatives
5. Utilise dans des disciplines autres que l’économie
(finance, epidemiologie, biologie, . . . )
4 □ ► 4 (5 ► <“► 4 ^
Plan de la Presentation
1. Introduction
2. Fichiers de Stata
3. Traiter les Variables
4. Statistiques Descriptives
5. Régression de Séries Temporelles
6. Variables Qualitatives
7. Quelques Extensions
Presentation STATA
Stata se présente sous la forme de 4 fenêtres :
1. Review : affiche l’historique des commandes tapées par
I ’utilisateur et permet d'en rappeler une facilement.
2. Results : utiliser pour afficher tous les résultats des
commandes tapées par l’utilisateur.
3. Variables : détaille toutes les variables présentes dans
la base de données actuellement ouverte dans Stata
(Stata ne peut ouvrir qu'une seule base de données en
même temps).
4. Command : permet a l’utilisateur d'entrer les
commandes.
4 □ ► 4 (5 ► <“► 4 ^
Presentation STATA
Présentation STATA
Deux icones permettant d'afficher la base de données (Data

Editor ou Data Browser) également accessibles par le biais du
menu (Data/Data Editor ou Data/Data Browser) et directement
a partir de la fenêtre de commandes (edit ou browse).
Permet d’écrire et
de modifier
directement les
données
Permet de
visualiser
les données
Présentation STATA : Fichiers et répertoires
Stata utilise plusieurs types de fichiers, nommes d'après leurs extensions :
Fichier .do : Fichiers de commandes, lisibles dans n'importe quel éditeur de

texte et bien entendu par le Do-file Editor inclus dans Stata. Ils permettent
a l’utilisateur de lancer plusieurs commandes Stata en une seule opération
et de garder une trace des commandes exécutées
Fichier .smcl : Fichiers d'aide (.hip, ) ou de log (extension libre, en général
.log). Ces fichiers s'affichent dans le Viewer Stata ou dans n'importe quel
éditeur de texte. La syntaxe smcl permet a Stata d'afficher le gras, les
italiques, etc.
Fichier .dta : Fichiers de données au format Stata.
4 □ ► 4 (5 ► <“► 4=►
Presentation STATA : Do-file editor
L'ouverture du Do-File Editor peut se faire en appuyant sur

l'icone correspondante dans la barre de menu, en
sélectionnant dans le menu Windows/Do-file Editor/New file,
ou en entrant doedit dans la fenêtre Command.
Lorsqu'on utilise Stata, il est préférable d'utiliser un fichier Do-file.
Présentation STATA : Do-file editor
II est possible de lancer l’intégralité du do-file ou

d'en exécuter seulement une partie.
Pour cela, il suffit de sélectionner la partie

souhaitée du .do avant de cliquer sur Do.
4 □ ► 4 (5 ► <“► 4=►
Commandes utiles a insérer en préambule du do-file :

Gestion de la mémoire : Lorsque Stata doit ouvrir une base de
données, celle-ci est intégralement chargée en mémoire.
Pour un état des lieux de la mémoire, memory.
Stata dispose par défaut de 10 mégas de mémoire, toute base de plus
de 10 mégas ne s'ouvrira pas sauf si on modifie la quantité de
mémoire disponible pour Stata.
Pour vérifier la taille de la base a charger, on utilise la commande
describe using mabase.dta.
Si celle-ci nécessite 100 mégas, set memory 100m (set mem 100m).
Log : Pour conserver une trace complète de tout ce qui s'affiche

dans la fenêtre Results au cours d'une session
(commandes/resultats...), il est possible (et préférable!) de créer
un fichier log.
Stata permet de créer des log au format texte (option text), ou au
format smcl (option smcl). Ce dernier format permet un affichage
du log dans le Viewer Stata très propre, mais complique la lecture
du log avec d'autres logiciels.
Pour commencer un nouveau fichier de log : log using monfichier
ou bien
log using "F:\BeninEdu.com\formation_stata_evie
\essai.smcl”,text.
Pour le fermer log : log close.
Gestion de l'affichage :
• Pour supprimer l'affichage des résultats d'une commande,

quietly commande.
• Pour détailler au maximum les opérations réalisées par Stata :

set trace on.
• Pour que Stata ne stop pas au cours de l’exécution d'un do-file

lorsque l'affichage des résultats atteint le bas de la fenêtre
Results, set more off.
EN RESUME
• On débute le programme avec la commande clear afin de vider la
mémoire de Stata.
• On spécifie la taille de la mémoire a allouer set memory 100m (set
mem 100m).
• on indique quelle base utiliser use
"F:\BeninEdu.com\formation_stata_evie\essaie1.dta"
• il est conseille d'ouvrir un fichier log : log using nouveaunom.bg,
replace(par défaut a la racine) ou bien spécifier l'emplacement du
log: log using
"F:\BeninEdu.com\formation_stata_evie\essai.smcl”
• commencer le programme par set more off
• il est possible d'inclure des commentaires dans le programme en les
encadrant par des ‘
Description des données
Les variables sous Stata peuvent être numériques ou

alphanumériques.
Les variables numériques peuvent être de différents types, selon la
précision (et la place en mémoire) nécessaire.
Les variables alphanumériques (en rouge dans browser) sont des
chaines de caractères quelconques (string, str), d'une longueur
maximale de 244 caractères. Pour transformer une chaine en variable
numérique, destring variable, options. Parmi les options, gen(var)
ou replace.
Stata stock par défaut une variable sous forme de chaine lorsque la
variable contient au moins un caractère non-numérique (souvent
variables manquantes)
II est impossible d'utiliser cette variable dans une régression. Pour
contraindre Stata a ignorer les caractères non numériques, on utilise
l'option force.
Ecriture de programmes
Lors de l’écriture de programmes :
Pour chaque nouvelle commande il faut passer a la ligne, il est inutile

de finir par ou Par contre, a chaque commande sont associées des
options et la structure est : nom_ de_ commande variables_
concernees, options
Stata ne tient pas compte des espaces multiples
Minuscules/majuscules : les commandes sont a taper en minuscules,

attention aux noms de variables comportant des majuscules.
Operateurs et fonctions mathématiques
Quelques remarques :
En ce qui concerne le signe =, il existe une particularité. Lorsque le

signe = est une conjecture (a tester) ou une condition et non une
définition, on doit le remplacer par ==.
Les valeurs manquantes (symbolisées par un point sous Stata) sont

les plus grandes valeurs. Ainsi, l'expression salaire> 1500 est vraie
si le salaire est supérieur strictement a 1500 ou manquant. Pour ne
conserver que les valeurs supérieures a 1500 et non manquantes, il
faut préciser : salaire>1500 & salaire<.
Les operateurs suivent l'ordre de priorité habituel. L'operateur "Et" est

prioritaire sur l'operateur "Ou".
Operateurs et fonctions mathématiques
Addition + Soustraction -
Multiplicatio Division /
n *
=
Egalite Inégalité ~= ou I =
Exposant ^ partie entiere Int
Racine sqrt{) Exponentielle exp
Logarithme log{) Valeur absolue abs()
Sup. (resp. > (resp. Sup. (resp. Inf) ou >= (resp.
Inf.) <) egal <=)
Ou 1 Et &
Minimum min() Maximum max()
Trois expressions : by, if et in
Ces trois expressions peuvent s'utiliser avec la majorité des

commandes Stata. On peut les combiner les unes avec les
autres.
by permet d'appliquer une commande a chaque valeur d'une

variable. La syntaxe de cette expression est by variable :
commande variable.
En amont, il faut que la base de données soit classée par cette

variable. On peut utiliser sort avant by, ou pour classer et
effectuer le by en même temps, bysort.
Exemple : bysort sexe : summarize salaire permet d'obtenir le

salaire moyen des femmes et des hommes.
if permet de n'appliquer la commande qu'aux observations

remplissant une condition particulière.
Syntaxe : commande variable if condition.
Exemple : summarize salaire if age==18 | age>20 & age<=50

donne les statistiques descriptives de la variable salaire pour
les observations dont la variable age est égale a 18 ou
comprise entre 20 (exclu) et 50 (inclus).
L'operateur & est prioritaire, les parenthèses sont inutiles ici.

in permet de n'appliquer la commande qu'aux

observations se situant dans un intervalle donne.
Syntaxe : commande variable in condition.
Exemple : summarize salaire in 10/20 donne les

statistiques descriptives de la variable salaire pour les
observations de la l0ème a la 20ème ligne de la base de
données.
Décrire et manipuler des données
• describe : affiche la liste de toutes les variables, le type et les

éventuels labels (on peu utilise des ).
• ds : liste les variables
• codebook variable : détaille la variable ie. modalités possibles,

fréquences, nombre de données manquantes, ...
• rename ancien_nom nouv_nom : Renomme la variable

ancien_nom en nouv_nom.
• replace x = 12 : Remplace le contenu de la variable x par 12 (x

devient une constante).
• replace x=y if y>10 & y ~= . : Remplace la valeur de x par celle de

y, si y est supérieur a 10 et contient une valeur.
• drop x : Supprime la variable x.

• drop _all : Supprime toutes les variables
• keep x : Conserve la variable x, supprime toutes les autres.
• label var variable "label" : Attribue a une variable x un label
(une étiquette). Exemple : label var Insal "logarithme du salaire
brut".
• global liste "varl var2 var3 ... varn" : permet de générer une
liste de variables appelée 'liste'.
• regress salaire varl var2 var3 ... Varn : faire une régression
MCO de salaire en fonction des variables 1 à n
Dans le cadre notamment de l'économétrie des variables qualitatives,

le codage est déterminant et il est souvent nécessaire de générer ou
modifier des variables.
Créer des variables : deux commandes existent :
• generate permet de créer des variables qui nécessitent des

calculs "simples"
• egenerate (extended generate) s'impose lorsque les calculs se
complexifient un peu ou que l'utilisation des fonctions statistiques
spécifiques est nécessaire.
Exemples d’utilisation de generate :
• gen x = 12 : crée une constante nommée x, qui vaut 12.
• gen x = log(a*b)-sqrt(abs(b)): La nouvelle variable x =
log(a x b) - 𝑏
• gen x = (sexe=="Homme"): x est égal a 1 si la variable

sexe contient la chaine de caractère "Homme", 0 sinon.
• gen x = y[_n-l] : x est égale a la valeur de l'observation
précédente de y.
Exemples d’utilisation de egenerate :
• egen x = sd[y] : x, constante, est égal a l’écart-type de y.
• egen x = pctile(y), p(50) : x est égal a la médiane de y.
• Replace : permet de recoder, de remplacer certaines valeurs

d'une variable par d'autres valeurs :
• replace satis=1 if satis==2 | satis==3 : remplace satis par la
valeur 1 si satis est égale a 2 ou 3.
Fusionner des bases de données
Stata ne peut ouvrir qu'une seule base de données en même temps. Pour
travailler simultanément sur deux bases de données : soit ouvrir base 1,
l'enregistrer puis ouvrir base 2 ; soit ouvrir deux sessions Stata en parallèle.
=> Pour fusionner deux bases de données, deux cas sont a distinguer selon
que l'on souhaite ajouter des observations ou bien des variables :
Ajouter de nouvelles observations : append using nom_de_la_base2

II faut bien entendu que les variables aient rigoureusement le même nom
dans les deux bases de données.
Fusionner des bases de données
Ajouter de nouvelles variables : il est impératif que les données soient

ordonnées de la même façon dans les deux bases (sort nom_de_variable(s)).
Base 1 ouverte.
• merge nom_de_variable(s) using nom_de_base2, options. Une nouvelle

variable _merge est créée et indique le résultat de la fusion. Les options les
plus usitées : unique (conserve observations non fusionnées base 1 et 2),
uniqmaster (conserve observations non fusionnées base 1) et uniqusing
(conserve observations non fusionnées base 2).
• joinby nom_de_variable(s) using nom_de_base2, options : la différence
avec merge est que joinby ne conserve que les observations pour lesquelles il
y a eu fusion.
Statistiques Descriptives
summarize variable (sum) permet d'obtenir les statistiques

descriptives usuelles. L'option detail permet d'en avoir plus.
tabulate variable (tab) calcule les fréquences des valeurs prises par une
variable, et permet de créer des tableaux croises pour deux variables.
tabulate variable, row col cel (tab) permet de créer des tableaux croises
pour deux variables avec toutes les fréquences conditionnelles associées.
count if condition renvoies le nombre d'observations qui

remplissent la condition imposée. Peut être associée a by.
Statistiques Descriptives :
corrélation et covariance
pwcorr variable1 variable2 donne la matrice de corrélations entre les variables. L'option
sig permet d'obtenir le résultat du test de nullité du coefficient de corrélation.
• corr variablel variable2, cov permet d'obtenir la matrice des variance-

covariances.
• pwcorr variablel variable2 variable3 permet d'obtenir les coefficients de
corrélation partielle entre les variables prises deux a deux.
Tests sur la moyenne, la variance et la
distribution des variables
ttest permet de comparer les moyennes de deux variables.
Attention ; ce test repose sur l'hypothèse implicite d'égalité des

variances des deux variables. L'option unequal permet de relâcher celle-
ci.
Exemples :
ttest age, by(homme), pour tester la significativité de la différence d'âge

entre hommes et femmes.
ttest age=40 : pour savoir si l'âge moyen est égal a 40 ans.
Tests sur la moyenne, la variance et la
distribution des variables
=>ou rejette HO <liff=0 et on valide Ha diff!=0 avec diff>0 c'est a dire l'age moyen des
femmes est significativement plus eleve que l'age moyen des homines
Utilisation des séries temporelles
Pour spécifier la nature temporelle des données, il faut utiliser la commande :

tsset variable temporelle [, options]
Par exemple tsset month, monthly
» tsfill : remplace les "trous" par des valeurs manquantes
tsreport : reporte des stats sur la structure des séries temporelles (trous,
observations multiples, . . . )
Principaux operateurs de séries temporelles
• L. : operateur retard (xt-1)

• L2. : deuxième retard (xt-2)
• F. : operateur lead (xt+1)
• F2. : deuxième lead (xt+2)
• D. : operateur différence (xt - xt-1)
• D2. : operateur différence (xt - xt-1) - (xt-1 - xt-2)
• S. : operateur différence saisonnière (xt - xt-1)
• S2. : operateur différence saisonnière (xt - xt-2)
• Sn. : operateur différence saisonnière (xt - xt-n)
Principaux operateurs de séries temporelles
Ces operateurs peuvent être utilise directement dans les

commandes, par exemple :
• sum L.gdp
• regress y x1 L.x1 L4.x2
Ces operateurs peuvent être combinés, par exemple :

• L(1/4).gdp : équivalent à L.gdp L2.gdp L3.gdp L4.gdp
• F(2/3).inf : équivalent à F2.inf F3.inf
Quelques modèles disponibles
Modèles de régression simples (MCO, MCG) Exemple : regress y xl

x2, noconstant
Modelés AR(p), MA(q) ou ARMA(p,q) Exemple : arima y xl x2, ar(2)

ma(l/4)
Modèle ARIMA(p,d,q)
Exemple : arima y xl x2, arima(2,2,l/4)
Modèles ARCH, GARCH et dérivés
Modèles VAR, SVAR et VECM

Modèles de régression simples : MCO, MCE
Types de spécification et interprétation des coefficients
1𝑒𝑟 𝑐𝑎𝑠: 𝑌𝑡 = 𝑎0 + ෍ 𝑎𝑖 𝑋𝑖𝑡 + 𝜀𝑡

𝑖=1
𝐴𝑣𝑒𝑐 1 ≤ 𝑡 ≤ 𝑛 ∶ 𝑁𝑏𝑟𝑒 𝑑 ′ 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑡𝑖𝑜𝑛𝑠
𝑒𝑡 1 ≤ 𝑖 ≤ 𝑘: 𝑁𝑏𝑟𝑒 𝑑𝑒 𝑣𝑎𝑟𝑖𝑎𝑏𝑙𝑒𝑠, (𝑘 < 𝑛)
Interprétation : une variation (augmentation ou diminution)
d'une unité de la variable 𝑋𝑖 se traduit en une variation de
𝑎𝑖 unités de 𝑌𝑡 .
Types de spécification et interprétation
des coefficients
2è𝑚𝑒 𝑐𝑎𝑠: log(𝑌𝑡 ) = 𝑎0 + ෍ 𝑎𝑖 log(𝑋𝑖𝑡 ) + 𝜀𝑡

𝑖=1
𝐴𝑣𝑒𝑐 1 ≤ 𝑡 ≤ 𝑛 ∶ 𝑁𝑏𝑟𝑒 ′
𝑑 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑡𝑖𝑜𝑛𝑠
Interprétation : une variation (augmentation ou
diminution)
de 1% la variable 𝑋𝑖 se traduit en une variation de
𝑎𝑖 % de la variable 𝑌𝑡 .
Types de spécification et interprétation des coefficients
𝑘
3è𝑚𝑒 𝑐𝑎𝑠: log(𝑌𝑡 ) = 𝑎0 + ෍ 𝑎𝑖 𝑋𝑖𝑡 + 𝜀𝑡

𝑖=1
′
𝐴𝑣𝑒𝑐 1 ≤ 𝑡 ≤ 𝑛 ∶ 𝑁𝑏𝑟𝑒 𝑑 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑡𝑖𝑜𝑛𝑠
Interprétation : une variation (augmentation ou diminution)
D’une unité de la variable 𝑋𝑖 se traduit en une variation de
𝑎𝑖 % de la variable 𝑌𝑡 .
Déclaration à STATA que nous
voulons utiliser
les « séries temporelles »
La commande pour le faire est la suivante :

tsset variable du temps (annee)
Stata identifie bien la dimension temporelle de la base et elle
couvre la l’étendu de la variable annee.
Etude de la stationnarité :
Test de Duckey—Fuller Augmenté
En niveau
Le test de stationnarité permet de rechercher la présence ou non

de racine unitaire.
Les hypothèses du test :
H0 : présence de racine unitaire ; Contre
H1 : absence de racine unitaire
Commande : dfuller variable
Décision
Si p—value est inférieure au seuil de 5 %, on rejette Ho, alors la
série est stationnaire en niveau. Par contre si p—value est
supérieure au seuil de 5 %, on ne rejette pas Ho, alors la série
n'est pas stationnaire. Dans ce cas, il faut faire le test en
différence première
En différence première

Commandes : gen dvariable = d.variable ; dfuller dvariable
Décision
série est stationnaire en différence première. Par contre si p—
value est supérieure au seuil de 5 %, on ne rejette pas Ho, alors
la série n'est pas stationnaire différence première. Dans ce cas, il
faut faire le test en différence seconde
En différence seconde

Commandes : gen d2variable = d2.variable ; dfuller d2variable
Décision
série est stationnaire en différence seconde. Par contre si p—
value est supérieure au seuil de 5 %, on ne rejette pas Ho, alors
la série n'est pas stationnaire différence seconde. Dans ce cas, on
peut utiliser une variable proxy i.e une variable substitue qu’on
peut utiliser pour expliquer le même phénomène étudié.
Test de cointégration
Les hypothèses de base du test :

Ho : pas de cointégration
HI : existence de cointégration.
La commande : vecrank variables (les variables en
jeux)
Décision
la présence d'étoile sur la statistique de la trace avec le
lags 2 montre qu'il existe au moins une relation de
cointégration dans les séries. Cette présence de
cointégration est la condition de l’utilisation du Modèle
à Correction d' Erreur (MCE).
Estimation du modèle à Correction d' Erreur en
deux étapes de Engel et Granger
Procédure : Il consiste à estimer le modèle de long

terme après le test de cointégration de Johensen.
Ensuite, on récupère le résidu dudit modèle puis on le
retarde d'une période. Mais, il est important de faire le
test de stationnarité sur le résidu. Ce test est la
condition suffisante d'utilisation du MCE. II est
préférable que le résidu soit stationnaire en niveau au
seuil de 5%. Parfois, on le récupère à 10% ou on
procède au test d 'ADF en différence 1ère voire en
différence 2nde
Pour estimer le modèle de court terme, on ramène

toutes les variables aux mêmes ordres d'intégration (le
plus faible) et on intègre le résidu retardé d'une
période comme variable explicative supplémentaire
dans le modèle de court terme. Le coefficient associé
au résidu retardé d'une période, appelé la force de
rappel à l'équilibre, doit être négatif et
significativement différent de zéro et compris, en valeur
absolue, entre O et 1. Si cette condition n’est pas
vérifiée, le modèle estimer ne peut pas être utilisé pour
des fins de prévisions économiques
Quelques Commandes
Pour estimation : regress variable expliquée variables explicatives

Pour recuperer les residus : predict nom_envisager_pour_le
residus, resid
Variables qualitatives : modèle binaire
On peut utiliser le modèle logit ou probit.

Les commandes sont du type :
• logit variable expliquée variable explicatives.
• probit variable expliquée variable explicatives.
Par exemple :
• probit horlib homme âge cspinter cspintel cyclel cycle23 useintbu
joigndepb
• logit horlib homme age cspinter cspintel cyclel cycle23 useintbu
joigndepb
Variables qualitatives:
modèle binaire post estimation
Pour obtenir les effets marginaux :
après l'estimation d'un modèle Logit ou Probit =>• on utilise la

commande mfx compute.
dans le cadre du modèle Probit, la commande dprobit calcule
directement les effets marginaux, sans passer par les
coefficients.
predict p permet d'obtenir la probabilité prédite notée p.
Istat permet d'obtenir le taux de bonnes et mauvaises prédictions.

Variables qualitatives : modèle multinomiaux
Modèles ordonnes : la syntaxe est similaire a celle utilisée pour les

modèles binaires avec les commandes oprobit pour le probit
ordonne et ologit pour le logit ordonne.
Modèles multinomiaux :
Stata gère assez mal les modèles de type Probit multivariés

comportant plus de 4 alternatives, a Les modèles de type Logit
multinomiaux par contre s'estiment sans problème avec la
commande mlogit. mlogit statut homme diplome age,
baseoutcome(l)
Exportation des tableaux de résultats
Exportation en fichier ASCII (.out) ou Word (.doc) : commande

outregregress y x1 x2
outreg using tablet.out, title("Table 1") ctitle("A") regress y xl
x2 x3
outreg using tablet.out, append ctitle("B") type tablet.out
Exportation au format lATEX(.tex) : commande est2tex
Plus d'infos dans le guide de F. Bresson :
http://I29.3.20.41/eps/prog/papers/0506/0506001.pdf
4 □ ► 4 (5 ► <“► 4 =► =
Introduction a STATA
Ajout de nouvelles commandes
Pour installer de nouveaux modules a Stata (fichiers

.ado et .hip) : ssc install nom_du_module, all
Par exemple :
ssc install xtabond2, all
ssc install levinlin, all
Pour voir les nouveaux modules disponibles pour
Stata (environ 50 modules depuis Janvier 2008 !):
http://ideas.repee.org/s/boc/bocode.html
4 □ ► 4 (5 ► <“► 4 =►
Trouver de l'aide...
Aide interne a Stata : help command
Manuels officiels Stata : comportant l'aide en ligne et donnent des

exemples
Site(s) Web de Stata et du Stata Journal : http://www.stata.com

http://www.stata-press.com http://www.stata-journal.com
.. .et également la Statalist !

http://www.stata.com/statalist

Remi - Danhoundo-Formation - Stata - Beninedu - Com-Introduction À STATA Pour L Analyse de Données

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Remi - Danhoundo-Formation - Stata - Beninedu - Com-Introduction À STATA Pour L Analyse de Données

Transféré par

Droits d'auteur :

Formats disponibles

Introduction à STATA

1. Logiciel intuitif : interface et fenêtres

Deux icones permettant d'afficher la base de données (Data

Stata utilise plusieurs types de fichiers, nommes d'après leurs extensions :

Fichier .do : Fichiers de commandes, lisibles dans n'importe quel éditeur de

L'ouverture du Do-File Editor peut se faire en appuyant sur

II est possible de lancer l’intégralité du do-file ou

Pour cela, il suffit de sélectionner la partie

Commandes utiles a insérer en préambule du do-file :

Log : Pour conserver une trace complète de tout ce qui s'affiche

• Pour supprimer l'affichage des résultats d'une commande,

• Pour détailler au maximum les opérations réalisées par Stata :

• Pour que Stata ne stop pas au cours de l’exécution d'un do-file

Les variables sous Stata peuvent être numériques ou

Lors de l’écriture de programmes :

Pour chaque nouvelle commande il faut passer a la ligne, il est inutile

Minuscules/majuscules : les commandes sont a taper en minuscules,

En ce qui concerne le signe =, il existe une particularité. Lorsque le

Les valeurs manquantes (symbolisées par un point sous Stata) sont

Les operateurs suivent l'ordre de priorité habituel. L'operateur "Et" est

Ces trois expressions peuvent s'utiliser avec la majorité des

by permet d'appliquer une commande a chaque valeur d'une

En amont, il faut que la base de données soit classée par cette

Exemple : bysort sexe : summarize salaire permet d'obtenir le

if permet de n'appliquer la commande qu'aux observations

Syntaxe : commande variable if condition.

Exemple : summarize salaire if age==18 | age>20 & age<=50

L'operateur & est prioritaire, les parenthèses sont inutiles ici.

in permet de n'appliquer la commande qu'aux

Syntaxe : commande variable in condition.

Exemple : summarize salaire in 10/20 donne les

• describe : affiche la liste de toutes les variables, le type et les

• ds : liste les variables

• codebook variable : détaille la variable ie. modalités possibles,

• rename ancien_nom nouv_nom : Renomme la variable

• replace x = 12 : Remplace le contenu de la variable x par 12 (x

• replace x=y if y>10 & y ~= . : Remplace la valeur de x par celle de

• drop x : Supprime la variable x.

Dans le cadre notamment de l'économétrie des variables qualitatives,

• generate permet de créer des variables qui nécessitent des

Exemples d’utilisation de generate :

• gen x = 12 : crée une constante nommée x, qui vaut 12.

• gen x = log(a*b)-sqrt(abs(b)): La nouvelle variable x =

• gen x = (sexe=="Homme"): x est égal a 1 si la variable

Exemples d’utilisation de egenerate :

• egen x = sd[y] : x, constante, est égal a l’écart-type de y.

• egen x = pctile(y), p(50) : x est égal a la médiane de y.

• Replace : permet de recoder, de remplacer certaines valeurs

Ajouter de nouvelles observations : append using nom_de_la_base2

Ajouter de nouvelles variables : il est impératif que les données soient

• merge nom_de_variable(s) using nom_de_base2, options. Une nouvelle

summarize variable (sum) permet d'obtenir les statistiques

count if condition renvoies le nombre d'observations qui

• corr variablel variable2, cov permet d'obtenir la matrice des variance-

ttest permet de comparer les moyennes de deux variables.

Attention ; ce test repose sur l'hypothèse implicite d'égalité des

ttest age, by(homme), pour tester la significativité de la différence d'âge

Pour spécifier la nature temporelle des données, il faut utiliser la commande :

» tsfill : remplace les "trous" par des valeurs manquantes

• L. : operateur retard (xt-1)

Ces operateurs peuvent être utilise directement dans les

Ces operateurs peuvent être combinés, par exemple :

Modèles de régression simples (MCO, MCG) Exemple : regress y xl