Vous êtes sur la page 1sur 11

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/315066249

Chapitre 1 - guide utilisation de STATA

Method · March 2017

CITATIONS READS
0 19,565

1 author:

Dalila Chenaf-Nicet
University of Bordeaux
123 PUBLICATIONS 216 CITATIONS

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

Guide d'utilisation du logiciel GRETL View project

Economie et Culture View project

All content following this page was uploaded by Dalila Chenaf-Nicet on 10 July 2017.

The user has requested enhancement of the downloaded file.


Guide d'utilisation de STATA

Dalila Chenaf-Nicet - Université de Bordeaux - LAREFI

Février 2017
Résumé
Ce guide a pour objet de faciliter les premières manipulations sous STATA. En règle générale ces manipulations
sont illustrées à l'aide de captures d'écran qui proviennent de STATA 14 mais elles restent valables pour les autres
versions de STATA.
A l'aide de ce document vous pourrez apprendre à télécharger une base de données à partir d'un format Excel
ou à créer des variables et des données directement dans stata, à les modier, les labelliser, etc.
Chapitre 1

La prise en main du logiciel

En ouvrant le logiciel on découvre l'interface ci-après. Elle peut être légèrement diérente selon les versions (il
y a une légère évolution de STATA 8 jusqu'à STATA 14 en passant par STATA 10 et STATA 12), mais elle se
compose toujours de 5 fenêtres et d'une barre de menu en haut de la capture d'écran . La barre de menu comprend
les onglets : Open, File, Edit, , etc., comme dans la plupart des logiciels de traitement. Des onglets propres à la
gestion des données : Data. On trouvera pour nir des onglets spéciques à l'analyse statistique et économétrique :
Graphic, Statistics,

Barre de Menu

2
2

3
5
Barre de
commande
1

Il y a 5 fenêtres mais d'inégale importance pour l'utilisateur. La fenêtres 5 est bien moins utile que les autres
car c'est une sorte de résumé visuel des caractéristiques des variables utilisées dans la base de données.
Il est précisé dans cette fenêtre que la variable  x  de votre base de données, à un certain type, un certain label,
un certain format. Par exemple que la variable  x  est une chaine de caractère(string) ou quelle est de nature
numérique (byte, oat, long, double, int).
Les quatre autres fenêtres seront très régulièrement utilisées pour le travail économétrique et statistique et seront
donc détaillées dans ce document.

1.1 La Fenêtre 1  Command 


La première fenêtre tout en bas de la capture d'image est la fenêtre de  Command : on tape dans cette fenêtre
les lignes de code que l'on veut faire exécuter. Sous STATA, il y a toujours deux possibilités : soit vous connaissez
parfaitement le code à exécuter pour obtenir un résultat et vous le tapez directement dans cette fenêtre, soit vous
ne connaissez pas le code et vous utilisez la barre de Menu (File, Edit, Graphics, Statistics, etc) à partir de laquelle
vous pourrez par un système de menu déroulant obtenir le même résultat.

Par exemple si on veut créer une variable  Y  comme étant le double de la variable  X , il est possible :
 Soit de taper dans la barre de  Command  :

1
generate Y = 2*X (puis entrer pour obtenir l'exécution du programme)

 generate  est le mot-code pour créer de nouvelles variables. Une nouvelle variable Y sera alors créée .
 Soit vous cliquez dans le Menu dans l'onglet : Data > Create Data > Une boite de dialogue s'ouvre dans
laquelle en vous laissant guider par le logiciel vous indiquez que vous voulez créer une variable  Y  à partir
du double de la variable  X . Vous obtiendrez de la même façon que précédemment la nouvelle variable
 Y . Par contre dans ce dernier cas STATA indique dans la  fenêtre centrale  (fenêtre 3) et dans la
fenêtre  Review - Command  ( fenêtre 2), le code qui a été nalement utilisé par STATA pour exécuter ce
programme. En l'occurrence dans ces deux dernières fenêtres s'inscrit la ligne de code :

generate Y = 2*X

Ceci est très pratique car si pour la première fois vous ne connaissez pas une commande, en utilisant le chemin
proposé par la barre de Menu, celle-ci vous est fourni ainsi que sa syntaxe et vous pourrez en la mémorisant la
réutiliser une prochaine fois en passant directement par la fenêtre  Command  et non plus par le Menu.

1.2 La Fenêtre 2  Review - Command .


C'est la fenêtre à gauche de la capture d'écran. Elle permet de visualiser les commandes qui ont été exécutées
(le texte de la ligne de code dont vous aurez demandé l'exécution). Si la ligne de commande, après que l'on ait
demandé son exécution, y apparait en noir c'est que le code est parfaitement écrit. Si la ligne apparait en rouge
dans cette fenêtre c'est qu'il y a une erreur dans la ligne de commande. Dans la fenêtre centrale vous aurez dans ce
cas une phrase qui vous expliquera d'où vient votre erreur : variable non trouvée, nom de variable mal écrit, code
inapproprié, etc.
Les lignes de commandes apparaissent dans cette fenêtre tout le temps d'une session de travail ce qui est très
pratique car si après avoir exécuté un ligne de commande à un certain moment, vous avez besoin de faire d'exécuter à
nouveau cette ligne, il vous sut de double-cliquer sur la ligne de commande dans la fenêtre  Review - Command 
qui réapparaitra alors directement dans la fenêtre  Command  sans que l'on ait besoin de ré-écrire le code.

1.3 La Fenêtre 3  Centrale 


La plus grande fenêtre de l'interface. Cette fenêtre est en générale de couleur noire dans les plus vieilles versions
de STATA. C'est la fenêtre de  l'output  ou en d'autres termes la fenêtre où apparaissent les  résultats  de vos
commandes. Les tableaux de résultats y apparaissent et peuvent être copiés et collés pour y être utilisés dans des
chiers word par exemple.
Il y a plusieurs façons de faire pour récupérer les résultats : vous pouvez sélectionner le tableau dans la fenêtre
un tableau, un tableau
centrale avec la souris et le copier (en faisant clique droit) selon votre convenance comme :
HTML, une image. Puis vous pouvez coller le tableau, les résultats, dans un chier word par exemple.
Nous verrons ultérieurement qu'il y a plus facile pour récupérer dans un chier word l'ensemble des résultats
grâce à ce que l'on nomme la  Log  que l'on trouve dans la barre de Menu, sous l'onglet : Data , avec le symbole

d'une feuille de papier : . Nous reviendrons sur ce point lors de la description de la barre de menu .
Dans cette fenêtre 3 on peut aussi y lire le chemin qui l'on utilise lorsque que l'on veut télécharger un chier
de données. Mais là encore nous y reviendrons à la section intitulée : télécharger un chier de données au format
Excel.

1.4 La fenêtre 4  Variables 


Dans cette fenêtre apparait tout simplement l'ensemble des variables qui sont utilisées dans la base de données
et qui ont été créées ou importées. On peut donc y lire le nom de la variable  x  et son label (les exportations de
la France en Euro par exemple) . On pourra lire dans cette fenêtre :
 nom : variable x  ;  Label : Exportations en dollars .
Lors de l'écriture d'une ligne de commande, on utilise toujours le nom de la variable et non le label.

2
Par exemple, si on veut utiliser la variable  x  mais non pas en niveau mais en Log, alors on peut créer nouvelle
variable  y  qui sera le log de  x . Le programme a écrire dans la barre de commande sera alors :

gen y = log(x)

On crée ainsi une nouvelle variable  y  qui est le log de  x .


Ce qui est pratique c'est que quand on a des noms de variables un peu longs (Exemple :  Exportafrançaises )
on est pas obligé de taper le nom de la variable dans la fenêtre de commande à chaque fois que l'on en a besoin
dans une ligne de commande mais en cliquant juste sur le nom de la variable dans la fenêtre  variables  son nom
apparait dans la ligne de commande sans avoir besoin de le taper.

Quand on crée de nouvelles variables elles apparaissent dans cette fenêtre mais en n de liste, si vous éliminez
une variable elle disparait de la liste.

On peut noter que pour créer une nouvelle variable on peut utiliser :

  generate y = log(x) 

ou alors simplement ,

 gen y = Log(x)

Les deux syntaxes sont équivalentes : pour certains mots clés, STATA admet des abréviations (nous verrons cela
dans la section aide ci-après).

Pour éliminer une variable  z  dont on aura plus besoin dans la base de données, le programme est simple. Il
sut d'écrire dans la barre de commande :

drop z

On peut aussi changer l'ordre des variables dans la fenêtre. Si par exemple la variable  w  est souvent utilisée
dans un programme mais quelle est en n de liste dans la fenêtre  Variables  et que vous voulez qu'elle soit en
haut de liste, il sut de taper les commandes suivantes dans la fenêtre de command :

order w, before(z) , on replace la variable W avant la variable z


order w, after (a) , on replace la variable W après la variable a
order w, rst , on replacez la variable W en premier dans la liste.

Mais on peut au lieu de taper toutes les lignes de commande précédentes aller dans le menu et suivre le chemin :
Data >Data Utilities > reorder variables, et se laissé guider par la boite de dialogue. On obtient le même résul-
tat. Les commandes correspondant apparaissent dans ce cas dans la  fenêtre centrale  et la fenêtre  Command -
Review .

Les résultats des diérentes manipulations sur les variables apparaissent toujours dans la fenêtre  Variables .

1.5 La barre de menu

Elle est composée de deux lignes. Dans la première ligne on trouve les onglets :

 -  File  (ouvrir les chiers, les sauvegarder, les imprimer, etc.),


 -  Edit  (pour copier, coller, rechercher, etc.),
 -  Data, (pour créer des données, les modier, les réordonner, etc.)

3
 -  Graphics  (pour faire tous les graphiques possibles tels les histogrammes, les courbes de régression, les
évolutions dans le temps des variables, etc.),
 -  Statistics  (faire de la statistique simple, élaborée, de l'économétrie simple et très élaborée) ,
 -  User  (pas vraiment utile mais permet de revenir sur les données, les graphiques et les résultats),
 -  Window , (qui permet de gérer la disposition des diérentes fenêtres)
 -  Help , (qui est l'aide sur l'ensemble des fonctionnalités de STATA).

Dans la deuxième ligne de la barre de Menu ont retrouve des icônes qui sont des raccourcis des principales fonc-
tionnalités que l'utilisateur mobilise fréquemment.
Par exemple pour ouvrir un nouveau chier vous pouvez passer par  File  >  Open  en utilisant les onglets
de la 1ère ligne.

Mais vous pouvez aussi directement cliquer leur l'icône

Ces raccourcis existent pour : ouvrir un chier, le sauvegarder, l'imprimer, ouvrir un chier Log (ce point sera
précisé ultérieurement), faire appel à l'aide, ouvrir un chier  do-le  (ce point sera précisé ultérieurement), ouvrir
l'éditeur de données, ouvrir l'explorateur de données, ouvrir le manager de variables, ou activer la croix qui permet
d'arrêter un programme en cours. Il y a aussi le symbole d'une èche pontée vers le bas (seulement dans stata 14)
qui permet de personnaliser la barre d'outils
Nous reviendrons sur la log, le do-le, l'aide et les éditeurs de données dans les paragraphes suivants.

1.5.1 L'aide

Elle est très utile quand on recherche une ligne de commande particulière. Elle est très utile aussi pour la syntaxe
à condition de savoir la décrypter correctement. Tout d'abord, attention il faut tout taper en anglais la recherche.
Par exemple on recherche comment se fait une régression sur les variables y (variable dépendante) et x , z (les
variables indépendantes), il faut taper dans l'aide le mot
 regression  (attention sans l'accent). Il apparait alors la liste de tous les endroits où le mot régression apparait
comme étant une commande :

Quand on clique sur les mots-clés en bleu correspondant à la recherche l'aide adéquate sur le mot-clé est obtenue.

Par exemple, si on clique sur  regress  dans l'aide (image ci-avant),on obtient la syntaxe de cette commande
et les diérentes options du programme de régression.
Par exemple pour la régression la syntaxe est :

regress depvar [indepvars ] [if] [in] [weight] [, options]

Vous avez aussi la liste des options possibles (par exemple pour une régression sans la constante on peux utiliser
l'option  noconstant) . Avant les options il y a une virgule qui les sépare du programme principal.

4
Comment lire cette syntaxe :  regress depvar [indepvars ] [if] [in] [weight] [, options]  ?
Le mot de commande pour la régression c'est  regress  ensuite il est précisé le nom de la variable dépendante
(par exemple  y  c'est depvar), ensuite il est précisé la liste des variables indépendantes juste séparées par un
blanc (indepvars).. Il ne faut pas mettre de crochets lorsqu'on écrit une commande, ils apparaissent dans l'aide juste
pour séparer les diérentes étapes de la syntaxe.
On peut ensuite demander cette régression que sous certaines conditions : par exemple si les valeurs de x sont
positives ( if est alors utilisé). Cela peut donner par exemple le programme suivant :

regress y x if x>0, noconstant


STATA régresse donc la variable y par rapport aux variables x et z, seulement pour les valeurs positives de x et la
régression est sans la constante. On note que avant if, in et weight la pondération des variables est possible) il n'y
a ni crochet, ni virgule. La commande doit s'écrire le plus simplement possible, juste avec un espace entre les termes.

Dans l'aide à la n de chaque thème (régression, post-estimation, régression en panel...) vous avez des exemples
de syntaxes qui éclairent souvent sur la manière de rédiger la commande.

Les mots soulignés comme par exemple regress, peuvent être écrit en entier ou juste la partie du mot soulignée.
Par exemple il est équivalent d'écrire :

regress y x if x>0, noconstant

Ou d'écrire

reg y x if x>0, noconstant

Au niveau de la barre de menu si on clique dans  help , plusieurs possibilités s'orent à vous : chercher une
commande ; un mot, une nouvelle commande ..... Mais en cliquant sur  Content  on obtient l'ensemble des thèmes
qu'aborde l'aide listés par catégorie. La catégorie  Graph  est très utile car les graphiques sous STATA sont très
 pro  mais pas forcément facile à manier d'où l'importance de l'aide.
Régulièrement de nouvelles commandes peuvent être téléchargées dans STATA (sous R on parlerait de Package).
série
Pour les télécharger la procédure est simple : par exemple vous voulez télécharger le test du  Cusum  pour
temporelle qui n'est pas automatiquement inclus dans toutes les diérentes versions de STATA. Il sut de taper
dans l'aide : Cusum. La réponse qui vous est données est que le test pour les variables binaires existe mais pas pour
les séries temporelles. Cependant ce test peut être téléchargé et il se nomme  cusum6 . Si on clique dans le lien
 cusum6  proposé s'ouvre une fenêtre de dialogue qui explique le test et qui demande si on souhaite l'installation
du module (click here to install).

En cliquant dans  click here to install , la nouvelle commande est immédiatement installée ainsi que l'aide qui
lui ait aérente (notamment les exemples de syntaxe sur cette nouvelle commande).

1.5.2 Les éditeurs de données

Il s'agit des raccourcis Data Editor (Edit) , Data Editor (Browse) et  Variable Manager  :
Le Data Editor (Browse), avec symbolisé avec la petite loupe permet de  naviguer  dans la base de données
mais ore peu de possibilités d'interventions sur les données. On peut trier ou ltrer les données toutefois dans cet
éditeur. Il est moins utile que le Data Editor (Edit) qui est représenté avec le petit crayon.
Dans le Data Editor Edit on peut taper directement des données ou copier/coller entièrement une base de
données à partir d'un chier au format Excel.
Prenons les deux cas :
 Entrer les données manuellement.

5
Ouvrir le Data Editor (Edit) en cliquant sur l'onglet. Apparait alors la fenêtre suivante, avec une fenêtre principale
où les variables seront crées en colonne et une plus petite fenêtre où elles sont listées :

Dans la fenêtre principale on peut taper directement des données en colonne, ce qui crée du même coup une
variable nouvelle. Si on ne donne pas de nom à ces variable, STATA les nommera automatiquement var1, var2, etc.
Dès lors qu'aucune variable n'existe ou n'est créée alors la fenêtre  variables  sur la droite de la capture d'image
indique : There is no items to show. Lorsque des variables sont créées alors la liste des variables apparait

Par exemple si on tape 5 et 7 dans l'éditeur, on obtient le résultat suivant :

Quand on ferme ensuite, simplement , l'éditeur de données les variables créées apparaissent immédiatement
dans la listé de la fenêtre 4 sans avoir besoin d'une procédure de sauvegarde ou d'enregistrement des données nou-
velles (Variables).ˆ

On peut dans cet éditeur taper des données, les eacer et créer de nouvelles variables mais on peut aussi taper
directement dans la fenêtre de commande un programme et obtenir le même résultat.
Par exemple si on tape dans la barre de commande :
. set obs 1
. generate var1 = 5 in 1
. set obs 2
. replace var1 = 7 in 2

On aura également créé un variable 1 (var1) avec à la 1ère ligne le chire 5 et à la 2ème ligne le chire 7. Mais
tout cela ne peut être proposé que pour une manipulation ponctuelle des données. En réglé générale on veut créer un
grand nombre de variables pour des eectifs importants. On veux pouvoir par exemple importer un grand nombre
de données à partir d'un chier Excel.

On peut directement coller une base de données entière au format Excel dans ce  Data editor  avec un
simple copié/collé de Excel vers STATA mais doit prendre des précautions avant pour notamment les
données numériques. Tout d'abord sous Excel, les chires sont à virgule et sous Stata ils doivent avoir
des points : le chire 2, 5 sera considéré comme du texte par STATA. Alors que 2.5 sera bien lu comme
un chire.

On doit donc ouvrir son chier Excel où il y a les données et faire  rechercher  les virgules et les  remplacer  par
des points. Une fois la manipulation faite on peut copier les données du chier Excel dans l'éditeur qui demandera
juste si la 1ère ligne du chier doit être considérée comme la  ligne de nom des variables . Question à laquelle on
réponds naturellement oui si c'est bien le cas. Si on ferme l'éditeur, l'ensemble des variables créées apparait une fois
encore dans la fenêtre 4.
Il est possible que cette manipulation ne fonctionne pas toujours. Dans certains cas on voit que des variables
apparaissent en rouge et non en noir dans l'éditeur de données. En fait cela signie que STATA ne reconnait par
le caractère numérique de la variable qu'il considèrera comme une variable texte. Le problème vient du fait qu'au

6
niveau d'une des lignes de la variables il y a un signe que STATA ne reconnait pas comme étant un chire et
il considère donc toute la variable (toute la colonne) comme étant du texte. Cela peut arriver si par exemple il
y a écrit  ND  dans une des lignes de la variable pour indiquer que la donnée chirée est non disponible à ce
niveau. Dans ce cas soit on identie immédiatement le problème en enlevant le  ND  pour laisser la case vide et
on recommence la manipulation du copié / collé. Mais parfois il est compliqué de trouver dans une grande base de
données le problème.
Il existe donc une autre méthode qui consiste à transformer son chier Excel en format qui sera lu par STATA.
Il faut alors passer par la procédure intitulée  INSHEET  dont les étapes sont les suivantes :
 (1) On enregistre son chier excel initial (dont on aura remplacé les virgules par des points) au format  texte
(séparateur - tabulation), que l'on enregistre sur le bureau de son ordinateur (c'est plus facile pour trouver le
chemin du chier ensuite). Par exemple, le chier est enregistré au nom de : classeur1.txt. Ici il faut être
très vigilent car le nom du chier ne doit pas comporter de blanc sinon STATA ne reconnaitra
pas le chier.
 (2) on ouvre le logiciel STATA est on tape dans la barre de commande le code qui permet à STATA de
trouver le chemin du chier nommé classeur1.txt. Il faut taper comme formule  insheet using  puis le
chemin comme dans l'exemple suivant :

insheet using C :\users\ destok\classeur1.txt.

 (3) A l'issue de cette manipulation votre chier est téléchargé et STATA vous le conrme en indiquant
le nombre de variables et d'observations importées dans la  fenêtre centrale  ainsi que dans la fenêtre
 variable .
Si vous ne connaissait pas le chemin à utiliser vous pouvez utiliser la petite astuce qui consiste à passer par le menu
en faisant File, Open, all le > et demander à Stata d'ouvrir le chier en question qui est sur votre bureau. STATA
vous donnera toutefois un message d'erreur (R(610) not stata format. Mais ce n'est pas grave car en même temps
il vous donnera la bonne syntaxe du chemin à utiliser pour trouver votre chier. En collant la syntaxe du chemin
dans la barre de commande vous pourrez l'utiliser dans la procédure  insheet using .... .
Une fois les données importées il faut vérier dans l'éditeur qu'elles le sont correctement. Dans tous les cas les
données textes comme par exemple le nom de pays, d'entreprises, ...restent en rouge. Toutes les données numériques
doivent être en noir.

L'onglet  variable manager  , permet de labelliser les variables ou de changer leur nom. Quand on clique
dans l'onglet la boite de dialogue ci-après s'ouvre et en suivant les indications on change facilement le nom et le
label des variables.

1.5.3 La Log

Il s'agit dans la barre de Menu de l'onglet représenté par une feuille de papier déchirée sur le côté .

Il s'agit d'un chier au format texte d'impression et de stockage des commandes et des résultats au cours d'une
session de travail STATA.
Quand on clique dans la log on crée un chier texte qui enregistre automatiquement tout le temps d'une
session l'ensemble des résultats statistiques et économétriques obtenus ainsi que les tableaux de résultats. Il faut

7
sauvegarder la log dès sa création et il est alors possible de la ré-ouvrir lors d'une autre séance de travail sur le
même chier de données et la Log continuera à enregistrer les nouveaux résultats obtenus. On peut suspendre le
travail d'enregistrement de la log pendant un temps et le reprendre ensuite. Il sut de se laisser guider par la boite
de dialogue qui propose toujours 3 possibilités : Voir le contenu du chier Log (le chier est au format .smcl. C'est
un format texte) ; le fermer pour une utilisation ultérieure ; le suspendre pour le reprendre après dans la session de
travail.
La Log est très pratique pour stocker l'ensemble des résultats et pour conserver des traces de son travail.

1.5.4 Le Do-File

Un chier Do-le est également un chier au format texte mais d'un genre particulier dans la mesure où
si on écrit la commande d'un programme dans ce chier, le programme pourra être exécuté depuis le chier sans
avoir à taper le programme dans la fenêtre de commande (cela correspond au  script  sous R).
Ainsi, le chier Do-le est un chier au format texte dans lequel sont incluses les commandes de STATA sous
forme de programme. Grâce à ce chier on garde une trace des commandes eectuées par STATA.
Lorsque l'on clique sur l'icône s'ouvre un chier  untittled.do  (on peut donner ensuite le nom que l'on veut
à ce chier). On peut y écrire tous les programmes que l'on veut faire exécuter. Chaque programme recevra un
numéro de ligne de commande. En cliquant sur Run (si on veut tester la valider des lignes de programmes que
vous avez sélectionné) ou sur Do (pour l'exécuter en entier toutes les lignes du programme), les commandes sont
exécutées dans l'ordre de rédaction.
De manière générale quand on travaille sur une nouvelle base de données, il est utile de toujours ouvrir un Do-le
dans lequel on rédige toutes les lignes de commande que l'on veut faire exécuter. On peut aussi écrire du texte dans
ce chier (si on veut se souvenir de certains éléments de procédure) qui ne sera pas considéré comme une commande
à la condition que l'on place une étoile (*) devant. Dans ce dernier cas le texte devient vert et le Do-le comprends
que ce n'est pas une commande et ne considèrera pas ce texte dans son exécution.
Par exemple dans un Do-le il est possible d'écrire

ligne 1 : summarize x y

* pour avoir des statistiques sur les variables x et y, la ligne 1 summarize me donne moyenne
variance, min et max sur la variable x et la variable y
ligne 2 : twoway (scatter var1 var2)

* pour faire un graphique à deux dimensions qui nous donne le nuage de points (scatter) entre x et
y
ligne  : regress y x if x>0, noconstant

* pour faire une régression de la variable y par rapport à x sans utiliser de constante
En cliquant sur Do-executer, STATA exécutera les 3 lignes de commande et achera tous les résultats dans la
fenêtre centrale (et dans la Log si elle a été créée). Le Do-le ainsi crée pour ce chier Stata de données pourra alors
être réutilisé dans toutes les futures sessions de travail sans qu'il ne soit nécessaire de retaper toutes les commandes.

View publication stats

Vous aimerez peut-être aussi