Académique Documents
Professionnel Documents
Culture Documents
viewer: apparait lors d’une demande d’aide (commande help) ou lors de la visualisation
de fichier log (au format smcl)
ddddDo-file Editor: dédié à l’éditeur de texte. L’éditeur vous permet d’enregistrer les
commandes relatives à un traitement afin de pouvoir le reproduire ultérieurement ou bien
d’en exécuter directement une partie
Data Editor: est l’éditeur de données de stata, il permet de modifier directement le
fichier de données en mémoire.
Browser: sert à visualiser seulement les données sans pouvoir les modifier
1.3. LES FICHIERS
Quelque soit ce que vous voulez faire dans Stata, vous devez utiliser des commandes. Les
commandes peuvent appeler de trois manières:
Menu déroulant: presque chaque commande est incluse dans le menu déroulant:
i) Avantage: vous n’avez pas besoin de connaitre le nom et la syntaxe de la commande et
vous avez a une belle vue de ce que vous pouvez faire avec Stata;
ii) Désavantage: prend beaucoup plus de temps qu’en écrivant une ligne de commande
Ligne de commande: assez intéressant si vous voulez introduire vos commandes une par
une
i. Avantage: prend pas assez de temps
ii. Désavantage : vous devez connaitre la syntaxe exacte (Stata est sensible à la case)
MANIPULER LES DONNÉES (suite et fin)
Contrairement à d’autres logiciels, stata ne travaille que sur un fichier chargé en mémoire.
Ceci peut rendre délicat certaines opérations complexes nécessitant la manipulation de
plusieurs fichiers simultanément. Toutefois, la jointure reste une opération très simple à
réaliser.
Mais cela augment la vitesse de traitement.
IMPORTER DES DONNEES
Plusieurs commandes sont disponibles afin d’importer des données ASCII provenant
d’autres sources en fonction de leur format (libre ou fixe) et de leur organisation.
Insheet lit des fichier ASCII où il y a une seule observation par ligne et où les variables
sont séparées par des tabulations ou des virgules. La première ligne du fichier peut
contenir les nom des variables. Sans option, on peut écrire la commande suivante:
Insheet using mesdonnées.txt
Dans les cas où le séparateur n’est pas une tabulation ou une virgules mais, par exemple,
un point-virgule « ; » (c’est le cas des fichiers csv produits par Excel) , on doit l’indiquer
par l’option delimiter de la façon suivante:
Insheet using mesdata.csv, delimiter(;)
Insheet est la commande la plus utilisée car elle répond simplement à la lecture des fichier les
plus courants
IMPORTER DES DONNEES
Attention: Excel (dans sa version française) crée des nombre décimaux avec des virgules et
des points, aussi Stata ne pourra t-il pas traiter ces variables comme des nombre. Une
solution est de faire un remplacement dans Excel avant d’en faire un fichier csv. Une autre
est d’utiliser la commande replstr
Use permet d’ouvrir des tables au format Stata.
Soit la table entière:
Use monfich.data, clear
L’option clear permet de vider les données en mémoire avant l’ouverture du nouveau fichier.
Soit uniquement quelques variables de cette table:
Use V1 V2 V3 using monfichier.dta
IMPORTER DES DONNEES
Une fois les données lues par Stata, où après création de nouvelles variables, il faut
sauvegarder le fichier de données pour utiliser les modification ultérieurement.
save permet d’enregistrer les données au format Stata. On réalise ceci par la commande:
save monfichier.dta, replace
L’option replace permet éventuellement de remplacer un fichier du même nom déjà présent.
QUELQUE ELEMENTS DU LANGAGE
LES OPERATEURS
Stata utilise un langage de programmation qui permet des opérations classiques mais aussi
l’écriture de programmes sophistiqués.
Il faut noter ici le rôle particulier jouer par le signe = (élément d’affectation) et le signe ==
( élément de comparaison). Ainsi on écrira:
generate sexe =1 , pour affecter la valeur 1 à la variable sexe.
Et on écrira:
if sexe == 1, pour tester si la variable sexe prend bien la valeur 1Une commande valide peut s’écrire
list non prenom if sexe==1 & ville !=’’Paris’’
Elle affichera les noms et les prénoms de tous les individus de la base qui on pour sexe le code 1 et
qui n’habite pas à Paris.
NB: les opérateur sur des valeurs manquantes retournent généralement des valeurs
manquantes, cependant il faut se méfier des comparaison mettant en jeu des valeur
manquantes.
LA SÉLECTION DE DONNÉES
keep ne garde que les observations ou les variables désirées. Il s’utilise comme drop.
clear est utilisé pour supprimer les variables en mémoire.
ATTENTION: avant d’effectuer un drop ou un keep on peut taper la commande preserve afin
de récupérer par la suite l’échantillon initial avec la commande restore.
LES COMMANDES POUR DECRIRE LES
DONNEES
describe permet d’obtenir une description du fichier en mémoire: un nombre d’observation et de
variables taille du fichier en mémoire, liste des variables avec leur format et leur label.
describe peut être utilisée en spécifiant un nom de variable ou des nom avec « jokers »
describe mbs* ; obtient une description de toutes les variables commençant par mbs.
ds (describe short) est une petite commande très utile permettant d’afficher le nom de l’ensemble
des variables d’un fichier sous un format compact.
Codebook permet d’obtenir le détail des variables en mémoire avec, pour chacune d’entre elle,
le nombre d’observations non manquantes et manquantes et quelques statistiques descriptives.
Comme pour describe, la commande peut ne s’appiquer qu’à certaines variables.
lookfor recherche parmi les noms de variables et leurs labels la chaîne spécifiée. La commande:
lookfor com
LES COMMANDES POUR DECRIRE LES
DONNEES
count est très pratique pour connaître le nombre d’observations satisfaisant la condition:
count if salaire < 0
count if de_res ==de_trav
Sans condition, la commande donne le nombre de lignes du fichier
duplicates permet de faire apparaître les observations redondantes selon certains critères.
Par exemple, la commande suivante permet de voir sur les trois variables sélectionnées
combien d’enregistrements sont identiques.
Hilo affiche les 10 observations les plus faibles et les plus élevées pour la variable
spécifiée. Si plusieurs variables sont spécifiées seule la première est triée, les observations
des autres sont affichées pour information.
LES COMMANDES POUR DECRIRE LES
DONNEES
levelsof/distinct sont deux commandes qui permettent de connaître les modalités d’une
variable et de s’en servir ultérieurement. Levelsof retourne un chaîne où les modalités sont
séparées par des blancs; distinct retourne le nombre de modalités. Par example:
levelsof sexe retourne: ’’Femme’’ ’’Homme’’
distinct sexe retourne: 2
LABELS ET ANNOTATIONS
Pour améliorer la compréhension et la lisibilité des fichiers, il est parfois utile de joindre des labels
aux fichiers, aux variables mais aussi aux modalités des variables. Par exemple le codage en 1 et 0 de
la variable sexe est nécessaire pour l’estimation d’un modèle, mais peu parlant pour l’interprétation
des résultats ou même d’un tableau.
label data permet d’ajouter un label -au plus 80 caractères – au fichier pour qu’il apparaisse lors d’un
describe par exemple.
label data ’’Recensement Agricole 2000 ’’
Label variable attache à la variable spécifiée une chaîne d’au plus 80 caractères afin de mieux l’identifier
label variable rural ’’ Appartenance à une commune rurale’’
label define va permettre de définir un label pour les modalité d’une variable.
label value permet ensuite d’affecter le label préablement défini à la variable désire
LES CREATIONS DE VARIABLES
La création de nouvelles variables sous Stata se fait par la commande generate (ou gen
seulement)
Le type de variable
byte un nombre entier compris entre -127 et 100
int un nombre entier compris entre -32766 et 32740
long un nombre entier compris entre -2 147 483 647 et 2 147 483 647
float un nombre réel avec une précision de 8 chiffres
double un nombre réel avec une précision de 16 chiffres
str(#) une chaîne de caractères de longueur #
LES CREATIONS DE VARIABLES
rename sexe genre c’est la syntaxe courante pour renommer la variable sexe en genre
Replace zone = 4 if zone == 2 | zone == 3 cette commande permet de regrouper les
modalités 2 et 3 en 4 de la variable zone.
replstr ’’,’’ ’’.’’
STATISTIQUE DESCRPITIVE
Il est indispensable, avant toute analyse, de calculer quelques statistiques de base pour
connaître la fréquence d’une modalité ou la distribution d’une variable, afin de pouvoir
effectuer des regroupements ou tout simplement pour mètre en évidence d’éventuels points
aberrant.
STATISTIQUE DESCRPITIVE UNIDIMENSIONNELLE
Stata considère comme discrète une variable qui possède moins de 9 modalités.
Toutefois les fonctions dédiées aux variables discrètes s’appliquent aussi à des variables possédant de nombreuses valeurs
distinctes
tabulate permet de faire des tableaux de fréquence de fréquences simples ou des tableaux croisés sur les variables
spécifiées. Son abréviation est tab ainsi tabulate sexe donne le tri à plat de la variable sexe selon ses modalités.
Tandis qu’un tableau croisé pourra être obtenu de la façon suivante:
tabulate sexe stage
Tab1/tab2@ sont des commande qui permettent de créer des séries de tableaux de fréquence simples ou croisés en
spécifiant une liste de variables
tab1 sex stage secteur
tabcond réalise des tableaux fréquences d’une variable discrète en permettant de tenir compte de 5 conditions au maximum
Tabcond g sexe, c(salaire <=10 salaire>50 effective>5)
STATISTIQUE DESCRPITIVE UNIDIMENSIONNELLE
mmodes est la seule commande permettant de déterminer rapidement le mode d’une variable discrète.
mmodes age
DESCRIPTION DE VARIABLES CONTINUES
Les commandes suivantes permettent de décrire des variables continues, mais elles peuvent dans certains cas
s’appliquer à des variables discrètes.
summarize est la commande la plus utilisées elle permet de déterminer en une seule fois le nombre d’observations,
la moyenne arithmétique, l’écart-type, le minimum et le maximum des variables spécifiées. Elle peut se résumer à
sum.
Tabstat chômage formation, by(sexe) stats(n mean sd p75)
Correlate donne la matrice des corrélation (ou des covariance) des variables spécifiées
grmeanby est une commande très utile pour visualiser des écart à la moyenne ou à la médiane d’une variable
continue selon les modalités d’une variable discrète.
STATISTIQUE DESCRPITIVE
UNIDIMENSIONNELLE
Elle représente sur un même graphe la moyenne (ou la médiane) de la variable étudiée et
les moyennes (resp. médiane) dans chacun des groupes des variable discrète considérées
grmeanby treff sexe age, sum(salaire)
centile permet d’obtenir des quantiles autres que ceux de donnés par la commande
summarize.
ci calcule un intervalle de confiance de la moyenne de chaque variable spécifiée, sous
l’hypothèse que ces variables soient distribuée selon une loi normale.
QUELQUES TESTS DE NORMALITE
Sktest réalise des tests de normalité. Cette commande permet de réaliser tout d’abord un
test basé sur la statistique de Skewness, puis un second test basé sur la statistique de
Kurtosis.
sktest salaire effectif nbjour
return list
Scalars
swilk/sfrancia sont deux commandes qui réalisent des test de normalité respectivement
Shapiro-Wilk and Shapiro-Francia.
QUELQUES TESTS D’ASSOCIATIONS