Vous êtes sur la page 1sur 5

Séances 6 et 7 : Exploiter des données d’enquête avec SAS

1. Découverte de la documentation de l’ESS 6 et téléchargement des données


a. Rendez vous sur le site www.europeansocialsurvey.org et recherchez la do-
cumentation relative à la sixième vague de l’enquête (Round 6 ) qui s’est déroulée
en 2012. Retrouvez sur le site tous les éléments de documentation mentionnés dans
le cours, téléchargez-les et rassemblez-les dans un sous-dossier spécifique.
b. Rendez vous sur la page www.europeansocialsurvey.org/user/new pour
créer un compte utilisateur (en précisant « Private » dans le champ « Institution »).
Un mail de vérification va vous être envoyé pour confirmer la création du compte :
en attendant, commencez à parcourir la documentation que vous avez téléchargée,
en particulier le Documentation report et le questionnaire.
c. Téléchargez les fichiers de l’édition 2.1 de l’ESS 6 en « format SAS » et décompressez-
les. Quel est le fichier de données, et quel est son format ? Que contiennent les autres
fichiers ?

2. Découverte des données


a. Utilisez l’option SPSS de l’instruction LIBNAME pour définir une librairie qui pointe
vers le fichier ESS6e02_1sas.por. Examinez le contenu de cette librairie et copiez le
seul fichier qui s’y trouve dans la work. Combien ce fichier comporte-t-il d’observa-
tions et de variables ?
b. Identifiez les variables cntry et idno, déterminez-en les attributs (type, longueur)
et les modalités. Trouvez un moyen de tester si la variable idno à elle seule identifie
chaque ligne de la table 1 .
Conseil : Vous pouvez par exemple utiliser l’option ORDER = de la PROC FREQ ou l’ins-
truction RETAIN de l’étape DATA.
c. Recherchez dans la documentation la présentation des variables de pondération et
retrouvez-les dans le fichier. Comparez leur distribution dans l’ensemble de l’échan-
tillon d’une part, et dans un pays (par exemple la France) d’autre part.
Conseil : Pour comparer facilement des distributions, vous pouvez utiliser la PROC MEANS
dont la syntaxe est très proche de la PROC UNIVARIATE.
d. Construisez une nouvelle pondération pond telle que :

pond = pspwght × pweight × 10 000

Comment interprétez-vous la valeur de la variable pond pour un individu donné ?


Quelle est la taille de la population (N ) que représente l’échantillon collecté en
France (n) ?

3. À partir de votre sujet et de la documentation de l’enquête, construisez une probléma-


tique et recherchez des éléments de bibliographie.

4. Manipulation d’attributs
1. C’est-à-dire : 1) qu’elle est renseignée pour chaque observation et 2) que chacune de ses modalités
est prise au plus une fois.
a. Examinez les attributs des variables de pondération. Quelle est leur précision en
termes de nombre de décimales ? Combien de décimales sont affichées dans la table ?
Comment expliquez-vous ce phénomène ? Reformatez la variable pspwght de façon
à ce qu’elle affiche 1 décimale, puis 5.
b. Créez une nouvelle variable (par exemple pspwght2) qui soit égale à pspwght mais
de longueur 3. Comparez ses valeurs à celles de pspwght. Comment expliquez-vous
ce phénomène ?
c. Cherchez dans la documentation des informations sur la variable isco08 : que code-
t-elle ? Quelle nomenclature utilise-t-on en France à des fins similaires ? De nature
qualitative, elle est de type numérique dans la base d’origine. Recodez-la de façon
à ce que son information soit stockée sous la forme d’une variable caractère 2 .
d. Utilisez l’instruction LABEL pour traduire en français le label des variables pspwght
et isco08.

5. Construction d’une base de travail


a. À partir de votre problématique et de la documentation de l’enquête, définissez
le champ géographique sur lequel va porter votre analyse (en général la France).
Construisez une nouvelle table ne comportant que les observations appartenant à
ce champ géographique.
b. À partir de votre problématique et de la documentation de l’enquête, déterminez
une liste de variables a priori pertinentes pour votre analyse.
Conseil : Vous pouvez distinguer les variables qui décrivent le phénomène que vous
souhaitez analyser (parfois désignées comme les « variables expliquées ») et les variables
susceptibles de l’influencer (les « variables explicatives »).
c. Construisez une nouvelle table ne comportant que les variables d’identification, les
variables de pondération et les variables que vous avez déterminées à la sous-question
précédente. Construisez la variable pond définie à la question 2. Vous pouvez égale-
ment effectuer les recodages qui vous paraissent pertinents (cf. question 6).
d. Sauvegardez la table que vous avez créée dans une librairie permanente (i.e. en
dehors de la work). Sauvegardez l’ensemble du code qui mène des données sources
(le fichier .por) à cette table de travail dans un fichier .sas séparé.

6. Menez l’analyse univariée d’une variable centrale pour votre problématique (variable
d’origine de l’enquête ou créée par vos soins) à partir de votre base de travail.
Travail à rendre : Pour le jeudi 8 octobre, envoyez à statistique_exploratoire@ensae.fr
et à votre chargé de cours :
1. Le code de création de votre base de travail commenté.
2. Une note de 2 pages maximum comportant :
— la problématisation du sujet de mémoire ;
— des éléments de bibliographie ;
— l’analyse de la variable menée en question 6 (avec au moins un tableau ou un
graphique, correctement présenté) ;
— la liste des variables susceptibles d’être analysées dans le mémoire, en annexe 3 .
2. Ce recodage nous sera utile pour naviguer plus facilement dans les différents niveaux de cette
nomenclature, cf. séance 9.
3. C’est-à-dire que cette liste ne compte pas dans le volume maximal de 2 pages.
Séance 8 : Statistiques bivariées sur variables qualitatives

Préparation : Recopiez la base ess dans la work.

1. Télévision et genre
a. La variable tvtot renseigne sur le temps passé devant la télévision par jour. Recher-
chez des informations sur cette variable dans la documentation de l’enquête : quelle
est la signification de ses modalités ? Combien présente-t-elle de cas de non-réponse
dans l’échantillon collecté en France ?
b. Créez la variable tvtot3 qui soit un recodage de la variable tvtot en trois modalités
d’effectifs à peu près égaux, en passant en valeur manquante les cas de non-réponse.
c. Effectuez le tri croisé entre la variable tvtot3 et la variable codant le sexe des
personnes interrogées gndr. Repérez et interprétez les effectifs de cellule, les pour-
centages de cellule, les pourcentages marginaux, les pourcentages en ligne et les
pourcentages en colonne. Utilisez séparément les options NOFREQ, NOPERCENT, NOCOL
et NOROW.
d. Comparez les résultats que vous obtenez selon que vous ne pondérez pas, que
vous pondérez par la variable pspwght (pondération dont la somme est la taille
de l’échantillon) ou que vous pondérez par la variable pond (pondération dont la
somme est la taille de la population). Comment expliquez-vous ce phénomène ?
e. Affichez les χ2 de cellule et le χ2 total du tableau avec les options CELLCHI2 et CHISQ.
Comparez à nouveau sans pondération, en pondérant par pspwght et en pondérant
par pond. Interprétez la p-valeur du test du χ2 dans les trois cas. Que concluez-vous
quant à l’association entre sexe et temps passé devant la télévision ?

2. Télévision et profession
a. La variable isco08 code la profession de la personne interrogée dans la nomenclature
ISCO 2008, pour toutes les personnes travaillant ou ayant déjà travaillé. Quelles sont
les modalités codant les non-réponses, et combien y a-t-il de cas dans l’échantillon ?
Que pensez-vous en particulier de la modalité 66666 ?
b. La variable isco08_car est l’équivalent de type caractère de la variable isco08,
dans laquelle tous les cas de non-réponse ont été recodés en valeur manquante 1 . À
partir de isco08_car et en utilisant la fonction SUBSTR(), créez la variable isco1
qui corresponde à la première position dans la nomenclature ISCO. Recherchez la
signification des catégories les plus agrégées de la nomenclature ISCO.
c. Analysez les relations entre profession et temps passé devant la télévision. Constatez-
vous de nettes sur- ou sous-représentations ? L’association entre ces deux variables
peut-elle être jugée statistiquement significative ?

Travail à rendre : Analyse de variables du mémoire (à rendre après la séance 9)


Par groupe, analysez le croisement de deux variables qualitatives importantes dans la
problématique de votre mémoire. Rendez un commentaire de deux pages maximum, avec
les tableaux ou graphiques pertinents correctement présentés.

1. Le code de création de isco08_car est : IF isco08 NOT IN(66666,88888,99999)THEN


isco08_car = PUT(isco08,Z4.);
Séance 9 : Statistiques bivariées sur variables quantitatives et
qualitatives ordonnées

Préparation : Recopiez la base ess dans la work.

1. Télévision et âge
a. La variable tvtot_simul est une variable de nature quantitative spécifiquement si-
mulée pour ce TP : elle associe à chaque individu un temps passé devant la télévision
sur une échelle continue (heures avec une décimale).
Attention : Cette variable a été créée pour les besoins de l’exercice, elle ne doit pas être
utilisée dans les mémoires.
Analysez la distribution de la variable tvtot_simul : comporte-t-elle des non-
réponses, est-elle cohérente avec la variable tvtot ?
b. L’âge des personnes interrogées est renseigné dans la variable agea. Analysez la rela-
tion entre âge et temps passé devant la télévision au sens de la variable tvtot_simul
en prenant bien soin d’exclure les valeurs manquantes. Comparez la valeur du coef-
ficient de corrélation linéaire de Pearson selon que vous ne pondérez pas, que vous
pondérez par la variable pspwght ou que vous pondérez par la variable pond.
c. Interprétez la p-valeur du test associé au coefficient de corrélation linéaire. Celle-ci
varie-t-elle avec la pondération utilisée ? Comment expliquez-vous ce phénomène ?
d. Calculez, interprétez la valeur et déterminez la significativité du coefficient de cor-
rélation des rangs de Spearman et du τ de Kendall. Conduisent-ils aux mêmes
conclusions que le coefficient de corrélation linéaire de Pearson ? Recalculez ces trois
coefficients en négligeant d’exclure les valeurs manquantes et comparez l’évolution
de leur valeur. Quel indicateur vous semble le plus sensible aux valeurs extrêmes ?

2. Télévision et revenus du ménage


a. La variable hinctnta code le revenu total du ménage de la personne interrogée.
Quelle est la signification des modalités de cette variable ? Recherchez sur le site
internet de l’ESS la documentation spécifique à cette variable et déterminez la valeur
de ses modalités dans le cas de la France. Analysez sa distribution : que pensez-vous
en particulier de l’importance de la non-réponse ?
b. En repartant de la variable tvtot originale, proposez une analyse de la relation entre
temps passé devant la télévision et revenus du ménage. Calculez le τb de Kendall et
jugez de sa significativité en utilisant l’écart-type asymptotique (ASE).
c. Reproduisez cette analyse en recodant les variables d’origine (par exemple tvtot
comme proposé au TP précédent et hinctnta en quintiles). Les résultats obtenus
confirment-ils l’analyse sur les variables brutes ? Quel intérêt présente selon vous ce
recodage ?

Travail à rendre : Analyse de variables du mémoire (commun avec la séance 8)


Par groupe, analysez le croisement de deux variables quantitatives ou qualitatives ordon-
nées importantes dans la problématique de votre mémoire. Rendez un commentaire de
deux pages maximum, avec les tableaux ou graphiques pertinents correctement présentés.
Séance 10 : Statistiques bivariées sur variables qualitatives et
quantitatives

Préparation : Recopiez la base ess dans la work.

1. Télévision et âge (2)


a. On reprend l’analyse des relations entre âge et temps passé devant la télévision
entamée lors de la séance 9, toujours à partir de la variable quantitative simulée
tvtot_simul.
Attention : Cette variable a été créée pour les besoins de l’exercice, elle ne doit pas être
utilisée dans les mémoires.
Recodez la variable agea en tranches de 10 années.
b. À l’aide de l’instruction CLASS de la PROC MEANS, comparez la distribution de
tvtot_simul selon les tranches d’âge. Comment interprétez-vous ces résultats ?
c. À l’aide de la PROC BOXPLOT, tracez les boîtes de Tukey correspondantes. Utilisez
l’option BOXSTYLE pour modifier le traitement des valeurs extrêmes.
d. À l’aide de la PROC ANOVA, calculez le rapport de corrélation entre les variables d’âge
en tranche et de temps passé devant la télévision. Interprétez le test de Fisher pour
déterminer si cette association est statistiquement significative aux seuils statistiques
usuels.
e. Exportez l’ensemble de ces résultats sous la forme d’un fichier .rtf en utilisant
ODS RTF.

2. Télévision et diplôme
a. Recherchez des informations dans la documentation de l’enquête sur la variable
eisced. Qu’est-ce que la nomenclature ISCED ? Examinez la distribution de eisced
et recodez-la en catégories plus homogènes en termes d’effectif si vous le jugez né-
cessaire.
b. Utilisez la PROC TABULATE pour calculer la moyenne et l’écart-type de tvtot_simul
selon le diplôme atteint et une PROC BOXPLOT pour représenter les boîtes de Tukey
correspondantes.
c. Procédez à l’analyse de la variance de tvtot_simul selon le diplôme atteint, calculez
le rapport de corrélation et jugez de la significativité statistique d’une éventuelle
association entre ces deux variables.
d. (Difficile) À l’aide de plusieurs PROC UNIVARIATE (certaines utilisées avec l’instruc-
tion CLASS) et d’exports avec l’instruction OUTPUT, recalculez manuellement le rap-
port de corrélation (cf. la formule du cours).

Travail à rendre : Code commenté


→ Par groupe, envoyez le code correspondant à cette séance commenté et correctement
présenté à votre chargé de cours (la question 2.d est optionnelle).

Vous aimerez peut-être aussi