Académique Documents
Professionnel Documents
Culture Documents
4. Manipulation d’attributs
1. C’est-à-dire : 1) qu’elle est renseignée pour chaque observation et 2) que chacune de ses modalités
est prise au plus une fois.
a. Examinez les attributs des variables de pondération. Quelle est leur précision en
termes de nombre de décimales ? Combien de décimales sont affichées dans la table ?
Comment expliquez-vous ce phénomène ? Reformatez la variable pspwght de façon
à ce qu’elle affiche 1 décimale, puis 5.
b. Créez une nouvelle variable (par exemple pspwght2) qui soit égale à pspwght mais
de longueur 3. Comparez ses valeurs à celles de pspwght. Comment expliquez-vous
ce phénomène ?
c. Cherchez dans la documentation des informations sur la variable isco08 : que code-
t-elle ? Quelle nomenclature utilise-t-on en France à des fins similaires ? De nature
qualitative, elle est de type numérique dans la base d’origine. Recodez-la de façon
à ce que son information soit stockée sous la forme d’une variable caractère 2 .
d. Utilisez l’instruction LABEL pour traduire en français le label des variables pspwght
et isco08.
6. Menez l’analyse univariée d’une variable centrale pour votre problématique (variable
d’origine de l’enquête ou créée par vos soins) à partir de votre base de travail.
Travail à rendre : Pour le jeudi 8 octobre, envoyez à statistique_exploratoire@ensae.fr
et à votre chargé de cours :
1. Le code de création de votre base de travail commenté.
2. Une note de 2 pages maximum comportant :
— la problématisation du sujet de mémoire ;
— des éléments de bibliographie ;
— l’analyse de la variable menée en question 6 (avec au moins un tableau ou un
graphique, correctement présenté) ;
— la liste des variables susceptibles d’être analysées dans le mémoire, en annexe 3 .
2. Ce recodage nous sera utile pour naviguer plus facilement dans les différents niveaux de cette
nomenclature, cf. séance 9.
3. C’est-à-dire que cette liste ne compte pas dans le volume maximal de 2 pages.
Séance 8 : Statistiques bivariées sur variables qualitatives
1. Télévision et genre
a. La variable tvtot renseigne sur le temps passé devant la télévision par jour. Recher-
chez des informations sur cette variable dans la documentation de l’enquête : quelle
est la signification de ses modalités ? Combien présente-t-elle de cas de non-réponse
dans l’échantillon collecté en France ?
b. Créez la variable tvtot3 qui soit un recodage de la variable tvtot en trois modalités
d’effectifs à peu près égaux, en passant en valeur manquante les cas de non-réponse.
c. Effectuez le tri croisé entre la variable tvtot3 et la variable codant le sexe des
personnes interrogées gndr. Repérez et interprétez les effectifs de cellule, les pour-
centages de cellule, les pourcentages marginaux, les pourcentages en ligne et les
pourcentages en colonne. Utilisez séparément les options NOFREQ, NOPERCENT, NOCOL
et NOROW.
d. Comparez les résultats que vous obtenez selon que vous ne pondérez pas, que
vous pondérez par la variable pspwght (pondération dont la somme est la taille
de l’échantillon) ou que vous pondérez par la variable pond (pondération dont la
somme est la taille de la population). Comment expliquez-vous ce phénomène ?
e. Affichez les χ2 de cellule et le χ2 total du tableau avec les options CELLCHI2 et CHISQ.
Comparez à nouveau sans pondération, en pondérant par pspwght et en pondérant
par pond. Interprétez la p-valeur du test du χ2 dans les trois cas. Que concluez-vous
quant à l’association entre sexe et temps passé devant la télévision ?
2. Télévision et profession
a. La variable isco08 code la profession de la personne interrogée dans la nomenclature
ISCO 2008, pour toutes les personnes travaillant ou ayant déjà travaillé. Quelles sont
les modalités codant les non-réponses, et combien y a-t-il de cas dans l’échantillon ?
Que pensez-vous en particulier de la modalité 66666 ?
b. La variable isco08_car est l’équivalent de type caractère de la variable isco08,
dans laquelle tous les cas de non-réponse ont été recodés en valeur manquante 1 . À
partir de isco08_car et en utilisant la fonction SUBSTR(), créez la variable isco1
qui corresponde à la première position dans la nomenclature ISCO. Recherchez la
signification des catégories les plus agrégées de la nomenclature ISCO.
c. Analysez les relations entre profession et temps passé devant la télévision. Constatez-
vous de nettes sur- ou sous-représentations ? L’association entre ces deux variables
peut-elle être jugée statistiquement significative ?
1. Télévision et âge
a. La variable tvtot_simul est une variable de nature quantitative spécifiquement si-
mulée pour ce TP : elle associe à chaque individu un temps passé devant la télévision
sur une échelle continue (heures avec une décimale).
Attention : Cette variable a été créée pour les besoins de l’exercice, elle ne doit pas être
utilisée dans les mémoires.
Analysez la distribution de la variable tvtot_simul : comporte-t-elle des non-
réponses, est-elle cohérente avec la variable tvtot ?
b. L’âge des personnes interrogées est renseigné dans la variable agea. Analysez la rela-
tion entre âge et temps passé devant la télévision au sens de la variable tvtot_simul
en prenant bien soin d’exclure les valeurs manquantes. Comparez la valeur du coef-
ficient de corrélation linéaire de Pearson selon que vous ne pondérez pas, que vous
pondérez par la variable pspwght ou que vous pondérez par la variable pond.
c. Interprétez la p-valeur du test associé au coefficient de corrélation linéaire. Celle-ci
varie-t-elle avec la pondération utilisée ? Comment expliquez-vous ce phénomène ?
d. Calculez, interprétez la valeur et déterminez la significativité du coefficient de cor-
rélation des rangs de Spearman et du τ de Kendall. Conduisent-ils aux mêmes
conclusions que le coefficient de corrélation linéaire de Pearson ? Recalculez ces trois
coefficients en négligeant d’exclure les valeurs manquantes et comparez l’évolution
de leur valeur. Quel indicateur vous semble le plus sensible aux valeurs extrêmes ?
2. Télévision et diplôme
a. Recherchez des informations dans la documentation de l’enquête sur la variable
eisced. Qu’est-ce que la nomenclature ISCED ? Examinez la distribution de eisced
et recodez-la en catégories plus homogènes en termes d’effectif si vous le jugez né-
cessaire.
b. Utilisez la PROC TABULATE pour calculer la moyenne et l’écart-type de tvtot_simul
selon le diplôme atteint et une PROC BOXPLOT pour représenter les boîtes de Tukey
correspondantes.
c. Procédez à l’analyse de la variance de tvtot_simul selon le diplôme atteint, calculez
le rapport de corrélation et jugez de la significativité statistique d’une éventuelle
association entre ces deux variables.
d. (Difficile) À l’aide de plusieurs PROC UNIVARIATE (certaines utilisées avec l’instruc-
tion CLASS) et d’exports avec l’instruction OUTPUT, recalculez manuellement le rap-
port de corrélation (cf. la formule du cours).