Vous êtes sur la page 1sur 30

L3 de sciences sociales

Université Paris Descartes

Analyse quantitative de données

Semestre 1
Le raisonnement inférentiel
Echantillon

Jennifer Bidet 1
Généraliser à partir de données
quantifiées : la statistique
inférentielle
RAPPEL :
But d’une enquête quantitative : trouver les
déterminants des variations d’une pratique ou
d’une représentation/une préférence
C’est-à-dire : identifier l’existence de liens
entre des variables indépendantes et des
variables dépendantes
2
Généraliser à partir de données
quantifiées : la statistique
inférentielle
Variables dépendantes
Ou variables expliquées
Ensemble de variables centrales qui permettent
d’approcher le sujet d’enquête
Exemple : On cherche à travailler sur le rapport à la
musique
Ø Variables dépendantes : pratiques d’écoute (CD,
concerts, …) ; pratiques instrumentales ; lecture de
3
magazines musicaux ; …
Généraliser à partir de données
quantifiées : la statistique
inférentielle
Variables indépendantes
Ou variables explicatives
Ensemble de variables qu’on va utiliser pour
comprendre les variations de pratiques ou de
représentations autour du sujet choisi
Exemple : On cherche à voir comment le rapport à la
musique varie selon…le sexe, l’âge, le niveau
d’études, la profession des parents, la filière d’étude,
4

Généraliser à partir de données
quantifiées : la statistique
inférentielle
On va donc produire des tableaux croisant une
variable indépendante et une variable
dépendante pour voir si la première exerce une
influence sur la seconde.
La question qui se pose ensuite à nous : si on observe
un lien entre ces deux variables à l’échelle d’un
échantillon de la population visée, comment en
conclure que ce lien existe aussi à l’échelle de la
population visée en général??? 5
Généraliser à partir de données
quantifiées : la statistique
inférentielle
Inférence statistique = raisonnement qui
permet de tirer des conclusions fiables sur une
population à partir de l’observation d’un
échantillon de cette population

6
Généraliser à partir de données
quantifiées : la statistique
inférentielle
I. L’échantillonnage
II. L’intervalle de confiance
III. Le test du khi-2

7
I. L’échantillonnage
1. Enquête exhaustive ou enquête par
échantillon?
Enquête exhaustive

= interroger tous les membres d’une population cible


Ex : Recensement de la population française
Ex 2 : Tous les étudiant.es de Paris Descartes (ou U. Paris)
Ex 3 : Tous les membres d’une association

8
Enquête exhaustive
Avantages :
Ø Pas besoin de règle de généralisation : pas d’intervalle de confiance
ou de test statistique pour voir si les résultats sont généralisables
Ø Quand l’échantillon est grand, possibilité de travailler sur des sous
populations (ex : si on a interrogé tou.tes les étudiant.es d’U. de
Paris, on peut ensuite faire des traitements uniquement sur les
étudiants de sciences sociales)

Inconvénients :
Ø Souvent impossible : coûteux en argent, en temps, en enquêteurs
Ø Précision illusoire : ce que l’on gagne en interrogeant tout le monde,
on le perd par la multiplication des biais dans la passation du
questionnaire (plusieurs enquêteurs > plusieurs manières de faire
passer l’enquête)
Ø Augmente les risques de non réponse (car relances plus coûteuses) :
si on interroge tout le monde mais qu’il y a 70% de non réponses,
notre enquête ne peut être considérée comme exhaustive
Enquête exhaustive

Un exemple :
Olivier Godechot, Les traders, 2001
Ø Étude sur les traders d’une grande banque française
Ø Observations et entretiens
Ø Questionnaire auprès de tous les membres de la salle des
marchés de cette banque (n = 196)
Au final, taux de réponse = 48%
94 personnes ont répondu
Le chercheur a du analyser les non réponses (ceux qui
occupent les postes les moins prestigieux ont moins répondu
par exemple) avant de pouvoir interpréter ses résultats.

10
Echantillon
= passer le questionnaire auprès d’une partie seulement de la
population mère
Ex : sondage auprès de 2000 personnes pour connaître les
intentions de vote des Français
Ex 2 : questionnaire auprès de 1000 étudiants de U. Paris tirés au
sort d’après leur numéro d’étudiants pour connaître les pratiques
culturelles des étudiants d’U. Paris

Exemples de plusieurs enquêtes sur le Covid et le confinement


Ø Coconel : 2003 personnes sélectionnées selon la méthode des
quotas, passé par un institut de sondage (Ifop), passée par internet
Ø VICO : 16224 personnes contactées par « méthodes de boule de
neige » par internet
Ø EPICOV : 135000 répondants, à partir d’un tirage aléatoire de
logements sur l’ensemble de la population française, passation par
internet
Echantillon
Avantages :
Ø Souvent la seule solution réaliste
Ø Moins long, moins lourd, moins coûteux
Ø Quand l’échantillon est bien fait, l’enquête donne des résultats
presque aussi précis qu’une enquête exhaustive

Inconvénients :
Ø Suivre les règles de constitution d’un échantillon : éviter les
biais d’échantillonnage
Ø Appliquer les règles de la statistique inférentielle pour la
lecture des résultats
Ø Si l’échantillon est limité, il est difficile de travailler sur
certaines sous-populations
I. L’échantillonnage
2. L’échantillon par tirage aléatoire
Ø Un échantillon représentatif est un échantillon obtenu par
tirage au sort dans une base de sondage

Ø Base de sondage : liste exhaustive d’une population mère


Ex 1 : liste de l’ensemble des logements situés sur le territoire
français > pour le recensement, on tire au sort des logements
(pas des personnes) et on va interroger une personne dans le
logement
Ex 2 : liste de l’ensemble des étudiants inscrits à l’U. Paris
(avec numéro étudiant par exemple)
13
I. L’échantillonnage
2. L’échantillon par tirage aléatoire
Ø On peut faire des échantillons aléatoires simples ou des
échantillons stratifiés
Echantillon aléatoire simple :
On tire au sort 1000 numéros d’étudiants dans la liste des
62000 étudiants d’Université de Paris.

Echantillon aléatoire stratifié :


On veut avoir autant de répondant de chaque Faculté de
l’Université (Santé, Science et Sociétés Humanités) : 1/3 de
chaque Faculté
14
I. L’échantillonnage
2. L’échantillon par tirage aléatoire
Dans la population mère (étudiants U. Paris), il y a 62 000
étudiants, dont 25000 en Santé, 25000 en Sociétés Humanités
et 12 000 en Sciences.
Dans un échantillon aléatoire simple de 1000 personnes, il
y aura en gros 400 étudiants de Santé, 400 de SH et 200 de
Sciences = proportionnel à la composition de la population de
départ.
Etu Santé = 40%(25000/62000)
Etu Science = 20% (12000/62000)

15
I. L’échantillonnage
2. L’échantillon par tirage aléatoire
Dans la population mère (étudiants U. Paris), il y a 62 000
étudiants, dont 25000 en Santé, 25000 en Sociétés Humanités
et 12 000 en Sciences.
Dans un échantillon aléatoire stratifié dans lequel on veut
autant d’étudiants de chaque faculté, on prendra 334 étudiants
de chaque Faculté.
On tirera 334 numéros d’étudiants de Santé (sur 25000), 334
numéros d’étudiants de SH (sur 25000) et 334 étudiants de
Sciences (sur 12000).
Pour un échantillon de 1002 étudiants.
16
I. L’échantillonnage
2. L’échantillon par tirage aléatoire
L’échantillon stratifié permet de sur-représenter des
catégories plus petites dans la population générale, afin de
permettre une étude plus approfondie.

Autre exemple : on travaille à partir des fichiers de la CAF


sur les allocataires qui ont un enfant entre 3 et 10 ans pour
travailler sur la parentalité.
La CAF a une base de sondage avec 3 600 000 allocataires
avec enfant entre 3 et 10 ans.

17
I. L’échantillonnage
2. L’échantillon par tirage aléatoire
On veut comparer les pratiques et contraintes parentales des
parents vivant en couple et des parents vivant seuls.
Dans la base de sondage, on a 2 800 000 parents vivant en
couple, et 800 000 parents isolés. Soit 77,78% de parents en
couple et 22,22% de parents isolés.

Ø Si on fait un tirage aléatoire simple, on aura environ 777


parents vivant en couple, et 223 parents isolés.
Si on veut différencier les parents isolés selon leur PCS par
exemple, on va vite avoir un problème d’effectifs : par
exemple 45 parents isolés cadres ou 89 parents isolés 18
ouvriers.
I. L’échantillonnage
2. L’échantillon par tirage aléatoire
Pour avoir un échantillon de parents isolés plus important, on
peut stratifier l’échantillon : tirer au sort 500 parents vivant
en couple parmi les 2 800 000 de la base ; et 500 parents
isolés parmi les 800 000 de la base.

Dans l’échantillon, on aura 500 parents en couple, et 500


parents isolés.
Ø Cela permet de faire des sous-groupes plus détaillés parmi
les parents isolés (en fonction de la PCS par exemple)

19
Population mère

effectifs %

sans conjoint 800 000 22,2

avec conjoint 2 800 000 77,8

total 3 600 000 100,0

Echantillon aléatoire simple Echantillon aléatoire stratifié

effectifs % effectifs %

sans conjoint 224 22,4 sans conjoint 500 50,0

avec conjoint 776 77,6 avec conjoint 500 50,0

total 1 000 100,0 total 1 000 100,0

20
Dans les deux cas, il s’agit d’un échantillon aléatoire! Donc
les deux correspondent aux exigences de représentativité.

Ø Nous verrons plus tard dans le semestre la question des


pondérations dans un échantillon

En gros, si on veut calculer le taux d’hommes parmi les


étudiants de l’U. Paris à partir d’un échantillon stratifié, il
faudra pondérer les trois sous groupes

Imaginons que la Faculté de sciences comporte 75%


d’hommes, celles de Santé, 50% et celle de SH 25%.

21
Si on utilise l’échantillon stratifié sans coefficient de
pondération, on conclura que l’U. Paris a 50% d’étudiants
masculins (moyenne non pondérée des trois taux). Or
c’est faux : certes la fac Sciences a 75% d’hommes mais
elle a beaucoup moins d’étudiants par exemple que la fac
SH.

En gros, si on veut calculer le taux d’hommes parmi les


étudiants de l’U. Paris à partir d’un échantillon stratifié, il
faudra pondérer les trois sous groupes

Mais si on tient compte des effectifs de chaque faculté, en


appliquant un coefficient de pondération :

75%(0,19)+50%(0,40)+25%(0,40) = 44%
22
En revanche, pour les tris croisés, il n’y a pas forcément
besoin de pondérer les résultats d’un échantillon stratifié!

23
I. L’échantillonnage
3. Les échantillons « empiriques »
Ø l’échantillon aléatoire peut être difficile à pratiquer : il
nécessite une base de sondage
Pas toujours possibles : par exemple, pas de liste exhaustive
des SDF!!
Ø l’échantillon aléatoire est aussi coûteux
Par exemple, pour notre échantillon d’étudiants : il faut
pouvoir avoir la liste de tous les étudiants, et une fois tirés au
sort, les retrouver et les contacter. Pas forcément possible!

24
I. L’échantillonnage
3. Les échantillons « empiriques »
Ø l’alternative : un échantillon « empirique »
Càd constitué de manière pratique, sur le terrain, en essayant
d’équilibrer certaines variables centrales

Echantillon par quota : on interroge des individus en


essayant d’avoir une population équilibrée pour certaines
variables choisies comme centrales (sexe, âge, PCS, …).

Ø Concrètement : on va essayer de préserver les mêmes


proportions entre homme et femme, cadres et ouvriers,
jeunes et vieux…que dans la population cible 25
I. L’échantillonnage
3. Les échantillons « empiriques »
Ø Normalement, cette méthode ne permet pas de faire des
raisonnements inférentiels, c'est-à-dire d’inférer des
généralités à l’ensemble de la population.

Ø Mais les spécialistes estiment que cette méthode peut


donner une bonne approximation d’un échantillon
aléatoire et qu’on peut donc y appliquer les règles de la
stat inférentielle.

26
II. L’intervalle de confiance
Pour résumer la partie précédente : les enquêtes
par échantillon permettent de réduire le coût
d’une enquête par questionnaire, tout en gardant
une fiabilité quand les règles de l’échantillonnage
sont respectées.
Mais qui dit « échantillon » dit marge d’erreur!
Un échantillon est une approximation, une image
légèrement déformée de la réalité!

27
Le choix des filières d’étude selon le sexe
En %
Filières d’étude Psycho Socio Droit Médecine Philo Divers Total
supérieures

Sexe

Femme 37,0 32,8 13,8 12,3 3,4 0,7 100

Homme 23,6 25,6 21,7 19,7 8,0 1,4 100

Total 32,7 30,5 16,3 14,7 4,9 0,9 100

Source : Enquête Licence 2 SHS Paris 5 2002-2004

Champ : Population étudiante en 2002-2004 à l’université Paris Descartes

Dans notre échantillon de 1097 personnes, il est


incontestable que les hommes ont plus souvent choisi les
études de médecines que les femmes. Mais cette différence
de 7% qui semble importante peut-elle être extrapolée plus
généralement à l’ensemble de la population étudiante ?
28
II. L’intervalle de confiance
1. Tous les échantillons sont possibles…mais
pas selon les mêmes probabilités!
Exemple simple :
Ø Vous avez une population totale de 100 boules, dont 98
blanches et 2 noires
Ø Vous tirez un échantillon de 2 boules :
- Vous pouvez tirer 2 boules blanches : (98/100)x(98/100) =
0,9604
Soit 96% de chances de tirer un tel échantillon dans cette
population. D’ailleurs, un tel échantillon est assez proche de
la réalité – même s’il n’en est pas une image parfaite (car il
n’y a pas 100 boules blanches sur 100 dans la population 29
totale)
POUR LA PROCHAINE FOIS (21 octobre)

Ø Exercice « Lire des tableaux croisés dans une


publication » (tableaux tirés de l’ouvrage Les
héritiers de P. Bourdieu et JC Passeron)
Ø En vous appuyant sur le power point « L3 Quanti
Lire un tableau croisé »
Ø Possibilité de lire les extraits du 128 d’O. Martin sur
le moodle sur l’échantillon (à faire pendant les
vacances)

30