Vous êtes sur la page 1sur 34

Licence 2ème année-4ème semestre (L2S4)

Site de Marseille

Statistiques 2
Alain Paraponaris
alain.paraponaris@univ-amu.fr
PARTIE II: ECHANTILLONNAGE ET
PRATIQUE DES TESTS
1. Eléments de théorie de l’échantillonnage
1.1. Introduction

L’inférence consiste à tirer une conclusion d’une série de propositions


supposées vraies. Ces conclusions sont tirées à partir de règles de base.
L’inférence statistique est définie comme le processus d’utilisation des
données d’un échantillon pour estimer ou tester des hypothèses sur les
caractéristiques numériques (paramètres) d’une population.
Une population est définie comme l’ensemble de tous les éléments d’intérêt dans
une étude particulière.
Un échantillon est défini comme un sous-ensemble de la population.

Population
Echantillon
1. Eléments de théorie de l’échantillonnage
1.1. Introduction
1.1.1. Notion d’échantillon aléatoire
1. Eléments de théorie de l’échantillonnage
1.1. Introduction
1.1.1. Notion d’échantillon aléatoire
Le prélèvement d’un échantillon dans une population s’impose dans
plusieurs types de situations:
impossibilité de connaître toute la population (méthodes de capture et de
recapture pour estimer des populations animales),
temps trop important lié à la connaissance de la population dans son ensemble,
surtout si la prise de décision est urgente (détermination de la part d’une
population infectée par un virus mortel),
coût prohibitif lié au recueil d’informations sur l’ensemble des individus d’une
population (recensement de la population),
tests destructifs (crash tests).
L’échantillonnage a alors comme objectif de choisir une partie de la
population qui reproduit le plus fidèlement possibles les
caractéristiques de la population.
Les résultats tirés de l’échantillon doivent ainsi être aussi proches que
possible que ceux qui auraient obtenus à partir de la population.
1. Eléments de théorie de l’échantillonnage
1.1. Introduction
1.1.1. Notion d’échantillon aléatoire
Il existe deux grandes familles de méthodes de prélèvement d’un
échantillon.
Les méthodes non-probabilistes consistent à laisser le statisticien ou le
responsable de l’échantillonnage choisir les individus composant
l’échantillon. L’échantillon est alors un échantillon de convenance (ou
subjectif) ou encore à dire d’expert.
Exemple: demander leur avis à des amis pour savoir si on a une qualité
particulière ou demander aux bons élèves si le cours est intéressant
Inconvénient majeur: biais de sélection
Les méthodes probabilistes consistent à s’en remettre au hasard pour
désigner les individus faisant partie de l’échantillon (par définition, le
hasard n’est pas manipulable). L’échantillon est alors aléatoire.
Exemple: arrêter à un contrôle douanier les voitures qui suivent un véhicule rouge
Inconvénient majeur: requiert des plans de sondage plus ou moins sophistiqués
1. Eléments de théorie de l’échantillonnage
1.1. Introduction
1.1.1. Notion d’échantillon aléatoire
Principe général (échantillonnage avec équiprobabilité de tirage: le
taux de sondage est constant)
Si on veut tirer un échantillon de taille n dans une population de taille N, il y a
échantillons envisageables:

Exemple: combien d’équipes différentes de 3 joueurs à partir de 5


personnes?

Dans cette situation:


le taux de sondage est égal à:
pour chaque individu de la population, la probabilité d’être dans l’échantillon
est égale à:
La probabilité qu’un échantillon particulier soit tiré est égale à:
1. Eléments de théorie de l’échantillonnage
1.1. Introduction
1.1.1. Notion d’échantillon aléatoire
Il existe différents types d’échantillonnage aléatoire:
Echantillonnage aléatoire simple
Tirage au sort des enquêtés
Avec ou sans équiprobabilité de tirage
Avec équiprobabilité (cf. supra)
Sans équiprobabilité:
Sur-représenter certaines sous-populations (exemple: enquête Handicap-Santé Ménages
2008) pour mieux mesurer leurs caractéristiques
Impose un redressement de la structure de l’échantillon pour le rendre identique à la
structure de la population:
fi désigne la part de l’effectif de la strate i dans l’effectif total de l’échantillon:
fi=ni/Σ ni=ni/n
Fi désigne la part de l’effectif de la strate i dans l’effectif total de la population:
Fi=Ni/Σ Ni=Ni/N
si=ni /Ni donne le taux de sondage de la strate i
s=n/N donne le taux de sondage global (rapport de la taille de l’échantillon à la taille de la
population)
Redressement: fi -> fi * = fi /(si/s)= fi /[(ni /Ni )/(n/N)]
= fi x[(Ni/N)/(ni/n)]= fi x[Fi/fi] = Fi
1. Eléments de théorie de l’échantillonnage
1.1. Introduction
1.1.1. Notion d’échantillon aléatoire
Il existe différents types d’échantillonnage aléatoire:
Echantillonnage aléatoire stratifié
Equiprobabilité de tirage dans des strates
Assurer la représentativité de l’échantillon
La structure de l’échantillon est la même que celle de la population
Exemple: échantillon représentatif selon le sexe, l’âge et la PCS
Echantillonnage aléatoire par grappe
Equiprobabilité de tirage des grappes
Rendre plus efficace l’organisation de l’enquête
Exemple: interroger tous les individus d’un même immeuble dans les 101
quartiers de Marseille
Risque de corrélation des observations au sein d’une même grappe

Dans ce qui suit, nous supposerons que les échantillons ont été
constitués selon un tirage aléatoire simple (sauf indication contraire).
1. Eléments de théorie de l’échantillonnage
1.1. Introduction
1.1.1. Notion d’échantillon aléatoire
Les méthodes développées dans cette deuxième partie visent à estimer
des paramètres (dont la valeur est établie pour la population entière) à
partir de statistiques (dont la valeur est obtenue à partir d’un
échantillon).
La connaissance que nous aurons de la réalité sera systématiquement
médiée par le calculs d’estimateurs échantillonnaux.

Population Echantillon
Taille N N
Moyenne µ
Ecart-type σ s
Proportion π p
1. Eléments de théorie de l’échantillonnage
1.1. Introduction
1.1.2. Notion de distribution de moyennes et de proportions
L’estimation d’une moyenne ou d’une proportion à partir d’un
échantillon n’aura que très peu de chances (voire aucune) d’être égale à
celle que nous aurions obtenue à partir de la population (sauf si la
valeur présentée par tous les individus de la population est la même).
Il est même possible d’obtenir autant d’estimations échantillonnales
différentes que d’échantillons à partir desquels ces estimations sont
réalisées.
Nous devons donc être conscients qu’il existe une variation de la valeur
des estimations échantillonnales, appelée variation d’échantillonnage.
Nous sommes en mesure toutefois de calculer la distribution
d’échantillonnage de ces estimations, qu’il s’agisse de moyennes (on
parle alors de distribution d’échantillonnages des moyennes, ou DEM)
ou de pourcentages (distribution d’échantillonnages des pourcentages,
ou DEP).
1. Eléments de théorie de l’échantillonnage
1.1. Introduction
1.1.2. Notion de distribution de moyennes et de proportions
Une distribution d’échantillonnage de moyennes (respectivement de
pourcentages) donne la distribution des moyennes échantillonnales
(resp. des pourcentages échantillonnaux) tirés de tous les échantillons
différents de même taille n à partir d’une population de taille N.
La distribution d’échantillonnage (de moyennes ou de pourcentages) se
définit ainsi comme une distribution de probabilités affectant à chaque
réalisation échantillonnale de l’estimateur (de la moyenne ou du
pourcentage) une probabilité d’occurrence.
En effet, dans la mesure où la sélection d’échantillons suit un processus
aléatoire, les statistiques de l’échantillon sont elles-aussi des variables
aléatoires et suivent par conséquent une distribution de probabilité:
comment se comportent les statistiques de l’échantillon par rapport aux
paramètres correspondants de la population?
en outre, la statistique échantillonnale a-t-elle tendance, en moyenne, à être
proche du paramètre vrai ou en diverge-t-il systématiquement?
1. Eléments de théorie de l’échantillonnage
1.2. Distribution d’échantillonnage des moyennes (DEM)
1.2.1. Moyenne de la DEM
On considère une population de 5 étudiants auxquels on demande le
temps qu’ils consacrent chaque semaine au travail personnel dans le
cadre de leurs études. Les réponses sont présentées dans le tableau
suivant:
Le calcul du temps moyen consacré au travail
Etudiant Nombre d’heures
personnel pour l’ensemble des 5 étudiants est
A 7
immédiat :
B 3
µ = (7+3+6+10+4)/5=30/5=6h
C 6
Si on ne dispose pas des moyens nécessaires à
D 10
l’interrogation des 5 étudiants et si on doit se
E 4
contenter d’un échantillon de 3 étudiants pris
au hasard parmi les 5, quelles estimations
échantillonnales de la moyenne peut-on
calculer?
1. Eléments de théorie de l’échantillonnage
1.2. Distribution d’échantillonnage des moyennes (DEM)
1.2.1. Moyenne de la DEM
On détermine tout d’abord le nombre d’échantillons différents de 3 personnes
envisageables à partir de la population des 5 étudiants:
On calcule ensuite la moyenne du temps hebdomadaire consacré aux études pour
chaque échantillon:
Echantillon Composition Valeurs individuelles Moyenne échantillonnale
1 ABC 7 3 6 16/3
2 ABD 7 3 10 20/3
3 ABE 7 3 4 14/3
4 ACD 7 6 10 23/3
5 ACE 7 6 4 17/3
6 ADE 7 10 4 21/3
7 BCD 3 6 10 19/3
8 BCE 3 6 4 13/3
9 BDE 3 10 4 17/3
10 CDE 6 10 4 20/3
1. Eléments de théorie de l’échantillonnage
1.2. Distribution d’échantillonnage des moyennes (DEM)
1.2.1. Moyenne de la DEM
On peut construire à partir du tableau précédent le tableau de la
distribution des moyennes échantillonnales:

Moyenne échantillonnale Effectifs


2
13/3 1
14/3 1
16/3 1
1
17/3 2
19/3 1
20/3 2
21/3 1 0
13/3 14/3 16/3 17/3 19/3 20/3 21/3 23/3

23/3 1
Total 10
1. Eléments de théorie de l’échantillonnage
1.2. Distribution d’échantillonnage des moyennes (DEM)
1.2.1. Moyenne de la DEM

A quoi est égale la moyenne de la distribution d’échantillonnage des


moyennes?

La moyenne de la distribution d’échantillonnage des moyennes est


égale à la moyenne obtenue sur la population:
En moyenne, la statistique échantillonnale de la moyenne de la variable
est égale au paramètre de la population.
La moyenne d’un échantillon aléatoire est un estimateur non-biaisé de
la moyenne de la population.
1. Eléments de théorie de l’échantillonnage
1.2. Distribution d’échantillonnage des moyennes (DEM)
1.2.2. Ecart-type de la DEM
Quel lien existe-t-il entre l’écart-type de la distribution
d’échantillonnage des moyennes et l’écart-type de la variable dans la
population?
L’écart-type du nombre d’heures consacrées au travail est égal à:
Etudiant Nombre d’heures
A 7 1 1
B 3 -3 9
C 6 0 0
D 10 4 16
E 4 -2 4
Total 30
En moyenne, le temps passé par les étudiants à travailler chaque
semaine s’écarte de 2,45h de la durée hebdomadaire moyenne égale à 6
heures.
1. Eléments de théorie de l’échantillonnage
1.2. Distribution d’échantillonnage des moyennes (DEM)
1.2.2. Ecart-type de la DEM
L’écart-type de la distribution d’échantillonnage des moyennes est:
Moyenne échantillonnale Effectifs
13/3 1 -5/3 25/9 25/9
14/3 1 -4/3 16/9 16/9
16/3 1 -2/3 4/9 4/9
17/3 2 -1/3 1/9 2/9
19/3 1 1/3 1/9 1/9
20/3 2 2/3 4/9 8/9
21/3 1 3/3 9/9 9/9
23/3 1 5/3 25/9 25/9
Total 10 90/9=10
1. Eléments de théorie de l’échantillonnage
1.2. Distribution d’échantillonnage des moyennes (DEM)
1.2.2. Ecart-type de la DEM
Il est possible de montrer que:
On vérifie dans l’exemple traité:

On remarque que:
Lorsque la population est infinie, le facteur de correction
peut être négligé.

Lorsque la taille de l’échantillon devient grande et se


rapproche de la taille de la population, le facteur de
correction tend vers 0.
L’écart-type de la DEM tend vers 0 lorsque la taille de
l’échantillon augmente.
Plus l’information accumulée sur la population est
importante, plus la variation d’échantillonnage est faible.
1. Eléments de théorie de l’échantillonnage
1.2. Distribution d’échantillonnage des moyennes (DEM)
1.2.3. Théorème central limite
Si les données de la population suivent une distribution normale, la
distribution d’échantillonnage de est normale elle aussi, quelle que
soit la taille de l’échantillon n.
Toutefois, ce cas est plutôt rare (et contrôlable à l’aide d’un
histogramme).
Si les données de la population ne sont pas distribuées selon une loi
normale, on peut appliquer le théorème centrale limite :
pour des échantillons aléatoires simples, la distribution
d’échantillonnage de peut être approchée par une distribution de
probabilité normale, lorsque la taille de l’échantillon devient importante
(en pratique, dès lors que n ≥ 30).
1. Eléments de théorie de l’échantillonnage
1.2. Distribution d’échantillonnage des moyennes (DEM)
1.2.3. Théorème central limite
Si la distribution d’échantillonnage des moyennes suit exactement ou
approximativement une loi Normale, on retrouve les propriétés liées à
la distribution des valeurs échantillonnales de la moyenne

68,26% des réalisations échantillonnales


de la moyenne se trouvent à moins d’un
écart-type de la vraie valeur du paramètre

95,44% des réalisations échantillonnales


de la moyenne se trouvent à moins d’un
écart-type de la vraie valeur du paramètre

99,74% des réalisations échantillonnales


de la moyenne se trouvent à moins d’un
écart-type de la vraie valeur du paramètre
1. Eléments de théorie de l’échantillonnage
1.2. Distribution d’échantillonnage des moyennes (DEM)
1.2.3. Théorème central limite
Si, en outre, 95,44% des réalisations échantillonales de la moyenne se
trouvent à moins de de la vraie valeur du paramètre , cela signifie
que la vraie valeur du paramètre est à moins de de 95,44% des
valeurs envisageables pour la moyenne échantillonale .
En d’autres termes, la vraie valeur du paramètre a 95,44% de chances
d’appartenir à l’intervalle: .
De façon générale, on a:

Tables\Distribution Normale.pdf
1. Eléments de théorie de l’échantillonnage
1.3. Distribution d’échantillonnage des pourcentages (DEP)
1.3.1. Moyenne de la DEP
On considère la même population de 5 étudiants auxquels on demande
s’ils ont lu au moins un livre au cours des douze derniers mois. Les
réponses sont présentées dans le tableau suivant:

Le calcul du pourcentage d’étudiants ayant lu


Etudiant Nombre d’heures
au moins un livre est immédiat :
A oui
π = x/N=2/5=40%
B non
Si on ne dispose pas des moyens nécessaires à
C oui
l’interrogation des 5 étudiants et si on doit se
D non
contenter d’un échantillon de 3 étudiants pris
E non
au hasard parmi les 5, quelles estimations
échantillonnales du pourcentage peut-on
calculer?
1. Eléments de théorie de l’échantillonnage
1.3. Distribution d’échantillonnage des pourcentages (DEP)
1.3.1. Moyenne de la DEP
Comme précédemment, on dénombre 10 échantillons différents de 3 personnes
envisageables à partir de la population des 5 étudiants.
On calcule ensuite la moyenne de la part des étudiants ayant lu au moins 1 livre au
cours de l’année écoulée:
Echantillon Composition Valeurs individuelles Pourcentage échantillonnal
1 ABC oui, non, oui 2/3
2 ABD oui, non, non 1/3
3 ABE oui, non, non 1/3
4 ACD oui, oui, non 2/3
5 ACE oui, oui, non 2/3
6 ADE oui, non, non 1/3
7 BCD non, oui, non 1/3
8 BCE non, oui, non 1/3
9 BDE non, non, non 0/3
10 CDE oui, non, non 1/3
1. Eléments de théorie de l’échantillonnage
1.3. Distribution d’échantillonnage des pourcentages (DEP)
1.3.1. Moyenne de la DEP
On peut construire à partir du tableau précédent le tableau de la
distribution des pourcentages échantillonnaux:
6
Pourcentage échantillonnal Effectifs
5
0/3 1
4
1/3 6
3
2/3 3
2
3/3 0
Total 10 1

0
0/3 1/3 2/3 3/3
1. Eléments de théorie de l’échantillonnage
1.3. Distribution d’échantillonnage des pourcentages (DEP)
1.3.1. Moyenne de la DEP

A quoi est égale la moyenne de la distribution d’échantillonnage des


pourcentages?

La moyenne de la distribution d’échantillonnage des pourcentages est


égale au pourcentage obtenu sur la population:
En moyenne, la statistique échantillonnale du pourcentage est égale au
paramètre de la population.
Le pourcentage d’un échantillon aléatoire est un estimateur non-biaisé
du poucentage de la population.
1. Eléments de théorie de l’échantillonnage
1.3. Distribution d’échantillonnage des pourcentages (DEP)
1.3.2. Ecart-type de la DEP
Il est possible de montrer que:
On trouve dans l’exemple traité:

Comme précédemment:
Lorsque la population est infinie, le facteur de correction
peut être négligé.

Lorsque la taille de l’échantillon devient grande et se


rapproche de la taille de la population, le facteur de
correction tend vers 0.
L’écart-type de la DEM tend vers 0 lorsque la taille de
l’échantillon augmente.
Plus l’information accumulée sur la population est
importante, plus la variation d’échantillonnage est faible.
1. Eléments de théorie de l’échantillonnage
1.3. Distribution d’échantillonnage des pourcentages (DEP)
1.3.3. Théorème central limite
Pour des échantillons aléatoires simples, la distribution
d’échantillonnage de peut être approchée par une distribution de
probabilité normale, lorsque la taille de l’échantillon devient importante
(en pratique, dès lors que n ≥ 30).
Lorsque la taille de l’échantillon tend vers l’infini, la distribution de
probabilités binomiale tend vers une distribution de probabilités
Normale :
On vérifie pour ce faire que:
1. Eléments de théorie de l’échantillonnage
1. Eléments de théorie de l’échantillonnage

µ=5, N=2 500 000 50 000 échantillons de taille n=50


1. Eléments de théorie de l’échantillonnage

p=0,1, N=2 500 000 50 000 échantillons de taille n=50


1. Eléments de théorie de l’échantillonnage

µ=212, N=2 500 000 50 000 échantillons de taille n=50


1. Eléments de théorie de l’échantillonnage

µ=0,5, N=2 500 000 50 000 échantillons de taille n=50


1. Eléments de théorie de l’échantillonnage

µ=2, N=2 500 000 50 000 échantillons de taille n=50

Vous aimerez peut-être aussi