Vous êtes sur la page 1sur 7

Distribution d’Échantillonnage

September 29, 2019

1 Introduction
L’étude de propriétés caractéristiques d’un ensemble, quand on ne dispose pas encore de données,
nécessite d’examiner, d’observer des éléments de cet ensemble. La manière de recueillir ces données
fait l’objet d’une théorie mathématique appelée théorie de l’échantillonnage. Un bon échantillon doit
constituer une image réduite de l’ensemble de la population (représentatif) dont on va étudier un
caractère bien défini.

2 Concept Général
On appelle population l’ensemble que l’on observe et qui sera soumis à une analyse statistique, chaque
élément de cet ensemble est un individu ou unité statistique.

Un échantillon est un sous-ensemble de la population étudiée.

On traite un échantillon ou une population à l’aide de mesures telles que le nombre d’unité, la
moyenne, l’écart-type et le pourcentage.
• Les mesures que l’on utilise pour décrire une population sont des paramètres. Un paramètre est
une caractéristique de la population.
• Les mesures que l’on utilise pour dcérire un échantillon sont appelées des statistiques. Une
statistique est une caractérisatique de l’échantillon.

Afin de ne pas confondre les statistiques et les paramètres, on utilise des notations différentes, comme
le présente le tableau récapitulatif suivant.

1
Population Echantillon
Notations taille=N taille=n
N n
1 X 1X
moyenne m = xi écart-type moyenne x = xi écart-type
N i=1 n
Si on étudie un caractère v v i=1
u n
quantitatif u
u1 X N u1 X
σpop = t (xi − m)2 σech = t (xi − x)2
N i=1 n i=1
Si on étudie un caractère
Proportion = p proportion = f
qualitatif

Remarque 1 En pratique, on effectue l’échantillannage pour les raisons suivants


• Taille de la population peut être important.
• le cût de l’enquête serait trop important (coût et temps).
• l’accés à tous les individus de la population est matériellement impossible.

3 Méthodes d’échantillonnage
Voici les méthodes d’échantillonnage probabiliste les plus courantes:
• Échantillonnage sur la baser du jugement (par exemple, dans les campagnes électorales certains
districts éléctoraux sont des indicateurs fiables de l’opinion publique).
• Échantillonnage aléatoire simple. Tous les échantillons possibles de même taille ont la même
probabilité d’être choisis et tous les éléments de la population ont une chance égale de faire
partie de l’échantillon (On utilise souvent une table de nombres aléatoires pour s’assurer que le
choix des éléments s’effectue vraiment au hasard).

4 Distribution de la moyenne d’échantillon


Si nous prélevons un échantillon de taille n dans une population donnée, la moyenne de l’échantillon
nous donnera une idée approximative de la moyenne de la population. Seulement si nous prélevons un
autre échantillon de même taille, nous obtiendrons une autre moyenne d’échantillon. Sur l’ensemble
des échantillons possibles, on constatera que certains ont une moyenne qui s’en écarte davantage.

4.1 Échantillon aléatoire

Un échantillon de taille n (appellé aussi un n-échantillon), obtenu par échantillonnage aléatoire, va


être considéré comme le résultat d’une expérience aléatoire. À chaque échantillon de taille n on peut
associer la valeur moyenne des éléments de l’échantillon. On a donc défini une variable alaétoire qui
à chaque n-échantillon associe sa moyenne échantillonnale. On la note X. Cette variable aléatoire est
caractérisée par:
• Une distribution de probabilité.

2
• Une valeur moyenne (la moyenne des moyenne d’échantillons).
• Un écart-type.
Remarque 2 On suppose que la population est infinie ou si elle est finie que l’échantillonnage se fait
avec remise ou que la taille de l’échantillon est beaucoup plus petite que la taille de la population.

4.2 La variable: moyenne d’échantillon X

On considère une population dont les éléments possèdent un caracère mesurable qui est la réalisation
d’une variable aléatoire X qui suit une loi de probabilité d’espérance m et d’écart-type σpop .
• On prélève un échantillon alaétoire de taille n et on mesure les valeurs de X sur chaque élément
de l’échantillon. On obtient une suite de valeurs x1 , x2 , ..., xn .
• Si on prélève un deuxième échantillon toujours de taille n la suite des valeurs obtenues est
x01 , x02 , ..., x0n , puis x001 , x002 , ..., x00n ... ect ...pour des échantillons supplémentaires.
x1 , x01 , x001 , ... peuvent être considérées comme les valeurs d’une variable aléatoire X1 qui suit la loi de
X. De même, x2 , x02 , x002 , ... peuvent être considérées comme les valeurs d’une variable aléatoire X2 qui
suit la loi de X,... et xn , x0n , x00n , ... celle d’une variable aléatoire Xn qui suit encore et toujours la même
loi, celle de X.

Soit X1 , ...., Xn un échantillon aléatoire d’une variable aléatoire X. Une statistique est une fonction
h(X1 , ...., Xn ) ne dépendant pas des variables aléatoires Xi .

Définition 1 (Moyenne d’échantillon).

On définit donc la variable aléatoire moyenne d’échantillon X par


n
1 1X
(X1 + X2 + ... + Xn ) = Xi .
n n i=1

Proposition 2.

2
σpop
E(X) = m, V ar(X) = .
n

4.3 Loi de la statistique X

Nous allons distinguer deux cas: celui des grands échantillons (n ≥ 30) et celui des petits échantillons
(n < 30).

4.3.1 Cas des grands échantillons: n ≥ 30

On peut appliquer le théorème central-limite.

3
1. Nous sommes en présence de n variables aléatoires indépendantes
2
2. Elles suivent la même loi d’espérance m et de variance σpop .

Théorème 3 (Théorème central limite).

Soit X1 + ... + Xn une suite des variable aléatoire indépendantes et de même loi que X.
Supposons que l’espérance m et σpop soient finis. Soit la somme Sn = X1 + ... + Xn . Lorsque
n devient très grand, la distribution de Sn = X1 + ... + Xn se rapproche de celle de la loi
2 2
normale d’espérance nm et de variance nσpop , Sn suit approximativement N (nm, nσpop ).

Conclusion

Sn
Par conséquence, pour n assez grand, la distribution de X = n se rapproche de celle de la loi
2
σpop σpop
normale d’espérance m et de variance n c’est-à-dire N (m, √ ).
n
On peut donc considérer que
X−m √
σpop / n
suit la loi N (0, 1).

Proposition 4.

σpop
Si n ≥ 30, X suit approximativement N (m, √ ).
n

Remarque 3
Si la variance est inconnue, un grand échantillon (n ≥ 30) permet de déduire une valeur fiable pour
2 2
σpop en calculant la variance de l’échantillon σech et en posant

2 n 1
σpop = σ2 = (Xi − X)2 ,
n − 1 ech n−1

4.3.2 Cas des petits échantillon: n < 30

Nous nous plaçons alors exclusivement dans le cas où X suit une loi normale dans la population.

Nous allons encore distinguer deux cas: celui où σpop est connu et celui où σpop est inconnu.

Cas où σpop est connu

Proposition 5.

σpop
si n < 30 et σpop connu alors X suit N (m, √ )
n

4
X suit la loi normale N (m, σpop ) donc les variables Xi suivent toutes la même loi N (m, σpop ). De
plus elles sont indépendantes. La somme de lois normales indépendantes, Sn = X1 + .... + Xn a une
σ
distribution normale et la variable X = Snn suit aussi une loi normale, la loi N (m, √pop
n
) donc X−m
σpop

n
suit la loi N (0, 1).

Cas où σpop est inconnu Dans ce dernier cas (petits échantillon de X suit une loi normale de
variance inconnue), on ne trouve pas directement la loi suivie par X mais celle suivie par T = σ X−m

/ n−1
.
ech

Proposition 6.

X−m
Si n < 30 et σpop est connu, la variable T = √
σech / n−1
. suit une loi de Student à n − 1 degrés
de liberté, notée Tn−1 .

Exercice:
le responsable d’une entreprise a accumulé depuis des années les résultats à un test d’aptitude à effectuer
un certain travail. Il semble plausible de supposer que les résultats au test d’aptitude sont distribués
2
suivant une loi normale de moyenne m = 150 et de variance σpop = 100. On fait passer le test à 25
individus de l’entreprise. Quelle est la probabilité que la moyenne de l’échantillon soit entre 146 et 154.

5 Distribution de la variance d’échantillon


La variance d’un n-échantillon est la variable aléatoire:
n n
2 1X 1X
σech == (Xi − X)2 = σech
2
= (Xi − m)2 − (X − m)2
n i=1 n i=1

2
5.1 Espérance de la variable aléatoire σech

Proposition 7.

2 n−1 2
E(σech )= σpop
n

Preuve 1
n
2 1X
E(σech ) = E((Xi − m)2 ) − E((X − m)2 )
n i=1
n
1X
= V ar(Xi ) − V ar(X)
n i=1
2 1 2 n−1 2
= σpop − σpop = σpop
n n

5
5.2 La variance d’echantillonnage S 2
2
Pour pouvoir déterminer une valeur approchée de σpop et savoir quelle erreur on commet en effectuant
cette approximation, on veut disposer d’une variable dont l’espérance est la variance de la population.
Nous allons donc considérer la statistique : variance corrigée S 2 .
Définition 8.

n
n 1 X
S2 = 2
σech = (Xi − X)2 .
n−1 n − 1 i=1

On a bien entendu E(S 2 ) = σpop


2
.

5.2.1 Distribution de S 2

Nous supposons ici que X suit une loi normale.


nσ 2 Pn −X 2
On considère la variable Y = σ2ech = i=1 ( Xσipop ) .
pop
Y est une somme d’écarts réduits relatifs à une variable normale. D’après ce que nous avons vu au
chapitre précédent, nous pouvons affirmer que Y suit une loi χ2 à n − 1 degrés de liberté (on perd un
degré de liberté car on a estimé le paramètre m par X).
Proposition 9.

(n−1)S 2
Y = 2
σpop suit une loi χ2n−1 .

5.2.2 distribution de S 2 dans le cas des grands échantillons: n ≥ 30

Proposition 10.
q
2
Si n ≥ 30, S 2 suit une loi N (σpop
2 2
, σpop n−1 ) en première approximation.


Preuve 2 Lorsque n est très grand n ≥ 30, on pouvait approcher la loi χ2ν par la loi N (ν, 2ν). Donc
Y suit approximativement une loi normale, E(Y ) ' n − 1 et V ar(Y ) ' 2(n − 1) La loi de S 2 est alors
2
approximativement normale, son espérance vaut σpop et sa variance approximativement
2 4 4
σpop σpop 2σpop
V ar(S 2 ) = V ar( Y)= V ar(Y ) ' .
n−1 (n − 1)2 n−1

6
6 Distribution de la variable proportion d’échantillon
Notre but est d’estimer dans une population une proportion f d’individus possèdant un caractère
qualitatif donné à l’aide des résultats obtenus sur un n-échantillon. Cette proportion f représente la
valeur observée d’une variable aléatoire F , fréquence d’apparition de ce caractère dans un échantillon
de taille n, appelée proportion d’échantillon.

6.1 Paramètres descriptifs de la distribution de F

F est la frqéuence d’apparition du caractère dans un échantillon de taille n. Donc F = X/n où X est
le nombre de fois où le caractère apparaı̂t dans le n-échantillon.

Par définition X suit B(n, p). Donc E(F ) = np et V ar(F ) = npq. Par conséquent:
r
pq
E(X) = p et V ar(X) =
n

6.2 Distribution de la proportion d’échantillon dans le cas des grands


échantillons
Proposition 11.

On sait que si n ≥ 30, np ≥ 15 et nq ≥ 15, on peut approcher la loi binomiale par la


loi normale de même espérance et de même écart-type. Donc F suit approximativement
F −p
N (p, pq la variable √
p
n ), et pq suit alors approximativement la loi N (0, 1)
n

Exercice
Selon une étude sur le comportement du consommateur, 25% d’entre eux sont influencés par la marque,
lors de l’achat d’un bien. Si on interroge 100 consommateurs pris au hasard, quelle est la probabilité
pour qu’au moins 35 d’entre eux se déclarent influencés par la marque?

Application L’inventaire de Padoue est un questionnaire portant sur les troubles obsessionnelles du
comportement. Chez les adultes dépressifs, le score obtenu à ce questionnaire a pour moyenne 84 avec
un écart type de 35. Des chercheurs s’intéressent alors aux score moyens observés dans un échantillon
de taille 75.
1. Caractériser la distribution de la moyenne empirique du score de l’inventaire de Padoue sur un
échantillon de taille 75 (formes et valeurs de ces paramètres).
2. Quelle est la probabilité d’observer sur un échantillon de taille 75 un score moyen inférieur à 90.
3. En dessous de quelle valeurs se trouvent 95% des scores observés sur un échantillon de taille 75.
4. Au dessus de quelle valeurs se trouvent 95% des scores observés sur un échantillon de taille 75.
5. Pour quelle proportion d’échantillons observe-t-on un scoremoyen compris entre deux valeurs
déterminées aux questions 3 et 4.