Vous êtes sur la page 1sur 6

Chapitre

1 : Théorie de l’échantillonnage

3. Distribution d’échantillonnage
Considérons un échantillon aléatoire qui est utilisé pour faire une inférence sur certaines

de l’échantillon, comme la moyenne de l’échantillon ̅ . On constate que chaque échantillon a


caractéristiques de la population, telle que la moyenne de la population, en utilisant une statistique

différentes valeurs observées, et donc différentes moyennes de l’échantillon. La distribution


d’échantillonnage de la moyenne de l’échantillon est la distribution de probabilité des statistiques
des échantillons obtenues de tous les échantillons possible ayant le même nombre d’observation
issus de la population.

3.1. Illustration de la distribution d’échantillonnage

constituée de quatre individus ( = 4) : Pierre, Paul, Jacques et Jean. On suppose que leurs
Notons le poids d'un individu, supposé déterministe, et imaginons que notre population soit

= 65 ; = 73 ; = 82 ; = 68
poids exprimés en kilogrammes sont respectivement égaux à :

65 + 73 + 82 + 68
La moyenne du poids (poids moyen) dans la population est donnée par :
= = 72
4
Si l'on souhaite constituer un échantillon aléatoire de taille = 2 (sans remise), il convient de tirer
deux individus parmi les quatre individus de la population et d'observer leur poids moyen.

Échantillons couples de poids moyenne empirique Probabilités


(Pierre, Jean) (65; 73) 69 1/6
(Pierre, Paul) (65; 82) 73,5 1/6
(Pierre, Jacques) (65; 68) 66,5 1/6
(Jean, Paul) (73; 82) 77,5 1/6
(Jean, Jacques) (73; 68) 70,5 1/6
(Paul, Jacques) (82; 68) 75 1/6

On obtient un total de 06 échantillons avec une probabilité de 1/6 d’être sélectionné pour chacun.
En fonction de l’échantillon choisi, la moyenne empirique se présente comme une variable
aléatoire. Dans ce cas il sera possible de présenter sa distribution de probabilité ou la distribution
d’échantillonnage pour les différentes moyennes empiriques de la population (les deux dernières

Le tableau suivant présente des résultats similaires pour un échantillon de taille = 3 issu de la
colonnes du tableau précédent).

champ beaucoup plus proche de la moyenne de la population = 72. On trouvera ceci vrai – la
même population que précédemment. Il faut noter que les moyennes sont concentrées dans un

distribution d’échantillonnage devient concentrée autour de la moyenne de la population


lorsque la taille de l’échantillon augmente. Ce résultat important fournit une base importante
pour l’inférence statistique.
échantillons couples de poids moyennes empiriques probabilités
(Pierre, Jean, Paul) (65; 73; 82) 73,3333333 0,25
(Pierre, Jean, Jacques) (65; 73; 68) 68,6666667 0,25
(Jean, Paul, Jacques) (73; 82; 68) 74,3333333 0,25
(Pierre, Paul Jacques) (65; 82; 68) 71,6666667 0,25

Dans ces exemples, il a été possible de définir tous les échantillons possibles étant donné la taille
de la population et de l’échantillon. Et pour chaque échantillon possible, la moyenne empirique a
été calculée, et la distribution de probabilité a été construite.
De ces exemples simples, on voit que lorsque la taille de l’échantillon devient grande, la distribution
de la moyenne empirique – distribution d’échantillonnage – devient plus concentrée autour de la
moyenne de la population. Dans la plupart des travaux statistiques, les populations sont très
grandes, et il n’est souvent pas rationnel de construire la distribution de tous les échantillons
possibles d’une taille donnée. Mais en utilisant ce qu’on a appris sur les variables aléatoires, on peut
montrer que les distributions d’échantillonnage pour les échantillons de toutes populations ont des
caractéristiques similaires que celles qu’on a montré dans les exemples simples de population
discrète.

3.2. Distribution d’échantillonnage de la moyenne de l’échantillon (empirique)

; les observations d’échantillon sont les variables !", ! , ⋯ ! . Avant que


Soit un échantillon aléatoire de observations issu d’une très grande population de moyenne et
de variance
l’échantillon ne soit observé, il y a une incertitude par rapport aux résultats. Cette incertitude est
modélisé en considérant les observations individuelles comme des variables aléatoires d’une
population de moyenne et de variance .

Soient les variables aléatoires !", ! , ⋯ ! d’un échantillon issu d’une population. La valeur de la
Moyenne de l’échantillon

1 1
moyenne de l’échantillon de ces variables aléatoires est définie par

!% = ' ! = (!" + ! + ⋯ + ! )
("
Considérons la distribution d’échantillonnage de la variable !%. À ce point, on ne peut pas
déterminer la forme de la distribution d’échantillonnage, mais on peut déterminer la moyenne et la
variance de la distribution d’échantillonnage à partir des définitions basiques vues dans les cours
de probabilités.

Étant une variable aléatoire, cette moyenne n’est rien d’autre que l’espérance mathématique de !%.
Moyenne de la moyenne de l’échantillon (empirique)

1 1
)*!%+ = ) , ' ! - = ) . (!" + ! + ⋯ + ! )/ = =
("
L’espérance mathématique d’une combinaison linéaire de variables aléatoires est une combinaison linéaire des
espérances
Ainsi, l’espérance mathématique de la moyenne empirique ou de l’échantillon est la moyenne de la
population. Si les échantillons de n observations aléatoires sont indépendamment et identiquement
tirés d’une population, alors lorsque le nombre d’échantillons devient grand, la moyenne des
moyennes de l’échantillon approche la vraie valeur de la moyenne de la population. Une seule
moyenne de l’échantillon peut être plus grande ou plus petite que la moyenne de la population.
Cependant, en moyenne, il n’y a pas de raison d’espérer la moyenne de l’échantillon plus grand ou plus petit que la
moyenne de la population.

Exemple :
Dans l’exemple des échantillons de 2 individus sur 4, on peut calculer l’espérance mathématique

1 1 1
de la variable aléatoire comme suit :
)*!%+ = ' ̅ 0 ( ̅ ) = (69) 2 3 + (73.5) 2 3 + ⋯ + (75) 2 3 = 72
6 6 6
Ce résultat donne la moyenne de la population .

Variance de la moyenne de l’échantillon (empirique)


Maintenant que nous avions établit que la distribution des moyennes de l’échantillon est concentrée
autour de la moyenne de la population, on souhaite déterminer la variance de la distribution
d’échantillonnage des moyennes.
Si la population est très grande par rapport à la taille de l’échantillon, alors les distributions des
observations individuelles d’échantillons aléatoires indépendants sont les mêmes. On a vu en calcul
de probabilité que la variance d’une combinaison linéaire de variables aléatoires indépendantes est la somme des

1 1 1 1 1
coefficients linéaires au carrée multiplié par la variance des variables aléatoires. Il s’en suit que :

567*!%+ = 567 , ' ! - = 567 .2 !" + ! + ⋯ + ! 3/ = ' 2 3 = =


(" ("
La variance de la distribution d’échantillonnage de !% décroit lorsque la taille de l’échantillon
augmente. En effet, cela veut dire que les échantillons de grandes tailles entrainent beaucoup plus
de distributions d’échantillonnage concentrées. L’exemple simple dans la section précédente
démontre ce résultat. Ainsi, les grands échantillons donnent de plus grande certitude par rapport à
l’inférence de la moyenne de la population. La variance de la moyenne de l’échantillon est notée :
8̅ et l’écart type correspondant est donné par :

=

Cela correspond au cas où la population mère est finie et l’échantillon est non exhaustif (tirage avec
remise) ou si la population est infinie, que l’échantillon soit ou non exhaustif.
Lorsque la taille de l’échantillon n’est pas une petite fraction de la taille de population , alors
les membres individuels de l’échantillon ne sont pas distribués indépendamment. On peut montrer
dans ce cas que la variance de la moyenne de l’échantillon est comme suit :


567(!%) =
−1
;<
Où le facteur ;<" est appelé facteur d’exhaustivité ou facteur de correction de la population finie.
Ce cas s’applique lorsque la population mère est finie (avec n N > 1 20 ) et l’échantillon exhaustif
(tirage sans remise).

d’échantillonnage de !%. Pour beaucoup d’applications, la moyenne et la variance définissent la


Nous venons de développer les expressions de la moyenne et la variance de la distribution

distribution d’échantillonnage. On verra qu’avec des analyses additionnelles, ces résultats peuvent
devenir très puissants pour certaines applications pratiques. On analyse d’abord ces résultats sous
l’hypothèse selon laquelle la population sous-jacente a une distribution de probabilité normale.
Ensuite, nous explorons la distribution d’échantillonnage de la moyenne d’échantillon lorsque la
population sous-jacente n’a pas une distribution normale. Ce second cas va fournir des résultats
puissants pour beaucoup d’applications pratiques en économie et en gestion.

4. Théorème central limite ou de la limite centrée


Un cas particulier

( , ). Pour tout , on a )(!) = . Donc


Soit , variables aléatoires indépendantes suivant toutes la même loi normale

)(!" + ! + ⋯ + ! ) = . ⟹ ) >' ! ? = .
("
̅ = ∑ (" ! ⟹ )( ̅ ) =
"
Si on pose que
De même, Pour tout , on a . Les variables aléatoires étant
indépendantes,

5( ̅ ) = ⟹ =

Les variables aléatoires étant indépendantes et suivant une loi normale, leur somme
suit une loi normale et ̅ = ∑ (" ! suit également une loi normale.
"

En conclusion, ̅ suit une loi normale


̅− ̅− ̅−
̅→ 2 , 3⇒C= = → (0, 1) EF √ 2 3 → (0, 1)
√ 8̅

propriété possède la variable aléatoire ̅ lorsque l’hypothèse de normalité des variables


Comme on ne rencontre pas toujours des variables normales, il est nécessaire d’étudier quelle
n’est
plus satisfaite.
Théorème : soit , variables aléatoires indépendantes suivant la même loi (c'est-à-

̅ suit
dire, identiquement distribuées). On dit tout simplement qu’on a variables i.i.d, admettant une
moyenne et une variance . Pour suffisamment grand, la variable aléatoire

̅− ̅− ̅−
approximativement une loi normale

̅→ 2 , 3⇒C= = → (0, 1) EF √ 2 3→ (0, 1)


√ 8̅

(G < IJ)
5. Distribution d'échantillonnage de la moyenne empirique de petits échantillons

Pour les grands échantillons, Le théorème central limite nous dit que ̅ suit approximativement
une loi normale. Lorsque la taille de l'échantillon n'est pas grande pour appliquer le théorème
central limite, la population devra satisfaire certaines conditions telles que la normalité de la
population.
Si la population est normalement distribuée, alors:
̅− ̅− ̅−
si est connu, on a
C= = → (0, 1) ⟺ √ 2 3→ (0, 1)

une loi de Student à ( − 1) degré de liberté (table 3 annexe).


si est inconnu, on l'estime en utilisant les données de l'échantillon. Dans ce cas la loi devient

̅− ̅− ̅−
L= = → N( − 1) ⟺ √ 2 3 → N( − 1)
8̅ M M

6. Distribution d’échantillonnage de la différence de moyennes (2 populations, 2


échantillons)

populations de moyenne " ON , et de variances " ON


Elle est utile lorsqu’il s’agit de comparer les moyennes de deux populations. Soient deux

différence ( " − ), pour ce faire, on extrait deux échantillons aléatoires indépendants de tailles
respectivement. On s’intéresse à la

" ON de chaque population. Soient ̅" ON ̅ les moyennes empiriques de chaque échantillon.

Cas 1 : Si les échantillons sont de grandes tailles c'est-à-dire ( " , ≥ 30) la variable aléatoire

Q = ̅" − ̅ suit une loi normale d’espérance µ = µ1 − µ2 et d’écart-type : =S +


TUV TVV
R
U V
ou

WR = S +
V V
U V
U V

W" W
Q→ X( " − ), Y "
+ Z EF Q → X( " − ), Y + Z
" "

Q−( "− )
Dans ce cas les variables centrées réduites sont obtenues,
→ (0, 1) W[ " ON WE N \E FOW
Y "
+
"

Q−( − )
Ou
→ (0, 1) W[ ON WE N [ \E FOW
"
"
W" W
Y +
"

Note : lorsque " ON WE N [ \E FOW on les remplace par les variances empiriques (ou des

Cas 2 : lorsque les échantillons sont de petites tailles, c'est-à-dire ( " , < 30), on suppose que
échantillons).

les populations sont normales et les écart-types sont inconnus. On utilise la loi de Student à la

─ Les écart-types sont inconnus mais supposés être égaux ( = )


place de la loi normale.
"
Q−( − )
→ N(
"
U^ V< ; _)
W] W]
Y +
"

6`O\
( − 1)W" + ( − 1)W
W] =
"

"+ −2

─ Les écart types sont inconnus et supposés inégaux ( " ≠ ).

Q−( − )
→ N(b; _)
"

W" W"
Y +
"

W" W
avec

. + /
`= "
(W" ⁄ " ) (W ⁄ )
+
( " − 1) ( − 1)

utilise le nombre entier directement supérieur. Si par exemple ` = 17.35 alors le degré de liberté est de 18.
Note : dans la plupart des cas, le calcul du degré de liberté donne une valeur fractionnelle. Dans la pratique, on