Vous êtes sur la page 1sur 4

Chapitre 1

Introduction à l’inférence statistique

Dans ce chapitre, nous présentons brièvement les concepts d’échantillonnage aléatoire simple et de distribution
d’échantillonnage. Les distributions d’échantillonnage de quelques caractéristiques d’échantillon comme la moyenne ou la
proportion seront décrites.

Sommaire
1.1 Inférence statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Échantillonnage aléatoire simple . . . . . . . . . . . . . . . . . . . . . . . . 1
1.3 Distribution d’échantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . 2

1.1 Inférence statistique

Le but final d’une étude statistique dans un système de gestion est de prendre des décisions
optimales avec des pertes minimales d’informations. Or, l’étude statistique sur une popula-
tion entière peut coûter cher, engager trop de temps, ou est pratiquement impossible. Ainsi,
il est fréquent de ne pas observer tous les individus de la population mais en considérer
seulement une partie restreinte, appelée échantillon. La constitution d’un échantillon permet
de traiter les données plus facilement et à moindre coût.
E XEMPLE N ˚ 1
Une société fabrique en grande quantité des piles alcalines. L’un des principaux critères de qualité
d’une pile est sa durée de vie. Mais il est impossible de déterminer à l’avance cette durée de vie,
et vérifier chaque pile la rendrait inutilisable. Il est alors judicieux de mesurer la durée de vie sur
un échantillon de quelques piles.

La valeur de la durée de vie de chaque pile prélevée dans l’échantillon est très variable. À cause
de ces valeurs disparates, intuitivement, on assimile une valeur moyenne de la durée de vie de
toutes les piles fabriquées (et/ou à fabriquer dans le futur par le même procédé). La valeur de
ce paramètre est inconnue, par contre on peut déterminer la moyenne des durées de vie issues
d’un échantillon.

L’inférence statistique permet d’estimer la durée de vie moyenne de la population à partir de la


moyenne d’un échantillon.

L’inférence statistique consiste à obtenir le plus d’informations possibles sur les paramètres
d’une population, à partir des caractéristiques d’un ou de plusieurs échantillons. Elle per-

1
1 Introduction à l’inférence statistique

met d’utiliser les données d’un échantillon pour estimer des paramètres ou pour tester des
hypothèses sur les caractéristiques d’une population.

1.2 Échantillonnage aléatoire simple

Avec des méthodes d’échantillonnage adéquates, on peut avoir des idées assez précises sur
la population. La méthode de sélection d’un échantillon est primordiale, afin de minimiser
les erreurs dans les estimations. L’inférence statistique est fondée sur le mode aléatoire dans
le choix de l’échantillon.

L’échantillonnage aléatoire simple est une méthode qui consiste à former un échantillon en choi-
sissant les individus un par un, de façon à ce que les individus restants dans la population
aient la même probabilité d’être sélectionnés. Dans la pratique, on obtient un échantillon
aléatoire simple de taille n en répétant n fois la même expérience dans les mêmes conditions
et de manière indépendante les unes des autres. Cela correspond au schéma de tirage avec
remise.

Caractéristiques d’échantillon aléatoire simple On suppose avoir tiré un échantillon de


taille n d’une population, où l’on étudie un caractère statistique X. Les valeurs x1 , x2 , . . . , xn
sont obtenues à partir des observations des n individus de l’échantillon. On peut alors calcu-
ler une caractéristique d’échantillon, qui par définition est une fonction de ( x1 , x2 , . . . , xn ).
Les caractéristiques d’échantillon les plus utilisées sont :
– la moyenne d’échantillon (ou moyenne empirique) :

∑in=1 xi
x= (1.1)
n
– l’écart-type d’échantillon :

∑in=1 ( xi − x )2
S = . (1.2)
n−1
E XEMPLE N ˚ 2
Soit un échantillon de 10 piles alcalines, dont les durées de vies (en heures) ont été mesurées.

Echantillon n°1 :

La moyenne d’échantillon est de 57,6 heures et l’écart-type d’échantillon est égal à 4,17 heures.

2 ISTD-TCI
1.3 Distribution d’échantillonnage

1.3 Distribution d’échantillonnage

E XEMPLE N ˚ 3
Supposons qu’on ait prélevé un autre échantillon de 10 piles et calculé la durée de vie moyenne
de l’échantillon.

Echantillon n°2 :

Comme les observations ne sont pas forcément les mêmes que dans l’échantillon 1, on obtient
une autre moyenne d’échantillon égale à 59,1 heures.

En répétant plusieurs fois le processus de sélection d’échantillon aléatoire simple de taille n = 10,
on obtiendra autant de moyennes d’échantillon différentes.

Échantillonnage des moyennes. Le processus de sélection d’un échantillon aléatoire simple


fait en sorte que la moyenne d’échantillon soit une variable aléatoire, qu’on notera par X.
Comme toute variable aléatoire, X peut être décrite par une loi de probabilité, appelée distri-
bution d’échantillonnage des moyennes. La connaissance de cette distribution d’échantillon-
nage et de ses paramètres permettra de tirer des conclusions sur l’écart entre la moyenne
d’échantillon X et la moyenne de la population μ.

Soit une population, sur laquelle on étudie un caractère assimilé à une variable aléatoire
X d’espérance mathématique μ et d’écart-type σ. Pour n fixé, on considère tous les échan-
tillons de taille n extraits de cette population. L’espérance mathématique et l’écart-type de la
moyenne d’échantillon sont :
σ
E( X ) = μ et σ( X ) = √
n

Le théorème central limite permet d’identifier le modèle de distribution d’échantillonnage


de la moyenne d’échantillon X.

Théorème 1.1 (Théorème central limite pour la moyenne d’échantillon) En sélectionnant des
échantillons aléatoires simples de taille n à partir d’une population caractérisée par une variable aléa-
toire de moyenne μ et d’écart-type σ, la distribution d’échantillonnage de la moyenne d’échantillon X
suit la loi normale de paramètres μ et √σn , lorsque la taille de l’échantillon est suffisamment grande
(n ≥ 30).

Tout ce qui est dit sur la moyenne est aussi valable sur les autres caractéristiques d’échan-
tillon.

Zakariasy 3
1 Introduction à l’inférence statistique

Échantillonnage des fréquences. D’une manière analogue, on peut calculer l’espérance


mathématique et la variance d’une fréquence Fn . Si p est la proportion de la population
ayant le caractère considéré, on a :

p (1 − p )
E( Fn ) = p et σ( Fn ) =
n
à condition que le rapport entre la taille de l’échantillon et la taille de la population n/N ≤
0, 05.

Théorème 1.2 (Théorème central limite pour une fréquence.) Lorsque la taille de l’échantillon
est suffisamment grande pour satisfaire les deux conditions suivantes : np ≥ 5 et n(1 − p) ≥ 5,
alors la distribution d’échantillonnage d’une fréquence peut être approchée par une loi normale de

paramètres p et ( p(1 − p))/n).

Résumé

Le schéma ci-dessous résume le principe de l’inférence statistique.

F IGURE 1.1: La statistique inférentielle.

4 ISTD-TCI

Vous aimerez peut-être aussi