Vous êtes sur la page 1sur 48

La théorie de l'échantillonnage permet, à partir des paramètres

(caractéristiques) supposés connus de la population mère, de déduire celles


relatives aux échantillons prélevés dans cette même population mère.

L'estimation est le problème inverse de l'échantillonnage. On va estimer les


paramètres (caractéristiques) de la population mère à partir des paramètres
calculés sur un ou des échantillons extraits de la population mère. Ces
échantillons sont évidemment représentatifs de la population, sinon les
estimations qui en découlent seront émaillées d’erreurs importantes. Supposons
par exemple que nous voulions faire une étude sociologique d’une ville. Dans
l’échantillon, on devra retrouver suffisamment de personnes pour représenter
les groupes à revenus élevés, moyens et bas ; par ailleurs, l’échantillon devra être
représentatif de la population au niveau de caractéristiques telles que l’âge, le
groupe ethnique et l’instruction.

D’un point de vue pratique, le problème de l’estimation est plus important que
celui de l’échantillonnage1, car devant la difficulté de recourir à des
recensements, le seul moyen dont dispose le statisticien pour connaître les
paramètres (mode, moyenne, écart-type…) d’une population réside dans
l’estimation de ceux-ci à partir d’échantillons significatifs extraits de la
population. Par exemple, une entreprise cherchera la durée de vie moyenne de
100 ampoules électriques et estimera la durée de vie moyenne de toutes les
ampoules qu’elle fabrique.

Le but de l'inférence sera de généraliser les résultats obtenus auprès d'un


échantillon pour décrire la population.

1
Un échantillon est un sous-ensemble de la population étudiée. Effectuer un échantillonnage
c’est choisir n individus dans une population.

1
I. Distribution d’échantillonnage et lois de probabilité

a) Méthodes d’échantillonnage

Nous partons d’une population mère (appelée base de sondage) de laquelle est
tiré l'échantillon. Cette population peut être finie ou infinie. Toutefois, une
population finie, dans laquelle s'effectue un tirage avec remise (échantillonnage
est non exhaustif), peut être considérée comme infinie. Ceci est important
puisque, pour chaque élément de la population, la probabilité de l’extraire est
indépendante des autres lorsque le tirage est effectué avec remise ou lorsque la
taille de la population est très grande, voire quasi-infinie, par rapport à
l’échantillon. Par exemple si 10 éléments sont extraits d’une production de 50
pièces, la probabilité de chacun d’eux diffère selon que le tirage est fait avec ou
sans remise. En revanche, si ces 10 éléments sont extraits d’une population qui
comporte plusieurs millions d’individus, le fait de remettre ou non l’unité ne
change à l’évidence pratiquement rien.

« Le sondage est né d’une impossibilité pratique : interroger individuellement


toute une population à laquelle on s’intéresse, et d’une possibilité statistique :
décrire le tout par la partie. » (Grawitz, 2001). Toutefois, pour que les résultats
d’une enquête par sondage puissent être extrapolés à l’ensemble de la population
faisant l’objet de l’étude, il est indispensable que l’échantillon choisi soit le
plus représentatif possible de la population étudiée. Dans le cas contraire,
l’échantillon est biaisé. Á la limite, un petit échantillon représentatif est, de loin,
préférable à un grand échantillon biaisé.

Un échantillon représentatif possède généralement les traits suivants :

- il est d’une taille suffisante2 ;


- il possède les mêmes caractéristiques que la population.

Le meilleur moyen de parvenir à un échantillon représentatif est de réaliser des


échantillonnages probabilistes c.-à-d. issus de la théorie des probabilités. Le cas
type de ces échantillonnages probabilistes est l’échantillonnage aléatoire.

Un échantillon aléatoire est un échantillon tiré au hasard c.-à-d. un


échantillon dans lequel tous les individus ont la même chance de se retrouver.

2
Bien sûr, plus la population est homogène, moins l’échantillon aura besoin, à précision constante,
d’être de taille importante.

2
L’échantillonnage aléatoire simple est la méthode d’échantillonnage la plus
couramment utilisée. Le sondeur utilise des nombres sélectionnés de façon
aléatoire par un ordinateur, compose des numéros au hasard ou utilise une
autre procédure de sélection aléatoire qui garantit que tous les membres de la
population de la base de sondage ont la même probabilité de faire partie de
l’échantillon. L’avantage de cette technique tient au fait qu’elle n’exige pas
d’autres données dans la base de sondage que la liste complète des membres de
la population observée et l’information pour les contacter.

Par exemple nous désirons déterminer la taille moyenne des étudiants de


seconde année qui étaient présents au cours de statistique, à partir d’un
échantillon de 10 individus. La réponse exacte, pour la population totale de 86
étudiants (35 garçons et 51 filles), est de 174 cm.

La manière correcte de procéder est de choisir au hasard dans toute la


population. Une méthode couramment utilisée consiste, après avoir numéroté
tous les éléments de la population de 1 à N (ici 1 à 86), à procéder, à l’aide d’une
table de nombres aléatoires ou d’un générateur de nombres pseudo aléatoires, à
la sélection des unités différentes qui constitueront l’échantillon.

On prend un extrait d’une table de nombre aléatoire par exemple :

On choisit au hasard un nombre de la table, supposons ce nombre 06121. Comme


N = 86, on va retenir le premier groupe de 2 chiffres, ce qui donne les N° : 06,
ensuite 12 ; 19 ; 17 ; 82 ; 77. Le nombre 92 est inutilisable. Le septième étudiant
sera le N°10.

Un tel tirage au hasard pourrait donner les tailles suivantes (en cm) :

187, 165, 180, 168, 165, 160, 174, 183, 168, 176

3
La moyenne de l’échantillon obtenu, ici 172.6 cm, sera certainement plus proche
de la valeur exacte que (erreur de 1.4 cm) que si le sondeur avait choisi un
échantillon non probabiliste. Si le sondeur avait choisi un échantillon contenant
autant de filles que de garçons (choix avec considération du sexe), il aurait
certainement obtenue une taille moyenne bien plus élevée que celle de la
population, les garçons étant, en général, plus grands que les filles. Le sondeur a
biaisé l’échantillon en faveur des garçons. Dans ce sondage, chaque garçon avait
plus de chances d’être choisi que chaque fille. Les 5 garçons tirés au hasard dans
une population de 35 individus, ont chacun 5 chances sur 35 d’être choisis ; alors
que les 5 filles sont choisies dans une population de 51 individus.

L’échantillonnage aléatoire est donc une méthode simple et la théorie qui la sous-
tend est bien établie. Il existe des formules types pour déterminer la taille de
l’échantillon, les estimations… et ces formules sont faciles à utiliser.

Insistons sur le fait que seuls les échantillons basés sur la probabilité
(échantillons stratifiés, aléatoires simples, systématiques…) nous intéressent. En
effet, si l’échantillon est probabiliste, on a la chance de pouvoir appliquer les
méthodes de statistiques inférentielles, ce qui serait théoriquement impossible
avec un sondage par choix raisonné (dans ce cas, on ne pourrait par exemple pas
utiliser les intervalles de confiance).

b) Présentation des symboles qui seront utilisés

4
c) Distribution d’échantillonnage des moyennes

Rappelons tout d'abord qu'il s'agit de déduire les caractéristiques d'un


échantillon quelconque (particulier) à partir de la connaissance des
caractéristiques de la population mère. Soit dans une population mère Ω de taille
N, une variable aléatoire X pour laquelle l’espérance mathématique m, la
proportion p et l'écart type σ sont connus.

De cette population sont issus k échantillons E1, E2, …, Ek de taille n qui auront
des moyennes et des écarts types différents. Chaque échantillon constitué
forme une distribution statistique. Cette distribution statistique peut être
caractérisée par une moyenne, un écart type ou une proportion. Les différentes
moyennes obtenues des échantillons ( x1 , x2 ,…, xk ) forment une distribution
d’échantillonnage des moyennes (ou distribution des moyennes d’échantillons).

Ci-dessous, l’illustration du processus d’échantillonnage :

Puisque cette distribution d'échantillonnage Xn est une distribution statistique,


elle sera caractérisée par une moyenne et un écart type. On parle aussi de
variable aléatoire et les différentes moyennes x 1 , x 2 ,…, xk du caractère xi dans
chaque échantillon peuvent être interprétées comme les réalisations d’une
variable aléatoire X (aussi notée Xn ).

Ex : Si X est la variable salaire des ménages de la population active française,


alors X
̅ 50 correspondra au salaire moyen des échantillons de 50 de ces ménages
choisis au hasard.

On démontre alors que l’espérance mathématique de la variable aléatoire Xn est


égale à l’espérance mathématique de la population mère.

5
E (𝑿) = m

x
x1  x2  x3  x 4  ...  xk
i
Autrement dit, lorsque nous calculons i 1
= , on trouve
k k
tout simplement la moyenne de la population m. On dira alors que la moyenne
échantillonnale est un estimateur sans biais de la moyenne de la population3.

On démontre par ailleurs que la variance de la variable aléatoire Xn est égale à la


variance de la population mère divisée par la taille de l’échantillon.

𝝈𝟐 𝟐
V (𝑿) =  σ (𝑿) = √𝝈  σ (𝑿) =
𝝈
𝒏 𝒏 √𝒏

Les formules précédentes sont applicables lorsque la population mère est finie et
l’échantillon non exhaustif (tirage avec remise) ou si la population est infinie que
l’échantillon soit exhaustif ou non exhaustif.

Si la population est finie et l’échantillon exhaustif (tirage sans remise) :

E (𝑿) = m

et
𝝈 𝑵−𝒏
σ (𝑿) = × √𝑵−𝟏
√ 𝒏

Dans le cas de l’écart type, la formule précédente est multipliée par ce qu’on
appelle le coefficient d’exhaustivité. Bien sûr, ce dernier tend vers 1 lorsque N
tend vers l’infini.

Ex : Supposons une population finie Ω = {1, 2, 3} de sorte que N = 3. Nous allons


prélever des échantillons de taille n = 2. Pour que cette population soit assimilée
à une population infinie, nous allons effectuer des tirages successifs avec
remise. Nous pouvons donc tirer au total 32 = 9 échantillons en tenant compte de
l’ordre. Ces échantillons sont les suivants :

3
Un estimateur est sans biais si la moyenne de sa distribution d’échantillonnage est égale au
paramètre à estimer. On notera que les différents écarts types obtenus des échantillons
formeraient une distribution d’échantillonnage des écarts types. Toutefois, l’écart-type
échantillonnal n’est pas un estimateur sans biais de l’écart-type de la population. Autrement dit,
la moyenne des écarts types échantillonnaux ne donnera pas l’écart-type de la population.

6
11 12 13
21 22 23
31 32 33

Chacun de ces échantillons constitue une distribution statistique pour laquelle on


peut calculer une moyenne et un écart-type.

Quelle est la moyenne de la population ? m = 2 (c.-à-d. 1 + 2 + 3 / 3)

Quel est l’écart-type de la population ? Pour le trouver, nous cherchons d’abord


la variance. Ainsi :
1 k 2
σ = moyenne des carrés – carré de la moyenne =   xi   x 
2 2

 k i 1 
Soit :

σ2 = [(12 + 22 + 32)/3] – 22 = 14/3 – 12/3 = 2/3

Finalement l’écart-type de la population sera égal à :

σ= 2/3

Calculons à présent la moyenne de chacun des échantillons prélevés :

1 1.5 2 1.5 2 2.5 2 2.5 3

Ces différentes moyennes x 1 , x 2 ,…, x 9 issues des échantillons constituent une


distribution d’échantillonnage des moyennes X 2 . Comme la distribution
d’échantillonnage des moyennes est une distribution statistique, elle a sa propre
moyenne et son propre écart-type.

Calculons la moyenne E ( X ) (ou μx ), puis l’écart-type σ ( X ) (ou σ x ) de notre


distribution d’échantillonnage X .

μx = (1 + 1.5 + 2 + 1.5 + 2 + 2.5 + 2 + 2.5 + 3) / 9 = 18 / 9 = 2

On vérifie alors que la moyenne des moyennes (ou la moyenne de la distribution


d’échantillonnage des moyennes) est la même que celle de la population !

De même que si l’on calcule l’écart-type de la distribution d’échantillonnage des


moyennes on trouvera exactement l’écart-type de la population divisé par la

7
racine de la taille de l’échantillon prélevé. Calculons d’abord σ x de façon
classique :

1 k 
σ x 2 = moyenne des carrés – carré de la moyenne =   xi2   m2
k i1 

σ x 2 = [(12 + 1.52 + 22 + 1.52 + 22 + 2.52 + 22 + 2.52 + 32)/9] – 22


= [(1 + 2.25 + 4 + 2.25 + 4 + 6.25 + 4 + 6.25 + 9)/9] – 4
= 4.33 – 4 = 1/3
σ 2/3
D’où σ x = 1/3 = 0.58, or σ x =  = 0.58 CQFD
n 2

d) Distribution d’échantillonnage des proportions (ou des fréquences)

Soit une population mère composée de N sujets. Chaque sujet possède ou ne


possède pas un caractère. La proportion de ceux qui le possèdent est p ; la
proportion de ceux qui ne le possèdent pas est q = 1 – p.

Considérons tous les échantillons de taille n qui peuvent être extraits de la


population. Pour chaque échantillon, déterminons la proportion f de succès. Nous
obtenons une distribution d’échantillonnage des proportions F.

Autrement dit, les fréquences fi de chaque échantillon varient d’un échantillon à


l’autre et représentent la distribution d’échantillonnage F des proportions (ou
des fréquences). La variable aléatoire F prend les valeurs f1, f2,…, fk et possède
une moyenne E (F) = μF et un écart type σ (F) = σ F .

On démontre alors que l’espérance mathématique de la variable aléatoire F est


égale à l’espérance mathématique de la population mère.
8
E (F) = p

La fréquence échantillonnale est donc un estimateur sans biais de la fréquence


de la population

On démontre par ailleurs que l’écart type de la variable aléatoire F est égal à :

𝐩𝐪
σ (F) = √𝐧

Si la population est finie et l’échantillon exhaustif (tirage sans remise) :

𝐩𝐪 𝐍−𝐧
E (F) = p et σ (F) = √ 𝐧 . √𝐍−𝟏

Ex : Supposons une population finie Ω = {1, 2, 3} de sorte que N = 3. Nous allons


prélever des échantillons de taille n = 2. Pour que cette population soit assimilée
à une population infinie, nous allons effectuer des tirages successifs avec
remise. Nous pouvons donc tirer au total 32 = 9 échantillons en tenant compte de
l’ordre. Ces échantillons sont les suivants :

11 12 13
21 22 23
31 32 33

Chacun de ces échantillons constitue une distribution statistique pour laquelle on


peut calculer une proportion. Nous allons nous intéresser à la proportion
d’articles pairs dans une population.

Quelle est la proportion d’articles pairs de la population ? p = 1/3.

Calculons à présent la proportion fi de chacun des échantillons :

0 0.5 0 0.5 1 0.5 0 0.5 0

Ces différentes proportions f1, f2,…, f9 issues des échantillons constituent une
distribution d’échantillonnage des fréquences F. Calculons la moyenne μF puis
l’écart-type σ F de cette distribution d’échantillonnage F.

9
μF = E (F) = (0 + 0.5 + 0 + 0.5 + 1 + 0.5 + 0 + 0.5 + 0) / 9 = 3 / 9 = 1/3

On vérifie alors que la moyenne des fréquences (ou la moyenne de la distribution


d’échantillonnage des fréquences) est égale à la proportion de la population !

Quel est l’écart-type de la distribution d’échantillonnage des fréquences ?

1/3  2/3
σ (F) = = 2/9 1/2 = 1/3
2

Par la formule classique :

1 k 
σ F 2 = moyenne des carrés – carré de la moyenne =   fi2   p2
 k i1 

σ(F) 2 = [(02 + 0.52 + 02 + 0.52 + 12 + 0.52 + 02 + 0.52 + 02)/9] – 1/32


= [(0 + 0.25 + 0 + 0.25 + 1 + 0.25 + 0 + 0.25 + 0)/9] – 0.111
= 0.222 – 0.111 = 0.111  σ(F) = 1/3 CQFD

e) Théorème central limite

Véritable pilier des statistiques, le théorème central limite énonce les deux
propriétés suivantes : la loi de probabilité de X compte tenu de celle de X et la
loi de probabilité de X (ou F) compte tenu de la taille de l’échantillon.

Propriété 1

Si la variable aléatoire X, dont les réalisations xi sont associées aux sujets de


la population mère, obéit à une loi normale, la loi de probabilité de X est une
loi normale, que n soit supérieur ou inférieur à 30. Autrement dit, la distribution
d’échantillonnage des moyennes est normalement distribuée si la population est
normalement distribuée.

Cette propriété s’applique évidemment de la même façon pour les proportions.

10
Propriété 2

Loi de probabilité de X

Si la taille n de l’échantillon est supérieure ou égale à 30, alors la variable


aléatoire X (la variable « moyenne échantillonnale ») suit une loi normale, et
ce, quelle que soit la distribution de la population. Autrement dit, dès lors que
l’échantillon prélevé est assez grand, la distribution d'échantillonnage des
moyennes s'approche d'une distribution normale.

σ
Avec E ( X n ) = μx = m et σ x =
n

Á noter que pour une population finie (tirage sans remise), il suffit de multiplier
le second terme par le coefficient d’exhaustivité.

Loi de probabilité de F

Si la taille n de l’échantillon est supérieure ou égale à 30, alors la variable


aléatoire F (qui associe la fréquence dans l’échantillon prélevé) suit une loi
normale. Autrement dit, dès lors que l’échantillon prélevé est assez grand, la
distribution d'échantillonnage des proportions s'approche d'une distribution
normale.

Illustration

Illustrons cette seconde propriété par un exemple. Supposons que la taille


moyenne des étudiants de sexe féminin de PPA est de m = 163 cm avec un écart
type de σ = 6.6 cm. Les étudiants de sexe féminin forment la population et leur
taille est la variable étudiée. Prélevons maintenant un échantillon aléatoire simple
(avec remise) de 50 étudiantes (n très supérieur à 30) dont nous calculerons la
taille moyenne notée x 1 .

11
Répétons cette opération pour chaque échantillon possible afin de déterminer
comment se distribuent les moyennes des échantillons. On obtient ainsi une
nouvelle moyenne à chaque échantillon : x 1 , x 2 ,…, x 6 et ainsi de suite. Chaque
échantillon prélevé devient alors une unité statistique sur laquelle on mesure une
variable (la moyenne de l’échantillon) qu’on note X et qu’on appelle moyenne
échantillonnale. On peut traiter la série des moyennes x 1 , x 2 ,…, x 6 ,…, comme
toute série, c.-à-d. qu’on peut la représenter sous une forme graphique et qu’on
peut en calculer la moyenne et l’écart type.

Si on traçait le polygone de fréquences de cette nouvelle série, on verrait qu’il a


la forme de cloche de la courbe normale, ce qui porte à penser que la distribution
de la variable X (la moyenne échantillonnale) tend vers la loi normale4.
Rappelons-nous que :

- E ( X n ) = μx = m  μx = 1.63 m ;
σ 6.6 cm
- σx = = = 0.93 cm = 0.0093 m
n 50

Conclusion : n = 50  X 50 ~ N (1.63 ; 0.0093)

Autrement dit, la variable X « moyenne échantillonnale » obéit à une loi normale


de moyenne μx = m = 1.63 m et d’écart type σ x = 0.0093 m.

4
Cela serait toujours vrai même si les échantillons pris individuellement suivaient une autre loi de
probabilité.

12
Si X suit une loi normale, on pourra donc affirmer qu’il y a 68.3% de chances pour
que la moyenne de l’échantillon aléatoire choisi se situe à une distance maximale
σ
de 1 écart type ( σ x = ) de la moyenne de la population ( μx = m). Autrement dit :
n

p (m – σ x ≤ x ≤ m + σ x ) = 0.6826

σ σ
p (m – 1 × ≤ x ≤m+1× ) = 0.6826
n n

Pour reprendre notre exemple :

σ σ
p (1.63 – 1 × ≤ x ≤ 1.63 + 1 × ) = 0.6826
n n

p (1.63 – 1 × 0.0093 ≤ x ≤ 1.63 + 1 × 0.0093) = 0.6826

p (1.620 ≤ x ≤ 1.639) = 0.6826

Autrement dit 68.3% des échantillons prélevés devraient présenter une moyenne
x comprise entre 1.62 m et 1.639 m. Nous pourrions appliquer le même
raisonnement pour 95% des échantillons...

Ainsi la connaissance des propriétés de la distribution d’échantillonnage nous


permet d’évaluer la probabilité que la moyenne d’échantillon soit plus ou moins
voisine de la moyenne de la population. C’est en particulier l’écart type de la
distribution d’échantillonnage σ x qui nous permet de déterminer à quel point la
moyenne échantillonnale peut différer de la moyenne de la population.

13
II. Estimation de moyennes et de pourcentages

a) Notion d’estimation et d’intervalle de confiance

Une enquête par sondage permet d’obtenir des renseignements sur toute une
population. Le sondeur traite l’échantillon comme un modèle réduit de la
population. Il prend donc des mesures sur cet échantillon et les généralise à
l’ensemble de la population.

Ex : Une entreprise pourrait estimer le revenu moyen de tous ses acheteurs à


partir d’un échantillon représentatif. Ainsi, s’il avait obtenu un revenu moyen de
50 000€ pour les unités de l’échantillon, il aurait conclu que celui de tous les
acheteurs est de 50 000€.

Comme nous travaillons à partir d’une seule valeur, nous effectuons une
estimation ponctuelle du paramètre de la population5. Dans le cas précédent, une
bonne estimation de m serait la moyenne échantillonnale 50 000€. Mais quelles
sont les chances pour que cette valeur soit exacte ?

L’estimation par intervalle de confiance consiste à ajouter et à retrancher une


marge d’erreur (ME) à l’estimation ponctuelle, de façon à former un intervalle,
soit [ x - ME ; x + ME] ou [f - ME ; f + ME] selon le paramètre considéré. Le
niveau de confiance associé à un intervalle de confiance correspond à la
probabilité que cet intervalle contienne la valeur réelle du paramètre estimé.

Par exemple « j’estime qu’il y a 90% de chances pour que m - la véritable


moyenne des revenus - soit compris entre 45 000€ et 55 000€ ». On obtient
l’intervalle d’estimation en ajustant l’estimation ponctuelle afin de tenir
compte de l’erreur d’échantillonnage6. Pour une marge d’erreur de 5 000, nous
aurons donc la formulation mathématique suivante :

p (50 000 – 5 000 ≤ m ≤ 50 000 + 5 000) = 0.90

5
On utilise la statistique f ou x pour estimer la proportion p ou la moyenne de la population m.
Toute statistique (moyenne ou fréquence de l’échantillon) utilisée pour estimer un paramètre
(moyenne ou proportion de la population) est appelée estimateur.
6
L’erreur d’échantillonnage est l’écart entre les résultats obtenus auprès d’un échantillon et ce
que nous apprendrait un recensement comparable de la population. Elle survient lorsque
l’échantillon ne prend pas en considération la population dans sa totalité. Plus la taille de
l’échantillon est grande plus l’erreur d’échantillonnage diminue, plus l’estimation est précise.

14
Évidemment, un intervalle d’estimation peut être faux, comme toute autre
estimation ; mais, contrairement à l’estimation ponctuelle, la probabilité
d’erreur de l’intervalle pourra être objectivement déterminée. Pour reprendre
notre exemple, le risque d’erreur est de 10%. Ainsi lorsque le niveau de confiance
est de 90%, l’intervalle fourni par un échantillon contiendra 90 fois sur 100 la
vraie valeur du paramètre (ici les revenus moyens de la population d’acheteurs)
estimé. Évidemment, plus le niveau de confiance souhaité en notre estimation
sera élevé, plus la marge d’erreur qu’il faudra accepter sera importante ; la
longueur de l’intervalle augmentera et l’estimation perdra de sa précision.

b) De l’échantillonnage à l’estimation

On sait que si la taille de l’échantillon est grande ou si la distribution de la


population est normale, la distribution d'échantillonnage est approximativement
normale (théorème central limite). On pourra ainsi affirmer, par exemple, que
95.4% des échantillons sont tels que la moyenne x de l’échantillon se situe à
moins de 2 écarts types ( σ x ) de la moyenne de la population d’origine7. Formulé
mathématiquement :

p (m – 2 σ x ≤ x ≤ m + 2 σ x ) = 0.954

Mais si 95% des moyennes de l’échantillon x sont à moins de 2 σ x de la moyenne


m de la population, c’est que la moyenne de la population m se situera à moins de
2 σ x de la moyenne de 95% des échantillons. Formulé mathématiquement :

p ( x – 2 σ x ≤ m ≤ x + 2 σ x ) = 0.954

Nous venons de passer de l’échantillonnage à l’estimation : au lieu d’estimer x en


fonction de m, nous estimons m en fonction de x . Dans cet intervalle, x
correspond à l’estimation ponctuelle de la moyenne de la population m, et le
terme 2 σ x à la marge d’erreur (ME) de cette estimation. Ainsi, si on prélève un
certain nombre d’échantillons et qu’on établit des intervalles de confiance pour
chacun d’eux, alors environ 95% des intervalles (19 sur 20) devraient contenir la
moyenne m de la population.

7
Autrement dit 95.4% des valeurs possibles de x se situent à moins de 2 σ x de chaque côté de la
moyenne de la distribution d'échantillonnage qui est la moyenne de la population.

15
En généralisant, si la distribution d’échantillonnage est normale, on peut
construire un intervalle d’estimation de m de la façon suivante :

p ( x - t σ x ≤ m ≤ x + t σ x ) = niveau de confiance

x - t σ x = limite inférieure de l’intervalle d’estimation


x + t σ x = limite supérieure de l’intervalle d’estimation
t σx = marge d’erreur

Si t est la variable aléatoire normale centrée réduite dont la valeur dépend du


niveau de confiance, on accède au tableau suivant :

Niveau de confiance Valeurs de t Forme de l’intervalle de


confiance
68.3% 1 x - 1 σx ≤ m ≤ x + 1σx
90% 1.64 x - 1.64 σ x ≤ m ≤ x + 1.64 σ x
95% 1.96 x - 1.96 σ x ≤ m ≤ x + 1.96 σ x
95.4% 2 x - 2 σx ≤ m ≤ x + 2 σx
99% 2.58 x - 2.58 σ x ≤ m ≤ x + 2.58 σ x
99.7% 3 x - 3 σx ≤ m ≤ x + 3 σx

Par exemple :

p ( x - 1.64 σ x ≤ m ≤ x + 1.64 σ x ) = 0.90

La valeur de t = 1.64 dépend du niveau de confiance, ici 0.90. Et 1.64 σ x est la


marge d’erreur garantissant un niveau de confiance de 90%.

Les trois niveaux de confiance généralement utilisés sont 90%, 95% et 99%.

Rappelons que pour la loi normale :

p (– t ≤ T ≤ t) = p (T < t) – [1 - p (T < t)]


= 2 p (T < t) – 1
= 2 ∏ (t) – 1

Posons 2∏(t) – 1 = 1 – α, α étant le risque d’erreur. Ainsi pour un risque d’erreur


de 5% on aura :

16
2∏(t) – 1 = 0.95 ⇒ p (T < t) = 0.975 ⇒ t = 1.96 (après lecture de la table).

c) Estimation de la moyenne de la population

Nous allons estimer la moyenne de la population en supposant σ connu, puis dans


un second temps, nous supposerons que σ est inconnu.

L’écart-type de la population σ est connu

Lorsque l’écart-type de la population est connu, nous pouvons calculer l’erreur


type de la moyenne directement. L’intervalle d’estimation sera alors :

x - t σx < m < x + tσx

σ
Pour une population infinie : σ x =
n

σ N -n
Pour une population finie : σ x = .
n n -1

Ex : La compagnie de papier Papyrus veut estimer le temps moyen requis par une
nouvelle machine pour produire une rame de papier. Pour un échantillon de 36
rames, le temps requis moyen fut de 1.5 mn par rame. En supposant que σ = 0.30
mn (c.-à-d. l’écart type véritable du temps de production), construire un
intervalle d’estimation ayant un niveau de confiance de 95%.

Nous possédons les informations suivantes : x = 1.5, σ = 0.30, n = 36 et le niveau


de confiance est de 95%. L’écart-type de la distribution d’échantillonnage (aussi
appelé erreur type) se calcule de la façon suivante :

σ 0.30
σx = = = 0.05
n 36

Pour un intervalle de confiance de 95%, la valeur de t est égale à 1.96. Donc


l’intervalle d’estimation de la vraie moyenne m se construit ainsi :

1.5 – 1.96 (0.05) < m < 1.5 + 1.96 (0.05)


soit
p (1.402 mn < m < 1.598 mn) = 0.95

17
L’écart-type de la population σ est inconnu

Lorsque l’écart-type de la population est inconnu, il nous faut estimer l’erreur


type de la moyenne. La moyenne échantillonnale étant un estimateur de la
moyenne de la population, on serait porté à croire que l’écart-type échantillonnal
est lui aussi un estimateur souhaitable de l’écart-type de la population. Rappelons
les formules permettant de calculer σe (écart-type de l’échantillon) et σ (écart-
type de la population).

 x - x   x - m
2 2
i i
σe = et σ =
n N

Malheureusement, l’écart-type échantillonnal n’est pas un estimateur sans


biais de l’écart-type de la population (la moyenne de tous les écarts types de
tous les échantillons possibles est en effet inférieure à l’écart-type de la
population). L’estimateur sans biais de l’écart-type de la population est donné
par la formule suivante :

n
s = σe
n -1

On peut alors estimer l’erreur type de la moyenne :

s σe
Pour une population infinie : σ̂ x = ou σ̂ x =
n n 1

s N -n σe N -n
Pour une population finie : σ̂ x = . ou σ̂ x = .
n n -1 n 1 n -1

La forme générale de l’intervalle d’estimation sera alors :

p ( x - t σ̂ x < m < x + t σ̂ x ) = niveau de confiance

Ex : La brasserie Bière qui coule amasse la mousse veut estimer le montant


moyen dépensé par client. La moyenne d’un échantillon de 100 clients est de
3.50€ avec un écart-type échantillonnal de 0.75€. Estimer la vraie moyenne des
dépenses avec un niveau de confiance de 90%.

Nous possédons les informations suivantes : x = 3.50, σe = 0.75, n = 100 et le


niveau de confiance est de 90%. On estime σ x de la façon suivante :

18
σe 0.75
σ̂ x = = = 0.08
n 1 100  1

La valeur t correspondant au niveau de confiance de 90% est de 1.64. L’intervalle


de confiance est donc :

x - t σ̂ x < m < x + t σ̂ x

p [3.50 – 1.64 (0.08) < m < 3.50 + 1.64 (0.08)] = 0.90



p(3.37€ < m < 3.63€) = 0.90

Il y a 90% de chances pour que les clients dépensent en moyenne entre 3.37€ et
3.63€.

d) Estimation du pourcentage de la population

La moyenne de la distribution d’échantillonnage des pourcentages est égale au


pourcentage de la population. Le pourcentage échantillonnal f est donc un
estimateur sans biais du pourcentage de la population p. Rappelons que si la
taille de l’échantillon est grande ou si la distribution de la population est normale,
la distribution d'échantillonnage est approximativement normale et il sera alors
possible d’associer une probabilité aux intervalles d’estimation de p basés sur les
pourcentages échantillonnaux.

L’intervalle de confiance sera ici :

f - t σ̂F < p < f + t σ̂F

19
Le symbole σ̂F est un estimateur sans biais de l’écart type de la distribution
d’échantillonnage (ou erreur type du pourcentage). On estime l’erreur type du
pourcentage à l’aide des deux formules suivantes :

f(1 - f) N - n
σ̂F = . pour une population finie
n -1 n -1
ou
f(1 - f)
σ̂F = pour une population infinie
n -1

La différence par rapport aux moyennes est que lorsqu’on construit un intervalle
de confiance pour un pourcentage de population, il faut toujours estimer l’erreur
type du pourcentage. Pourquoi ? Parce qu’il est impossible de calculer la véritable
erreur type lorsqu’on construit un intervalle de confiance d’estimation pour p. Ce
fait paraît évident lorsqu’on examine la formule de l’erreur type :

pq
σF =
n

Pour évaluer σ F , il faut connaître p. Or ce dernier est exactement ce que nous


cherchons à estimer. Pour sortir de cette impasse, on utilise les formules du
haut.

Ex : On a effectué un sondage auprès de 1 126 couples hétérosexuels vivant au


Québec. Dans 432 de ces couples, l’homme avait la responsabilité des courses
d’épicerie. Dans cet échantillon, la proportion des couples où l’homme avait la
responsabilité de l’épicerie était de 0.384 (soit 432/1126). Par conséquent,
l’estimation par intervalle de confiance à un niveau de confiance de 95% (α = 0.05
ou 5%) de la proportion de ces couples dans la population est donnée par
l’expression :

0.384 (1 - 0.384) 0.384 (1 - 0.384)


[0.384 – 1.96 ; 0.384 + 1.96 ]
1 125 1 125

[0.384 – 1.96 × 0.0145 ; 0.384 + 1.96 × 0.0145]

[0.384 – 0.028 ; 0.384 + 0.028]

p  [0.356 ; 0.412]

20
L’estimation ponctuelle de p est donc 38.4% et la marge d’erreur est de 2.8
points de pourcentage. Ainsi on peut affirmer, avec un niveau de confiance (ou
degré de certitude) de 95%, que la véritable proportion des hommes qui ont la
responsabilité de l’épicerie dans les couples hétérosexuels au Québec se situe
entre 35.6% et 41.2%, ou encore qu’elle appartient à l’intervalle [0.356 ; 0.412].

e) Détermination de la taille de l’échantillon

Nous savons qu’il existe deux méthodes pour augmenter la confiance en nos
estimations. La première méthode revient à élargir l’intervalle de confiance. Plus
la marge d’erreur est importante, plus on est sûr que la vraie valeur m (ou p) sera
dans l’intervalle. Mais on peut aussi augmenter la taille n de l’échantillon puisque
plus n est grand plus la marge d’erreur est faible. Comment calculer la taille de
l’échantillon requise pour obtenir un certain degré de précision (donc une
certaine marge d’erreur souhaitée) ?

Pour des moyennes

Rappelons que l’estimation par intervalle de confiance consiste à ajouter et à


retrancher une marge d’erreur (ME) à l’estimation ponctuelle, de façon à former
l’intervalle [ x - ME ; x + ME]. L’intervalle d’estimation étant :

x - t σx < m < x + t σx

La marge d’erreur ME sera : ME = t σ x .

En supposant notre population très grande (ou infinie), la formule est :

σ
σx =
n

En isolant n de l’équation précédente, nous obtenons la taille de l’échantillon :

σ2
n =
σx2

Ex : Un sondage sur 518 individus nous apprend que le salaire annuel moyen des
membres du barreau des avocats qui ont été sondés est de 83 000€ avec un
écart type de 36 500€. Quelle taille d’échantillon aurait-il fallu utiliser pour

21
obtenir une estimation du salaire annuel moyen de l’ensemble des membres du
barreau d’avocats qui soit précise à 2 500€, 19 fois sur 20 ?

Voilà ce que nous voulons :

p ( x – 2 500 ≤ m ≤ x + 2 500) = 0.95

Nous voulons en quelque sorte une estimation très précise avec un niveau de
confiance très élevé. Pour atteindre un tel résultat, quelle taille l’échantillon
doit-il avoir ?

σ2
On sait que : n=
σ x2

Trouvons d’abord σ x . Nous voulons ME = 2 500 avec un niveau de confiance de


95% (t = 1.96). Autrement dit :

2 500
ME = t σ x  2 500 = 1.96 σ x d’où σ x = = 1 275
1.96

Nous savons que σ x doit être égal à 1 275, mais quelle est la valeur de σ ? Á
cette étape, nous devons faire une hypothèse concernant la valeur de l’écart
type de la population pour être en mesure d'évaluer la taille requise pour
l'échantillon. Nous allons ici nous contenter de l’écart type de l’échantillon soit σ e
= 36 500. Finalement :

36 5002
n= = 820
1 2752

Il aurait fallu interroger 820 membres.

Pour des proportions

La méthode pour déterminer la taille d’échantillon pour l’estimation de p est


semblable à la méthode pour déterminer la taille d’échantillon pour l’estimation
de m. La forme générale de l’intervalle de confiance pour p est la suivante :

f - t σF < p < f + t σF

S’il est dit que p doit être estimé avec une certaine marge d’erreur donnée, les
limites de confiance requises devront nécessairement être :

22
f ± t σ F = f ± marge d’erreur désirée

Autrement dit :

σ F = marge d’erreur / t

Et puisque la formule pour σ F est :

pq
σF =
n
Alors :
pq
n=
σF2

Avec σ F = marge d’erreur / t.

Notons que pour trouver n, cette formule exige la connaissance de p, ce


qu'on cherche justement à estimer ! Il sera donc dans un premier temps
nécessaire d’évaluer approximativement p. Cela ne pose pas de problème si l’on a
déjà une vague idée du véritable pourcentage de la population. Dans le cas
contraire, on pose p = 50% de sorte que le produit p(1-p) sera maximal et la taille
requise de l’échantillon surévaluée.

Ex : Supposons que nous voulions estimer le pourcentage des étudiants d’une


université qui sont prêts à donner un litre de leur sang. La Croix-Rouge planifie
sa tournée des prochains mois pour recueillir du sang et elle aimerait que vous lui
présentiez une estimation à ± 5% du véritable pourcentage. Par ailleurs, elle
désire un niveau de confiance de 95%. Quelle devrait être la taille d’échantillon ?
Vous n’avez aucune idée du véritable pourcentage.

Á partir des données disponibles, vous pouvez affirmer que t σ F doit être égal à
5% puisque les limites de confiance sont f ± t σ F . Pour un niveau de confiance de
95%, on a t = 1.96, soit :

t σ F = 5% ⇒ 1.96 σ F = 5% ⇒ σ F = 5% / 1.96 = 2.55%

Puisqu’on n’a aucune idée du véritable pourcentage, on doit supposer p = 50% et


prélever un échantillon de taille maximale. Ainsi, la taille de l’échantillon requise
pour estimer p est obtenue de la façon suivante :

23
pq 50(50)
n= = = 385
σF2 2.552

24
III. Distributions d’échantillonnage avec deux populations

a) Distributions d’échantillonnage de la différence des moyennes

L’objectif dans cette partie est de comparer les moyennes de deux populations
pour répondre aux questions suivantes : est-ce qu’un pesticide particulier
augmente le rendement agricole ? Est-ce que les hommes et les femmes faisant
le même travail ont des salaires différents ?...

Les méthodes présentées ici se restreignent aux situations où les échantillons


sont indépendants i.e. qu’une modification dans l’un d’eux n’a pas d’influence
sur les autres. Par exemple, un échantillon de filles et un échantillon de garçons
sélectionnés pour déterminer le poids moyen des filles et celui des garçons sont
indépendants. Par contre, les personnes qui affirment voter pour un parti A ou
pour un parti B dans un sondage politique ne forment pas deux échantillons
indépendants car si une personne de plus déclare voter pour A, il y a un électeur
potentiel en moins pour B (les résultats de A et B s’influencent).

Considérons deux populations X et Y. La première population X a une moyenne mX


et un écart type σ x . Il en résulte que la distribution d'échantillonnage des
moyennes X aura pour moyenne mX et pour écart type σX = σ x / nX . La deuxième
population Y a une moyenne mY et un écart type σ Y . Il en résulte que la
distribution d'échantillonnage des moyennes Y aura pour moyenne mY et pour
écart type σ Y = σ Y / nY .

En choisissant une moyenne échantillonnale de la distribution X et une autre de


la distribution Y , on pourrait calculer la différence d = x1 - y1 . On pourrait
répéter cette opération pour toutes les combinaisons possibles d'échantillons et
faire la distribution de tous les d ainsi obtenus. C'est cette distribution qui

25
s'appelle la distribution d'échantillonnage de la différence entre deux
moyennes.

La figure du haut montre simplement qu’en construisant une distribution des


fréquences de toutes les différences échantillonnales, on obtient la distribution
X - Y à droite.

On démontre que la moyenne de cette distribution est :

md = mX – mY

De même qu’il suffit d’additionner les variances de X et de Y pour trouver la


variance de la distribution des différences de moyennes échantillonnales. D’où
l’écart type :
σ x2 σ Y2
σ X  Y  σ x2  σ Y2  
nx nY

D’après le théorème central limite, lorsque la taille nx et nY des deux échantillons


est supérieure à 30, ou encore si les deux populations sont normales, alors la
distribution d’échantillonnage de la différence des moyennes est
approximativement normale. Ainsi 68.26% des différences dans la distribution
d’échantillonnage se situeront à moins de 1 écart type de la moyenne md et 95.4%
des différences se situeront à moins de 2 écarts types (donc 2 σ X  Y ) d’un côté ou
de l’autre de la moyenne md.

Ex : Le QI moyen de 1 200 étudiants du lycée A est 122 avec un écart type de 6


alors que 2 000 élèves du lycée B ont un QI moyen de 118 avec un écart type de
5. Quelle est la probabilité que le QI moyen d’un échantillon aléatoire de 36
étudiants de A sera au moins 6 points plus haut que le QI moyen d’un échantillon
aléatoire de 49 étudiants du lycée B ?

62
mX = 122, σ x = 6, nx = 36, σ 2 = =1
x
36

52 25
mY = 118, σ Y = 5, nY = 49, σ 2 = =
Y
49 49

md = mX – mY = 122 – 118 = 4

25
σX  Y  1  = 1.23
49
26
D’après le théorème central limite, la distribution de la différence des moyennes
échantillonnales suit une loi normale de moyenne 4 et d’écart type 1.23 :

X - Y ~ N (4 ;1.23)

Nous cherchons P ( X - Y > 6). Faisons un changement de variable :

T=
X  Y  m X  mY 
=
X  Y  m d
=
64
= 1.63
σX  Y σX  Y 1.23

P ( X - Y > 6) = P (T > 1.63) = 1 – P (T < 1.63) = 0.052

b) Distributions de la différence des proportions échantillonnales

L’objectif dans cette partie est de comparer les fréquences de deux populations
pour répondre à des questions du type : est-ce que prendre de l’aspirine
régulièrement réduit le risque d’infarctus ?

Soit FX la distribution d'échantillonnage des proportions d'une première


population et FY la distribution d'échantillonnage des proportions d'une seconde
population.

En choisissant une proportion échantillonnale de la distribution FX et une autre


de la distribution FY, on pourrait calculer la différence d = fX - fY . On pourrait
répéter cette opération pour toutes les combinaisons possibles d'échantillons et
faire la distribution de tous les d ainsi obtenus. C'est cette distribution qui
s'appelle la distribution d'échantillonnage de la différence entre deux
proportions.

On démontre que la moyenne de cette distribution est :

pX – pY

De même que l’écart type est :

fX 1  fX  fY 1  fY 
σFX FY  
nX nY

27
D’après le théorème central limite, lorsque la taille des deux échantillons est
supérieure à 30, ou encore si les deux populations sont normales, alors la
distribution d’échantillonnage de la différence des proportions est
approximativement normale.

28
IV. Applications

● Les échantillons suivants sont-ils représentatifs de la population visée ?


a) Pour connaître les opinions politiques de la population d’une ville, on envoie 5
enquêteurs interroger les gens à la sortie de 5 grands magasins. Ils doivent
questionner les clients jusqu’à ce qu’ils réunissent, chacun, un échantillon de 200
réponses.
b) On désire faire une enquête sur les goûts musicaux de la population française.
Pour cela, on choisit au hasard 1000 numéros de téléphone dans l’ensemble des
annuaires et on les appelle pendant les heures de bureau. On obtient 583
réponses.

a) Non, car les clients des supermarchés ne sont pas typiques de l'ensemble de la
population. En général, dans un ménage, c'est toujours la même personne qui fait
les courses ; l'échantillon contiendra probablement trop de femmes, d'inactifs,….

b) Non car cet échantillon élimine pratiquement tous les individus actifs. Une
amélioration de cet échantillon consisterait à téléphoner en soirée et à répéter
l'appel pendant plusieurs jours si on n'obtient pas de réponse, de telle manière
que l'échantillon obtenu se rapproche le plus possible de l'échantillon
sélectionné.

Ces exemples illustrent la difficulté de réunir un échantillon représentatif,


surtout lorsqu’il s’agit d’êtres humains (certains sont plus faciles à joindre,
d’autres refusent de répondre,…).

● Quels sont les objectifs de l’échantillonnage ? De l’estimation ?

L'objectif de l’échantillonnage est de répondre à la problématique suivante :


comment, à partir d'informations (couple moyenne-écart-type ou proportion)
connues sur une population, peut-on prévoir celles d'un échantillon ?

L'objectif de l’estimation est de répondre à la problématique suivante :


comment, à partir d'informations (couple moyenne/écart-type ou proportion)
calculées sur un échantillon, retrouver ou plutôt estimer celles d'une population
entière ? L'estimation est le problème réciproque de l'échantillonnage, mais nous

29
avons besoin des résultats établis sur la théorie de l'échantillonnage pour passer
à la phase estimative.

● a) Quelle relation entre la moyenne de la distribution d’échantillonnage des


moyennes et la moyenne de la population ?
b) Dans quelles circonstances peut-on omettre le facteur d’exhaustivité dans le
calcul de σ x ?
c) Á quelles conditions peut-on affirmer que la distribution d’échantillonnage est
approximativement distribuée normalement ?

a) Elles sont toujours égales.

b) Lorsque la population est infinie ou lorsque la taille de la population est très


grande (comparativement à la taille de l’échantillon).

c) La distribution d’échantillonnage est approximativement normale lorsque la


taille de l’échantillon est suffisamment grande.

● Une population est constituée de 5 étudiants inscrits à un cours de statistique


et le professeur veut estimer le temps moyen hebdomadaire consacré à l’étude
des statistiques par ces étudiants. Le tableau suivant indique le temps consacré à
l’étude des statistiques par semaine pour chaque étudiant, le professeur n’ayant
pas accès à ces informations.

Population d’étudiants et leurs temps d’étude hebdomadaire


Étudiants Temps d’étude (heures)
A 7
B 3
C 6
D 10
E 4
∑X = 30

a) Quelle est la moyenne de la population ?

30
b) Quelle est la moyenne d’échantillonnage des moyennes sachant que le
professeur choisit des échantillons de taille 3 ? Qu’en conclure ?
c) Quel est l’écart-type de la distribution d’échantillonnage des moyennes ? Á
quoi sert-il ?

a) Moyenne de la population

m=  X = 30 = 6
N 5

b) Moyenne de la distribution d’échantillonnage des moyennes

Si le professeur choisit un échantillon de taille 3, quelles sont les différentes


valeurs possibles de la moyenne échantillonnale ?

La réponse se trouve dans le tableau suivant :

Distribution d’échantillonnage des moyennes


Echantillons Données Moyennes ( xi  μx ) ( xi  μx )2
xi
A,B,C 7,3,6 5.33 -0.67 0.45
A,B,D 7,3,10 6.67 0.67 0.45
A,B,E 7,3,4 4.67 -1.33 1.77
A,C,D 7,6,10 7.67 1.67 2.79
A,C,E 7,6,4 5.67 -0.33 0.11
A,D,E 7,10,4 7 1 1
B,C,D 3,6,10 6.33 0.33 0.11
B,C,E 3,6,4 4.33 -1.67 2.79
B,D,E 3,10,4 5.67 -0.33 0.11
C,D,E 6,10,4 6.67 0.67 0.45
60 10

La moyenne de la distribution d’échantillonnage des moyennes est :

60
E ( X n ) = μx = =6
10

Le numérateur est la somme des moyennes de tous les échantillons possibles ( x1 ,


x2 ,…, x10 ) et le dénominateur est le nombre d’échantillons possibles. Ce dernier
se détermine de la façon suivante :

31
5!
C53  = 10
3!(5  3)!

On constate que μx = m, autrement dit que la moyenne de la distribution


d’échantillonnage (des moyennes) est identique à la moyenne de la population.

c) Écart-type de la distribution d’échantillonnage des moyennes

 x - μ 
2
i 10
σx = x
= =1
Nombre d'écarts 10

Autre façon de calculer σ x sachant la population est finie et le tirage sans


remise :

σ N n
σx = .
n N -1

Calculons au préalable l’écart-type de la population :

σ=  x - m
i
2

=
(7 - 6)2  (3 - 6)2  (6 - 6)2  (10 - 6)2  (4 - 6)2
= 2.45
N 5

Finalement :

2.45 5  3
σx = . = 1.4145 × 0.7071 = 1
3 5 -1

L’écart-type de la distribution d’échantillonnage des moyennes σ x (ou erreur


type de la moyenne) est une mesure de dispersion qui sert à déterminer à quel
point la moyenne d’un échantillon peut différer de la moyenne de la
population. Si σ x est faible (parce que la taille n de l’échantillon est grande8
et/ou parce que la population est peu dispersée), alors il est probable que la
différence entre la moyenne de l’échantillon trouvée et celle de la population

8
La présence de la racine carrée au dénominateur implique que pour une précision 2 fois
meilleure il faut un échantillon 4 fois plus grand, pour une précision 10 fois meilleure il faut un
échantillon 100 fois plus grand. La précision coûte chère !

32
sera faible, autrement dit que la moyenne trouvée dans l’échantillon sera proche
de la vraie valeur de la moyenne de la population.

● Que dit le théorème central limite ?

Le théorème central limite dit que lorsque la taille de l’échantillon est assez
grande, la distribution d’échantillonnage s’approche d’une distribution normale de
probabilités. Ce théorème a pour conséquence de rendre possible certains
énoncés probabilistes concernant la valeur possible de la statistique
échantillonnale (moyenne de l’échantillon par exemple) si le pourcentage de la
population est connu. Par exemple, nous pouvons affirmer qu’il y a 95.4% de
chances pour que le pourcentage échantillonnale (f) se situe à moins de 2 σ F d’un
côté ou de l’autre de p.

● Quels seraient la moyenne et l’écart type de la série statistique composée des


moyennes des échantillons de taille 100 prélevés aléatoirement avec remise dans
une population de moyenne 80 et d’écart type 20 ?

On a :

σ 20
E ( Xn ) = μx = m = 80 et σ x = = =2
n 100

● Supposons qu’en 2020 la masse moyenne de tous les nouveau-nés en France ait
été de m = 3 350 g avec un écart type de σ = 600 g. On prélève des échantillons
de 100 nouveau-nés (n > 30). a) Á quelle loi de probabilité obéit la variable
aléatoire X100 ? b) Calculer la probabilité pour que le poids moyen dans
l’échantillon soit inférieur à 1.96 écart-type de la moyenne de la population.

a) La loi de probabilité de X100 :

600
X100 ~ N (3 350 ; )
100

b) On peut affirmer que 95% de l’ensemble de tous les échantillons aléatoires de


100 nouveau-nés présentent une masse moyenne ( x ) telle que :

33
p (m – 1.96 σ x ≤ x ≤ m + 1.96 σ x ) = 0.95

σ σ
p (m – 1.96 ≤ x ≤ m + 1.96 ) = 0.95
n n

600 600
p [3 350 – 1.96 ≤ x ≤ 3 350 + 1.96 ] = 0.95
100 100

p [3 350 – 1.96 × 60 ≤ x ≤ 3 350 + 1.96 × 60] = 0.95

p [3 232.4 ≤ x ≤ 3 467.6] = 0.95

Le fait que X100 suit une loi normale signifie que si un statisticien un peu fou
décide de prélever 1000 échantillons de même taille d’une population, environ
950 des moyennes échantillonnales obtenues se situeront à moins de deux écarts
type de chaque côté de la moyenne de la population. Dans le cas présent, 950
échantillons de 100 bébés sur les 1000 auront un poids moyen situé entre
3 232.4 grammes et 3 467.6 grammes. Autrement dit, seuls 50 échantillons (5%
des échantillons) auront des bébés avec un poids moyen inférieur à 3 232.4 g ou
supérieur à 3 467.6 g.

● Une machine produit des pièces dont le diamètre "X" suit une loi normale de
moyenne 50 mm et d'écart type 3 mm. La moyenne et l’écart type sont ici les
paramètres de la population des pièces. Afin de contrôler la production, on tire
un échantillon de 25 pièces, à intervalles réguliers. a) Á quelle loi de probabilité
obéit la variable aléatoire X25 ? b) Calculer la probabilité pour que le diamètre
moyen dans l’échantillon soit supérieur à 51 mm.

a) Quelle que soit la taille de l’échantillon, si la variable aléatoire X suit une loi
normale, la variable aléatoire Xn suit aussi une loi normale.

b) P ( X25 > 51) ?

34
● Une machine prélève des rondelles de diamètre moyen m = 20 mm et d’écart
type σ = 2 mm. On observe que 8% des rondelles sont défectueuses. On prélève
un échantillon de 100 pièces. Déterminer la probabilité que la proportion des
pièces défectueuse dépasse 10%.

Soit F la variable aléatoire qui associe la proportion de rondelles défectueuses


dans l’échantillon. Puisque n > 30, F suit une loi normale de paramètres p = 0.08 et
σ F = 0.02713. En effet :

0.08 0.92
σF = = 0.02713
100

Nous cherchons P (F > 0.1). On passe à la variable aléatoire T de moyenne 0 et


d’écart type 1 :

F  0.08
T=
0.02713

Ainsi :

0.1  0.08
P (F > 0.1) = P (T > ) = P (T > 0.73) = 1 – P (T ≤ 0.73)
0.02713
= 1 - ∏ (0.73)
= 1 – 0.767
= 0.2327

● a) Quelle différence y a-t-il entre une estimation ponctuelle et un intervalle


d’estimation ?
b) Puisque l’intervalle d’estimation tient compte de l’erreur d’échantillonnage, la
valeur du paramètre se situera toujours dans l’intervalle trouvé. Commenter cet
énoncé.
35
c) Pourquoi est-il souhaitable d’avoir un estimateur sans biais ?
d) Que signifie un niveau de confiance de 95% ?

a) Un intervalle d’estimation est en réalité une estimation ponctuelle comportant


une marge d’erreur afin de tenir compte de l’erreur d’échantillonnage. C’est ainsi
que l’intervalle d’estimation estime le paramètre à l’intérieur d’une étendue de
valeurs tandis que l’estimation ponctuelle est une valeur unique.

b) Cet énoncé est évidemment faux. L’intervalle d’estimation tient compte de


l’erreur d’échantillonnage, mais cette estimation, comme tout autre type
d’estimation, peut être inexacte.

c) La moyenne de la distribution d’échantillonnage d’un estimateur sans biais est


égale au paramètre de la population à estimer. Cette égalité signifie que les
valeurs possibles de la moyenne échantillonnale gravitent autour de la valeur du
paramètre.

d) Le niveau de confiance de 95% signifie que 95% des intervalles d’estimation


contiendront le paramètre à estimer. Si nous tirons une série d’échantillons
aléatoires de la population, dans 19 cas sur 20 (en moyenne), m se trouvera dans
l’intervalle de confiance x ± 1.96 σ x .

● Un candidat A a obtenu 55% des suffrages exprimés à une élection. Soit F la


variable aléatoire qui à tout échantillon de taille n prélevé au hasard et avec
remise dans l'ensemble des suffrages exprimés associe le pourcentage de voix
obtenu par le candidat A dans cet échantillon. a) Calculer la probabilité d'avoir
dans un échantillon aléatoire non exhaustif de taille 100 prélevé parmi les
suffrages exprimés, moins de 50% de voix pour le candidat A. b) Reprendre la
question précédente avec un échantillon de taille 2000.

a) Échantillon de taille 100

On sait d'après le théorème de la limite centrée que F suit la loi normale de


pq
paramètres p et σ F = avec p = 0.55.
n

Dans ce cas, F suit donc la loi N (0.55 ; 0.05).

36
On doit calculer la probabilité que F soit strictement inférieure à 0.5 c'est-à-
dire p( F < 0.5 ).

On passe donc à la variable aléatoire T = (F – 0.55) / 0.05 qui suit la loi N (0 ; 1).

On obtient donc : p(F < 0.5) = p(T < -1) = 1 - p(T< 1) = 1 – 0.8413 = 0.1587.

b) Échantillon de taille 2000

La variable aléatoire F suit cette fois la loi normale N (0.55 ; 0.011), et la


variable T = (F – 0.55) / 0.011 suit la loi N (0 ; 1). On obtient cette fois :

P(F < 0.5) = P(T < -4.54) = 1 – 0.999 997 = 0.000 003

● La superficie moyenne des exploitations agricoles d’un échantillon de 40


exploitations de Lozère est de 25.3 hectares. On pose que l’écart-type de la
taille de l’ensemble des exploitations du département relevé lors d’une étude
récente est de 9 hectares. a) On veut déterminer un intervalle de confiance qui
contient la superficie moyenne avec une probabilité de 95% (risque d’erreur de
5%). b) Même chose mais on ne connait pas l’écart-type de la population,
seulement l’écart type échantillonnal qui est de 8 hectares.

On a :
9 9
I = [25.3 – 1.96 ; 25.3 + 1.96 ] = [22.51 ; 28.09]
40 40

Il y a 95% de chances pour que la moyenne m inconnue de la population mère


(ensemble des exploitations agricoles de Lozère) soit comprise entre 22.51 et
28.09 hectares.

b) L’écart-type de la population inconnu

L’estimateur sans biais de l’écart-type de la population est donné par la formule


suivante9 :

9 n 40 s 8.10
Ou s = σe =8 = 8.10 puis σ̂ = = = 1.281.
n -1 39 x n 40

37
σe 8
σ̂ x = = = 1.281
n -1 39
Ainsi :

8 8
I = [25.3 – 1.96 ; 25.3 + 1.96 ] = [22.79 ; 27.81]
39 39

● Dans une grande entreprise, on a choisi au hasard 200 salariés dont on a


enregistré le nombre de jours d’absence au cours de l’année précédente. On a
obtenu : x = 3.16 et σe = 1.17. Déterminer l’intervalle de confiance à 95% pour la
moyenne de l’ensemble du personnel (on arrondira les bornes de l’intervalle à 10 - 2
près).

L’intervalle de confiance demandé se calcule de la façon suivante :

σ σ
P (x - t <m< x +t ) = 0.95
n n

σ
Avec σ x =
n

Toutefois σ étant inconnu, on doit l’estimer avec s :

n 200
s = σe = 1.17 = 1.173
n -1 200 - 1

s 1.173
σ̂ x = = = 0.083
n 200

L’intervalle de confiance sera finalement :

p ( x - 1.96 σ̂ x < m < x + 1.96 σ̂ x ) = 0.95



p [3.16 - 1.96 (0.083) < m < 3.16 + 1.96 (0.083)] = 0.95

p [3 < m < 3.32] = 0.95

● Peu avant les élections présidentielles, 1 200 personnes ont été interrogées
par un institut de sondage. Pour simplifier les calculs, on suppose que cet

38
échantillon résulte d’un échantillonnage aléatoire. Sur les 1 200 personnes, 636
ont répondu vouloir voter pour le candidat A, et 564 pour le candidat B. a)
Donner une estimation ponctuelle des intentions de vote. b) Donner un intervalle
de confiance à 95% pour les intentions de votes du candidat A. Qu’en conclure ?

a) Estimations ponctuelles

636 564
Pour A, f = = 0.53 et pour B, f = = 0.47.
1 200 1 200

b) Estimations par intervalles de confiance

L’intervalle de confiance sera ici : f - t σ̂F < p < f + t σ̂F .

Le symbole σ̂F est un estimateur sans biais de l’écart type de la distribution


d’échantillonnage (ou erreur type du pourcentage). Pour une population infinie ou
très grande :

f(1 - f) 0.53(1 - 0.53)


σ̂F =  σ̂F = = 0.0144
n -1 1 200 - 1

Intervalle de confiance à 95% pour A :

0.53 – 1.96 (0.0144) < p < 0.53 + 1.96 (0.0144)



0.53 – 0.0282 < p < 0.53 + 0.0282

0.5018 < p < 0.5582

Il y a donc 95% de chances pour que le candidat A obtienne entre 50.18% et


55.82% des votes. Au seuil de 95 %, avec la fourchette donnée par l'intervalle
de confiance, le candidat A peut croire en sa victoire.

● Dans un grand centre de distribution, un questionnaire proposé à un échantillon


aléatoire de 130 clients indique que 74% d’entre eux sont satisfaits de la mise en
place d’un service de caisses automatiques.
a) Déterminer l’intervalle de confiance à 95% et à 99% pour l’ensemble de la
clientèle. Vous arrondirez les bornes de l’intervalle à 10-2 près.

39
b) Que peut-on observer ?

a) Au seuil de 95%, l’intervalle de confiance demandé se calcule de la façon


suivante :

f(1 - f) f(1 - f)
P (f – 1.96 < p < f + 1.96 ) = 0.95
n -1 n -1

0.74 (1 - 0.74) 0.74 (1 - 0.74)
P (0.74 – 1.96 < p < 0.74 + 1.96 ) = 0.95
130 - 1 130 - 1

L’intervalle de confiance à 95% pour p est donc :

0.66 < p < 0.82

Pour un risque d’erreur de 1%, on a :

f(1 - f) f(1 - f)
P (f – 2.57 < p < f + 2.57 ) = 0.99
n -1 n -1

0.74 (1 - 0.74) 0.74 (1 - 0.74)
P (0.74 – 2.57 < p < 0.74 + 2.57 ) = 0.99
130 - 1 130 - 1

L’intervalle de confiance à 99% pour p est donc :

0.64 < p < 0.84

b) Une réduction du risque d’erreur de 4% ne conduit à élargir l’intervalle de


confiance que de 2% à gauche et à droite. Compte tenu de la taille de
l’échantillon, l’écart type d’échantillonnage est faible, l’intervalle de confiance
n’est pas très différent du précédent.

● Le responsable d’une entreprise de VPC sait que 15% de clients répondent


favorablement à une offre promotionnelle. Il constitue un échantillon de 200
clients et souhaite étudier sa représentativité. Or 17% des membres de
l’échantillon ont répondu favorablement à l’offre promotionnelle. Déterminez
l’intervalle de confiance à 95% pour l’ensemble de la clientèle et concluez.

40
On détermine la loi suivie par F, fréquence des réponses favorables dans un
échantillon de 200 individus :

 pq   0.15  0.85 
F ↝ N  p ;  ⇒ F ↝ N  0.15 ;  ⇒ F ↝ N 0.15 ; 0.025 
 n  
 200 

On détermine ensuite l’intervalle dans lequel doit se situer, au risque de 5%, la


fréquence des réponses favorables de l’échantillon pour que l’on puisse
considérer celui-ci comme représentatif de l’ensemble de la clientèle. Au risque
de 5% :

p (0.15 – 1.96 × 0.025 < f < 0.15 + 1.96 × 0.025) = 0.95

L’intervalle de confiance à 95% pour p est donc :

0.10 < f < 0.20

L’échantillon considéré (17% des réponses favorables) est représentatif de la


clientèle par référence à la réactivité aux offres promotionnelles.

● Les patrons d’une compagnie de transports étudient une nouvelle politique de


réduction de prix du transport par autobus pour les citoyens âgés (65 ans et
plus) durant certaines périodes de l’année. Avant de prendre une décision finale,
ils aimeraient estimer quel pourcentage de leurs passagers est constitué de
citoyens âgés. Les patrons veulent être sûrs à 95% que l’estimation obtenue sera
au plus à 3% du véritable pourcentage. Quelle est la taille d’échantillon requise
pour faire cette estimation ?

Á partir des données disponibles, vous pouvez affirmer que t σ F doit être égal à
3% puisque les limites de confiance sont f ± t σ F . Pour un niveau de confiance de
95%, on a t = 1.96, soit :

t σ F = 3% ⇒ 1.96 σ F = 3% ⇒ σ F = 3% / 1.96 = 1.53%

Puisqu’on n’a aucune idée du véritable pourcentage, on doit supposer p = 50% et


prélever un échantillon de taille maximale. Ainsi, la taille de l’échantillon requise
pour estimer p est obtenue de la façon suivante :

41
pq 50(50)
n= = = 1068
σF2 1.532

● La société Meublant est spécialisée dans la fabrication de produits pour


l’ameublement. Elle propose un article capable de résister au feu pendant 15
minutes. Un organisme de certification se rend chez Meublant et extrait de sa
production un échantillon de 33 unités qu’il soumet à un test de qualité. Le temps
moyen avant de s’enflammer est de 14 minutes 27 secondes pour les articles de
cet échantillon avec un écart type de 6 minutes 12 secondes.

a) Déterminer les bornes de l’intervalle de confiance à 90%, puis à 95% et 99%


pour estimer le temps moyen de résistance au feu.
b) Déterminer la taille de l’échantillon permettant de fixer à ±1 minute
l’intervalle de confiance de 95%.

a) Soit X, la variable aléatoire « temps pour s’enflammer ». Soient les


caractéristiques suivantes de l’échantillon : n = 33, x = 14.45 mn, σe = 6.20 mn.

La variable aléatoire X suit une loi normale : X ⤳ N (m ; σ x ).

n 33
L’écart-type de la population est estimé par : s = σe = 6.2 = 6.296.
n -1 33 - 1

L’écart-type de la distribution de la moyenne des échantillons est :

s 6.296
σ̂ x = = = 1.096
n 33

Les bornes satisfont l’équation : p (14.45 - 1.096t ≤ m ≤ 14.45 + 1.096t) = 1 - α

Pour une probabilité de 90% (risque d’erreur α de 10%) : t = 1.645. L’écart par
rapport à la moyenne est de ± 1.645 × 1.096 = ±1.8 mn. Les bornes de l’intervalle
sont alors : [12.65 mn ; 16.25 mn].

Pour une probabilité de 95% (risque d’erreur de 5%) : t = 1.96. L’écart par
rapport à la moyenne est de ± 1.96 × 1.096 = ±2.15 mn. Les bornes de l’intervalle
sont alors : [12.30 mn ; 16.60 mn].

42
Pour une probabilité de 99% (risque d’erreur de 1%) : t = 2.576. L’écart par
rapport à la moyenne est de ± 2.576 × 1.096 = ±2.82 mn. Les bornes de l’intervalle
sont alors : [11.63 mn ; 17.27 mn].

b) Nous cherchons la taille de l’échantillon pour un intervalle de ±1 mn avec une


confiance à 95%. Pour un intervalle de confiance à 95%, t = 1.96 et l’intervalle
(ou marge d’erreur) w = 1 mn. Le nombre n recherché est :

s 6.296 n
Marge d’erreur = t σ x (= 1 mn) soit t = 1 ⇒ 1.96 × =1⇒ = 1.962,
n n 6.2962

d’où n = 1.962 × 6.2962 = 152.

● Un fournisseur d’accès à Internet procède à une enquête de satisfaction


auprès de 80 clients choisis au hasard. Les réponses montrent que 62% sont
satisfaits du service rendu.
a) Quelle est l’estimation ponctuelle de la proportion de clients satisfaits
dans la population ?
b) Quel est l’intervalle de confiance avec un risque d’erreur de 5% ? De 3% ?
De 1% ?

a) L’estimation ponctuelle des clients satisfaits dans la population est de 0.62 ou


62%.

b) Pour une taille de l’échantillon suffisamment grande (n ≥ 30), la théorie de


l’échantillonnage indique que la proportion F suit une loi normale :

L’écart type de la distribution des proportions des échantillons est :

f(1 - f) 0.62(1- 0.62)


σ̂F = = = 0.0543
n -1 80 - 1

Intervalle de confiance :

p (0.62 – t × 0.0543 ≤ p ≤ 0.62 + t × 0.0543) = 1 - α


43
Pour une probabilité de 95% (risque d’erreur de 5%) : t = 1.96. L’écart par
rapport à la proportion est de ± 1.96 × 0.0543. La proportion est alors comprise
entre : [51.4% ; 72.6%].

Pour une probabilité de 97% (risque d’erreur de 3%) : t = 2.17. L’écart par
rapport à la proportion est de ± 2.17 × 0.0543. La proportion est alors comprise
entre : [50.2% ; 73.8%].

Pour une probabilité de 99% (risque d’erreur de 1%) : t = 2.58. L’écart par
rapport à la proportion est de ± 2.58 × 0.0543. La proportion est alors comprise
entre : [48% ; 76%].

● Un quincailler vient de recevoir un lot de 10 000 articles et, avant d’acquitter


les frais de cette livraison, il aimerait vérifier si ces articles sont de qualité
acceptable et se conforment aux normes spécifiées. Il voudrait estimer le
diamètre de ces articles. De plus, il aimerait que l’estimation soit à moins de 0.01
cm de la vraie moyenne (celle des 10 000 articles) et ce, avec un niveau de
confiance de 95%. En se basant sur des livraisons antérieures, l’écart type du
diamètre des articles a été estimé à environ 0.05 cm. Comment peut-il
déterminer la taille de l’échantillon requise pour faire l’estimation dans les
conditions données ?

Premièrement, regardons ce que désire le quincailler. Á partir de la moyenne


échantillonnale x , il veut construire un intervalle de confiance dont les limites se
situent à pas plus de 0.01 cm au-dessus de l’estimation ponctuelle et à pas plus de
0.01 cm au-dessous de l’estimation ponctuelle. De plus, il veut que soit associé à
cet intervalle d’estimation un niveau de confiance de 95%. Par conséquent, les
limites de confiance désirées sont les suivantes :

x ± 0.01 cm

Puisque la forme générale des limites de confiances est :

x ± t σx

Avec E = t σ x = erreur maximale, le quincailler spécifie donc qu’il veut que t σ x soit
égal à 0.01. Nous pouvons donc déterminer la taille d’échantillon requise en
résolvant l’équation t σ x = 0.01. Comme le niveau de confiance désiré est de 95%,
la valeur t est de 1.96. Par conséquent :

44
σ x = 0.01 / 1.96 = 0.005

L’erreur type (marge d’erreur / t) doit donc être égale à 0.005. En supposant
notre population très grande, la formule est :

σ
σx =
n

Après quelques manipulations algébriques, nous obtenons la taille de


l’échantillon :

σ2
n =
σx2

Nous savons que σ x doit être égal à 0.005, mais quelle est la valeur de σ ? Á
cette étape, nous savons qu’en se basant sur des livraisons antérieures, l’écart
type du diamètre des articles a été estimé à environ 0.05 cm. Nous pouvons alors
calculer la taille de l’échantillon requise pour estimer le diamètre moyen du lot
d’articles avec le niveau de précision spécifié par le quincailler :

σ2 0.052
n= = = 100
σ x2 0.0052

● Une ampoule électrique de marque α a une durée de vie moyenne de 2 800


heures avec un écart type de 280 heures. Une ampoule de marque β a une durée
de vie moyenne de 2 000 heures avec un écart type de 420 heures. On prélève
49 ampoules de chaque marque. a) Quelle est la probabilité que la différence
moyenne soit supérieure à 1 000 heures ? b) Quelle est la probabilité pour que la
durée de vie moyenne de l’échantillon β soit supérieure à la durée de vie moyenne
de l’échantillon α ?

a) Probabilité d’une différence moyenne supérieure à 1 000 heures

La variable X représente la durée de vie moyenne des ampoules de l’échantillon


de marque α et la variable Y représente la durée de vie moyenne des ampoules
de l’échantillon de marque β. On s’intéresse à la différence D de durée de vie des
deux distributions d’échantillonnage.

On détermine la loi de D :
45
σX 280
E ( X ) ⤳ N (mX ; ) soit X ⤳ N (2 800 ; ) soit X ⤳ N (2 800 ; 40)
nX 49
σY 420
E ( Y ) ⤳ N (mY ; ) soit Y ⤳ N (2 000 ; ) soit Y ⤳ N (2 000 ; 60)
nY 49
E (D) = E ( X - Y ) = mX – mY = 800

σ X2 σ Y2
σ (D) =  = 72
nX nY

Soit D ⤳ N (800 ; 72)

On peut à présent utiliser la loi normale pour calculer la probabilité que la


différence soit supérieure à 1 000 heures :

1 000  800
P (D > 1 000) = P (T > ) = P (T > 2.77) = 1 – P (T < 2.77) ≈ 1%
72

b) Comparaison échantillon α et échantillon β

0  800
P (D < 0) = P (T < ) = P (T < -11.11) = 0
72

46
ANNEXE

Table donnant P (T<t) pour une variable aléatoire suivant N (0,1)

Plutôt que F, on note généralement  la fonction de répartition de la loi N(0,1).


Cette fonction est telle que  (t) = P(T < t). Par exemple :

 (0.82) = P (T < 0.82) = 0.7939.


47
48

Vous aimerez peut-être aussi