Académique Documents
Professionnel Documents
Culture Documents
D’un point de vue pratique, le problème de l’estimation est plus important que
celui de l’échantillonnage1, car devant la difficulté de recourir à des
recensements, le seul moyen dont dispose le statisticien pour connaître les
paramètres (mode, moyenne, écart-type…) d’une population réside dans
l’estimation de ceux-ci à partir d’échantillons significatifs extraits de la
population. Par exemple, une entreprise cherchera la durée de vie moyenne de
100 ampoules électriques et estimera la durée de vie moyenne de toutes les
ampoules qu’elle fabrique.
1
Un échantillon est un sous-ensemble de la population étudiée. Effectuer un échantillonnage
c’est choisir n individus dans une population.
1
I. Distribution d’échantillonnage et lois de probabilité
a) Méthodes d’échantillonnage
Nous partons d’une population mère (appelée base de sondage) de laquelle est
tiré l'échantillon. Cette population peut être finie ou infinie. Toutefois, une
population finie, dans laquelle s'effectue un tirage avec remise (échantillonnage
est non exhaustif), peut être considérée comme infinie. Ceci est important
puisque, pour chaque élément de la population, la probabilité de l’extraire est
indépendante des autres lorsque le tirage est effectué avec remise ou lorsque la
taille de la population est très grande, voire quasi-infinie, par rapport à
l’échantillon. Par exemple si 10 éléments sont extraits d’une production de 50
pièces, la probabilité de chacun d’eux diffère selon que le tirage est fait avec ou
sans remise. En revanche, si ces 10 éléments sont extraits d’une population qui
comporte plusieurs millions d’individus, le fait de remettre ou non l’unité ne
change à l’évidence pratiquement rien.
2
Bien sûr, plus la population est homogène, moins l’échantillon aura besoin, à précision constante,
d’être de taille importante.
2
L’échantillonnage aléatoire simple est la méthode d’échantillonnage la plus
couramment utilisée. Le sondeur utilise des nombres sélectionnés de façon
aléatoire par un ordinateur, compose des numéros au hasard ou utilise une
autre procédure de sélection aléatoire qui garantit que tous les membres de la
population de la base de sondage ont la même probabilité de faire partie de
l’échantillon. L’avantage de cette technique tient au fait qu’elle n’exige pas
d’autres données dans la base de sondage que la liste complète des membres de
la population observée et l’information pour les contacter.
Un tel tirage au hasard pourrait donner les tailles suivantes (en cm) :
187, 165, 180, 168, 165, 160, 174, 183, 168, 176
3
La moyenne de l’échantillon obtenu, ici 172.6 cm, sera certainement plus proche
de la valeur exacte que (erreur de 1.4 cm) que si le sondeur avait choisi un
échantillon non probabiliste. Si le sondeur avait choisi un échantillon contenant
autant de filles que de garçons (choix avec considération du sexe), il aurait
certainement obtenue une taille moyenne bien plus élevée que celle de la
population, les garçons étant, en général, plus grands que les filles. Le sondeur a
biaisé l’échantillon en faveur des garçons. Dans ce sondage, chaque garçon avait
plus de chances d’être choisi que chaque fille. Les 5 garçons tirés au hasard dans
une population de 35 individus, ont chacun 5 chances sur 35 d’être choisis ; alors
que les 5 filles sont choisies dans une population de 51 individus.
L’échantillonnage aléatoire est donc une méthode simple et la théorie qui la sous-
tend est bien établie. Il existe des formules types pour déterminer la taille de
l’échantillon, les estimations… et ces formules sont faciles à utiliser.
Insistons sur le fait que seuls les échantillons basés sur la probabilité
(échantillons stratifiés, aléatoires simples, systématiques…) nous intéressent. En
effet, si l’échantillon est probabiliste, on a la chance de pouvoir appliquer les
méthodes de statistiques inférentielles, ce qui serait théoriquement impossible
avec un sondage par choix raisonné (dans ce cas, on ne pourrait par exemple pas
utiliser les intervalles de confiance).
4
c) Distribution d’échantillonnage des moyennes
De cette population sont issus k échantillons E1, E2, …, Ek de taille n qui auront
des moyennes et des écarts types différents. Chaque échantillon constitué
forme une distribution statistique. Cette distribution statistique peut être
caractérisée par une moyenne, un écart type ou une proportion. Les différentes
moyennes obtenues des échantillons ( x1 , x2 ,…, xk ) forment une distribution
d’échantillonnage des moyennes (ou distribution des moyennes d’échantillons).
5
E (𝑿) = m
x
x1 x2 x3 x 4 ... xk
i
Autrement dit, lorsque nous calculons i 1
= , on trouve
k k
tout simplement la moyenne de la population m. On dira alors que la moyenne
échantillonnale est un estimateur sans biais de la moyenne de la population3.
𝝈𝟐 𝟐
V (𝑿) = σ (𝑿) = √𝝈 σ (𝑿) =
𝝈
𝒏 𝒏 √𝒏
Les formules précédentes sont applicables lorsque la population mère est finie et
l’échantillon non exhaustif (tirage avec remise) ou si la population est infinie que
l’échantillon soit exhaustif ou non exhaustif.
E (𝑿) = m
et
𝝈 𝑵−𝒏
σ (𝑿) = × √𝑵−𝟏
√ 𝒏
Dans le cas de l’écart type, la formule précédente est multipliée par ce qu’on
appelle le coefficient d’exhaustivité. Bien sûr, ce dernier tend vers 1 lorsque N
tend vers l’infini.
3
Un estimateur est sans biais si la moyenne de sa distribution d’échantillonnage est égale au
paramètre à estimer. On notera que les différents écarts types obtenus des échantillons
formeraient une distribution d’échantillonnage des écarts types. Toutefois, l’écart-type
échantillonnal n’est pas un estimateur sans biais de l’écart-type de la population. Autrement dit,
la moyenne des écarts types échantillonnaux ne donnera pas l’écart-type de la population.
6
11 12 13
21 22 23
31 32 33
k i 1
Soit :
σ= 2/3
7
racine de la taille de l’échantillon prélevé. Calculons d’abord σ x de façon
classique :
1 k
σ x 2 = moyenne des carrés – carré de la moyenne = xi2 m2
k i1
On démontre par ailleurs que l’écart type de la variable aléatoire F est égal à :
𝐩𝐪
σ (F) = √𝐧
𝐩𝐪 𝐍−𝐧
E (F) = p et σ (F) = √ 𝐧 . √𝐍−𝟏
11 12 13
21 22 23
31 32 33
Ces différentes proportions f1, f2,…, f9 issues des échantillons constituent une
distribution d’échantillonnage des fréquences F. Calculons la moyenne μF puis
l’écart-type σ F de cette distribution d’échantillonnage F.
9
μF = E (F) = (0 + 0.5 + 0 + 0.5 + 1 + 0.5 + 0 + 0.5 + 0) / 9 = 3 / 9 = 1/3
1/3 2/3
σ (F) = = 2/9 1/2 = 1/3
2
1 k
σ F 2 = moyenne des carrés – carré de la moyenne = fi2 p2
k i1
Véritable pilier des statistiques, le théorème central limite énonce les deux
propriétés suivantes : la loi de probabilité de X compte tenu de celle de X et la
loi de probabilité de X (ou F) compte tenu de la taille de l’échantillon.
Propriété 1
10
Propriété 2
Loi de probabilité de X
σ
Avec E ( X n ) = μx = m et σ x =
n
Á noter que pour une population finie (tirage sans remise), il suffit de multiplier
le second terme par le coefficient d’exhaustivité.
Loi de probabilité de F
Illustration
11
Répétons cette opération pour chaque échantillon possible afin de déterminer
comment se distribuent les moyennes des échantillons. On obtient ainsi une
nouvelle moyenne à chaque échantillon : x 1 , x 2 ,…, x 6 et ainsi de suite. Chaque
échantillon prélevé devient alors une unité statistique sur laquelle on mesure une
variable (la moyenne de l’échantillon) qu’on note X et qu’on appelle moyenne
échantillonnale. On peut traiter la série des moyennes x 1 , x 2 ,…, x 6 ,…, comme
toute série, c.-à-d. qu’on peut la représenter sous une forme graphique et qu’on
peut en calculer la moyenne et l’écart type.
- E ( X n ) = μx = m μx = 1.63 m ;
σ 6.6 cm
- σx = = = 0.93 cm = 0.0093 m
n 50
4
Cela serait toujours vrai même si les échantillons pris individuellement suivaient une autre loi de
probabilité.
12
Si X suit une loi normale, on pourra donc affirmer qu’il y a 68.3% de chances pour
que la moyenne de l’échantillon aléatoire choisi se situe à une distance maximale
σ
de 1 écart type ( σ x = ) de la moyenne de la population ( μx = m). Autrement dit :
n
p (m – σ x ≤ x ≤ m + σ x ) = 0.6826
σ σ
p (m – 1 × ≤ x ≤m+1× ) = 0.6826
n n
σ σ
p (1.63 – 1 × ≤ x ≤ 1.63 + 1 × ) = 0.6826
n n
p (1.63 – 1 × 0.0093 ≤ x ≤ 1.63 + 1 × 0.0093) = 0.6826
p (1.620 ≤ x ≤ 1.639) = 0.6826
Autrement dit 68.3% des échantillons prélevés devraient présenter une moyenne
x comprise entre 1.62 m et 1.639 m. Nous pourrions appliquer le même
raisonnement pour 95% des échantillons...
13
II. Estimation de moyennes et de pourcentages
Une enquête par sondage permet d’obtenir des renseignements sur toute une
population. Le sondeur traite l’échantillon comme un modèle réduit de la
population. Il prend donc des mesures sur cet échantillon et les généralise à
l’ensemble de la population.
Comme nous travaillons à partir d’une seule valeur, nous effectuons une
estimation ponctuelle du paramètre de la population5. Dans le cas précédent, une
bonne estimation de m serait la moyenne échantillonnale 50 000€. Mais quelles
sont les chances pour que cette valeur soit exacte ?
5
On utilise la statistique f ou x pour estimer la proportion p ou la moyenne de la population m.
Toute statistique (moyenne ou fréquence de l’échantillon) utilisée pour estimer un paramètre
(moyenne ou proportion de la population) est appelée estimateur.
6
L’erreur d’échantillonnage est l’écart entre les résultats obtenus auprès d’un échantillon et ce
que nous apprendrait un recensement comparable de la population. Elle survient lorsque
l’échantillon ne prend pas en considération la population dans sa totalité. Plus la taille de
l’échantillon est grande plus l’erreur d’échantillonnage diminue, plus l’estimation est précise.
14
Évidemment, un intervalle d’estimation peut être faux, comme toute autre
estimation ; mais, contrairement à l’estimation ponctuelle, la probabilité
d’erreur de l’intervalle pourra être objectivement déterminée. Pour reprendre
notre exemple, le risque d’erreur est de 10%. Ainsi lorsque le niveau de confiance
est de 90%, l’intervalle fourni par un échantillon contiendra 90 fois sur 100 la
vraie valeur du paramètre (ici les revenus moyens de la population d’acheteurs)
estimé. Évidemment, plus le niveau de confiance souhaité en notre estimation
sera élevé, plus la marge d’erreur qu’il faudra accepter sera importante ; la
longueur de l’intervalle augmentera et l’estimation perdra de sa précision.
b) De l’échantillonnage à l’estimation
p (m – 2 σ x ≤ x ≤ m + 2 σ x ) = 0.954
p ( x – 2 σ x ≤ m ≤ x + 2 σ x ) = 0.954
7
Autrement dit 95.4% des valeurs possibles de x se situent à moins de 2 σ x de chaque côté de la
moyenne de la distribution d'échantillonnage qui est la moyenne de la population.
15
En généralisant, si la distribution d’échantillonnage est normale, on peut
construire un intervalle d’estimation de m de la façon suivante :
p ( x - t σ x ≤ m ≤ x + t σ x ) = niveau de confiance
Par exemple :
Les trois niveaux de confiance généralement utilisés sont 90%, 95% et 99%.
16
2∏(t) – 1 = 0.95 ⇒ p (T < t) = 0.975 ⇒ t = 1.96 (après lecture de la table).
σ
Pour une population infinie : σ x =
n
σ N -n
Pour une population finie : σ x = .
n n -1
Ex : La compagnie de papier Papyrus veut estimer le temps moyen requis par une
nouvelle machine pour produire une rame de papier. Pour un échantillon de 36
rames, le temps requis moyen fut de 1.5 mn par rame. En supposant que σ = 0.30
mn (c.-à-d. l’écart type véritable du temps de production), construire un
intervalle d’estimation ayant un niveau de confiance de 95%.
σ 0.30
σx = = = 0.05
n 36
17
L’écart-type de la population σ est inconnu
x - x x - m
2 2
i i
σe = et σ =
n N
n
s = σe
n -1
s σe
Pour une population infinie : σ̂ x = ou σ̂ x =
n n 1
s N -n σe N -n
Pour une population finie : σ̂ x = . ou σ̂ x = .
n n -1 n 1 n -1
18
σe 0.75
σ̂ x = = = 0.08
n 1 100 1
x - t σ̂ x < m < x + t σ̂ x
Il y a 90% de chances pour que les clients dépensent en moyenne entre 3.37€ et
3.63€.
19
Le symbole σ̂F est un estimateur sans biais de l’écart type de la distribution
d’échantillonnage (ou erreur type du pourcentage). On estime l’erreur type du
pourcentage à l’aide des deux formules suivantes :
f(1 - f) N - n
σ̂F = . pour une population finie
n -1 n -1
ou
f(1 - f)
σ̂F = pour une population infinie
n -1
La différence par rapport aux moyennes est que lorsqu’on construit un intervalle
de confiance pour un pourcentage de population, il faut toujours estimer l’erreur
type du pourcentage. Pourquoi ? Parce qu’il est impossible de calculer la véritable
erreur type lorsqu’on construit un intervalle de confiance d’estimation pour p. Ce
fait paraît évident lorsqu’on examine la formule de l’erreur type :
pq
σF =
n
20
L’estimation ponctuelle de p est donc 38.4% et la marge d’erreur est de 2.8
points de pourcentage. Ainsi on peut affirmer, avec un niveau de confiance (ou
degré de certitude) de 95%, que la véritable proportion des hommes qui ont la
responsabilité de l’épicerie dans les couples hétérosexuels au Québec se situe
entre 35.6% et 41.2%, ou encore qu’elle appartient à l’intervalle [0.356 ; 0.412].
Nous savons qu’il existe deux méthodes pour augmenter la confiance en nos
estimations. La première méthode revient à élargir l’intervalle de confiance. Plus
la marge d’erreur est importante, plus on est sûr que la vraie valeur m (ou p) sera
dans l’intervalle. Mais on peut aussi augmenter la taille n de l’échantillon puisque
plus n est grand plus la marge d’erreur est faible. Comment calculer la taille de
l’échantillon requise pour obtenir un certain degré de précision (donc une
certaine marge d’erreur souhaitée) ?
x - t σx < m < x + t σx
σ
σx =
n
σ2
n =
σx2
Ex : Un sondage sur 518 individus nous apprend que le salaire annuel moyen des
membres du barreau des avocats qui ont été sondés est de 83 000€ avec un
écart type de 36 500€. Quelle taille d’échantillon aurait-il fallu utiliser pour
21
obtenir une estimation du salaire annuel moyen de l’ensemble des membres du
barreau d’avocats qui soit précise à 2 500€, 19 fois sur 20 ?
Nous voulons en quelque sorte une estimation très précise avec un niveau de
confiance très élevé. Pour atteindre un tel résultat, quelle taille l’échantillon
doit-il avoir ?
σ2
On sait que : n=
σ x2
2 500
ME = t σ x 2 500 = 1.96 σ x d’où σ x = = 1 275
1.96
Nous savons que σ x doit être égal à 1 275, mais quelle est la valeur de σ ? Á
cette étape, nous devons faire une hypothèse concernant la valeur de l’écart
type de la population pour être en mesure d'évaluer la taille requise pour
l'échantillon. Nous allons ici nous contenter de l’écart type de l’échantillon soit σ e
= 36 500. Finalement :
36 5002
n= = 820
1 2752
f - t σF < p < f + t σF
S’il est dit que p doit être estimé avec une certaine marge d’erreur donnée, les
limites de confiance requises devront nécessairement être :
22
f ± t σ F = f ± marge d’erreur désirée
Autrement dit :
σ F = marge d’erreur / t
pq
σF =
n
Alors :
pq
n=
σF2
Á partir des données disponibles, vous pouvez affirmer que t σ F doit être égal à
5% puisque les limites de confiance sont f ± t σ F . Pour un niveau de confiance de
95%, on a t = 1.96, soit :
23
pq 50(50)
n= = = 385
σF2 2.552
24
III. Distributions d’échantillonnage avec deux populations
L’objectif dans cette partie est de comparer les moyennes de deux populations
pour répondre aux questions suivantes : est-ce qu’un pesticide particulier
augmente le rendement agricole ? Est-ce que les hommes et les femmes faisant
le même travail ont des salaires différents ?...
25
s'appelle la distribution d'échantillonnage de la différence entre deux
moyennes.
md = mX – mY
62
mX = 122, σ x = 6, nx = 36, σ 2 = =1
x
36
52 25
mY = 118, σ Y = 5, nY = 49, σ 2 = =
Y
49 49
md = mX – mY = 122 – 118 = 4
25
σX Y 1 = 1.23
49
26
D’après le théorème central limite, la distribution de la différence des moyennes
échantillonnales suit une loi normale de moyenne 4 et d’écart type 1.23 :
X - Y ~ N (4 ;1.23)
T=
X Y m X mY
=
X Y m d
=
64
= 1.63
σX Y σX Y 1.23
L’objectif dans cette partie est de comparer les fréquences de deux populations
pour répondre à des questions du type : est-ce que prendre de l’aspirine
régulièrement réduit le risque d’infarctus ?
pX – pY
fX 1 fX fY 1 fY
σFX FY
nX nY
27
D’après le théorème central limite, lorsque la taille des deux échantillons est
supérieure à 30, ou encore si les deux populations sont normales, alors la
distribution d’échantillonnage de la différence des proportions est
approximativement normale.
28
IV. Applications
a) Non, car les clients des supermarchés ne sont pas typiques de l'ensemble de la
population. En général, dans un ménage, c'est toujours la même personne qui fait
les courses ; l'échantillon contiendra probablement trop de femmes, d'inactifs,….
b) Non car cet échantillon élimine pratiquement tous les individus actifs. Une
amélioration de cet échantillon consisterait à téléphoner en soirée et à répéter
l'appel pendant plusieurs jours si on n'obtient pas de réponse, de telle manière
que l'échantillon obtenu se rapproche le plus possible de l'échantillon
sélectionné.
29
avons besoin des résultats établis sur la théorie de l'échantillonnage pour passer
à la phase estimative.
30
b) Quelle est la moyenne d’échantillonnage des moyennes sachant que le
professeur choisit des échantillons de taille 3 ? Qu’en conclure ?
c) Quel est l’écart-type de la distribution d’échantillonnage des moyennes ? Á
quoi sert-il ?
a) Moyenne de la population
m= X = 30 = 6
N 5
60
E ( X n ) = μx = =6
10
31
5!
C53 = 10
3!(5 3)!
x - μ
2
i 10
σx = x
= =1
Nombre d'écarts 10
σ N n
σx = .
n N -1
σ= x - m
i
2
=
(7 - 6)2 (3 - 6)2 (6 - 6)2 (10 - 6)2 (4 - 6)2
= 2.45
N 5
Finalement :
2.45 5 3
σx = . = 1.4145 × 0.7071 = 1
3 5 -1
8
La présence de la racine carrée au dénominateur implique que pour une précision 2 fois
meilleure il faut un échantillon 4 fois plus grand, pour une précision 10 fois meilleure il faut un
échantillon 100 fois plus grand. La précision coûte chère !
32
sera faible, autrement dit que la moyenne trouvée dans l’échantillon sera proche
de la vraie valeur de la moyenne de la population.
Le théorème central limite dit que lorsque la taille de l’échantillon est assez
grande, la distribution d’échantillonnage s’approche d’une distribution normale de
probabilités. Ce théorème a pour conséquence de rendre possible certains
énoncés probabilistes concernant la valeur possible de la statistique
échantillonnale (moyenne de l’échantillon par exemple) si le pourcentage de la
population est connu. Par exemple, nous pouvons affirmer qu’il y a 95.4% de
chances pour que le pourcentage échantillonnale (f) se situe à moins de 2 σ F d’un
côté ou de l’autre de p.
On a :
σ 20
E ( Xn ) = μx = m = 80 et σ x = = =2
n 100
● Supposons qu’en 2020 la masse moyenne de tous les nouveau-nés en France ait
été de m = 3 350 g avec un écart type de σ = 600 g. On prélève des échantillons
de 100 nouveau-nés (n > 30). a) Á quelle loi de probabilité obéit la variable
aléatoire X100 ? b) Calculer la probabilité pour que le poids moyen dans
l’échantillon soit inférieur à 1.96 écart-type de la moyenne de la population.
600
X100 ~ N (3 350 ; )
100
33
p (m – 1.96 σ x ≤ x ≤ m + 1.96 σ x ) = 0.95
σ σ
p (m – 1.96 ≤ x ≤ m + 1.96 ) = 0.95
n n
600 600
p [3 350 – 1.96 ≤ x ≤ 3 350 + 1.96 ] = 0.95
100 100
p [3 350 – 1.96 × 60 ≤ x ≤ 3 350 + 1.96 × 60] = 0.95
p [3 232.4 ≤ x ≤ 3 467.6] = 0.95
Le fait que X100 suit une loi normale signifie que si un statisticien un peu fou
décide de prélever 1000 échantillons de même taille d’une population, environ
950 des moyennes échantillonnales obtenues se situeront à moins de deux écarts
type de chaque côté de la moyenne de la population. Dans le cas présent, 950
échantillons de 100 bébés sur les 1000 auront un poids moyen situé entre
3 232.4 grammes et 3 467.6 grammes. Autrement dit, seuls 50 échantillons (5%
des échantillons) auront des bébés avec un poids moyen inférieur à 3 232.4 g ou
supérieur à 3 467.6 g.
● Une machine produit des pièces dont le diamètre "X" suit une loi normale de
moyenne 50 mm et d'écart type 3 mm. La moyenne et l’écart type sont ici les
paramètres de la population des pièces. Afin de contrôler la production, on tire
un échantillon de 25 pièces, à intervalles réguliers. a) Á quelle loi de probabilité
obéit la variable aléatoire X25 ? b) Calculer la probabilité pour que le diamètre
moyen dans l’échantillon soit supérieur à 51 mm.
a) Quelle que soit la taille de l’échantillon, si la variable aléatoire X suit une loi
normale, la variable aléatoire Xn suit aussi une loi normale.
34
● Une machine prélève des rondelles de diamètre moyen m = 20 mm et d’écart
type σ = 2 mm. On observe que 8% des rondelles sont défectueuses. On prélève
un échantillon de 100 pièces. Déterminer la probabilité que la proportion des
pièces défectueuse dépasse 10%.
0.08 0.92
σF = = 0.02713
100
F 0.08
T=
0.02713
Ainsi :
0.1 0.08
P (F > 0.1) = P (T > ) = P (T > 0.73) = 1 – P (T ≤ 0.73)
0.02713
= 1 - ∏ (0.73)
= 1 – 0.767
= 0.2327
36
On doit calculer la probabilité que F soit strictement inférieure à 0.5 c'est-à-
dire p( F < 0.5 ).
On passe donc à la variable aléatoire T = (F – 0.55) / 0.05 qui suit la loi N (0 ; 1).
On obtient donc : p(F < 0.5) = p(T < -1) = 1 - p(T< 1) = 1 – 0.8413 = 0.1587.
P(F < 0.5) = P(T < -4.54) = 1 – 0.999 997 = 0.000 003
On a :
9 9
I = [25.3 – 1.96 ; 25.3 + 1.96 ] = [22.51 ; 28.09]
40 40
9 n 40 s 8.10
Ou s = σe =8 = 8.10 puis σ̂ = = = 1.281.
n -1 39 x n 40
37
σe 8
σ̂ x = = = 1.281
n -1 39
Ainsi :
8 8
I = [25.3 – 1.96 ; 25.3 + 1.96 ] = [22.79 ; 27.81]
39 39
σ σ
P (x - t <m< x +t ) = 0.95
n n
σ
Avec σ x =
n
n 200
s = σe = 1.17 = 1.173
n -1 200 - 1
⇒
s 1.173
σ̂ x = = = 0.083
n 200
● Peu avant les élections présidentielles, 1 200 personnes ont été interrogées
par un institut de sondage. Pour simplifier les calculs, on suppose que cet
38
échantillon résulte d’un échantillonnage aléatoire. Sur les 1 200 personnes, 636
ont répondu vouloir voter pour le candidat A, et 564 pour le candidat B. a)
Donner une estimation ponctuelle des intentions de vote. b) Donner un intervalle
de confiance à 95% pour les intentions de votes du candidat A. Qu’en conclure ?
a) Estimations ponctuelles
636 564
Pour A, f = = 0.53 et pour B, f = = 0.47.
1 200 1 200
39
b) Que peut-on observer ?
f(1 - f) f(1 - f)
P (f – 1.96 < p < f + 1.96 ) = 0.95
n -1 n -1
⇒
0.74 (1 - 0.74) 0.74 (1 - 0.74)
P (0.74 – 1.96 < p < 0.74 + 1.96 ) = 0.95
130 - 1 130 - 1
f(1 - f) f(1 - f)
P (f – 2.57 < p < f + 2.57 ) = 0.99
n -1 n -1
⇒
0.74 (1 - 0.74) 0.74 (1 - 0.74)
P (0.74 – 2.57 < p < 0.74 + 2.57 ) = 0.99
130 - 1 130 - 1
40
On détermine la loi suivie par F, fréquence des réponses favorables dans un
échantillon de 200 individus :
pq 0.15 0.85
F ↝ N p ; ⇒ F ↝ N 0.15 ; ⇒ F ↝ N 0.15 ; 0.025
n
200
Á partir des données disponibles, vous pouvez affirmer que t σ F doit être égal à
3% puisque les limites de confiance sont f ± t σ F . Pour un niveau de confiance de
95%, on a t = 1.96, soit :
41
pq 50(50)
n= = = 1068
σF2 1.532
n 33
L’écart-type de la population est estimé par : s = σe = 6.2 = 6.296.
n -1 33 - 1
s 6.296
σ̂ x = = = 1.096
n 33
Pour une probabilité de 90% (risque d’erreur α de 10%) : t = 1.645. L’écart par
rapport à la moyenne est de ± 1.645 × 1.096 = ±1.8 mn. Les bornes de l’intervalle
sont alors : [12.65 mn ; 16.25 mn].
Pour une probabilité de 95% (risque d’erreur de 5%) : t = 1.96. L’écart par
rapport à la moyenne est de ± 1.96 × 1.096 = ±2.15 mn. Les bornes de l’intervalle
sont alors : [12.30 mn ; 16.60 mn].
42
Pour une probabilité de 99% (risque d’erreur de 1%) : t = 2.576. L’écart par
rapport à la moyenne est de ± 2.576 × 1.096 = ±2.82 mn. Les bornes de l’intervalle
sont alors : [11.63 mn ; 17.27 mn].
s 6.296 n
Marge d’erreur = t σ x (= 1 mn) soit t = 1 ⇒ 1.96 × =1⇒ = 1.962,
n n 6.2962
Intervalle de confiance :
Pour une probabilité de 97% (risque d’erreur de 3%) : t = 2.17. L’écart par
rapport à la proportion est de ± 2.17 × 0.0543. La proportion est alors comprise
entre : [50.2% ; 73.8%].
Pour une probabilité de 99% (risque d’erreur de 1%) : t = 2.58. L’écart par
rapport à la proportion est de ± 2.58 × 0.0543. La proportion est alors comprise
entre : [48% ; 76%].
x ± 0.01 cm
x ± t σx
Avec E = t σ x = erreur maximale, le quincailler spécifie donc qu’il veut que t σ x soit
égal à 0.01. Nous pouvons donc déterminer la taille d’échantillon requise en
résolvant l’équation t σ x = 0.01. Comme le niveau de confiance désiré est de 95%,
la valeur t est de 1.96. Par conséquent :
44
σ x = 0.01 / 1.96 = 0.005
L’erreur type (marge d’erreur / t) doit donc être égale à 0.005. En supposant
notre population très grande, la formule est :
σ
σx =
n
σ2
n =
σx2
Nous savons que σ x doit être égal à 0.005, mais quelle est la valeur de σ ? Á
cette étape, nous savons qu’en se basant sur des livraisons antérieures, l’écart
type du diamètre des articles a été estimé à environ 0.05 cm. Nous pouvons alors
calculer la taille de l’échantillon requise pour estimer le diamètre moyen du lot
d’articles avec le niveau de précision spécifié par le quincailler :
σ2 0.052
n= = = 100
σ x2 0.0052
On détermine la loi de D :
45
σX 280
E ( X ) ⤳ N (mX ; ) soit X ⤳ N (2 800 ; ) soit X ⤳ N (2 800 ; 40)
nX 49
σY 420
E ( Y ) ⤳ N (mY ; ) soit Y ⤳ N (2 000 ; ) soit Y ⤳ N (2 000 ; 60)
nY 49
E (D) = E ( X - Y ) = mX – mY = 800
σ X2 σ Y2
σ (D) = = 72
nX nY
1 000 800
P (D > 1 000) = P (T > ) = P (T > 2.77) = 1 – P (T < 2.77) ≈ 1%
72
0 800
P (D < 0) = P (T < ) = P (T < -11.11) = 0
72
46
ANNEXE