Explorer les Livres électroniques
Catégories
Explorer les Livres audio
Catégories
Explorer les Magazines
Catégories
Explorer les Documents
Catégories
Statistiques inférentielles
Échantillon
Taille n connue
Fréquence inconnue
Bien sûr cette fréquence n’est pas forcément égale à p, il peut se passer n’importe quoi,
mais on peut quand même dire des choses avec un certain niveau de certitude. En parti-
culier, on va chercher à déterminer un intervalle dans lequel la fréquence de d’un certain
pourcentage (typiquement 95%) des échantillons va se trouver.
Définition 1.1
a b
· ¸
L’intervalle de fluctuation au seuil 95% de F n , est l’intervalle ; défini par :
n n
• a est le plus petit entier tel que P(X 6 a) > 0,025
• b est le plus petit entier tel que P(X 6 b) > 0,975
Définition 1.2
L’intervalle I n s’appelle l’intervalle de fluctuation asymptotique de F n au seuil 1 − α :
Pour n grand, la variable aléatoire F n prend ses valeurs dans l’intervalle I n avec une pro-
babilité proche de 1 − α.
Démonstration (démo Bac) 1.1
X n − np
D’après le théorème de Moivre-Laplace, quand n est grand, p suit approxima-
np(1 − p)
tivement une loi normale centrée réduite :
à !
X n − np
lim P −u α 6 p 6 u α = P(−u α 6 Z 6 u α ) = 1 − α
n→+∞ np(1 − p)
Or :
X n − np p p
−u α 6 p 6 u α ⇔ −u α np(1 − p) 6 X n − np 6 u α np(1 − p)
np(1 − p)
p p
⇔ np − u α np(1 − p) 6 X n 6 np + u α np(1 − p)
s s
p(1 − p) X n p(1 − p)
⇔ p − uα 6 6 p + uα
n n n
D’où le résultat en passant à la limite.
Exemple 1.1
s s
p(1 − p) p(1 − p)
• Au seuil de 95% : I n = p − 1,96 ; p + 1,96
n n
s s
p(1 − p) p(1 − p)
• Au seuil de 99% : I n = p − 2,58 ; p + 2,58
n n
Théorème 1.2
Xn
Soit X n une variable aléatoire suivant la loi B(n ; p) et F n = .
n
Pour tout p ∈]0 ; 1[, il existe n 0 ∈ N tel que, pour n > n 0 ,
µ ¶
1 1
P p − p 6 F n 6 p + p > 0,95
n n
1.4 Exemple
Exemple 1.2 (Exercice type corrigé)
Énoncé :
Une chaîne de restauration propose des menus soit avec des frites, soit avec des légumes.
Une étude sur une longue période à montré que 65% des menus commandés étaient servis
avec des frites.
On considère des échantillons de 100 menus servis. On s’intéresse à la fréquence de ces
menus servis avec des frites.
Soit X la variable aléatoire qui à chaque échantillon de 100 menus, associe le nombre de
X
ceux-ci servis avec des frites. On pose F = .
100
1) a) Déterminer la loi de la variable aléatoire X .
b) Déterminer le plus petit entier a tel que P(X 6 a) > 0,025.
Déterminer le plus petit entier b tel que P(X 6 b) > 0,975.
c) En déduire l’intervalle de fluctuation au seuil de 95% de la variable aléatoire F .
2) En utilisant la loi normale, déterminer l’intervalle de fluctuation asymptotique de la
variable aléatoire F au seuil de 95%.
Solution :
1) a) On répète n = 100 fois de manière indépendante la même épreuve de Bernoulli
de paramètre p = 0,65
X dénombrant les succès, X suit la loi binomiale B(100; 0,65)
b) À la calculatrice on obtient :
a = 56 avec InvBinomial(0.025,100,0.65)
b = 74 avec InvBinomial(0.975,100,0.65)
Échantillon
Taille n connue
Fréquence f observée
Remarque 1.3
L’idée est la suivante : si effectivement la proportion dans la population est p 0 , il y a 95%
de chances que la fréquence de l’échantillon soit dans l’intervalle de fluctuation asympto-
tique à 95%.
Si c’est le cas, tout va bien et on accepte l’hypothèse que la proportion p dans la popula-
tion est bien p 0 .
Sinon, c’est pas de chance, même si l’hypothèse était vraie, il n’y aurait que 5% de chance
que ça arrive. On rejette donc l’hypothèse au risque (seuil) de 5% de se tromper et de ne
pas avoir eu de chance sur le tirage de l’échantillon.
La fréquence observée des votes favorables à Albert dans l’échantillon est 0,47.
Elle appartient à l’intervalle de fluctuation asymptotique.
On accepte donc l’affirmation d’Albert : 55% des électeurs vont voter pour lui.
2 Estimation
Échantillon
Taille n connue
Fréquence f connue
Théorème 2.1
Xn
Soit X n une variable aléatoire suivant la loi B(n ; p) (avec 0 < p < 1) et F n = .
n
Il existe n 0 ∈ N tel que, pour n > n 0 ,
µ ¶
1 1
P F n − p 6 p 6 F n + p > 0,95
n n
Démonstration 2.1
En effet, avec les notations du théorème 1.2 :
1 1 1 1
p − p 6 Fn 6 p + p ⇔ Fn − p 6 p 6 Fn + p
n n n n
Définition 2.1
L’intervalle
· ¸
1 1
f −p ; f +p
n n
Remarque 2.1
• Bien évidemment, d’autres échantillons donneraient d’autres intervalles de confiance.
1
• Plus la taille n de l’échantillon est grand, plus le terme p est petit et plus l’ampli-
n
tude de l’intervalle est petite, ce qui augmente la précision de l’intervalle de confiance.
2
La précision de l’intervalle de confiance, donnée par sa longueur, est p .
n
• Rien ne garantit que p appartient à l’intervalle de confiance, mais c’est la cas avec
95% des échantillons prélevés. s s
f (1 − f ) f (1 − f )
• Souvent on utilise aussi l’intervalle f − 1,96 ; f + 1,96 comme
n n
intervalle de confiance à 95%.
Exemple 2.1
On effectue un test de médicament sur une échantillon de 1000 patients. Sur cet échan-
tillon 63% des patients ont eu une amélioration de leur état.
Un intervalle de confiance, au niveau de confiance de 95%, de la proportion p des patients
qui
· auront une amélioration
¸ · de leur état grâce à ce médicament
¸ est donc :
1 1 1 1
f − p ; f + p = 0,63 − p ; 0,63 + p ≈ [0,60 ; 0,66]
n n 1000 1000
Population A Population B
Proportion p A inconnue Proportion p B inconnue
Échantillon Échantillon
Taille n connue Taille n connue
Fréquence f A connue Fréquence f B connue
Propriété 2.1
On considère que la différence entre les fréquences observées f A et f B est significative si
les intervalles de confiance à 95% I A et I B pour les proportions p A et p B sont disjoints.
On juge alors que les proportions p A et p B sont différentes (avec un petit risque d’erreur).
Dans le cas contraire, on juge que les deux proportions p A et p B sont égales (avec un petit
risque d’erreur).
Exemple 2.2
Dans trois villes voisines, on s’intéresse au temps passé en moyenne, par jour, devant un
écran par les jeunes de 15 à 20 ans, pendant leur temps de loisir.
Dans chaque ville on constitue un échantillon de taille n = 500 considéré comme prélevé
au hasard et avec remise.
On observe alors que le temps est supérieur à 4 heures par jour pour 210 jeunes de la ville
A, 160 jeunes de la ville B et 170 jeunes de la ville C.
Nous pouvons calculer, pour chaque échantillon, la fréquence des jeunes pour lesquels ce
temps est supérieur à 4 heures :
0,295 IC 0,385
Nous constatons que les intervalles I A et I B sont disjoints. On considère donc que la diffé-
rence des fréquences observées f A et f B est significative et on juge que les proportions p A
Au contraire, les intervalles I B et IC ont une partie commune. On considère alors que la
différence des fréquences observées f B et f C est liée à une fluctuation aléatoire d’échan-
tillonnage et on juge que les proportions p B et p C sont égales.