Vous êtes sur la page 1sur 8

TS

Statistiques inférentielles

1 Échantillonnage et prise de décision


Dans cette partie on va s’intéresser au problème suivant :
On considère une population dans laquelle les individus présentent un caractère dans une
proportion p connue (ou supposée connue).
On prélève un échantillon de n individus et on se demande quelle fréquence d’individus
de cet échantillon présentent ce caractère.
Population
Proportion p connue

Échantillon
Taille n connue
Fréquence inconnue

Bien sûr cette fréquence n’est pas forcément égale à p, il peut se passer n’importe quoi,
mais on peut quand même dire des choses avec un certain niveau de certitude. En parti-
culier, on va chercher à déterminer un intervalle dans lequel la fréquence de d’un certain
pourcentage (typiquement 95%) des échantillons va se trouver.

1.1 Intervalle de fluctuation à environ 95% avec une loi binomiale


Soit X n la variable aléatoire qui, à tout échantillon de taille n, associe le nombre d’indivi-
Xn
dus présentant le caractère et F n = la variable aléatoire correspondant à la fréquence
n
d’individus présentant le caractère.
Alors X n suit la loi binomiale B(n,p).

Définition 1.1
a b
· ¸
L’intervalle de fluctuation au seuil 95% de F n , est l’intervalle ; défini par :
n n
• a est le plus petit entier tel que P(X 6 a) > 0,025
• b est le plus petit entier tel que P(X 6 b) > 0,975

0,025 0,95 0,025


| |
0 a b n

maths.muller@gmail.com S TATISTIQUES INFÉRENTIELLES 1/8


Remarque 1.1
On peut trouver les valeurs de a et b avec une table de loi binomiale, mais aussi directe-
ment avec la calculatrice dans le menu de la loi binomiale OPTN STAT DIST BINM avec
la fonction InvB :
• a est donné par : InvBinomialCD(0.025,n ,p )
• b est donné par : InvBinomialCD(0.975,n ,p )

1.2 Intervalle de fluctuation asymptotique avec une loi normale


Théorème 1.1
Xn
Soit X n une suite de variables aléatoires suivant la loi B(n ; p) et F n = .
n
Soit α ∈]0 ; 1[ et u α le réel tel que P(−u α 6 Z 6 u α ) = 1 − α, où Z N (0 ; 1).
 s s 
p(1 − p) p(1 − p) 
On note I n l’intervalle I n = p − u α ; p + uα .
n n

Alors lim P(F n ∈ I n ) = 1 − α.


n→+∞

Définition 1.2
L’intervalle I n s’appelle l’intervalle de fluctuation asymptotique de F n au seuil 1 − α :
Pour n grand, la variable aléatoire F n prend ses valeurs dans l’intervalle I n avec une pro-
babilité proche de 1 − α.
Démonstration (démo Bac) 1.1
X n − np
D’après le théorème de Moivre-Laplace, quand n est grand, p suit approxima-
np(1 − p)
tivement une loi normale centrée réduite :
à !
X n − np
lim P −u α 6 p 6 u α = P(−u α 6 Z 6 u α ) = 1 − α
n→+∞ np(1 − p)
Or :
X n − np p p
−u α 6 p 6 u α ⇔ −u α np(1 − p) 6 X n − np 6 u α np(1 − p)
np(1 − p)
p p
⇔ np − u α np(1 − p) 6 X n 6 np + u α np(1 − p)
s s
p(1 − p) X n p(1 − p)
⇔ p − uα 6 6 p + uα
n n n
D’où le résultat en passant à la limite.
 
Exemple 1.1
s s
p(1 − p) p(1 − p) 
• Au seuil de 95% : I n = p − 1,96 ; p + 1,96
n n
 s s 
p(1 − p) p(1 − p) 
• Au seuil de 99% : I n = p − 2,58 ; p + 2,58
n n

maths.muller@gmail.com S TATISTIQUES INFÉRENTIELLES 2/8


Remarque 1.2
En pratique, on utilise cet intervalle de fluctuation lorsque n > 30, np > 5 et n(1 − p) > 5.

1.3 Lien avec l’intervalle de fluctuation de seconde


p
On a facilement la majoration 1,96 p(1 − p) 6 1 pour p ∈ [0 ; 1].
Donc l’intervalle de fluctuation asymptotique au seuil de 95% donné dans l’exemple pré-
cédent peut être agrandi et permet de justifier l’intervalle de fluctuation utilisé en classe
de seconde :

Théorème 1.2
Xn
Soit X n une variable aléatoire suivant la loi B(n ; p) et F n = .
n
Pour tout p ∈]0 ; 1[, il existe n 0 ∈ N tel que, pour n > n 0 ,
µ ¶
1 1
P p − p 6 F n 6 p + p > 0,95
n n

1.4 Exemple
Exemple 1.2 (Exercice type corrigé)
Énoncé :
Une chaîne de restauration propose des menus soit avec des frites, soit avec des légumes.
Une étude sur une longue période à montré que 65% des menus commandés étaient servis
avec des frites.
On considère des échantillons de 100 menus servis. On s’intéresse à la fréquence de ces
menus servis avec des frites.
Soit X la variable aléatoire qui à chaque échantillon de 100 menus, associe le nombre de
X
ceux-ci servis avec des frites. On pose F = .
100
1) a) Déterminer la loi de la variable aléatoire X .
b) Déterminer le plus petit entier a tel que P(X 6 a) > 0,025.
Déterminer le plus petit entier b tel que P(X 6 b) > 0,975.
c) En déduire l’intervalle de fluctuation au seuil de 95% de la variable aléatoire F .
2) En utilisant la loi normale, déterminer l’intervalle de fluctuation asymptotique de la
variable aléatoire F au seuil de 95%.
Solution :
1) a) On répète n = 100 fois de manière indépendante la même épreuve de Bernoulli
de paramètre p = 0,65
X dénombrant les succès, X suit la loi binomiale B(100; 0,65)
b) À la calculatrice on obtient :
a = 56 avec InvBinomial(0.025,100,0.65)
b = 74 avec InvBinomial(0.975,100,0.65)

maths.muller@gmail.com S TATISTIQUES INFÉRENTIELLES 3/8


c) L’intervalle de fluctuation à environ 95%· de la fréquence
¸ des menus servis avec
56 74
des frites de cet échantillon est donc : ; = [0,56 ; 0,74]
100 100
2) Soit Z une variable aléatoire suivant la loi normale centrée réduite.
Grâce à la calculatrice, on a : P(−1,96 6 Z 6 1,96) ≈ 0,95. Donc u 0,05 ≈ 1,96.
L’intervalle
 de fluctuation asymptotique deF au seuil de 95% est donc :
s s
p − 1,96 p(1 − p) p(1 − p) 
; p + 1,96
n n
" r r #
0,65 × 0,35 0,65 × 0,35
= 0,65 − 1,96 ; 0,65 + 1,96
100 100
≈ [0,56 ; 0,74]

1.5 Prise de décision


Dans cette partie on considère une population pour laquelle on cherche à savoir si la pro-
portion p d’un caractère est p = p 0 à partir de la fréquence de ce caractère dans un échan-
tillon :
Population
Hypothèse : la proportion est p 0

Échantillon
Taille n connue
Fréquence f observée

Propriété 1.1 (Règle de décision)


Au seuil de 5%, si la fréquence observée f appartient à l’intervalle de fluctuation asymp-
 s s 
p 0 (1 − p 0 ) p 0 (1 − p 0 ) 
totique p 0 − 1,96 ; p 0 + 1,96 on accepte l’hypothèse selon la-
n n
quelle p = p 0 , sinon on rejette cette hypothèse.

Remarque 1.3
L’idée est la suivante : si effectivement la proportion dans la population est p 0 , il y a 95%
de chances que la fréquence de l’échantillon soit dans l’intervalle de fluctuation asympto-
tique à 95%.
Si c’est le cas, tout va bien et on accepte l’hypothèse que la proportion p dans la popula-
tion est bien p 0 .
Sinon, c’est pas de chance, même si l’hypothèse était vraie, il n’y aurait que 5% de chance
que ça arrive. On rejette donc l’hypothèse au risque (seuil) de 5% de se tromper et de ne
pas avoir eu de chance sur le tirage de l’échantillon.

maths.muller@gmail.com S TATISTIQUES INFÉRENTIELLES 4/8


Remarque 1.4
On peut également tester l’hypothèse en utilisant l’intervalle de fluctuation à 95% obtenu
avec la loi binomiale.
Exemple 1.3
Énoncé :
Un mois avant une élection où il se présente, la candidat Albert annonce fièrement que
55% des électeurs vont voter pour lui.
Son adversaire, le candidat Barnabé, commande alors un sondage portant sur 100 per-
sonnes prises au hasard parmi les électeurs.
Le résultat de ce sondage donne 47% de votes favorables à Albert.
Peut-on considérer, au seuil de 5%, que l’affirmation d’Albert est vraie ?
Solution :
On fait l’hypothèse que l’affirmation d’Albert est vraie, c’est à dire que la proportion des
électeurs qui vont voter pour lui est p 0 = 0,55.
L’intervalle de fluctuation asymptotique à 95% de la fréquence des votes favorables à Al-
bert sur un échantillon de taille n = 100 est :
 s s 
p 0 − 1,96 p 0 (1 − p 0 ) p 0 (1 − p )
0 
; p 0 + 1,96 ≈ [0,4525 ; 0,6475]
n n

La fréquence observée des votes favorables à Albert dans l’échantillon est 0,47.
Elle appartient à l’intervalle de fluctuation asymptotique.
On accepte donc l’affirmation d’Albert : 55% des électeurs vont voter pour lui.

2 Estimation

2.1 Intervalle de confiance d’une proportion


Ici on s’intéresse au problème inverse du problème précédent : étant donné une popu-
lation dont les individus présentent un caractère dans une proportion p inconnue, on
cherche à estimer p à partir d’un échantillon de taille n connue et de fréquence f connue.
Population
Proportion p inconnue

Échantillon
Taille n connue
Fréquence f connue

Pour résoudre ce problème on a deux approches :


• Soit proposer un nombre pour estimer la proportion p, par exemple p = f . C’est
l’estimation ponctuelle. Elle n’est pas très fiable car très dépendante des fluctua-
tions de l’échantillon considéré.

maths.muller@gmail.com S TATISTIQUES INFÉRENTIELLES 5/8


• Soit proposer un intervalle associé à un niveau de confiance.

Théorème 2.1
Xn
Soit X n une variable aléatoire suivant la loi B(n ; p) (avec 0 < p < 1) et F n = .
n
Il existe n 0 ∈ N tel que, pour n > n 0 ,
µ ¶
1 1
P F n − p 6 p 6 F n + p > 0,95
n n

Démonstration 2.1
En effet, avec les notations du théorème 1.2 :

1 1 1 1
p − p 6 Fn 6 p + p ⇔ Fn − p 6 p 6 Fn + p
n n n n

Définition 2.1
L’intervalle
· ¸
1 1
f −p ; f +p
n n

où f est la fréquence obtenue sur un échantillon de taille n, est un intervalle de confiance


au niveau de confiance 95% pour la proportion inconnue p de la population.

Remarque 2.1
• Bien évidemment, d’autres échantillons donneraient d’autres intervalles de confiance.
1
• Plus la taille n de l’échantillon est grand, plus le terme p est petit et plus l’ampli-
n
tude de l’intervalle est petite, ce qui augmente la précision de l’intervalle de confiance.
2
La précision de l’intervalle de confiance, donnée par sa longueur, est p .
n
• Rien ne garantit que p appartient à l’intervalle de confiance, mais c’est la cas avec
95% des échantillons prélevés.  s s 
f (1 − f ) f (1 − f ) 
• Souvent on utilise aussi l’intervalle  f − 1,96 ; f + 1,96 comme
n n
intervalle de confiance à 95%.

Exemple 2.1
On effectue un test de médicament sur une échantillon de 1000 patients. Sur cet échan-
tillon 63% des patients ont eu une amélioration de leur état.
Un intervalle de confiance, au niveau de confiance de 95%, de la proportion p des patients
qui
· auront une amélioration
¸ · de leur état grâce à ce médicament
¸ est donc :
1 1 1 1
f − p ; f + p = 0,63 − p ; 0,63 + p ≈ [0,60 ; 0,66]
n n 1000 1000

maths.muller@gmail.com S TATISTIQUES INFÉRENTIELLES 6/8


2.2 Comparaison de deux proportions à l’aide d’intervalles de confiance
On considère deux populations A et B de proportions p A et p B inconnues.
On cherche à comparer p A et p B à partir d’échantillons pris dans chacune des populations
A et B :

Population A Population B
Proportion p A inconnue Proportion p B inconnue

Échantillon Échantillon
Taille n connue Taille n connue
Fréquence f A connue Fréquence f B connue

Propriété 2.1
On considère que la différence entre les fréquences observées f A et f B est significative si
les intervalles de confiance à 95% I A et I B pour les proportions p A et p B sont disjoints.
On juge alors que les proportions p A et p B sont différentes (avec un petit risque d’erreur).
Dans le cas contraire, on juge que les deux proportions p A et p B sont égales (avec un petit
risque d’erreur).

Exemple 2.2
Dans trois villes voisines, on s’intéresse au temps passé en moyenne, par jour, devant un
écran par les jeunes de 15 à 20 ans, pendant leur temps de loisir.
Dans chaque ville on constitue un échantillon de taille n = 500 considéré comme prélevé
au hasard et avec remise.
On observe alors que le temps est supérieur à 4 heures par jour pour 210 jeunes de la ville
A, 160 jeunes de la ville B et 170 jeunes de la ville C.
Nous pouvons calculer, pour chaque échantillon, la fréquence des jeunes pour lesquels ce
temps est supérieur à 4 heures :

210 160 170


fA = = 0,42, f B = = 0,32 et f C = = 0,34
500 500 500
Nous pouvons alors déterminer un intervalle de confiance, avec un niveau de confiance
de 95%, pour la proportion inconnue dans chaque ville :

I A = [0,375 ; 0,465], I B = [0,275 ; 0,365] et IC = [0,295 ; 0,385]

0,275 IB 0,365 0,375 IA 0,465

0,295 IC 0,385

Nous constatons que les intervalles I A et I B sont disjoints. On considère donc que la diffé-
rence des fréquences observées f A et f B est significative et on juge que les proportions p A

maths.muller@gmail.com S TATISTIQUES INFÉRENTIELLES 7/8


et p B sont différentes.

Au contraire, les intervalles I B et IC ont une partie commune. On considère alors que la
différence des fréquences observées f B et f C est liée à une fluctuation aléatoire d’échan-
tillonnage et on juge que les proportions p B et p C sont égales.

maths.muller@gmail.com S TATISTIQUES INFÉRENTIELLES 8/8

Vous aimerez peut-être aussi