Vous êtes sur la page 1sur 65

De la loi de Bernoulli à la loi normale

en suivant le programme de Statistique de


Terminale

IREM Marseille / Groupe "Statistique et Probabilités"


Mars 2012
Loi de Bernoulli

On considère une variable aléatoire X à valeurs dans {0, 1}.


C'est une variable de (loi de) Bernoulli de paramètre p ∈ [0, 1],
notée B(p), avec :
p = P(X = 1) et 1 − p = P(X = 0).
Propriétés :

I E(X) = p, V(X) = p(1 − p),


I si X et Y sont deux variables de Bernoulli alors
I XY est de Bernoulli ,→ indique la présence des deux maladies,

I X +Y indique le nombre de maladies.


Exemples

I Présence d'une anomalie génétique chez un individu.


I Etre favorable à un candidat.
I Réussite d'une gree.
Remarques :
,→ C'est la variable de comptage la plus simple. Lorsque p = 0 ou
p = 1 on tombe sur une variable constante (V(X) = 0)

,→ On peut aussi construire une Bernoulli à partir de n'importe


quelle variable aléatoire comme le montre l'exemple suivant
On s'intéresse à des durées de vie après rechute d'une maladie.

Histogramme des durées de vie

0.12
0.10
0.08
Probabilités

0.06
0.04
0.02
0.00

35 40 45 50 55 60 65

Mois

On peut associer une variable de Bernoulli B(p) comme :


I le fait que la durée de vie dépasse 55 mois ,→ p = 0.05,
I le fait d'avoir une durée de vie entre 45 et 50 mois ,→
p = 0.45.
Loi binomiale

Soient X1 , · · · , Xn des variables aléatoires i.i.d. (identiquement et


indépendamment distribuées) de Bernoulli B(p).
On pose S = X1 + · · · + Xn .
S suit une loi binomiale B(n, p) dénie par
n
X n!
P(S = s) = px (1 − p)n−s ,
(n − s)!s!
k=0

pour s = 0, 1, · · · , n
Propriétés :
I Moyenne et variance :
E(S) = np, V(S) = np(1 − p).

I Si S1 et S2 sont deux binomiales B(n1 , p) et B(n2 , p)


indépendantes alors S1 + S2 est une binomiale B(n1 + n2 , p).
I ,→ faux s'il n'y a plus indépendance, ou si les probabilités p
sont diérentes.
Exemples

I Quatre réacteurs identiques et indépendants peuvent tomber


en panne au cours d'un vol chacun avec la même probabilité p
(on suppose les pannes mutuellement indépendantes). On
s'intéresse au nombre de réacteurs en panne ,→ B(4, p).
I Plus généralement, le nombre de réacteurs qui ont une durée
de fonctionnement supérieure à 1000 heures ,→ B(4, p(1000)).
I Ou tout système en parallèle.
I Dans les familles de quatre enfants, combien de lles ?
Contre-exemple

Deux maladies : la première contractée avec une probabilité


p1 = 1/4, la deuxième contractée avec une probabilité p2|0 = 1/6 si
on n'a pas la première et p2|1 = 1/2 si on a déjà la première. On
observe sur un même individu le nombre S de maladies (0,1 ou 2).
Alors
P(S = 0) = (1 − p1 )(1 − p2|0 ) = 15/24,
P(S = 1) = p1 (1 − p2|1 ) + (1 − p1 )p2|0 = 1/4,
P(S = 2) = p1 p2|1 = 1/8,

ce n'est pas une binomiale, pourtant les deux maladies sont des
Bernoulli de même paramètre 1/4.
Convergence vers une loi normale ?

Binomiale n=10, p=0.3 Binomiale n=100, p=0.3


0.25

0.15
0.20

0.10
Probabilités

Probabilités
0.15
0.10

0.05
0.05
0.00

0.00

0 2 4 6 8 10 10 20 30 40 50

On a S −→ ∞...
La loi normale
On approxime souvent la loi binomiale par une loi normale, qui
pourtant est une loi à densité.

Densité de la loi normale centrée réduite

0.4
0.3
0.2
0.1
0.0

−4 −2 0 2 4
Illustration de la densité

Sur une règle de dix centimètres, chaque centimètre a une


probabilité uniforme d'être choisi. Puis on coupe en dix : chaque
millimètre, etc...
0.10

0.10
0.08

0.08
0.06

0.06
0.04

0.04
0.02

0.02
0.00

2 4 6 8 10 0 2 4 6 8 10
Distributions de S

Binomiale n=10, p=0.3 Binomiale n=100, p=0.3


0.25

0.15
0.20

0.10
Probabilités

Probabilités
0.15
0.10

0.05
0.05
0.00

0 2 4 6 8 10 0.00 10 20 30 40 50

Mais on va plutôt regarder S/n qui reste entre 0 et 1 (comme la


règle qui restait entre 0 et 1 décimètre)
Distributions de S/n

Binomiale/100 (n=100, p=0.3) Binomiale/1000 (n=1000, p=0.3)

250
15

200
Probabilités (X10000)
Probabilités (X100)

10

150
100
5

50
0

0
0.1 0.2 0.3 0.4 0.5 0.24 0.26 0.28 0.30 0.32 0.34 0.36

S/n reste entre 0 et 1 avec des probabilités de plus en plus petites.


Le Théorème de la Limite Centrale (TLC ou TCL)

On approxime souvent la loi binomiale par une loi normale On peut


généraliser ce résultat grâce au théorème suivant.
Théorème
Si X1 , · · · , Xn est une suite de variables aléatoires indépendantes
de même loi (donc de même moyenne m et de même variance σ 2
supposée nie). Alors
√ X̄ − m L
n → N (0, 1)
σ
où X̄ = (X1 + · · · + Xn )/n = S/n.
Pourquoi X̄ ?

En général, on ne dispose pas de la population totale mais


seulement d'un échantillon i.i.d. X1 , · · · , Xn .
C'est le cas lorsque l'on observe n individus, n réacteurs, n durées
de vie...
Ces variables ont une même espérance inconnue m.
I Dans le cas de Bernoulli c'est p.
,→ comment estimer p ?
A partir de l'échantillon on a une moyenne empirique
S/n = (X1 + · · · + Xn )/n.
,→ S/n est une variable aléatoire.
Dans le cas de Bernoulli
I S est une binomiale.
I E(S) = np et V(S) = np(1 − p)
I E(S/n) = p et V(S/n) = p(1 − p)/n
,→ On s'aperçoit qu'en moyenne S/n donne la bonne valeur p
,→ La variance de S/n tend vers zéro (S/n tend vers sa moyenne).
Dans le cas général
I E(S/n) = E(X) = m
I V(S/n) = V(X)/n = σ 2 /n
,→ En moyenne S/n donne la bonne valeur m
,→ La variance de S/n tend vers zéro (S/n tend vers sa moyenne).
Illustrations du TCL

Densité originale et loi normale associée

0.25
0.20
0.15
0.10
0.05
0.00

0 5 10 15 20
Illustrations du TCL

Densité ''moyennisée'' par 2 et loi normale associée

0.20
0.15
0.10
0.05
0.00

0 5 10 15
Illustrations du TCL

Densité ''moyennisée'' par 5 et loi normale associée

0.20
0.15
0.10
0.05
0.00

5 10 15
Illustrations du TCL

Densité ''moyennisée'' par 30 et loi normale associée

0.4
0.3
0.2
0.1
0.0

4 6 8 10
De la loi de Bernoulli à la loi normale

D'après le TCL on a la cvce en loi suivante :


√ S/n − p
U= np → N (0, 1),
p(1 − p)

ce qui signie que la fonction de répartition P(U ≤ u) converge


vers la fonction de répartition d'une loi normale P(N (0, 1) ≤ u).
D'où l'approximation pour "n grand" :
U ≈ N (0, 1).
Propriétés de la loi normale

Si X ∼ N (m, σ 2 ) alors
I X − m ∼ N (0, σ 2 ),
I X/σ ∼ N (m/σ, 1),
I (X − m)/σ ∼ N (0, 1).

Si X ∼ N (m1 , σ12 ) et Y ∼ N (m2 , σ22 ) sont indépendantes alors


I X + Y ∼ N (m1 + m2 , σ 2 + σ 2 ),
1 2
I X − Y ∼ N (m1 − m2 , σ 2 + σ 2 ).
1 2
Revenons à
√ S/n − p
np → N (0, 1).
p(1 − p)

Pour "n grand"


S/n ≈ N (p, p(1 − p)/n),
S ≈ N (np, np(1 − p)).

Remarque : la qualité de l'approximation dépend de la valeur


(inconnue) de p. Plus p est proche de 0.5 et plus on s'approche
rapidement de la loi normale. On impose généralement n > 30,
np > 5 et np(1 − p) > 5, ce qui revient à vérier que S > 5 et
S(1 − S/n) > 5.
Deux approximations diérentes pour une même valeur de n

Binomiale n=30, p=0.1 Binomiale n=30, p=0.5


1.2

0.25
1.0

0.20
0.8
Probabilités

Probabilités

0.15
0.6

0.10
0.4

0.05
0.2

0.00
0.0

0 2 4 6 8 10 12 5 10 15 20 25
Erreur d'approximation

On a une borne de type Bery-Esseen :


(1 − p)2 + p2
|P(U ≤ u) − P(N (0, 1) ≤ u)| ≤ p .
2 np(1 − p)

√ S/n − p
où U = n p .
p(1 − p)
Borne pour n = 10 en fonction de p

0.26
Borne pour n10

0.24

0.22

0.2

0.18

0.16
0.2 0.3 0.4 0.5 0.6 0.7 0.8
p
Borne pour n = 30 en fonction de p

0.15
Borne pour n30

0.14

0.13

0.12

0.11

0.1

0.09
0.2 0.3 0.4 0.5 0.6 0.7 0.8
p
Borne pour n = 100 en fonction de p

0.085
0.08
Borne pour n100

0.075
0.07
0.065
0.06
0.055
0.05
0.2 0.3 0.4 0.5 0.6 0.7 0.8
p
Intervalle de conance

On observe X1 , · · · , Xn i.i.d. de loi B(p).


On s'intéresse à la valeur de p ∈]0, 1[ inconnue.
Par exemple pour chaque individu : 1 = satisfait, 0 = non satisfait.
,→ Quel est le pourcentage d'individus satisfaits dans la
population ?

I On peut estimer ponctuellement p par S/n.


I On peut aussi proposer un intervalle de conance lorsque "n
est grand". C'est-à-dire a, b tels que P (a ≤ p ≤ b) = 0.95 par
exemple.
Remarque : c'est a et b qui sont aléatoires (ils vont dépendre des
X1 , · · · , Xn )
On utilise l'approximation précédente combinée à la convergence
(en probabilité) de S/n vers p :
√ S/n − p
np → N (0, 1) (en loi),
p(1 − p)
S/n → p (en probabilité),

pour conclure à l'approximation pour "n grand" (Théorème de


Slutsky)
√ S/n − p
T = np ≈ N (0, 1).
S/n(1 − S/n)

Prenons ensuite u fractile de la loi normale tel que (par ex.) :


P(−u ≤ N (0, 1) ≤ u) = 0.95
On en déduit l'intervalle de conance de niveau 0.95 pour p (avec
"n grand")
√ S/n − p
P(−u ≤ np ≤ u) = 0.95
S/n(1 − S/n)
q q
S S S S
S n (1 − n ) S n (1 − n ) 
P − 1.96 √ ≤ p ≤ + 1.96 √ = 0.95
n n n n
On en déduit l'intervalle de conance de niveau 0.95 pour p (avec
"n grand")
√ S/n − p
P(−u ≤ np ≤ u) = 0.95
S/n(1 − S/n)
q q
S S S S
S n (1 − n ) S n (1 − n ) 
P − 1.96 √ ≤ p ≤ + 1.96 √ = 0.95
n n n n

| |− − − − − {z
− − − − − −} | − − − − − {z
− − − − − −} |
q |{z} | q
S S S S
n (1 − n ) S n (1 − n )
−1.96 √ +1.96 √
n n n
En résumé :
I S/n est l'estimation ponctuelle.
q
S
n (1 − Sn )
I √ est (une estimation de) l'écart-type de S/n
n
I 1.96 est associée au niveau

p
S/n(1 − S/n)
IC(p, 0.95) = [S/n ± 1.96 √ ]
n
p
S/n(1 − S/n)
L'amplitude de l'intervalle vaut 2 u √ .
n
I Plus n est grand et plus cette amplitude va diminuer,

I Plus le niveau de conance est grand et plus l'amplitude va


augmenter.

Remarque : lorsque S/n est entre 0.2 et 0.8, alors


S/n(1 − S/n) ∈ [0.4, 0.5] et on fait l'approximation suivante :
p

1
IC(p, 0.95) ≈ [S/n ± √ ]
n
Test sur une valeur

On dispose de deux pièces :


I Une pièce non truquée : probabilité p0 = 1/2 de tomber sur
pile.
I Une pièce truquée : probabilité p1 = 1/4 de tomber sur pile.

On observe n lancers avec la même pièce et on veut décider si elle


est truquée ou non.
On veut tester
H0 : p = p0 V S H1 : p = p1

I Sous H0 , S provient d'une B(n, p0 ).


I Sous H1 , S provient d'une B(n, p1 ).
Distributions de S avec n = 10 lancers :

0 2 4 6 8 10 0 2 4 6 8

Sous H0 Sous H1
Distributions de S avec n = 100 lancers

30 40 50 60 70 10 20 30 40

Sous H0 Sous H1
On doit xer une règle de décision pour rejeter H0 avec un risque
maîtrisé. Par exemple avec 10 observations on regarde la
distribution théorique de S :

0 2 4 6 8 10
On doit xer une règle de décision pour rejeter H0 avec un risque
maîtrisé. Par exemple avec 10 observations on regarde la
distribution théorique de S :

0 2 4 6 8 10


Probabilité faible sous H0 (' 0.001)
On doit xer une règle de décision pour rejeter H0 avec un risque
maîtrisé. Par exemple avec 10 observations on regarde la
distribution théorique de S :

0 2 4 6 8 10


Probabilité faible sous H0 (' 0.001) ,→ Règle : si S = 0 on rejette
H0
On doit xer une règle de décision pour rejeter H0 avec un risque
maîtrisé. Par exemple avec 10 observations on regarde la
distribution théorique de S :

0 2 4 6 8 10


Probabilité faible sous H0 (' 0.001) ,→ Règle : si S = 0 on rejette
H0 ,→ Risque d'erreur en rejetant H0 ' 0.001.
On peut aller plus loin (toujours avec 10 lancers)

0 2 4 6 8 10
On peut aller plus loin (toujours avec 10 lancers)

0 2 4 6 8 10
| {z }
Probabilités assez faible sous H0
P(S = 0, 1, 2) ' 0.055
On peut aller plus loin (toujours avec 10 lancers)

0 2 4 6 8 10
| {z }
Probabilités assez faible sous H0
P(S = 0, 1, 2) ' 0.055
On rejette H0 quand S vaut 0, 1 ou 2.
Deux types d'erreurs :
I En réalité H0 est vraie (pièce non truquée) ,→ erreur si je
rejette H0
,→ c'est le risque d'observer 0, 1 ou 2 alors que la pièce n'est
pas truquée (p = 1/2). On le maîtrise : cette probabilité vaut
environ 0.055.
I En réalité H1 est vraie (pièce truquée) ,→ erreur si j'accepte
H0
,→ c'est le risque d'observer S = 3, 4, · · · , 10 alors que la
pièce est truquée (p = 1/4).
On va calculer ce deuxième risque.
Calcul de la probabilité d'erreur en acceptant H0 (alors que la pièce
est truquée)

0 2 4 6 8
Calcul de la probabilité d'erreur en acceptant H0 (alors que la pièce
est truquée)

0 2 4 6 8
| {z }
Sous H1 , P(S = 3, 4, · · · , 10) ' 0.71
Donc si la pièce est truquée on peut se tromper avec une forte
probabilité (dans 71% des cas).
On peut calculer l'erreur globale de se tromper (quelque soit la
décision). On suppose (au début de l'expérience) que l'on choisit au
hasard l'une des deux pièces.
P(erreur) = P(erreur ∩ H0 ) + P(erreur ∩ H1 )
= P(erreur|H0 ) ∗ P(H0 ) + P(erreur|H1 ) ∗ P(H1 )
= 0.055 ∗ 1/2 + 0.71 ∗ 1/2
= 0.38

Avec 10 lancers, notre règle de décision nous permet donc de


distinguer les deux pièces sans erreurs dans 62% des cas.
Cas intéressant : on lance une seule fois la pièce (n = 1).

Règle de décision :
I On observe pile ,→ on décide H0 (non truquée).
I On observe face ,→ on décide H1 (truquée).

Les erreurs possibles :


* Erreur si la pièce n'est pas truquée : P (f ace|H0 ) = 1/2
* Erreur si la pièce est truquée : P (pile|H1 ) = 1/4
* Erreur globale :
P (pile ∩ H1 ∪ f ace ∩ H0 ) = (1/4 ∗ 1/2 + 1/2 ∗ 1/2) = 3/8
Si on propose une autre règle :

Règle de décision 2 :
I On observe pile ,→ on décide H0 (non truquée).
I On observe face ,→ on décide H1 (truquée).

Les erreurs possibles :


* Erreur si la pièce est truquée : P (f ace|H1 ) = 3/4
* Erreur si la pièce n'est pas truquée : P (pile|H0 ) = 1/2
* Erreur globale : P (pile ∩ H0 ∪ f ace ∩ H1 ) = 5/8

Remarque : dans ce cas il vaut mieux décider au hasard (une


chance sur deux de se tromper).
Approximation par une loi normale

Et avec n = 50 lancers, si nous faisons l'approximation de la


binomiale par une loi normale alors :
Avec 50 observations

0.20
0.15
Density

0.10
0.05
0.00

5 10 15 20 25 30 35
Avec 50 observations

0.20
0.15
Density

0.10
0.05
0.00

5 10 15 20 25 30 35

Sous H1 Sous H0
| {z } | {z }
Démonstration du TLC

Pour simplier supposons que les variables de la suite X1 , · · · , Xn


sont centrées (m = E(X) = 0) et réduites (σ 2 = V(X) = 1)
(quitte à retrancher m et à diviser par σ ).
On sait que la fonction caractéristique de la loi normale centrée
réduite N (0, 1) est
ϕZ (t) = E exp(itZ) = exp(−t2 /2),


où Z ∼ N (0, 1).
Si la fonction caractéristique de S/n tend (quand n → ∞) vers
exp(−t2 /2) alors la loi de S/n tend vers la loi normale centrée
réduite (Théorème de Lévy).
On va utiliser trois propriétés importantes de la fonction
caractéristique :
t 
ϕX √ = ϕ √X (t),
n n

et si X1 et X2 sont indépendantes alors


ϕX1 +X2 (t) = ϕX1 (t)ϕX2 (t),

et donc si X1 et X2 ont même fonction caractéristique (i.e. même


loi) :
ϕX1 +X2 (t) = ϕX (t)2
Et une dernière propriété : si la variance de X existe alors
ϕ0X (0) = iE(X)
ϕ00X (0) = −E(X 2 ).
Posons (après avoir centré et réduit les Xi )
√ S/n − m √
U= n = S/ n.
σ
Les Xi étant indépendantes et de même fonction caractéristique on
a
ϕU (t) = ϕ √S (t)
n

t 
= ϕS √
n
t 
= ϕX1 +···+Xn √
n
t  t 
= ϕX1 √ · · · ϕXn √
n n
t n
= ϕX √
n
On fait alors un d.l. à l'ordre 2 :
t n t t2 n
ϕX √ = ϕX (0) + i √ ϕ0X (0) + (i2 ) ϕ00X (0) + o(1/n)
n n 2n
t 2 n
= 1− + o(1/n)
2n
−→ exp(−t2 /2) (quand n → ∞)
Test sur deux valeurs

On observe deux échantillons de Bernoulli indépendantes :


X1 , · · · , Xn et Y1 , · · · , Yk . On teste :

H0 : pX = pY V S H1 : pX 6= pY

On utilise l'approximation par la loi normale :


SX /n ≈ N (pX , pX (1 − pX )/n)
SY /k ≈ N (pY , pY (1 − pY )/k).

L'indépendance nous permet d'écrire


SX /n − SY /k ≈ N (pX − pY , V )

SX /n(1 − SX /n) SY /k(1 − SY /k)


avec V = + .
n k
Donc, si H0 est vraie on s'attend à avoir une valeur issue de la loi
normale centrée réduite de T
SX /n − SY /k
T = √ ,
V
on décide alors de rejeter ou non H0 .
Généralisation au cas d'une moyenne

Le TCL s'applique pour toute suite de variables i.i.d. de moyenne m


ayant une variance σ 2 nie. On a
√ X̄ − m
U= n √ → N (0, 1),
σ

ce qui donne l'approximation pour n grand :


X̄ ≈ N (m, σ 2 /n).
Intervalle de conance
On observe X1 , · · · , Xn i.i.d. de moyenne m et de variance σ 2
inconnues. Par exemple des durèes de vie.
On utilise l'approximation précédente combinéeP à la convergence
(en probabilité) de la variance empirique S = (Xi − X̄)2 /n :
2

√ X̄ − m
U= n → N (0, 1) (en loi),
σ
S → σ (en probabilité),
pour conclure
√ X̄ − m
T = n ≈ N (0, 1).
S
Prenons ensuite u fractile de la loi normale tel que :
P(−u ≤ T ≤ u) ≈ 0.95,
on en déduit l'intervalle de conance de niveau 0.95 asymptotique
pour m
S
IC(p, 0.95) = [X̄ ± 1.96 √ ]
n