De La Loi de Bernoulli A La Loi Normale - 2

De la loi de Bernoulli à la loi normale
en suivant le programme de Statistique de

Terminale
IREM Marseille / Groupe "Statistique et Probabilités"

Mars 2012
Loi de Bernoulli
On considère une variable aléatoire X à valeurs dans {0, 1}.

C'est une variable de (loi de) Bernoulli de paramètre p ∈ [0, 1],
notée B(p), avec :
p = P(X = 1) et 1 − p = P(X = 0).
Propriétés :
I E(X) = p, V(X) = p(1 − p),

I si X et Y sont deux variables de Bernoulli alors
I XY est de Bernoulli ,→ indique la présence des deux maladies,
I X +Y indique le nombre de maladies.

Exemples
I Présence d'une anomalie génétique chez un individu.

I Etre favorable à un candidat.
I Réussite d'une gree.
Remarques :
,→ C'est la variable de comptage la plus simple. Lorsque p = 0 ou
p = 1 on tombe sur une variable constante (V(X) = 0)
,→ On peut aussi construire une Bernoulli à partir de n'importe

quelle variable aléatoire comme le montre l'exemple suivant
On s'intéresse à des durées de vie après rechute d'une maladie.
Histogramme des durées de vie
0.12
0.10
0.08
Probabilités
0.06
0.04
0.02
0.00
35 40 45 50 55 60 65
Mois
On peut associer une variable de Bernoulli B(p) comme :

I le fait que la durée de vie dépasse 55 mois ,→ p = 0.05,
I le fait d'avoir une durée de vie entre 45 et 50 mois ,→
p = 0.45.
Loi binomiale
Soient X1 , · · · , Xn des variables aléatoires i.i.d. (identiquement et

indépendamment distribuées) de Bernoulli B(p).
On pose S = X1 + · · · + Xn .
S suit une loi binomiale B(n, p) dénie par
n
X n!
P(S = s) = px (1 − p)n−s ,
(n − s)!s!
k=0
pour s = 0, 1, · · · , n
Propriétés :
I Moyenne et variance :
E(S) = np, V(S) = np(1 − p).
I Si S1 et S2 sont deux binomiales B(n1 , p) et B(n2 , p)

indépendantes alors S1 + S2 est une binomiale B(n1 + n2 , p).
I ,→ faux s'il n'y a plus indépendance, ou si les probabilités p
sont diérentes.
Exemples
I Quatre réacteurs identiques et indépendants peuvent tomber

en panne au cours d'un vol chacun avec la même probabilité p
(on suppose les pannes mutuellement indépendantes). On
s'intéresse au nombre de réacteurs en panne ,→ B(4, p).
I Plus généralement, le nombre de réacteurs qui ont une durée
de fonctionnement supérieure à 1000 heures ,→ B(4, p(1000)).
I Ou tout système en parallèle.
I Dans les familles de quatre enfants, combien de lles ?
Contre-exemple
Deux maladies : la première contractée avec une probabilité

p1 = 1/4, la deuxième contractée avec une probabilité p2|0 = 1/6 si
on n'a pas la première et p2|1 = 1/2 si on a déjà la première. On
observe sur un même individu le nombre S de maladies (0,1 ou 2).
Alors
P(S = 0) = (1 − p1 )(1 − p2|0 ) = 15/24,
P(S = 1) = p1 (1 − p2|1 ) + (1 − p1 )p2|0 = 1/4,
P(S = 2) = p1 p2|1 = 1/8,
ce n'est pas une binomiale, pourtant les deux maladies sont des
Bernoulli de même paramètre 1/4.
Convergence vers une loi normale ?
Binomiale n=10, p=0.3 Binomiale n=100, p=0.3

0.25
0.15
0.20
0.10
Probabilités
Probabilités
0.15
0.10
0.05
0.05
0.00
0.00
0 2 4 6 8 10 10 20 30 40 50
On a S −→ ∞...
La loi normale
On approxime souvent la loi binomiale par une loi normale, qui
pourtant est une loi à densité.
Densité de la loi normale centrée réduite
0.4
0.3
0.2
0.1
0.0
−4 −2 0 2 4
Illustration de la densité
Sur une règle de dix centimètres, chaque centimètre a une

probabilité uniforme d'être choisi. Puis on coupe en dix : chaque
millimètre, etc...
0.10
0.10
0.08
0.08
0.06
0.06
0.04
0.04
0.02
0.02
0.00
2 4 6 8 10 0 2 4 6 8 10
Distributions de S

0.25
0.15
0.20
0.10
Probabilités
Probabilités
0.15
0.10
0.05
0.05
0.00
0 2 4 6 8 10 0.00 10 20 30 40 50
Mais on va plutôt regarder S/n qui reste entre 0 et 1 (comme la

règle qui restait entre 0 et 1 décimètre)
Distributions de S/n
Binomiale/100 (n=100, p=0.3) Binomiale/1000 (n=1000, p=0.3)
250
15
200
Probabilités (X10000)
Probabilités (X100)
10
150
100
5
50
0
0
0.1 0.2 0.3 0.4 0.5 0.24 0.26 0.28 0.30 0.32 0.34 0.36
S/n reste entre 0 et 1 avec des probabilités de plus en plus petites.

Le Théorème de la Limite Centrale (TLC ou TCL)
On approxime souvent la loi binomiale par une loi normale On peut

généraliser ce résultat grâce au théorème suivant.
Théorème
Si X1 , · · · , Xn est une suite de variables aléatoires indépendantes
de même loi (donc de même moyenne m et de même variance σ 2
supposée nie). Alors
√ X̄ − m L
n → N (0, 1)
σ
où X̄ = (X1 + · · · + Xn )/n = S/n.
Pourquoi X̄ ?
En général, on ne dispose pas de la population totale mais

seulement d'un échantillon i.i.d. X1 , · · · , Xn .
C'est le cas lorsque l'on observe n individus, n réacteurs, n durées
de vie...
Ces variables ont une même espérance inconnue m.
I Dans le cas de Bernoulli c'est p.
,→ comment estimer p ?
A partir de l'échantillon on a une moyenne empirique
S/n = (X1 + · · · + Xn )/n.
,→ S/n est une variable aléatoire.
Dans le cas de Bernoulli
I S est une binomiale.
I E(S) = np et V(S) = np(1 − p)
I E(S/n) = p et V(S/n) = p(1 − p)/n
,→ On s'aperçoit qu'en moyenne S/n donne la bonne valeur p
,→ La variance de S/n tend vers zéro (S/n tend vers sa moyenne).
Dans le cas général
I E(S/n) = E(X) = m
I V(S/n) = V(X)/n = σ 2 /n
,→ En moyenne S/n donne la bonne valeur m
,→ La variance de S/n tend vers zéro (S/n tend vers sa moyenne).
Illustrations du TCL
Densité originale et loi normale associée
0.25
0.20
0.15
0.10
0.05
0.00
0 5 10 15 20
Densité ''moyennisée'' par 2 et loi normale associée
0.20
0.15
0.10
0.05
0.00
0 5 10 15
0.20
0.15
0.10
0.05
0.00
5 10 15
0.4
0.3
0.2
0.1
0.0
4 6 8 10
De la loi de Bernoulli à la loi normale
D'après le TCL on a la cvce en loi suivante :

√ S/n − p
U= np → N (0, 1),
p(1 − p)
ce qui signie que la fonction de répartition P(U ≤ u) converge

vers la fonction de répartition d'une loi normale P(N (0, 1) ≤ u).
D'où l'approximation pour "n grand" :
U ≈ N (0, 1).
Propriétés de la loi normale
Si X ∼ N (m, σ 2 ) alors
I X − m ∼ N (0, σ 2 ),
I X/σ ∼ N (m/σ, 1),
I (X − m)/σ ∼ N (0, 1).
Si X ∼ N (m1 , σ12 ) et Y ∼ N (m2 , σ22 ) sont indépendantes alors

I X + Y ∼ N (m1 + m2 , σ 2 + σ 2 ),
1 2
I X − Y ∼ N (m1 − m2 , σ 2 + σ 2 ).
1 2
Revenons à
√ S/n − p
np → N (0, 1).
p(1 − p)
Pour "n grand"

S/n ≈ N (p, p(1 − p)/n),
S ≈ N (np, np(1 − p)).
Remarque : la qualité de l'approximation dépend de la valeur

(inconnue) de p. Plus p est proche de 0.5 et plus on s'approche
rapidement de la loi normale. On impose généralement n > 30,
np > 5 et np(1 − p) > 5, ce qui revient à vérier que S > 5 et
S(1 − S/n) > 5.
Deux approximations diérentes pour une même valeur de n

1.2
0.25
1.0
0.20
0.8
Probabilités
Probabilités
0.15
0.6
0.10
0.4
0.05
0.2
0.00
0.0
0 2 4 6 8 10 12 5 10 15 20 25
Erreur d'approximation
On a une borne de type Bery-Esseen :

(1 − p)2 + p2
|P(U ≤ u) − P(N (0, 1) ≤ u)| ≤ p .
2 np(1 − p)
√ S/n − p
où U = n p .
p(1 − p)
Borne pour n = 10 en fonction de p
0.26
Borne pour n10
0.24
0.22
0.2
0.18
0.16
0.2 0.3 0.4 0.5 0.6 0.7 0.8
p
0.15
Borne pour n30
0.14
0.13
0.12
0.11
0.1
0.09
0.2 0.3 0.4 0.5 0.6 0.7 0.8
p
0.085
0.08
Borne pour n100
0.075
0.07
0.065
0.06
0.055
0.05
0.2 0.3 0.4 0.5 0.6 0.7 0.8
p
Intervalle de conance
On observe X1 , · · · , Xn i.i.d. de loi B(p).

On s'intéresse à la valeur de p ∈]0, 1[ inconnue.
Par exemple pour chaque individu : 1 = satisfait, 0 = non satisfait.
,→ Quel est le pourcentage d'individus satisfaits dans la
population ?
I On peut estimer ponctuellement p par S/n.

I On peut aussi proposer un intervalle de conance lorsque "n
est grand". C'est-à-dire a, b tels que P (a ≤ p ≤ b) = 0.95 par
exemple.
Remarque : c'est a et b qui sont aléatoires (ils vont dépendre des
X1 , · · · , Xn )
On utilise l'approximation précédente combinée à la convergence
(en probabilité) de S/n vers p :
√ S/n − p
np → N (0, 1) (en loi),
p(1 − p)
S/n → p (en probabilité),
pour conclure à l'approximation pour "n grand" (Théorème de

Slutsky)
√ S/n − p
T = np ≈ N (0, 1).
S/n(1 − S/n)
Prenons ensuite u fractile de la loi normale tel que (par ex.) :

P(−u ≤ N (0, 1) ≤ u) = 0.95
On en déduit l'intervalle de conance de niveau 0.95 pour p (avec
"n grand")
√ S/n − p
P(−u ≤ np ≤ u) = 0.95
S/n(1 − S/n)
q q
S S S S
S n (1 − n ) S n (1 − n )
P − 1.96 √ ≤ p ≤ + 1.96 √ = 0.95
n n n n
On en déduit l'intervalle de conance de niveau 0.95 pour p (avec
"n grand")
√ S/n − p
P(−u ≤ np ≤ u) = 0.95
S/n(1 − S/n)
q q
S S S S
S n (1 − n ) S n (1 − n )
P − 1.96 √ ≤ p ≤ + 1.96 √ = 0.95
n n n n
| |− − − − − {z
− − − − − −} | − − − − − {z
− − − − − −} |
q |{z} | q
S S S S
n (1 − n ) S n (1 − n )
−1.96 √ +1.96 √
n n n
En résumé :
I S/n est l'estimation ponctuelle.
q
S
n (1 − Sn )
I √ est (une estimation de) l'écart-type de S/n
n
I 1.96 est associée au niveau
p
S/n(1 − S/n)
IC(p, 0.95) = [S/n ± 1.96 √ ]
n
p
S/n(1 − S/n)
L'amplitude de l'intervalle vaut 2 u √ .
n
I Plus n est grand et plus cette amplitude va diminuer,
I Plus le niveau de conance est grand et plus l'amplitude va

augmenter.
Remarque : lorsque S/n est entre 0.2 et 0.8, alors

S/n(1 − S/n) ∈ [0.4, 0.5] et on fait l'approximation suivante :
p
1
IC(p, 0.95) ≈ [S/n ± √ ]
n
Test sur une valeur
On dispose de deux pièces :

I Une pièce non truquée : probabilité p0 = 1/2 de tomber sur
pile.
I Une pièce truquée : probabilité p1 = 1/4 de tomber sur pile.
On observe n lancers avec la même pièce et on veut décider si elle

est truquée ou non.
On veut tester
H0 : p = p0 V S H1 : p = p1
I Sous H0 , S provient d'une B(n, p0 ).

I Sous H1 , S provient d'une B(n, p1 ).
Distributions de S avec n = 10 lancers :
0 2 4 6 8 10 0 2 4 6 8
Sous H0 Sous H1
Distributions de S avec n = 100 lancers
30 40 50 60 70 10 20 30 40
Sous H0 Sous H1
On doit xer une règle de décision pour rejeter H0 avec un risque
maîtrisé. Par exemple avec 10 observations on regarde la
distribution théorique de S :
0 2 4 6 8 10
0 2 4 6 8 10
↑
Probabilité faible sous H0 (' 0.001)
0 2 4 6 8 10
↑
Probabilité faible sous H0 (' 0.001) ,→ Règle : si S = 0 on rejette
H0
0 2 4 6 8 10
↑
Probabilité faible sous H0 (' 0.001) ,→ Règle : si S = 0 on rejette
H0 ,→ Risque d'erreur en rejetant H0 ' 0.001.
On peut aller plus loin (toujours avec 10 lancers)
0 2 4 6 8 10
0 2 4 6 8 10
| {z }
Probabilités assez faible sous H0
P(S = 0, 1, 2) ' 0.055
0 2 4 6 8 10
| {z }
Probabilités assez faible sous H0
P(S = 0, 1, 2) ' 0.055
On rejette H0 quand S vaut 0, 1 ou 2.
Deux types d'erreurs :
I En réalité H0 est vraie (pièce non truquée) ,→ erreur si je
rejette H0
,→ c'est le risque d'observer 0, 1 ou 2 alors que la pièce n'est
pas truquée (p = 1/2). On le maîtrise : cette probabilité vaut
environ 0.055.
I En réalité H1 est vraie (pièce truquée) ,→ erreur si j'accepte
H0
,→ c'est le risque d'observer S = 3, 4, · · · , 10 alors que la
pièce est truquée (p = 1/4).
On va calculer ce deuxième risque.
Calcul de la probabilité d'erreur en acceptant H0 (alors que la pièce
est truquée)
0 2 4 6 8
Calcul de la probabilité d'erreur en acceptant H0 (alors que la pièce
est truquée)
0 2 4 6 8
| {z }
Sous H1 , P(S = 3, 4, · · · , 10) ' 0.71
Donc si la pièce est truquée on peut se tromper avec une forte
probabilité (dans 71% des cas).
On peut calculer l'erreur globale de se tromper (quelque soit la
décision). On suppose (au début de l'expérience) que l'on choisit au
hasard l'une des deux pièces.
P(erreur) = P(erreur ∩ H0 ) + P(erreur ∩ H1 )
= P(erreur|H0 ) ∗ P(H0 ) + P(erreur|H1 ) ∗ P(H1 )
= 0.055 ∗ 1/2 + 0.71 ∗ 1/2
= 0.38
Avec 10 lancers, notre règle de décision nous permet donc de

distinguer les deux pièces sans erreurs dans 62% des cas.
Cas intéressant : on lance une seule fois la pièce (n = 1).
Règle de décision :
I On observe pile ,→ on décide H0 (non truquée).
I On observe face ,→ on décide H1 (truquée).
Les erreurs possibles :

* Erreur si la pièce n'est pas truquée : P (f ace|H0 ) = 1/2
* Erreur si la pièce est truquée : P (pile|H1 ) = 1/4
* Erreur globale :
P (pile ∩ H1 ∪ f ace ∩ H0 ) = (1/4 ∗ 1/2 + 1/2 ∗ 1/2) = 3/8
Si on propose une autre règle :
Règle de décision 2 :
I On observe pile ,→ on décide H0 (non truquée).
I On observe face ,→ on décide H1 (truquée).
Les erreurs possibles :

* Erreur si la pièce est truquée : P (f ace|H1 ) = 3/4
* Erreur si la pièce n'est pas truquée : P (pile|H0 ) = 1/2
* Erreur globale : P (pile ∩ H0 ∪ f ace ∩ H1 ) = 5/8
Remarque : dans ce cas il vaut mieux décider au hasard (une

chance sur deux de se tromper).
Approximation par une loi normale
Et avec n = 50 lancers, si nous faisons l'approximation de la

binomiale par une loi normale alors :
Avec 50 observations
0.20
0.15
Density
0.10
0.05
0.00
5 10 15 20 25 30 35
Avec 50 observations
0.20
0.15
Density
0.10
0.05
0.00
5 10 15 20 25 30 35
Sous H1 Sous H0
| {z } | {z }
Démonstration du TLC
Pour simplier supposons que les variables de la suite X1 , · · · , Xn

sont centrées (m = E(X) = 0) et réduites (σ 2 = V(X) = 1)
(quitte à retrancher m et à diviser par σ ).
On sait que la fonction caractéristique de la loi normale centrée
réduite N (0, 1) est
ϕZ (t) = E exp(itZ) = exp(−t2 /2),

où Z ∼ N (0, 1).
Si la fonction caractéristique de S/n tend (quand n → ∞) vers
exp(−t2 /2) alors la loi de S/n tend vers la loi normale centrée
réduite (Théorème de Lévy).
On va utiliser trois propriétés importantes de la fonction
caractéristique :
t
ϕX √ = ϕ √X (t),
n n
et si X1 et X2 sont indépendantes alors

ϕX1 +X2 (t) = ϕX1 (t)ϕX2 (t),
et donc si X1 et X2 ont même fonction caractéristique (i.e. même

loi) :
ϕX1 +X2 (t) = ϕX (t)2
Et une dernière propriété : si la variance de X existe alors
ϕ0X (0) = iE(X)
ϕ00X (0) = −E(X 2 ).
Posons (après avoir centré et réduit les Xi )
√ S/n − m √
U= n = S/ n.
σ
Les Xi étant indépendantes et de même fonction caractéristique on
a
ϕU (t) = ϕ √S (t)
n
t
= ϕS √
n
t
= ϕX1 +···+Xn √
n
t t
= ϕX1 √ · · · ϕXn √
n n
t n
= ϕX √
n
On fait alors un d.l. à l'ordre 2 :
t n t t2 n
ϕX √ = ϕX (0) + i √ ϕ0X (0) + (i2 ) ϕ00X (0) + o(1/n)
n n 2n
t 2 n
= 1− + o(1/n)
2n
−→ exp(−t2 /2) (quand n → ∞)
Test sur deux valeurs
On observe deux échantillons de Bernoulli indépendantes :

X1 , · · · , Xn et Y1 , · · · , Yk . On teste :
H0 : pX = pY V S H1 : pX 6= pY
On utilise l'approximation par la loi normale :

SX /n ≈ N (pX , pX (1 − pX )/n)
SY /k ≈ N (pY , pY (1 − pY )/k).
L'indépendance nous permet d'écrire

SX /n − SY /k ≈ N (pX − pY , V )
SX /n(1 − SX /n) SY /k(1 − SY /k)

avec V = + .
n k
Donc, si H0 est vraie on s'attend à avoir une valeur issue de la loi
normale centrée réduite de T
SX /n − SY /k
T = √ ,
V
on décide alors de rejeter ou non H0 .
Généralisation au cas d'une moyenne
Le TCL s'applique pour toute suite de variables i.i.d. de moyenne m

ayant une variance σ 2 nie. On a
√ X̄ − m
U= n √ → N (0, 1),
σ
ce qui donne l'approximation pour n grand :

X̄ ≈ N (m, σ 2 /n).
Intervalle de conance
On observe X1 , · · · , Xn i.i.d. de moyenne m et de variance σ 2
inconnues. Par exemple des durèes de vie.
On utilise l'approximation précédente combinéeP à la convergence
(en probabilité) de la variance empirique S = (Xi − X̄)2 /n :
2
√ X̄ − m
U= n → N (0, 1) (en loi),
σ
S → σ (en probabilité),
pour conclure
√ X̄ − m
T = n ≈ N (0, 1).
S
Prenons ensuite u fractile de la loi normale tel que :
P(−u ≤ T ≤ u) ≈ 0.95,
on en déduit l'intervalle de conance de niveau 0.95 asymptotique
pour m
S
IC(p, 0.95) = [X̄ ± 1.96 √ ]
n

De La Loi de Bernoulli A La Loi Normale - 2

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

De La Loi de Bernoulli A La Loi Normale - 2

Transféré par

Droits d'auteur :

Formats disponibles

De la loi de Bernoulli à la loi normale

en suivant le programme de Statistique de

IREM Marseille / Groupe "Statistique et Probabilités"

On considère une variable aléatoire X à valeurs dans {0, 1}.

I E(X) = p, V(X) = p(1 − p),

I X +Y indique le nombre de maladies.

I Présence d'une anomalie génétique chez un individu.

,→ On peut aussi construire une Bernoulli à partir de n'importe

Histogramme des durées de vie

On peut associer une variable de Bernoulli B(p) comme :

Soient X1 , · · · , Xn des variables aléatoires i.i.d. (identiquement et

I Si S1 et S2 sont deux binomiales B(n1 , p) et B(n2 , p)

I Quatre réacteurs identiques et indépendants peuvent tomber

Deux maladies : la première contractée avec une probabilité

Binomiale n=10, p=0.3 Binomiale n=100, p=0.3

Densité de la loi normale centrée réduite

Sur une règle de dix centimètres, chaque centimètre a une

Binomiale n=10, p=0.3 Binomiale n=100, p=0.3

Mais on va plutôt regarder S/n qui reste entre 0 et 1 (comme la

Binomiale/100 (n=100, p=0.3) Binomiale/1000 (n=1000, p=0.3)

S/n reste entre 0 et 1 avec des probabilités de plus en plus petites.

On approxime souvent la loi binomiale par une loi normale On peut

En général, on ne dispose pas de la population totale mais

Densité originale et loi normale associée

Densité ''moyennisée'' par 2 et loi normale associée

Densité ''moyennisée'' par 5 et loi normale associée

Densité ''moyennisée'' par 30 et loi normale associée

D'après le TCL on a la cvce en loi suivante :

ce qui signie que la fonction de répartition P(U ≤ u) converge

Si X ∼ N (m1 , σ12 ) et Y ∼ N (m2 , σ22 ) sont indépendantes alors

Pour "n grand"

Remarque : la qualité de l'approximation dépend de la valeur

Binomiale n=30, p=0.1 Binomiale n=30, p=0.5

On a une borne de type Bery-Esseen :

On observe X1 , · · · , Xn i.i.d. de loi B(p).

I On peut estimer ponctuellement p par S/n.

pour conclure à l'approximation pour "n grand" (Théorème de

Prenons ensuite u fractile de la loi normale tel que (par ex.) :

I Plus le niveau de conance est grand et plus l'amplitude va

Remarque : lorsque S/n est entre 0.2 et 0.8, alors

On dispose de deux pièces :

On observe n lancers avec la même pièce et on veut décider si elle

I Sous H0 , S provient d'une B(n, p0 ).

Avec 10 lancers, notre règle de décision nous permet donc de

Les erreurs possibles :

Les erreurs possibles :

Remarque : dans ce cas il vaut mieux décider au hasard (une

Et avec n = 50 lancers, si nous faisons l'approximation de la

Pour simplier supposons que les variables de la suite X1 , · · · , Xn

et si X1 et X2 sont indépendantes alors

et donc si X1 et X2 ont même fonction caractéristique (i.e. même

On observe deux échantillons de Bernoulli indépendantes :

On utilise l'approximation par la loi normale :

L'indépendance nous permet d'écrire

SX /n(1 − SX /n) SY /k(1 − SY /k)

Le TCL s'applique pour toute suite de variables i.i.d. de moyenne m

ce qui donne l'approximation pour n grand :

Vous aimerez peut-être aussi

ce qui signie que la fonction de répartition P(U ≤ u) converge

I Plus le niveau de conance est grand et plus l'amplitude va

Pour simplier supposons que les variables de la suite X1 , · · · , Xn