Vous êtes sur la page 1sur 66

De la loi de Bernoulli à la loi normale

en suivant le programme de Statistique de


Terminale

IREM Marseille / Groupe "Statistique et Probabilités"

Février 2013
Loi de Bernoulli

,→ C'est la variable de comptage la plus simple.

X variable aléatoire à valeurs dans {0, 1} telle que

p = P(X = 1),
1 − p = P(X = 0).
Une autre écriture

I P(X = x) = px (1 − p)1−x avec x ∈ {0, 1},

I P(X = x) = px (1 − p)1−x µ(x),

avec µ = δ0 + δ1 .
Propriétés :

I E(X) = p, V(X) = p(1 − p) (minimum en 1/2),

,→ Lorsque p = 0 ou p = 1, variable constante (Dirac).

I si X et Y sont deux variables de Bernoulli indiquant chacune


la présence d'une maladie diérente alors
I XY est de Bernoulli
,→ indique la présence des deux maladies,
Y
I X est de Bernoulli,

I X + Y est une binomiale (si indépendance des maladies)


,→ indique le nombre de maladies.
Autres exemples

I Présence d'une anomalie génétique chez un individu.


I Etre favorable à un candidat.
I Réussite d'une gree.
Remarques : ,→ On peut aussi construire une Bernoulli à partir de
n'importe quelle variable aléatoire comme le montre l'exemple
suivant
On s'intéresse à des durées de vie après rechute d'une maladie.

Histogramme des durées de vie

0.12
0.10
0.08
Probabilités

0.06
0.04
0.02
0.00

35 40 45 50 55 60 65

Mois

On peut associer une variable de Bernoulli à chaque classe de


l'histogramme.
Loi binomiale

Soient X1 , · · · , Xn des variables aléatoires i.i.d. (identiquement et


indépendamment distribuées) de Bernoulli B(p).

On pose S = X1 + · · · + Xn .

S suit une loi binomiale B(n, p) dénie par

n!
P(S = s) = px (1 − p)n−s ,
(n − s)!s!
pour s = 0, 1, · · · , n
Propriétés :
I Moyenne et variance :
E(S) = np, V(S) = np(1 − p).

I Si S1 et S2 sont deux binomiales B(n1 , p) et B(n2 , p)


indépendantes alors S1 + S2 est une binomiale B(n1 + n2 , p).
I ,→ faux s'il n'y a plus indépendance, ou si les probabilités p
sont diérentes.
Exemples

La loi binomiale apparaît comme un compteur (une somme de


Bernoulli), elle apparaît aussi assez naturellement dans les
"systèmes en parallèle" :
I Nombre de réacteurs en panne (parmi 4 réacteurs
mutuellement indépendants) ,→ B(4, p).
I Plus généralement, le nombre de réacteurs qui ont une durée
de fonctionnement supérieure à 1000 heures ,→ B(4, p(1000)).
I Dans les familles de quatre enfants, combien de lles ?
Contre-exemple

Deux maladies : la première contractée avec une probabilité


p1 = 1/4, la deuxième contractée avec une probabilité p2|0 = 1/6 si
on n'a pas la première et p2|1 = 1/2 si on a déjà la première. On
observe sur un même individu le nombre S de maladies (0,1 ou 2).
Alors
P(S = 0) = (1 − p1 )(1 − p2|0 ) = 15/24,
P(S = 1) = p1 (1 − p2|1 ) + (1 − p1 )p2|0 = 1/4,
P(S = 2) = p1 p2|1 = 1/8,

ce n'est pas une binomiale, pourtant les deux maladies sont des
Bernoulli de même paramètre 1/4.
Convergence vers une loi normale ?

Binomiale n=10, p=0.3 Binomiale n=100, p=0.3


0.25

0.15
0.20

0.10
Probabilités

Probabilités
0.15
0.10

0.05
0.05
0.00

0.00

0 2 4 6 8 10 10 20 30 40 50

On a S −→ ∞...
La loi normale
On approxime souvent la loi binomiale par une loi normale, qui
pourtant est une loi à densité.

Densité de la loi normale centrée réduite

0.4
0.3
0.2
0.1
0.0

−4 −2 0 2 4
Illustration de la densité

Sur une règle de dix centimètres, chaque centimètre a une


probabilité uniforme d'être choisi. Puis on coupe en dix : chaque
millimètre, etc...
0.10

0.10
0.08

0.08
0.06

0.06
0.04

0.04
0.02

0.02
0.00

2 4 6 8 10 0 2 4 6 8 10
Distributions de S/n

Binomiale/100 (n=100, p=0.3) Binomiale/1000 (n=1000, p=0.3)

250
15

200
Probabilités (X10000)
Probabilités (X100)

10

150
100
5

50
0

0
0.1 0.2 0.3 0.4 0.5 0.24 0.26 0.28 0.30 0.32 0.34 0.36

S/n reste entre 0 et 1 avec des probabilités de plus en plus petites.

On a S/n −→ p...
Que représente X̄ (ou S/n) ?

S/n = (X1 + · · · + Xn )/n.


,→ est une variable aléatoire,
,→ est la moyenne empirique.
Dans le cas de Bernoulli
I E(S/n) = p,
I V(S/n) = p(1 − p)/n.
Dans le cas général
I E(S/n) = E(X) = m,
I V(S/n) = V(X)/n = σ 2 /n.
En moyenne S/n donne la bonne valeur de la moyenne ou de p.
,→ Estimateur sans biais

La variance de S/n tend vers zéro


,→ Estimateur convergent
Le Théorème de la Limite Centrale (TLC ou TCL)

On approxime souvent la loi binomiale par une loi normale On peut


généraliser ce résultat grâce au théorème suivant.
Théorème
Si X1 , · · · , Xn est une suite de variables aléatoires indépendantes
de même loi (donc de même moyenne m et de même variance σ 2
supposée nie). Alors
√ X̄ − m L
n → N (0, 1),
σ
où X̄ = (X1 + · · · + Xn )/n = S/n.
Illustrations du TCL

Densité originale et loi normale associée

0.25
0.20
0.15
0.10
0.05
0.00

0 5 10 15 20
Illustrations du TCL

Densité ''moyennisée'' par 2 et loi normale associée

0.20
0.15
0.10
0.05
0.00

0 5 10 15
Illustrations du TCL

Densité ''moyennisée'' par 5 et loi normale associée

0.20
0.15
0.10
0.05
0.00

5 10 15
Illustrations du TCL

Densité ''moyennisée'' par 30 et loi normale associée

0.4
0.3
0.2
0.1
0.0

4 6 8 10
Approximation par la loi normale

D'après le TCL on a la cvce en loi suivante :


√ S/n − p
U= np → N (0, 1),
p(1 − p)

ce qui signie que la fonction de répartition P(U ≤ u) converge


vers la fonction de répartition d'une loi normale P(N (0, 1) ≤ u).
D'où l'approximation pour "n grand" :
U ≈ N (0, 1).
Revenons à
√ S/n − p
U= np → N (0, 1).
p(1 − p)

Pour "n grand"


S/n ≈ N (p, p(1 − p)/n),
S ≈ N (np, np(1 − p)).

Remarque : la qualité de l'approximation dépend de la valeur


(inconnue) de p. Plus p est proche de 0.5 et plus on s'approche
rapidement de la loi normale. On impose généralement n > 30,
np > 5 et np(1 − p) > 5, ce qui revient à vérier que S > 5 et
S(1 − S/n) > 5.
Erreur d'approximation

On a une borne de type Berry-Esseen :


(1 − p)2 + p2
|P(U ≤ u) − P(N (0, 1) ≤ u)| ≤ p ,
2 np(1 − p)

√ S/n − p
où U = n p .
p(1 − p)
Borne pour n = 10 en fonction de p

0.26
Borne pour n10

0.24

0.22

0.2

0.18

0.16
0.2 0.3 0.4 0.5 0.6 0.7 0.8
p
Borne pour n = 30 en fonction de p

0.15
Borne pour n30

0.14

0.13

0.12

0.11

0.1

0.09
0.2 0.3 0.4 0.5 0.6 0.7 0.8
p
Borne pour n = 100 en fonction de p

0.085
0.08
Borne pour n100

0.075
0.07
0.065
0.06
0.055
0.05
0.2 0.3 0.4 0.5 0.6 0.7 0.8
p
Propriétés de la loi normale

Si X ∼ N (m, σ 2 ) alors
I X − m ∼ N (0, σ 2 ),
I X/σ ∼ N (m/σ, 1),
I (X − m)/σ ∼ N (0, 1).

Si X ∼ N (m1 , σ12 ) et Y ∼ N (m2 , σ22 ) sont indépendantes alors


I X + Y ∼ N (m1 + m2 , σ 2 + σ 2 ),
1 2
I X − Y ∼ N (m1 − m2 , σ 2 + σ 2 ).
1 2
A partir de la loi normale

Si X1 , · · · , Xd sont i.i.d. ∼ N (0, 1) alors


I T = X 2 + · · · + X 2 ∼ χ2 ,
1 d d

I Si on a une autre variable indépendante X ∼ N (0, 1), alors


X
p ∼ Studentd .
T /d
I Si U ∼ χ2k et V ∼ χ2p sont indépendantes alors,
U/k
∼ F isherk,p .
V /p
Intervalle de conance

On observe X1 , · · · , Xn i.i.d. de loi B(p).


On s'intéresse à la valeur de p ∈]0, 1[ inconnue.
Par exemple pour chaque individu : 1 = satisfait, 0 = non satisfait.
,→ Quel est le pourcentage d'individus satisfaits dans la
population ?

I On peut estimer ponctuellement p par S/n.


I On peut aussi proposer un intervalle de conance lorsque "n
est grand". C'est-à-dire a, b tels que P (a ≤ p ≤ b) = 0.95 par
exemple.
Remarque : c'est a et b qui sont aléatoires (ils vont dépendre des
X1 , · · · , Xn )
On utilise l'approximation précédente combinée à la convergence
(en probabilité) de S/n vers p :
√ S/n − p
np → N (0, 1) (en loi),
p(1 − p)
S/n → p (en probabilité),

pour conclure à l'approximation pour "n grand" (Théorème de


Slutsky)
√ S/n − p
T = np ≈ N (0, 1).
S/n(1 − S/n)

Prenons ensuite u fractile de la loi normale tel que (par ex.) :


P(−u ≤ N (0, 1) ≤ u) = 0.95
On en déduit l'intervalle de conance de niveau 0.95 pour p (avec
"n grand")
√ S/n − p
P(−u ≤ np ≤ u) = 0.95
S/n(1 − S/n)
q q
S S S S
S n (1 − n ) S n (1 − n ) 
P − 1.96 √ ≤ p ≤ + 1.96 √ = 0.95
n n n n
On en déduit l'intervalle de conance de niveau 0.95 pour p (avec
"n grand")
√ S/n − p
P(−u ≤ np ≤ u) = 0.95
S/n(1 − S/n)
q q
S S S S
S n (1 − n ) S n (1 − n ) 
P − 1.96 √ ≤ p ≤ + 1.96 √ = 0.95
n n n n

| |− − − − − {z
− − − − − −} | − − − − − {z
− − − − − −} |
q |{z} | q
S S S S
n (1 − n ) S n (1 − n )
−1.96 √ +1.96 √
n n n
En résumé :
I S/n est l'estimation ponctuelle.
q
S
n (1 − Sn )
I √ est (une estimation de) l'écart-type de S/n
n
I 1.96 est associée au niveau

p
S/n(1 − S/n)
IC(p, 0.95) = [S/n ± 1.96 √ ]
n
p
S/n(1 − S/n)
L'amplitude de l'intervalle vaut 2 u √ .
n
I Plus n est grand et plus cette amplitude va diminuer,

I Plus le niveau de conance est grand et plus l'amplitude va


augmenter.

Remarque : lorsque S/n est entre 0.2 et 0.8, alors


S/n(1 − S/n) ∈ [0.4, 0.5] et on fait l'approximation suivante :
p

1
IC(p, 0.95) ≈ [S/n ± √ ]
n
Test sur une valeur

Après une opération (appendicite) on veut s'assurer qu'un patient


ne développe pas une infection (pouvant être causée par la présence
d'un abcès). On réalise pour cela une simple prise de température
toutes les 12h. En cas de non infection le risque habituel de poussée
de température est de 1/4. En cas d'abcès ce risque passe à 1/2.
Après 12h que peut-on décider après la première prise de
température ? Après 24h, 36h, ... ?
Test sur une valeur

Est-ce qu'une décision doit être privilégiée ?

Risque d'être faux positif ?

Risque d'être faux négatif ?


Test sur une valeur

Deux cas sont envisageables :


I L'individu est malade : probabilité p0 = 1/2 d'avoir de la
température.
I L'individu est sain : probabilité p1 = 1/4 d'avoir de la
température.

Le suivi d'un patient consiste à observer n températures (supposées


indépendantes) et à décider si l'individu est malade ou non.
En notant p la probabilité d'avoir de la température on veut tester
H0 : p = p0 = 1/2 (malade) V S H1 : p = p1 = 1/4 (sain)

I Sous H0 , S provient d'une B(n, p0 ).


I Sous H1 , S provient d'une B(n, p1 ).
Distributions de S avec n = 10 relevés :

0 2 4 6 8 10 0 2 4 6 8

Sous H0 Sous H1
Distributions de S avec n = 100 relevés

30 40 50 60 70 10 20 30 40

Sous H0 Sous H1
On doit xer une règle de décision pour rejeter H0 avec un risque
maîtrisé. Par exemple avec 10 observations on regarde la
distribution théorique de S sous H0 :

0 2 4 6 8 10
On doit xer une règle de décision pour rejeter H0 avec un risque
maîtrisé. Par exemple avec 10 observations on regarde la
distribution théorique de S sous H0 :

0 2 4 6 8 10


Probabilité faible sous H0 (' 0.001)
On doit xer une règle de décision pour rejeter H0 avec un risque
maîtrisé. Par exemple avec 10 observations on regarde la
distribution théorique de S sous H0 :

0 2 4 6 8 10


Probabilité faible sous H0 (' 0.001) ,→ Règle : si S = 0 on rejette
H0
On doit xer une règle de décision pour rejeter H0 avec un risque
maîtrisé. Par exemple avec 10 observations on regarde la
distribution théorique de S sous H0 :

0 2 4 6 8 10


Probabilité faible sous H0 (' 0.001) ,→ Règle : si S = 0 on rejette
H0 ,→ Risque d'erreur en rejetant H0 ' 0.001.
On peut aller plus loin (toujours avec 10 observations)

0 2 4 6 8 10
On peut aller plus loin (toujours avec 10 observations)

0 2 4 6 8 10
| {z }
Probabilités assez faible sous H0
P(S = 0, 1, 2) ' 0.055
On peut aller plus loin (toujours avec 10 observations)

0 2 4 6 8 10
| {z }
Probabilités assez faible sous H0
P(S = 0, 1, 2) ' 0.055
On rejette H0 quand S vaut 0, 1 ou 2.
Deux types d'erreurs :
I En réalité H0 est vraie (maladie) ,→ erreur si je rejette H0
,→ c'est le risque d'observer seulement 0, 1 ou 2 pics de
températures alors que l'individu est malade (p = 1/2). On le
maîtrise : cette probabilité vaut environ 0.055.
I En réalité H1 est vraie (individu sain) ,→ erreur si j'accepte H0
,→ c'est le risque d'observer S = 3, 4, · · · , 10 pics de
températures alors que l'individu est sain (p = 1/4).
On va calculer ce deuxième risque.
Calcul de la probabilité d'erreur en acceptant H0 (alors que
l'individu est sain)

0 2 4 6 8
Calcul de la probabilité d'erreur en acceptant H0 (alors que
l'individu est sain)

0 2 4 6 8
| {z }
Sous H1 , P(S = 3, 4, · · · , 10) ' 0.71
Donc si l'individu est sain on peut se tromper avec une forte
probabilité (dans 71% des cas).
On peut calculer l'erreur globale de se tromper (quelle que soit la
décision). On suppose (au début de l'expérience) que l'individu a
une probablité q d'être malade.
P(erreur) = P(erreur ∩ H0 ) + P(erreur ∩ H1 )
= P(erreur|H0 ) ∗ P(H0 ) + P(erreur|H1 ) ∗ P(H1 )
= 0.055 ∗ q + 0.71 ∗ (1 − q)

 0.64 q = 0.1
= 0.38 q = 0.5
0.07 q = 0.9

On voit bien ici qu'il vaut mieux s'intéresser aux taux de faux
négatifs...
Cas intéressant : on ne fait qu'un seul relevé de température
(n = 1).

Règle de décision :
I On observe de la température ,→ on décide H0 (malade).
I On n'observe pas de température ,→ on décide H1 (sain).

Les erreurs possibles :


* Erreur si l'individu est malade : P (T̄ |H0 ) = 1/2 (faux négatif)
* Erreur si l'individu est sain : P (T |H1 ) = 1/4 (faux positif)
* Erreur globale :
P (pile∩H1 ∪f ace∩H0 ) = (1/4∗q +1/2∗(1−q)) = 1/2−q/4
Si on propose une autre règle :

Règle de décision 2 :
I On observe de la température ,→ on décide H0 (malade).
I On n'observe pas de température ,→ on décide H1 (sain).

Les erreurs possibles :


* Erreur si individu sain : P (f ace|H1 ) = 3/4
* Erreur si individu malade : P (pile|H0 ) = 1/2
* Erreur globale : P (T ∩ H0 ∪ T̄ ∩ H1 ) = 1/2 + q/4

Remarque : dans ce cas il vaut mieux décider au hasard (une


chance sur deux de se tromper).
Approximation par une loi normale

Et avec n = 50 observations, si nous faisons l'approximation de la


binomiale par une loi normale alors :
Avec 50 observations

0.20
0.15
Density

0.10
0.05
0.00

5 10 15 20 25 30 35
Avec 50 observations

0.20
0.15
Density

0.10
0.05
0.00

5 10 15 20 25 30 35

Sous H1 Sous H0
| {z } | {z }
Démonstration du TLC

Pour simplier supposons que les variables de la suite X1 , · · · , Xn


sont centrées (m = E(X) = 0) et réduites (σ 2 = V(X) = 1)
(quitte à retrancher m et à diviser par σ ).
On sait que la fonction caractéristique de la loi normale centrée
réduite N (0, 1) est
ϕZ (t) = E exp(itZ) = exp(−t2 /2),


où Z ∼ N (0, 1).
Si la fonction caractéristique de S/n tend (quand n → ∞) vers
exp(−t2 /2) alors la loi de S/n tend vers la loi normale centrée
réduite (Théorème de Lévy).
On va utiliser trois propriétés importantes de la fonction
caractéristique :
t 
ϕX √ = ϕ √X (t),
n n

et si X1 et X2 sont indépendantes alors


ϕX1 +X2 (t) = ϕX1 (t)ϕX2 (t),

et donc si X1 et X2 ont même fonction caractéristique (i.e. même


loi) :
ϕX1 +X2 (t) = ϕX (t)2
Et une dernière propriété : si la variance de X existe alors
ϕ0X (0) = iE(X)
ϕ00X (0) = −E(X 2 ).
Posons (après avoir centré et réduit les Xi )
√ S/n − m √
U= n = S/ n.
σ
Les Xi étant indépendantes et de même fonction caractéristique on
a
ϕU (t) = ϕ √S (t)
n

t 
= ϕS √
n
t 
= ϕX1 +···+Xn √
n
t  t 
= ϕX1 √ · · · ϕXn √
n n
t n
= ϕX √
n
On fait alors un d.l. à l'ordre 2 :
t n t t2 n
ϕX √ = ϕX (0) + i √ ϕ0X (0) + (i2 ) ϕ00X (0) + o(1/n)
n n 2n
t 2 n
= 1− + o(1/n)
2n
−→ exp(−t2 /2) (quand n → ∞)
Test sur deux valeurs

On observe deux échantillons de Bernoulli indépendantes :


X1 , · · · , Xn et Y1 , · · · , Yk . On teste :

H0 : pX = pY V S H1 : pX 6= pY

On utilise l'approximation par la loi normale :


SX /n ≈ N (pX , pX (1 − pX )/n)
SY /k ≈ N (pY , pY (1 − pY )/k).

L'indépendance nous permet d'écrire


SX /n − SY /k ≈ N (pX − pY , V )

SX /n(1 − SX /n) SY /k(1 − SY /k)


avec V = + .
n k
Donc, si H0 est vraie on s'attend à avoir une valeur issue de la loi
normale centrée réduite de T
SX /n − SY /k
T = √ ,
V
on décide alors de rejeter ou non H0 .
Généralisation au cas d'une moyenne

Le TCL s'applique pour toute suite de variables i.i.d. de moyenne m


ayant une variance σ 2 nie. On a
√ X̄ − m
U= n √ → N (0, 1),
σ

ce qui donne l'approximation pour n grand :


X̄ ≈ N (m, σ 2 /n).
Intervalle de conance
On observe X1 , · · · , Xn i.i.d. de moyenne m et de variance σ 2
inconnues. Par exemple des durèes de vie.
On utilise l'approximation précédente combinéeP à la convergence
(en probabilité) de la variance empirique S = (Xi − X̄)2 /n :
2

√ X̄ − m
U= n → N (0, 1) (en loi),
σ
S → σ (en probabilité),
pour conclure
√ X̄ − m
T = n ≈ N (0, 1).
S
Prenons ensuite u fractile de la loi normale tel que :
P(−u ≤ T ≤ u) ≈ 0.95,
on en déduit l'intervalle de conance de niveau 0.95 asymptotique
pour m
S
IC(p, 0.95) = [X̄ ± 1.96 √ ]
n

Vous aimerez peut-être aussi