Académique Documents
Professionnel Documents
Culture Documents
Février 2013
Loi de Bernoulli
p = P(X = 1),
1 − p = P(X = 0).
Une autre écriture
avec µ = δ0 + δ1 .
Propriétés :
0.12
0.10
0.08
Probabilités
0.06
0.04
0.02
0.00
35 40 45 50 55 60 65
Mois
On pose S = X1 + · · · + Xn .
n!
P(S = s) = px (1 − p)n−s ,
(n − s)!s!
pour s = 0, 1, · · · , n
Propriétés :
I Moyenne et variance :
E(S) = np, V(S) = np(1 − p).
ce n'est pas une binomiale, pourtant les deux maladies sont des
Bernoulli de même paramètre 1/4.
Convergence vers une loi normale ?
0.15
0.20
0.10
Probabilités
Probabilités
0.15
0.10
0.05
0.05
0.00
0.00
0 2 4 6 8 10 10 20 30 40 50
On a S −→ ∞...
La loi normale
On approxime souvent la loi binomiale par une loi normale, qui
pourtant est une loi à densité.
0.4
0.3
0.2
0.1
0.0
−4 −2 0 2 4
Illustration de la densité
0.10
0.08
0.08
0.06
0.06
0.04
0.04
0.02
0.02
0.00
2 4 6 8 10 0 2 4 6 8 10
Distributions de S/n
250
15
200
Probabilités (X10000)
Probabilités (X100)
10
150
100
5
50
0
0
0.1 0.2 0.3 0.4 0.5 0.24 0.26 0.28 0.30 0.32 0.34 0.36
On a S/n −→ p...
Que représente X̄ (ou S/n) ?
0.25
0.20
0.15
0.10
0.05
0.00
0 5 10 15 20
Illustrations du TCL
0.20
0.15
0.10
0.05
0.00
0 5 10 15
Illustrations du TCL
0.20
0.15
0.10
0.05
0.00
5 10 15
Illustrations du TCL
0.4
0.3
0.2
0.1
0.0
4 6 8 10
Approximation par la loi normale
√ S/n − p
où U = n p .
p(1 − p)
Borne pour n = 10 en fonction de p
0.26
Borne pour n10
0.24
0.22
0.2
0.18
0.16
0.2 0.3 0.4 0.5 0.6 0.7 0.8
p
Borne pour n = 30 en fonction de p
0.15
Borne pour n30
0.14
0.13
0.12
0.11
0.1
0.09
0.2 0.3 0.4 0.5 0.6 0.7 0.8
p
Borne pour n = 100 en fonction de p
0.085
0.08
Borne pour n100
0.075
0.07
0.065
0.06
0.055
0.05
0.2 0.3 0.4 0.5 0.6 0.7 0.8
p
Propriétés de la loi normale
Si X ∼ N (m, σ 2 ) alors
I X − m ∼ N (0, σ 2 ),
I X/σ ∼ N (m/σ, 1),
I (X − m)/σ ∼ N (0, 1).
| |− − − − − {z
− − − − − −} | − − − − − {z
− − − − − −} |
q |{z} | q
S S S S
n (1 − n ) S n (1 − n )
−1.96 √ +1.96 √
n n n
En résumé :
I S/n est l'estimation ponctuelle.
q
S
n (1 − Sn )
I √ est (une estimation de) l'écart-type de S/n
n
I 1.96 est associée au niveau
p
S/n(1 − S/n)
IC(p, 0.95) = [S/n ± 1.96 √ ]
n
p
S/n(1 − S/n)
L'amplitude de l'intervalle vaut 2 u √ .
n
I Plus n est grand et plus cette amplitude va diminuer,
1
IC(p, 0.95) ≈ [S/n ± √ ]
n
Test sur une valeur
0 2 4 6 8 10 0 2 4 6 8
Sous H0 Sous H1
Distributions de S avec n = 100 relevés
30 40 50 60 70 10 20 30 40
Sous H0 Sous H1
On doit xer une règle de décision pour rejeter H0 avec un risque
maîtrisé. Par exemple avec 10 observations on regarde la
distribution théorique de S sous H0 :
0 2 4 6 8 10
On doit xer une règle de décision pour rejeter H0 avec un risque
maîtrisé. Par exemple avec 10 observations on regarde la
distribution théorique de S sous H0 :
0 2 4 6 8 10
↑
Probabilité faible sous H0 (' 0.001)
On doit xer une règle de décision pour rejeter H0 avec un risque
maîtrisé. Par exemple avec 10 observations on regarde la
distribution théorique de S sous H0 :
0 2 4 6 8 10
↑
Probabilité faible sous H0 (' 0.001) ,→ Règle : si S = 0 on rejette
H0
On doit xer une règle de décision pour rejeter H0 avec un risque
maîtrisé. Par exemple avec 10 observations on regarde la
distribution théorique de S sous H0 :
0 2 4 6 8 10
↑
Probabilité faible sous H0 (' 0.001) ,→ Règle : si S = 0 on rejette
H0 ,→ Risque d'erreur en rejetant H0 ' 0.001.
On peut aller plus loin (toujours avec 10 observations)
0 2 4 6 8 10
On peut aller plus loin (toujours avec 10 observations)
0 2 4 6 8 10
| {z }
Probabilités assez faible sous H0
P(S = 0, 1, 2) ' 0.055
On peut aller plus loin (toujours avec 10 observations)
0 2 4 6 8 10
| {z }
Probabilités assez faible sous H0
P(S = 0, 1, 2) ' 0.055
On rejette H0 quand S vaut 0, 1 ou 2.
Deux types d'erreurs :
I En réalité H0 est vraie (maladie) ,→ erreur si je rejette H0
,→ c'est le risque d'observer seulement 0, 1 ou 2 pics de
températures alors que l'individu est malade (p = 1/2). On le
maîtrise : cette probabilité vaut environ 0.055.
I En réalité H1 est vraie (individu sain) ,→ erreur si j'accepte H0
,→ c'est le risque d'observer S = 3, 4, · · · , 10 pics de
températures alors que l'individu est sain (p = 1/4).
On va calculer ce deuxième risque.
Calcul de la probabilité d'erreur en acceptant H0 (alors que
l'individu est sain)
0 2 4 6 8
Calcul de la probabilité d'erreur en acceptant H0 (alors que
l'individu est sain)
0 2 4 6 8
| {z }
Sous H1 , P(S = 3, 4, · · · , 10) ' 0.71
Donc si l'individu est sain on peut se tromper avec une forte
probabilité (dans 71% des cas).
On peut calculer l'erreur globale de se tromper (quelle que soit la
décision). On suppose (au début de l'expérience) que l'individu a
une probablité q d'être malade.
P(erreur) = P(erreur ∩ H0 ) + P(erreur ∩ H1 )
= P(erreur|H0 ) ∗ P(H0 ) + P(erreur|H1 ) ∗ P(H1 )
= 0.055 ∗ q + 0.71 ∗ (1 − q)
0.64 q = 0.1
= 0.38 q = 0.5
0.07 q = 0.9
On voit bien ici qu'il vaut mieux s'intéresser aux taux de faux
négatifs...
Cas intéressant : on ne fait qu'un seul relevé de température
(n = 1).
Règle de décision :
I On observe de la température ,→ on décide H0 (malade).
I On n'observe pas de température ,→ on décide H1 (sain).
Règle de décision 2 :
I On observe de la température ,→ on décide H0 (malade).
I On n'observe pas de température ,→ on décide H1 (sain).
0.20
0.15
Density
0.10
0.05
0.00
5 10 15 20 25 30 35
Avec 50 observations
0.20
0.15
Density
0.10
0.05
0.00
5 10 15 20 25 30 35
Sous H1 Sous H0
| {z } | {z }
Démonstration du TLC
où Z ∼ N (0, 1).
Si la fonction caractéristique de S/n tend (quand n → ∞) vers
exp(−t2 /2) alors la loi de S/n tend vers la loi normale centrée
réduite (Théorème de Lévy).
On va utiliser trois propriétés importantes de la fonction
caractéristique :
t
ϕX √ = ϕ √X (t),
n n
t
= ϕS √
n
t
= ϕX1 +···+Xn √
n
t t
= ϕX1 √ · · · ϕXn √
n n
t n
= ϕX √
n
On fait alors un d.l. à l'ordre 2 :
t n t t2 n
ϕX √ = ϕX (0) + i √ ϕ0X (0) + (i2 ) ϕ00X (0) + o(1/n)
n n 2n
t 2 n
= 1− + o(1/n)
2n
−→ exp(−t2 /2) (quand n → ∞)
Test sur deux valeurs
H0 : pX = pY V S H1 : pX 6= pY
√ X̄ − m
U= n → N (0, 1) (en loi),
σ
S → σ (en probabilité),
pour conclure
√ X̄ − m
T = n ≈ N (0, 1).
S
Prenons ensuite u fractile de la loi normale tel que :
P(−u ≤ T ≤ u) ≈ 0.95,
on en déduit l'intervalle de conance de niveau 0.95 asymptotique
pour m
S
IC(p, 0.95) = [X̄ ± 1.96 √ ]
n