Académique Documents
Professionnel Documents
Culture Documents
En théorie des probabilités et en statistique, la fonction caractéristique d’une variable aléatoire réelle X
détermine de façon unique sa loi de probabilité. Les valeurs en zéro des dérivées successives de la fonction
caractéristique permettent de calculer les moments de la variable aléatoire.
La fonction caractéristique est la version complexe de la fonction génératrice des moments A un stade
plus avancé, on préfère travailler avec la fonction caractéristique d’une variable aléatoire plutôt qu’avec
sa fonction génératrice des moments.
MX (t) = E etX
La fonction caractéristique de X,
'X : R 7 ! C
t 7 ! 'X (t)
dé…nie pour tout t réel par 'X (t) = E eitX
Remark 1 : le calcul des fonctions caractéristiques est plus délicat, puisqu’il fait appel à la théorie des
fonctions d’une variable complexe.
De…nition 1 : Soit X une variable aléatoire réelle, on appelle fonction caractéristique de X (ou de la
loi de X) la fonction de la variable réelle t dé…nie par:
8 P itx
< e P (X = x) si X v.a discrète
'X (t) = E e itX
= R
k
: eitx fX (x) dx si X v.a continue
IR
p
i étant le nombre imaginaire pur : i = 1
1/ 'X (0) = 1
2/ j'X (t)j 1 pour tout t 2 IR
3/'X est une fonction hermitienne: 'X ( t) = 'X (t); 8t 2 IR
4/ 'aX+b (t) = eitb 'X (at) :
5/ 'X est à valeurs réelles si et seulement si PX = P X : (alors elle est paire).
Proof. :
1/ 'X (0) = 'X (t)jt=0 = E eitX t=0 = E ei0X = E e0 = E (1) = 1
R R R R
2/ j'X (t)j = eitx fX (x) dx eitx fX (x) dx = eitx fX (x) dx = fX (x) dx = 1
IR IR IR | {z } IR
=1
itX
3/ 'X ( t) = E e = E (cos tX i sin tX) = E (cos tX) iE (sin tX)
= E (cos tX) + iE (sin tX) = E (cos tX + i sin tX) = E (eitX ) = 'X (t)
4/ 'aX+b (t) = E eit(aX+b) = E eitaX eitb = eitb E eiatX = eitb 'X (at)
5/ 'X est à valeurs réelles() 'X (t) = 'X (t) = 'X ( t) = ' X (t) ; X et X ont même loi.
P (X = x) = pq x 1
; x2N
P P P x 1
'X (t) = E eitX = eitx P (X = x) = eitx pq x 1
= peit qeit
x x 1 x 1
(y=x 1) it
P it y it1 peit
= pe qe = pe it
= ; qeit < 1
y 0 1 qe 1 qeit
1
b) Cas continu
X E ( ) : La fonction densité de la variable aléatoire X est:
x
fX (x) = e ; x > 0 ( > 0)
R R
+1 R
+1
'X (t) = E eitX = eitx fX (x) dx = eitx e x
dx = eitx e x
dx
IR 0 0
R
+1
x
R
+1
x t
= cos tx:e dx + i sin tx:e dx = 2 +i 2 (Integration par partie)
0 0 + t2 + t2
1
+ it + it it
= 2 = = = 1
+ t2 ( + it) ( it) ( it)
Theorem 3 : La fonction caractéristique d’une variable aléatoire détermine la loi de cette variable. En
d’autres, si deux variables aléatoires admettent même fonction caractéristique, elles ont même loi.
avec X et Y (= X) dépendant.
1 Si 1
X C (0; 1) alors fX (x) = ; x 2 IR
(1 + x2 )
2
Example 7 : (Calcul l’espérance et la variance de la loi X E ( ))
Appliquant ce théorème, alors on a:
0 0 2 2
' (0) ' (t) 1 it i 1 it 1
E (X) = X = X = 1 = 1 =
i i i
00
t=0 " t=0 # " t=0 #
3 3
' (0) 00 i it i 2 it 2
E X 2
= X2 = 'X (0) = 2 1 = 2 1 = 2
i t=0
t=0 t=0
2 2 1 1
D’où V (X) = E X 2 E (X) = 2 2 = 2
Theorem 8 : (Transformée de Fourier inverse) Z Soit 'X (t) la fonction caractéristique d’une variable
aléatoire X de probabilité P sur (IR; F) ; t.q. j'X (t)j dt < +1: Alors P admet une densité fX (x)
IR Z
1 itx
uniformément continue et bornée, donnée par: fX (x) = e 'X (t) dt
2
IR
1 jtj si 1<t<1
Example 9 : Soit X une variable aléatoire de fonction caractéristique 'X (t) =
0 sinon
Z Z
On véri…e facilement que j'X (t)j dt est …ni ( j'X (t)j dt = 1): Alors:
IR IR
2 3
Z Z1 Z0 Z1
1 1 1 4
fX (x) = e itx
'X (t) dt = e itx
(1 jtj) dt = e itx
(1 + t) dt + e itx
(1 t) dt5
2 2 2
20
IR 1 1
3 0
Z Z0 Z1 Z1
1 4 1 1 ix 1 ix 1
= e itx
dt + te itx
dt + e itx
dt te itx
dt5 = e 1 + e + 2 1 eix
2 2 ix ix x
1 1 0 0
1 1 1 1 1
+ 1 e ix e ix
+ 2 e ix
1 = eix 1 eix + 1 e ix
+e ix
ix ix x 2 ix
1 1 1 1 2 1 cos x
+ 1 eix e ix
1 = 2 eix + e ix
= (1 cos x) =
x2 2 x2 2 x2 x2
1.5 Fonction caractéristique d’un vecteur aléatoire
0
De…nition 10 : On appelle fonction caractéristique du vecteur aléatoire X = (X1 ; X2 ; ; Xn ) , la
fonction complexe de n variables aléatoires réelles dé…nie par:
P
n !
i tj Xj
'(X1 ;X2 ; ;Xn ) (t1 ; t2 ; ; tn ) = E e j=1
3
Chapter 2 Les convergences
L’objet de ce chapitre est d’énoncer les deux théorèmes limite qui sont à la base de la théorie des
probabilités et des statistiques à savoir, la loi des grands nombres et le théorème limite central. Pour se
faire, nous dé…nissons di¤érents modes de convergence qui vont nous permettre de traduire le fait qu’une
suite de variables aléatoires converge vers une variable aléatoire limite.
Dans ce chapitre, nous considérons des suites (Xn )n 1 de variables aléatoires dé…nies sur un même
espace probabilisé ( ; F; P ) et nous étudions le comportement asymptôtique de telles suites lorsque n
tend vers l’in…ni.
Example 14 :
1/ On dit que la suite (Xn )n 1 converge en probabilité vers 0 lorsque n tend vers
P
l’in…ni, et l’on écrit Xn ! 0, si pour tout " > 0; on a: lim P (jXn j > ") = 0
n!+1
2/ Soit Xn une variable aléatoire dé…nie sur ( ; F; P ) : On dit que la suite (Xn )n 1
P P
converge en probabilité vers X;et l’on écrit Xn ! X, si Xn X ! 0
1 1 1 1
Example 16 : P Xn = =P Xn = = ; on a:E (Xn ) = 0; V (Xn ) = 2
n n 2 n
V (Xn ) 1
Soit " > 0 P (jXn j > ") = 2 2 (Inégalité de Tchebychev) d’où
"2 n "
P
lim P (jXn j > ") = 0; donc Xn ! 0
n!+1
Theorem 17 : Si la suite (Xn )n de variables aléatoires converge en probabilité vers la variable aléa-
1
1 P 1
toire X et si P (X = 0) = 0, alors: ! :
Xn X
Theorem 18 : Si la suite de points aléatoires (Mn = (Xn ; Yn ))n 1 converge en probabilité vers le point
aléatoire (M = (X; Y )) alors:
P P
1= Xn + Yn ! X + Y 3= aXn ! aX (a 2 IR)
P P
2= Xn Yn ! XY 4= Xn =Yn ! X=Y; P (X = 0) = 0
4
2.3 Convergence presque sûre
De…nition 19 : Soit (Xn )n 1 une suite de variables aléatoires dé…nies sur ( ; F; P ) : On dit que la
suite Xn converge presque sûrement si: P ! = Xn (!) ! X (!) =1
n !+1
C’est-à-dire X n converge en probabilité vers ; ce qui en économétrie est souvent noté plimZn =
2
Example 21 : Soit X1 ; X2 ; ; Xn iid; E (Xj ) = 0; V (Xj ) = j < +1 avec
n
1 X 2
P
lim j = 0: Alors X ! 0 :
n!+1 n2
j=1
Exemple : nombre d’accidents
A…n de …xer ses primes pour l’année à venir, une compagnie d’assurance souhaite connaître le nombre
moyen de sinistres auquels seront confrontés ses clients dans l’année. Les sinistres sont des évènements
rares et l’expérience montrent que pour chaque client, leur nombre peut être modélisé par une variable
de Poisson de paramètre . On suppose aussi que les nombres de sinistres pour deux clients distincts
sont indépendants. La di¢ culté ici est choisir le paramètre > 0.
Pour se faire, la compagnie ouvre ses archives et observe le nombre de sinistres pour 100 de ses
clients sur les 20 dernières années. On note ainsi Xi les nombres de sinistres individuels annuels, où
i = 1; ; 2000. D’après la loi des grands nombres, si Xi est une suite de variables indépendantes de loi
de Poisson P( ), lorsque n tend vers l’in…ni, on a :
Sn X1 + + Xn P
= ! E (X1 ) =
n n
Autrement dit, avec une grande probabilité, si n est assez grand, la moyenne arithmétique Sn =n est
proche de . Une bonne valeur approchée du nombre moyen de sinistres par client chaque année est
S2000 =2000.
5
Proposition 23 : Les assertions suivantes sont équivalentes
L
1/ Xn ! X
2/ 'Xn (t) ! 'X (t) :
n !+1
3/ 8g fonction réelle uniformément continue et bornée alors
E (g (Xn )) ! E (g (X))
n !+1
Theorem 24 : Soit (Xn )n 1 une suite de variables aléatoires iid, d’espérance E (Xi ) = ; et de variance
V (Xi ) = 2 …nie. Alors:
X L
p ! N (0; 1)
= n
en distribution.
Notes historiques
La loi faible des grands nombres a été établie la première fois par J. Bernoulli pour le cas particulier
d’une variable aléatoire binaire ne prenant que les valeurs 0 ou 1. Le résultat a été publié en 1713.
La loi forte des grands nombres est due au mathématicien E. Borel (1871-1956), d’où parfois son autre
appellation : théorème de Borel.
Le théorème central limite a été formulé pour la première fois par A. de Moivre en 1733 pour approx-
imer le nombre de « piles » dans le jet d’une pièce de monnaie équilibrée. Ce travail a été un peu oublié
jusqu’à ce que P.S. Laplace ne l’étende à l’approximation d’une loi binomiale par la loi normale dans son
ouvrage Théorie analytique des probabilités en 1812. C’est dans les premières années du XX e siècle que
A. Lyapounov l’a redé…ni en termes généraux et prouvé avec rigueur.
6
Chapter 3 Vecteurs gaussiens
3.1 Rappel sur les Gaussiennes réelles
2
La loi normale (ou gaussienne) de moyenne 2 IR et de variance > 0 a pour densité:
1
1 (x )2
2
f (x) = p e 2 ; x 2 IR
2
Sa fonction caractéristique vaut:
2 t2
'X (t) = eit 2 ; t2IR
0
De…nition 25 : Soit X = (X1 ; X2 ; ; Xn ) une variable aléatoire à valeurs dans IRn (donc un vecteur
0
aléatoire de dimension n, de vecteur moyenne = 1; 2; ; n et de matrice de covariance D =
(Djk )n n ). On dit que X est un vecteur gaussien si toute combinaison linéaire de ses composantes (i.e
Pn
i Xi pour ( 1 ; 2 ; ; n ) 2 IRn ) suit une loi gaussienne.
i=1
Remark 3 :
1/ Les composantes d’un vecteur gaussien sont des variables aléatoires gaussiennes.
2/ La réciproque est fausse.
Contre-exemple:
Soient X et U deux variables aléatoires indépendantes telles que X suive la loi gaussienne centrée
1
réduite N (0; 1) et que P (U = 1) = P (U = 1) = :
2
Soit Y = XU ; Y N (0; 1), (X; Y ) n’est pas un vecteur gaussien car X + Y n’est pas une variable
1
aléatoire gaussienne (en e¤et, P (X + Y = 0) = ):
2
Proposition 26 : Si X1 ; X2 ; ; Xn sont des variables aléatoires gaussiennes (réelles) indépendantes,
0
alors (X1 ; X2 ; ; Xn ) est un vecteur gaussien.
0 0
De…nition 27 : Soit X = (X1 ; X2 ; ; Xn ) un vecteur gaussien de vecteur moyenne = 1; 2; ; n
et de matrice de covariance D = (Djk )n n : Sa fonction caractéristique a pour expression:
1 0
'X (t) = exp it0 t Dt
2 !
P ; t 2 IRn
n 1 P n
= exp i j tj Djk tj tk
j=1 2 1 j;k n
Theorem 28 (Théorème de Cramer-Wold): La loi d’un vecteur gaussien est complétement déter-
minée par sa moyenne et sa matrice de covariance.(i.e par celles de toutes les combinaisons linéaires de
ses composantes)
1 1 0 1
f (x) = n=2 1=2
exp (x ) D (x )
(2 ) (det D) 2
Notant que: X N ( ; D)
Cas particulier:
Pour n = 2, on a:
2
1 1 2
D= 2
1 2 2
1 2 1 2
1 2 1 2 2 1 2
D = 2 = 2 2
det D 1 2 1 ( 1 2) (1 2) 1 2 1
0
et par la suite la densité de (X1 ; X2 ) est donnée par:
"
2
1 1 x1 1
f (x1 ; x2 ) = p exp 2)
2 1 2 1 2 2 (1 1
#
2
(x1 1 ) (x2 2) x2 2
2 +
1 2 2
0
Proposition 30 : Soit X = (X1 ; X2 ; ; Xn ) un vecteur gaussien à valeurs dans IRn et de loi
N ( ; D) : La variable aléatoire AX + B (A est une matrice m n déterministe, et B 2 IRm ) est
un vecteur gaussien à valeurs dans IRm . De plus sa loi est:
L (AX + B) = N (A + B; ADA0 )
0
Theorem 31 : Soit X = (X1 ; X2 ; ; Xn ) un vecteur gaussien. Pour que les variables aléatoires
X1 ; X 2 ; ; Xn soient indépendantes, il faut et il su¢ t que la matrice de covariance de X soit diagonale.
Y1 + Y2 + + Yn n L
p ! N (0; D)
n
8
3.4 L’indépendance de X et Sn2 (cas gaussien)
0
Soit X = (X1 ; X2 ; ; Xn ) un vecteur aléatoire de IRn ; avec X1 ; X2 ; ; Xn indépendantes de même
loi, d’espérance et de variance 2 …ni.
1 P
n 1 P n 2
On pose X = Xi ; Sn2 = Xi X
n i=1 n 1 i=1
3.5 Exercices
2 1
1. Soit X = (X1 ; X2 ) N (0; ) où =
1 2
a/ Donner la loi de X1 ; X2 : X1 et X2 sont-elles indépendantes?
b/ Ecrire la densité du vecteur X:
c/ Caluler la fonction caractéristique de X:
1 1
d/ Soit Y = (Y1 ; Y2 ) un vecteur aléatoire telque Y = AX où A = une matrice d’ordre
1 1
2
i/ Déterminer la loi de Y:
1 1 2
ii/ Montrer que Y12 + Y22 = X12 + X1 X2 + X22
2 6 3
2
iii/ Déterminer la loi de Z = X12 + X1 X2 + X22
3
2. Soient X; Y; Z des variables aléatoires normales centrées réduites et indépendantes.
a/ Déterminer la loi de U = X + Y + Z
b/ Déterminer la loi de (X Y; Y Z; Z X) : Ces trois variables sont-elles indépendantes?
c/ Montrer que X Y; Y Z et Z X sont indépendantes chacun de U
9
Chapter 4 Distribution d’échantillonnage
4.1 Modèle d’échantillonnage
Soit une expérience aléatoire caractérisée par une variable aléatoire X, dé…nie sur ( ; =), à valeurs dans
, espace des valeurs de X (X : ! X ), P est la loi de probabilité de X, caractérisée par un paramètre
; 2 espace des paramètres.
n
De…nition 38 On appelle modèle d’échantillonnage de taille n; le produit (X ; P )
Remark 5 Une statistique peut être à valeurs dans IR ou IRP ; dans le cas de IRP , on parlera de
statistique vectorielle.
4.2.1 Statistique X
1 Pn
De…nition 41 La statistique X ou moyenne empirique de l’échantillon est : X = Xi
n i=1
2 2
Proposition 42 Si X a une espérance et de variance ; alors E X = : et V X = =n
P:S
Proposition 43 Si X a une espérance , alors: X !
X L
Theorem 44 p ! N (0; 1)
= n
0
4.2.2 Statistiques Sn2 et Sn2
0
De…nition 45 La statistique Sn2 ou variance empirique de l’échantillon est:
0 1 Pn 2
Sn2 = Xi X :
n i=1
2
Theorem 46 Si X a une espérance et de variance : Alors:
0 n 1
1/ E Sn2 = 2
n
0 n 1
2/ V Sn2 = (n 1) 4 (n 3) 4
où 4 étant le moment centré d’ordre 4
n3
de X
0 P:S
3/ Sn2 ! 2
1 P
n 2
De…nition 47 La statistique Sn2 ou variance empirique modi…ée de l’échantillon est: Sn2 = Xi X :
n 1 i=1
2
Theorem 48 Si X a une variance ; alors E Sn2 = 2
10
4.3 Echantillons Gaussiens (normales)
2
On suppose dans ce paragraphe que X N ;
4.3.1 Loi de X
2
Proposition 49 X N ; =n
Proposition 51 Rn (x) B (n; F (x))où F (x) est la fonction de répartition d’une variable aléatoire X
continue.
11
4.6 La conjointe et la vraisemblance
Soit x1 ; x2 ; ; xn une réalisation d’un échantillon (X1 ; X2 ; ; Xn ) d’une variable aléatoire X:
On suppose que X suit une loi de probabilité dépendant d’un paramètre réel : On note alors:
Q
n
- Si X est une v.a continue, L ( ; x1 ; x2 ; ; xn ) = f (xi ; ) ;
i=1
Q
n
- Si X est une v.a discrète, L ( ; x1 ; x2 ; ; xn ) = P (Xi = xi ) :
i=1
L ( ; X1 ; X 2 ; ; Xn )
i=1 i=1
4.7 Exercices
3. Soit X1 ; X2 ; ; Xn n v.a i.i.d de loi U(0;1) :
a/ Montrer que la k-ième statistique d’ordre suit une loi (k; n k + 1) :
b/ Déterminer la loi du couple X(1) ; X(n) et la loi de l’étendue Y = X(n) X(1)
5. Montrer que si (Xk )k 1 est une suite de variables aléatoires iid, de même loi que X et si Mn =
max Xk ; mn = min Xk ; alors si la loi des Xk est la loi de:
1 k n 1 k n
x
e
a/ Gumbel, on a $ (Mn ) = $ (X + ln n) FX (x) = e ; x2R
b/ Fréchet de paramètre , on a $ (Mn ) = $ n1= X FX (x) = e x
; x > 0; >0
1= x
c/ Weibull de paramètre , on a $ ( mn ) = $ n X FX (x) = 1 e ; x>0
12
Chapter 5 Statistique Exhaustive
et Information de Fisher
5.1 L’exhaustivité
De…nition 58 Soit X une variable aléatoire de loi de probabilité P , 2 ( : l’espace des paramètres):
Une statistique T = T (X) est dite exhaustive pour (ou plus précisement pour la famille des lois de P ;
2 ) si la probabilité conditionnelle de X sachant T ne dépend pas de : C’est-à-dire: P (X = x=T = t)
ne dépend pas de :
L ( ; x1 ; x2 ; ; xn ) = g (t) h (x1 ; x2 ; ; xn )
ou encore
L ( ; X1 ; X 2 ; ; Xn ) = g (T ) h (X1 ; X2 ; ; Xn )
iid 2
1/ Soit X1 ; X2 ; ; Xn N 0; : Alors on a:
P
n
2
Q
n
2
Q
n 1 1
x2i 2 n=2
1
2 2
x2i
L ; x1 ; x2 ; ; xn = f xi ; = p e 2 2 = 2 e i=1
i=1 i=1 2
Pn
n=2
1
2 2
x2i
2
= 2 e i=1 : 1
|{z}
| {z }
h(x1 ;x2 ; ;xn )
g 2 (t)
P
n
avec T = Xi2 : SE pour 2
:
i=1
iid
2/ Soit X1 ; X2 ; ; Xn N ( ; 1) : Alors on a:
P
n
Q
n Q
n 1 1
)2 n=2
1
2 (xi )2
L ( ; x1 ; x2 ; ; xn ) = f (xi ; ) = p e 2 (xi = (2 ) e i=1
i=1 i=1 2
Pn P
n
n=2
1
2 (x2i 2 xi + 2 ) n=2
1
2 x2i +n x n
2
2
= (2 ) e i=1 = (2 ) e i=1
P
n P
n
n 2 n=2
1
2 x2i n 2 n=2
1
2 x2i
n x n x
=e 2 (2 ) :e i=1 = e| {z
2
} :(2 ) e i=1
| {z }
g (t) h(x1 ;x2 ; ;xn )
avec T = X : SE pour
i=1 i=1
On a alors
n
X
ln L = n ln xi
i=1
et donc
n
X
@ ln L n 1
= xi = n x
@ i=1
L’information de Fisher est:
" # " #
2 2
@ ln L 1 n
In ( ) = E ( ; X) = E n2 X = n2 V X = 2
@
Remark 7 Il convient de remarquer que, si par exemple X n dépend de . Ces hypothèses ne sont pas
toutes véri…ées. C’est ainsi le cas pour la loi U(0; ) : D’autre part, les lois de la famille exponentielle
véri…ent H1 ; H2 et H3 (L ( ; x) = c ( ) exp fa ( ) T (x)g :h(x))
Theorem 62 Si le domaine de dé…nition de X ne dépend pas de : Alors:
@ 2 ln L
In ( ) = E ( ; X)
@ 2
iid
Example 63 Soit X1 ; X2 ; ; Xn E ( ) : La fonction de vraisemblance s’écrit: :
n n P
n
Y Y xi
xi n
L ( ; x1 ; x2 ; ; xn ) = f (xi ; ) = e = e i=1
i=1 i=1
On a alors
n
X
ln L = n ln xi = n ln n x
i=1
et donc
@ 2 ln L n
=
@ 2 2
5.2.2 Propriétés de In ( )
Soit X1 ; X2 ; ; Xn un échantillon. Si le domaine de dé…nition ne dépend pas de ; alors on a:
1/ In ( ) = nI1 ( ) I(X1 ;X2 ; ;Xn ) ( ) = nIX ( )
2/ L’information portée par une statistique T est inférieur où égale à celle apportée par l’échantillon,
i.e IT ( ) In ( ) :
3/ IT ( ) = In ( ) , T statistique exhaustive.
De…nition 64 On appelle score sur apporté par l’échantillon X1 ; X2 ; ; Xn ;
la quantité:
@ ln L
Sn (X; ) = ( ; X)
@
Sn (X; ) P:S
1/ !0
n
Sn (X; ) L
2/ p ! N (0; 1)
In ( )
14
5.2.3 Information de Fisher: Cas vectoriel
n
Soit (X ; P ) ; 2 ; IRs (X variable aléatoire absolument continue)
@ ln L @ ln L
Iij ( ) = Cov ( ; X) ; ( ; X)
@ i @ j
Proposition 66
@ ln L @ ln L
Iij ( ) = E ( ; X) : ( ; X)
@ i @ j
Theorem 67 Si les hypothèses H1 ; H2 et H3 sont véri…ées dans le cas vectoriel et le domaine ne dépend
pas de : Alors
@ 2 ln L
Iij ( ) = E ( ; X)
@ i@ j
iid 2
Example 68 X1 ; X2 ; ; Xn N ; (exercice)
15
Chapter 6 Estimation paramétrique
Le problème de l’estimation statistique est le suivant : on cherche à connaître les valeurs de certaines
caractéristiques d’une variable aléatoire grâce à des observations réalisées sur un échantillon. Un grand
nombre de problèmes statistiques consistent en la détermination de la moyenne « vraie » , sur la base
d’observations réalisées sur un échantillon. Cependant, on peut aussi chercher à connaître les valeurs
d’autres caractéristiques, comme par exemple: la variance.
Estimer un paramètre, c’est en chercher une valeur approchée en se basant sur les résultats obtenus
dans un échantillon. Lorsqu’un paramètre est estimé par un seul nombre, déduit des résultats de
l’échantillon, ce nombre est appelé estimation ponctuelle du paramètre.
L’estimation ponctuelle se fait à l’aide d’un estimateur, qui est une variable aléatoire d’échantillon.
L’estimation est la valeur que prend la variable aléatoire dans l’échantillon observé.
Lorsqu’on utilise fréquemment des estimateurs ponctuels on souhaite qu’ils possèdent certaines pro-
priétés. Ces propriétés sont importantes pour choisir le meilleur estimateur du paramètre correspondant1 ,
Estimateur sans biais;
Estimateur e¢ cace,
Estimateur convergent.
E (Tn ) = ( ) 8 2
2
Example 70 Soit X1 ; X2 ; ; Xn N ; ;
2 si x pair
Tn = est un estimateur sans biais de ( )=1 e ; >0
0 si x impair
0 1 Pn 2
Example 73 La variance empirique Sn2 = Xi X a pour espérance
n i=1
2 2
0 n 1 0
E Sn2 = 2
= 2
avec n; 2
= ! 0: Donc Sn2 est
n n n n!+1
un estimateur asymptotiquement sans biais pour 2
1 C’est-à-dire celui qui s’approche le plus possible du paramètre à estimer.
16
6.3 Estimateur convergent
De…nition 74 Tn est un estimateur convergent de ( ) s’il converge en probabilité vers ( ):
2
Example 75 X est un estimateur convergent de : X N ;
Theorem 76 Un estimateur Tn dont l’espérance mathématique tend vers ( ) et la variance tend vers
zéro est convergent pour ( ) :
2 4
V Sn2 = ! 0: D’où Sn2 est un estimateur convergent 2
n 1 n!+1
2
1/ EQM (Tn ) = V (Tn ) + [E (Tn ) ] (?)
2/ Si Tn est un estimateur sans biais de alors: EQM (Tn ) = V (Tn )
E (U (X)) = ( ) 8 2
17
2
iid 1 Pn
2 2+4
Example 83 X1 ; X2 ; ; Xn N ( ; 1) : Soit Tn = X2 1 d’espérance et variance
n i=1 i n
avec In ( ) = n
0 2
( ) (2 )
2
4 2 2+4 2
2
Pour ( )= ; on a: BF = = = = V (Tn )
In ( ) n n n
@ ln L @ ln L
Proposition 84 Si Tn et sont dépendant = a ( ) + b ( ) Tn :
@ @
0 2
( )
Alors V (Tn ) =
In ( )
iid
Example 85 X1 ; X2 ; ; Xn N ( ; 1) : Soit Tn = X d’espérance ( )= et
1 @ ln L
variance avec In ( ) = n: Comme ( ; x) = n + x (a ( ) = n ; b ( ) = 1 et Tn = x); alors
n @
0 2
( ) 1
BF = = =V X
In ( ) n
De…nition 86 Sous les conditions de régularité, un estimateur sans biais Tn est dit e¢ cace si:
0 2
( )
V (Tn ) = 8 2
In ( )
Theorem 87 Si les conditions de Cramer-Rao sont véri…ées alors Tn est un estimateur e¢ cace de ( )
si et seulement si il existe une fonction A indépendante de X1 ; X2 ; ; Xn telle que
@ ln L
( ; X) = A (n; ) (Tn ( ))
@
BF
De…nition 88 Un estimateur sans biais Tn de ( ) est asymptotiquement e¢ cace si lim =1
n!+1 V (Tn )
iid 2 1 P
n 2
Example 89 X1 ; X2 ; ; Xn N ; : Soit Sn2 = Xi X d’espérance 2
= 2
et
n 1 i=1
2 4 2 4 2 4 2 4
variance avec BF = alors Sn2 n’est pas e¢ cace car V Sn2 = 6= = BF ; comme
n 1 n n 1 n
BF n 1
= ! 1; alors Sn2 est asymptotiquement e¢ cace pour 2 :
V (Tn ) n n!+1
@ ln L 1 1 1
( ; X) = n X : Si ( )= alors Tn = X est estimateur sans biais de ( )= : De
@
0 0
( ) (1= ) 1= 2 1
plus on a: V (Tn ) = V X = = = = 2
A (n; ) n n n
18
6.6 Méthodes d’estimation
6.6.1 Méthode du maximum de vraisemblance
6.6.1.1 A/ Principe
Cette méthode consiste à prendre comme estimation du paramètre la valeur qui maximise la vraisem-
blance
L ( ; x1 ; x2 ; ; xn )
Si L est deux fois dérivable par rapport à , on peut obtenir eM V en résolvant le système:
8
> @L
>
< @ ( ; x1 ; x2 ;
> ; xn ) = 0 (équation de vraisemblance)
>
> 2
: @ L ( ; x1 ; x2 ;
> ; xn ) < 0
@ 2
En pratique, on travaille plutôt avec la fonction ln L; ce qui est équivalent et conduit généralement à des
calculs plus simple
i/X1 ; X2 ; ; Xn U(0; ) > 0; eM V = maxXi
i
ii/ X1 ; X2 ; ; Xn ( ; 1) (méthode itérative)
Example 92 Soit X1 ; X2 ; ; Xn }( )
n
@L 1X
( ; x1 ; x2 ; ; xn ) = 0 () n+ xi = 0
@ i=1
@2L n
Donc = x, puisque (x; x1 ; x2 ; ; xn ) = < 0; alors l’estimateur du maximum de vraisemblance
@ 2 x
eM V = X
6.6.1.2 B/ Propriétés
Proposition 93 L’estimateur du maximum de vraisemblance n’est pas nécessairement sans biais.
Proposition 94 S’il existe une statistique exhaustive, alors l’estimateur du maximum de vraisemblance
est fonction de cette statistique exhaustive.
Proposition 96 Sous certaines conditions de régularité, pour toute suite en de solutions de l’équation
n 1
de vraisemblance telle que en ! ; on a:
n!+1
e en loi
pn ! N (0; 1)
1=In ( )
19
6.6.2.1 Le principe de la méthode
Soit = ( 1 ; 2 ; ; s) 2 IRs ; mj = E X j = mj ( 1 ; 2 ; ; s ) ; j = 1; k
On suppose qu’on peut exprimer i en fonction de m1 ; m2 ; ; mk ; i = 1; s où les mj et i sont
inconnus; i = hi (m1 ; m2 ; ; mk ) i = 1; s:
P
Or comme Mj ! mj ; on remplace mj par Mj et on a:
ei = hi (M1 ; M2 ; ; Mk )
2
Example 98 Soit X1 ; X2 ; ; Xn N ; :Alors ona:
m1 = E (X) = m1 ; 2 = = m1 = h1 (m1 ; m2 )
() 2 2
m2 = E X 2 = m2 ; 2 = 2
+ 2
= m2 = m2 m21 = h2 (m1 ; m2 )
1 Pn 2 1 Pn 2 0
On déduit eM M = M1 = X et e2M M = M2 M12 = X2 X = Xi X = Sn2
n i=1 i n i=1
2
Exercise 6.6.1 Soit X1 ; X2 ; ; Xn } ( ) : Estimer par la méthode des moments
L’estimation par intervalle d’un paramètre inconnu consiste à calculer, à partir d’un estimateur choisi
e , un intervalle dans lequel il est vraisemblable que la valeur correspondantedu paramètre s’y trouve.
L’intervalle de con…ance est dé…ni par deux limites et auxquelles est associée une certaine probabilité,
…xée à l’avance et aussi élevée qu’on le désire, de contenir la valeur vraie du paramètre.
De…nition 99 Soit un réel …xé appartenant à ]0; 1[ : On appelle intervalle de con…ance pour le paramètre
au niveau de con…ance 1 , tout intervalle [T1 ; T2 ] où T1 et T2 sont deux statistiques véri…ant:
P (T1 T2 ) = 1
Principe de construction
P (T1 T2 ) = 1
= P ( > T2 ) + P ( < T1 )
| {z } | {z }
1 2
20
dgrgfg
21
dfgfgr
22
rtrt
23
Chapter 7 Tests d’hypothèses
Soit X P ; 2 : Une hypothèse est une partie H de : H
7.2 De…nitions
7.2.1 Test paramétique
De…nition 100 Un test est dit paramétrique si les hypothèses sont relatives à un paramètre statistique
( , , . . . ) associé à la loi de probabilité décrivant la variable étudiée. C’est-à-dire que la forme de la loi
de probabilité de X est connu et les hypothèses ne concernent que les paramètres de cette loi.
De…nition 101 Une hypothèse paramétrique qui caractérise entièrement la loi de probabilité est dite
simple (H = f g est un singleton), sinon elle est composite ou multiple
(HS : hypothèse simple, HC : hypothèse composite)
H0 : = 2 (HS)
H1 : = 3 (HS)
ii/ Test sur la moyenne d’une loi normale N ( ; 1)
H0 : = 0 (HS)
H1 : > 0 (HC)
24
Remark 10 :
1/ L’hypothèse nulle notée H0 est l’hypothèse que l’on désire contrôler : elle consiste à dire qu’il
n’existe pas de di¤érence entre les paramètres comparés ou que la di¤érence observée n’est pas
signi…cative et est due aux ‡uctuations d’échantillonnage. Cette hypothèse est formulée dans le but
d’être rejetée.
2/ L’hypothèse alternative notée H1 est la négation de H0 , elle est équivalente à dire « H0 est
fausse » . La décision de rejeter H0 signi…e que H1 est réalisée ou H1 est vraie.
De…nition 105 W est la région de refus de H0 ; ou région critique; W est la région d’acceptation de
l’hypothèse nulle H0 :
Remark 12 La détermination des hypothèses et de la région critique doit se faire avant de connaître le
résultat de l’expérience
Vériré
H0 vraie H1 vraie
Décision
d0 1
risque de 2eme espèce
(accepter H0 ) bonne décision
(erreur de 2eme espèce
d1 1
risque de 1er espèce
(refuser H0 ) bonne décision
(erreur de 1er espèce
De…nition 106 On appelle risque de 1er espèce la probabilité de refuser H0 ; alors que H0 est vraie:
= PH0 (W )
De…nition 107 On appelle risque de 2eme espèce la probabilité d’accepter H0 ; alors que H1 est vraie:
= PH1 W = 1 PH1 (W )
De…nition 108 On appelle puissance d’un test la probabilité de refuser H0 lorsque H1 est vraie:
1 = PH1 (W )
De…nition 109 On appelle niveau d’un test la borne supérieure du risque de 1er espèce
25
7.3 Test d’un hypothèse simple contre hypothèse simple
7.3.1 Le Théorème de NEYMAN et PEARSON
L’hypothèse nulle et l’hypothèse alternative sont toutes deux simples:
H0 : = 0
( 1 6= 0)
H1 : = 1
Pour trouver K, il su¢ t de constater que PH0 (W ) est une fonction de l’inconnue K et on sera amené à
resoudre en K l’équation PH0 (W ) =
Remark 13 L’énoncé du théorème de Neyman et Pearson a été donné dans le cas particulier des tests
purs: 8
>
> L (x; 0 )
< 1 pour x= K
(x) = L (x; 1 )
>
> L (x; 0 )
: 0 pour x= >K
L (x; 1 )
De…nition 111 Le test mixte est dé…ni par:
8
> L (x; 0)
>
> 1 pour x= <K
>
> L (x; 1)
< L (x; 0)
(x) = pour x= =K
>
> L (x; 1)
>
> L (x;
>
: 0 0)
pour x= >K
L (x; 1)
26
Donc on a:
L (x1 ; x2 ; ; xn ; 0) L (x1 ; x2 ; ; xn ; 0 )
K , ln ln (K)
L (x1 ; x2 ; ; xn ; 1) L (x1 ; x2 ; ; xn ; 1 )
Pn n 20 2
1
,( 0 1) xi ln (K) +
i=1 2
n
X 2 2 2 2
2 ln (K) + n 0 1 2 ln (K) + n 0 1
xi ,x =C
i=1
2( 0 1) 2n ( 0 1)
On a donc W = fx 2 n : x Cg
n
i/ Si ( 0 1 ) < 0; on obtient W = fx 2 :x Cg
Détermination de la constante C
Comme 0 = 2 et 1 = 4 alors 0 1 = 2<0
1 p
Sous H0 : = 2; X N 2; d’où n X 2 N (0; 1)
n
et par suite on a:
= PH0 (W )
= PH0 X C
p p
= PH0 n X 2p n (C 2)
= PH0 (N (0; 1) n (C p 2))
= 1 (1 PH0 (N (0; 1) p n (C 2)))
= 1 PH0 (N (0;p 1) < n (C 2))
= 1 FN (0;1) ( n (C 2))
Pour n = 16 et = 0:05 on a: FN (0;1) (4 (C 2)) = 1 0:05 = 0:95:
16
En utilisant la table de la loi normale N (0; 1) ; on trouve C = 2:41125 et on a: W = x 2 :x 2:41125 :
Comme x = 2:6 > 2:41125 alors on refuse H0 : = 2:
Remark 14 Le théorème de Neyman et Pearson s’applique aussi au cas où les deux hypothèses sont
simples, mais non paramétrique. Par exemple, on se propose de tester H0 : X (1) vs H1 : X U[0;1]
2
P
20
Soit X N 0; : Sur la base d’un échantillon de taille 20, avec x2i = 123:16;
i=1
P
3
n = 3; xi = 3 et = 5%: tester les hypothèses suivantes: H0 : = 3 vs H1 : = 2:
i=1
27
7.4 Test entre deux hypothèses composites
7.4.1 Dé…nition de la famille à rapport de vraisemblance monotone (RVM)
De…nition 113 Soit X une variable aléatoire de loi P , admettant une densité f (x; ) ; 2 IR:
La loi P est dite à rapport de vraisemblance monotone (RVM) s’il existe une statistique T : 7 ! IR
(ou de n dans IR pour un échantillon de taille n) telle que le rapport des vraisemblances
0
L x1 ; x2 ; ; xn ; 0
>
L (x1 ; x2 ; ; xn ; )
H0 : 0
H1 : < 0
Example 117 Disposant de n observations indépendantes d’une loi ( ) ; on veut tester au niveau :
H0 : 0
H1 : > 0
Application numérique:
P
4
n = 4; 0 = 1; 0 = 5% et xi = 8
i=1
28
La vraisemblance L ( ; x) s’écrit:
n n P
n n
Y Y xi Y
xi n
L ( ; x) = f (xi ) = e 1[0;+1[ (xi ) = e i=1 1[0;+1[ (xi )
i=1 i=1 i=1
=1 PH0 (Y K) = 1 PH0 (2 0 Y 2 0 K) = 1 F 2
2n
(2 0 K)
1 1
Alors K = F 2 (1 )
2 0 2n
29