Académique Documents
Professionnel Documents
Culture Documents
Année 2007-2008
2
Chapitre 1
Introduction
3
4 CHAPITRE 1. INTRODUCTION
Chapitre 2
xn = A + wn n = 1 . . . N (2.2)
avec A la constante à estimer (et donc le paramètre θ "vrai" vaut A) et wn ; n = 1 . . . N sont des
variables aléatoires gaussiennes de moyenne nulle et de variance σ 2 , et indépendantes entre elles
(on dit que wi sont des variables i.i.d. : indépendantes et identiquement distribuées).
Un autre exemple simple est le cas d’une rampe : xn = A + B.n + wn ; n = 1 . . . N la PDF
s’écrit alors, en considérant θ = [AB]T
" N
#
1 1 X
p(x; θ) = N exp − (xn − A − Bn)2 (2.3)
(2πσ 2 ) 2 2σ 2
n=1
5
6 CHAPITRE 2. ESTIMATION DÉTERMINISTE : INTRODUCTION
Un estimateur est sans biais si E[T (X)] = θ. Un estimateur sera asymptotiquement non biaisé si
limn→∞ B(T ) = 0.
2.3.3 Efficacité
Supposons que les deux estimateurs T1 et T2 soient non biaisés alors on dira que T1 est plus
efficace que T2 si
Var[T1 ] < Var[T2 ]
.
2.3.4 Exemples
On se base toujours
P sur l’estimation d’une moyenne dans du bruit. L’estimateur naturel est
θ̂ = T (x) = x̄ = N1 Ni=n xn . Cette estimateur est non biaisé et asymptotiquement consistant.
Supposons maintenant que le paramètre inconnu soit la variance θ = σ 2 . L’estimateur naturel est
1 PN
θ̂ = T (x) = N i=1 (xn − x̄)2 . Cette estimateur est biaisé et asymptotiquement non biaisé. En
effet on a :
N
X N
X N
X N
X
(xn − A)2 = (xn − x̄ + x̄ − A)2 = (xn − x̄)2 + (x̄ − A)2
n=1 n=1 n=1 n=1
XN
E[S 2 ] = (Var[xi ] − Var[x̄]) = σ 2 (1 − 1/N )
n=1
E[T1 ] = E[T2 ] = θ
Var[T1 ] = θ/n et Var[T2 ] = θ
Les deux estimateurs sont sans biais mais l’estimateur T1 est plus efficace que l’estimateur T2 .
2.4.2 Motivation
L’exemple choisi va nous permettre de conduire les calculs sans trop de difficultés. Le pro-
blème qui nous intéresse est de déterminer la qualité d’un estimateur. Pour cela plusieurs approches
sont possibles par ordre de difficultés décroissantes :
– Déterminer la densité de probabilité de l’estimateur pour une taille n donnée. Les calculs
sont en général très durs à effectuer.
– Déterminer la moyenne et la variance de l’estimateur pour une taille n donnée.
– Déterminer la loi asymptotique de l’estimateur. En général c’est faisable lorsque l’on peut
utiliser le théoréme central limite qui dit que la densité asymptotique est gaussienne. Il reste
ensuite à calculer la moyenne et la variance asymptotique de l’estimateur. Un plus est de
pouvoir calculer la vitesse de convergence de la densité de l’estimateur vers la loi normale.
– Déterminer la moyenne et la variance asymptotique de l’estimateur sans pouvoir montrer
que la loi asymptotique est normale. Cela va permettre de déterminer des intervalles de
confiance.
– Déterminer empiriquement la loi et les moments de l’estimateur à partir de tirage de Monte-
Carlo. Même si on a pu conduire les calculs analytiques précédents cette étape est nécessaire
pour les valider.
n=2 n=5
0.6
0.35
0.5
0.3
0.4 0.25
0.2
0.3
0.15
0.2
0.1
0.1
0.05
0 0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
n=10
0.18
0.25
0.16
0.14
0.2
0.12
0.15 0.1
0.08
0.1
0.06
0.04
0.05
0.02
0 0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
n=50 n=100
0.12
0.08
0.1 0.07
0.06
0.08
0.05
0.06
0.04
0.03
0.04
0.02
0.02
0.01
0 0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
2.4. ETUDE D’UN ESTIMATEUR 9
T2 (X) = a1 X1 + a2 X2 + . . . + aN XN
P
avec N n=1 an = 1. Cette contrainte assure un biais nulle. Maintenant pour comparer les deux
estimateurs nous allons comparer leur variance , on va donc faire une étude au second ordre. En
fait on va montrer qu’auncun estimateur de biais nul ne peut avoir une variance inférieure à la
variance de T1 . Cette borne inférieure porte le nom de borne de Cramer-Rao.
10 CHAPITRE 2. ESTIMATION DÉTERMINISTE : INTRODUCTION
Chapitre 3
3.1 Introduction
Un estimateur MVU est un estimateur dont la moyenne est égale à la vraie valeur du paramètre
sur tout l’intervalle de définition de celui-ci (par exemple a < θ < b) :
n o
E θ̂ = θ a < θ < b.
qui indique que l’erreur quadratique moyenne est composée d’une erreur due à la variance de
l’estimateur et d’une erreur due au biais. En reprenant l’exemple d’une composante continue dans
du bruit, on peut considérer l’estimateur modifié :
N
1 X
 = a xn
N
n=1
a2 σ 2
mse(Â) = + (a − 1)2 A2 .
N
, en dérivant par rapport à a et en annulant la dérivée, on obtient aisément
A2
aopt = .
A2 + σ 2 /N
11
12CHAPITRE 3. ESTIMATEUR NON-BIAISÉ À VARIANCE MINIMALE (MVUE : MINIMUM VARIANCE UNBIASED
On voit donc que l’on obtient une valeur de a qui dépend du paramètre, et l’estimateur MSE n’est
pas réalisable. De manière générale, l’obtention des estimateurs à variance minimale (biaisés et
non-biaisés) n’est pas triviale, et on doit, pour caractériser la performance d’un estimateur quel-
conque, le comparer à une borne inférieure pertinente : c’est le cas de la borne de Cramer-Rao.
∂ ln(P r[X]) 2
E[(T̃ [X] − θ)2 ]E[( ) ]≥1
∂θ
ce qui donne finalement :
1
Var[T̃ [X]] ≥
E[( ∂ ln(P∂θr[X]) )2 ]
Ainsi la variance d’un estimateur non biaisé de θ ne peut pas être inférieure à une valeur appelée
borne de Cramer-Rao. Le calcul de cette borne est indépendant de la forme de l’estimateur, il
dépend uniquement du modèle probabiliste adopté. Dans le cas d’une variable aléatoire discrète
suivant une loi de Bernouilli, on a :
Pn Pn n
X Xn
Xi n− Xi
P r[X = x] = θ i=1 (1 − θ) i=1 ⇒ ln(P r[X]) = Xi ln(θ) + n − ( Xi ) ln(1 − θ)
i=1 i=1
Pn
∂ ln(P r[X = x]) i=1 (Xi − θ) ∂ ln(P r[X = x]) 2 n
= ⇒ E[( ) ]=
∂θ θ(1 − θ) ∂θ θ(1 − θ)
3.3. BORNE DE CRAMER-RAO 13
Remarque :
∂ 2 P r[X=x]
∂ ln(P r[X = x]) 2 ∂θ 2 ( ∂P r[X=x]
∂θ )2
E[( ) ] = E[( − )]
∂θ P r[X = x] P r[X = x]2
∂ 2 P r[X = x] ∂ ln(P r[X = x]) 2 ( ∂P r[X=x]
∂θ )2
On a E[ ] = 0 donc E[( ) ] = −E[ ]
∂θ 2 ∂θ P r[X = x]2
L’estimateur proposé atteind donc la borne pour tout N , il est efficace. On ne peut pas trouver un
autre estimateur non biaisé ayant une variance inférieure. Dans ce sens on peut dire que l’on ne
peut pas trouver mieux.
Il faut noter que la valeur de la borne diminue lorsque N augmente. Donc plus on fait d’observa-
tions et plus l’estimateur est "précis", nous allons clarifier ce point dans la suite.
Théorème 1 (Borne de Cramer-Rao - paramètre scalaire) On suppose que la PDF p(x; θ) sa-
tisfait la condition de régularité :
∂ ln p(x; θ)
E =0 ∀θ
∂θ
où l’espérance est prise par rapport à p(x; θ). Alor, la variance de n’importe quel estimateur non
biaisé θ̂ satisfait
1
var(θ̂) ≥ n 2 o (3.1)
−E ∂ ln p(x;θ) ∂θ 2
où la dérivée est évaluée à la vraie valeur du paramètre et l’espérance est prise par rapport à
p(x; θ). De plus, un estimateur non biaisé atteint la borne si et seulement si
∂ ln p(x; θ)
= I(θ)(g(x) − θ) (3.2)
∂θ
ˆ = g(x) et
pour une fonction g et I. cet estimateur, qui est l’estimateur MVU, est donné par theta
ca variance vaut 1/I(θ).
On notera que I(θ) est appelée l’information de Fisher. En effet, plus l’information I(θ) est
grande, plus la variance est faible (ce qui est cohérent ...).
Théorème 2 (Borne de Cramer-Rao - Paramètre vectoriel) On peut étendre le théorème pré-
cédent au cas d’un paramètre vectoriel θ = [θ1 θ2 . . . θp ]T .
On suppose que p(x; θ) satisfait les conditions de régularité :
∂ ln p(x; θ)
E =0 ∀θ
∂θ
où l’espérance est prise par rapport à p(x; θ). Alors, la matrice de covariance de tout estimateur
non biaisé satisfait :
Cθ̂ − I−1 (θ) ≥ 0 (3.3)
où ≥ 0 signifie que la matrice est positive semi-définie. En particulier, soit un estimateur non
biaisé θ̂, la variance d’un élément vecteur de paramètres est bornée par l’élément diagonal cor-
respondant de l’inverse de la matrice d’information de Fisher :
var(θ̂i ) ≥ I−1 (θ) ii (3.4)
14CHAPITRE 3. ESTIMATEUR NON-BIAISÉ À VARIANCE MINIMALE (MVUE : MINIMUM VARIANCE UNBIASED
où I(θ) est la matrice d’information de Fisher de dimension p × p. Elle est définie par :
∂ 2 ln p(x; θ)
[I(θ)]ij = −E (3.5)
∂θi ∂θj
∂ ln p(x; θ)
= I(θ)(g(x) − θ) (3.6)
∂θ
pour une fonction g et une matrice I. cet estimateur, qui est l’estimateur MVU, est donné par
θ̂ = g(x) et sa matrice de covariance vaut I−1 (θ).
Théorème 3 Pour une loi régulière, une statistique T (X) est suffisante pour θ ssi il existe une
fonction g(t, θ) et une fonction h(X) telles que
4.1 Introduction
Bon nombre de problèmes peuvent être raisonnablement représentés par un modèle linéaire.
De plus, dans ce cas, l’estimateur efficace est très facile à déterminer, et il est utile de donner
brièvement les résultats principaux.
x = Hθ + w
, où w est un bruit blanc (de matrice de covariance σ 2 C et de moyenne nulle. Dans ce cas, l’esti-
mateur MVU est donné par :
θ̂ = (HT C−1 H)−1 HT C−1 x (4.1)
De plus, dans le cas linéaire, l’estimateur MVU est efficace. Cet estimateur étant une transformée
linéaire d’un v.a. gaussienne, il a la forme θ̂ ≃ N (θ, σ 2 (HT C−1 H)−1 ).
15
16CHAPITRE 4. MODÈLE LINÉAIRE ET MEILLEUR ESTIMATEUR LINÉAIRE NON BIAISÉ (BLUE)
N
X
θˆi = ain xn i = 1, 2, . . . , p (4.3)
n=1
E {x} = Hθ
et que
AH = I
En définissant ai = [ai1 ai2 . . . aiN ]T , tel que θ̂i = aTi x et la matrice A = [aT1 aT2 · · · aTp ]T . En
notant également H = [h1 h2 · · · hp ], la contrainte de non biais devient simplement
aTi hj = δij
Estimateur au maximum de
vraisemblance (MLE)
C’est une des méthodes les plus utilisées pour contruire des estimateurs car les estimateurs
ainsi obtenu possèdent les propriétés suivantes (sous des conditions de régularité) :
– Ils sont asymptotiquement non biaisés.
– Ils atteignent asymptotiquement la borne de Cramer-Rao.
– Leur distribution asymptotique est normale.
5.1 Introduction
Etudions le problème qui consiste à estimer le probabilité d’apparition d’un 1 pour une v.a de
Bernouilli. On va noter : P (X = 1) = p et P (x = 0) = 1 − p = q. On cherche la valeur la plus
vraisemblable après avoir effectué les observations. On sait que le paramètre que l’on recherche
satisfait la contrainte 0 ≤ p ≤ 1. Supposons que l’on effectue deux observations x = (0, 1).
Comme on a observé les deux valeurs possibles, il semble naturel de dire que p = 0.5. Si on
observe x = (0, 0) on va dire que p = 0. Supposons maintenant que l’on fasse 3 observations :
x = (0, 0, 1) on va dire que p = 1/3 si on observe x = (1, 1, 1) on va dire que p = 1. Essayons
de formaliser notre raisonnement intuitif. On a fait des observations x = (x1 , . . . , xn ) dont on
connait les valeurs. On sait quelle est la probabilité de faire cette observation. Cette probabilité
dépend du paramètre p que l’on ne connait pas. On va donc dire que la valeur la plus vraisemblable
du paramètre est celle qui maximise cette probabilité.
On notera la fonction de vraisemblance : L(θ) = f (x; θ). Il faut bien remarquer que la variable de
la fonction de vraisemblance est θ et que l’estimateur du maximum de vraisemblance correspond à
la valeur de θ qui maximise cette fonction. Dans un premier temps on va supposer que la fonction
de vraisemblance ne possède qu’un seul maximum.
Reprenons l’exemple de départ, on voit que :
– Si x = (0, 1) alors L(θ/x) = p(1− p) et le maximum correspond à p = 0.5. On peut remar-
quer que dans ce cas la dérivée seconde est négative ce qui caractérise bien un maximum de
la fonction.
– Si x = (0, 0) alors L(θ/x) = (1 − p)2 et le maximum correspond à p = 0. Ici l’extremum
est sur un des bords de la région de recherche.
– Si x = (0, 0, 1) alors L(θ/x) = p(1 − p)2 et le maximum correspond à p = 1/3.
– Si x = (1, 1, 1) alors L(θ/x) = p3 et le maximum correspond à p = 1.
17
18 CHAPITRE 5. ESTIMATEUR AU MAXIMUM DE VRAISEMBLANCE (MLE)
(0,1) (0,0)
0.25 1
0.2 0.8
0.15 0.6
0.1 0.4
0.05 0.2
0 0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
(0,0,1) (1,1,1)
0.16
1
0.14
0.12 0.8
0.1
0.6
0.08
0.06 0.4
0.04
0.2
0.02
0 0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
On a remplacé dans la défintion la relation d’égalité par une relation de proportionnalité de façon
à éliminer tous les facteurs multiplicatifs ne dépendant pas du paramètre à estimer θ.
L’estimateur du maximum de vraisemblance correspond à la valeur θ̂ qui maximise la fonction
L(θ). Le maximum de vraisemblance correspond à la valeur du paramètre θ qui maximise la
probabilité d’apparition des observations (x1 , . . . , xn ).
En général, il est plus commode de travailler avec la log-vraisemblance
n
X
l(θ) = ln(L(θ)) = ln(f (xi ; θ))
i=1
5.2.1 Exemples
Loi exponentielle
Supposons que X1 , . . . , Xn ∼ Exp(θ) donc
. On obtient :
n
Y X
L(θ) = θ exp(−θxi ) = θ n exp(−θ xi )
i=1
n
X
l(θ) = n ln(θ) − θ xi
i=1
n
dl(θ) n X n 1
= − xi = 0 ⇒ θ̂ = Pn =
dθ θ i=1 xi x̄
i=1
ce qui correspond à un maximum car :
d2 l(θ) −n
= <0
dθ 2 θ2
Loi Normale
Supposons que X1 , . . . , Xn ∼ N (θ, σ) (σ connu) donc
1
f (xi ; θ) = √ exp(−(xi − θ)2 /2σ 2 )
2πσ
On obtient :
n
Y n
X
2 2
L(θ) ∼ exp(−(xi − θ) /2σ ) = exp(− (xi − θ)2 /2σ 2 )
i=1 i=1
n
X
l(θ) = − (xi − θ)2 /2σ 2
i=1
n Pn
dl(θ) i=1 xi
X
2
=2 (xi − θ)/2σ = 0 ⇒ θ̂ = = x̄
dθ n
i=1
ce qui correspond à un maximum car :
d2 l(θ) −n
= <0
dθ 2 2σ 2
20 CHAPITRE 5. ESTIMATEUR AU MAXIMUM DE VRAISEMBLANCE (MLE)
Loi uniforme
La fonction de vraisemblance est maximale en une infinité de points, toutes les valeurs de θ com-
prise entre la valeur minimale et la valeur maximale des observations est un estimateur possible.
Il n’y a donc pas unicité de l’estimateur du maximum de vraisemblance.
Regression
Dans les exemples précédents les observations Xi étaient indépendantes et identiquement dis-
tribuées. Ici les observations seront toujours indépendantes mais pas identiquement distribuées,
les moyennes seront différentes et elles dépendent d’une variable auxiliaire ui . Supposons que
Xi ∼ N (θui , σ) et que les variables ui i = 1, . . . , n et σ soient connus. Alors
1
f (xi ; θ) = √ exp(−(xi − θui )2 /2σ 2 )
2πσ
On obtient :
n
Y n
X
L(θ) ∼ exp(−(xi − θui )2 /2σ 2 ) = exp(− (xi − θui )2 /2σ 2 )
i=1 i=1
n
X
l(θ) = − (xi − θui )2 /2σ 2
i=1
n Pn
dl(θ) X xi ui
=2 ui (xi − θui )/2σ 2 = 0 ⇒ θ̂ = Pi=1
n 2
dθ i=1 ui
i=1
ce qui correspond à un maximum car :
Pn 2
d2 l(θ) − i=1 ui
= <0
dθ 2 2σ 2
Il est facile de calculer la moyenne et la variance de l’estimateur. On trouve
X
E[θ̂] = θ et Var[θ̂] = σ 2 / u2i
i
Série Temporelle
C’est un processus de Markov la v.a Xi ne dépend que de v.a. précedente Xi−1 . On peut donc
écrire :
f (x1 , . . . , xn ; θ) = f (x1 /θ)f (x2 /x1 , θ) . . . f (xn /xn−1 , θ)
1
f (x1 ; θ) = √ exp(−x21 /2)
2π
1
f (xi /xi−1 ; θ) = √ exp(−(xi − θxi−1 )2 /2)
2π
La fonction de vraisemblance s’écrit :
n
Y
L(θ) = f (x1 ; θ) f (xi /xi−1 ; θ))
i=2
n
Y
L(θ) ∼ exp(−x21 /2) exp(−(xi − θxi−1 )2 /2)
i=2
n
X
L(θ) ∼ exp(−x21 /2) exp(− (xi − θxi−1 )2 /2)
i=2
On obtient donc :
n
X
l(θ) ∼ −x21 − (xi − θxi−1 )2
i=2
n Pn
dl(θ) X xi−1 xi
∼ xi−1 (xi − θxi−1 ) = 0 ⇒ θ̂ = Pi=2
n 2
dθ i=2 xi−1
i=2
ce qui correspond à un maximum car :
n
d2 l(θ) X
= − x2i−1 < 0
dθ 2
i=2
Si la fonction g(.) n’est pas bijective alors l’équation g−1 (y) peut avoir plusieurs solutions.
Pour contourner ce problème on va regrouper les solutions ayant le même antécédent et prendre
le maximum sur ces solutions. Soit G−1 (y) = {θ : g(θ) = y} l’ensemble des antécedents de y et
notons L(y) la valeur maximale atteinte par L(θ)|θ∈G−1 (y) soit :
L(y) = max L(θ)
θ∈G−1 (y)
ŷ = g(θ̂)
22 CHAPITRE 5. ESTIMATEUR AU MAXIMUM DE VRAISEMBLANCE (MLE)
L(x)
L(x)
x
x
L(g(x))
g(x)
g(x)
L(g(x))
y=g(x)
y=g(x)
5.3.1 Exemple 1
1. Soit (X1 , . . . , Xn ) un ensembles de v.a iid avec
1
Xi ∼ exp(−x/θ) pour x ≥ 0 et θ > 0
θ
On a E[Xi ] = θ et Var[Xi ] = θ 2 .
Il est facile de calculer l’estimateur du maximum de vraisemblance de θ on trouve :
n
1X
θ̂M V = xi
n
i=1
Xi ∼ N (θ, σ 2 )
Estimateur du maximum de
vraisemblance multidimensionnelle
6.1 Vraisemblance
Supposons que xn1 = (x1 , . . . , xn )t sont des réalisations iid d’une v.a Xp×1 de densité de
probabilité f (x; θ) o˘ θ m×1 = (θ1 , . . . , θm )t est un vecteur de paramètres.
On définit la fonction de vraisemblance de la façon suivante :
n
Y
L(θ; xn1 ) = L(θ) = f (xi ; θ)
i=1
Pour un ensemble de valeurs de (x1 , . . . , xn ) fixé la fonction de vraisemblance est une fonction
de θ.
Mais pour tenir compte des différentes réalisations possibles, il faut considérer la fonction de
vraisemblance comme une v.a. que l’on notera L(θ; X) ou pour la log-vraisemblance l(θ; X).
6.1.1 Exemple
Supposons que X ∼ Np (θ, Σ) avec Σp×p connue alors on a :
n
1X
L(θ) = |2πΣ|−n/2 exp(− (xi − θ)t Σ−1 (xi − θ))
2
i=1
et
n
n 1X
l(θ) = − ln(|2πΣ|) − (xi − θ)t Σ−1 (xi − θ)
2 2
i=1
(xi − θ)tΣ−1 (xi − θ) = (xi − x̄)t Σ−1 (xi − x̄) + (x̄ − θ)t Σ−1 (x̄ − θ) + 2(x̄− θ)tΣ−1 (xi − x̄)
23
24CHAPITRE 6. ESTIMATEUR DU MAXIMUM DE VRAISEMBLANCE MULTIDIMENSIONNELLE
ce qui donne :
n
X n
X
(xi − θ)t Σ−1 (xi − θ) = (xi − x̄)t Σ−1 (xi − x̄) + n(x̄ − θ)t Σ−1 (x̄ − θ)
i=1 i=1
Comme (xi − x̄)t Σ−1 (xi − x̄) est un scalaire on peut écrire :
C m×m = E[(T − θ)(T − θ)t ] = E[(T − E[T ] + E[T ] − θ)(T − E[T ] + E[T ] − θ)t ]
= E[(T − E[T ])(T − E[T ])t ] + B(T )B(T )t = Covariance + biais
La fonction score est une fonction mesurable par rapport à Xn1 aussi c’est une variable aléatoire
que l’on notera U(θ).
La covariance de cette v.a est la matrice d’information de Fisher que l’on notera I(θ)
I(θ) = E[U(θ)U(θ)t ]
Théorème 5
I(θ) = E[∇θ ln(f (x; θ))∇θt ln(f (x; θ))] = −E[∇θ ∇θt ln(f (x; θ))]
Iij = E[∇θi ln(f (x; θ))∇θj ln(f (x; θ))] = −E[∇θi ∇θj ln(f (x; θ))]
Démonstration 2 On peut écrire
f (x; θ)∇θ ∇θt f (x; θ) − ∇θ f (x; θ)∇θt f (x; θ))
E[∇θ ∇θt ln(f (x; θ))] = E[ ]
f (x; θ)2
∇θ ∇θt f (x; θ)
= E[ − ∇θ ln(f (x; θ))∇θt ln(f (x; θ))]
f (x; θ)
= −E[∇θ ln(f (x; θ))∇θt ln(f (x; θ))]
On a utilisé les résultats suivants :
– ∇θ ln(f (x; θ) = ∇θ f (x; θ)/f (x; θ)
– E[∇θ U(θ)t ] = E[∇θ ∇θt f (x; θ)/f (x; θ)]
On notera J la matrice d’information stochastique
Remarques :
1. L’estimateur du maximum de vraisemblance est solution de l’équation u(θ̂M V ; xn1 ) = 0
2. On a pour tout θ ∗
Eθ [l(θ ∗ ) − l(θ)] ≤ 0
Démonstration 5
f (Xn1 ; θ ∗ ) f (Xn1 ; θ ∗ )
Eθ [ln ] ≤ ln Eθ [ ] = ln(1) = 0
f (Xn1 ; θ) f (Xn1 ; θ)
On a l’égalité lorsque
l(θ ∗ ) = l(θ)
On a utilisé l’inégalité de Jensen : E[g(X)] ≤ g(E[X]) si g(.) est une fonction concave
comme par exemple la fonction log(.).
Donc la fonction de vraisemblance est maximum en θ paramètre correspondant à la densité
de probabilité des observations.
6.5.1 Exemples
Estimation de la moyenne d’une loi normale
Supposons que X ∼ N (θ, I) alors on a :
np n n
l(θ) = − ln(2π) − tr(S) − (x̄ − θ)t (x̄ − θ)
2 2 2
donc u(θ) = n(x̄ − θ) et θ̂M V = x̄ et I(θ) = nI
on obtient
m
X
∇νi l(ν) = ∇νi θj ∇θj l(θ) = ∇νi θ t ∇θ l(θ)
j=1
de même on a
m
X
∇θi l(θ) = ∇θi νj ∇νj l(ν) = ∇θi ν t ∇ν l(ν)
j=1
On a de même
∇θ l(θ) = H∇ν l(ν)
avec GH = HG = I. Donc
6.6.1 Exemple
Soit
xi = s(θ) + ǫi
donc
Xi ∼ N (s(θ)p×1 , σ 2 I p×p )
En posant ν = s(θ) on a vu que
n p×p
I(ν) = I
σ2
On va calculer I(θ) :
n
I(θ) = HI(ν)H t = HH t
σ2
avec
∇θ1 s(θ)t
H = ..
.
∇θm s(θ) t
sp (θ)
alors
p
X
t ∂si (θ) 2
HH = ( )
∂θ
i=1
et
1
I(θ) = Pp ∂si (θ) 2
σ 2
i=1 ( ∂θ )
1
l(θ) = l(θ̂n ) + (θ − θ̂n )t ∇θ l(θ̂n ) + (θ − θ̂n )t ∇θ (∇θt l(θ̂n ))(θ − θ̂n )
2
Le maximum de vraisemblane est une des solutions de l’équation
∇θ l(θ) = 0
28CHAPITRE 6. ESTIMATEUR DU MAXIMUM DE VRAISEMBLANCE MULTIDIMENSIONNELLE
6.8 Exemples
6.8.1 Modèle linéaire généralisé
L’abbréviation anglo-saxone est GLM pour "Generalized Linear Model". L’observation suit le
modèle suivant :
Y n×1 = X n×k bk × 1 + ǫn×1 et Y ∼ N (Xb, σ 2 I n×n )
k×1
b
Ici θ (k+1)×1 = et la fonction de log-vraisemblance est
σ2
n n 1
l(θ) = − ln(2π) − ln(σ 2 ) − 2 (y − Xb)t (y − Xb)
2 2 2σ
Calculons le gradient de la log-vraisemblance :
−1 −1
∇b l(θ) = ∇b (yyt − 2bt Xy + bt X t Xb) = (−2X t y + 2X t Xb)
2σ 2 2σ 2
n 1
∇σ2 l(θ) = − 2 + 4 (y − Xb)t (y − Xb)
2σ 2σ
La résolution de ∇θ l(θ) = 0 donne comme solutions
(y − X b̂)t (y − X b̂)
b̂ = (X t X)−1 X t y et σˆ2 =
n
avec θ m×1 , Σ(θ)p×p et m(θ)p×1 . On peut montrer que la fonction score u(θ) = (u1 (θ) . . . up (θ))t
s’écrit :
1 n n
uk (θ) = − tr(Σ−1 ∇θk Σ) + tr(Σ−1 ∇θk (Σ)Σ−1 S) − tr(Σ−1 ∇θk S)
2 2 2
avec :
n
1X
S= (xi − m(θ))(xi − m(θ))t
n
i=1
De même on peut montrer que la matrice d’information de Fisher s’écrit :
n
Iij = tr(Σ−1 ∇θi (Σ)Σ−1 ∇θj Σ) + n∇θi mt Σ−1 ∇θj mt
2
6.9. LOI NORMALE MULTIDIMENSIONNELLE 29
Xn
= ∇θ m(θ)Σ−1 (xi − m(θ))
i=1
et
n
X n
X
I(θ) = E[u(θ)u(θ)] = E[∇θ m(θ)Σ−1 (Xi − m(θ)) (Xi − m(θ))t Σ−1 ∇θ (m(θ))t ]
i=1 i=1
−1 −1 t
= ∇θ m(θ)Σ nΣΣ ∇θ (m(θ))
−1
I(θ) = n∇θ m(θ)Σ ∇θ (m(θ))t
et
1 t −1 −1
E[(θ̂M V − θ)(θ̂M V − θ)t ] = (H Σ H)
n
ce qui montre que l’estimateur atteind la borne de Cramer-Rao pour toutes les valeurs de n (et pas
uniquement de façon asymptotique) ce qui est remarquable.
Chapitre 7
Dans l’approche Bayesienne, les paramètres sont considérés comme étant des variables aléa-
toires.
θ̂(x)
θ x
f (θ) f (X|θ) θ̂(.)
+ –
+
θ̃(x)
évaluation de
la performance
31
32 CHAPITRE 7. ESTIMATION : APPROCHE BAYESIENNE
Chapitre 8
Théorie de la détection
Soit xn ≃ N (θ, 1), où θ est une inconnue, que l’on suspecte avoir les valeurs θ = −1 ou
θ = −1 :
H0 : θ = −1
H1 : θ = 1
En général, il y a M ≥ 2 hypothèses H1 , · · · HM (par exemple, un système de reconnaissance
de chiffres pour les codes postaux aura 10 hypothèses : les chiffres de O à 9).
Une règle de décision est utilisée pour décider entre M hypothèses H1 , · · · , HM . Cette règle
de décision est un mapping de
h : RN → {H1 , · · · , HM }
R3
R1 R1
R2
N = 2, M = 3
33
34 CHAPITRE 8. THÉORIE DE LA DÉTECTION
i.i.d.
Soit x = [x1 x2 ]T où xn ∼ N (θ, 1) et le test
H0 : θ = −1
H1 : θ=1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
−1 0 1
8.1.2 Terminologie
Hypothèse simple Si une hypothèse H spécifie une distribution unique pour x, on dit que H est une hypothèse
simple.
Exemple 8.3 hypothèse simple
On veut détecter la présence d’une sinusoïde de fréquence connue fo et de phase φ inconnue :
sn = cos(2πfo n + φ), n = 0, 1, . . . , N − 1
i.i.d.
soit wn ∼ N (0, σ 2 ), σ 2 connu, L’hypothèse
H0 : x = w
Hypothèse composite Si une hypothèse H spécifie une classe de distributions possibles pour x, on dit que H est
une hypothèse composite.
Exemple 8.4 hypothèse composite
Dans l’exemple précédent, l’hypothèse
H1 : x = s + w
Hypothèse nulle On parle en général d’hypothèse nulle si un événement intéressant n’a pas eu lieu (dans
l’exemple précédent, HO est une hypothèse nulle, puisqu’il correspond à la non détection
d’une sinusoïde).
8.2. DÉTECTION BAYESIENNE 35
Test unilatéral
H0 : θ ≤ θ o
θ∈R
H1 : θ > θ o
Test biatéral
H0 : θo ≤ θ ≤ θ1
θ∈R
H1 : θ < θo ou θ > θ1
test de seuillage
H0 : Γ(x) < γ
où Γ(x) est une statistique scalaire
H1 : Γ(x) > γ
H0 : X ∼ f0 (x) = f (x|H0 )
H1 : X ∼ f1 (x) = f (x|H1 )
On suppose qu’à chaque observation x correspond exactement une des deux hypothèses. On consi-
dère ces hypothèses comme étant des variables aléatoires :
x ∈ R0 ⇔ H0 est vraie
x ∈ R1 ⇔ H1 est vraie
de même on a : Z
C 1 = E[C.,1 ] = C.,1 f (x|H1 )dx = C01 P01 + C11 P11
36 CHAPITRE 8. THÉORIE DE LA DÉTECTION
1
X
p0 C 0 + p1 C 1 = Ci,j pj P (declarer Hi |Hj vrai )
i,j=0
Exemple 8.5
Soit une v.a. scalaire et les hypothèses :
H0 : X ∼ N (−1, 1)
H1 : X ∼ N (1, 1)
f 1 (x)
f 0 (x)
p(H 0 |H 1 )
0
−1 0 1
Le test de Bayes correspond au test qui pour une probabilité a priori donnée minimise le risque
bayésien moyen, qui peut être réécrit comme :
Z
C= C00 p0 f0 (x) + C01 p1 f1 (x)dx
ZR0 (8.1)
+ C10 p0 f0 (x) + C11 p1 f1 (x)dx
R1
Pour minimiser cette valeur il faut choisir les régions Ri de façon à ce que la somme des deux
intégrales dans (8.1) soit la plus petite possible. De plus, en se souvenant que {R0 , R1 } forment
une partition de RN , x fait partie d’une et d’une seule région Ri . Il s’ensuit que l’on choisira
x ∈ Ri si l’intégrand est le plus petit :
Le test bayésien est un cas particulier du test du rapport de vraissemblance (LRT : Likelihood
Ratio Test). Un LRT a la forme
H1
Λ(x) ≶ η
H0
où
f1 (x)
Λ(x) =
f0 (x)
Si f0 et f1 sont des masses et si X est défini dans le domaine X , alors le risque bayésien moyen
s’écrit :
X
C = Cij pj P (Hi |Hj )
i,jX
= (C00 p0 f0 (x) + C01 p1 f1 (x))
x∈X ∩R
X 0
Un cas particulier important du détecteur bayésien est celui où C00 = C11 = 1 et C01 =
C10 = 0. Dans ce cas, le risque bayésien moyen est égal à C = p0 P10 + p1 P01 = PE . On
voit donc que le détecteur au minimum de probabilité d’erreur est un cas particulier du détecteur
bayésien.
On considère le problème de la détection d’une constante de valeur A > 0 dans un bruit additif
Gaussien :
H0 : Xi = Wi i = 1, . . . , N
H1 : Xi = A + Wi i = 1, . . . , N
i.i.d.
où Wi ∼ N (0, σ 2 ) et A, σ 2 supposés connus.
Pour trouver le détecteur bayésien, on écrit l’expression du rapport de vraissemblance :
QN
f1 (x) n=1 f1 (xn )
Λ(x) = = QN
f0 (x) n=1 f0 (xn )
N
Y 1 (xn −A)2
√ e− 2σ2
n=1 2πσ 2
= N
Y 1 x2
n
√ e− 2σ2
2πσ 2
n=1
N
1 X
− (xn − A)2
σ 2 n=1
e
= N
1 X 2
− x
σ 2 n=1 n
e
N
A X N A2
xn −
σ2 2σ 2 H1
= e n=1 ≶ η
H0
Le détecteur bayésien se réduit donc à un test de seuillage de la valeur de la moyenne des obser-
vations.
D’autre part, si p0 = p1 = 0.5 et les coûts “classiques” (Cij = 1 − δij ), alors η = 1 et γ = A/2 :
on décide H1 si la moyenne est supérieur à A/2. On notera également que le détecteur bayésien
est un détecteur, linéaire, i.e. obtenu par seuillage d’une fonciton linéaire des observations. De ce
fait, la frontière entre les deux régions est un hyperplan.
γ
Sous l’hypothèse H0 , P (H1 |H0 ) = P (T > γ|H0 ) = Q( σ/√ N
) ; sous l’hypothèse H1 ,
γ−A
P (H0 |H1 ) = P (T < γ|H1 ) = Q( σ/ √ ). On a donc que :
N
0.8
f 0 (x) f 1 (x)
0.6
0.4
0.2
0
−10 −8 −6 −4 −2 0 2 4 6 8 10
0.8
0.6
p 0 f 0 (x)
0.4
p 1 f 1 (x)
0.2
0
−10 −8 −6 −4 −2 0 2 4 6 8 10
γ
A
Hi : X ∼ fi (x), i = 1 . . . M,
XZ
PE = 1 − Pc = 1 − pi fi (x)dx, le détecteur MAP est optimal :
i Ri
8.3.3 Remarques
Le détecteur MAP est un cas particulier de l’estimateur MAP où θ = H0 ou θ = H1 , avec p0
et p1 déterminent la densité a priori. En général, on peut dire que le problème de la détection est
8.4. TEST DE NEYMAN-PEARSON 41
un cas particulier du problème d’estimation avec des paramètres pouvant prendre un nombre fini
de valeurs ;
0.9
PD
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1 PF
0
−10 −8 −6 −4 −2 0 2 4 6 8 10
F IG . 8.3: Illustration des Probabilités de détection et de fausse alarme pour test de seuillage
H1
En considérant la règle de seuillage x ≶ γ, si γ augmente, on a une diminution de la proba-
H0
bilité de fausse alarme, ce qui est désirable, mais une diminution de la probabilité de détection, ce
qui n’est pas désirable. Idéalement, on voudrait PD = 1 et PF = 0, ce qui n’est possible que si les
densités f0 et f1 ont des supports disjoints.
Le critère d’optimisation de Neyman-Pearson est le suivant : parmi tous les détecteurs ayant
une probabilité de fausse alarme valant α on choisit le détecteur qui possède la plus grande proba-
bilité de détection :
max PD (8.4)
s.c.PF ≤α
f1 (x)
où Λ(x) = et η est choisi tel que
f0 (x)
Z
PF = > ηdx = α
Λ(x)
42 CHAPITRE 8. THÉORIE DE LA DÉTECTION
Remarque : On suppose qu’il est possible de trouver η tel que PF = α, ce qui n’est pas
toujours garanti, comme dans le cas de problèmes discrets.
Preuve
Le prbolème d’optimisation sous contraintes (8.4) peut être résolu en utilisant un multiplicateur
de Lagrande. On cherche à trouver
Il suffit donc, pour maximiser l’intégrale, de choisir la région R1 telle que l’intégrand est
positif et la règle est donc du type rapport de vraissemblance avec η = −λ :
f1 (x) H1
≶ −λ
f0 (x) H0
R∞
D’autre part, on a que PF = −λ f0 (X)dx, et il suffit donc de détermine η = −λ tel que
PF = α
8.5. CARACTÉRISTIQUE OPÉRATOIRE DU RÉCEPTEUR 43
0.9
0 dB
0.8
3 dB SNR
0.7
6 dB
0.6
PD
0.5
0.4
0.3
0.2
0.1
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
PF
Sans les démontrer, les principales propriétés d’une COR basée sur un rapport de vraissem-
blance sont :
1. la courbe est concave ;
2. la courbe est située au-dessus de la droite PD = PF ;
dPF
3. la pente de la courbe au point (PF (η), PD (η) est égale à η c.à.d =η .
dPD
8.6.1 Introduction
Un canal symétrique binaire transmet un bit (0 ou 1) correctement avec probabilité 1 − θ et en
erreur avec probabilité θ.
En notant x le bit transmis et y le bit reçu, et avec l’addition binaire, on peut écrire :
y =x+w où w ∼ Bernouilli(θ).
44 CHAPITRE 8. THÉORIE DE LA DÉTECTION
1−θ
0 0
θ
θ
1 1−θ 1
L’objectif est de concevoir un détecteur qui détermine le bit transmis en observant le bit reçu.
Le test d’hypothèse correspondant peut s’écrire :
H0 : y = 0 + w
H1 : y = 1 + w
ou, de manière équivalente :
H0 : y ∼ Bernouilli(θ)
H1 : y ∼ Bernouilli(1 − θ)
En supposant, sans perte de généralité, que θ < 1/2 et les probabilités a priori p0 et p1 , la
question posée est de trouver l’estimée x̂ qui minimise la probabilité d’erreur P (x̂ 6= x). Le
problème étant extrêmement simple, on peut écrire les 4 possibilités de détection :
1. 0 → 0 2. 0 → 0 3. 0 → 1 4. 0 → 1
1→1 1→0 1→1 1→0
La probabilité d’erreur s’écrit PE = p1 P (H0 |H1 ) + p0 P (H1 |H0 ), soit, pour chaque cas :
1. : p1 θ + p0 θ = θ
2. : p1
3. : p0
4. : p1 (1 − θ) + p0 (1 − θ) = 1 − θ
Comme θ < 1/2,le cas 4 n’est jamais la meilleur décision, on a donc 3 cas :
1.Si θ < p0 , p1 x̂ = y
2.Si p1 < θ x̂ = 0
3.Si p0 > θ x̂ = 1
En général, les problèmes étant un peu moins simples que le simple canal symétrique binaire,
il est quasi-impossible d’énumérer toutes les règles
Chapitre 9
45
46 CHAPITRE 9. ANNEXE : VARIABLES ALÉATOIRES.
F (x) = P {X ≤ x} (9.6)
Cette fonction possède les propriétés suivantes :
1. F (−∞) = 0 ; lim F (x) = 1
x→∞
2. F (b) − F (a) = P {a < X ≤ b}
3. F (x) est une fonction monotone non décroissante.
9.2. VARIABLES ALÉATOIRES. 47
La variable aléatoire X est dite discrète si la fonction F (x) est une fonction en escalier, c’est-
à-dire de la forme :
X X
F (x) = Pi u(x − xi ) ; pi > 0 ; Pi = 1 (9.7)
i i
où u() est la fonction échelon. Une telle variable ne peut prendre que les valeurs xi et ce, avec
les probabilités pi .
La variable X est dite continue si la fonction de répartition F (x) est continue.
Dans le cas général, la fonction F (x) peut contenir des discontinuités par saut brusque positif.
F (x)
1
0 x
dF
p(x) = (9.8)
dx
On déduit aisément la signification de p(x) de la propriété :
Z b
P {a < X ≤ b} = F (b) − F (a) = p(x)dx (9.9)
a
Z ∞
d’où p(x)dx = 1 et, en particulier,
−∞
Z ∞
E{f (X)} = f (x)p(x)dx (9.12)
−∞
C’est une moyenne pondérée de la fonction f , la fonction de poids étant la densité de probabi-
lité.
Dans le cas d’une variable aléatoire discrète, on a :
X
E{f (x)} = Pi f (xi ) (9.13)
i
Les moments de la variable aléatoire X sont les espérances mathématiques des puissances X n
Z ∞
n
mn = E{X } = xn p(x)dx x continu (9.14)
−∞
X
n
mn = E{X } = xni Pi x discret (9.15)
i
Z ∞
m1 = E{X} = xp(x)dx x continu (9.16)
−∞
X
m1 = E{X} = xi Pi x discret (9.17)
i
que l’on appelle moyenne ou valeur la plus probable. La moyenne donne la valeur de X autour
de laquelle les résultats d’essais devraient se disperser. 1 Une variable aléatoire est dite centrée si
sa moyenne est nulle. On travaille souvent avec les variables aléatoires centrées (X − m1 ). Les
moments d’ordre supérieur à 1 de la nouvelle variable, notés µn = E{(x − m1 )n } sont souvent
plus utiles que les moments mn .
Xn
On a µn = (−1)k Cnk mn−k mk1 .
k=0
En particulier le moment centré d’ordre deux est la variance :
µ2 = σx2 = E{(x − m1 )2 } = m2 − m21
La racine carrée de la variance σx est appelée dispersion ou écart-type. Elle donne une mesure
de la dispersion vraisemblable de résultats d’essais autour de la moyenne, ainsi que le montre
l’inégalité de Bienaymé-Tchebychef :
σ 2
x
p{|X − m1 | > α} < (9.18)
α
X−m1
Il peut être utile de considérer la variable centrée et réduite σ dont la variance est l’unité.
∂ n F (x1 , x2 , . . . , xn )
p(x1 , x2 , . . . , xn ) = (9.20)
∂x1 ∂x2 . . . ∂xn
L’extension des notions précitées est immédiate.
On exprime les lois marginales par
Z ∞ Z ∞
∂FX1 (x1 )
pX1 (x1 ) = = ... pX1 ...Xn (x1 , x2 , . . . , xn )dx2 . . . dxn (9.22)
∂x1 −∞ −∞
Z ∞ Z ∞
E{f (X1 , . . . Xn )} = ... f (x1 , . . . xn )p(x1 , . . . xn )dx1 . . . dxn (9.26)
−∞ −∞
Z ∞ Z ∞ Z ∞
m10 = x1 p(x1 , x2 )dx1 dx2 = x1 pX1 (x1 )dx1 (9.27)
Z−∞
∞ Z−∞
∞ Z−∞
∞
m01 = x2 p(x1 , x2 )dx1 dx2 = x2 pX2 (x2 )dx2 (9.28)
Z−∞ −∞
∞ Z ∞ Z−∞
∞
m20 = x21 p(x1 , x2 )dx1 dx2 = x21 pX1 (x1 )dx1 (9.29)
Z−∞
∞ Z−∞
∞ Z−∞
∞
m02 = x22 p(x1 , x2 )dx1 dx2 = x22 pX2 (x2 )dx2 (9.30)
−∞ −∞ −∞
Z ∞ Z ∞
m11 = x1 x2 p(x1 , x2 )dx1 dx2 (9.31)
−∞ −∞
50 CHAPITRE 9. ANNEXE : VARIABLES ALÉATOIRES.
Pn
ψx (q1 , ..., qn ) = E{ej k=1 qk Xk } =
Z ∞ Z ∞ Z ∞
jq1 x1 jq2 x2
e dx1 e dx2 ... ejqn xn p(x1 , ..., xn )dxn (9.38)
−∞ −∞ −∞
En particulier, pour n = 2 :
j2
ψx1 ,x2 (q1 , q2 ) = 1 + j(m10 q1 + m01 q2 ) + (m20 q12 + 2m11 q1 q2 + m02 q22 ) + ... (9.40)
2!
et l’on a, sous réserve de différentiabilité :
1 ∂ i+k ψx1 x2
E{X1i X2k } = { }q1 =q2 =0 (9.41)
(j)i+k ∂q1i ∂q2k
9.3. EXTENSION AUX VARIABLES COMPLEXES 51
9.3.2 Moments
Espérance mathématique de la variable ou moyenne.
Soit x = A+jB une variable aléatoire complexe à une ou à plusieurs dimensions. La moyenne
de X est définie par
Z ∞Z ∞
E{X} = mx = (a + jb)pAB (a, b)da db (9.42)
−∞ −∞
on a aussi :
mx = mA + jmB (9.44)
Comme précédemment, la variable (X − mX ) est dite centrée.
σx2 = σA
2 2
+ σB = E{|X|2 } − |mX |2 (9.46)
Considérons maintenant une variable complexe à n dimensions X = A + jB. Par définition,
sa matrice (n x n) de covariance est
CX = CH
X (9.49)
52 CHAPITRE 9. ANNEXE : VARIABLES ALÉATOIRES.
C’est-à-dire que la matrice de covariance est hermitienne. De même, elle est définie non né-
gative.
On adapte d’une manière analogue la définition de la matrice de covariance mutuelle de deux
variables à plusieurs dimensions
La démonstration de la propriété :
La variable réelle à une ou plusieurs dimensions X peut prendre les valeurs a et b avec des
probabilités respectives pa et pb telles que pa et pb = 1 :
Moments.
Fonction caractéristique
Moments.
Fonction caractéristique
Propriétés.
1. Stabilité2 : si X1 et X2 suivent des lois binomiales de paramètres respectifs (n1 , p) et (n2 , p)
– le même p – alors X1 + X2 suit une loi binomiale de paramètres (n1 + n2 , p).
2. Si n → ∞, X est asymptotiquement normale de moyenne np et de variance σ 2 = np(1−p).
3. Si n → ∞ et simultanément p → 0 de telle manière que np → λ, on obtient la loi de
Poisson. On peut approcher la loi de Poisson dès que p < 0, 1 et np > 1.
est relative à une variable réelle à une dimension ne pouvant prendre que les valeurs entières
positives (Fig. 9.2).
Interprétation :
2
Une loi de probabilité est dite stable si la somme de variables indépendantes suivant une loi de ce type obéit elle
aussi à une loi de ce type.
54 CHAPITRE 9. ANNEXE : VARIABLES ALÉATOIRES.
0.2 1
0.1
0 1 2 3 4 5 6 7
Exemple : un nombre n >> 1 de téléviseurs de même marque et de même ‚ge sont en service dans
une ville. La probabilité que l’un quelconque de ces appareils tombe en panne demain est p << 1.
La variable X = nombre d’appareils qui tomberont en panne demain est une loi de Poisson de
paramètre λ = np.
b) Moments
m1 = E{X} = λ
σx2 = λ
Fonction caractéristique
jq −1)
ψx (q) = e−λ(e (9.63)
Propriété de stabilité.
La somme de deux variables aléatoires obéissant à des lois de Poisson de paramètres λ1 et λ2
suit une loi de Poisson de paramètre λ1 + λ2 .
Exemple : le nombre total de téléviseurs de tous ‚ges et marques tombant en panne demain dans
telle ville suit une loi de Poisson.
X λk11 ...λknn
p(x1 , ..., xn ) = e−(λ1 +...+λn) δ(x1 − k1 )...δ(xn − kn ) (9.64)
k1 !...kn !
c’est-à-dire que les composantes x1 , ..., xn sont indépendantes, mais suivent chacune une loi
de Poisson.
c’est-à-dire que X arrive au hasard entre a et b. On dit que X est une variable de chance. La
fonction de répartition est :
0 si x ≤ a
x−a
F (X) = si a ≤ x ≤ b
b−a
1 si x > b
Moments.
a+b (b − a)2
m1 = E{X} = σx2 =
2 12
n
1 X
mn = bk an−k (9.66)
n+1
k=o
p(x) F (x)
a b x
Fonction caractéristique
1
φx (q) = (ejqb − ejqa ) (9.67)
j(b − a)q
1 (x−m)2
p(x) = √ e− 2σ2 (9.68)
σ 2π
Cette loi est unimodale et symétrique autour de m. (Fig. 9.4)
En utilisant la fonction
r Z z
2 ξ2
erf(z) = −erf(−z) = e− 2 dξ; z ≥ 0 (9.69)
π 0
on peut écrire la fonction de répartition sous la forme :
56 CHAPITRE 9. ANNEXE : VARIABLES ALÉATOIRES.
p(x) F (x)
1
0.4
0.242 0.5
0.16
m−σ m x
1 x−m
F (x) = [1 + erf √ ] (9.70)
2 σ 2
Moments.
m1 = E{X} = m
m2 = E{X 2 } = σ 2 + m2 ; µ2 = σ 2
µ3 = 0
µ4 = 3σ 4
...
µ2n−1 = 0
µ2n = (2n − 1)!! σ 2n (9.71)
Fonction caractéristique
σ 2 q2
ψx (q) = ejmq e− 2 (9.72)
Propriétés
– Stabilité : si X1 et X2 sont des variables gaussiennes de paramètres
p(m1 , σ1 ) et (m2 , σ2 ),
respectivement, X1 + X2 est gaussienne de paramètres (m1 + m2 , σ12 + σ22 ).
– On a vu qu’en général, la connaissance des moments de tous les ordres est nécessaire pour
définir une variable aléatoire. Dans le cas de la loi de Gauss, les deux premiers moments
suffisent.
– Si X est normale, Y = aX + b l’est aussi, a et b étant certains.
Densité de probabilité. La variable aléatoire réelle vectorielle X(n x 1) est dite normale si
s
Det C−1 − 1 (x−m)H C−1 (x−m)
p(x1 , ..., xn ) = e 2 (9.73)
(2π)n
où m (vecteur n x 1) est l’espérance mathématique de X
9.4. QUELQUES LOIS DE PROBABILITÉ IMPORTANTES 57
Propriétés.
1. Une variable vectorielle normale est entièrement définie par sa moyenne et sa matrice de
covariance.
2. Les densités de probabilité conditionnelles et marginales sont toutes gaussiennes.
NB : L’inverse n’est pas toujours vrai. Par exemple si X1 est normale (m = 0, σ = 1) et si
m1 0 σ12 µ 1 σ12 −µ
m= = ; C= ; C−1 = ;
m2 0 µ σ22 σ12 σ22 − µ2 −µ σ22
Det C−1 = σ12 σ22 − µ2 )2 ;
2 2 2 2
1 σ2 x1 −2µx1 x2 +σ1 x2
1 2
.
σ 2 σ 2 −µ2
p(x1 , x2 ) = p e 1 2 (9.75)
2π σ12 σ22 − µ2
(
0 si x < 0
p(x) = x
2
− x2
(9.76)
σ2 e
2σ si x ≥ 0
Fonction de répartition :
x2
F (x) = 1 − e− 2σ2 pour x ≥ 0 (9.77)
Moments
r
π
m1 = σ
2
..... µ2 = σx2 = 2σ 2
n n
mn = (2σ 2 ) 2 C(1 + ) (9.78)
2
58 CHAPITRE 9. ANNEXE : VARIABLES ALÉATOIRES.
Fonction Caractéristique
r
π p2 p
ψx (q) = 1 + pe 2 1 − erf √ (9.79)
2 2
jq
avec p = σ
Interprétation
p
Si X1 et X2 sont deux variables normales centrées de variance σ 2 , la variable X = X12 + X22
suit la loi de Rayleigh.
Exemple : tir sur une cible avec des dispersions égales suivant les axes vertical et horizontal ;
le rayon du point d’impact suit la loi de Rayleigh. Autre Exemple : Canal caractérisé par des
chemins multiples. Dans le cas d’un canal physique réel, les réflexions, de quelque type qu’elles
soient, font emprunter plusieurs chemins au signal. L’expression du signal reÁu devient alors :
L
X
r(t) = αi (t)e−ı2π(fc τi (t)+φi (t)) δ(τ − τi (t)) (9.80)
i=0
où αi (t) sont les amplitudes des chemins i et τi (t) les délais. Dans ce cas, on peut exprimer le
signal équivalent passe-bas par : 3
X
r(t) = αn (t)e−jωc τn (t) u[t − τn (t)] (9.81)
n
X
C(τ ; t) = αn (t)e−jωc τn (t) δ[τ − τn (t)] (9.82)
n
X
r(t) = αn (t)e−jθn (t) (9.83)
n
On voit clairement que cette somme, en fonction des angles θn (t), peut engendrer des af-
faiblissements importants par interférences destructives. 4 On parle dans ce cas de canal à éva-
nouissement (fading channel). En général, on peut approximer C(τ ; t) par un processus gaussien
complexe de moyenne nulle. De par ce qui a été dit ci-dessus, on déduit immédiattement que l’en-
veloppe |C(τ ; t)| suit une loi de Rayleigh. On parle dans ce cas de canal de Rayleigh. De plus, si
des réflecteurs ou obstacles fixes existent, C(τ ; t) n’est plus à moyenne nulle et on a un canal de
Rice.
3
En bref, le signal équivalent passe-bas correspond au signal passe-bande en ce sens que son spectre a la même
allure, mais qu’il est translaté pour avoir une «frq́uence centrale» nulle. On a alors, si s(t) est le signal émis passe-
bande, u(t), le signal émis équivalent passe-bas sera relié à s(t) par : s(t) = Re[u(t)ejωc t ].
4
Un cas simple est celui où on a deux chemins de même amplitude et de phase opposée
9.4. QUELQUES LOIS DE PROBABILITÉ IMPORTANTES 59
r − s2 +r2 2 rs
p(r) = e 2σ .I0 ; r≥0 (9.85)
σ2 σ2
Qui est la densité de probabilité d’une variable aléatoire Ricienne.
Fonction de répartition :
∞
−( σs 2 + σr 2 )/2
X s rs
F (r) = 1 − e ( )k Ik ( 2 ) (9.86)
r σ
k=0
Si l’on considère l’ensemble des fonctions définies de cette manière, on appelle une réalisation
de la fonction aléatoire X(t), une fonction Xr (t) où une épreuve a été faite sur les paramètres.
Une autre manière de définir la notion de fonction aléatoire est de dire qu’elle représente un
processus où le hasard peut intervenir à tout moment. On arrive alors naturellement à la définition
suivante :
Une fonction aléatoire (réelle ou complexe, à une ou plusieurs dimensions) de l’argument t est,
pour toute valeur de t, une variable aléatoire (réelle ou complexe, à une ou plusieurs dimensions)
L’argument t sera considéré comme une variable réelle à une dimension, généralement le
temps. On peut étendre l’étude à des arguments à plusieurs dimensions, par exemple les coor-
données spatiales.
Il est évident que la théorie à établir ne devra pas seulement décrire la variable aléatoire X(t1 ),
mais aussi les interdépendances qui existent entre les variables aléatoires X(t1 ), X(t2 ), . . . pour
divers instants.
61
62 CHAPITRE 10. ANNEXE : FONCTIONS ALÉATOIRES
variables x1 et t1 . Mais ce n’est pas suffisant pour déterminer la fonction aléatoire, car on ne sait
rien de l’interdépendance des valeurs prises à des instants différents.
Si l’on considère n valeurs de l’argument t1 , t2 , . . . , tn , on obtient la variable aléatoire à n
dimensions [Xt1 , . . . , Xtn ] que l’on doit caractériser par la densité de probabilité
On admettra qu’une fonction aléatoire est complètement définie par sa densité de probabilité
d’ordre n → ∞. Il suffit donc, en principe de procéder aux extensions de la théorie des variables
aléatoires pour une nombre de variables infini.
Ces notions peuvent être extrapolées sans difficulté aux fonctions aléatoires multidimension-
nelles ou complexes.
Il est certain que l’on ne connaÓtra que très rarement les densités de probabilité de tous ordres,
mais on verra que de nombreux problèmes relatifs à la transmission de l’énergie peuvent être réso-
lus si l’on connaÓt la densité de probabilité d’ordre 2. Cette connaissance est d’ailleurs suffisante
pour caractériser complètement les fonctions aléatoires gaussiennes.
pXt1 ...Xtn (x1 , t1 ; x2 , t2 ; . . . ; xn , tn ) = pXt1 (x1 , t1 )pXt2 (x2 , t2 ) . . . pXtn (xn , tn ) (10.6)
Une telle fonction aléatoire est entièrement définie par sa première densité de probabilité. A
tout instant, le futur est indépendant du présent et du passé, car on peut écrire :
s
DetC−1 − 1 (x−m)H C−1 (x−m)
pXt1 ...Xtn (x1 , t1 ; x2 , t2 ; . . . ; xn , tn ) = e 2 (10.10)
(2π)n
où
m = E{X} (10.11)
où le temps n’intervient que comme variable muette. Par exemple, si l’on étudie la tension de
bruit à la sortie d’un amplificateur, on peut s’imaginer que l’on dispose de n amplificateurs ma-
croscopiquement identiques et que l’on fasse à l’instant t la moyenne des tensions de sortie des
amplificateurs. Pour n → ∞, cette moyenne tend vers mx (t), en probabilité.
Soit une fonction aléatoire réelle ou complexe, scalaire ou vectorielle X(t) de dimension nx1.
La matrice de covariance de X(t) est une fonction certaine réelle ou complexe, scalaire ou ma-
tricielle (de dimension n x n) fonction de t et t′ égale pour tout couple (t, t′ ) à la covariance des
variables aléatoires X(t) et X(t′ ).
H
Cx (t, t′ ) = E{[X(t) − mx (t)][X(t′ ) − mx (t′ )] } (10.14)
H
CXY (t, t′ ) = E{[X(t) − mx (t)][Y (t′ ) − my (t′ )] } (10.16)
Ceci est une conséquence immédiate des propriétés d’hermiticité et de non négative définition
de la matrice
de covariance
d’une variable aléatoire vectorielle appliquées à la variable à deux
X(t)
dimensions .
X(t′ )
La fonction de covariance est définie non négative, c’est-à-dire que, pour toute fonction conti-
nue ξ(t), on a
Z Z
ξ ∗ (t)Cx (t, t′ )ξ(t′ )dt dt′ ≥ 0 (réel !) (10.20)
τ τ
10.5. STATIONNARITÉ ET ERGODISME 65
On peut assez aisément étendre aux fonctions aléatoires vectorielle les propriétés qui vennent
d’être démontrées pour les fonctions scalaires : les variances, covariances et covariances mutuelles
sont des matrices telles que :
H
CX (t, t′ ) = CX (t′ , t)H ; σx 2 (t) = σx2 (t) (10.21)
q
| CX (t, t′ ) ij | ≤ [CX (t, t)]ii [CX (t′ , t′ )]jj (10.22)
CXY (t, t′ ) = CYX H (t′ , t) (10.23)
Stationnarité stricte.
Une fonction aléatoire est dite strictement stationnaire si toutes ses densités de probabilité ne
dépendent pas du choix de l’origine des temps, c’est-à-dire ne changent pas lorsqu’on remplace t
par t + t0 , t0 quelconque.
Ceci implique que la première densité de probabilité est indépendante de t et que la neme
densité de probablité (n quelconque) ne dépend des ti que par les seules différences t2 − t1 , t3 −
t1 , . . . , tn − t1 (en prenant t1 comme référence).
Cette notion n’étant guère utilisable en pratique, on introduit la stationnarité faible.
Définition.
66 CHAPITRE 10. ANNEXE : FONCTIONS ALÉATOIRES
– La fonction aléatoire réelle ou complexe, scalaire ou vectorielle X(t) est dite fai-
blement stationnaire si son espérance mathématique est indépendante de t et si sa
covariance ne dépend de t et t′ que par la différence t − t′ .
– Deux fonctions aléatoires X(t) et Y (t) sont dites mutuellement stationnaires au sens
faible si elles sont chacune faiblement sationnaires et si en outre leur covariance mu-
telle ne dépend que de τ = t − t′ .
Propriétés des variances et covariances. Les propriétés générales des variances et covariances
se transposent de la manière suivante pour les fonctions aléatoires faiblement sationnaires :
1. σx2 = CX (0) est une constante (scalaire ou matrice).
2. Hermiticité : CX (τ ) = CX (−τ )H ; CXY (τ ) = CY X (−τ )H
3. Positive-définition
– Pour une fonction scalaire :
σx2 = CX (0) ≥ 0 (nécessairement réel)
|CX (τ )| ≤ CX (0)
Pour une fonction vectorielle, outre cette propriété valable pour chaque composante,
i.e. pour les éléments diagonaux de la matrice de covariance comparés à ceux de la
matrice de variance, on a
q
| [CX (τ )]ij | ≤ [σx2 ]ii [σx2 ]jj (10.27)
– La matrice §X (ω) = F{CX (τ )}, dont les éléments sont les transformées de Fourier
de ceux de la matrice de covariance, est définie non négative. En particulier, pour une
fonction scalaire réelle ou complexe : §X (ω) ≥ 0 et pour deux fonctions scalaires
réelles ou complexes
p
|SXY (ω)| = |SY∗ X (ω)| ≤ SX (ω)SY (ω)
Cas des fonctions aléatoires périodiques. Une fonction aléatoire X(t) est dite périodique, de
période T , si son espérance mathématique est périodique et si sa fonction de covariance Cx (t, t′ )
est périodique en t et en t′ .
Il en est ainsi si toutes les réalisations possibles de la fonction le sont. Inversement, si mx (t)
et CX (t, t′ ) sont périodiques, X(t) et X(t − T ) sont égales avec une probabilité unité.
Bien sur, une fonction aléatoire périodique n’est pas nécessairement stationnaire au sens faible,
mais pour la rendre telle, il suffit de la décaler sur l’axe t d’une quantité t0 qui est une variable de
chance sur le domaine [0, T ], c’est-à-dire de rendre l’origine de la période purement aléatoire.
10.5.2 Ergodisme.
Dans la pratique, on dispose souvent d’une seule réalisation de la fonction aléatoire à l’étude.
On imagine difficilement devoir construire un millier d’amplificateurs pour déterminer les carac-
téristiques statistiques de ceux-ci. Dès lors, on est confronté à la question suivante : dans quelle
10.5. STATIONNARITÉ ET ERGODISME 67
mesure peut-on déduire de la réalisation dont on dispose (la seule et unique) certaines caracté-
ristiques statistiques de la fonction aléatoire, par exemple des moments qui sont des moyennes
faites sur l’ensemble des réalisation ? La théorie de l’ergodisme tente de répondre à cette quesiton,
principalement pour des fonctions aléatoires.
En bref, cette théorie essayera de rapprocher les moyennes d’ensemble (moyenne des variables
aléatoires Xti des moyennes temporelles (notées < X(t0 ) >)
Typiquement, on considère une variable aléatoire définie à partir d’une fonction aléatoire, gé-
néralement une fonction des valeurs prises par la fonction aléatoire à divers instants :
dont on peut espérer qu’elle tende vers la moyenne d’ensemble E{f } = E{η}.
Evidemment, η étant une variable aléatoire, η(t0 ) est une fonction aléatoire ; pour obtenir la
moyenne temporelle < η >, il faut intégrer et prendre un passage à la limite.
Comme nous étudions surtout la théorie du second ordre, nous nous intéresserons uniquement
à la possiblité de déterminer mx (t) et CX (t, t′ ) dans le cadre cohérent d’hypothèses :
– convergence en moyenne quadratique :
– On dit que la suite de fonctions aléatoires Xn (t) définies sur t ∈ τ converge en
moyenne quadratique pour n → ∞ vers la fonction aléatoire X(t) définie sur τ , et
l’on écrit :
si, pour tout t ∈ τ , la variable aléatoire Xn (t) converge en moyenne vers X(t), i.e. si :
l.i.m. X(t) = X0
n→∞ (10.33)
si
lim E{|X(t) − X0 |2 } = 0 (10.34)
t→t0
Z b Pn ′
X(t) dt = l.i.m. k=1 X(tk,n )(tk,n − tk−1,n )
a
(10.35)
n→∞
avec
a = t0,n < t1,n < · · · < tn,n = b partition de (a,b)
Z b Z bZ b
mx (t) dt ; CX (t, t′ ) dt dt′ (10.36)
a a a
– stationnarité faible.
Moyennes temporelles.
Moyenne temporelle d’une fonction aléatoire X(t) C’est, quand elle existe,
Z t0 +T
1
< X(t0 ) >= l.i.m. Y (T, t0 ) ≡ T X(t) dt
t0 (10.37)
T →∞
Y (T, t0 ) est une variable aléatoire dont la limite < X(t0 ) > est en général aléatoire et dépen-
dante de t0 , ayant les mêmes dimensions que X(t).
Valeur quadratique moyenne (temporelle) d’une fonction aléatoire X(t). C’est, quand elle
existe :
tZ
0 +T
C’est une variable aléatoire scalaire positive, dépendant de t0 . Cette notion est surtout utilisée pour
une fonction aléatoire scalaire, auquel cas elle prend souvent la significaiton d’énergie moyenne
de la réalisation X(t), à un facteur constant près.
10.5. STATIONNARITÉ ET ERGODISME 69
Fonction de corrélation d’une fonction aléatoire X(t) < X(t0 ) > étant supposé existant,
c’est, quand elle existe :
tZ
0 +T
(10.40)
C’est en général une matrice aléatoire (n x n) si X(t) est un vecteur (n x 1), fonction aléatoire
de τ et de t0 .
Fonction de corrélation mutuelle de deux fonctions aléatoires X(t) et Y (t) On suppose <
X(t0 ) > et < Y (t0 ) > existants. C’est, quand elle existe :
tZ
0 +T
(10.41)
C’est en général une matrice aléatoire (n x m).
Définition : une fonction aléatoire (non nécessairement stationnaire) est ergodique au sens large
si < X(t0 ) > existe et est une variable aléatoire indépendante de t0 .
Théorème : si X(t) est faiblement stationnaire et intégrable en moyenne quadratique sur tout
intervalle fini, elle est ergodique au sens large.
Définition : une fonction aléatoire (non nécessairement stationnaire) est ergodique au sens strict
si
1. < X(t0 ) > existe et est un nombre certain indépendant de t0 . (on le note < X >) ;
2. < X >= lim mx (t)
t→∞
Cette limite étant supposée existante. Ce n’est pas toujours le cas, même lorsque mx (t)
est fini. Par exemple X(t) = A sin(ωt) où A est aléatoire, a une espérance mathématique
mx (t) = mA sin(ωt).
70 CHAPITRE 10. ANNEXE : FONCTIONS ALÉATOIRES
Définition : une fonction aléatoire scalaire faiblement stationnaire X(t) est ergodique relativelent
à sa fonction de corrélation si :
1. elle est strictement ergodique ;
2. sa fonction de corrélation RX (τ, t0 ) existe, est certaine et indépendante de t0 . On la note
RX (τ ) ;
3. RX (τ ) = CX (τ ). La fonction de corrélation est égale à la fonction de covariance
Conclusions.
Dans les applications, on suppose fréquemment qu’il y a ergodisme relativement à la fonction
de corrélation, bien que souvent on ne pouiss le démontrer du fait d’une connaissance insuffisante
du modèle mathématique de la fonction aléatoire stationnaire. Cette hypothèse ergodique revient
à admettre l’égalité des moyennes d’ensmeble et des moyennes temporelles jusqu’au deuxième
ordre, ces dernières étant calculées sur la réalisation dont on dispose.
mx =< X >
CX (τ ) = RX (τ )
σx2 = CX (0) = RX (0) =< |X − mx |2 >
[Kay93a] Steven Kay. Fundamentals of statistical Signal Processing : Detection Theory. Prentice
Hall, 1993.
[Kay93b] Steven Kay. Fundamentals of statistical Signal Processing : Estimation Theory. Pren-
tice Hall, 1993.
[Sch91] Louis L. Scharf. “Statistical Signal Processing, Detection, Estimation, and Time Series
Analysis”. Addisson-Wesley, 1991.
71