Académique Documents
Professionnel Documents
Culture Documents
Notes de cours
Année 20222023
Cours : P. Calka
Travaux dirigés : J.-Y. Brua, M. El Machkouri
Bibliographie
l'ENSTA
Dunod
Livres en anglais
Probability : theory and examples, R. Durrett, Cambridge Series in Statistical and Pro-
babilistic Mathematics
Table des matières
4 Espérance conditionnelle 53
4.1 Dénition de l'espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . 54
4.2 Propriétés de l'espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . 59
5 Vecteurs gaussiens 63
5.1 Dénition et fonction caractéristique . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.2 Indépendance et espérances conditionnelles . . . . . . . . . . . . . . . . . . . . . 68
3
4
Rappels d'intégration et de théorie de
la mesure
An de simplier l'exposition, on adopte dès maintenant les notations classiquement utilisées
en théorie des probabilités pour les espaces mesurés. On rappelle ici les résultats principaux qui
permettent de dénir et manipuler l'intégrale de Lebesgue. Les énoncés ne sont pas nécessai-
rement formulés de manière optimale. On conclut par les notions de π -systèmes et λ-systèmes
qui, bien que moins essentielles, peuvent intervenir dans certaines démonstrations des chapitres
suivants.
Dénition 0.1 (tribu, tribu engendrée) Soit Ω un ensemble non vide. Une tribu (ou σ-
algèbre) F sur Ω est un ensemble de parties de Ω (c'est-à-dire F ⊂ P(Ω)) vériant :
(i) ∅ ∈ F ;
(ii) si A ∈ F , alors A ∈ F ;
c
Si C ⊂ P(Ω), alors la plus petite tribu contenant C est appelée tribu engendrée par C et notée
σ(C).
Dénition 0.2 (mesure) Soit (Ω, F) un espace mesurable. Une mesure µ sur (Ω, F) est une
application dénie sur F et à valeurs dans [0, +∞] telle que
(i) µ(∅) = 0 ;
(ii) si (A ) ! est une famille dénombrable d'éléments de F deux à deux disjoints, alors
i i∈N
µ(A ) ;
[ X
µ A = i i
Dénition 0.3 (fonction mesurable) Soient (Ω, F) et (E, E) deux espaces mesurables. Une
application f : Ω −→ E est dite mesurable si pour tout A ∈ E , f (A) ∈ F .
−1
5
Dénition 0.4 (intégrale d'une fonction mesurable à valeurs complexes) (i) Soit s :
Ω −→ [0, +∞[. s est dite fonction simple si elle est mesurable et prend un nombre ni de
valeurs positives. En particulier, s est une fonction simple si et seulement si elle s'écrit sous la
forme s = X α 1 , où N ∈ N , α , · · · , α ∈ R , A , · · · , A ∈ F . L'intégrale de s est alors
N
∗
i Ai 1 N + 1 N
Z N
déf X
s dµ = αi µ(Ai ).
i=1
(ii) Soit f : Ω −→ [0, +∞] une fonction mesurable positive. Alors l'intégrale de f est un nombre
dans [0, +∞] déni comme suit :
Z Z
déf
f dµ = sup{ s dµ : 0 ≤ s ≤ f, s simple}.
Z
(iii) Soit f : Ω −→ C une fonction mesurable à valeurs complexes. Alors si |f |dµ est ni, on
dit que f est intégrable et on dénit l'intégrale de f comme suit :
Z Z Z Z Z
déf
f dµ = max(Re(f ), 0)dµ− max(−Re(f ), 0)dµ+i max(Im(f ), 0)dµ−i max(−Im(f ), 0)dµ.
on a Z Z
lim fn dµ = f dµ.
n→+∞
Lemme 0.6 (lemme de Fatou) Soit (f ) une suite de fonctions mesurables positives. Alors
n n∈N
Z Z
lim inf fn dµ ≤ lim inf fn dµ.
n→+∞ n→+∞
(H1) Il existe une fonction mesurable f telle que f (x) converge vers f (x) pour tout x ∈ Ω
sauf éventuellement sur un ensemble négligeable.
n
(H2) Il existe une fonction positive intégrable g telle que |f (x)| ≤ g(x) sauf éventuellement sur
un ensemble négligeable.
n
Alors Z Z
lim fn dµ = f dµ.
n→+∞
(
Théorème 0.8 (intégrales dépendant d'un paramètre) Soit f : I(t,×ω)Ω −→
7−→
R
f (t, ω)
une fonction de deux variables dénie sur I × Ω où I est un intervalle de R. On note
Z
F (t) = f (t, ω)dµ(ω), t ∈ I,
Ω
6
lorsque cette intégrale existe.
(a) Soit t ∈ I . On suppose que :
(i) pour tout t ∈ I , f (t, ·) : ω 7−→ f (t, ω) est intégrable sur Ω ;
0
t ∈ I et presque-tout ω ∈ Ω.
+
Z
0 ∂f
F (t) = (t, ω)dµ(ω).
Ω ∂t
Dénition 0.9 (π -système) Soit (Ω, F) un espace mesurable. On appelle π-système tout en-
semble de parties de Ω non vide et stable par intersection nie, c'est-à-dire C ⊂ P(Ω) est un
π -système si
(i) C 6= ∅ ;
(ii) pour tous A, B ∈ C, A ∩ B ∈ C.
Dénition 0.10 ( -système)
λ Soit (Ω, F) un espace mesurable. L'ensemble D de parties de Ω
est dit λ-système (ou système de Dynkin) si
(i) Ω ∈ D ;
(ii) pour tous A, B ∈ D avec A ⊂ B, B \ A ∈ D ;
(iii) pour toute famille (A ) dénombrable croissante d'éléments de D, [ A ∈ D.
i i∈N i
Le plus petit λ-système contenant une partie de P(Ω) donnée est appelé λ-système engendré par
i∈N
cette partie.
Théorème 0.11 (théorème π λ Le λ-système engendré par un π -système est aussi la σ -
- )
algèbre engendré par ce π-système.
7
8
Chapitre 1
La théorie des probabilités est une branche des mathématiques qui consiste à étudier des
phénomènes où intervient le hasard. On pense naturellement aux jeux de hasard mais les phé-
nomènes aléatoires se rencontrent aussi et surtout en sciences expérimentales lorsqu'on fait des
observations à un niveau microscopique (l'agitation de molécules de gaz qui produit la tempé-
rature, la séquence d'un brin d'ADN d'un individu) ou qu'on souhaite modéliser l'imprécision
et le bruitage des mesures (par exemple en télécommunications). Plus étonnamment, les proba-
bilités interviennent aussi dans des domaines où il n'y a pas d'aléatoire, par exemple en théorie
des nombres (théorème des nombres premiers) ou en analyse fonctionnelle (théorème de Stone-
Weierstrass).
La théorie des probabilités telle qu'on la connaît aujourd'hui repose principalement sur l'axio-
matisation introduite par A. N. Kolmogorov en 1933. Elle s'appuie sur la théorie de la mesure
et de l'intégrale de Lebesgue.
P(A ) ;
[ X
P A =
i i
(iii) P(Ω) = 1.
i∈N i∈N
On dit alors que le triplet (Ω, F, P) est un espace probabilisé ou espace de probabilité. L'ensemble
Ω est appelé univers et les éléments de la tribu F sont appelés événements.
Remarque. Lorsqu'on réalise une expérience aléatoire (lancer de pièce, attente d'un bus, relevé
du cours d'une action en bourse, etc), le vocabulaire introduit ci-dessus peut être interprété de la
9
manière suivante : l'univers contient l'ensemble de tous les résultats possibles de l'expérience. Un
élément ω de Ω est appelé aléa événement élémentaire
ou . Unévénement est une propriété dont
on peut dire si elle est vraie ou non après réalisation de l'expérience aléatoire. Laprobabilité d'un
événement est le degré de vraisemblance qu'on accorde a priori à l'événement avant de réaliser
l'expérience.
Remarque. On peut réaliser l'univers Ω, c'est-à-dire expliciter l'ensemble des événements élé-
mentaires. Par exemple, lorsque l'expérience est un lancer de pièce (resp. le lancer simultané
d'un dé rouge et d'un dé jaune), on peut prendre Ω = {F, P } (resp. Ω = {1, · · · , 6}2 ). Il y a
aussi de nombreux cas où la réalisation de Ω est dicile. En probabilités, on arrive bien souvent
à se passer d'une dénition précise de Ω et à le manipuler comme un ensemble abstrait contenant
tous les aléas.
1.2 Indépendance
Dénition 1.2 (probabilité conditionnelle, indépendance d'événements) Soient A, B deux
événements. (a) On suppose que P(B) 6= 0. On appelle probabilité conditionnelle de A sachant
B la quantité
P(A ∩ B)
P(A|B) = .
P(B)
(b) A et B sont dits indépendants si
P(A ∩ B) = P(A)P(B). (1.1)
Enn si (Ai )i∈N est une suite croissante d'éléments de D, alors en passant à la limite lorsque i tend
vers l'inni dans l'égalité P(Ai ∩A0 ) = P(Ai )P(A0 ), on obtient que ∪i∈N Ai est aussi élément de D.
• On sait que D contient le π -système C donc d'après le théorème π -λ, on en déduit que D
contient la σ -algèbre engendrée par C . En conclusion de cette étape, on vient de montrer que
10
Etape 2. On xe A ∈ σ(C) et on considère
D0 = {A0 ∈ F : P(A ∩ A0 ) = P(A)P(A0 )}.
On montre de même que D0 est un λ-système qui contient C 0 donc contient σ(C 0 ). En conséquence,
on obtient bien que
un ensemble I non vide. Les A (resp. G ), i ∈ I , sont dits mutuellement indépendants si pour
i i∈I
\ Y
P Ai = P(Ai ) (1.2)
i∈Ini i∈Ini
Remarque. Attention, la mutuelle indépendance n'est pas impliquée par l'indépendance deux
à deux. On rappelle l'exemple élémentaire suivant : après réalisation d'une expérience aléatoire
consistant à lancer deux fois successivement une pièce équilibrée, on considère les événements
A1 , A2 et A3 correspondant respectivement à le premier lancer a donné Pile, le second lancer
a donné Pile et les deux lancers ont donné deux résultats diérents. On constate alors que A1
et A2 , A1 et A3 , A2 et A3 sont indépendants mais que A1 , A2 et A3 ne sont pas mutuellement
indépendants car P(A1 ∩ A3 ∩ A3 ) = 0 6= P(A1 )P(A2 )P(A3 ).
I , avec I ∩ I = ∅ si j 6= k ∈ J.
[
(j) (j) (k)
I=
j∈J
On note enn G j = σ(
[
Ci ) pour tout j ∈ J . Alors les tribus G , j ∈ J , sont indépendantes.
j
i∈I (j)
11
Démonstration. Considérons pour tout j ∈ J l'ensemble
\
b (j) (j)
Cj = Ai : Ini ⊂ I ni, Ai ∈ Ci ∀ i ∈ Ini .
(j)
(j)
i∈Ini
On remarque que Cbj est un π -système qui engendre Gj . De plus, la famille de tous les Cbj , j ∈ J ,
est constituée de π -systèmes mutuellement indépendants. D'après la proposition 1.6, on en dé-
duit alors que les σ -algèbres engendrées sont également mutuellement indépendantes.2
Remarque. Cette propriété est en particulier vraie si les Ci sont déjà des sous-tribus de F .
Ceci pourra être utile lorsque l'on étudiera la mutuelle indépendance des variables aléatoires.
Remarque 1. X représente le résultat numérique obtenu lors d'une expérience aléatoire (résul-
tat d'un lancer de dé, d'un chronomètre à l'issué d'un 100 m, du relevé des précipitations à la
n d'une journée, etc). On demande de pouvoir connaître la valeur de la variable en n'utilisant
que l'information autorisée (c'est-à-dire l'ensemble des événements).
Remarque 2. Compte tenu des ensembles générateurs de B(R) connus, on a notamment les
équivalences
Dénition 1.9 (tribu engendrée par une variable) Soit X une variable aléatoire réelle. La
tribu engendrée par X , notée σ(X), est la plus petite tribu qui rend mesurable l'application X ,
c'est-à-dire
σ(X) = σ({{X ∈ A} : A ∈ B(R)}) = {{X ∈ A} : A ∈ B(R)}. (1.3)
12
Démonstration de (1.3). Il faut vérier que G = {X −1 (A) = {X ∈ A} : A ∈ B(R)} forme
bien une tribu. On constate que G contient Ω (Ω = X −1 (R)), est stable par passage au complé-
mentaire (Ω \ X −1 (A) = X −1 (R \ A) pour tout A ∈ B(R)) et par passage à l'union dénombrable
(∪i∈N X −1 (Ai ) = X −1 (∪i∈N Ai ) pour toute suite (Ai )i∈N ∈ B(R)N ).2
Dénition 1.10 (loi d'une variable) Soit X une variable aléatoire réelle. La loi de probabilité
notée P de X est une mesure de probabilité sur B(R) dénie comme la mesure-image de P par
X , c'est-à-dire
X
P X = µe + µc
où
- µe est une mesure étrangère à la mesure de Lebesgue λ sur R, c'est-à-dire qu'il existe deux
boréliens A et B vériant A ∩ B = ∅ et A ∪ B = R et tels que µe (A) = 0 et λ(B) = 0 ;
- µc est une mesure absolument continue par rapport à la mesure de Lebesgue λ, c'est-à-dire
que pour tout A ∈ B(R) tel que λ(A) = 0, on a µc (A) = 0.
Partie absolument continue µc : le théorème de Radon-Nikodym montre alors qu'il existe une
fonction mesurable positive fX unique à un ensemble presque-partout près (dite dérivée de
Radon-Nikodym de µC par rapport à λ) telle que
Z
µc (A) = fX (x)dx.
A
On peut aussi noter dµc (x) = fX (x)dx.
µ e = µd + µs
où
- µd est une mesure discrète, c'est-à-dire qu'il existe un sous-ensemble D dénombrable de
R tel que µd (R \ D) = 0 ;
- µs est une mesure singulière (c'est-à-dire étrangère à λ) et diuse, c'est-à-dire que µs ({a}) =
0 pour tout a ∈ R. On parle aussi de mesure sans atome.
Il est extrêmement rare de rencontrer des mesures singulières et diuses. Un exemple délicat est
la mesure dont la fonction de répartition (voir section suivante) est ce que l'on appelle l'escalier
de Cantor. Dans la plupart des cas rencontrés en théorie des probabilités, la loi de probabilité
d'une variable aléatoire réelle n'a que deux parties, une à densité et l'autre discrète.
Dénition 1.11 (variable réelle discrète) Une variable aléatoire réelle discrète X est une
variable dont la loi de probabilité P n'a qu'une partie discrète, c'est-à-dire telle qu'il existe un
sous-ensemble dénombrable D de R vériant P (D) = 1 (on dit aussi que le support de X est
X
dénombrable).
X
13
Remarque. En notant D = {ai : i ∈ N} et pi = PX ({ai }) pour tout i ∈ N, la mesure PX s'écrit
X
alors comme combinaison linéaire de mesures de Dirac : PX = pi δai . En particulier, pour
i∈N
tout A ∈ B(R), on a
X
PX (A) = pi 1A (ai ).
i∈N
On rappelle que le support de la mesure PX est l'intersection de tous les fermés A de R tels
que PX (A) = 1. Dans le cas présent, le support de PX est l'ensemble de tous les ai tels que pi 6= 0.
Exemples. Les lois discrètes classiques sont la loi de Dirac en un point (de support un sin-
gleton), la loi de Bernoulli (de support {0, 1}), la loi binomiable (de support {0, · · · , n}, n ∈ N
xé), la loi géométrique (de support N∗ ), la loi de Poisson (de support N), la loi hypergéomé-
trique, la loi binomiale négative... Le lecteur est invité à se reporter au tableau récapitulatif des
lois en n de polycopié.
Dénition 1.12 (variable réelle à densité) Une variable aléatoire réelle à densité est une
variable dont la loi de probabilité P n'a qu'une partie absolument continue, c'est-à-dire telle qu'il
existe une fonction intégrable positive f , d'intégrale 1 sur R, unique à un ensemble négligeable
X
X X
Exemples. Les lois à densité classiques sont la loi uniforme sur un intervalle ]a, b[, a < b
(de support [a, b]), la loi exponentielle (de support R+ ), la loi gaussienne ou normale (de sup-
port R), les lois de Cauchy, Gamma, de Student, du χ2 ... Le lecteur est invité à se reporter au
tableau récapitulatif des lois en n de polycopié.
Remarque. Attention, il existe des variables qui ne sont ni discrètes, ni continues. Par exemple,
supposons que le nombre de personnes présentes devant moi à un guichet lorsque j'arrive suit
une loi de Poisson et que le temps de service pour chaque personne suit une loi exponentielle
(les variables étant mutuellement indépendantes). Notons X le temps que je dois attendre avant
de commencer à être servi. Cette variable a une loi de probabilité qui n'est ni discrète, ni à
densité : elle a deux parties et son support est [0, +∞[. La partie discrète comprend uniquement
une mesure de Dirac en zéro (avec un certain coecient multiplicatif p dans ]0, 1[), la partie
continue possède une densité fX dont l'intégrale sur R est égale à (1 − p). En eet, la probabilité
p que X soit nul est égale à la probabilité que la loi de Poisson soit nulle, donc est non nulle.
De plus, on peut calculer directement la densité de X sur l'intervalle ]0, +∞[ en décomposant
suivant la valeur de la loi de Poisson dans N∗ .
Dénition 1.13 (variables identiques en loi) Deux variables réelles X et Y sont dites iden-
tiques en loi ou identiquement distribuées si leurs lois de probabilités sont égales, c'est-à-dire
P = P . On note alors X = Y .
loi
X Y
14
Remarque. Attention, deux variables peuvent être identiques en loi sans être égales. Par
loi
exemple, si X suit une loi gaussienne de moyenne nulle, alors X = −X . Pour autant, P(X =
−X) = P(X = 0) = 0. Il en va de même pour X et (1 − X) si X suit une loi uniforme sur ]0, 1[.
Dénition 1.14 (espérance d'une
Z variable
Z réelle, moments d'ordre (a) Soit X une
k)
variable aléatoire réelle vériant |X|dP = |x|dPX (x) < +∞. Alors on appelle espérance de
X , le réel Z Z
E(X) = XdP = xdPX (x).
Ω R
Z Z
(b) Soit k ∈ N et soit X une variable aléatoire réelle vériant
∗
|X| dP = |x|k dPX (x) < +∞
k
.
Alors on appelle moment d'ordre k de XZ, le réel Z
E(X k ) = X k dP = xk dPX (x).
Ω R
(c) Lorsque le moment d'ordre 2 existe, la variance de X est le réel positif
Var(X) = E[(X − E(X))2 ] = E(X 2 ) − [E(X)]2 .
Remarque. Lorsque X estZune variable aléatoire positive presque-sûrement, il arrive qu'on uti-
lise la notation E(X) pour XdP, même lorsque cette quantité n'est pas nie.
X
Exemples. Lorsque X est une variable discrète de support D = {ai : i ∈ N}, si P(X =
i∈N
ai )|ai |k < +∞ pour k ∈ N∗ , on a
Z Z X
E(X ) = X dP = xk dPX (x) =
k k
P(X = ai )aki .
i∈N
Z
Lorsque X est une variable de densité fX , si |x|k fX (x)dx < +∞ pour k ∈ N∗ , on a
Z Z Z
E(X ) =
k k
X dP = k
x dPX (x) = xk fX (x)dx.
Z
De même, pour toute fonction mesurable h : R −→ R telle que |h(X)|dP < +∞, on a
X
E(h(X)) = P(X = ai )h(ai ) si X discrète
i∈N
Z
E(h(X)) = h(x)fX (x)dx si X à densité.
15
Dénition 1.15 (fonction de répartition) Soit X une variable aléatoire réelle. La fonction
de répartition de X est l'application
(
R −→ [0, 1]
FX :
t 7−→ P(X ≤ t)
Enn, si (Ai )i∈N est une suite croissante d'éléments de D, alors ∪i∈N Ai ∈ D car
! !
[ [
PX Ai = lim PX (Ai ) = lim PY (Ai ) = PY Ai .
i→+∞ i→+∞
i∈N i∈N
Réciproquement, toute fonction satisfaisant les trois conditions ci-dessus est la fonction de ré-
X X
t→−∞ t→+∞
La propriété utilisée ci-dessus est celle de la mesure d'une intersection dénombrable décroissante
d'ensembles.
16
Montrons enn que lim FX (t) = 1 (la limite en −∞ se traitant de manière analogue) :
t→+∞
pour toute suite (tn )n∈N qui croît vers +∞, on a
où F −
X (t ) désigne la limite à gauche de F en t.
X
Proposition 1.19 (fonction de répartition d'une variable discrète) Xest une variable
réelle discrète si et seulement si sa fonction de répartition F est constante par morceaux.
X est une variable réelle de loi diuse (c'est-à-dire ne chargeant pas de singleton) si F est
X
continue.
X
Dans le cas d'une variable à densité, il existe un lien entre fonction de répartition et densité.
Proposition 1.20 (fonction de répartition d'une variable à densité) Lorsque X est une
variable de densité f , sa fonction de répartition est dérivable presque-partout, de dérivée f .
X X
Remarque. La réciproque est fausse. En eet, on peut montrer que la fonction de répartition
FX est toujours dérivable presque-partout car il s'agit d'une fonction croissante. Pour autant, la
loi de X peut ne pas être à densité. Par exemple, si FX est le célèbre escalier de Cantor, alors
sa dérivée presque-partout est nulle mais la fonction nulle n'est évidemment pas la densité de la
loi.
17
Dénition 1.21 (fonction caractéristique d'une variable réelle) Soit X variable réelle.
Alors la fonction caractéristique de X (ou transformée de Fourier de la loi P ) est X
R −→ C
Z
ϕX :
u 7−→ E e iuX
= eiux dPX (x)
Notons que E est non vide (il contient les fonctions constantes) et par linéarité de l'espérance,
est un C-sous-espace vectoriel de l'ensemble des applications de R dans C.
Etape 2 : fonctions continues à support compact. Soit f une fonction continue, prenant ses
valeurs dans [0, 1] et de support compact (c'est-à-dire telle qu'il existe N ∈ N avec f (x) = 0 si
|x| > N . Montrons que f est élément de E .
En eet, pour tout n > N , on considère la fonction fen périodique de période 2n et égale à f
sur l'intervalle [−n, n]. Soit ε > 0. D'après le théorème de Féjer, il existe un polynôme trigono-
ε
métrique Pε tel que sup |fen (x) − Pε (x)| ≤ min( , 1). Notons qu'en particulier, cela implique que
x∈R Z Z 4
sup |Pε (x)| ≤ 2. Puisque Pε dPX = Pε dPY d'après l'étape précédente, on obtient alors que
x∈R
Z Z Z Z
| f (x)dPX − f (x)dPY | = | (f (x) − Pε (x))dPx + (Pε (x) − f (x))dPY |
Z Z
≤ |f (x) − Pε (x)|dPX + |Pε (x) − f (x)|dPY . (1.4)
Montrons que chacun des deux termes ci-dessus est inférieur à ε/2 pour n assez grand. En eet,
Z Z n Z
|f (x) − Pε (x)|dPX ≤ e
sup |fn (x) − Pε (x)|dPX + sup |Pε (x)|dPX
−n x∈[−n,n] [−n,n]c x∈R
ε
≤ PX ([−n, n]) + 2PX ([−n, n]c ).
4
Il reste alors à remarquer que PX ([−n, n]) ≤ 1 et que lim PX ([−n, n]c ) = 0 (par utilisation de
n→+∞
ε
la mesure d'une intersection décroissante). Donc pour n assez grand, 2PX ([−n, n]c ) ≤ et
4
Z
ε
|f (x) − Pε (x)|dPX ≤ .
2
18
On
Z obtient doncZ en montrant de même pour le second
Z terme deZ(1.4) que pour tout ε > 0, on a
| f (x)dPX − f (x)dPY | ≤ ε, c'est-à-dire que f (x)dPX = f (x)PY .
Etape 3 : fonctions indicatrices de segments. Soient a < b deux réels. On considère (f ) n n∈N∗une
suite décroissante de fonctions continues à valeurs dans [0, 1] qui converge simplement vers 1[a,b] .
1 1
Pour ce faire, on construit pour tout n ∈ N∗ , la fonction fn nulle à l'extérieur de [a − , b + ],
n n
1 1
égale à 1 sur [a, b] et ane sur les intervalles [a − , a] et [b, b + ]. D'après l'étape précé-
Z Z n n
dente, fn dPX = fn dPY . En utilisant le théorème de convergence dominée, on en déduit
Z Z
que 1[a,b] dPX = 1[a,b] dPY .
Etape 4 : conclusion. L'étape précédente montre que P = PY ([a, b]) pour tous a < b ∈ R.
X ([a, b])
Il reste à remarquer que l'ensemble des boréliens sur lesquels les deux mesures PX et PY coïn-
cident forme un λ-système et qu'il contient l'ensemble des segments [a, b], a < b qui forme un
π -système engendrant B(R). Par le théorème π -λ, les deux mesures coïncident.2
Remarque. Une autre manière de montrer le résultat précédent consiste à établir une formule
explicite d'inversion : pour tous a < b ∈ R,
Z
1 T
e−iua − e−iub P(X = a) + P(X = b)
lim ϕX (u)du = P(X ∈]a, b[) + .
T →+∞ 2π −T iu 2
En particulier, lorsque ϕX est intégrable, on peut montrer que X admet une densité continue
fX qui est donnée par la formule suivante :
Z
1
fX (x) = ϕX (u)e−iux du, x ∈ R. (1.5)
2π
(ii) Soient u, h ∈ R.
Il reste à montrer que E(|eihX − 1|) tend vers 0 lorsque h tend vers zéro : ceci est vrai par
application du théorème de convergence dominée. En eet, |eihX − 1| converge presque-sûrement
vers 0 quand h tend vers 0 et est dominé par 2 qui est intégrable. En conclusion, ϕX est bien
19
uniformément continue sur R.
un moment d'ordre k ni, alors ϕ X est de classe C sur R et pour tout x ∈ R, ϕ (u) =
k (k)
X
ik E(X k eiuX ).
Remarque. La réciproque est fausse en général (on peut construire une variable de fonction
caractéristique de classe C 1 mais dont l'espérance est innie). Elle est cependant vraie pour tous
les moments d'ordre pair.
Exemple 1. Fonction caractéristique de la loi gaussienne N (0, 1) : soit X de loi normale centrée
réduite. On a pour tout u ∈ R,
Z +∞ x2 dx
ϕX (u) = eiux− 2 √ .
−∞ 2π
x2
Considérons g(u, x) = eiux− 2 pour tous u, x ∈ R2 . g est une fonction de classe C ∞ sur R2 . De
∂g x2 ∂g x2 x2
plus, pour tous x, u ∈ R, (u, x) = ixeiux− 2 et (u, x) ≤ xe− 2 . La fonction x 7−→ xe− 2
∂u ∂u
est intégrable sur R et ne dépend pas de u donc d'après le théorème de dérivation des intégrales
dépendant d'un paramètre, ϕX est de classe C 1 sur R et pour tout u ∈ R,
Z +∞
x2 dx
0
ϕX (u) = ixeiux− 2 √
−∞ 2π
+∞ Z +∞
IPP i iux− x 2 x2 dx
= −√ e 2 −u eiux− 2 √
2π −∞ −∞ 2π
= −uϕX (u).
Ainsi, ϕX est solution de l'équation diérentielle linéaire du premier ordre sans second membre
u2
y 0 = −uy qui a pour solution y(u) = Ce− 2 , u ∈ R. En notant que ϕX (0) = 1, on obtient
u2
ϕX (u) = e− 2 pour tout u ∈ R. On déduit la fonction caractéristique d'une variable Y de loi
gaussienne de moyenne m ∈ R et variance σ 2 > 0 en notant que Y et σX + m ont même loi.
20
Exemple 2. Fonction caractéristique de la loi de Cauchy de paramètre 1 : on considère X
de loi de Cauchy de paramètre 1. Alors pour tout u ∈ R,
Z +∞ iux
e dx
ϕX (u) = 2
. (1.6)
−∞ 1 + x π
Cette intégrale pourrait être calculée par la formule des résidus. Une autre astuce consiste
à utiliser la formule d'inversion (1.5) avec une densité bien choisie. Considérons en eet Y
1
une variable de densité fY (x) = e−|x| pout tout x ∈ R (on parle alors de loi exponentielle
2
symétrisée). On constate que pour tout u ∈ R,
Z Z
1 +∞ (iu−1)x 1 0 (iu+1)x 1 1 1 1
ϕY (u) = e dx + e dx = − = .
2 0 2 −∞ 2 iu − 1 iu + 1 1 + u2
La fonction obtenue est intégrable donc par la formule d'inversion (1.5), on a pour tout x ∈ R,
Z +∞ −iux
1 −|x| 1 e
fY (x) = e = du.
2 2π −∞ 1 + u2
En comparant à (1.6) et en appliquant la formule précédente à −x, on obtient que ϕX (u) = e−|u|
pour tout u ∈ R.
Remarque. Dans le cas où la variable X est positive (par exemple de loi exponentielle ou
Gamma), on peut remplacer la notion de fonction caractéristique par la transformée de Laplace
LX (u) = E(e−uX ) pour tout u ≥ 0. Dans le cas où la variable X prend ses valeurs dans N
(par exemple de loi binomiale ou de Poisson), on peut utiliser la notion équivalente de fonction
génératrice GX (s) = E(sX ), s ∈ [−1, 1].
Dénition 1.25 (variable aléatoire à valeurs dans un espace mesurable, vecteur aléatoire)
(a) Soit (E, A) un espace mesurable. On considère une application X : (Ω, F) −→ (E, A). X est
dite variable aléatoire à valeurs dans E si elle est mesurable.
(b) En particulier, lorsque (E, A) = (R , B(R )), n ≥ 2, X est dit vecteur aléatoire.
n n
qui rend mesurable l'application X (ou de manière équivalente toutes ses coordonnées), c'est-à-
dire
σ(X) = σ({{X ∈ A} : A ∈ B(Rn )}) = σ{{Xi ∈ A} : 1 ≤ i ≤ n, A ∈ B(R)}.
21
Remarque. Il n'y a pas de manière simple d'expliciter tous les éléments de la tribu engendrée
par un vecteur aléatoire (X1 , · · · , Xn ) en fonction des événements du type {Xi ∈ Ai }, 1 ≤ i ≤ n,
Ai ∈ B(R).
Les lois marginales de X sont les lois de probabilité des variables aléatoires réelles X , · · · , X
(c'est-à-dire les projections de X sur les n coordonnées successives de R ).
1 n
n
Remarque. Attention, l'égalité en loi des marginales n'implique pas nécessairement l'égalité en
loi des vecteurs. Par exemple, si X et Y sont deux variables uniformes sur ]0, 1[, les vecteurs
(X, Y ) et (X, X) ont mêmes marginales. Pourtant, ils n'ont pas même loi de vecteur car par
exemple, la loi de (X, X) ne charge que la bissectrice (y = x) dans R2 tandis que le couple
(X, Y ) est sur cette bissectrice avec probabilité nulle.
(a) Si X , · · · , X sont intégrables, l' espérance de X est le vecteur (E(X ), · · · , E(X )).
1 n
où pour tous 1 ≤ i, j ≤ n,
1 n
C(X) = (Cov(X , X )) i j 1≤i,j≤n
Remarque 1. On rappelle qu'il sut d'avoir des variables Xi et Xj avec des moments d'ordre 2
nis pour pouvoir dénir la covariance de Xi et Xj : en eet, en utilisant l'inégalité de Cauchy-
Schwarz, on a q q
E(Xi Xj ) ≤ E(Xi2 ) E(Xj2 ).
Remarque 2. De même que dans le cas des variables aléatoires réelles, on montre que la fonction
caractéristique d'un vecteur aléatoire caractérise sa loi.
X X
Z
PX (A) = fX (x)dx, ∀ A ∈ B(Rn ).
A
22
Exemple 1. Soit K un borélien de Rn de mesure de Lebesgue non nul (par exemple un pavé
non dégénéré, une boule de rayon non nul). Alors un exemple de loi de vecteur X à densité est
1
la loi uniforme sur K qui a pour densité fX (x) = 1K (x), x ∈ Rn , λn désignant la mesure
λn (K)
de Lebesgue dans Rn .
Exemple 2. Un vecteur dit gaussien (non dégénéré) est un vecteur aléatoire X dans R n
qui
admet une densité de la forme
1 1 −1 t
fX (x) = np exp − (x − m)Γ (x − m) , x ∈ Rn ,
(2π) 2 det(Γ) 2
où Γ est une matrice symétrique réelle dénie positive et m est un vecteur de Rn . On montre
alors que m est la moyenne du vecteur X et Γ sa matrice de covariance.
peuvent diérer suivant la valeur de i). Les variables sont dites mutuellement indépendantes si
les tribus engendrées σ(X ), i ∈ I , sont mutuellement indépendantes.
i
(X,Y ) X y
(ii) =⇒ (iv) : l'assertion (ii) signie que les mesures P(X,Y ) et PX ⊗ PY coïncident sur les
boréliens de R2 de la forme ] − ∞, s]×] − ∞, t], s, t ∈ R. Ces ensembles constituent un π -système
qui engendre la tribu borélienne de R2 . Donc d'après le théorème π -λ, les mesures P(X,Y ) et
PX ⊗ PY sont égales.
23
s, t ∈ R.
(v) ⇐⇒ (iv) : en remarquant que (u, v) 7−→ ϕX (u)ϕY (v) est la fonction caractéristique de
la mesure PX ⊗ PY , l'équivalence vient directement du fait admis que la fonction caractéristique
d'un vecteur aléatoire caractérise sa loi.2
Bilan. Comment déterminer la loi d'une variable aléatoire réelle ou d'un vecteur aléatoire?
Méthode 1. Espérance de fonctions-tests (variables à densité)
Calcul de E(h1 (X1 )h2 (X2 ) · · · hn (Xn )) pour h1 , · · · , hn : R −→ R fonctions mesurables bornées
à l'aide de changements de variables dans les intégrales.
Exemple : pour X, Y variables gaussiennes centrées réduites et indépendantes, les variables
(X 2 + Y 2 ) et X/Y sont indépendantes.
24
Exemple : pour X, Y variables indépendantes uniformes sur ] − 1.1[, X et sgn(XY ) sont indé-
pendantes.
25
26
Chapitre 2
On s'attend à ce que la répétition un grand nombre de fois d'une même expérience aléatoire
conduise à des résultats de plus en plus déterministes : ainsi, après 1000 lancers d'une pièce
équilibrée, on imagine avoir dans à peu près tous les cas une proportion de résultats Pile
proche de 1/2. On sait aussi avec grande certitude qu'on va tâcher ses vêtements un jour ou
l'autre. Dans un gaz parfait, même si la température est fonction de l'agitation moléculaire et
des chocs entre molécules, on s'attend à ce qu'elle soit à peu près constante lorsque le gaz est
à l'équilibre. La loi du zéro-un et la loi des grands nombres sont des résultats théoriques qui,
sous certaines conditions d'indépendance, permettent d'expliquer cette disparition de l'aléatoire
pour des événements de type asymptotique.
Proposition 2.2 (loi du zéro-un) Soit (F ) une suite de sous-tribus mutuellement indé-
pendantes. Alors pour tout élément A ∈ F de la tribu asymptotique, on a P(A) = 0 ou 1.
n n∈N
27
F∞ ⊂ σ(Fk : k ≥ (n + 1)), F∞ est aussi indépendante de Gn . Ceci étant vrai pour tout n ∈ N,
F∞ est indépendante de ∪n∈N Gn .
Or ∪n∈N Gn est un π -système (si A et B sont dans la réunion avec A ∈ Gn1 et B ∈ Gn2 ,
alors A ∩ B est élément de Gmax(n1 ,n2 ) donc de la réunion). Ainsi, par la propriété relative à
l'indépendance des π -systèmes, F∞ est indépendante de σ(∪n∈N Gn ) = σ(Fn : n ∈ N).
Or F∞ ⊂ σ(Fn : n ∈ N), donc F∞ est indépendante d'elle-même. En particulier, pour tout
A ∈ F∞ , A est indépendant de A donc P(A ∩ A) = P(A)P(A), c'est-à-dire P(A) = P(A)2 .2
Exemple. Soit (Xn )n∈N∗ une suite de variables aléatoires indépendantes et identiquement dis-
tribuées. Alors l'événement
( n
)
1X
A= lim Xk converge
n→+∞ n
k=1
Remarque. La loi du zéro-un n'est utile que lorsqu'on sait discriminer les événements presque-
sûres (de probabilité 1) des événements négligeables (de probabilité 0). Le lemme de Borel-
Cantelli donne des conditions qui permettent de calculer la probabilité de certains événements
asymptotiques, dits limite supérieure limite inférieure
et d'une suite d'événements.)
Dénition 2.3 (limite supérieure, inférieure d'une suite d'événements) Soit (A ) une
suite d'événements. La limite supérieure de (A ) est l'événement
n n∈N
n n∈N
Exemples. On lance une innité de fois un dé à six faces équilibré. An désigne l'événement on
obtient 6 au n-ième lancer. Alors lim sup An est l'événement on obtient 6 un nombre inni de
fois tandis que lim inf An est on obtient 6 tout le temps à partir d'un certain moment.
28
Remarque 2. Les notations lim sup et lim inf renvoient directement aux notions de lim sup et
lim inf de suites de réels. On rappelle que si (an )n∈N est une suite de réels, alors
et
lim inf an = lim inf ak = sup inf ak .
n→+∞ n→+∞ k≥n n∈N k≥n
En faisant l'analogie entre le sup d'un ensemble de réels et l'union ∪ d'un ensemble de parties
(resp. l'inf d'un ensemble de réels et l'intersection ∩ d'un ensemble de parties), on constate que
les dénitions sont semblables.
Proposition 2.4 (lemme de Borel-Cantelli) (a)(partie facile) Soit (A ) une suite d'évé-
nements. Si la série de terme général P(A ) est convergente, alors l'événement lim sup A est
n n∈N
négligeable, c'est-à-dire
n n
!
X
P(An ) < +∞ =⇒ P(lim sup An ) = 0.
n∈N
c'est-à-dire
n n
!
X
P(An ) = +∞ =⇒ P(lim sup An ) = 1.
n∈N
Démonstration. Partie facile : pour N xé, on constate que lim sup A n ⊂ ∪k≥N Ak donc
[ X
0 ≤ P(lim sup An ) ≤ P Ak ≤ P(Ak ).
k≥N k≥N
Il reste à remarquer que le terme de droite tend vers 0 quand N tend vers l'inni car il s'agit du
reste d'une série convergente.
Partie dicile :
Etape 1 : se ramener à un calcul d'espérance. Le but est deX
montrer que pour presque-tout aléa
ω ∈ Ω, ω se trouve dans une innité de An . En notant X = 1An , on constate que cela revient
n∈N
à montrer que X prend la valeur +∞ avec probabilité 1. Ceci est aussi équivalent au fait que
la variable e−X soit presque-sûrement constante, égale à 0. Calculons E(e−X ) (qui existe car
e−X ≤ 1 presque-sûrement) :
PN
− N
P
−X
E(e ) = E lim e n=0 1 An
= lim E e− n=0 1An . (2.1)
N →+∞ N →+∞
29
On peut eectivement armer que l'espérance du produit ni est le produit des espérances
car les variables e−1An , 0 ≤ n ≤ N , sont mutuellement indépendantes (puisque les événements
An le sont). Remarquons au passage qu'il s'agit du seul argument de la démonstration faisant
intervenir l'indépendance.
Etape 3 : utilisation de l'hypothèse de somme nie. Pour n xé, la variable 1An est de Bernoulli
de paramètre P(An ) donc
E e−1An = e−1 P(An ) + e0 (1 − P(An )) = 1 − (1 − e−1 )P(An ). (2.3)
la dernière majoration provenant de l'inégalité classique ln(1 + x) ≤ x pour tout x > −1. Il reste
+∞
X
à utiliser le fait que P(An ) = +∞ pour en déduire que ln(E(e−X )) = −∞ et E(e−X ) = 0.
n=0
Comme e−X est positive presque-sûrement et d'intégrale nulle, on obtient e−X = 0 et X = +∞
presque-sûrement.2
Par le critère de d'Alembert, la série de terme général P(An ) converge donc d'après le lemme
de Borel-Cantelli, P(lim sup An ) = 0 et P(lim inf Acn ) = 1. Autrement dit, presque-sûrement, au
bout d'un certain nombre de pas, on ne repasse plus en zéro.
Exemple 2. Application de la partie dicile : singe typographe. Un singe placé devant une
machine à écrire à T touches tape au hasard une touche après l'autre, indépendamment du
passé et sans s'arrêter. L'÷uvre complète de Shakespeare comprend C caractères. Pour tout
n ∈ N, on note An l'événement le singe a tapé l'÷uvre complète de Shakespeare entre la
30
(nC + 1)-ième touche et la ((n + 1)C)-ième touche. Les événements An sont indépendants et de
1
même probabilité, égale à P(An ) = ( )C > 0. Par conséquent, la série de terme général P(An )
T
diverge grossièrement. Ainsi, d'après la seconde partie du lemme de Borel-Cantelli, l'événement
lim sup An est de probabilité 1, c'est-à-dire que presque-sûrement, le singe va taper une innité
de fois l'÷uvre complète de Shakespeare.
Ces trois notions de convergence sont reliées par les implications suivantes.
limite;
n
(c) la convergence dans L de X vers X implique la convergence dans L vers la même limite;
p q
31
Démonstration. (a) Pour ε > 0, on a
Z
P(kXn − Xk > ε) = 1kXn −Xk>ε dP.
Ω
(b) Il sut de remarquer qu'en utilisant l'inégalité de Markov, pour tout ε > 0, on a
1
P (kXn − Xk > ε) ≤ E(kXn − Xkp ).
εp
(c) On applique l'inégalité de Hölder :
p p
q
E(kXn − Xkq ) ≤ E(kXn − Xk q )q/p E(1 p−q )1−q/p = E(kXn − Xkp )q/p −→ 0.
n→+∞
1
(d) On note que pour tout k ∈ N∗ , lim P(|Xn − X| > ) = 0. On construit donc une
n→+∞ k
1 1
suite strictement croissante d'entiers (nk )k∈N telle que P(|Xnk − X| > ) ≤ 2 . Notons
k k
1
Ak = {|Xnk − X| > } pour k ∈ N∗ . On constate que la série de terme général P(Ak ) est
k
convergente donc par application du lemme de Borel-Cantelli (partie facile), la probabilité de
1
l'événement lim inf{|Xnk − X| < } est 1, c'est-à-dire pour presque tout ω , il existe un k au-delà
k
1
duquel on a |Xnk (ω) − X(ω)| < , ce qui implique que lim Xnk (ω) = X(ω). Ceci montre bien
k k→+∞
la convergence presque-sûre de Xnk vers X .2
Remarque. Si on rajoute l'hypothèse dite d'uniforme intégrabilité, alors il est possible de passer
de la convergence en probabilité à la convergence dans Lp .
Exemple. On se donne une suite (Xn )n∈N∗ de variables de Bernoulli indépendantes telles que
1
Xn est de paramètre pn = pour tout n ∈ N∗ . Alors (Xn )n∈N∗ converge en probabilité vers 0
n
car pour tout ε > 0,
P(|Xn | > ε) = P(Xn = 1) = pn −→ 0.
n→+∞
E(Xnp ) = E(Xn ) = pn −→ 0.
n→+∞
Pour autant, (Xn )n∈N∗ ne converge pas presque-sûrement vers 0 : en eet, en considérant l'événe-
ment An = {Xn = 1} pour tout n ∈ N∗ , on constate que les An sont mutuellement indépendants
1
et la série de terme général P(An ) = est divergente. Par conséquent, l'application du lemme
n
de Borel-Cantelli (partie dicile) implique que Xn = 1 une innité de fois presque-sûrement.
32
2.3 Loi des grands nombres
L'objet de cette partie est d'établir la loi forte des grands nombres de Kolmogorov, c'est-
à-dire la convergence presque-sûre des moyennes successives d'une suite de variables aléatoires
indépendantes, identiquement distribuées et intégrables. La démonstration de ce résultat étant
longue et délicate, on renvoie aux cours précédents de probabilités pour des lois des grands
nombres faibles (convergence presque-sûre avec une hypothèse L4 , convergence en probabilité
avec une hypothèse L2 ).
Théorème 2.7 (Loi des grands nombres de Kolmogorov) Soit (X ) une suite de va-
riables aléatoires réelles indépendantes et identiquement distribuées. On note S = X + · · · + X
n n≥1
pour tout n ≥ 1.
n 1 n
Avant de prouver le théorème 2.7, on établit tout d'abord deux lemmes intermédiaires : le premier
est un résultat fondamental en probabilités qui étend l'inégalité de Bienaymé-Tchebychev et qui
annonce la théorie des martingales. Le second est un résultat purement déterministe sur les séries
numériques, proche du théorème d'Abel.
Lemme 2.8 (lemme maximal) Soit (U ) une suite de variables aléatoires réelles indépen-
dantes, centrées et de second moment ni. Alors pour tout ε > 0 et tout N ∈ N ,
n n≥1
∗
n
! N
X 1 X
P sup | Uk | ≥ ε ≤ 2 E(Uk2 ).
1≤n≤N k=1 ε
k=1
n
X
Démonstration. On pose τ = inf{n ≥ 1 : | Ui | ≥ ε} (avec la convention inf(∅) = +∞).
k=1
N
X
La probabilité recherchée se réécrit alors P({τ ≤ N }). On part de la somme E(Uk2 ) que l'on
k=1
cherche à minorer. Comme les Uk sont indépendantes et centrées, on a
N N N N
!
X X X X
E(Uk2 ) = Var(Uk ) = Var( Uk ) = E [ Uk ]2 .
k=1 k=1 k=1 k=1
De plus,
N
! N
!
X X
E [ Uk ] 2 ≥ E 1τ ≤N [ Uk ] 2
k=1 k=1
N N
!
X X
= E 1{τ =n} [ 2
Uk ]
n=1 k=1
N n
! N N
! N n N
!
X X X X X X X
= E 1{τ =n} [ Uk ]2 + E 1{τ =n} [ Uk ]2 +2 E 1{τ =n} [ Uk ][ Uk ] .
n=1 k=1 n=1 k=n+1 n=1 k=1 k=n+1
33
minore la première espérance de la manière suivante :
N n
! N
X X X
E 1{τ =n} [ Uk ]2
≥ E(1{τ =n} ε2 ) = ε2 P(τ ≤ N ).
n=1 k=1 n=1
Terme 2. La variable dans l'espérance est positive donc on peut le minorer violemment par 0.
Terme 3. On note l'égalité d'événements
{τ = n} = {|U1 | < ε, |U1 + U2 | < ε, · · · |U1 + · · · + Un−1 | < ε, |U1 + · · · + Un | ≥ ε}.
Par conséquent, la variable 1{τ =n} est σ(U1 , · · · , Un )-mesurable. D'après le lemme des coalitions,
Xn N
X
on en déduit que 1τ =n [ Uk ] est indépendant de [ Uk ]. Ainsi,
k=1 k=n+1
n N
! n
! N
!
X X X X
E 1{τ =n} [ Uk ][ Uk ] = E 1{τ =n} [ Uk ] E Uk =0
k=1 k=n+1 k=1 k=n+1
N
X
car E( Uk ) = 0. Ainsi, le troisième terme est nul.
k=n+1
En conclusion, on a bien montré
N
X
E(Uk )2 ≥ ε2 P(τ ≤ N ),
k=1
Lemme 2.9 (lemme de Kronecker) Soit (a ) une suite de réels telle que la série de
n n∈N∗
+∞
X ak
Démonstration. On note pour tout n ≥ 0, Rn = le reste de la série convergente de
k
k=n+1
ak
terme général . Alors on note en particulier que ak = k(Rk−1 − Rk ) pour tout k ≥ 1. De plus,
k
pour tout n ≥ 2, on eectue une transformation de type Abel pour obtenir
n
X n
X n
X n−1
X n
X n−1
X
ak = kRk−1 − kRk = (k + 1)Rk − kRk = R0 + Rk − nRn .
k=1 k=1 k=1 k=0 k=1 k=1
Par conséquent,
n n−1
1X R0 1X
ak = + Rk − Rn .
n n n
k=1 k=1
Le premier terme tend vers 0 lorsque n tend vers l'inni. Le troisième terme tend vers 0 en tant
que reste d'une série numérique convergente. Enn, le second terme est quasiment la moyenne
de Césaro de Rk donc tend aussi vers 0 (choisir pour ε > 0 un N tel que |Rk | < ε pour tout
34
k ≥ N , puis couper la somme jusqu'à n en deux sommes de 1 à (N − 1) et de N à n si n ≥ N ).2
Munis de ces deux lemmes, nous sommes à présent capables de démontrer le théorème 2.7.
étape 2 : application du lemme maximal (Lemme 2.8). Le lemme de Kronecker suggère qu'il faut
Zn
montrer que la série de terme général est convergente presque-sûrement. Ceci est équivalent
n
à montrer que la série est de Cauchy presque-sûrement. On applique donc le lemme maximal à
Zk
Uk = . Soient 1 ≤ N < M deux entiers. Alors pour tout ε > 0,
k
Xn
Zk
M
1 X E(Zk2 )
P( sup ≥ ε) ≤ 2 . (2.4)
N ≤n≤M k ε k2
k=N k=N
E(Zk2 )
Vérions que la série de terme général est convergente :
k2
+∞
X +∞
X +∞
X
E(Z 2 )
k Var(Yk ) E(Y 2 )k
= ≤
k2 k2 k2
k=1 k=1 k=1
+∞
X E(X12 1[−k,k] (X1 ))
=
k2
k=1
+∞ X
X k
E(X12 1]p−1,p] (|X1 |))
=
k2
k=1 p=1
+∞
X +∞
X 1
= E(X12 1]p−1,p] (|X1 |))
k2
p=1 k=p
+∞
X 2
≤ E(p|X1 |1]p−1,p] (|X1 |)) ·
p
p=1
étape 3 : application du lemme de Kronecker (Lemme 2.9) et loi des grands nombres pour les
35
+∞
X E(Zk2 ) 1
Zn . Soit pour tout p ≥ 1 un entier N (p) tel que < 4 . Alors d'après l'inégalité
k2 p
k=N (p)
1
(2.4) appliquée à ε = , N = N (p) et M → +∞, on a
p
X
n
Zk 1 1
P( sup ≥ ) ≤ 2.
N (p)≤n k p p
k=N (p)
n
X Zk 1
En particulier, la série de terme général P( sup ≥ ) est convergente donc d'après
N (p)≤n k p
k=N (p)
le lemme de Borel-Cantelli (partie facile), on obtient
n
X Zk 1
P(lim inf { sup < }) = 1,
p N (p)≤n k p
k=N (p)
Zk
c'est-à-dire que presque-sûrement, la série de terme général est de Cauchy donc converge.
k
n
1X
D'après le lemme de Kronecker, ceci implique que presque-sûrement Zk tend vers 0.
n
k=1
étape 4 : loi des grands nombres pour les Y . On note que pour tout n ≥ 1,
n
n n n
1X 1X 1X
Yk = Zk + E(X1 1[−k,k] (X1 )).
n n n
k=1 k=1 k=1
Le premier terme converge vers zéro presque-sûrement d'après l'étape précédente. Par conver-
gence dominée, on constate que E(X1 1[−n,n] (X1 )) converge vers E(X1 ) lorsque n tend vers
l'inni. Donc le second terme, qui est la moyenne de Césaro de E(X1 1[−n,n] (X1 )), converge vers
E(X1 ).
étape 5 : loi des grands nombres pour les Xn . Montrons que presque-sûrement Yn = Xn à
partir d'un certain rang : en eet, on vérie d'après le théorème de Fubini que
Z Z Z +∞ Z +∞ Z Z +∞
E(|X1 |) = X1 dP = 1|X1 |>t dt dP = 1|X1 |>t dP = P(|X1 | > t)dt.
Ω Ω 0 0 Ω 0
Comme E(|X1 |) < +∞, on déduit de l'inégalité précédente que la série de terme général
P(|X1 | > n) = P(|Xn | > n) est convergente. Appliquons le lemme de Borel-Cantelli (partie
facile) : presque-sûrement, pour n assez grand, |Xn | ≤ n, c'est-à-dire Yn = Xn . Dans ce cas, la
n n
1X 1X
convergence de Yk vers E(X1 ) est équivalente à celle de Xk vers la même limite. On
n n
k=1 k=1
n
1X
a donc bien montré que presque-sûrement, Xk converge vers E(X1 ).2
n
k=1
36
Remarque. Les applications de la loi des grands nombres de Kolmogorov sont innombrables :
citons notamment le calcul approché d'une intégrale par la méthode de Monte-Carlo, le théo-
rème de Stone-Weierstrass de densité des polynômes dans l'espace des fonctions continues sur
[0, 1], l'aiguille de Buon, les nombres normaux de Borel ou encore la théorie de l'estimation en
statistique. On renvoie le lecteur aux précédents cours de probabilités et exercices des ches de
travaux dirigés.
37
38
Chapitre 3
On considère à nouveau une suite de variables aléatoires réelles ou vecteurs aléatoires (Xn )n∈N .
Déterminer la convergence presque-sûre de la suite nécessite a priori d'avoir des informations
sur la loi jointe du vecteur inni (X0 , X1 , X2 , · · · ) tandis que les convergences en probabilité ou
dans Lp vers une variable X recquièrent de savoir calculer des grandeurs qui mettent en jeu la
loi jointe d'un couple (Xn , X) pour n ≥ 0. On cherche à présent à dénir une nouvelle notion de
convergence moins contraignante, qui ne ferait plus intervenir que la loi de de chaque (Xn )n∈N .
Autrement dit, on s'intéresse à la limite d'une suite de mesures de probabilités (µn )n∈N sur R
et plus généralement sur Rd , d ≥ 1.
3.1 Dénitions
On commence par introduire diérentes notions de convergence de suites de mesures puis on
verra comment celles-ci sont reliées entre elles. Notons par ailleurs qu'on se contente d'étudier
des mesures sur R mais on indiquera en n de partie comment les dénitions et principaux
résultats s'étendent au cas des mesures sur Rd .
Dénition 3.1 (convergences vague, faible, étroite) Soit (µ ) une suite de mesures
bornées sur R. Soit µ une mesure bornée sur R. On dit que Z
n n∈N
Z
µ converge vaguement vers µ quand n → +∞ si lim f dµ = f dµ pour toute n
tion f : R −→ R continue de limite nulle en l'inni, c'est-à-dire telle que lim f (x) =
n→+∞
0;
kxk→+∞
Z Z
µ converge étroitement vers µ quand n → +∞ si lim f dµ = f dµ pour toute n
Remarque. Il est immédiat que la convergence étroite implique la convergence faible qui im-
plique la convergence vague. Les réciproques sont fausses.
39
Considérons pour tout n ∈ N, la mesure de Dirac sur R µnZ= δn . Alors µn converge faiblement
vers la mesure nulle car si f est de limite nulle à l'inni, f dδn = f (n) → 0 lorsque n →
+∞. Cependant µn ne converge pas étroitement vers zéro Z car en prenant pour f la fonction
identiquement égale à 1 qui est continue et bornée, on a 1dµn = 1 6= 0.
Considérons à présent pour tout n ∈ N, la mesure µn = nδn . Alors µn converge vaguement
Z
vers la mesure nulle car si f est continue à support compact, pour n assez grand, f dµn =
nf (n) = 0. Cependant, µn ne converge pas faiblement vers zéro. En eet, soit f la fonction
1
continue de limite nulle à l'inni qui est égale à 1 sur [−1, 1] et telle que f (x) = si x > 1.
Z x
Alors f dµn = nf (n) = 1 6= 0 si n ≥ 1.
Une hypothèse supplémentaire est donc nécessaire pour obtenir les réciproques : la conser-
vation de la masse.
Proposition 3.2 (Lien entre convergences vague et étroite) Soit (µ ) une suite de
mesures de probabilités sur R et soit µ une mesure de probabilité sur R. µ converge vague-
n n∈N
Considérons ε > 0.
où kf k∞ désigne la borne supérieure des valeurs prises par f . On remarque que (1−ϕp ) converge
simplement vers 0 lorsque p tend vers l'inni et de plus, cette fonction
Z est dominée par 1 pour
tout p ∈ N. Donc par théorème de convergence dominée, lim (1 − ϕp )dµ = 0. Fixons donc
Z p→+∞
ε
p tel que kf k∞ (1 − ϕp )dµ < .
4
• Le premier terme à droite de (3.1) vérie en particulier que
Z Z Z Z
f dµn − f ϕp dµn ≤ kf k∞ (1 − ϕp )dµn = kf k∞ (1 − ϕp dµn ).
40
Puisque µn converge
Z vaguement
Z vers µ et puisque ϕp est une fonction continue à support com-
pact, on a lim ϕp dµn = ϕp dµ. En particulier, on xe N1 tel que pour tout n ≥ N1 ,
n→+∞
Z Z
ε
kf k∞ ϕp dµn − ϕp dµ ≤ .
4
Z
En utilisant que 1 = dµ, on obtient ainsi que
Z Z
ε ε
kf k∞ (1 − ϕp dµn ) ≤ kf k∞ (1 − ϕp )dµ + ≤ .
4 2
• Le deuxième terme à droite dans (3.1) vérie
Z Z
lim f ϕp dµn − f ϕp dµ = 0
n→+∞
car f ϕp est une fonction continue à support compact et µn converge vaguement vers µ. Soit
donc N2 ∈ N tel que pour tout n ≥ N2 ,
Z Z
f ϕp dµn − f ϕp dµ ≤ ε .
4
Remarque. Plus généralement, si (µn )n∈N est une suite de mesures bornées sur R et µ une
mesure bornée sur R, on peut montrer
Z que si µnZ converge vaguement vers µ et la suite (µn )n∈N
préserve la masse, c'est-à-dire lim 1dµn = 1dµ, alors µn converge étroitement vers µ.
n→+∞
Dénition 3.3 (convergence en loi d'une suite de variables réelles) Soient (X ) une
suite de variables aléatoires réelles et X un variable aléatoire réelle. On dit que (X ) converge
n n∈N
en loi vers X (noté X → X ) si pour tout t ∈ R tel que P(X = t) = 0, on a lim P(X ≤ t) =
n n∈N
loi
n n
P(X ≤ t).
n→+∞
Exemple. On considère (Un )n∈N∗ une suite de variables i.i.d. de loi uniforme sur ]0, 1[. On note
Mn = min(U1 , · · · , Un ) si n ≥ 1. Montrons qu'alors Xn = nMn converge en loi vers X où X est
une variable exponentielle de paramètre 1.
En eet, si t ≥ 0, comme les variables Uk sont indépendantes et identiquement distribuées,
n
t t
P(Xn > t) = P ∩k=1 Uk >
n
= P U1 >
n n
n
t
= 1− = exp(n ln(1 − t/n))
n
= exp(−t + o(1)).
n→+∞
41
Ainsi, pour tout t ≥ 0, lim P(Xn ≤ t) = 1 − e−t = P(X ≤ t). Il reste à remarquer que pour
n→+∞
t < 0, on a P(Xn ≤ t) = P(X ≤ t) = 0 pour tout n ∈ N. On a ainsi bien montré la convergence
en loi de Xn vers X .
La proposition suivante établit l'équivalence entre la convergence en loi d'une suite de variables
et la convergence étroite de leurs lois de probabilité.
Xn X
Démonstration. On commence
Z par supposer queZ la convergence étroite de PXn vers PX est sa-
tisfaite, c'est-à-dire que lim f (x)dPXn (x) = f (x)dPX (x). Montrons alors la convergence
n→+∞
en loi de Xn vers X . On remarque tout d'abord que pour tout t ∈ R et tout n ∈ N,
Z Z
P(Xn ≤ t) = 1]−∞,t] (x)dPXn (x) et P(X ≤ t) = 1]−∞,t] (x)dPX (x).
Z Z
On ne peut obtenir directement la convergence de 1]−∞,t] (x)dPXn (x) vers 1]−∞,t] (x)dPX (x)
car la fonction 1]−∞,t] n'est pas continue. On va donc l'approcher par une suite de fonctions
continues. Soit pour tout p ∈ N∗ , les fonctions fp et gp qui sont égales à 1 sur ] − ∞, t] (resp.
1 1 1
] − ∞, (t − )]), égales à 0 sur [(t + ), +∞[ (resp. [t, +∞[) et anes sur [t, (t + )] (resp.
p p p
1
[(t − ), t]). On constate alors, en intégrant l'encadrement gp ≤ 1]−∞,t] ≤ fp par rapport à PXn
p
que pour tout p ∈ N∗ ,
Z Z
gp (x)dPXn (x) ≤ P(Xn ≤ t) ≤ fp (x)dPXn (x).
42
On en déduit alors que pour tout n ≥ N , on a
Ceci montre bien que lim P(Xn ≤ t) = P(X ≤ t), c'est-à-dire que Xn converge en loi vers X .
n→+∞
Réciproquement, on suppose que Xn converge en loi vers X , c'est-à-dire que
Z Z
lim 1]−∞,t] (x)dPXn = 1]−∞,t] (x)dPX (x)
n→+∞
pour tout t ∈ R tel que P(Xn = t) = 0. On veut montrer la convergence étroite de PXn
vers PX et on choisit de prouver la convergence vague qui lui est équivalente.
Z Soit donc f une
fonction continue à support compact sur R. Il sut de vérier que lim f (x)dPXn (x) =
Z n→+∞
f (x)dPX (x).
Soient a < b deux points de continuité de la fonction de répartition de X . Comme 1]a,b] =
1]−∞,b] − 1]−∞,a] , on obtient que
Z Z
lim 1]a,b] (x)dPXn (x) = 1]a,b] (x)dPX (x).
n→+∞
K
X
De même, pour toute combinaison linéaire nie s = αk 1]ak ,bk ] avec K ∈ N∗ , α1 , · · · , αK ∈ R,
k=1
ak < bk pour tout 1 ≤ k ≤ K et P(X = ak ) = P(X = bk ) = 0, on a
Z Z
lim s(x)dPXn (x) = s(x)dPX (x).
n→+∞
Il reste à remarquer que f continue et à support compact est réglée, c'est-à-dire est limite uni-
forme d'une suite de fonctions en escalier du type précédent (on peut bien choisir les extrémités
des intervalles ailleurs que parmi les points de discontinuité de la fonction de répartition de
X car ceux-ci sont en nombre dénombrable). Soit donc (sp )p∈N une telle suite de fonctions en
escalier qui converge uniformément vers f . On xe ε > 0 et on xe p assez grand pour que
kf − sp k∞ = sup |f (x) − sp (x)| ≤ ε/3. On a alors
x∈R
Z Z Z Z Z Z Z Z
f dPXn − f dPX ≤ f dPXn − sp dPXn + sp dPXn − sp dPX + sp dPX − f dPX
Z Z Z Z
≤ |f − sp |dPXn + sp dPXn − sp dPX + |f − sp |dPX
Z Z
≤ kf − sp k∞ + sp dPXn − sp dPX + kf − sp k∞
Z Z
ε
≤ 2 + sp dPXn − sp dPX .
3
Z Z Z
Il reste à remarquer que pour n assez grand, sp dPXn − sp dPX ≤ ε/3 car lim sp dPXn =
n→+∞
Z
sp dPX .
43
Z Z Z
On obtient alors pour n assez grand f dPXn − f dPX ≤ ε, c'est-à-dire lim f dPXn =
n→+∞
Z
f dPX .2
Dans le cas des variables à valeurs entières, on dispose d'un critère plus simple pour montrer la
convergence en loi.
Proposition 3.5 (convergence en loi des variables à valeurs entières) Soient (X ) une
suite de variables aléatoires réelles à valeurs dans N et X un variable aléatoire à valeurs dans
n n∈N
1 1
P(Xn = k) = P(Xn ≤ k + ) − P(Xn ≤ k − )
2 2
btc
X
P(Xn ≤ t) = P(Xn = k)
k=0
btc
X
donc P(Xn ≤ t) converge vers P(X = k) qui est égal à P(X ≤ t).2
k=0
La proposition suivante montre que la convergence en loi est le plus faible de tous les modes
de convergence étudiés jusqu'à présent.
44
Démonstration. (a) Méthode 1. On suppose que Xn converge en probabilité vers X . Alors
soit t ∈ R tel que P(X = t) = 0. On a pour tout ε > 0,
Soit η > 0. Comme lim P(|Xn − X| > ε) = 0, pour n assez grand, on a P(|Xn − X| >
n→+∞
ε) < η/2. Notons par ailleurs que par continuité à droite de la fonction de répartition de X ,
on a lim P(X ≤ (t + ε)) = P(X ≤ t). Donc pour n assez grand et ε assez petit, on a P(X ≤
ε→0
(t + ε)) + η/2 ≤ P(X ≤ t) + η et
P(Xn ≤ t) ≤ P(X ≤ t) + η.
Il reste à remarquer que puisque P(X = t) = 0, on a lim P(X ≤ (t − ε)) = P(X < t) = P(X ≤ t).
ε→0
Ainsi, pour n assez grand et ε > 0 assez petit, on obtient
Or puisque Xn converge en probabilité vers X , soit (Xnk ) une sous-suite qui converge presque-
sûrement vers X . Par continuité de f , on a aussi que (f (Xnk )) converge presque-sûrement vers
f (X). On peut
Z appliquer le théorème de convergence dominée Z (car f est bornée) pour en déduire
que lim f dPXnk = lim E(f (Xnk )) = E(f (X)) = f dPX . Ceci contredit le fait que la
k→+∞ k→+∞
distance entre les deux intégrales est supposée supérieure à ε > 0 pour tout k ∈ N.
(b) On suppose que Xn converge en loi vers une constante a ∈ R. Alors si ε > 0,
45
De plus, (a − ε/2) est aussi un point de continuité de la fonction de répartition de la variable
constante X = a donc
En conclusion, on vient de montrer que lim P(|Xn − a| > ε) = 0, c'est-à-dire que Xn converge
n→+∞
en probabilité vers a.2
Remarque. La réciproque est fausse en général. Considérons par exemple X de loi de Ber-
noulli de paramètre 1/2 et pour tout n ∈ N, Xn = X . Alors Xn converge vers X en loi mais
aussi vers Y = (1 − X). Or Xn ne converge pas en probabilité vers Y car Y − Xn = 1 pour tout
n ∈ N.
Remarque. Passage en dimension supérieure : les convergences étroite, faible et vague se gé-
néralisent immédiatement en dimension supérieure. La dénition de la convergence en loi est la
suivante.
que (X ) converge en loi vers X si pour tout A ∈ B(R ) tel que P(X ∈ ∂A) = 0, on a
d
n
n→+∞
On peut montrer que les résultats d'équivalence entre convergence étroite et convergence vague
et entre la convergence en loi et la convergence étroite sont toujours vrais. Enn, la convergence
en probabilité implique toujours la convergence en loi.
Théorème 3.8 (Théorème de P. Lévy) Soit (X ) une suite de variables aléatoires réelles.
On suppose que la fonction caractéristique ϕ converge simplement vers une fonction l continue
n n∈N
en zéro. Alors il existe une mesure de probabilité µ telle que l soit la fonction caractéristique
Xn
Avant de prouver le théorème ci-dessus, on en déduit le corollaire qui nous sera le plus utile.
Corollaire 3.9 Soient (X ) une suite de variables aléatoires réelles et X une variable aléa-
toire réelle. On a l'équivalence :
n n∈N
loi
Xn → X ⇐⇒ ϕXn (u) → ϕX (u) ∀ u ∈ Rd .
n→+∞
46
Démonstration. On suppose que Xn converge en loi vers X . En particulier, si u ∈ R est xé,
la fonction x 7−→ eiux est continue et bornée sur R. Puisque PXn converge étroitement vers PX ,
on a Z Z
lim ϕXn (u) = lim eiux dPXn (x) = eiux dPX (x) = ϕX (u).
n→+∞ n→+∞
Réciproquement, on suppose que lim ϕXn (u) = ϕX (u). On applique alors le théorème de Lévy
n→+∞
avec le choix l = ϕX pour en déduire que Xn converge en loi vers une variable dont la fonction
caractéristique est ϕX , c'est-à-dire que Xn converge en loi vers X .2
Lemme 3.10 (relative compacité pour la convergence étroite) Soit (µ ) une suite de
mesures de probabilité sur R telle que pour tout ε > 0, il existe A > 0 tel que sup µ ([−A, A] ) ≤
n n∈N
c
n
ε. Alors il existe une sous-suite (µ ) qui converge étroitement vers une certaine mesure de
n∈N
probabilité µ.
nk k∈N
Soit µn = PXn pour tout n ∈ N. Nous allons montrer que la suite de mesures (µn )n∈N converge
étroitement vers une mesure de probabilité µ dont la fonction caractéristique est l.
étape 1. Nous commençons par vérier que (µn )n∈N satisfait les hypothèses du lemme ci-dessus.
Soit donc A > 0. Montrons qu'il existe une constante K > 0 telle que
Z 1 u
c
µn ([−A, A] ) ≤ K 1 − ReϕXn du. (3.2)
0 A
En eet, on utilise le fait que E est linéaire (donc commute avec la partie réelle) puis le théorème
de Fubini (qui permet de commuter E avec l'intégrale) pour montrer que
Z 1 u Z 1
1 − ReϕXn du = (1 − E(ReeiuXn /A )du
0 A 0
Z 1
uXn
= (1 − E cos du
0 A
Z 1
uXn
=E 1 − cos du
0 A
A Xn
=E 1− sin
Xn A
sin(x)
≥E inf 1− 1Xn ∈[−A,A]c
x∈[−1,1]c x
1
= P(Xn ∈ [−A, A]c )
K
1 sin(x)
en posant = inf 1− > 0. La relation (3.2) est donc bien satisfaite. On re-
K x∈[−1,1]c x
marque à présent que par théorème de convergence dominée (puisque 0 ≤ (1−ReϕXn (u/A)) ≤ 1),
on a Z 1 Z 1
u u
lim 1 − ReϕXn du = 1 − Re l du.
n→+∞ 0 A 0 A
47
Soit ε > 0. Pour n assez grand, on a d'après (3.2) et la convergence précédente
Z 1 u ε
µn ([−A, A]c ) ≤ K 1 − Re l du + .
0 A 2
Par continuité de l en 0, on note que pour tout u ∈ [0, 1], lim (1 − Re l(u/A)) = (1 − l(0)) = 0
A→+∞
(notons que l(0) = 1 car l(0) = lim ϕXn (0) = lim 1). De plus, la fonction l, limite simple de
n→+∞ n→+∞
ϕXn , est bornée en module par 1. Donc on peut appliquer le théorème de convergence dominée
pour obtenir que
Z 1 u
lim 1 − Re l du = 0.
A→+∞ 0 A
Pour A assez grand, on en déduit donc que µn ([−A, A]c ) ≤ ε.
étape 2. On montre que la suite (µn )n∈N converge étroitement. Puisque (µn )n∈N satisfait les
hypothèses du lemme 3.10, on en extrait une sous-suite (µnk )k∈N qui converge étroitement vers
une mesure µ. En particulier, pour tout u ∈ R, la fonction x 7−→ eiux est continue et bornée
donc Z Z
lim ϕXnk (u) = lim eiux dPXnk (x) = eiux dµ(x).
k→+∞ k→+∞
(Xn converge en loi) ⇐⇒ (les suites (mn )n∈N et (σn2 )n∈N convergent dans R). (3.3)
En particulier, (3.3) implique le corollaire suivant : dans le cas où Xn converge en loi, sa limite X
est nécessairement gaussienne de moyenne m = lim mn et de variance σ 2 = lim σn2 (notons
n→+∞ n→+∞
que lorsque σ 2 = 0, X est constante mais est toujours considérée comme une variable gaussienne
dégénérée).
Montrons tout d'abord le sens réciproque de l'équivalence (3.3). Il s'agit d'une conséquence
2 2
du théorème de Lévy : en eet, pour tout n ∈ N et tout u ∈ R, on a ϕXn (u) = eimn u e−σn u /2 .
48
En particulier, si lim mn = m ∈ R et lim σn2 = σ 2 ∈ R+ , on en déduit que lim ϕXn (u) =
n→+∞ n→+∞ n→+∞
2 2
eimu e−σ u /2 . Ceci montre que Xn converge en loi vers une variable de loi gaussienne de moyenne
m et de variance σ 2 .
Réciproquement, supposons que Xn converge en loi vers une variable X et montrons la
convergence des deux suites (mn )n∈N et (σn2 )n∈N . D'après le théorème de Lévy, la suite de
fonctions caractéristiques (ϕXn )n∈N converge simplement vers la fonction caractéristique ϕX .
En particulier,
√ 2 √
|ϕXn ( 2)| = e−σn → |ϕX ( 2)|.
n→+∞
Notons par ailleurs que cette limite ne peut être nulle car sinon, on aurait lim σn2 = +∞ donc
( n→+∞
1 si u = 0
lim ϕXn (u) = Ceci n'est pas possible car la limite simple de (ϕXn )n∈N est
n→+∞ 0 sinon.
supposée être une fonction caractéristique donc continue sur R. Ainsi, lim σn2 = σ 2 ∈ R+ avec
√ n→+∞
σ 2 = − ln(|ϕX ( 2)|).
Il reste à établir la convergence de (mn )n∈N . Notons que pour tout u ∈ R,
2 2 /2 2 u2 /2
eimn u = eσn u ϕXn (u) → eσ ϕX (u) = l(u).
n→+∞
La fonction limite l est continue et non identiquement nulle sur R+ . Donc soit a > 0 tel que
Z a
l(u)du 6= 0. Par théorème de convergence dominée, on remarque que
0
Z a Z a
imn u
e du → l(u)du 6= 0
0 n→+∞ 0
Z a
donc l'intégrale eimn u du est non nulle pour n assez grand. Un calcul direct de primitive
0
montre que Z a
imn eimn u du = eimn a − 1
0
donc
eimn a − 1 l(a) − 1
mn = R a im u → Ra .
i 0 e n du n→+∞
0 l(u)du
2 2
On obtient en conclusion que ϕXn (u) converge vers eimu e−σ u /2 donc par le théorème de Lévy,
la limite en loi de Xn est une variable gaussienne de moyenne m et de variance σ 2 .
Remarque. Pour toute variable X réelle positive presque-sûrement, on peut dénir sa trans-
formée de Laplace de la manière suivante :
(
R+ −→ R+
LX :
u 7−→ E e−uX .
Cette fonction est bien dénie car si u ≥ 0, e−uX ≤ 1 est intégrable car inférieure à 1.
Lorsque toutes les variables considérées Xn , n ∈ N, sont réelles positives, on peut remplacer
dans le théorème de Lévy les fonctions caractéristiques par les transformées de Laplace, c'est-à-
dire que Xn converge en loi vers X si et seulement si LXn (u) −→ LX (u) pour tout u ≥ 0.
49
On peut par exemple remontrer la convergence d'une loi binomiale de paramètres n et pn où
lim npn = λ > 0 vers une variable de Poisson de moyenne λ en utilisant la version ci-dessus
n→+∞
du théorème de Lévy.
Une conséquence fondamentale du théorème de Lévy est le théorème central limite : celui-ci
vient préciser la loi des grands nombres en donnant l'ordre de grandeur de la vitesse de conver-
gence de Sn /n vers E(X1 ) lorsque Sn est la somme de n variables i.i.d. de même loi que X1 .
Non seulement, le théorème central limite montre que cette vitesse est en n−1/2 mais il permet
également de mettre en lumière l'universalité de la loi gaussienne centrée réduite dans la mesure
où celle-ci apparaît naturellement dans les phénomènes qui font intervenir la somme d'un grand
nombre de variables aléatoires indépendantes et de même loi. Par rapport à la loi des grands
nombres de Kolmogorov, le théorème central limite nécessite une condition supplémentaire d'in-
tégrabilité de X12 .
Théorème 3.11 (théorème central limite) Soit (X ) une suite de variables aléatoires
n n∈N∗
i.i.d. de second moment ni (et non constantes). On note E(X ) = m, Var(X ) = σ > 0 et 2
loi suivante :
n 1 n
√
n S n loi
−m → N (0, 1)
σ n
où N (0, 1) désigne la loi gaussienne dite centrée réduite, c'est-à-dire de moyenne nulle et de
variance 1. En d'autres termes,
√
pour toutt ∈ R,
Z t
n Sn 2 /2 dx
P −m ≤t → e−x √ .
σ n n→+∞ −∞ 2π
Remarque. De manière équivalente, on a aussi la convergence en loi
√ Sn loi
n − m → N (0, σ 2 ).
n
√
n Sn
Démonstration. On commence par calculer la fonction caractéristique de Tn = −m .
σ n
Soit u ∈ R. En utilisant le fait que X1 , · · · , Xn sont i.i.d., on a
√
nu Sn
ϕTn (u) = E e iuTn
= E exp i −m
σ n
n
!
√ Y iuXk
√
= exp(−im nu/σ)E eσ n
k=1
n
− σimu
√ u
= e n ϕX1 √ .
σ n
Puisque X1 est de carré intégrable, la fonction ϕX1 est de classe C 2 et il en est de même de la
fonction h : u 7−→ e−imu ϕX1 (u). De plus, on note que h(0) = 1,
50
et
h00 (0) = −m2 ϕX1 (0) − imϕ0X1 (0) − imE(iX1 ) − E(X12 ) = −(E(X12 ) − m2 ) = −σ 2 .
On peut voir la somme ci-dessus comme une intégrale de la variable k . L'intégrande converge
lk (2|l|)k
simplement vers et est dominée par pour n assez grand, qui est sommable. Ainsi, en
k! k!
appliquant le théorème de convergence dominée, on obtient
v n n X l k
+∞
lim 1+ = = el ,
n→+∞ n k!
k=0
loi suivante :
n 1 n
√ S n loi
n − E(X1 ) → N (0, Γ)
n
où N (0, Γ) désigne la loi gaussienne multidimensionnelle centrée et de matrice de covariance Γ.
Remarque. Le théorème central limite a de nombreuses applications qu'on ne développera pas
ici. À titre indicatif, en voici quelques-unes.
51
Approximation d'une loi binomiale : il y a deux régimes. En pratique, pour n ∈ N∗ et
p ∈]0, 1[, dès que np ≥ 10 et n(1 − p) ≥ 10, on peut remplacer dans les calculs approchés
une loi binomiale de paramètres n et p par une loi gaussienne de moyenne np et de
variance np(1 − p). Si au contraire, np reste petit (concrètement n ≥ 30 et np ≤ 5), alors
la bonne approximation de la loi binomiale de paramètres n et p est une loi de Poisson
de paramètre np.
Détermination d'intervalles de conance : le théorème central limite fournit le moyen de
construire un intervalle de conance de taux donné pour l'approximation de la moyenne
théorique par la moyenne empirique d'un n-échantillon. On renvoie aux précédents cours
de probabilités et statistique pour plus de détails.
Test d'adéquation à une loi du χ2 : on dispose d'un n-échantillon observé (x1 , · · · , xn )
associé à un n-échantillon théorique (X1 , · · · , Xn ). On se donne par ailleurs un candidat µ
pour la loi commune des Xk , 1 ≤ k ≤ n. Ce test permet d'accepter ou rejeter l'hypothèse
que les Xk suivent la loi µ. Il repose sur la donnée d'une statistique de test dont la
convergence vers une loi du χ2 est montrée via l'utilisation du théorème central limite
multidimensionnel. Notons enn que lorsqu'on a aaire à un n-échantillon de couples
réels, il existe un test d'indépendance du χ2 qui permet d'accepter ou rejeter l'hypothèse
que les deux coordonnées sont indépendantes.
52
Chapitre 4
Espérance conditionnelle
Soit (Ω, F, P) une espace de probabilité. La tribu F ou ensemble des événements représente
la totalité de l'information dont on dispose (passée, présente, future). Dans la réalité, personne
n'est omniscient, on ne connaît pas le futur et on ne connaît pas non plus toutes les données
extérieures qui pourraient inuencer la valeur d'une variable aléatoire. Le mieux que l'on puisse
faire est de proposer une prédiction d'une variable aléatoire avec la quantité d'information dont
on dispose. Donnons trois exemples :
On relève chaque jour le cours d'une action à la fermeture de la Bourse. Que sera le
cours demain, sachant qu'on connaît le cours d'aujourd'hui et des jours passés ainsi que
certaines annonces économiques conjoncturelles ?
On relève chaque matin la température et le taux de précipitations à Rouen. Peut-on
prédire le temps qu'il fera demain et les jours suivants avec cette seule donnée jusqu'à
aujourd'hui ainsi que la carte des cyclones et anticyclones ?
Je m'engage dans une partie de roulette au casino. Que puis-je dire de mon résultat à la
prochaine partie en connaissant uniquement les précédents numéros qui sont tombés et
en ignorant si le jeu est truqué ou non ?
Restreindre l'information signie remplacer la tribu F par une sous-tribu G . L'espérance condi-
tionnelle d'une variable X sachant G sera alors le meilleur prédicteur possible de X qui soit
mesurable par rapport à G (c'est-à-dire que la seule donnée de G permet de reconstituer la va-
riable en question) et qui soit susamment proche de X dans un sens à préciser. Reprenons
le premier exemple et notons Xi le cours de l'action au jour i, i ∈ N. L'information dont on
dispose au jour n est la tribu G = σ(X0 , · · · , Xn , H) engendrée par les variables aléatoires Xi ,
0 ≤ i ≤ n, ainsi que par la sous-tribu H des événements économiques conjoncturels. Le meilleur
représentant possible du cours de l'action de demain, noté Xn+1 sera l'espérance conditionnelle
de Xn+1 sachant G , notée E(Xn+1 |G).
53
4.1 Dénition de l'espérance conditionnelle
Soient X une variable aléatoire réelle et G une sous-tribu de F . Le but est donc de dénir
l'espérance conditionnelle E(X|G). On débute par quelques exemples simples.
On suppose X G -mesurable. Ceci signie que l'information contenue dans G sut à
reconstituer la variable X (par exemple, si Ω est l'ensemble des individus sur Terre, G
la tribu engendrée par les nationalités des individus, alors on sait retrouver le nom du
continent sur lequel se trouve chaque individu). Le meilleur représentant E(X|G) de X
sachant G est alors X lui-même.
On suppose X indépendant de la tribu G . Ceci signie que l'information contenue dans
G n'est d'aucune utilité pour reconstituer X (en reprenant l'exemple précédent, on ne
sait rien sur qui est gaucher et qui est droitier lorsqu'on dispose juste des nationalités des
individus). Le meilleur représentant E(X|G) de X sachant G est dans ce cas la variable
constante E(X).
On suppose G = σ(B) où B est un événement tel que 0 < P(B) < 1 (par exemple, Ω est
à nouveau l'ensemble des individus sur Terre, B = {femmes} et la variable X est la taille
d'un individu). Alors puisque les variables G -mesurables sont celles qui sont constantes
sur B et sur Ω \ B , le meilleur candidat possible pour E(X|G) est
E(X1B ) E(X1B c )
E(X|G) = 1B + 1B c .
P(B) P(B c )
En conclusion, les cas extrêmes sont X lui-même et E(X). Dans le cas général, E(X|G) sera un
intermédiaire entre la situation la plus favorable (X entièrement connu) et la plus défavorable
(X totalement inconnu, hormis via son espérance).
On constate qu'il est plus facile de commmencer par dénir E(X|G) lorsque X a un second
moment ni (c'est-à-dire que E(X 2 ) < +∞) car on peut alors proter de la structure d'espace
de Hilbert de L2 (Ω, F, P) et en particulier de la notion de projection orthogonale.
On rappelle que L2 (Ω, F, P) est l'espace vectoriel des variables aléatoires de carré inté-
grable (quotienté par la relation d'équivalence de l'égalité presque-sûre) muni du produit scalaire
hX, Y i = E(XY ) et de la distance (complète) associée. En particulier, l'ensemble des variables
G -mesurables de carré intégrable, noté L2 (Ω, G, P), est un sous-espace vectoriel de L2 (Ω, F, P)
(car la G -mesurabilité est stable par addition et multiplication par un scalaire)
54
La variable E(X|G) n'est unique qu'à un ensemble négligeable près. Aussi, tout calcul faisant
intervenir E(X|G) ne peut être eectué que presque-sûrement.
Démonstration. Caractérisation de E(X|G). Montrons tout d'abord que (i) caractérise l'es-
pérance conditionnelle, c'est-à-dire que E(X|G) est l'unique variable Y G -mesurable et de carré
intégrable telle que pour tout Z ∈ L2 (Ω, G, P), on ait E(XZ) = E(Y Z).
En eet, comme projection orthogonale de X sur L2 (Ω, G, P), E(X|G) est l'unique Y de
L2 (Ω, G, P) qui satisfait h(X −Y ), ZiL2 = 0 pour tout Z ∈ L2 (Ω, G, P). Il sut alors de remarquer
que
h(X − Y ), ZiL2 = 0 ⇐⇒ E((X − Y )Z) = 0 ⇐⇒ E(XZ) = E(Y Z).
équivalence des trois assertions. On souhaite à présent montrer l'équivalence entre (i), (ii) et
(iii). On a tout d'abord les implications immédiates (i) =⇒ (ii) et (ii) =⇒ (iii) puisque toute
variable bornée est de carré intégrable et toute fonction indicatrice est bornée.
Il reste à montrer que (iii) implique (i). On suppose donc que pour tout A ∈ G , la fonction
indicatrice 1A satisfait E(X1A ) = E(E(X|G)1A ). Par combinaison linéaire, on étend l'égalité à
toute fonction simple G -mesurable. Soit Z une variable bornée G -mesurable. Alors Z est limite
presque-sûre d'une suite bornée de fonctions simples (Sn )n∈N G -mesurables. En passant à la
limite dans l'égalité E(XSn ) = E(E(X|G)Sn ) par théorème de convergence dominée, on obtient
que E(XZ) = E(E(X|G)Z). Il reste enn à étendre l'égalité à toute variable Z de L2 (Ω, G, P) : on
constate que Z est limite simple de la suite de variables bornées G -mesurables, Zn = Z1|Z|≤n ,
n ∈ N. À nouveau par théorème de convergence dominée, l'égalité E(XZn ) = E(E(X|G)Zn )
implique lorsque n tend vers l'inni l'égalité E(XZ) = E(E(X|G)Z).2
55
(c) Croissance . Pour tous X, Y ∈ L (Ω, F, P),
2
Démonstration. (a) E(αX + Y |G) est la projection orthogonale de (αX + Y ) sur L2 (Ω, G, P).
Or la projection orthogonale est un endomorphisme de L2 (Ω, F, P) donc
E(X1A ) = E(E(X|G)1A ).
Le terme de gauche est l'espérance d'un produit de variables positives donc est positif. Le terme
de droite est l'espérance d'une variable qui est soit nulle, soit strictement négative donc est
négatif. Ainsi, on a E(E(X|G)1A ) = 0 et puisque la variable à l'intérieur est négative, presque-
sûrement E(X|G)1A = 0. Il reste à remarquer que ceci implique que P(A) = 0 (car sinon le pro-
duit serait strictement négatif sur un événement de probabilité non nulle) et donc E(X|G) ≥ 0
presque-sûrement.
(c) On applique la propriété de positivité à la variable (X −Y ). On obtient que E((X −Y )|G) ≥ 0
p.s., ce qui fournit le résultat voulu en utilisant la linéarité de l'espérance conditionnelle.2
La condition d'être de carré intégrable est trop restrictive et l'on souhaite pouvoir manier une
espérance conditionnelle lorsque la variable est simplement intégrable. On se propose donc de
prolonger la dénition établie dans L2 .
est une variable aléatoire réelle telle que ). Alors il existe une unique (à un en-
E|X| < +∞
semble négligeable près) variable aléatoire notée et appelée espérance conditionnelle de
E(X|G)
X sachant G satisfaisant les deux conditions ci-dessous.
(C1) E(X|G) ∈ L (Ω, G, P) (c'est-à-dire est une variable G -mesurable et intégrable);
1
56
Y est G -mesurable comme limite presque-sûre d'une suite de variables G -mesurables. De plus, si
A ∈ G , en appliquant (iii) de la proposition 4.2 à la variable Xn , on a
E(X1A ) = E(Y 1A ),
ce qui montre que Y est intégrable de même espérance que X (en prenant A = Ω) et que Y
satisfait les conditions (C1) et (C2) de la dénition.
Cas 3 : X intégrable de signe quelconque . On considère X+ = max(X, 0) et X− = max(−X, 0) et
on rappelle l'égalité classique X = X+ −X− . Les espérances conditionnelles de X+ et X− existent
d'après le cas 2 et on les note E(X+ |G) et E(X− |G). Montrons qu'alors, Y = E(X+ |G)−E(X− |G)
vérie les conditions (C1) et (C2). En eet, Y est G -mesurable et intégrable comme diérence
de deux variables G -mesurables et intégrables. De plus, si A ∈ G ,
Unicité.Soient Y1 et Y2 deux variables qui satisfont (C1) et (C2). Alors considérons l'évé-
nement A = {Y1 ≤ Y2 }. D'après la condition (C2) appliquée à Y1 et à Y2 , on a
La variable (Y2 − Y1 )1{Y2 ≥Y1 } est positive et d'espérance nulle donc elle est nulle presque-
sûrement. Ainsi, on a avec probabilité 1, Y1 ≤ Y2 . De même, par symétrie, on montre que
Y1 ≥ Y2 avec probabilité 1 donc Y1 = Y2 presque-sûrement.2
Exemple 0. Cas où G est la tribu grossière. Si G = {∅, Ω} (ce qui signie qu'aucune information
ne se trouve dans G ), alors pour tout X ∈ L1 (Ω, F, P), E(X|{∅, Ω}) = E(X) presque-sûrement.
57
Exemple 2. Cas où G est engendrée par un événement. Soit B un événement tel que P(B) > 0
et P(B ) > 0. Rappelons que σ(B) = {∅, Ω, B, B c }. Alors pour tout X ∈ L1 (Ω, F, P),
c
E(X1B ) E(X1B c )
E(X|σ(B)) = 1B + 1B c p.s. .
P(B) P(B c )
E(X1B ) E(X1B c )
En eet, posons Y = 1B + 1B c et vérions que Y satisfait les conditions (C1)
P(B) P(B c )
et (C2). La variable Y est combinaison linéaire de 1B et 1B c donc est bien σ(B)-mesurable. Elle
prend au plus deux valeurs donc est bornée et intégrable. Enn, l'égalité de (C2) est trivialement
satisfaite lorsque A = ∅ ou A = Ω. Lorsque A = B , on a
E(X1B )
E(Y 1B ) = E (1B ) = E(X1B ).
P(B)
On procède de même lorsque A = B c . En conclusion, Y est bien l'espérance conditionnelle de
X sachant σ(B).
Exemple 3. Cas où G est engendrée par une variable aléatoire Y . Lorsque G = σ(Y ), on
note E(X|G) = E(X|Y ). On rappelle que d'après le lemme de Doob-Dynkin, toute variable
σ(Y )-mesurable s'écrit f (Y ) où f : R −→ R est une fonction mesurable. Donc E(X|Y ) est de la
forme f (Y ) presque-sûrement.
Notons S la somme à droite de l'égalité ci-dessus. La variable S est bien σ(Y )-mesurable comme
limite presque-sûre d'une suite de combinaisons linéaires de fonctions indicatrices d'événements
σ(Y )-mesurables. De plus, si A ∈ σ(Y ), soit B ∈ B(R) tel que A = {Y ∈ B}. Alors en notant
I = {n ∈ N : yn ∈ B}, on remarque que A est l'union disjointe des événements {Y = yn } pour
n ∈ I . Donc
X X
E(X1A ) = E(X 1{yn } (Y )) = E(X1{yn } (Y )).
n∈I n∈I
D'autre part,
" # ! !
X E(X1{Y =yn } ) X E(X1{Y =yn } )
E(S1A ) = E 1 (Y ) 1A = E 1 (Y )
P(Y = yn ) {yn } P(Y = yn ) {yn }
n∈N n∈I
X E(X1{Y =yn } )
= E(1{yn } (Y ))
P(Y = yn )
n∈I
X
= E(X1{yn } (Y )).
n∈I
On vient donc de montrer que E(X1A ) = E(S1A ) pour tout A ∈ σ(Y ) et en particulier pour
A = Ω, on obtient que S est intégrable de même moyenne que X . Ainsi, S vérie les conditions
58
(C1) et (C2) de la dénition 4.4 donc est bien l'espérance conditionnelle de X .
Exemple 3.b. Sous-cas où le couple (X, Y ) admet une densité. Soit f (X,Y ) une densité du
couple (X, Y ). On suppose que X est intégrable. Alors montrons que
R
xf(X,Y ) (x, Y )dx
E(X|Y ) = R p.s. .
f(X,Y ) (x, Y )dx
D'après le théorème de Fubini, g est bien mesurable donc S est σ(Y )-mesurable. De plus, si
A ∈ σ(Y ), soit B ∈ B(R) tel que A = {Y ∈ B}. Alors en appliquant le théorème de Fubini, on a
R ZZ R
xf(X,Y ) (x, Y )dx 0 xf(X,Y ) (x, y)dx
E(S1B (Y )) = E R 1B (Y ) = f(X,Y ) (x , y) R 1B (y)dx0 dy
f(X,Y ) (x, Y )dx f(X,Y ) (x, y)dx
ZZ R
f(X,Y ) (x0 , y)dx0
= xf(X,Y ) (x, y) R 1B (y)dxdy
f(X,Y ) (x, y)dx
ZZ
= xf(X,Y ) (x, y)1B (y)dxdy
= E(X1B (Y )).
Ainsi, S est intégrable (en prenant B = R ci-dessus) et vérie les conditions (C1) et (C2) de la
dénition 4.4 donc est bien E(X|Y ) presque-sûrement.
On conclut cette partie en établissant l'analogue de la proposition 4.2 dans le cas L1 , avec
une démonstration en tout point identique à celle de la proposition 4.2.
59
(a) Linéarité . Pour tout α ∈ R,
E(αX + Y |G) = αE(X|G) + E(Y |G) p.s. ;
(i) Convergence dominée conditionnelle . Soit (X ) une suite de variables qui converge
presque-sûrement vers X et telle qu'il existe Z intégrable avec |X | ≤ Z pour tout n ∈ N.
n n∈N
Démonstration. (a) On constate que αE(X|G) + E(Y |G) est une variable G -mesurable comme
combinaison linéaire de variables G -mesurables. De plus, si A ∈ G , on a
Donc αE(X|G) + E(Y |G) vérie les deux conditions (C1) et (C2) de la dénition 4.4. Par unicité
de l'espérance conditionnelle, on en déduit que
60
(f) On applique (f) à la fonction convexe h(x) = |x|p , x ∈ R. On constate alors que
E(lim inf Xn ) = E( lim inf Xk ) = lim E(Zn ) ≤ lim inf E(Xk ) = lim inf E(Xn ).
n→+∞ n→+∞ k≥n n→+∞ n→+∞ k≥n n→+∞
(i) On note tout d'abord en passant à la limite dans l'inégalité |Xn | ≤ Z que |Xn − X| ≤ 2Z
presque-sûrement et donc que |Xn − X| est intégrable pour tout n ∈ N. On applique alors le
lemme de Fatou conditionnel à la suite de variables positives (2Z − |Xn − X|)n∈N . On obtient
E(2Z|G) = E(lim inf (2Z − |Xn − X|)|G) ≤ lim inf E(2Z − |Xn − X||G)
n→+∞ n→+∞
donc E(|Xn − X||G) converge presque-sûrement vers 0. Il reste à remarquer que par application
de (e) à la fonction convexe | · |, on a
On conclut en donnant trois règles de calcul classiques qui interviennent naturellement lors-
qu'on cherche à donner une forme explicite à une espérance conditionnelle dans le cadre de
chaînes de Markov ou de martingales, par exemple.
61
Proposition 4.7 (règles de calcul de E(X|G)) Soit X ∈ L (Ω, F, P).
1
(a) Sortir ce qui est connu . Soit une variable G-mesurable telle que U X ∈ L (Ω, F, P).
U 1
Alors
E(U X|G) = U E(X|G) p.s. ;
par application du point (i) de la proposition 4.5 avec Z = U 1A . En conclusion, Y est intégrable
(prendre A = Ω) et bien égale à E(U X|G) presque-sûrement.
(b) Soit Y = E(X). La variable Y est G -mesurable et intégrable car constante. De plus, si A ∈ G ,
E(X1A ) = E(E(X|G)1A )
car A est aussi élément de G qui contient H. Ensuite, en utilisant la dénition de l'espérance
conditionnelle par rapport à H, on obtient
Remarque. On est dans la situation de (a) lorsque par exemple, U est bornée ou X et U sont
de carré intégrable. L'égalité indique que dès qu'une variable multiplicative est G -mesurable, on
peut la traiter comme une constante dans l'espérance conditionnelle et la sortir.
Le point (b) indique que lorsqu'il y a indépendance entre X et G , la donnée de l'information
contenue dans G ne nous apporte rien sur la variable X . Il s'agit donc du cas le pire où l'espérance
conditionnelle est une constante presque-sûre.
Enn, on peut résumer le point (c) de la manière suivante : restreindre l'information dont
on dispose en deux paliers successifs (c'est-à-dire passer de F à G puis de G à H) ou d'un seul
coup (passer directement de F à H) revient au même.
62
Chapitre 5
Vecteurs gaussiens
On s'intéresse particulièrement aux lois gaussiennes pour plusieurs raisons. D'une part, le
théorème central limite justie leur existence dans la nature et leur rôle universel
par rapport
aux autres lois de vecteurs aléatoires. D'autre part, comme on va le voir, le fait de manipuler des
lois gaussiennes simplie considérablement le travail quand il s'agit d'étudier l'indépendance de
variables ou de calculer des espérances conditionnelles. Enn, les lois gaussiennes sont stables
par passage à la limite pour la convergence en loi (et donc pour les convergences dans L2 , en
probabilité ou presque-sûre).
Dans tout le chapitre, on étudie des vecteurs aléatoires à valeurs dans Rd , d ≥ 1.
distribuées de loi normale centrée réduite. Autrement dit, X a une loi qui a pour densité
1 − 21 (x21 +···+x2d ) 1 kxk2
− 2
fX (x1 , · · · , xd ) = e = e , x = (x1 , · · · , xd ) ∈ Rd ,
(2π)d/2 (2π)d/2
teur gaussien s'il existe un vecteur gaussien canonique X , une matrice carrée A ∈ M (R) et
1 d
(0)
un vecteur b ∈ R tels que X = AX + b. Autrement dit, X est l'image par une transformation
d
d (0)
Remarque 2. Lorsque A est la matrice nulle, X est un vecteur constant. En particulier, les
vecteurs constants sont des vecteurs gaussiens et les lois de Dirac sont des lois gaussiennes.
63
Proposition 5.3 (moyenne, covariance, fonction caractéristique, densité) Soit X un vec-
teur gaussien tel que X = AX + b où A ∈ M (R), b ∈ R et X
(0) d (0)
est un vecteur gaussien
canonique.
d
k t Auk2 hu,Γui
ϕX (u) = eihu,bi e− 2 = eihu,mi e− 2 , u ∈ Rd ;
(0) (0)
car E(Xk Xl ) = 0 si k 6= l et 1 sinon. Ainsi, la matrice de covariance de X est bien Γ = A t A.
(c) Si u ∈ Rd , on a
(0) +b)i t Au,X (0) i 1 t Auk2
ϕX (u) = E(eihu,Xi ) = E(eihu,(AX ) = eihu,bi E(eih ) = eihu,bi e− 2 k ,
64
Eectuons le changement de variable x = Ay + b, c'est-à-dire y = A−1 (x − b). En particulier, le
jacobien associé est det(A−1 ) = det(A)−1 . Ainsi,
Z
kA−1 (x−b)k2 dx
E(h(X)) = h(x)e− 2
d/2
Rd (2π) | det(A)|
1 −
kA−1 (x−b)k2
fX (x) = e 2 , x ∈ Rd .
(2π)d/2 | det(A)|
Pour conclure que fX a bien la forme souhaitée en fonction de m et Γ, il reste à remarquer que
puisque Γ = A t A, on a det(Γ) = det(A)2 et d'autre part
kA−1 (x−b)k2 = hA−1 (x−b), A−1 (x−b)i = h(x−b), ( t A)−1 A−1 (x−b)i = h(x−m), Γ−1 (x−m)i.2
si Γ est une matrice symétrique positive. Dans ce cas, la fonction caractéristique de X est
hu,Γui
ϕX (u) = eihu,mi e− 2 , u ∈ Rd ;
(b) Un tel vecteur gaussien X a une densité si et seulement si Γ est inversible, c'est-à-dire Γ est
symétrique dénie positive. Dans ce cas, une densité de X est
1 h(x−m),Γ−1 (x−m)i
fX (x) = p e− 2 , x ∈ Rd ;
(2π)d/2 det(Γ)
(c) Lorsque Γ n'est pas inversible, X prend presque-sûrement ses valeurs dans Ker(Γ) , c'est-à-
⊥
dire
P(X ⊥ Ker(Γ)) = 1.
Démonstration. (a) Comme Γ est symétrique réelle, il existe une matrice orthogonale P et une
matrice diagonale D (dont la diagonale est (λ1 , · · · , λd )) telles que Γ = P D t P . De plus, Γ est
supposée positive donc ses valeurs propres λ1 , · · · , λd sont toutes positives. Considérons alors
A = P D0 t P où D0 est la matrice diagonale dont les éléments de la diagonale ont pour valeurs
p p
( λ1 , · · · , λd ). En particulier, A est aussi symétrique réelle positive et A2 = A t A = Γ.
65
Soit X (0) un vecteur gaussien canonique. Considérons alors X = AX (0) + b où b = m. Les
calculs précédents montrent que X est un vecteur gaussien de moyenne m et de matrice de
covariance Γ.
Réciproquement, montrons que toute matrice de covariance d'un vecteur aléatoire X doit
être symétrique positive. Soit X un vecteur aléatoire dont les entrées sont de carré intégrable
et quitte à centrer X , on peut supposer que E(X) = 0 sans changer sa matrice de covariance
Γ = (Γi,j )1≤i,j≤d . La matrice Γ est clairement symétrique et de plus. si u = (u1 , · · · , ud ) ∈ Rd ,
on a
d d d
!
X X X
Γi,j ui uj = E( ui Xi · uj Xj ) = E ( ui Xi ) 2
≥ 0.
i,j=1 i,j=1 i=1
(b) Le calcul de la densité lorsque Γ (et donc A) est inversible provient de la proposition pré-
cédente. L'équivalence sera une conséquence du point (c) car si Γ n'est pas inversible, Ker(Γ)⊥
est au plus de dimension (d − 1).
d
! d
X X
E ( ui Xi )2 = Γi,j ui uj = hu, Γui = 0.
i=1 i,j=1
d
X
Donc la variable ui Xi = hu, Xi est nulle presque-sûrement. On applique ceci à tous les
i=1
vecteurs d'une base de Ker(Γ) et on obtient ainsi que presque-sûrement, X est orthogonal à
Ker(Γ).2
On conclut cette partie avec une dénition équivalente des vecteurs gaussiens qui s'avérera
pratique lorsqu'on entreprendra de dénir des processus gaussiens
.
Proposition 5.5 (dénition des vecteurs gaussiens par combinaisons linéaires) Soit X =
(X , · · · , X ) un vecteur aléatoire de R . X est un vecteur gaussien si et seulement si toute com-
1 d
d
binaison linéaire de ses coordonnées est une loi gaussienne réelle, c'est-à-dire X u X suit une
d
k k
Démonstration. On suppose que X est un vecteur gaussien. Quitte à lui retrancher sa moyenne,
on peut supposer que X est centré. Notons Γ sa matrice de covariance. Alors si u = (u1 , · · · , ud ) ∈
66
d
X
R , notons Y =
d
uk Xk . En particulier, la fonction caractéristique de Y vérie pour tout v ∈ R,
k=1
d
X
ϕY (v) = E(exp(iv uk Xk )) = E(exp(ihvu, Xi))
k=1
= ϕX (vu)
hvu,vΓui hu,Γuiv 2
= e− 2 = e− 2 .
Ainsi, Y suit une loi gaussienne de moyenne nulle et de variance hu, Γui.
Réciproquement, supposons que toute combinaison linéaire du type précédent suit une loi gaus-
sienne. Montrons alors que X est un vecteur gaussien. En particulier, chacune des coordonnées
de X suit une loi gaussienne donc est de carré intégrable. On peut ainsi dénir la matrice de
covariance Γ de X . Pour tout u = (u1 , · · · , ud ) ∈ Rd , on a
Pd
ϕX (u) = E(eihu,Xi ) = E(ei k=1 uk Xk
)
= ϕPd uk Xk (1)
k=1
P
E ( dk=1 uk Xk )2
= exp −
2
hu,Γui
= e− 2 ,
d
X
l'avant-dernière ligne provenant du fait que uk Xk suit une loi gaussienne réelle centrée. Ainsi,
k=1
on en déduit que X suit la loi d'un vecteur gaussien de moyenne nulle et de matrice de covariance
Γ.2
Remarque. Attention ! Il ne sut pas que toutes les coordonnées d'un vecteur suivent une
loi gaussienne pour que le vecteur lui-même soit un vecteur gaussien. Soient par exemple X1 une
variable réelle de loi normale centrée réduite et ε une variable indépendante de X1 qui prend les
valeurs +1 et −1 avec même probabilité 1/2. Alors en notant X2 = εX1 , le vecteur X = (X1 , X2 )
a ses deux coordonnées de loi N (0, 1) mais il n'est pas gaussien. En eet, X1 + X2 est une com-
binaison linéaire de ses coordonnées qui prend la valeur 0 avec probabilité 1/2 exactement donc
(X1 + X2 ) ne suit pas une loi gaussienne.
67
5.2 Indépendance et espérances conditionnelles
On a vu précédemment que le fait que la covariance de deux variables réelles soit nulle
n'implique pas en général que ces deux variables sont indépendantes. Cependant, dans le cas des
vecteurs gaussiens, la réciproque est heureusement vraie.
i j
Remarque. Ceci revient à demander que la matrice de covariance de X soit diagonale par blocs.
où Γ = (Γi,j )1≤i,j≤(n+m) est la matrice de covariance de X . Or puisque tous les termes Γi,j où
1 ≤ i ≤ n et (n + 1) ≤ j ≤ (n + m) sont nuls, on a
n
X n+m
X
h(u, v), Γ(u, v)i = Γi,j ui uj + Γi,j vi−n vj−n .
i,j=1 i,j=n+1
Ainsi, on obtient
n
X m
X
1 1
ϕ(Y,Z) (u, v) = exp − Γi,j ui uj · exp − Γi+n,j+n vi vj = ϕY (u) · ϕZ (v).
2 2
i,j=1 i,j=1
On conclut avec une formule relative aux espérances conditionnelles. Toutes les variables réelles
gaussiennes sont de carré intégrable donc sont éléments de L2 (Ω, F, P). On a vu que sur l'es-
pace L2 , calculer une espérance conditionnelle revient à projeter sur le sous-espace des variables
mesurables par rapport à une certaine tribu. Dans le cas des vecteurs gaussiens, le sous-espace
sur lequel on projette est encore plus simple.
68
est la projection orthogonale de X sur le sous-espace Vect(X , · · · , X ) de L (Ω, F, P) engendré
2
2 d 2 d
car (X1 − Y ) est orthogonal à Vect(X2 , · · · , Xd ) dans L2 (Ω, F, P). D'après la proposition 5.6,
ceci implique que (X1 − Y ) est indépendant de σ(X2 , · · · , Xd ). On en déduit que
Remarque. Les coecients λ2 , · · · , λd sont obtenus en résolvant un système linéaire fourni par
les conditions E((X1 − λ2 X2 − · · · − λd Xd )Xi ) = 0 pour tous 2 ≤ i ≤ d.
69
70
Annexe 1 : tableaux récapitulatifs des
lois classiques
71
Quelques lois discrètes usuelles
∗ n k
Binomiale P(X = k) = np
k
n ∈ N , p ∈ [0, 1] p (1 − p)n−k ∀ k ∈ {0, · · · , n} np(1 − p) (1 − p(1 − s))n
1 1−p ps
Géométrique
p p2
p ∈]0, 1[ P(X = k) = p(1 − p)k−1 ∀ k ∈ N∗
1 − (1 − p)s
n+1
s
n2 − 1 1 − sn
Uniforme
2 12
n ∈ N∗ P(X = k) = 1/n ∀ k ∈ {1, · · · , n}
n(1 − s)
µk
Poisson P(X = k) = e−µ µ µ
k!
µ ∈ [0, +∞[ ∀k∈N exp(−µ(1 − s))
n1 n2
k r−k n1 r rn1 n2 (n1 + n2 − r)
Hypergéométrique n1 , n2 , r ∈ N∗ , r ≤ n1 P(X = k) = n1 +n2 ∀ k ∈ {0, · · · , r} compliqué
r
n1 + n2
(n1 + n2 )2 (n1 + n2 − 1)
Interprétation de ces lois
Loi de Bernoulli. On joue à pile ou face et on note le résultat du tirage sous la forme : X = 1 si la pièce tombe sur pile et X = 0 si la
pièce tombe sur face. La probabilité de tomber sur pile est alors P(X = 1) = p.
Loi binomiale. On relance cette fois-ci n fois la même pièce et on comptabilise le nombre de fois où elle tombe sur pile. La loi de
cenombre de piles parmi les n lancers est alors une loi binomiale de paramètres n et p : en eet, s'il y a eu exactement k piles au cours
pk ), il y a eu également n − k faces (d'où le (1 − p)n−k ) et il faut tenir compte de tous les ordres de tirages
n
possibles, ce qui explique le .
k
des n premiers lancers (d'oùle
Loi géométrique. Toujours au jeu de pile ou face, on étudie maintenant le numéro du premier lancer où un pile est obtenu : si le
premier pile arrive au n-ième lancer, c'est que la pièce est tombée sur face lors des n − 1 premiers lancers, et sur pile aun-ième lancer.
La probabilité de cet événement est donc (1 − p)n−1 × p.
Loi uniforme. La loi uniforme sur un ensemble à n éléments intervient dès que ces éléments sont équiprobables, par exemple si l'on joue
avec un dé non pipé ou une pièce équilibrée.
Loi de Poisson. Cette loi permet de modéliser le nombre de personnes se présentant à un guichet au cours d'une journée : si, en moyenne,µ
personnes arrivent dans le service chaque jour, on utilisera la loi de Poisson de paramètre µ.
r boules de l'urne sans remise et on pose
n1 + n2
X =nombre de boules rouges tirées. Le calcul de P(X = k) vient du fait que parmi tirages possibles, on compte les tirages
r
Loi hypergéométrique. Une urne contient n1 boules rouges et n2 boules blanches.On tire
n1 n2
comprenant k boules rouges ( possibilités).
k
possibilités) et r − k boules blanches (
r−k
Quelques lois à densité classiques
1 1 λ
Exponentielle λe−λx 1R+ (x)
λ λ2
λ ∈ R∗+
λ − iα
2 σ 2 /2
m σ2 eiαm e−α
exp −((x − m)2 /(2σ 2 ))
Normale m ∈ R, σ 2 ∈ R∗+ √
2π σ
µ
Cauchy non dénie non dénie e−µ|α|
π(µ2 + x2 )
µ ∈ R∗+
xn/2−1 e−x/2
Chi 2 (χ2 ) n ∈ N∗ 1R+ (x) n 2n (1 − 2iα)−n/2
2n/2 Γ(n/2)
λn xn−1 e−λx n n λn
Gamma 1R+ (x)
Γ(n) λ λ2
λ ∈ R∗+ , n ∈ N∗
(λ − iα)n
Interprétation de ces lois
Loi uniforme. Elle correspond par exemple à la loi de la distance au plafond d'une mouche lorsqu'elle se pose sur un mur blanc. La loi
uniforme sur [0, 1] est simulée classiquement par la fonction 'rand' de la plupart des logiciels de calcul et des calculatrices.
Loi exponentielle. Elle représente classiquement des durées de vie ou des temps d'attente en théorie des les d'attente.
Loi normale (ou gaussienne). De par le théorème de la limite centrale, elle apparaît dans tous les phénomènes naturels macroscopiques
qui reposent sur des sommes de phénomènes microscopiques indépendants.
Loi de Cauchy. Le quotient de deux variables normales centrées indépendantes suit une loi de Cauchy. Il s'agit d'un exemple simple d'une
variable à densité dont l'espérance n'existe pas.
2 2
Loi du χ . La somme des carrés de n vaiid normales N (0, 1) suit une loi du χn . Cette loi a un rÃle fondamental en statistique inférentielle
où un test porte son nom.
Loi Gamma. On l'obtient en faisant la somme de variables exponentielles indépendantes de même paramètre.
76
Annexe 2 : annales de 20212022
77
Master 1ère année, parcours AiMAF, MAM et MFA, année 2021-2022
Probabilités 1
Examen, lundi 3 janvier 2022 (durée : 2h)
Les documents et appareils électroniques sont interdits. Il est demandé de soigner la présentation de la
Dans l'ensemble de l'énoncé, les variables aléatoires considérées sont dénies sur un espace de probabilité (Ω, F, P).
Cours.
Exercice. On considère une suite (Xn )n≥1 de variables aléatoires réelles intégrables et positives ainsi qu'une suite (Fn )n≥1
de sous-tribus de F .
1. Pour n ≥ 1, rappeler la dénition de E(Xn |Fn ) et montrer que E(Xn |Fn ) est positive presque-sûrement.
2. On xe δ > 0 et n ≥ 1. Montrer que E(Xn 1{E(Xn |Fn )≤δ} ) ≤ δ.
1
3. On xe ε > 0. Montrer que pour tout δ > 0 et n ≥ 1, P(Xn ≥ ε) ≤ E(Xn 1{E(Xn |Fn )≤δ} ) + P(E(Xn |Fn ) > δ).
ε
4. Déduire des deux questions précédentes que si la suite (E(Xn |Fn ))n≥1 converge en probabilité vers 0, alors la suite
(Xn )n≥1 converge aussi en probabilité vers 0.
5. On considère une suite (Gn )n≥1 de sous-tribus de F telle que Fn ⊂ Gn pour tout n ≥ 1. Montrer que si la suite
(E(Xn |Fn ))n≥1 converge en probabilité vers 0, alors la suite (E(Xn |Gn ))n≥1 converge aussi en probabilité vers 0.
6. Donner un exemple de suites (Xn )n≥1 et (Fn )n≥1 telles que (Xn )n≥1 converge en probabilité vers 0 mais pas
(E(Xn |Fn ))n≥1 .
Indication. On pourra prendre Fn = {∅, Ω} pour tout n ≥ 1 et choisir une suite (Xn )n≥1 qui converge en probabilité
Problème. L'objectif du problème est de montrer par une méthode probabiliste la formule asymptotique de Stirling
√
n! ∼ nn e−n 2πn. (1)
n→+∞
Pour ce faire, on considère une suite (Xn )n≥1 de variables aléatoires indépendantes et identiquement distribuées, de loi
de Poisson de paramètre 1. Pour tout n ≥ 1, on note Sn = X1 + · · · + Xn .
1. Déterminer la loi de Sn .
Sn
2. Montrer que la suite converge presque-sûrement vers une limite qu'on précisera.
n n≥1
Sn − n
On pose à présent pour tout n ≥ 1, Tn = √ . On note par ailleurs Tn− = max(−Tn , 0).
n
3. Montrer que la suite (Tn )n≥1 converge en loi vers une variable limite T dont on précisera la loi.
4. En déduire que la suite (Tn− )n≥1 converge en loi vers T − puis que pour tout a > 0, la suite (min(Tn− , a))n≥1
converge en loi vers min(T − , a).
1
5. À l'aide de la question précédente, montrer que pour tout a > 0, lim E(min(Tn− , a)) = E(min(T − , a)).
n→+∞
Indication.
0 si x < 0
On remarquera que la fonction f : R −→ R dénie par f (x) = x si 0 ≤ x ≤ a est continue bornée.
a sinon
E(T 2 )
6. Montrer que E(Tn− − min(Tn− , a)) ≤ n
.
a
Indication. On pourra montrer et exploiter l'égalité presque-sûre Tn − min(Tn , a) = (Tn − a)1
{Tn− >a} .
− − −
7. Calculer E(Tn2 ).
8. Déduire des deux questions précédentes que
1 e−n nn
10. Montrer que E(T − ) = √ et que pour tout n ≥ 1, E(Tn− ) = √ .
2π n(n − 1)!
11. Déduire des deux questions précédentes la formule de Stirling (1).
2
Master 1ère année, parcours AiMAF, MAM et MFA, année 2021-2022
Probabilités 1
Correction de l'examen du lundi 3 janvier 2022
Exercice.
1. Pour n ≥ 1, rappeler la dénition de E(Xn |Fn ) et montrer que E(Xn |Fn ) est positive presque-sûrement.
Correction. E(Xn |Fn ) est la variable aléatoire réelle (unique à un presque-sûre près) intégrable, Fn -mesurable
et vériant pour tout A ∈ Fn l'égalité
En prenant en particulier A = {E(Xn |Fn ) ≤ 0}, on constate que l'espérance à gauche de l'égalité (1) est ≥ 0 tandis
que celle à droite de (1) est ≤ 0. Ceci implique qu'elle est nulle et comme la variable E(Xn |Fn )1A est de signe
constant, elle est donc nulle sur un événement de probabilité 1. On en déduit que P(E(Xn |Fn ) ≥ 0) = 1.
Correction. On applique (1) à A = {E(Xn |Fn ≤ δ} qui est bien Fn -mesurable puisque E(Xn |Fn ) l'est. On constate
que
E(Xn 1{E(Xn |Fn )≤δ} ) = E(E(Xn |Fn )1{E(Xn |Fn )≤δ} ) ≤ δP(E(Xn |Fn ) ≤ δ) ≤ δ.
1
3. On xe ε > 0. Montrer que pour tout δ > 0 et n ≥ 1, P(Xn ≥ ε) ≤ E(Xn 1{E(Xn |Fn )≤δ} ) + P(E(Xn |Fn ) > δ).
ε
P(Xn ≥ ε) = E(1{Xn ≥ε}∩{E(Xn |Fn )≤δ} ) + P({Xn ≥ ε} ∩ {E(Xn |Fn ) > δ})
Xn
≤ E( 1{Xn ≥ε}∩{E(Xn |Fn )≤δ} ) + P(E(Xn |Fn ) > δ)
ε
1
≤ E(Xn 1{E(Xn |Fn )≤δ} ) + P(E(Xn |Fn ) > δ).
ε
4. Déduire des deux questions précédentes que si la suite (E(Xn |Fn ))n≥1 converge en probabilité vers 0, alors la suite
(Xn )n≥1 converge aussi en probabilité vers 0.
P P
Correction.Supposons que E(Xn |Fn ) → 0. Montrons que Xn → 0, c'est-à-dire que pour tout ε > 0, on a
lim P(Xn ≥ ε) = 0. Fixons donc ε > 0. On se donne également η > 0. On cherche N tel que pour tout
n→+∞
n ≥ N , P(Xn ≥ ε) ≤ η . En combinant les deux questions précédentes, on obtient que pour tout δ > 0 et n ≥ 1,
δ
P(Xn ≥ ε) ≤ + P(E(Xn |Fn ) > δ).
ε
1 P η
Prenons δ = εη . Comme E(Xn |Fn ) → 0, soit N tel que pour tout n ≥ N , P(E(Xn |Fn ) > δ) ≤ . Alors pour
2 2
η η P
tout n ≥ N , on obtient P(Xn ≥ ε) ≤ + = η. Ceci montre que Xn → 0.
2 2
1
5. On considère une suite (Gn )n≥1 de sous-tribus de F telle que Fn ⊂ Gn pour tout n ≥ 1. Montrer que si la suite
(E(Xn |Fn ))n≥1 converge en probabilité vers 0, alors la suite (E(Xn |Gn ))n≥1 converge aussi en probabilité vers 0.
Correction.On pose Yn = E(Xn |Gn ) pour tout n ≥ 1. Alors on remarque que par la propriété des tribus emboîtées,
on a presque-sûrement pour tout n ≥ 1,
E(Yn |Fn ) = E(E(Xn |Gn )|Fn ) = E(Xn |Fn ).
Il reste à appliquer la question précédente à la suite (Yn )n≥1 pour obtenir le résultat voulu.
6. Donner un exemple de suites (Xn )n≥1 et (Fn )n≥1 telles que (Xn )n≥1 converge en probabilité vers 0 mais pas
(E(Xn |Fn ))n≥1 .
Correction.On prend Fn = {∅, Ω} pour tout n ≥ 1. Pour n ≥ 1, on choisit la loi de Xn de la manière sui-
1 1 P
vante : P(Xn = n) = √ = 1 − P (Xn = 0). Alors pour tout ε > 0, P(Xn ≥ ε) = √ → 0 donc Xn → 0. De
n √ n n→+∞
plus, E(Xn |Fn ) = E(Xn ) p.s. mais E(Xn ) = n ne tend pas vers 0.
Problème.
1. Déterminer la loi de Sn .
On rappelle que la fonction caractéristique de X1 est ϕX1 (u) = e−(1−e ) , u ∈ R. En particulier, pour
iu
Correction.
Sn
2. Montrer que la suite converge presque-sûrement vers une limite qu'on précisera.
n n≥1
3. Montrer que la suite (Tn )n≥1 converge en loi vers une variable limite T dont on précisera la loi.
2
Correction. La suite (Xn )n≥1 est constituée de v.a.i.i.d. de carré intégrable et non constantes. On peut donc ap-
pliquer le théorème central limite. En remarquant que E(X1 ) = Var(X1 ) = 1, on obtient que (Tn )n≥1 converge en
loi vers une variable T de loi gaussienne centrée réduite N (0, 1).
4. En déduire que la suite (Tn− )n≥1 converge en loi vers T − puis que pour tout a > 0, la suite (min(Tn− , a))n≥1
converge en loi vers min(T − , a).
Correction. On rappelle que si une suite de v.a.r. (Un )n≥1 converge en loi vers une v.a.r. U , alors pour toute
fonction continue ϕ, (ϕ(Un ))n≥1 converge en loi vers ϕ(U ) : en eet, il sut d'utiliser la caractérisation de la
convergence étroite : on se donne une fonction f : R −→ R continue et bornée et on note qu'alors E(f (ϕ(Un )) tend
vers E(f (ϕ(U ))) car f ◦ ϕ est une fonction continue bornée appliquée à Un .
Les fonctions ψ : x 7→ max(−x, 0) et ϕa : x 7→ min(max(−x, 0), a), a > 0 sont continues sur R donc ψ(Tn ) = Tn−
converge en loi vers ψ(T ) = T − et ϕa (Tn ) = min(Tn− , a) converge en loi vers ϕa (T ) = min(T − , a).
5. À l'aide de la question précédente, montrer que pour tout a > 0, lim E(min(Tn− , a)) = E(min(T − , a)).
n→+∞
0 si x < 0
Correction. La fonction f : R −→ R dénie par f (x) = x si 0 ≤ x ≤ a est continue bornée. Or min(Tn− , a) ∈
a sinon
[0, a] presque-sûrement donc f (min(Tn , a)) = min(Tn , a) et de même, f (min(T − , a)) = min(T − , a). Puisque la
− −
convergence en loi de min(Tn− , a) vers min(T − , a) est équivalente à la convergence étroite, on obtient en particulier
que
lim E(f (min(Tn− , a))) = lim E(min(Tn− , a)) = E(f (min(T − , a))) = E(min(T − , a)).
n→+∞ n→+∞
E(Tn2 )
6. Montrer que E(Tn− − min(Tn− , a)) ≤ .
a
Correction.Montrons tout d'abord l'égalité presque-sûre Tn− − min(Tn− , a) = (Tn− − a)1{Tn− >a} . Soit donc ω ∈ Ω.
Supposons Tn− (ω) > a. Alors le membre de gauche vaut en ω , Tn− (ω) − a et le membre de droite également.
Supposons à présent Tn− (ω) ≤ a. Alors le membre de gauche vaut 0 en ω et de même le membre de droite. On a
donc bien montré l'égalité. Prenons son espérance :
3
la dernière inégalité provenant du fait que 0 ≤ Tn− ≤ |Tn | presque-sûrement.
7. Calculer E(Tn2 ).
Correction.On se souvient que Sn suit une loi de Poisson de paramètre n. En particulier, E(Sn ) = Var(Sn ) = n.
1
Ceci implique que E(Tn2 ) = Var(Sn ) = 1.
n
1
Correction. D'après les 2 questions précédentes, on a sup(E(Tn− ) − E(min(Tn− , a))) ≤ , ce qui montre le résultat.
n≥1 a
Fixons ε > 0. La diérence (E(T − ) − E(min(T − , a))) tend vers 0 quand a → +∞ par théorème de convergence
ε ε
monotone. On xe donc a assez grand tel que 0 ≤ (E(T − )−E(min(T − , a))) ≤ et sup(E(Tk− )−E(min(Tk− , a))) ≤
3 k≥1 3
en utilisant la question précédente. Il reste à utiliser la question 5 en prenant N tel que pour tout n ≥ N ,
ε
|E(min(Tn− , a) − E(min(T − , a))| ≤ . On obtient alors pour tout n ≥ N , |E(Tn− ) − E(T − )| ≤ ε. Ceci montre la
3
convergence demandée.
1 e−n nn
10. Montrer que E(T − ) = √ et que pour tout n ≥ 1, E(Tn− ) = √ .
2π n(n − 1)!
e−n nn 1
Correction. D'après les questions 9 et 10, quand n → +∞, √ ∼√ et donc
n (n − 1)! 2π
√ e−n √
n! = n(n − 1)! ∼ n 2π √ nn = nn e−n 2πn.
n