Vous êtes sur la page 1sur 72

Sommaire

Chapitre I. Topologie, Convergence 2


I.1 - Espaces métriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
I.2 - Espaces vectoriels normés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
I.3 - Espaces topologiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

Chapitre II. Espaces de Hilbert, Séries de Fourier 8


II.1 - Produit scalaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
II.2 - Espaces de Hilbert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
II.3 - Séries de Fourier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

Chapitre III. Mesurabilité 13


III.1 - Tribus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
III.2 - Mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

Chapitre IV. Intégration 18


IV.1 - Intégrale par rapport à une mesure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
IV.2 - Intégrale de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
IV.3 - Mesure de densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

Chapitre V. Espaces Lp 26
V.1 - Relations d’équivalence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
V.2 - Construction de l’e.v.n. Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
V.3 - Propriétés de l’e.v.n. Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
V.4 - L’espace L2C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

Chapitre VI. Introduction aux probabilités 33


VI.1 - Mesure de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
VI.2 - Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
VI.3 - Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
VI.4 - Moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
VI.5 - Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
VI.6 - Quelques lois remarquables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

Chapitre VII. Mesure produit, Convolution 41


VII.1 - Espace produit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
VII.2 - Intégrales multiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
VII.3 - Indépendance des variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
VII.4 - Convolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

Chapitre VIII. Vecteurs aléatoires 50


VIII.1 - Fonctions de répartition, Copules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
VIII.2 - Moments, Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

Chapitre IX. Transformée de Fourier, Fonction caractéristique 55


IX.1 - Transformée de Fourier d’une mesure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
IX.2 - Transformée de Fourier d’une fonction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
IX.3 - Fonction caractéristique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

Chapitre X. Vecteurs Gaussiens 62


X.1 - Définition d’un vecteur gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
X.2 - Caractérisation d’un vecteur gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
X.3 - Loi d’un vecteur gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

Chapitre XI. Convergence de variables aléatoires 64


XI.1 - Les différents modes de convergence d’une v.a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
XI.2 - Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
XI.3 - Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
XI.4 - Théorème Central Limite (TCL) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

Chapitre XII. Introduction aux processus stochastiques 69


XII.1 - Espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
XII.2 - Processus stochastiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

1
Chapitre I. Topologie, Convergence
Section I.1 - Espaces métriques

Définition

Soit E un ensemble et d : E × E → R+ une fonction.


d est une distance sur E ssi :
1. ∀(x, y) ∈ E × E, d(x, y) = 0 ⇔ x = y
2. ∀(x, y) ∈ E × E, d(x, y) = d(y, x)
3. ∀(x, y, z) ∈ E × E × E, d(x, z) ≤ d(x, y) + d(y, z)
On dit alors que (E, d) est un espace métrique.

Exemples : Sur n’importe quel ensemble E, on peut définir une distance : la distance triviale, pour laquelle d(x, y) = 0
si x = y et d(x, y) = 1 sinon.
Pn 1
Sur Rn , on note dp (X, Y ) = ( i=1 |yi − xi |p ) p .
Sur C([0, 1], R), d(f, g) = sup |g(x) − f (x)| définit une distance.
x∈[0,1]

Définition

Soit (E, d) un espace métrique et l ∈ E.


(un ) tend vers l ssi ∀ > 0, ∃N ∈ N, n ≥ N ⇒ d(un , l) < .

Remarque : R peut être muni de distances différentes, qui peuvent mener à des convergences différentes. La suite
un = n1 tend vers 0 avec les distances dp , mais pas avec la distance triviale.

Définition

Soit (E, d) un espace métrique, a ∈ E et r ≥ 0.


La boule ouverte centrée en a de rayon r est :

B(a, r) = {x ∈ E|d(x, a) < r}

Proposition

Soit (E, d) un espace métrique.


(un ) tend vers l ssi ∀ > 0, ∃N ∈ N, n ≥ N ⇒ un ∈ B(l, )

Définition
Soit E un ensemble, da et db deux distances sur E.
On dit que da est plus fine que db si ∃C > 0, db ≤ Cda .
Si da est plus fine que db et db est plus fine que da , alors on dit que da et db sont équivalentes.

Exemple : Sur Rn , toutes les distances dp sont équivalentes.

Définition
Soit E un ensemble, A ⊂ E non vide et x ∈ E. La distance du point x à A est :

d(x, A) = inf{d(x, a), a ∈ A}

2
Définition

Soit (un ) une suite réelle majorée.


On définit sa limite supérieure par :

lim sup un = lim sup um


n→+∞ n→+∞ m≥n

Soit (un ) une suite réelle minorée.


On définit sa limite inférieure par :

lim inf un = lim inf um


n→+∞ n→+∞ m≥n

Remarque : Si (un ) converge, limite, limite supérieure et limite inférieure sont des quantités égales.

Définition

Une suite (un ) est de Cauchy si :

∀ > 0, ∃N ∈ N, ∀(p, q) ∈ N2 , q > p > N ⇒ d(uq , up ) < 

Proposition

Toute suite convergente est de Cauchy.



b 210n c
Remarque : La réciproque est fausse : la suite de Q définie par un = 10n ne converge pas dans Q, mais est de
Cauchy car si q > p > N alors |uq − up | < 101N .

Définition
Soit E un ensemble. On dit que E est complet si toute suite de Cauchy de E converge.

Théorème
R est complet.
R1
Exemple : C([0, 1], R) muni de la distance d(f, g) = 0 |g(x) − f (x)|dx n’est pas complet. En effet, la suite de fonctions
définies par :
si x < 21 − n1

 0
n
fn (x) = x + 2 − 4 si 21 − n1 ≤ x ≤ 12 + n1
1 n
 2
1 si x > 12 + n1
1 1
vérifie, pour q > p, d(fq , fp ) = 2p − 2q , et est donc de Cauchy, mais ne converge pas dans C([0, 1], R).

Section I.2 - Espaces vectoriels normés

Définition

Soit E un espace vectoriel et N : E × E → R+ une fonction.


N est une norme sur E ssi :
1. ∀x ∈ E, N (x) = 0 ⇔ x = 0
2. ∀x ∈ E, λ ∈ R, N (λx) = |λ|N (x)
3. ∀(x, y) ∈ E × E, N (x + y) ≤ N (x) + N (y)
On dit alors que (E, d) est un espace vectoriel normé.

Exemple : Soit p ∈ [1, +∞[.


Pn 1
Sur Rn , on définit la norme Np (f ) = ( i=1 |xi |p ) p .
R1 1
Sur C([0, 1], R), on définit la norme Np (f ) = ( 0 |f (x)|p dx) p .

3
Proposition

Soit (E, N ) un espace vectoriel normé.


d(x, y) = N (x − y) est une distance sur E, appelée distance induite par N .

Remarque : Toute distance n’est pas forcément induite par une norme ; par exemple, la distance triviale ne l’est jamais.

Définition
Soit E un espace vectoriel, Na et Nb deux normes sur E.
On dit que Na est plus fine que Nb si ∃C > 0, Nb ≤ CNa .
Si Na est plus fine que Nb et Nb est plus fine que Na , alors on dit que Na et Nb sont équivalentes.

Proposition

La relation ”être plus fine que” est réflexive et transitive. On dit que c’est un pré-ordre et on note Nb 4 Na .

Théorème

Soit (E, N ) un espace vectoriel sur R ou C.


E est de dimension finie ssi toutes ses normes sont équivalentes.

Définition

Soit (E, N ) un espace vectoriel normé, a ∈ E et r ≥ 0.


La boule ouverte centrée en a de rayon r est :

B(a, r) = {x ∈ E|N (x − a) < r}

Proposition

Deux normes sont équivalentes si et seulement si leurs boules unité peuvent être incluses l’une dans l’autre
après application d’une homothétie.

Définition

Soit (E, N ) un espace métrique et l ∈ E.


(un ) tend vers l ssi ∀ > 0, ∃N ∈ N, n ≥ N ⇒ N (un − l) < .

Définition
On appelle espace de Banach tout espace vectoriel normé complet.

Exemples : C([0, 1], R) muni de Np est un espace vectoriel normé, mais pas un espace de Banach.
R3 est un espace de Banach (peu importe la norme choisie : cf. proposition suivante)

Proposition

Deux normes équivalentes conduisent à la même convergence.

Remarque : En dimension infinie, il faut toujours préciser la norme lorsque l’on parle de convergence. Par exemple
dans C([0, 1], R), la suite de fonctions définies par :

1 − nx si 0 ≤ x ≤ n1

fn (x) =
0 si n1 ≤ x ≤ 1
1
converge vers 0 pour N1 (car N1 (fn ) = n) mais converge vers 1 pour N∞ (car N∞ (fn ) = 1).

4
Section I.3 - Espaces topologiques

Définition
Soit E un ensemble. T est une topologie sur E ssi :
1. ∅ ∈ T et E ∈ T .
2. Toute union d’éléments de T est dans T .
3. Toute intersection finie d’élements de T est dans T .
(E, T ) est alors un espace topologique et les éléments de T sont appelés les ouverts.

Exemples : Pour E = {1, 2, 3, 4, 5}, T = {∅, {1, 2}, {3, 4}, {1, 2, 3, 4}, E} est une topologie.
Pour E un ensemble quelconque, les topologies T = {∅, E} et T = P(E) sont toujours des topologies sur E, qu’on
appelle respectivement topologie grossière et topologie discrète.

Définition
Soit Ta et Tb deux topologies sur E. On dit que Tb est plus fine que Ta si Ta ⊂ Tb .
On dit alors que Ta est plus grossière que Tb .

Définition

Soit (E, T ) un espace topologique. X ⊂ E est un fermé si E\X est un ouvert.

Définition

Soit (E, T ) un espace topologique et x ∈ E. On dit que V ⊂ E est un voisinage de x si ∃U ∈ T tel que x ∈ U
et U ⊂ V .
On note V(x) l’ensemble des voisinages de x.
On appelle base de voisinages de x toute partie B ⊂ V(x) telle que ∀V ∈ V(x), ∃B ∈ B, B ⊂ V .

Remarque : Si Ta et Tb sont deux topologies sur E telles que Tb est plus fine que Ta , alors tout voisinage de x pour Ta
sera un voisinage de x pour Tb .

Proposition

Soit (E, T ) un espace topologique.


U ⊂ E est un ouvert ssi il est voisinage de chacun de ses points.

Démonstration : Si U est un ouvert, alors pour chaque point x de U , on a x ∈ U ⊂ U et donc U est voisinage de
chacun de ses points.
Réciproquement, si U est voisinage de chacun de ses points, alors pour tout x de U , on choisit un ouvert Ax qui
contient x inclus dans U . Alors, A = ∪x∈U Ax est un ouvert (union d’ouverts), tel que U ⊂ A car tous les éléments de
x sont dans A et A ⊂ U car chaque Ax est inclus dans U . On a donc U = A ouvert.
Proposition

Soit (E, d) un espace métrique.


T = {unions de B(x, r), x ∈ E, r > 0} est une topologie sur E, on parle de topologie induite par la distance.

Démonstration : Vérifions que l’on a effectivement une topologie.


• ∅ = B(0, 0) ∈ T et E = ∪r≥0 B(0, r) ∈ T .
• T est par définition stable par union.
• Soit U, V ∈ T . On écrit U = ∪i∈I B(xi , ri ) et V = ∪j∈J B(xj , rj ). Alors U ∩ V = ∪(i,j)∈I×J (B(xi , ri ) ∩ B(xj , rj )).
Soit B(xi , ri ) ∩ B(xj , rj ) est vide, et alors c’est un ouvert, soit elle est non vide et alors on considère, pour tout
z ∈ B(xi , ri ) ∩ B(xj , rj ), ρz = min(ri − d(z, xi ), rj − d(z, xj )) de sorte que B(z, ρz ) ⊂ B(xi , ri ) ∩ B(xj , rj ). On a alors
∪z∈B(xi ,ri )∩B(xj ,rj ) B(z, ρz ) ⊂ B(xi , ri ) ∩ B(xj , rj ), et puisque B(xi , ri ) ∩ B(xj , rj ) ⊂ ∪z∈B(xi ,ri )∩B(xj ,rj ) B(z, ρz ), on
en déduit que B(xi , ri ) ∩ B(xj , rj ) = ∪z∈B(xi ,ri )∩B(xj ,rj ) B(z, ρz ). Donc B(xi , ri ) ∩ B(xj , rj ) est un ouvert, et on étend
le résultat par récurrence à une intersection finie, ce qui conclut.
Exemple : La topologie induite par la distance triviale est la topologie discrète.

5
Remarque : Si da et db sont deux distances sur E telles que db est plus fine que da , alors la topologie induite par db
est plus fine que la topologique induite par da .
Définition

Sur R, la distance d(x, y) = |y − x| induit la topologie suivante : T = {unions d’intervalles ouverts}.


On l’appelle la topologie usuelle de R.

Définition

Soit (E, T ) un espace topologique et l ∈ E.


(un ) tend vers l ssi ∀V ∈ V(l), ∃N ∈ N, n ≥ N ⇒ un ∈ V .

Remarque : Dans les espaces métriques, on peut prendre V = B(l, ), ce qui nous ramène à la définition de la conver-
gence dans un espace métrique.

Définition

Un espace topologique E est dit de Hausdorff (ou T2 ) si :

∀(x, y) ∈ E 2 , x 6= y, ∃U ∈ V(x), ∃V ∈ V(y), U ∩ V = ∅

Proposition

Dans un espace de Hausdorff, la limite, si elle existe, est unique.

Démonstration : Soit (un )n∈N une suite d’un espace de Hausdorff et l sa limite. Supposons par l’absurde que l0 6= l
soit une autre limite de (un )n∈N . Alors il existe U ∈ V(l) et V ∈ V(l0 ) tel que U ∩ V = ∅. Or par définition de la
limite, il existe N ∈ N tel que uN ∈ U et uN ∈ V , d’où la contradiction.
Proposition

Toute topologie induite par une distance est de Hausdorff.

Démonstration : Soit x et y deux points de l’espace topologique. En posant U = B(x, d(x,y)


2 ) et V = B(y,
d(x,y)
2 ), on
a U ∈ V(x), V ∈ V(y) et U ∩ V = ∅.
Définition

Soit (E, TE ) et (F, TF ) deux espaces topologiques.


Une fonction f : E → F est continue ssi ∀U ∈ TF , f −1 (U ) ∈ TE .

Proposition

Soit (E, TE ) et (F, TF ) deux espaces topologiques, f : E → F une fonction continue et (un )n∈N une suite
d’éléments de E convergente vers l.
Alors lim f (un ) = f (l).
n→+∞

Démonstration : Soit W un voisinage de f (l). Il existe un ouvert U tel que f (l) ∈ U et U ⊂ W . On a alors l ∈ f −1 (U ),
f −1 (U ) ⊂ f −1 (W ) et f −1 (U ) ouvert car f est continue et U ouvert. Ainsi, f −1 (W ) est un voisinage de l. Or (un )n∈N
converge vers l, donc ∃N ∈ N, n ≥ N ⇒ un ∈ f −1 (W ) ⇒ f (un ) ∈ W . Ceci vaut quelque soit le voisinage de f (l)
considéré, et donc on conclut que f (un ) tend vers f (l).
Définition

Soit (E, TE ) un espace topologique.


K ∈ E non vide est compact ssi pour tout recouvrement de K par des ouverts, on peut extraire un sous-
recouvrement fini.

1 1
Exemple : Pour E = R avec la topologie usuelle, N n’est pas compact : en considérant Ui =]i − 10 , i + 10 [, on a bien
N ⊂ ∪i∈N Ui mais on ne peut pas trouver de sous-recouvrement fini de N. (enlever un des Ui ne recouvre plus N)

6
Théorème (Borel-Lebesgue)

Lorsque E = Rn est muni de la topologie usuelle, les compacts sont les fermés bornés.

Théorème (Bolzano-Weierstrass)

Soit E un espace topologique métrisable (dont la topologie est induite par une distance).
K ⊂ E est compact ssi toute suite d’éléments de K admet une sous-suite convergente (dans K).

Définition

Soit (E, TE ) un espace topologique, A ⊂ E et x ∈ E.


On dit que x est adhérent à A ssi ∀V ∈ V(x), V ∩ A 6= ∅.
On dit que x est un point isolé de A ssi ∃V ∈ V(x), V ∩ A = {x}.
On dit que x est un point d’accumulation de A ssi ∀V ∈ V(x), V ∩ A\{x} =
6 ∅

Définition

Soit (E, TE ) un espace topologique et D ⊂ E.


On dit que D est discret ssi tout point de D est isolé.

Définition

Soit (E, TE ) un espace topologique.


On appelle adhérence de A, et on note A, l’ensemble des points adhérents à A.

Définition

Soit (E, TE ) un espace topologique et (un ) une suite de E.


On dit que a ∈ E est une valeur d’adhérence de (un ) si ∀N ∈ N, a ∈ {un , n ≥ N }.

Définition

Soit (un ) une suite majorée (resp. minorée).


lim inf un (resp. lim sup un ) est la plus petite (resp. plus grande) valeur d’adhérence de (un ).

Remarque : Dans le cas réel, la définition donnée ci-dessus coincide bien avec celle donnée au début du chapitre.

Définition

Soit (E, TE ) un espace topologique.


On dit que A est dense dans E si A = E.

Exemple : Pour la topologie usuelle, Q est dense dans R.

Définition

Soit (E, TE ) un espace topologique, A ⊂ E



On appelle intérieur de A, et on note A, l’ensemble des points dont A est le voisinage.

Proposition

A est le plus petit fermé contenant A.



A est le plus grand ouvert contenu dans A.

Définition

Soit (E, TE ) un espace topologique, A ⊂ E



On appelle frontière de A, et on note ∂A, l’ensemble A\A.

7
Chapitre II. Espaces de Hilbert, Séries de Fourier
Section II.1 - Produit scalaire

Définition
Soit E un espace vectoriel sur C.
On dit que φ : E × E → C est une forme sesquilinéaire si :

φ(x + λz, y) = φ(x, y) + λφ(z, y)
∀(x, y, z) ∈ E × E × E, ∀λ ∈ C,
φ(x, y + λz) = φ(x, y) + λφ(x, z)

On dit alors que cette forme est :


• hermitienne ssi ∀(x, y) ∈ E × E, φ(x, y) = φ(y, x)
• positive ssi ∀x ∈ E, φ(x, x) ∈ R+
• définie ssi φ(x, x) = 0 ⇒ x = 0.

Définition
Soit E un espace vectoriel sur C.
On appelle produit scalaire sur E toute forme sesquilinéaire φ hermitienne définie positive.
On dit alors que (E, φ) est un espace préhilbertien.
Lorsque E est de dimension finie, on dit que (E, φ) est un espace hermitien.

Exemples : C2 muni de φ : (x, y) 7→ 2x1 y1 + x2 y2 est un espace hermitien.


R1
C([0, 1], C) muni de φ : (f, g) 7→ 0 f (x)g(x)dx est un espace préhilbertien.

Proposition (Identité du parallélogramme)

Soit E un espace préhilbertien et x, y ∈ E. Alors :

||x + y||2 + ||x − y||2 = 2||x||2 + 2||y||2

Proposition (Pythagore)

Soit E un espace préhilbertien et x, y ∈ E. Alors :

x ⊥ y ⇒ ||x + y||2 = ||x||2 + ||y 2 ||

Remarque : On veillera bien au fait que dans C, il n’y a qu’une implication.

Proposition (Identité de polarisation)

Soit E un espace préhilbertien et x, y ∈ E. Alors :


1
hx, yi = (||x + y||2 + i||x + iy||2 − ||x − y||2 − i||x − iy||2 )
4

Section II.2 - Espaces de Hilbert

Définition
On appelle espace de Hilbert tout espace préhilbertien complet.
P+∞
Exemples : l2 = {(un )n∈N | u2n converge} muni de h(un )n∈N , (vn )n∈N i = n=0 un vn est un espace de Hilbert.
P
R n≥0
1
C([0, 1], C) muni de hf, gi = 0 f (x)g(x)dx n’est pas un espace de Hilbert (car non complet)

8
Définition
Soit H un espace de Hilbert.
On dit que {ei }i∈I est une base hilbertienne de H ssi :
• ∀(i, j) ∈ I × I, hei , ej i = δij
• Vect{ei , i ∈ I} = H

Remarque : Une base hilbertienne est donc une base orthonormale totale.

Définition
On dit qu’un espace de Hilbert H est séparable s’il existe E ⊂ H dénombrable et dense dans H.

Proposition

Tout espace de Hilbert séparable admet une base hilbertienne au plus dénombrable.

Démonstration : Soit (vn )n∈N une suite d’éléments de H telle que {vn , n ∈ N} = H. Pour N ∈ N , on note FN =
Vect({vn , n ∈ [[1, n]]}) ; la suite (FN )N ∈N est une suite croissante d’espaces vectoriels de dimension finie. On construit
alors une base orthonormée pour F1 , qu’on complète pour F2 ... etc, ce qui conclut puisque ∪N ∈N FN est dense dans
H.

Exemple : Une base hilbertienne de l2 est {(uin )n∈N , i ∈ N} où uin = δi,n .

Théorème (Projection sur un convexe fermé)

Soit H un espace de Hilbert et A ⊂ H un convexe fermé non vide.


Pour tout x dans H, il existe un unique x0 ∈ A tel que d(x, x0 ) = min d(x, a).
a∈A
On note alors x0 = PA (x), qu’on appelle projection orthogonale de x sur A.
De plus, x0 = PA (x) ⇔ ∀u ∈ A, hx − x0 , u − x0 i ≤ 0.

Remarque : Dans le cas complexe, on aurait ∀u ∈ A, Re(hx − x0 , u − x0 i) ≤ 0.

Démonstration : On a défini d(x, A) = inf a∈A d(x, a). Soit (un )n∈N une suite de A telle que (dn )n∈N définie par
dn = d(x, un ) soit décroissante et tende vers d(x, A) (on dit que (dn )n∈N est une suite minimisante). On va montrer
que (un )n∈N est de Cauchy.
Soit  > 0 et q > p deux entiers. On applique l’inégalité du parallélogramme avec x − up et x − uq :

||(x − up ) + (x − uq )||2 + ||(x − up ) − (x − uq )||2 = 2||x − up ||2 + 2||x − uq ||2


up + uq 2
⇔ ||uq − up ||2 = 2||x − up ||2 + 2||x − uq ||2 − 4||x − ||
2
up +uq
Or A est convexe donc 2 ∈ A ; on a donc

||uq − up ||2 ≤ 2d(x, up )2 + 2d(x, uq )2 − 4d(x, A)2

⇔ ||uq − up ||2 ≤ 2(d(x, up )2 − d(x, A)2 ) + 2(d(x, uq )2 − d(x, A)2 )


Or dp et dq tendent vers d(x, A) ; on peut donc écrire qu’il existe N1 ∈ N tel que p ≥ N1 ⇒ d2p − d(x, A)2 <  et
N2 ∈ N tel que q ≥ N2 ⇒ d2q − d(x, A)2 < . Alors, pour q > p > N = max(N1 , N2 ), on a ||uq − up ||2 < 4, et on en
déduit que (un )n∈N est de Cauchy. Puisque (un )n∈N est une suite de Cauchy d’un ensemble fermé et complet, on sait
qu’il existe x0 ∈ A tel que lim un = x0 . D’où d(x, A) = inf d(x, a) = min d(x, a) = d(x, x0 ).
n→+∞ a∈A a∈A
Soit u ∈ A et t ∈]0, 1]. On pose v = (1 − t)x0 + tu ∈ A. Alors :

||x − x0 || ≤ ||x − v|| = ||x − x0 + t(u − x0 )||

⇔ ||x − x0 ||2 ≤ h(x − x0 ) − t(u − x0 ), (x − x0 ) − t(u − x0 )i


⇔ ||x − x0 ||2 ≤ ||x − x0 ||2 − 2thx − x0 , u − x0 i + t2 ||u − x0 ||2
t
⇔ hx − x0 , u − x0 i ≤ ||u − x0 ||2
2

9
Lorsque t → 0, on obtient alors hx − x0 , u − x0 i ≤ 0.
Réciproquement, on suppose que ∀u ∈ A, hx − x0 , u − x0 i ≤ 0. On a alors 2hx − x0 , u − x0 i − ||x0 − u||2 ≤ 0. Or,
2hu−x0 , x−x0 i−||x0 −u||2 = h2x−2x0 , u−x0 i+hx0 −u, u−x0 i = h2x−x0 −u, u−x0 i = 2hx, ui−2hx, x0 i+||x0 ||2 −||u||2 =
(||x0 ||2 − 2hx, x0 i + ||x||2 ) − (||u||2 − 2hx, ui + ||x||2 ) = ||x0 − x||2 − ||x − u||2 . Ainsi, on a ||x0 − x||2 ≤ ||u − x||2 soit
d(x0 , x) ≤ d(u, x) : x0 est donc bien égal à PA (x), puisqu’il minimise la distance de x à A.
On termine par vérifier l’unicité de x0 : si il existe x1 ∈ A tel que ∀u ∈ A, hx−x1 , u−x1 i ≤ 0, alors hx−x1 , x0 −x1 i ≤ 0
et hx − x0 , x1 − x0 i ≤ 0 implique hx1 − x + x − x0 , x1 − x0 i = ||x1 − x0 ||2 ≤ 0, d’où x0 = x1 .

Proposition

Soit H un espace de Hilbert et A ⊂ H un convexe fermé non vide.


Soit x, y ∈ H, et x0 , y0 leurs projections orthogonales sur A respectives.
Alors ||x0 − y0 || ≤ ||x − y||.

Démonstration : ∀u ∈ A, hx−x0 , u−x0 i ≤ 0 et hy −y0 , u−y0 i ≤ 0. On a donc hx−x0 , y0 −x0 i ≤ 0 et hy −y0 , x0 −y0 i ≤
0 ⇒ hx − y + y0 − x0 , y0 − x0 i ≤ 0 ⇒ ||y0 − x0 ||2 ≤ hx − y, x0 − y0 i ≤ ||x − y||||x0 − y0 || ⇒ ||x0 − y0 || ≤ ||x − y||.

Remarque : En particulier, l’application PA est 1-lipschitzienne, donc continue.

Proposition

Soit H un espace de Hilbert et A ⊂ H un sev fermé. Soit x ∈ H.


Alors x0 = PA (x) ⇔ x0 ∈ A et ∀u ∈ A, hx − x0 , ui = 0

Démonstration : Supposons que x0 = PA (x), et soit u ∈ A. Puisque u + x0 ∈ A, on a hx − x0 , (u + x0 ) − x0 i ≤ 0 donc


hx − x0 , ui ≤ 0. Or −u ∈ A, donc on a aussi hx − x0 , −ui ≤ 0 soit hx − x0 , ui ≥ 0. Ainsi hx − x0 , ui = 0.
La réciproque est immédiate.

Proposition

Soit H un espace de Hilbert et A ⊂ H un sev fermé.


Alors PA est un opérateur linéaire.

Démonstration : Soit x, y ∈ H, λ ∈ R. ∀u ∈ A, hx − PA (x), ui = 0 et hy − PA (y), ui = 0. Donc ∀u ∈ A, hx + λy −


(PA (x) + λPA (y)), ui = 0, et on en déduit que PA (x) + λPA (y) = PA (x + λy).

Théorème (Parseval)

Soit H un espace de Hilbert séparable, et {en , x ∈ N} une base hilbertienne de H.


Pour tout x dans H, on a :
X+∞ +∞
X
x= hx, en ien et ||x||2 = |hx, en i|2
n=0 n=0

Démonstration : Soit N ∈ N et EN = Vect({en , n ∈ [[0, N ]]}). EN est un sev fermé de H, donc PEN est un opérateur
linéaire de H dans H. Soit x ∈ H, alors :
XN
PEN (x) = hx, en ien
n=0
N
X N
X
⇒ ||PEN (x)||2 = || hx, en ien ||2 = |hx, en i|2
n=0 n=0
PN
On remarque par ailleurs que hx, en ien i = |hx, en i|2 , et donc que hx, PEN (x)i = 2
n=0 |hx, en i| . On a alors
2
||PEN (x)|| = hx, PEN (x)i ≤ ||PEN (x)|| ||x||. Ainsi, pour tout x ∈ H, ||PEN (x)|| ≤ ||x||. On note désormais
F = ∪N ∈N EN , et on considère y ∈ H et  > 0. F est dense dans H, donc il existe y 0 ∈ F tel que ||y − y 0 || < . Comme
y 0 ∈ F , on sait qu’il existe n0 tel que y 0 ∈ En0 ⇒ PEn0 (y 0 ) = y 0 . Alors : ||PEn0 (y)−y|| = ||PEn0 (y)−PEn0 (y 0 )−y+y 0 || ≤
||PEn0 (y − y 0 )|| + ||y − y 0 || ≤ 2||y − y 0 || ≤ 2. On conclut alors que y = lim PEN (y). En passant à la limite dans les
N →+∞
PN PN
égalités PEN (x) = n=0 hx, en ien et ||PEN (x)||2 = n=0 |hx, en i|2 , on obtient donc le résultat recherché.

10
Définition
Soit E un espace vectoriel.
On appelle dual algébrique de E l’ensemble des formes linéaires. On le note E ∗ .
Si de plus E est muni d’une topologie, on appelle dual topologique de E l’ensemble des formes linéaires
continues. On le note E 0 .

Remarque : Si E est de dimension finie, alors bien entendu E ∗ = E 0 .

Théorème (Représentation de Riesz)

Soit H un espace de Hilbert.


Pour tout φ ∈ H 0 , il existe un unique u ∈ H tel que φ = x 7→ hx, ui.
On a par ailleurs ||φ||H 0 = ||u||H .

Démonstration : Soit M = Ker φ. Si M = H, alors φ = 0 ; on peut donc prendre u = 0. Sinon, on suppose


z−PM (z)
M 6= H. Soit z ∈ H\M . On pose g = ||z−P M (z)||
puis u = φ(g)g.. On remarque qu’on a ||g|| = 1. Soit
φ(x)
x ∈ H ; on note λ = φ(g) et m = x − λg. Ainsi, x = λg + m avec g ∈ M ⊥ et m ∈ M (car φ(m) = 0).
hg, mi = 0 ⇒ hg, x − λgi = 0 ⇒ hg, xi = λhg, gi = λ = φ(x)
φ(g) . D’où φ(x) = hu, xi.
Pour l’unicité, si il existe v ∈ H tel que ∀x ∈ E, φ(x) = hx, ui = hx, vi, alors pour x = u − v, on a hu − v, u − vi = 0
soit u = v.

Remarque : L’application φ 7→ u est un isomorphisme isométrique ; on peut donc identifier H et H 0 , et on notera


(un peu abusivement) H = H 0 .

Définition
Soit E un espace vectoriel normé.
On appelle bidual de E le dual de son dual, c’est-à-dire E 00 .
Lorsque E = E 00 (au sens de l’identification), on dit que E est réflexif.

Proposition (Prolongement de H’ dans V’)

Soit H un espace de Hilbert, V ⊂ H un espace de Banach dense dans H.


Soit φ ∈ H 0 et u ∈ H sa représentation au sens du théorème de Riesz.
On définit T φ : V → R telle que T φ = (v 7→ hv, ui). T φ ∈ V 0 ; on peut donc définir T : H 0 → V 0 telle que
T = (φ 7→ T φ). T est linéaire, injective et continue, et T (H) est dense dans V 0 .
On dit qu’on a injecté H 0 dans V 0 . On identifie H et H 0 qu’on appelle espace pivot, et on écrira V ⊂ H =
H 0 ⊂ V 0 . (ou V ⊂ H ⊂ V 0 )
P+∞
Exemple : l1 = {(xn )n∈N , n=0 |un | < ∞} est un espace de Banach mais pas un espace de Hilbert, et l2 =
P+∞
{(xn )n∈N , n=0 u2n < ∞} est un espace de Hilbert. On admet ici que l1 ⊂ l2 et que l1 est dense dans l2 . Alors
en posant H = l2 et V =Pl1 , on a par ce qui précède V ⊂ H ⊂ V 0 . On a cependant pas V 0 = H 0 ; par exemple φ
+∞
définie par φ((un )n∈N ) = n=0 un appartient à V 0 , mais pas à H 0 .

11
Section II.3 - Séries de Fourier

Définition
Soit f : R → C continue par morceaux et 2π-périodique.
On appelle coefficient de Fourier de f les coordonnées de f dans la base hilbertienne {en : x 7→ einx , n ∈ Z}
avec le produit scalaire : Z π
1
hf, gi = f (x)g(x)dx
2π −π

On note ces coefficients cn et on a :


Z π
1
∀n ∈ Z, cn = f (x)e−inx dx
2π −π

inx
P
On appelle série de Fourier la série n∈Z cn e .

Définition
Soit f : R → C continue par morceaux et 2π-périodique.
On appelle coefficients de Fourier trigonométriques les coefficients an = cn + c−n et bn = i(cn − c−n ).
On a alors :
1 π 1 π
Z Z
an = f (x) cos(nx)dx et bn = f (x) sin(nx)dx
π −π π −π
P+∞
La série de Fourier s’écrit a20 + n=1 (an cos(nx) + bn sin(nx)).

Remarque : Cette écriture permet, lorsque f est à valeurs dans R, de ne travailler qu’avec des nombres réels.

Définition

Soit f une fonction continue par morceaux. On note f˜ la fonction définie pour tout x du domaine de f par :
(
f (x) si f est continue en x
f˜(x) = 1
(lim f + lim f ) sinon
2 − +
x x

Théorème (Dirichlet)

Soit f : R → C de classe C 1 par morceaux et 2π-périodique.


Alors la série de Fourier de f converge simplement vers f˜.
Si de plus f est continue, alors la convergence est normale.

12
Chapitre III. Mesurabilité
Section III.1 - Tribus

Définition
Soit E un ensemble.
On dit que E ⊂ P(E) est une tribu ssi :
1. ∅ ∈ E
2. E est stable par complémentarité (A ∈ E ⇒ E\A ∈ E)
3. E est stable par union dénombrable (∀n ∈ N, An ∈ E ⇒ ∪n∈N An ∈ E)
(E, E) est alors un espace mesurable, et les ensembles de E sont les ensembles mesurables.

Exemples : Pour E = {1, 2, 3, 4}, E = {∅, {1, 2}, {3, 4}, E} est une tribu.
Pour E = R, E = {∅, R−∗ , R+ , R} est une tribu. Par contre, l’ensemble des ouverts de R pour la topologie usuelle n’en
est pas une, car il n’est pas stable par complémentarité.
Pour E un ensemble quelconque, E = {∅, E} et E = P(E) sont toujours des tribus sur E, qu’on appelle respectivement
tribu grossière et tribu discrète.

Proposition

Soit (E, E) un espace mesurable. La définition d’une tribu entraı̂ne :


-E∈E
- La stabilité de E par différence ensembliste (A, B ∈ E ⇒ A\B ∈ E)
- La stabilité de E par intersection dénombrable (∀n ∈ N, An ∈ E ⇒ ∩n∈N An ∈ E)

Proposition

Soit E un ensemble, et (Ei )i∈I une famille de tribus sur E.


Alors ∩i∈I Ei est une tribu sur E.

Démonstration : 1. ∀i ∈ I, ∅ ∈ Ei ⇒ ∅ ∈ ∩i∈I Ei
2. Soit A ∈ ∩i∈I Ei . Alors ∀i ∈ I, A ∈ Ei ⇒ ∀i ∈ I, E\AEi ⇒ E\A ∈ ∩i∈I Ei .
3. Soit (An )n∈N des éléments de ∩i∈I Ei , alors ∀n ∈ N, ∀i ∈ I, An ∈ Ei ⇒ ∀i ∈ I, ∪n∈N An ∈ Ei ⇒ ∪n∈N An ∈ ∩i∈I Ei .

Définition

Soit E un ensemble, et C ⊂ P(E) une famille de sous-ensembles de E.


On appelle tribu engendrée par C, et on note σ(C), l’intersection de toutes les tribus de E contenant C.
Il s’agit de la plus petite tribu de E contenant C.

Exemple : Si E = {1, 2, 3, 4}, alors σ({1}) = {∅, {1}, {2, 3, 4}, E}.

Définition

Soit (E, T ) un espace topologique.


La tribu de Borel de (E, T ) est la tribu engendrée par T .
On note B(T ) = σ(T ). Lorsqu’il y a une topologie usuelle sur E, on note aussi B(E).
Les éléments de cette tribu sont appelés les boréliens.

Exemples : B(R) est la tribu engendrée par les intervalles ouverts. Elle contient les ouverts, les fermés donc les single-
tons, tous les ensembles dénombrables...
B(N) = P(N), la topologie usuelle sur N étant P(N).

13
Définition

On note R+ = [0, +∞] l’ensemble R+ ∪ {+∞}.


On peut définir une addition et une multiplication qui étend les opérations de R+ :
• ∀a ∈ R+ , a + (+∞) = +∞
• (+∞) + (+∞) = +∞
• ∀a ∈ R+∗ , a × (+∞) = +∞
• 0 × (+∞) = 0
• (+∞) × (+∞) = +∞

Définition

On munit R+ de la topologie obtenue par union des ensembles :


• ∀a, b ∈ R+ , ]a, b[
• ∀a ∈ R+ , ]a, +∞]
• ∀b ∈ R+ , [0, b[
Cette topologie s’appelle topologie de l’ordre.

Définition

Soit (E, E) et (F, F) deux espaces mesurables.


La fonction f : E → F est mesurable ssi f −1 (F) ⊂ E, c’est-à-dire si pour tout ensemble mesurable B inclus
dans F , son image réciproque {x ∈ E, f (x) ∈ B} est mesurable.

Proposition

Soit (E, E) un espace mesurable et A ⊂ E.


1A est mesurable ssi A est mesurable.

Démonstration : Si 1A est mesurable, alors 1−1


A ({1}) = A donc A est mesurable.
Réciproquement soit A mesurable, et soit B ∈ B(R). Il y a 4 cas à considérer :
• B ne contient ni 0 ni 1 ; alors 1−1
A (B) = ∅.
• B contient 1, mais pas 0, alors 1−1
A (B) = A
• B contient 0, mais pas 1, alors 1−1
A (B) = E\A
• B contient 0 et 1, alors 1−1
A (B) = E
Dans tous les cas 1−1
A (B) est mesurable, ce qui conclut.

Proposition

Soit (E, E) et (F, F) deux espaces mesurables avec F = σ(C) pour C ∈ P(F ).
f : E → F est mesurable ssi f −1 (C) ∈ E

Démonstration : Le sens direct est immédiat ; montrons la réciproque.


Vérifions que F 0 = {B ⊂ F, f −1 (B) ∈ E} est une tribu.
1. f −1 (∅) = ∅ ∈ E donc ∅ ∈ F 0 .
2. Soit B ∈ F 0 , alors f −1 (B) ∈  ⇒ E\f −1 (B) ∈ E ⇒ f −1 (F \B) ∈ E → F \B ∈ F 0 .
3. Soit (Bn )n∈N des éléments de F 0 , alors ∪n∈N f −1 (Bn ) ∈ E ⇒ f −1 (∪n∈N Bn ) ∈ E ⇒ ∪n∈N Bn ∈ F 0 .
Si C ⊂ F 0 , alors F = σ(C) ⊂ F 0 . Ainsi ∀B ∈ F, f −1 (B) ∈ . Donc f est mesurable.

Définition

Soit (E, T ) et (F, U) deux espaces topologiques, qu’on équipe de leurs tribus de Borel E = σ(T ) et F = σ(U).
On appelle fonction borélienne toute fonction mesurable f : (E, E) → (F, F).

Proposition

Toute fonction continue est borélienne.

Démonstration : Les ouverts engendrent la tribu, et l’image réciproque des ouverts sont des ouverts.

14
Proposition

Soit (E, E), (F, F) et (G, G) trois espaces mesurables.


Soit f : E → F et g : F → G deux fonctions mesurables. Alors g ◦ f est mesurable.

Proposition

Soit (E, E) un espace mesurable.


Soit f et g deux fonctions mesurables de E dans R, R+ ou R+ . Alors f + g, f g, max(f, g), min(f, g) et |f |
sont mesurables.
Soit (fn )n∈N des fonctions mesurables de E dans R, R+ ou R+ . Alors supn∈N fn , inf n∈N fn , lim supn→+∞ fn ,
P+∞
lim inf n→+∞ fn , limn→+∞ fn et n=0 fn sont mesurables lorsqu’elles existent.

Définition

Soit (E, E) un espace mesurable.


Une fonction f : E → R est dite étagée ssi elle est mesurable et prend un nombre fini de valeurs.

Remarque : Une fonction est étagée si et seulement si elle est combinaison linéaire de fonctions indicatrices.

Théorème

Soit (E, E) un espace mesurable.


Toute fonction mesurable f : E → R+ est la limite simple d’une suite croissante de fonctions étagées.

Section III.2 - Mesures

Définition

Soit (E, E) un espace mesurable.


On dit que µ : E ⇒ [0, +∞] est une mesure ssi :
1. µ(∅) = 0 P+∞
2. Pour toute famille dénombrable (An )n∈N d’élements de E deux-à-deux disjoints, µ(∪n∈N An ) = n=0 µ(An )
(E, E, µ) est alors un espace mesuré.

Exemples : Pour E = N, E = P(N), on définit la mesure µ : E → [0, +∞] telle que pour A ⊂ N, on a :

Card(A) si A est fini
µ(A) =
+∞ sinon.

Cette mesure s’appelle mesure de comptage.


Pour E quelconque, E une tribu et x0 ∈ E, on définit la mesure µ : E → [0, +∞] telle que pour A ∈ E, µ(A) = 1A (x0 ).
Cette mesure s’appelle mesure de Dirac au point x0 , qu’on note δx0 .
Pour E = R3 , E = P(R3 ), on sait par le théorème de Banach-Tarski qu’il ne peut pas exister de mesure µ : E → [0, +∞]
qui généralise la notion de volumes.

Proposition

Soit (E, E, µ) un espace mesuré.


Soit A ∈ E et B ∈ E, alors :
• A ⊂ B ⇒ µ(A) ≤ µ(B)
• A ⊂ B et µ(B) < +∞ ⇒ µ(B\A) ≤ µ(B) − µ(A)
• µ(A ∪ B) = µ(A) + µ(B) − µ(A ∩ B)
Soit (An )n∈N Pune famille d’éléments de E, alors :
+∞
• µ(∪n∈N ) ≤ n=0 µ(An )
• An ⊂ An+1 ⇒ µ(∪n∈N An ) = limn→+∞ µ(An ) = supn∈N µ(An )
• An+1 ⊂ An et µ(A0 ) < +∞ ⇒ µ(∩n∈N An ) = limn∈N µ(An ) = inf n∈N µ(An )

15
Définition

Soit (E, E, µ) un espace mesuré.


Si µ(E) < +∞, on dit que µ est une mesure finie.
Si µ(E) = 1, on dit que µ est une mesure de probabilité.

Exemple : La mesure de Dirac est une mesure de probabilité. La mesure de comptage de N n’est pas une mesure finie.

Définition

Soit (E, E, µ) un espace mesuré.


x ∈ E est un atome si {x} ∈ E et µ({x}) > 0.
Si µ est sans atome, on dit que c’est une mesure diffuse.

Définition

Soit (E, E, µ) un espace mesuré. On dit que µ est discrète s’il existe une suite (ai )i∈I dans E, avec I au plus
dénombrable, telle que µ(E\ ∪i∈I {ai }) = 0.

Remarque : Si les singletons appartiennent à la tribu, alors µ se décompose comme une combinaison linéaire de mesures
de Dirac.

Définition

Soit (E, E, µ) un espace mesuré.


Si E est une réunion dénombrable d’ensembles de mesures finies, on dit que µ est σ-finie.

Exemple : La mesure de comptage est σ-finie sur N, mais pas sur R.


Définition

Soit (E, E, µ) un espace mesuré.


On dit que A ∈ E est négligeable si µ(A) = 0.
Lorsqu’une proposition logique est vraie, sauf sur un ensemble négligeable, on dit qu’elle est vraie presque
partout (p.p).

Définition

Soit (E, E, µ) un espace mesuré.


On dit que µ est une mesure complète si tout sous-ensemble d’un ensemble mesurable négligeable est lui-
même mesurable (et donc négligeable).

Remarque : Si µ n’est pas une mesure complète, on peut toujours ”compléter” E afin qu’elle le devienne : en con-
sidérant l’ensemble N = {S ⊂ E, ∃A ∈ E, µ(A) = 0, S ⊂ A}, la tribu complétée est E = σ(E ∪ N ). µ s’étend de
manière unique de E à E, et cette extension est une mesure complète.

Objectif : On cherche désormais à définir une mesure µ sur Rn telle que :


n
Y
µ([a1 , b1 ] × ... × [an , bn ]) = |bi − ai |
i=1

Nous n’y parviendrons pas sur la tribu P(R), et nous allons donc devoir accepter une tribu (légèrement) plus petite.

Définition

On définit l’application λ∗ pour A ∈ P(R) par :


( )
X [

λ (A) = inf (bi − ai ), A ⊂ ]ai , bi [, ai ≤ bi
i∈N i∈N

16
Proposition

Soit M = {B ∈ P(R), ∀X ∈ P(R), λ∗ (B) = λ∗ (B ∩ X) + λ∗ (B\X)}.


Alors M est une tribu, et B(R) ⊂ M.

Proposition

La restriction de λ∗ à M est une mesure ; on la note λ et on l’appelle mesure de Lebesgue.


M = B(R) est le complété de la tribu de Borel, on l’appelle la tribu de Lebesgue.

Proposition

La mesure de Lebesgue λ a la propriété suivante :

∀A ∈ B(R), λ(A) = inf{λ(U ), A ⊂ U, U ouvert}

∀A ∈ B(R), λ(A) = sup{λ(K), K ⊂ A, K compact}


On dit qu’elle est régulière.

Démonstration : Soit A ∈ B(R). Clairement λ(A) ≤ inf{λ(U ), A ⊂ U, U ouvert}. Supposons λ(A) P < +∞ (le cas
échéant, c’est trivial). Pour tout  > 0, il existe un recouvrement de A par des ]ai , bi [ tels que λ(A) ≥ i∈N (bi −ai )−.
En notant U = ∪i∈N ]ai , bi [, on a donc λ(A) ≥ λ(U ) − . Ainsi λ(A) ≥ inf{λ(U ), A ⊂ U, U ouvert}, puis λ(A) =
inf{λ(U ), A ⊂ U, U ouvert}.
Montrons la seconde proposition ; clairement λ(A) ≥ sup{λ(K), K ⊂ A, K compact}. On suppose d’abord qu’il existe
un compact C tel que A ⊂ C. Pour tout  > 0, il existe U ouvert contenant C\A tel que λ(C\A) ≥ λ(U ) − . Or
C\U = (A ∪ (C\A))\U ⊂ (A ∪ (C\A))\(C\A) = A. On note donc K = C\U tel que K soit compact et inclus dans
A ; on a alors λ(K) = λ(C\U ) ≥ λ(C) − λ(U ) ≥ λ(C) − λ(C\A) −  ≥ λ(A) − . En conclusion, pour tout  > 0, il
existe un compact K tel que λ(K) ≥ λ(A) + , ce qui montre que λ(A) ≤ sup{λ(K), K ⊂ A, K compact} ⇒ λ(A) =
sup{λ(K), K ⊂ A, K compact}.
Supposons maintenant qu’il n’existe pas de compact C tel que A ⊂ C. On se ramène au cas précédent en faisant
entrer A ∩ [−n, n] dans un compact ; on a alors ∀n ∈ N∗ , λ(A ∩ [−n, n]) ≤ sup{λ(K), K ⊂ A ∩ [−n, n], K compact},
d’où le résultat en passant à la limite lorsque n → +∞.

Proposition

Soit µ une mesure sur Rd invariante par translations, et telle que 0 < µ(]0, 1[d ) < +∞.
Alors, µ est proportionnelle à la mesure de Lebesgue λ.

Remarque : La mesure de Lebesgue est elle-même invariante par translations, et telle que 0 < λ(]0, 1[d ) = 1 < +∞.

17
Chapitre IV. Intégration
Section IV.1 - Intégrale par rapport à une mesure

Définition

Soit (E, E) un espace mesurable, µ une mesure sur (E, E) et f : E → R+ une fonction étagée.
−1
On note
P αi les n valeurs distinctes prises par f qu’on ordonne (α1 < ... < αn ), et Ai = f (αi ). On a alors
f = i∈I αi 1Ai
L’intégrale de la fonction étagée positive f par rapport à µ est :
Z n
X
f (x)µ(dx) = αi µ(Ai )
E i=1
R
On la note également f dµ.

P
Remarque
P : Si f est exprimée
R sous forme
Pn d’une autre combinaison linéaire de fonction indicatrices f = i∈I βi 1Bi ,
alors i∈I βi µ(Bi ) = E f (x)µ(dx) = i=1 αi µ(Ai ). En effet, pour tout i ∈ I, on peut définir un ensemble fini Ji tel
que ∀j ∈ Ji , βj = αi et Ai = ∪j∈Ji Bj .

Proposition

Soit (E, E, µ) un espace mesuré, f, g deux fonctions étagées à valeurs dans R+ et λ ∈ R+ . Alors :
Z Z Z
(f + λg)dµ = f dµ + λ gdµ

Pn Pm
Démonstration : On écrit f = i=1 αi 1Ai et g = j=1 βj 1Bj . On a Ai = ∪m (A ∩ Bj ) et Bj = ∪ni=1 (Ai ∩ Bj ) donc
Pn Pm Pn Pm Pn Pm j=1 i R
f = i=1 j=1 αi 1Ai ∩Bj , g = i=1 j=1 βj 1Ai ∩Bj et f + λg = i=1 j=1 (αi + λβj )1Ai ∩Bj . Ainsi (f + λg)dµ =
Pn Pm Pn Pm Pn Pm R R
i=1 j=1 (αi + λβj )µ(1Ai ∩Bj ) = i=1 j=1 αi µ(1Ai ∩Bj ) + λ i=1 j=1 βi µ(1Ai ∩Bj ) = f dµ + λ gdµ.

Proposition

Soit (E, E, µ) un espace mesuré et f, g deux fonctions étagées à valeurs dans R+ telles que f ≤ g. Alors :
Z Z
f dµ ≤ gdµ

R R R R
Démonstration : g − f ≥ 0, donc gdµ = f dµ + (g − f )dµ ≥ f dµ.

Proposition

Soit (E, E, µ) un espace mesuré et f une fonction étagée à valeurs dans R+ nulle presque partout. Alors :
Z
f dµ = 0

Pn
Démonstration : On écrit f = i=1 αi 1Ai avec α1 < ...αn et Ai = f −1 (αi ). Si α1 = 0, alors ∀i ∈ [[2, n]], Ai = {x ∈
E; f (x) = αiR} ⊂ {x ∈PE; f (x) > 0}. Siα1 > 0, alors ∀i ∈ [[1, n]], Ai = {x ∈ E; f (x) = αi } ⊂ {x ∈ E; f (x) > 0}. Dans
n
tous les cas f dµ = i=1 αi µ(Ai ) = 0.

Définition

Soit (E, E) un espace mesurable.


On note S(E) l’ensemble des fonctions étagées de (E, E).
On note S + (E) l’ensemble des fonctions étagées positives de (E, E).

18
Définition

Soit f : (E, E, µ) → ([0, +∞], B([0, +∞]) une fonction mesurable.


L’intégrale de f par rapport à la mesure µ est définie par :
Z Z
f (x)µ(dx) = sup h(x)µ(dx)
E h∈S + (E),h≤f E
R
On la note également f dµ.

Proposition

Soit (E, E, µ) un espace mesuré et f, g deux fonctions mesurables de (E, E, µ) à valeurs dans ([0, +∞], B([0, +∞])
telles que f ≤ g. Alors : Z Z
f dµ ≤ gdµ

Démonstration : Si h ∈ S + (E) et h ≤ f , alors h ∈ S + (E) et h ≤ f . Donc suph∈S + (E),h≤f


R R
hdµ ≤ suph∈S + (E),h≤g hdµ.

Proposition

Soit (E, E, µ) un espace mesuré et f une fonction mesurable de (E, E, µ) à valeurs dans ([0, +∞], B([0, +∞])
nulle presque partout. Alors : Z
f dµ = 0

Démonstration : Soit h une fonction


R étagée à valeurs dans [0, +∞] inférieure
R à f . Alors µ({x ∈ E, f (x) > 0}) = 0 ⇒
µ({x ∈ E, h(x) > 0} = 0. Donc hdµ = 0, et ceci valant quelque soit h, f dµ = 0.

Remarque : L’intégrale de f peut être nulle sans que f ne soit nulle (elle ne le sera seulement que presque partout).

Théorème (Convergence monotone)

Soit (fn )n∈N une suite croissante de fonctions mesurables fn : E → R+ convergeant simplement vers f : E →
R+ . Alors : Z Z
f dµ = lim fn dµ
n→+∞

R R R R
Démonstration : f est mesurable donc f dµ = suph∈S + (E),h≤f hdµ. ∀n ∈ N, fn ≤ fn+1 donc fn dµ ≤ fn+1 dµ.
R R R R
R ailleurs,R fn ≤ f donc fn dµ ≤ f dµ. La suite ( fn dµ)n∈N est également
La suite ( fn dµ)n∈N est croissante. Par
majorée ; ainsi, elle converge et lim fn dµ ≤ f dµ.
n→+∞ Pm
Soit h ∈ S (E) telle que h ≤ f . On écrit h = i=1 αi 1Ai . Soit a ∈]0, 1[. Pour tout n ∈ N, on définit Ena = {x ∈
+

E; ah(x) ≤ fn (x)}. Comme fn et h sont mesurables, Ena est mesurable et on a :


Z Z m
X
fn dµ ≥ ah1Ena dµ = a αi µ(Ai ∩ Ena )
i=1

Or (fn )n∈N est croissante donc Ena ⊂ En+1


a
⇒ Ai ∩ Ena ⊂ Ai ∩ En+1
a
. Supposons qu’il existe x ∈ E tel que x 6∈ ∪n∈N Ena ,
alors ∀n ∈ N, ah(x) > fn (x) donc h(x) > ah(x) ≥ f (x) impossible. Ainsi E = ∪n∈N Ena , soit Ai = ∪n∈N (Ai ∩ Ena ). On
a donc lim µ(Ai ∩ Ena ) = µ(Ai ), soit :
n→+∞

Z m
X Z
lim fn dµ ≥ a αi µ(Ai ) = a hdµ
n→+∞
i=1
R R R R
Ceci vaut pour tout a < 1 ; on a donc lim fn dµ ≥ f dµ, et en conclusion, f dµ = lim fn dµ.
n→+∞ n→+∞

19
Proposition

Soit (E, E, µ) un espace mesuré, f, g deux fonctions mesurables de (E, E, µ) à valeurs dans ([0, +∞], B([0, +∞])
et λ ∈ [0, +∞]. Alors : Z Z Z
(f + λg)dµ = f dµ + λ gdµ

Démonstration : Il existe une suite de fonctions étagées positives (fn )n∈N qui converge simplement vers f , et il existe
une suite de fonctions
R étagées positives
R (gnR)n∈N qui converge simplement vers g (cf. théorème du chapitre précédent).
Alors
R ∀n ∈ N, (fRn + λg n )dµR = f n dµ + λ gdµ, soit en passant à la limite par le théorème de convergence monotone
: (f + λg)dµ = f dµ + λ gdµ.

Proposition

Soit (E, E, µ) un espace mesuré, (fn )n∈N une suite de fonctions mesurables de (E, E, µ) à valeurs dans
([0, +∞], B([0, +∞]). Alors : !
Z X +∞ +∞ Z
X
fn dµ = fn dµ
n=0 n=0

PN
Démonstration : On applique le théorème de convergence monotone à la suite des sommes partielles SN = n=0 fn :
Z +∞
! Z N Z +∞ Z
X X X
fn dµ = lim SN dµ = lim fn dµ = fn dµ
N →+∞ N →+∞
n=0 n=0 n=0

Proposition (Inégalité de Markov)

Soit (E, E, µ) un espace mesuré, f une fonction mesurable de (E, E, µ) à valeurs dans ([0, +∞], B([0, +∞]).
Alors : Z
1
∀a > 0, µ({x ∈ E; f (x) ≥ a}) ≤ f dµ
a
R R
Démonstration : Soit A = {x ∈ E; f (x) ≥ a}. Alors f ≥ a1A ⇒ f dµ ≥ a1A dµ = aµ(A).

Proposition

Soit (E, E, µ) un espace mesuré, f une fonction mesurable de (E, E, µ) à valeurs dans ([0, +∞], B([0, +∞]).
Alors : Z
f = 0 p.p. ⇔ f dµ = 0

Démonstration : On a déjà traité le sens direct ; pour la réciproque, on pose Bn = {x ∈ E; f (x) ≥ n1 }. Alors µ(Bn ) ≤
1
R
n f dµ = 0. Or Bn ⊂ Bn+1 et ∪n∈N∗ Bn = {x ∈ E; f (x) > 0} donc µ({x ∈ E; f (x) > 0}) = lim µ(Bn ) = 0. Ainsi
n→+∞
f = 0 presque partout.

Proposition

Soit (E, E, µ) un espace mesuré, f, g deux fonctions mesurables de (E, E, µ) à valeurs dans ([0, +∞], B([0, +∞]).
Alors : Z Z
f = g p.p. ⇔ f dµ = gdµ

R
Démonstration : f − min(f,
R R 0 p.p. et f − min(f, g) ≥ 0. Par la propositionR précédente,
g) = R on a donc (f −
min(f,
R g))dµ
R = 0, soit f dµ = min(f, g)dµ. De la même manière, on montre que gdµ = min(f, g)dµ, et donc
f dµ = gdµ.

20
Proposition

Soit (E, E, µ) un espace mesuré, f une fonction mesurable de (E, E, µ) à valeurs dans ([0, +∞], B([0, +∞]).
Alors : Z
f dµ < +∞ ⇒ f < +∞ p.p.

1
R
Démonstration : Soit An = {x ∈ E; f (x) ≥ n} et A∞ = {x ∈ E; f (x) = +∞}. µ(An ) ≤ n f dµ donc lim µ(An ) =
n→+∞
0. Comme An+1 ⊂ An , µ(A0 ) < ∞ et ∩n∈N∗ An = A∞ , on a µ(A∞ ) = µ(∩n∈N An ) = lim µ(An ) = 0. AInsi f < +∞
n→+∞
p.p.

Proposition (Lemme de Fatou)

Soit (E, E, µ) un espace mesuré, (fn )n∈N une suite de fonctions mesurables de (E, E, µ) à valeurs dans
([0, +∞], B([0, +∞]). Alors : Z Z
(lim inf fn )dµ ≤ lim inf fn dµ

R
Démonstration : On applique le théorème de la convergence monotone à (inf m≥n fm )n∈N : on a donc lim (inf m≥n fm )dµ =
R R R R n→+∞ R
( lim (inf m≥n fm )dµ. Or p ≥ n ⇒ (inf m≥n fm )dµ ≤ fp dµ. On en déduit que (inf m≥n fm )dµ ≤ inf p≥n fp dµ.
n→+∞ R R R
En passant à la limite quand n → +∞, on obtient donc (lim inf fn )dµ = lim (inf m≥n fm )dµ ≤ lim inf p≥n fp dµ.
n→+∞ n→+∞ n→+∞

Définition

Soit (E, E, µ) un espace mesuré, f : (E, E, µ) → (R, B(R)) une fonction mesurable.
On dit que f est intégrable par rapport à la mesure µ ssi :
Z
|f |dµ < +∞

On note L1 (E, E, µ) l’ensemble des fonctions intégrables par rapport à µ.


Lorsque f est intégrable par rapport à la mesure µ, on note f + = max(f, 0) et f − = − min(f, 0). On définit
l’intégrale de f par : Z Z Z
f dµ = f + dµ − f − dµ

Proposition

Soit (E, E, µ) un espace mesuré.


Pour tout f ∈ L1 (E, E, µ), | f dµ| ≤ |f |dµ.
R R

Démonstration : Puisque |f | = f + + f − , on a :
Z Z Z Z Z Z Z
f dµ = f + dµ − f − dµ ≤ f + dµ + f − dµ = f + + f − dµ = |f |dµ

Proposition

Soit (E, E, µ) un espace mesuré. L1 (E, E, µ) est un espace vectoriel et l’application f 7→


R
f dµ est une forme
linéaire sur L1 (E, E, µ).

Démonstration : Soit f, g ∈ L1 (E, E, µ). 0 ≤ |f + g| ≤ |f | + |g| donc |f + g|dµ ≤ |f |dµ + |g|dµ < +∞ et
R R R
− − − − −
donc f + g ∈ L1 (E, E,Rµ). Par ailleurs,
R f + g− = (f R+ g)
+
− (f + +
R +−g) =R f+ + g R −−f g ⇒ R (f + g) +
+
R f + gR =
− + + + +
(f + g) + f + g ⇒ (f + g) dµR − (f + g) dµR = f dµ − f dµ + g dµ − g dµ ⇒ f + gdµ = f dµ + dµ.
Soit f ∈ LR1 (E, E, µ) et
R λ−∈ R. |λf
R |dµ ≤ |λ|
R −|f |dµ < +∞
1
R donc λf ∈ L (E, E,Rµ). Par ailleurs, si Rλ ≥ 0, alors
+ + +
− (λf )− dµ =
R R
λfRdµ = λf Rdµ − λf dµ = λ( f dµ + f dµ) = λ f dµ et si λ < 0, alors λf dµ = (λf )
−λ f dµ + λ f dµ = λ( f dµ + f dµ) = λ f dµ (en utilisant le fait que pour a > 0, (−af )+ = −af − et
− +
R + R − R

(−af )− = −af + ).

|f | n’est pas une norme sur L1 (E, E, µ).


R
Remarque : L’application f 7→

21
Proposition
1
Soit (E, E, µ) R mesuré, f, g ∈ L (E, E, µ). Alors :
R un espace
• f ≤ g ⇒ f dµR ≤ gdµR
• f = g p.p. ⇒ f dµ = gdµ

Théorème (Convergence dominée)

Soit (fn )n∈N une suite de fonctions mesurables de L1 (E, E, µ). On suppose que :
• Il existe une fonction mesurable f tel que lim fn (x) = f (x) pour presque tout x dans E
n→+∞
• Il existe une fonction mesurable
R
g à valeurs positivesRtel que ∀n ∈ N, |fn | ≤ g p.p. et gdµ < +∞
Alors f ∈ L1 (E, E, µ), lim
R R
fn dµ = f dµ et lim |fn − f |dµ = 0.
n→+∞ n→+∞

Démonstration : On commence par supposer les hypothèses partout (et pas seulement presque partout). En faisant
tendre n vers +∞ dans |fn | ≤ g, on a |f | ≤ g donc f ∈ LR1 (E, E, µ). On a aussi
R |fn − f | ≤ 2g, soit 2g − |fn − f | ≥ 0 ;
en appliquant le lemme de Fatou, on trouve alors lim inf (2g − |fn − f |)dµ ≥ 2gdµ. Or lim inf(−un ) = − lim sup un
R n→+∞ R
; ceci est donc équivalent à 2gdµ − lim sup|fn − f |dµ ≥ 2gdµ ⇔ lim sup|fn − f |dµ ≤ 0. Par positivité de l’intégrale,
R n→+∞ R n→+∞
R
on a donc lim |fn − f |dµ = 0. Ceci implique aussi lim fn dµ = f dµ.
n→+∞ n→+∞
On suppose désormais les hypothèses telles quelles. Soit Ẽ = {x ∈ E; lim fn (x) = f (x) et supn∈N fn (x) ≤ g(x)}.
n→+∞
Les fonctions f˜ = f 1Ẽ et f˜n = fn 1Ẽ satisfont les hypothèses partout ; par ailleurs, µ(E\Ẽ) = 0 donc f = f˜ et fn = f˜n
p.p. soit |fn − f |dµ = |f˜n − f˜|dµ, ce qui conclut.
R R

Définition

Pour tout p ∈ [1, +∞[, on définit :


Z
Lp (E, E, µ) = {f : E → R mesurable ; |f |p dµ < +∞}

et L∞ (E, E, µ) = {f : E → R mesurable ; ∃C > 0, |f | ≤ C p.p}

Remarque : Lorsque µ est une mesure finie, alors p < q ⇒ Lp (E, E, µ) ⊂ Lq (E, E, µ). Attention, cela est faux dans le
cas général.

Section IV.2 - Intégrale de Lebesgue

Définition

Considérons E = Rd muni de la tribu de Lebesgue et de la mesure de Lebesgue λ(d) .


On appelle intégrale de Lebesgue l’intégrale par rapport à λ(d) .
Soit f ∈ L1 (Rd , B(Rd ), λ(d) ). L’intégrale de f est notée :
Z Z Z
(d) (d)
f dλ ou f (x)λ (dx) ou f (x1 , ..., xd )λ(d) (dx1 , ..., dxd )
Rd Rd Rd

Définition

Soit f ∈ L1 (Rd , B(Rd ), λ(d) ) et U ⊂ Rd mesurable.


|f 1U | ≤ |f | donc ∈ L1 (R
R f 1U (d)
d d ), λ(d) ).
R , B(R (d)
On note alors U f dλ = U f 1U dλ

Définition

Une fonction f : Rd → R est dite localement intégrable si pour tout compact K ⊂ Rd , f 1K ∈


L1 (Rd , B(Rd ), λ(d) ).
On note L1loc (Rd , B(Rd ), λ(d) ) l’ensemble de ces fonctions.

22
Remarque : L1loc (Rd , B(Rd ), λ(d) ) ⊂ L1 (Rd , B(Rd ), λ(d) ), mais l’inclusion est stricte (on peut par exemple considérer la
fonction de R dans R constante égale à 1, qui est intégrable sur tout compact mais pas sur R).

Définition
Soit a et b deux réels tels que a < b.
On dit que f : [a, b] → R est une fonction en escalier s’il existe une subdivision de [a, b] : a = x0 < x1 <
... < xJ = b et des réels y1 , ..., yJ tels que ∀i ∈ [[1, J]], ∀x ∈]xi−1 , xi [, f (x) = yi .
L’ensemble de ces fonctions se note R([a, b]).
PJ
Pour h ∈ R([a, b]), on note I(h) = i=1 (xi − xi−1 )yi .

Remarque : R([a, b]) ⊂ S([a, b]).

Définition

Une fonction f : [a, b] → R est dite Riemann-intégrable ssi :

sup I(h) = inf I(h)


h∈R([a,b]),h≤f h∈R([a,b]),h≥f

Rb
On note alors a
f (x)dx cette valeur.

Proposition
R
Soit h ∈ R([a, b]). Alors I(h) = [a,b]
hdλ.

R PJ
Démonstration : [a,b]
hdλ = i=1 yi λ(]xi−1 , xi [) = I(h)

Théorème

Soit f : [a, b] → R une fonction Riemann-intégrable.


Alors f est mesurable pour la tribu de Lebesgue, et les intégrales de Riemann et de Lebesgue coı̈ncident i.e.
Z Z b
f dλ = f (x)dx
[a,b] a
.


Démonstration : Il existe deux fonctions en escalier (h+
n )n∈N et (hn )n∈N deux suites de fonctions en escalier telles que
hn ≤ f ≤ hn et lim I(hn ) = lim I(hn ). On peut extraire une sous-suite croissante de (h−
− + + −
n )n∈N et une sous-suite
n→+∞ n→+∞
− −
décroissante de (h+ + +
n )n∈N . Elles sont bornées. On pose par ailleurs h∞ et h∞ les limites simples de (hn )n∈N et (hn )n∈N .
Elles sont mesurables.

On applique le théorème de convergence dominée à h+ n et à hn :
Z Z Z b
+ + +
h∞ dλ = lim hn dλ = lim I(hn ) = f (x)dx
[a,b] n→+∞ [a,b] n→+∞ a
Z Z Z b
h−
∞ dλ = lim h− −
n dλ = lim I(hn ) = f (x)dx
[a,b] n→+∞ [a,b] n→+∞ a
− − − −
On a donc [a,b] h+ + + +
R R R
∞ dλ = [a,b] h∞ dλ, soit [a,b] h∞ −h∞ dλ = 0 ou encore h∞ = h∞ presque partout (car h∞ −h∞ ≥ 0).
Puisque h− + +
∞ ≤ f ≤ h∞ , on a donc f = h∞ presque partout soit :
Z Z Z b
f dλ = h+
∞ dλ = f (x)dx
[a,b] [a,b] a

Remarque : Certaines fonctions peuvent être Lebesgue-intégrables sans être Riemann-intégrables, par exemple f = 1Q

Définition

Soit a ∈ R et b ∈]a, +∞] (respectivement b ∈ R et a ∈ [−∞, a[).


La fonction f : [a, b[→ R (respectivement f ; ]a, b] → R) est localement Riemann-intégrable si f est
intégrable sur tout compact de [a, b[ (respectivement ]a, b]).

23
Théorème
Toute fonction localement Riemann-intégrable est Lebesgue-intégrable si et seulement si elle est Riemann-
Rb
absolument convergente (i.e. a |f (x)|dx existe et est finie).
Dans ce cas les deux intégrales coı̈ncident.

Conséquence : Les intégrales impropres absolument convergentes sont dans L1 , mais les intégrales impropres semi-
convergentes ne sont pas dans L1 .

Théorème

Soit f ∈ L1loc et a ∈ R. On définit : Z


F (x) = f dλ
[a,x]

Alors F est continue et dérivable presque partout, et F 0 = f p.p.

Théorème
Soit F : R → R une fonction dérivable en tout point de R.
Supposons f = F 0 ∈ L1loc . Alors pour tous réels a et b tels que a < b :
Z
f dλ = F (b) − F (a)
[a,b]

Proposition
P
Considérons E = N, E = P(N) et µ = n∈N δn .
Soit u : E → N ; on note un = u(n). Si la série de terme général (un )n∈N est absolument convergente, alors :
Z +∞
X
u(x)µ(dx) = un
n=0

Définition
On note : !
X
`p = Lp N, P(N), δn
n∈N
!
X
∞ ∞
` =L N, P(N), δn
n∈N

Section IV.3 - Mesure de densité

Proposition

Soit f : (E, E, µ) → ([0, +∞], B([0, +∞]) une fonction


R mesurable.
R
L’application ν définie pour tout A ∈ E par ν(A) = A f dµ = E f 1A dµ est une mesure sur (E, E).

Définition
On dit que ν est la mesure de densité f par rapport à µ.

Exemple : Considérons E = R équipé de la tribu de Lebesgue et de la mesure de Lebesgue λ. Soit f définie sur R par
: 
0 si x < 0
f (x) =
e−x si x ≥ 0

24
On a alors, par exemple, ν([0, 1]) = 1 − 1e , ν([−69, 420]) = 1 − e−420 et ν(R) = 1, ce qui fait par ailleurs de ν une
mesure de probabilité.

Remarque : Si A est de mesure nulle pour µ alors ν(A) = 0 donc A est de mesure nulle pour ν.
On dit que ν est absolument continue par rapport à µ et on note ν  µ.

Théorème

Une fonction borélienne f : R → R+ est la densité d’une mesure de probabilité P ssi


Z
f (x)λ(dx) = 1
R
R
Dans ce cas, P(A) = A
f (x)λ(dx) et on dit que f est la dérivée de Radon-Nikodym de P par rapport à λ.

Démonstration : Immédiate en prenant A = R dans la définition d’une mesure de densité f .

Théorème (Continuité des intégrales dépendant d’un paramètre)

Soit (E, E, µ) un espace mesuré, (U, d) un espace métrique, fu : E → R une fonction dépendant d’un paramètre
u ∈ U et u0 ∈ U .
On suppose que :
• Pour presque tout u ∈ U , la fonction x 7→ fu (x) est mesurable.
• Pour presque tout x ∈ E, la fonction u 7→ fu (x) est continue en u0 .
• Il existe une 1
R fonction positive g ∈ L (E, E, µ telle que ∀u ∈ U, |fu (x)| ≤ g(x) pour presque tout x.
Alors u 7→ E fu (x)µ(dx) est définie pour presque tout u ∈ U et continue en u0 .

Théorème (Dérivabilité sous le signe somme)

Soit (E, E, µ) un espace mesuré, U ⊂ R muni de sa tribu de Borel et I ⊂ U un intervalle, f : I × E → R une


fonction dépendant d’un paramètre et u0 ∈ I. On suppose que :
• Pour presque tout u ∈ U , la fonction x 7→ fu (x) ∈ L1 (E, E, µ)
• Pour presque tout x ∈ E, la fonction u 7→ fu (x) est dérivable en u0 .
• Il existe une fonction positive g ∈ L1 (E, E, µ telle que ∀u ∈ U, |fu (x) − f (u0 , x)| ≤ g(x)|u − u0 | pour presque
tout x. R R ∂f
Alors u 7→ E fu (x)µ(dx) est dérivable en u0 , de dérivée E ∂u (u0 , x)µ(dx).

25
Chapitre V. Espaces Lp
Section V.1 - Relations d’équivalence

Définition
Soit E un ensemble. On dit qu’une relation ∼ est une relation d’équivalence ssi :
• Elle est réflexive (∀x ∈ E, x ∼ x)
• Elle est symétrique (∀x, y ∈ E, x ∼ y ⇒ y ∼ x)
• Elle est transitive (∀x, y, z ∈ E, x ∼ y ∧ y ∼ z ⇒ x ∼ z)

Définition
Soit ∼ une relation d’équivalence sur un ensemble E et x ∈ E.
On appelle classe d’équivalence de x l’ensemble {y ∈ E, y ∼ x}.
On le note ẋ ou [x].

Définition
Soit ∼ une relation d’équivalence sur un ensemble E et x ∈ E.
On appele l’ensemble quotient de E par ∼ l’ensemble des classes d’équivalences des éléments de E, qu’on
note E/ ∼.

Proposition

E/ ∼ forme une partition de E.

Démonstration : ∀x ∈ E, x ∈ ẋ donc E = ∪x∈E ẋ.


Si ẋ ∩ ẏ 6= ∅, soit z ∈ ẋ ∩ ẏ. Soit a ∈ ẋ et b ∈ ẏ, alors a ∼ z ∼ b donc ẋ = ȧ = ḃ = ẏ. On a donc une partition de E.
(les classes d’équivalences sont deux-à-deux disjointes et leur réunion forme E)

Exemple : Soit E = Lp (E, E, µ) et p ∈ [1, +∞].


La relation ∼ définie par f ∼ g ⇔ f − g = 0 p.p est une relation d’équivalence.
On aura alors, par exemple, 1Q ∼ 0 si µ est la mesure de Lebesgue.

Définition
Soit ∼ une relation d’équivalence sur un ensemble E.
Une application f : E → E est compatible avec ∼ ssi

∀x ∈ E, ∀y ∈ E, x ∼ y ⇒ f (x) ∼ f (y)

On peut alors définir une fonction f / ∼ sur l’ensemble quotient E/ ∼. Pour C ∈ E/ ∼, on considère un
représentant x ∈ C et on pose :
˙
f / ∼ (C) = f (x). On notera souvent f au lieu de f / ∼.

Définition
Soit ∼ une relation d’équivalence sur un ensemble E.
Une loi interne ∗ est compatible avec ∼ ssi

∀x1 , x2 , y1 , y2 ∈ E, x1 ∼ x2 et y1 ∼ y2 ⇒ x1 ∗ y1 ∼ x2 ∗ y2

On définit alors la loi quotient ∗/ ∼ sur E/ ∼ en associant aux classes d’équivalences de x et y la classe
d’équivalence de x ∗ y. On notera souvent ∗ au lieu de f / ∼.

26
Section V.2 - Construction de l’e.v.n. Lp

Définition

Soit p ∈ [1, +∞]. On note Lp (E, E, µ) le quotient de l’espace Lp (E, E, µ) par la relation d’égalité µ−presque
partout. On note Lp (Rd ) = Lp (Rd , B(Rd ), λ(d) ).

: Lp (N, P(N ), n∈N δn ) = Lp (N, P(N ), n∈N δn ) = `p , puisque l’égalité presque partout pour la mesure
P P
Remarque
l’égalité (chaque classe d’équivalence contient un unique élément, donc les ensembles Lp (N, P(N ), n∈N δn )
P P
n∈N δn sur N est
et Lp (N, P(N ), n∈N δn ) sont en bijection ; on les identifie).
P

Proposition

Les opérations + et × de Lp (E, E, µ) sont compatibles avec la relation d’équivalence µ-pp.

Démonstration : Soit f1 , f2 , g1 , g2 dans Lp (E, E, µ) avec f1 ∼ f2 et g1 ∼ g2 . Alors (f1 + g1 ) − (f2 + g2 ) = (f1 − f2 ) +


(g1 − g2 ) = 0 presque partout, donc f1 + g1 ∼ f2 + g2 , et f1 g1 − f2 g2 = f1 (g1 − g2 ) + (f1 − f2 )g2 = 0 presque partout,
donc f1 g1 ∼ f2 g2 .

Proposition

Lp (E, E, µ) est un espace vectoriel.

Remarque : Soit x0 ∈ E. La fonction d’évaluation en x0 (appelée également trace sur {x0 }) de Lp (E, E, µ) → R qui
à f associe f (x0 ) n’est pas compatible avec la relation d’équivalence égalité µ-pp. En d’autres termes, la valeur des
éléments de Lp (E, E, µ) en un point n’a pas de sens.

Proposition

f p dµ sur Lp (E, E, µ) est compatible avec la relation d’équivalence µ-pp.


R
La forme linéaire f 7→ E

Démonstration : Soit f, g dans Lp (E, E, µ) avec f ∼ g, alors f p dµ = g p dµ.


R R
E E

Proposition

Dans Lp (E, E, µ) : Z
|f |p dµ = 0 ⇔ f = 0
E

Définition

On dit que M ∈ R est un presque majorant de f : E → R si f (x) ≤ M pour presque tout x ∈ E.

Définition
Soit f : E → R. Si f admet un ou plusieurs presque majorants, on appelle borne supérieure essentielle le
plus petit d’entre eux et on le note sup ess f

Définition

Soit p ∈ [1, +∞].


• Si p ∈]1, +∞[, son conjugué est p
p−1 i.e. le réel q tel que 1
p + 1
q = 1.
• Si p = 1, son conjugué est +∞.
• Si p = ∞, son conjugué est 1.

27
Théorème (Inégalité de Young)

Soit p et q dans ]1, +∞[ conjugués. Alors :

ap bq
∀(a, b) ∈ R+ × R+ , ab ≤ +
p q

Démonstration : Par concavité de x 7→ ln(x) sur ]0, +∞[, on a ∀t ∈ [0, 1], ln(tap + (1 − t)bq ) ≥ t ln(ap ) + (1 − t) ln(bq ).
En posant t = p1 , alors 1 − t = 1q et :

ap bq 1 1
ln( + ) ≥ ln(ap ) + ln(bq ) = ln(ab)
p q p q
d’où le résultat en passant à l’exponentielle strictement croissante.

Définition

Pour f ∈ Lp (E, E, µ) avec p ∈ [1, +∞], on note :


Z  p1
p
||f ||p = |f | dµ si p < +∞ et ||f ||∞ = sup ess |f |
E

Théorème (Inégalité de Hölder)

Soit p et q dans ]1, +∞[ conjugués. Soit f ∈ Lp (E, E, µ) et g ∈ Lq (E, E, µ). Alors :

f g ∈ L1 (E, E, µ) et ||f g||1 ≤ ||f ||p ||g||q

Démonstration : Si p = 1 ou q = 1 alors le résultat est trivial, si f = 0 ou g = 0 aussi. On élimine donc ces cas, et on
suppose p ∈]1, +∞[. L’inégalité de Young donne :

|f (x)|p |f (x)|q
|f (x)||g(x)| ≤ +
p q

Ainsi f g ∈ L1 (E, E, µ) et, en intégrant :


1 1
||f g||1 ≤ ||f ||pp + ||g||qq
p q
Pour λ > 0, le même raisonnement sur les fonctions λf et g conduisent à l’inégalité :

λp−1 1
||f g||1 ≤ ||f ||pp + ||g||qq
p λq
q
||g||qp
On pose alors λ = ||f ||p , ce qui nous permet d’obtenir :

q !p−1
1 ||g||qp 1 ||f ||p 1 q(p−1)
1 q(p−1)

||f g||1 ≤ ||f ||pp + q


q ||g||q = ||g||q p ||f ||p + ||f ||p ||g||q p
p ||f ||p q ||g|| p p q
q

q(p−1) 1 1
Or p = 1 et p + q = 1, d’où :
||f g||1 ≤ ||f ||p ||f ||q

Théorème (Inégalité de Minkowski)

Soit p ∈ [1, +∞]. Soit f et g dans Lp (E, E, µ). Alors :

f + g ∈ Lp (E, E, µ) et ||f + g||p ≤ ||f ||p + ||g||p

Démonstration : Puisque p ∈ [1, +∞], x 7→ xp est convexe sur R+ donc :


p p
1
f + 1 g ≤ 1 |f | + 1 |g| ≤ 1 |f |p + 1 |g|p

2 2 2 2 2 2

28
⇔ |f + g|p ≤ 2p−1 |f |p + 2p−1 |g|p
On a donc f + g ∈ Lp (E, E, µ). Alors :
Z Z Z
p p−1 p−1
||f + g||p = |f + g| |f + g|dµ ≤ |f + g| |f | + |f + g|p−1 |g|
E E E

Appliquons l’inégalité de Hölder :


Z Z  p−1
p
p
|f + g|p−1 |f | ≤ || |f + g|p−1 || p−1
p ||f || =
p (|f + g|p−1 ) p−1 dµ ||f ||p
E E

Z  1 !p−1
p
= (|f + g|p )dµ ||f ||p = (||f + g||p )p−1 ||f ||p
E

De manière équivalente, on a aussi :


Z
|f + g|p−1 |f | ≤ (||f + g||p )p−1 ||g||p
E

Ainsi :
||f + g||pp ≤ (||f + g||p )p−1 (||f ||p + ||g||p ) ⇔ ||f + g||p ≤ ||f ||p + ||g||p

Proposition

Soit p ∈ [1, +∞].


Alors Lp (E, E, µ) est un espace vectoriel normé, de norme ||f ||p .

Démonstration : Clairement ||f ||p = 0 ⇔ f = 0 et ||λf ||p = λ||f ||p . L’inégalité triangulaire n’est autre que l’inégalité
de Minkowski démontrée ci-dessus.

Remarque : Il ne faut pas confondre ”f une fonction continue presque partout” et ”f est égale presque partout à une
fonction continue”.
Définition
Soit f : E → R une classe de fonctions.
S’il y a une fonction continue dans cette classe, on dira que f est continue.
Dans ce cas, pour x0 ∈ E on donnera à f (x0 ) la valeur de son représentant continu en x0 .

Section V.3 - Propriétés de l’e.v.n. Lp

Théorème (Fischer-Riesz)

Soit p ∈ [1, +∞]. Lp (E, E, µ) est un espace de Banach.

Démonstration : On commence par traiter le cas p = +∞. Soit (fn )n∈N une suite de Cauchy d’éléments de L∞ (E, E, µ).
∀k ∈ N∗ , ∃N ∈ N, ∀(m, n) ∈ N2 , m > n > N ⇒ ||fm − fn ||∞ < k1 . Il existe Zk de mesure nulle tel que ∀k ∈ N∗ , ∃N ∈
N, ∀(m, n) ∈ N2 , ∀x ∈ E\Zk , m > n > N ⇒ |fm − fn | < k1 . Z = ∪k∈N∗ Zk est de mesure nulle, alors ∀k ∈ N∗ , ∃N ∈
N, ∀(m, n) ∈ N2 , ∀x ∈ E\Z, m > n > N ⇒ |fm (x) − fn (x)| < k1 . On en déduit que ∀x ∈ E\Z, (fn (x))n∈N est
une suite de Cauchy d’éléments de R, qui converge car R est complet. Notons f (x) sa limite ; (fn )n∈N converge
simplement vers f sur E\Z. Ainsi ∀x ∈ E\Z, ∀k ∈ N∗ , ∃N ∈ N, ∀n ∈ N, |fn (x) − f (x)| < k1 . Ainsi f ∈ L∞ (E, E, µ) et
lim ||fn − f ||∞ = 0, donc (fn )n∈N converge dans L∞ (E, E, µ).
n→+∞
p
Désormais, soit p ∈ [1, +∞[, et (fn )P
n∈N une suite de Cauchy d’éléments de L (E, E, µ). On extrait (fnk ) telle que
1 n
||fnk+1 − fnk ||p < 2k . On note gn = k=1 |fnk+1 − fnk |. Alors :
n n
X X 1
||gn ||p = || |fnk+1 − fnk | ||p ≤ ||fnk+1 − fnk ||p ≤ 1 − ≤1
2m
k=1 k=1

Ainsi (gn (x)) converge vers g(x) presque partout. Soit s et t deux entiers avec s > t. Par téléscopage, |fns − fnt | ≤
g − gt−1 donc (fnk (x)) est de Cauchy pour presque tout x. Ainsi, elle converge, et on note f (x) sa limite. Lorsque

29
s → +∞, on |f − fnt | ≤ g − gt−1 ≤ g, ce qu’on réecrit |fnk − f (x)|p < g p (x), soit |fnk (x) − f (x)|p → 0 lorsque
nk → +∞. D’après le théorème de convergence dominée, f ∈ Lp (E, E, µ) et lim ||fnk (x) − f (x)||p = 0.
k→+∞

Proposition

L2 (E, E, µ) est un espace de Hilbert.

Démonstration : hf, gi = E f gdµ est un produit scalaire sur L2 (E, E, µ). C’est un espace préhilbertien, et il est
R

complet pour la norme induite par le produit scalaire par la proposition précédente.
Théorème (Riesz)

Soit p ∈]1, +∞[ et q son conjugué.


Pour tout φ ∈ (Lp (E, E, µ)0 , il existe un unique g ∈ Lq (E, E, µ) tel que φ = f 7→ f gdµ.
R

En outre, ||φ||(Lp )0 = ||g||q .

Remarque : On identifie (Lp )0 et Lq : (Lp )0 = Lq .


Attention cependant, on a exclu p = 1 : (L∞ )0 6= L1 . Le dual de L∞ contient strictement L1 .

Définition

Soit p ∈]1, +∞[ et q son conjugué.


Pour f ∈ Lp et g ∈ Lq , on note hf, gi = E f gdµ.
R

h., .i s’appelle un crochet de dualité.


Avec ces notations, pour φ ∈ (Lp )0 , il lui correspond un unique g ∈ Lq par Riesz. On a alors φ(f ) = hf, gi.

Remarque : Dans l’espace de Hilbert L2 , le crochet de dualité est le produit scalaire.

Théorème

Soit p ∈ [1, +∞[.


L’ensemble Cc (E) des fonctions continues à support compact de E dans R est dense dans Lp (E, E, µ).
Mieux encore, l’ensemble Cc∞ (E) des fonctions infiniment dérivables à support compact de E dans R est dense
dans Lp (E, E, µ).

Section V.4 - L’espace L2C

Définition

Soit f : (E, E, µ) → (C, B(C) une fonction mesurable.


On dit que f est intégrable par rapport à la mesure µ ssi
Z
|f |dµ < +∞

On note L1C (E, E, µ) l’ensemble des fonctions intégrables par rapport à µ.


Lorsque f est intégrable par rapport à la mesure µ, on définit l’intégrale de f par
Z Z Z
f dµ = Re f dµ + i Im f dµ

30
Définition

Pour tout p ∈ [1, +∞[, on définit :


Z
LpC (E, E, µ) = {f : E → C mesurable ; |f |p dµ < +∞}

L∞
C (E, E, µ) = {f : E → C mesurable ; ∃C > 0, |f | ≤ C p.p.}

Pour tout p ∈ [1, +∞], on définit


LpC (E, E, µ) = LpC (E, E, µ)/ ∼
où ∼ est la relation d’égalité presque partout.

Proposition

Pour tout p ∈ [1, +∞], LpC (E, E, µ) est un espace de Banach.


LpC (E, E, µ) est un espace de Hilbert.

Proposition

1
On considère l’espace de Hilbert HR = L2C ([0, 2π], B([0, 2π]), 2π λ).
1
Le produit scalaire est hf, gi = 2π [0,2π] f g dλ.
Alors, H admet la base hilbertienne {en , n ∈ Z}, où en est défini par en (x) = einx = cos(nx) + i sin(nx)

Démonstration : Soit n, m ∈ Z. Par le calcul :


Z
1
hen , em i = einx e−imx dx = δn,m
2π [0,2π]

1
Soit f ∈ H, et  > 0. Cc ([0, 2π], C) est dense dans H = L2C ([0, 2π], B([0, 2π]), 2π λ). Ainsi il existe u ∈ Cc ([0, 2π], C)

tel que ||u − f ||2 < 2 . On pose :
k
X sin((k + 12 )x)
Dk (x) = einx =
sin x2
n=−k

qu’on appelle le k-ième noyau de Dirichet. On pose alors :


K−1
!
1 X 1 sin Kx2
FK (x) = Dk (x) =
K K sin x2
k=0

qu’on appelle K-ième terme du noyau de Fejér. Alors ∀K ∈ N∗ , FK (x) ≥ 0, 2π 1


R
F (x)dλ = 1 et ∀h >
[−π,π] K
1 1
R R
0, 2π [−π,− h h FK (x)dλ → 0 lorsque K → +∞. En notant Z K = 2π [ h h FK (x)dλ, ceci implique que
2 ]∪[ 2 ,π] 2 ,2π− 2 ]
∀h > 0, lim ZK = 0. On pose maintenant :
K→+∞
Z
1
uK (x) = u(x − t)FK (t)dλ(t)
2π [0,2π]

On a alors : Z
1
||uK − u||2 = ||x 7→ [u(x − t) − u(x)]FK (t)dλ(t)||2
2π [0,2π]
h
Soit h > 0 tel que |y2 − y1 | < 2⇒ |u(y1 ) − u(y2 )| ≤ 4 . Sur [0, h2 ] ∪ [2π − h2 , 2π], on a (u(x − t) − u(x)) < 4 . Donc :
Z
1 
||x 7→ [u(x − t) − u(x)]FK (t)dλ(t)||2 <
2π [0, h2 ]∪[2π− h2 ,2π] 4
Z
1 
et∃K ∈ N∗ , ||x 7→ [u(x − t) − u(x)]FK (t)dλ(t)||2 ≤ M ZK <
2π [h h
2 ,2π− 2 ]
4
Z
1 
⇒ ||uK − u||2 = ||x 7→ [u(x − t) − u(x)]FK (t)dλ(t)||2 <
2π [0,2π] 2

31
Or, on a : !
K−1 k Z
X X 1 1
uK (x) = u(x − t)dλ(t) eint
2π K [0,2π]
k=0 n=−k
PN
Donc uK est une combinaison linéaire de en . Il existe un N ∈ N et des cn tels que ||u − n=−N cn en ||2 < 2 . Alors :

N
X N
X
||f − cn en ||2 ≤ ||f − u||2 + ||u − cn en ||2 < 
n=−N n=−N

On conclut que H = Vect{en , n ∈ Z}.

32
Chapitre VI. Introduction aux probabilités
Section VI.1 - Mesure de probabilité

Définition

On appelle espace probabilisé un espace mesuré pour lequel la mesure P est une mesure de probabilité. (P(Ω) =
1)

Définition

Soit (Ω, F, P) un espace probabilisé.


On appelle espace d’états l’ensemble Ω.
On appelle événements les éléments de F.
La mesure P associe à chaque événement une probabilité.

Définition
Les singletons de F sont appelés évènements élémentaires.

Définition

Soit (Ω, F, P) un espace probabilisé avec Ω fini et F = P(Ω).


On dit qu’il y a équiprobabilité si la mesure P est définie par

Card(A)
P : P(Ω) → [0, 1], P(A) =
Card(Ω)
1
Les évènements élémentaires sont dits équiprobables. Ils ont tous la même probabilité Card(Ω) .
On dit également que P est la mesure uniforme discrète sur l’ensemble Ω.

Théorème

Soit Ω = {ωi ; i ∈ I} un ensemble fini ou dénombrable. Soit F = P(Ω).


Toute mesure de probabilité P est caractérisée par sa valeur sur les atomes : pi = P(ωP i ) pour tout i ∈ I.
Réciproquement, soit (pi )i∈I une suite de réels positifs de nombres réels positifs tels que i∈I pi = 1 alors il
existe une mesure de probabilité P telle que ∀i ∈ I, P(ωi ) = pi

Démonstration : Soit Ω = {ωi ; i ∈ I} un ensemble fini ou dénombrable. Supposons connaı̂tre pi = P(ωi ) pour tout
i ∈ I. P
Soit A ∈ F = P(Ω). A = ∪i∈I,ωi ∈A donc P(A) =P i∈I,ωi ∈A pi est définie de manière unique.
Pque i∈I pi = 1. On suppose P(ωi ) = pi . Soit A = ∪i∈I,ωi ∈A {ωi } ∈ F.
Soit (pi )i∈I une suite de réels positifs tels
Alors on définit la mesure P par P(A) = i∈I,ωi ∈A pi .
Définition

Soit (Ω, F, P) un espace probabilisé. Soit A ∈ F.


On dit que A est presque sûr ssi P(A) = 1.

Section VI.2 - Probabilité conditionnelle

Définition

Soit (Ω, F, P) un espace probabilisé, et A et B deux évènements avec P(B) > 0. La probabilité conditionnelle
de A sachant B est définie par
P(A ∩ B)
P(A|B) =
P(B)

33
Remarque : A 7→ P(A|B) définit une mesure de probabilité sur (Ω, F ).

Proposition (Formule des probabilités totales)

Soit (Ω, F, P) un espace probabilisé. Soit (Ei )i∈I une partition des évènements de mesure non nulle, avec I fini
ou dénombrable.
Pour tout évènement A, on a : X
P(A) = P(A|Ei )P(Ei )
i∈I

Théorème (Bayes)

Soit (Ω, F, P) un espace probabilisé. Soit (Ei )i∈I une partition des évènements de mesure non nulle, avec I fini
ou dénombrable.
Soit A un évènement et n ∈ I. Alors :
P(A|En )P(En )
P(En |A) = P
i∈I P(A|Ei )P(Ei )

Définition

Soit (Ω, F, P) un espace probabilisé.


On dit que deux évènements A et B sont indépendants ssi :

P(A ∩ B) = P(A)P(B)

Remarque : Si P(B) > 0, alors A et B sont indépendants ssi P(A|B) = P(A).

Définition

Soit (Ω, F, P) un espace probabilisé, (Ai )i∈I une famille d’évènements.


Les Ai sont mutuellement indépendants ssi :
Y
∀J ⊂ I, J fini, P(∩i∈J ) = P(Ai )
i∈J

Remarque : L’indépendance mutuelle entraı̂ne l’indépendance deux-à-deux, mais la réciproque est fausse. Prenons
Ω = [[1, 6]]2 , F = P(Ω) et P la mesure d’équiprobabilité. Alors les évènements A1 = {6} × [[1, 6]], A2 = [[1, 6]] × {6} et
A3 = {(x, x); x ∈ [[1, 6]]} sont deux-à-deux indépendants, mais pas mutuellement indépendants.

Section VI.3 - Variables aléatoires

Définition

Soit (Ω, F, P) un espace probabilisé et (E, E) un espace mesuré.


On appelle variable aléatoire (de Ω à valeurs dans E) toute fonction mesurable de Ω dans E.

Définition

Soit (Ω, F, P) un espace probabilisé, (E, E) un espace mesuré et X une variable aléatoire.
L’application PX définie de E dans [0, 1] par PX (A) = P(X −1 (A)) est une mesure de probabilité sur (E, E),
que l’on appelle loi de X.

On ne peut que recommander d’aller voir la vidéo de John Cagnol, qui introduit les variables aléatoires par
l’exemple du jeu de l’oie.

Exemples : Pour A ∈ E, P(X ∈ A) signifie P(X −1 (A)).


Pour E = R, E = B(Ω) et a ∈ R, P(X ≥ a) signifie P(X −1 ([a, +∞[)). P(X 2 +1 ≥ a) signifie P({ω ∈ Ω; X 2 (ω)+1 ≥ a}).

34
P(X = Y ) signifie P({ω ∈ Ω; X(ω) = Y (ω)}).

Remarque : Supposons E au plus dénombrable et prenons E = P(E). Puisqu’une variable aléatoire X est une fonction
mesurable de (Ω, F ) dans (E, E), il y a équivalence entre ”X est une variable aléatoire” et ”∀e ∈ E, X −1 ({E}) ∈ F ”.

Définition
Soit X une variable aléatoire.
On appelle tribu engendrée par la variable aléatoire, et on note σ(X), la tribu σ(X −1 (E)).

Section VI.4 - Moments

Définition

Soit X une variable aléatoire sur un espace probabilisé (Ω, F, P) à valeurs dans R.
On dit que X admet un moment d’ordre n ∈ N∗ si X ∈ Ln (Ω, F, P). Dans ce cas, on note :
Z
mn = X n dP

Le moment d’ordre 1 est appelé espérance de la variable aléatoire et noté E(X).

Remarque : p ≤ q ⇒ Lq (Ω, F, P) ⊂ Lp (Ω, F, P) puisque P est une mesure finie.

Proposition

Soit X une variable aléatoire sur un espace probabilisé (Ω, F, P) à valeurs dans (E, E) et h : E → R une fonction
mesurable.
Alors h(X) est une variable aléatoire sur (Ω, F, P) à valeurs dans R.

Théorème (de transfert)

Soit X une variable aléatoire sur un espace probabilisé (Ω, F, P) à valeurs dans (E, E). Alors pour toute fonction
mesurable bornée h : E → R : Z
E(h(X)) = hdPX
E

Démonstration : Soit A ∈ E et h = 1A .
Z Z Z
−1
E(h(X)) = 1A (X)dP = P(X (A)) = PX (A) = 1A dPX = hdPX
Ω E E

On a donc l’égalité pour toute fonction indicatrice, et par linéarité de l’intégrale, cela s’étend pour toute fonction
étagée h : E → R+ .
Soit h : E → [0, +∞] une fonction mesurable. Il existe une suite croissante (hn )n∈N de fonctions étagées positives
convergeant simplement vers h. Le théorème de transfert s’applique aux (hn ), et le théorème de convergence monotone
permet d’obtenir le théorème pour h.
Soit h : E → R une fonction mesurable. Le théorème de transfert s’applique à |h| :
Z
E(|h(X)|) = |h|dPX
E

Ainsi h ∈ L1 (E, E, PX ) ⇔ h(X) ∈ L1 (E, E, P). On décompose h = h+ − h− et on applique le théorème de transfert à


h+ et h− , ce qui conclut.
R
Remarque : Si il existe une mesure µ telle que pour toute fonction mesurable bornée h : E → R, E(h(X)) = E
hdµ,
alors µ = PX est la loi de X.

35
Théorème

Soit X une variable aléatoire sur un espace probabilisé (Ω, F, P) à valeurs dans E dont la loi PX admet une
densité fX et soit h : E → R une fonction mesurable telle que :
Z
|h(x)|fX (x)λ(dx) < +∞
R

Alors, X admet un moment d’ordre 1 et :


Z
E(h(X)) = h(x)fX (x)λ(dx)
R

Proposition

Soit (Xn )n∈N une suite de variables aléatoires sur un espace probabilisé (Ω, F, P) à valeurs dans R.
• Si (Xn ) est une suite croissante et positive, alors lim E(Xn ) = E( lim Xn ) (théorème de la convergence
n→+∞ n→+∞
monotone)
• Si (Xn )n∈N est une suite positive alors E(lim inf Xn ) ≤ lim inf E(Xn ) (lemme de Fatou)
• Si ∀n ∈ N, Xn ≤ Z avec Z ∈ L1 alors lim E(Xn ) = E( lim Xn ) (théorème de la convergence dominée)
n→+∞ n→+∞

Proposition

Pour un évènement A, E(1A ) = P(A).


Pour deux variables aléatoires X et Y , et un réel a, E(aX + Y ) = aE(X) + E(Y ).

Remarque : Cela nous permet d’en déduire par exemple que pour tout réel a, E(a) = a ou encore que E(X −E(X)) = 0.

Définition

Soit X une variable aléatoire sur un espace probabilisé (Ω, F, P) à valeurs dans R.
On dit que X admet un moment centré d’ordre n ∈ N∗ si X − E(X) ∈ Ln (Ω, F, P). Dans ce cas, on note :
Z
µn = (X − E(X))n dP

Le moment centré d’ordre 2 est appelé variance de la variable aléatoire et noté Var(X).

Remarque : µ2 = m2 − m21 c’est-à-dire Var(X) = E(X 2 ) − E(X)2 > 0.

Proposition

Pour deux variables aléatoires X et Y , et un réel a, Var(aX) = a2 Var(X) et Var(X + a) = Var(X).

Définition

Soit X une variable aléatoire sur un espace probabilisé (Ω, F, P) à valeurs dans R admettant un moment d’ordre
2. p
On appelle écart-type le réel positif σ(X) = Var(X).

Remarque : On a la propriété σ(aX) = aσ(X). Attention cependant, contrairement à l’espérance on a généralement


pas Var(X + Y ) = Var(X) + Var(Y ) ou σ(X + Y ) = σ(X) + σ(Y ).

Théorème (Inégalité de Chebyshev)

Soit X une variable aléatoire sur un espace probabilisé (Ω, F, P) à valeurs dans R admettant un moment d’ordre
2. Alors :
1
P(|X − E(X)| ≥ aσ) ≤ 2
a

36
Démonstration : On utilise l’inégalité de Markov :

E(|X − E(X)|2 1
P(|X − E(X)| ≥ aσ) = P(|X − E(X)|2 ≥ a2 Var(X)) ≤ = 2
a2 Var(x) a

Remarque : Ceci implique que Var(X) = 0 ⇔ X = E(X) presque partout.

Définition
Le moment d’ordre 3 donne une indication sur la symétrie. On utilise souvent le coefficient d’asymétrie
µ3
3/2 .
µ2
µ4
Le moment d’ordre 4 donne une indication sur les queues de distribution. On utilise souvent le kurtosis µ22
(et l’excès de kurtosis : µµ24 − 3)
2

Section VI.5 - Fonction de répartition

Définition
Considérons R muni d’une tribu contenant la tribu de Borel, et muni d’une mesure de probabilité P.
On appelle fonction de répartition l’application F : R → [0, 1] définie par F (x) = P(] − ∞, x]).
P6 1
Exemple : Pour la modélistion du lancé d’un dé, P = i=1 6 δi . La fonction de répartition est alors f (x) =
P6
i=1 1[i,+∞[ (x).

Proposition

Soit F une fonction de répartition. Alors, F est croissante et continue à droite, et vérifie lim F (x) = 0 et
x→−∞
lim F (x) = 1
x→+∞

Démonstration : x < y ⇒] − ∞, x] ⊂] − ∞, y] ⇒ P(] − ∞, x]) ≤ P(] − ∞, y]) ⇒ F (x) ≤ F (y).


Soit (xn ) une suite décroissante convergeant vers x. On a ] − ∞, xn+1 ] ⊂] − ∞, xn ] et ∩n∈N ] − ∞, xn ] =] − ∞, x]. Donc
lim F (xn ) = F (x), ce qui montre la continuité à droite. Les limites en −∞ et +∞ se démontrent de façon analogue.
n→+∞

Théorème

Soit F une fonction de R dans R croissante, continue à droite et vérifiant lim F (x) = 0 et lim F (x) = 1.
x→−∞ x→+∞
Alors il existe une mesure de probabilité dont elle est la fonction de répartition.

Définition
On appelle π-système sur Ω toute collection J de parties de Ω stable par intersection finie.

Exemple : L’ensemble {] − ∞, x]; x ∈ R} est un π-système.

Proposition (Lemme de classe monotone)

Deux mesures de probabilité qui coı̈ncident sur un π-système J coı̈ncident également sur σ(J ), la tribu en-
gendrée par J .

Théorème
Considérons R muni de la tribu de Borel. Soit P1 et P2 deux mesures, F1 et F2 leurs fonctions de répartition
respectives. Alors :
F1 = F2 ⇔ P1 = P2

Démonstration : Le sens ⇐ est immédiat. Pour le sens ⇒, on suppose que ∀x ∈ R, P1 (] − ∞, x]) = P2 (] − ∞, x]). On
a σ({] − ∞, x]; x ∈ R}) ⊂ B(R) car les fermés sont dans B(R), et B(R) ⊂ σ({] − ∞, x]; x ∈ R}) car les ]a, b[ sont une

37
base de la topologie de R et ]a, b[= (∪n∈N∗ ] − ∞, b − n1 ])∩] − ∞, a]. Ainsi σ({] − ∞, x]; x ∈ R}) = B(R) ce qui conclut
que P1 = P2 par le lemme de classe monotone.

Proposition

Considérons R muni de la tribu de Borel, P une mesure et F sa fonction de répartition. Alors :

∀x ∈ R, P({x}) = F (x) − lim



F
x

Démonstration : P(] − ∞, x[) = lim



F et ] − ∞, x] =] − ∞, x[∪{x} donc P(] − ∞, x]) = P(] − ∞, x[) + P({x}). Ainsi
x
P({x}) = F (x) − limF .
x−

Proposition

La fonction de répartition est continue si et seulement si la msure de probabilité associée est diffuse (i.e. sans
atomes)

Démonstration : Il s’agit d’un corollaire de la proposition précédente.

Proposition

Si P est une mesure de probabilité de densité f alors sa fonction de répartition est :


Z
F : x 7→ f dλ
]−∞,x]

Section VI.6 - Quelques lois remarquables

Définition

Soit n ∈ N ∗ . On considère E = {e1 , ..., en }.


Une variable aléatoire X suit la loi uniforme discrète signifie :
n
X 1
PX = δ ei
i=1
n

Cette loi permet de modéliser des situations où il y a un nombre fini de résultats équiprobables.

Définition

Soit p ∈]0, 1[. On considère E = {e1 , e2 }.


X suit une loi de Bernoulli de paramètre p signifie

PX = pδe1 + (1 − p)δe2

Cette loi permet de modéliser des expériences aléatoires dont l’issue est le succès ou l’échec.

Définition

Soit n ∈ N∗ , p ∈]0, 1[. On considère E = [[0, n]].


X suit une loi binomiale de paramètres n, p signifie
n
X
PX = pk (1 − p)n−k δk
k=0

Cette loi permet de modéliser le nombre de succès lors de la répétition de n expériences aléatoires identiques
et indépendantes dont la probabilité de succès est p. On note X ∼ B(n, p).

38
Proposition

Soit n ∈ N∗ , p ∈]0, 1[ et X ∼ B(n, p).


Alors E(X) = np, Var(X) = np(1 − p) et le coefficient d’asymétrie de X vaut √ 1−2p .
np(1−p)

Définition

Soit λ ∈]0, +∞[. On considère E = N.


X suit une loi de Poisson de paramètre λ signifie
+∞ k
X λ
PX = e−λ δk
k!
k=0

Cette loi permet de modéliser le nombre de fois où un évènement se produit dans un intervalle, lorsque l’on
sait que le nombre moyen d’occurrences et habituellement de λ dans cet intervalle. On note X ∼ Pois(λ).

Proposition

Soit λ ∈]0, +∞[ et X ∼ Pois(λ).


Alors E(X) = λ, Var(X) = λ et le coefficient d’asymétrie de X vaut √1 .
λ

Définition

Soit p ∈]0, 1[ et E = N∗ .
X suit une loi géométrique de paramètre p signifie
+∞
X
PX = pk (1 − p)δk
k=1

Cette loi est utile pour modéliser le nombre de succès consécutifs avant un échec lorsque l’on répète des
expériences identiques et indépendantes de probabilité de succès p. On note X ∼ G(p).

Proposition

Soit p ∈]0, 1[ et X ∼ G(p).


p p 1+p
Alors E(X) = 1−p , Var(X) = (1−p)2 et le coefficient d’asymétrie de X vaut √ .
p

Définition
Soit a, b ∈ R tels que a < b. On considère E = R.
X suit une loi uniforme continue de paramètres a et b signifie PX a pour densité
1
fX (x) = 1[a,b]
b−a
Cette loi est utile pour modéliser le nombre de succès consécutifs avant un échec lorsque l’on répète des
expériences identiques et indépendantes de probabilité de succès p. On note X ∼ U(a, b).

Proposition

Soit a, b ∈ R tels que a < b et X ∼ U(a, b).


(b−a)2
Alors E(X) = a+b 2 , Var(X) = 12 et le coefficient d’asymétrie de X vaut 0.

39
Définition

Soit λ ∈]0, +∞[. On considère E = R+ .


X suit une loi exponentielle de paramètre λ signifie PX a pour densité

fX (x) = λe−λx

Cette loi permet de modéliser la durée entre les occurrences d’un évènement.

Proposition

Soit λ ∈]0, +∞[ et X qui suit une loi exponentielle.


Alors E(X) = λ1 , Var(X) = λ12 et le coefficient d’asymétrie de X vaut 2.

Définition

Soit p ∈]0, +∞[ et λ ∈]0, +∞[. On considère E = R+ .


X suit une loi Gamma de paramètres p et λ signifie PX a pour densité
λ
fX (x) = (λx)p−1 e−λx
Γ(p)
R +∞
où Γ(z) = 0 tx−1 e−t dt. Lorsque p = 1, on retrouve une loi exponentielle. On note parfois θ = 1
λ. On note
X ∼ γ(p, λ).

Proposition

Soit p, λ ∈]0, +∞[ et X ∼ γ(p, λ).


Alors E(X) = λp , Var(X) = λp2 et le coefficient d’asymétrie de X vaut √2 .
p

Définition

Soit m ∈R et σ ∈]0, +∞[. On considère E = R.


X suit une loi normale de paramètres m et σ 2 signifie PX a pour densité

(x − m)2
 
1
fX (x) = √ exp −
2πσ 2σ 2

On note X ∼ N (m, σ 2 ).

Proposition

Soit m ∈ R, σ ∈]0, +∞[ et X ∼ N (m, σ 2 ).


Alors E(X) = m, Var(X) = σ 2 et le coefficient d’asymétrie de X vaut 0.

40
Chapitre VII. Mesure produit, Convolution
Section VII.1 - Espace produit

Définition

Soit (E, E) et (F, F) deux espaces mesurables.


On appelle tribu produit sur E × F la tribu σ(E × F). On la note E ⊗ F.

Exemple : Si E = F = R, E = F = B(R), alors E × F n’est pas directement une tribu (la réunion de deux rectangles
n’est pas un rectangle). E ⊗ F est la plus petite tribu contenant E × F ; on part de E × F, et on espère s’arrêter avant
P(E × F).

Remarque : En général, ⊗ n’est pas commutatif.

Proposition

Soit (E1 , E1 ), ..., (En , En ) des espaces mesurables. Qn


Pour tout k ∈ [[1, n]], la projection canonique πk : i=1 Ei → Ek définie par πk = (x1 , ..., xn ) 7→ xk est
mesurable.
La tribu produit est la plus petite tribu rendant mesurable les n projections canoniques.
Qk−1 Qn Qn
Démonstration : Soit A ∈ Ek . Alors πk−1 (A) = ( i=1 Ei ) × A × ( i=k+1 Ei ) ∈ i=1 Ei ⊂ ⊗ni=1 Ei , donc πk est
mesurable. Qn Qk−1
Supposons π1 , ..., πn mesurables et A = i=1 Ai où Ai ∈ Ei . Alors ∀k ∈ [[1, n]], πk−1 (Ak ) = ( i=1 Ei ) × Ak ×
Qn k−1 n Qn
( i=k+1 Ei ) ∈ ⊗ni=1 Ei . Donc A = ∩nk=1 ( i=1 Ei ) × Q
Ak × ( i=k+1 Ei ) ∈ ⊗ni=1 Ei . Ainsi ⊗ni=1 Ei contient σ( i=1 Ei ).
Q Q
n
La plus petite tribu rendant les πk mesurables est σ( i=1 Ei ).

Proposition

On a B(Rn ) = (B(R))⊗n = B(R) ⊗ ... ⊗ B(R).


Qn
Démonstration : Soit l’ensemble R des produits cartésiens mesurables de (B(R))⊗n . Soit A ∈ R, alors A = i=1 Ai
−1 −1
avec Ai ∈ B(R). Pour tout k ∈ [[1, n]], πk (Ak ) ∈ B(Rn ). Or ∩ni=1 πk (Ak ) = A donc A ∈ B(Rn ). Donc R ⊂ B(Rn ),
donc σ(R) ⊂ B(Rn ). Or σ(R) = (B(R))⊗n d’où (B(R))⊗n ⊂ B(Rn ).
On considère désormais C l’ensemble des pavés de Rn :
( n )
Y
C= ]ai , bi [; ∀i ∈ [[1, n]], ai ∈ R, bi ∈ R et ai < bi
i=1

et l’ensemble R des produits cartésiens mesurables de (B(R))⊗n . C ⊂ R donc B(Rn ) = σ(C) ⊂ σ(R) = (B(R))⊗n , car
les ouverts s’expriment comme réunion dénombrable de pavés. D’où le résultat.

Définition
Soit E et F deux ensembles et A ⊂ E × F .
Pour e ∈ E, on appelle la x-section de A l’ensemble

Ae = {y ∈ F ; (e, y) ∈ A}

Pour f ∈ F , on appelle la y-section de A l’ensemble

Af = {x ∈ E; (x, f ) ∈ A}

Proposition

Soit E et F deux ensembles.


Pour tout A ⊂ E × F, (E × F \A)e = F \Ae .
Pour toute famille (Ai )i∈I d’ensembles inclus dans E × F , (∪i∈I Ai )e = ∪i∈I (Ai )e et (∩i∈I Ai )e = ∩i∈I (Ai )e .
Les propriétés sont analogues pour les y-sections.

41
Proposition

Soit (E, E) et (F, F) deux espaces mesurables, et C ∈ E ⊗ F.


Alors, ∀e ∈ E, Ce ∈ F et ∀f ∈ F, C f ∈ E.

Démonstration : Soit C(e) = {C ∈ E ⊗ F; Ce ∈ F }. C’est une tribu. Soit C = A × B où A ∈ E et B ∈ F. Si e ∈ A


alors Ce = B, sinon C = ∅. Dans les deux cas, Ce ∈ F. Donc C ∈ C(e) : cette tribu contient les A × B où A ∈ E et
B ∈ F. Ainsi E ⊗ F ⊂ C(e), d’où E ⊗ F = C(e).

Proposition

Soit (E, E), (F, F) et (G, G) des espaces mesurables.


Soit e ∈ E, f ∈ F et φ : E × F → G mesurable.
Alors les applications partielles φy=f : E → G telle que φy=f : x 7→ φ(x, f ) et φx=e : F → G telle que
φx=e : y 7→ φ(e, y) sont mesurables.

Démonstration : Soit C ∈ G. Alors φ−1


y=f (C) = {x ∈ E; φ(x, f ) ∈ C} = {(x, f ) ∈ E × F ; (x, f ) ∈ φ
−1
(C)} = φ−1 (C)f ,
−1
ce qui conclut puisque φ (C) est mesurable, donc sa y-section aussi.

Proposition (Lemme de classe monotone, généralisation)

Soit µ et ν deux mesures finies sur un espace mesurable (E, E).


Soit J un π-système sur E.
Si µ et ν coı̈ncident sur J alors elles coı̈ncident sur σ(J ). De plus, s’il existe dans J une suite (An )n∈N telle
que ∀n ∈ N, µ(An ) < +∞ et ∪n∈N An = E, alors le résultat persiste même lorsque µ(E) = +∞.

Définition
On dit qu’une collection J de parties de E est un λ-système ssi :
1. E ∈ J
2. A ∈ J ⇒ E\A ∈ J
3. Pour toute suite (An )n∈N d’éléments disjoints de J , ∪n∈N An ∈ J .

Théorème (Dynkin)

Tout λ-système qui contient un π-système contient également la tribu engendrée par ce π-système.

Théorème

Soit (E, E, µ) et (F, F, ν). On suppose que µ et ν sont σ-finies. Alors :


• Il existe une unique mesure m sur (E × F, E ⊗ F) telle que

∀A ∈ E, ∀B ∈ F, m(A × B) = µ(A)ν(B)

• m est σ-finie, on l’appelle mesure produit de µ et ν et on note

m=µ⊗ν

• Pour tout C ∈ E ⊗ F : Z Z
(µ ⊗ ν)(C) = ν(Cx )µ(dx) = µ(C y )ν(dy)
E F

Démonstration : On se place dans le cas où µ et ν sont finies. On définit la fonction m de E ⊗ F dans [0, +∞] par :
Z
∀C ∈ E ⊗ F, m(C) = ν(Cx )µ(dx)
E

ν(Cx ) est bien défini puisque Cx est la x-section d’un ensemble mesurable. On pose
G = {C ∈ E ⊗ F; hC est borélienne}
G contient tous les produits cartésiens A × B où A ∈ E et B ∈ F. En effet, soit A ∈ E et B ∈ F. (A × B)x = B
si x ∈ A, (A × B)x = ∅ sinon. Ainsi ν((A × B)x ) = 1A (x)ν(B), donc hA×B est borélienne (A est mesurable). Par

42
ailleurs, c’est un λ-système ; ∅ ∈ G car h∅ est la fonction nulle, donc mesurable. Soit C ∈ G. Alors h(E×F )\C =
ν(((E × F )\C)x ) = ν(F \Cx ) = ν(F ) − ν(Cx ). Ainsi h(E×F )\C = ν(F ) − hC est borélienne, et (E × F )\C ∈ G. Si
C1 et C2 sont deux ensembles disjoints de G alors hC1 ∪C2 = hC1 + hC2 est borélienne donc C1 ∪ C2 ∈ G. G est stable
+∞
par union disjointe finie. Soit (Cn )n∈N une suite d’ensembles disjoints de G. On pose YN = ∪N n=0 Cn et Z = ∪n=0 Cn .
hYN est borélienne et croissante. Elle converge vers hZ , qui est donc borélienne. Ainsi Z ∈ G. En conséquence, G est
un λ-système, qui contient le π-système de l’ensemble des produits cartésiens A × B où A ∈ E et B ∈ F. D’après
le théorème de Dynkin, G contient la tribu engendrée par ce π-système, donc contient E ⊗ F, soit G = E ⊗ F. Ainsi
hC : x 7→ ν(Cx ) est bien borélienne, et m est bien définie, et
Z Z
m(A × B) = ν((A × B)x )µ(dx) = 1A (x)ν(B)µ(dx)
E E
Z
= ν(B) 1A (x)µ(dx) = µ(A)ν(B)
R
Vérifions maintenant que m est une mesure. On a m(∅) = E ν(∅x )µ(dx) = 0, et pour toute suite (Cn )n∈N d’éléments
deux-à-deux disjoints de E ⊗ F :
Z Z
m(∪n∈N Cn ) = ν((∪n∈N Cn )x )µ(dx) = ν(∪n∈N ((Cn )x )µ(dx)
E E

Z +∞
! +∞ Z +∞
X X X
= ν((Cn )x ) µ(dx) = ν((Cn )x )µ(dx) = m(Cn )
E n=0 n=0 E n=0

m est donc bien une mesure. Celle-ci est par ailleurs unique, car si m et m0 sont deux mesures telles que ∀A ∈ E, ∀B ∈
F, m(A × B) = µ(A)ν(B) = m0 (A × B), alors m et m0 coı̈ncident sur un π-système et donc d’après le lemme de classe
monotone, m et m0 coı̈ncident sur la tribu engendrée par les produits cartésiens d’ensembles de E et F, c’est-à-dire
E ⊗ F ; donc m = m0 .

Exemple : Considérons la mesure de Lebesgue λ sur R muni de la tribu de Lebesgue. Soit a1 , a2 , b1 , b2 quatre réels
avec a1 < b1 et a2 < b2 . Alors (λ ⊗ λ)(]a1 , b1 [×]a2 , b2 [) = λ(]a1 , b1 [)λ(]a2 , b2 [) = (b1 − a1 )(b2 − a2 ). On a donc bien
généralisé le fait que l’aire d’un rectangle est le produit du longueur par la largeur. De façon analogue, λ(n) = λ⊗n .

Section VII.2 - Intégrales multiples

Théorème (Fubini-Tonelli)

Soit (E, E, µ) et (F, F, ν) deux espaces mesurés, avec µ et ν σ-finies. Soit f : E × F → [0, +∞] mesurable.
Alors : Z
• x 7→ f (x, y)ν(dy) est µ-mesurable
F
Z
• y 7→ f (x, y)µ(dx) est ν-mesurable
E
Z Z  Z Z 
• f (x, y)ν(dy) µ(dx) = f (x, y)µ(dx) ν(dy)
E F F E
Z
= f (x, y)(µ ⊗ ν)(dx, dy)
E×F

R R
Démonstration : Soit RC ∈ E ⊗ F. Pour f = 1C , on a x 7→ F 1C (x, y)ν(dy) = F 1Cx (y)ν(dy) = ν(Cx ) qui est
µ-mesurable, et y 7→ E 1C (x, y)µ(dx) = µ(C y ) est ν-mesurable. Par linéarité, on obtient la mesurabilité pour toute
fonction étagée positive, puis par limite croissante, pour tout f positive.
Soit C ∈ E ⊗F. Pour f = 1C , l’égalité demandée est (E ⊗F)(C) = E ν(Cx )µ(dx) = F µ(C y )ν(dy) que l’on sait vraie.
R R

On l’obtient ensuite par linéarité pour toute f étagée positive, puis, par limite croissante, pour toute fonction f positive.

43
Théorème (Fubini-Lebesgue)

Soit (E, E, µ) et (F, F, ν) deux espaces mesurés, avec µ et ν σ-finies. Soit f ∈ L1 (E × F, E ⊗ F, µ ⊗ ν). Alors :
• x 7→ f (x, y) est dans L1 (E, E, µ) pour ν-presque tout y, y 7→ f (x, y) est dans L1 (F, F, ν) pour µ-presque tout
x.
• y 7→ E f (x, y)µ(dx) est ν-mesurable, définie presque partout et dans L1 (F, F, ν), et x 7→ F f (x, y)ν(dy) est
R R

µ-mesurable, définie presque partout et dans L1 (E, E, µ).


Z Z  Z Z 
• f (x, y)ν(dy) µ(dx) = f (x, y)µ(dx) ν(dy)
E F F E
Z
= f (x, y)(µ ⊗ ν)(dx, dy)
E×F

R R
Démonstration
R : |f | est mesurable est positive, donc d’aprèsR le théorème de Fubini-Tonelli, E ( F |f (x, y)|µ(dx))ν(dy) =
E×F
|f (x, y)|(µ ⊗ ν)(dx, dy) < +∞ par hypothèse, donc F |f (x, y)|µ(dx) < +∞ presque partout. Ainsi y 7→ f (x, y)
1 1
est dans R L (F, F, ν) presque partout. De même, on montre que x 7→ f (x, y) est dans L (E, R E,
R µ) presque partout.

x →
7
R R F f (x, y)ν(dy) est bien définie sauf sur un ensemble négligeable. On a alors E
f (x, y)ν(dy) µ(dx) ≤
F
( |f (x, y)|ν(dy)|µ(dx) ≤ E×F |f |d(µ ⊗ ν). Ainsi x 7→ F f (x, y)ν(dy) est dans L1 (E, E, µ) et de la même manière,
R R
E F
y 7→ E f (x, y)µ(dx) est dans L1 (F, F, ν).
R

Enfin, en décomposant f = f + − f − , et en appliquant le théorème de Fubini-Tonelli à f + et à f − , on obtient le dernier


résultat.

Exemples : Pour calculer [2,3]×[0,1] xyλ(2) (dx, dy), on peut remarquer que la mesure de Lebesgue est σ-finie et que
R

(x, y) 7→ xy1[2,3]×[0,1] ∈ L1 (R2 ) donc le théorème de Fubini-Lebesgue s’applique.


xyλ(2) (dx, dy) = [0,1] y( [2,3] xλ(dx))λ(dy) = 54 .
R R R
[2,3]×[0,1]
Pour calculer n∈N,m∈N 2n13m , on peut remarquer que la mesure de comptage sur N est σ-finie sur N, et donc le
P
1 1 1
P P P
théorème de Fubini-Tonelli s’applique : n∈N,m∈N 2n 3m = n∈N 2n m∈N 3m = 3.

Proposition (Changement de variable linéaire)

Soit φ : Rd → Rd une application linéaire bijective.


Soit f une application intégrable sur Rd . Alors :
Z Z
f (φ(x))| det φ|λ(d) (dx) = f (y)λ(d) (dy)
Rd Rd

et pour tout borélien A : Z Z


f (φ(x))| det φ|λ(d) (dx) = f (y)λ(d) (dy)
A φ(A)

(y12 + y22 )λ(2) (dy1 , dy2 ) = ((2x1 )2 + (2x2 )2 )4λ(2) (dx1 , dx2 ).
R R
Exemple : B(0,1) B(0, 12 )

Définition

Soit U et V deux ouverts non vides de Rd , φ : U → V un difféomorphisme C 1 et x = (x1 , ..., xn ) ∈ Rd . On


appelle matrice jacobienne de φ la matrice :
 ∂φ1 ∂φ1 
∂x1 (x1 , ..., xn ) ... ∂xd (x1 , ..., xd )
Dφ(x) = 
 .. .. .. 
. . . 
∂φd ∂φd
∂x1 (x1 , ..., xd ) ... ∂xd (x1 , ..., xd )

On appelle alors Jacobien de φ en x le nombre réel Jφ(x) = det(Dφ(x)).

44
Proposition (Changement de variable linéaire)

Soit U et V deux ouverts non vides de Rd et φ : U → V un difféomorphisme C 1 .


Soit f une application borélienne sur U . Alors f est intégrable sur V ssi (f ◦ φ)|Jφ| est intégrable sur U . Dans
ce cas : Z Z
(d)
f (φ(x))|Jφ(x)|λ (dx) = f (y)λ(d) (dy)
U V

Exemple : En prenant φ : (r, θ) 7→ (r cos θ, r sin θ), on a Jφ = r et :


2 2 2
ex1 +x2 λ(2) (dx1 , dx2 ) = ]0,1[×]0,2π[ rer λ(dr, dθ) = ]0,2π[ ( [0,1] r exp(r2 )λ(dr))λ(dθ) = π(e − 1).
R R R R
B(0,1)

Section VII.3 - Indépendance des variables aléatoires

Définition

Soit (Ω, A, P) un espace probabilisé et X : Ω → (E, E), Y : Ω → (F, F) deux variables aléatoires.
La construction de la tribu produit et de la mesure produit permet de définir une variable aléatoire Z : Ω →
(E × F, E ⊗ F) telle que Z(ω) = (X(ω), Y (ω)). Z sera notée (X, Y ).
La loi P(X,Y ) de (X, Y ) est la mesure définie sur E ⊗ F par ∀C ∈ E ⊗ F, P(X,Y ) (C) = P((X, Y ) ∈ C).

Remarque : Pour C = A × B avec A ∈ E et B ∈ F, on a P(X,Y ) (C) = P((X, Y ) ∈ A × B) = P(X ∈ A, Y ∈ B).

Définition

Soit (Ω, A, P) un espace probabilisé et X : Ω → (E, E), Y : Ω → (F, F) deux variables aléatoires.
On note PX la loi de X, PY la loi de Y et P(X,Y ) la loi jointe de (X, Y ). On dit alors que X et Y sont
indépendantes ssi P(X,Y ) = PX ⊗ PY . Les lois PX et PY sont appelées lois marginales de (X, Y ).

Proposition

Soit (Ω, A, P) un espace probabilisé et X : Ω → (E, E), Y : Ω → (F, F) deux variables aléatoires. X et Y sont
indépendantes ssi :
∀A ∈ E, ∀B ∈ F, P(X ∈ A, Y ∈ B) = P(X ∈ A)P(X ∈ B)

Démonstration : Le sens ⇒ découle directement de la définition de l’indépendance, et le sens ⇐ repose sur le fait que
P(X,Y ) et PX ⊗ PY sont finies et coı̈ncident sur un π-système, donc sont égales par le lemme de classe monotone.

Proposition

Soit (Ω, A, P) un espace probabilisé, X : Ω → (E, E) et Y : Ω → (F, F) deux variables aléatoires.


X et Y sont indépendantes ssi pour toutes fonctions bornées mesurables f : E → R et g : F → R,
E(f (X)g(Y )) = E(f (X))E(g(Y )).

Démonstration : Le sens direct se démontre en remarquant qu’on a l’égalité pour les fonctions indicatrices, puis on
procède comme habituellement : on étend l’égalité aux fonctions étagées positives, puis aux fonctions positives, puis
à toute fonction bornée mesurable. Le sens indirect se montre en choisissant, pour A ∈ E et B ∈ F, les fonctions
f = 1A et g = 1B .

Remarque : X et Y sont indépendantes si et seulement si pour toutes fonctions bornées mesurables f : E → R et


g : F → R, f (X) et g(Y ) sont indépendantes.

Définition

Soit (Ω, A, P) un espace probabilisé et (Xi )i∈I une famille de variables aléatoires.
On dit que (Xi )i∈I est une famille indépendante ssi :

Pour tout J ⊂ I fini, P((Xi )i∈J ) = ⊗i∈J PXi

45
Définition

Soit (Ω, A, P) un espace probabilisé et (Ai )i∈I une famille de sous-tribus de A.


On dit que (Ai )i∈I est une famille de sous-tribus indépendante ssi :
Y
∀J ⊂ I fini, ∀Ai ∈ Ai , P(∩i∈J Ai ) = P(Ai )
i∈J

Proposition

Soit (Ω, A, P) un espace probabilisé, X : Ω → (E, E) et Y : Ω → (F, F) deux variables aléatoires.


X et Y sont indépendantes ssi pour toutes fonctions bornées mesurables f : E → R et g : F → R,
E(f (X)g(Y )) = E(f (X))E(g(Y )).

Proposition

Une famille de variables aléatoires (Xi )i∈J est indépendantes ssi les tribus σ(Xi ) le sont.

Section VII.4 - Convolution

Définition

Soit (E, +) un groupe commutatif, et T une topologie rendant l’application (x, y) 7→ x − y continue. On munit
E de sa tribu borélienne B(T ). Soit λ et µ deux mesures σ-finies sur (E, B(T )). On appelle produit de
convolution de la mesure µ par la mesure ν la mesure µ ∗ ν définie par :
Z
∀A ∈ B(T ), (µ ∗ ν)(A) = 1A (x + y)(µ ⊗ ν)(dx, dy)
E×E

Remarque : µ ∗ ν est bien définie puisque (x, y) 7→ x + y est borélienne. µ ∗ ν est la mesure image de µ ⊗ ν par
(x, y) 7→ x + y.

Proposition

Si µ et ν sont des mesures de probabilité, alors µ ∗ ν est une mesure de probabilité.


R
Démonstration : (µ ∗ ν)(E) = E×E
1E (x + y)(µ ⊗ ν)(dx, dy) = (µ ⊗ ν)(E) = 1.

Proposition

Si X et Y sont deux variables aléatoires indépendantes, alors PX ∗ PY = PX+Y .


R R
Démonstration : PX+Y (A) = P((X +Y ) ∈ A) = E×E
1A (X +Y )dPX,Y = E×E
1A (x+y)(PX ⊗PY )(dx, dy) = PX ∗PY .

Proposition

La mesure de Dirac en 0 est élément neutre pour la convolution.


R R R
Démonstration : (δ ∗ ν)(A) = E
( E 1A (x + y)δ(dx))ν(dy) = E 1A (y)ν(dy) = ν(A).

Proposition

Le produit de convolution est commutatif.

Démonstration : µ ∗ ν est la mesure image de µ ⊗ ν par (x, y) 7→ x + y. L’addition étant commutative, on a donc
µ ∗ ν = ν ∗ µ.

46
Définition

Soit f et Rg deux fonctions mesurables de Rd dans R.


Lorsque Rd |f (x − y)g(y)|λ(d) (dy) < +∞, on définit le produit de convolution de la fonction f par la
fonction g par : Z
f ∗ g = x 7→ f (x − y)g(y)λ(d) (dy)
Rd

Remarque : Si f et g sont positives et si µ et ν sont des mesures de densité f et g par rapport à la mesure de Lebesgue,
alors µ ∗ ν est une mesure de densité f ∗ g par rapport à la mesure de Lebesgue.

Proposition

• f ∗g =g∗f
• (f ∗ g) ∗ h = f ∗ (g ∗ h)
∀a ∈ R, f ∗ (g + ah) = f ∗ g + a(f ∗ h)

Théorème

Soit f et g dans L1 (Rd , B(Rd ), λ(d) ). Alors :


• (f ∗ g)(x) est définie pour presque tout x ∈ R
• f ∗ g ∈ L1 (Rd , B(Rd ), λ(d) )
• ||f ∗ g||1 ≤ ||f ||1 ||g||1

Démonstration : On note par commodité λ = λ(d) . D’après le théorème de Fubinni-Tonelli :


Z Z  Z Z 
|f (x − y)||g(y)|λ(dy) λ(dx) = |f (x − y)||g(y)|λ(dx) λ(dx)
Rd Rd Rd Rd
Z Z  Z Z 
|g(y)| |f (t − y)||g(y)|λ(dt) λ(dy) = |g(y)| |f (x)|λ(dx) λ(dy)
Rd Rd Rd Rd
Z Z
= |f (x)|λ(dx) |g(y)|λ(dy) < +∞
Rd Rd

Théorème

Soit p et q dans [1, +∞] conjugués, soit f ∈ Lp (Rd , B(Rd ), λ(d) ) et g ∈ Lq (Rd , B(Rd ), λ(d) .
Alors f ∗ g est bien définie, uniformément continue et bornée.

Démonstration : D’après Hölder :

||(y 7→ f (x − y)) × g||1 ≤ ||y 7→ f (x − y)||p ||g||q = ||f ||p ||g||q

Ainsi f ∗ g est bien définie. On ne démontrera pas ici les autres propriétés.

Théorème
1
Soit f ∈ CC (Rd ) et g ∈ L1 (Rd , B(Rd ), λ(d) ).
Alors f ∗ g est bien définie, de classe C 1 et ∀i ∈ [[1, d]], ∂i (f ∗ g) = (∂i f ) ∗ g.

Démonstration : On traite le cas d = 1. On a CC 1


(R) ⊂ CC0
(R) ⊂ L1 (Rd , B(Rd ), λ(d) ) donc f ∗ g et f 0 ∗ g sont bien
définies. Soit x ∈ R et  > 0. Soit z ∈ R et h > 0. Alors :
Z
f (z + h) − f (z) = f 0 (u)λ(du)
[z,z+h]
Z
0
⇒ f (z + h) − f (z) − hf (z) = (f 0 (u) − f 0 (z))λ(du)
[z,z+h]
Z
=h (f 0 (z + hv) − f 0 (z))λ(dv)
[0,1]

47
f (z + h) − f (z)
Z
⇒ − f 0 (z) = (f 0 (z + hv) − f 0 (z))λ(dv)
h [0,1]

f 0 est continue sur un compact, donc uniformément continue (Heine), donc il existe η > 0 tel que |z1 − z2 | < η ⇒
|f 0 (z1 ) − f 0 (z2 )| < ||g||

1
. Pour h < η, on a donc |f 0 (z + hv) − f 0 (z)| < ||g||

1
d’où | f (z+h)−f
h
(z)
− f 0 (z)| < ||g||

1
. On a
alors, en multipliant par g(y) et en intégrant :
Z  
f (x − y + h) − f (x − y) 0
− f (x − y) g(y)λ(dy) < 
R h

(f ∗ g)(x + h) − (f ∗ g)(x)
⇒ − (f 0 ∗ g)(x) < 
h
D’où le résultat.

Proposition
k
Soit f ∈ CC (Rd ) et g ∈ L1 (Rd , B(Rd ), λ(d) ).
Alors f ∗ g est bien définie, de classe C k et :

∂1n1 ...∂dnd (f ∗ g) = (∂1n1 ...∂dnd f ) ∗ g

où n1 + ... + nd ≤ k.

Démonstration : C’est un corollaire du théorème précédent.

Définition

Soit u = (un )n∈Zd et v = (vn )n∈Zd deux suites.


La suite u ∗ v dont le n-ième terme vaut X
un−k vk
k∈Z d

est le produit de convolution de u = (un )n∈Z d par (v = (vn )n∈Z d .

Remarques : On prendra gare au fait que n et k sont des multi-indices : n = (n1 , ..., nd ) et k = (k1 , ...kd ).
Si u et v sont positives et si µ et ν sont des mesures de densité u et v par rapport à la mesure de comptage alors µ ∗ ν
est une mesure de densité u ∗ v par rapport à la mesure de comptage.
Si u et v sont absolument convergentes alors u ∗ v est bien défini.
La mesure de Dirac δ en 0 est une mesure de densité u = (un )n∈Z par rapport à la mesure de comptage pour u0 = 1
et ∀n ∈ Zd \{0, }, un = 0. Cette suite (un )n∈Zd est donc élément neutre pour la convolution des suites.
n β n −β
Exemple : Soit un = αn! e−α et vn = n! e , où α et β sont des réels strictement positifs. Soit la suite (wn )n∈N =
(un )n∈N ∗ (vn )n∈N . Alors :
n n
X X αn−k −α β k −β
wn = un−k vk = e e
(n − k)! k!
k=0 k=0

−(α+β) n  
e X n (α + β)n −(α+β)
= αn−k β k = e
n! k n!
k=0

On vient ici de montrer que la somme de deux variables indépendantes suivant des lois de Poisson de paramètre α et
β est une loi de Poisson de paramètre α + β.

Définition

OnRappelle noyau de sommabilité toute suite (kn )n∈N de fonctions intégrables vérifiant :
1. E kn dµR = 1
2. supn∈N |kn |dµ < +∞ R
3. Pour tout F ⊂ E\{0} fermé, lim F kn dµ = 0
n→+∞

48
Proposition

Soit f ∈ Lp (E, E, µ) et (kn )n∈N un noyau de sommabilité. Alors :

lim ||kn ∗ f − f ||p = 0


n→+∞

Pk 1
PK−1
Exemple : On considère Dk (x) = n=−k einx et FK (x) = K k=0 Dk (x). On rappelle que nous avons déjà vu dans
le chapitre V que :
!2
1 sin Kx2
FK (x) = prolongé par K en 0[2π]
K sin x2

(FK )K∈N∗ est un noyau de sommabilité pour E = [0, 2π]. Dans le chapitre V, la démonstration effectuée pour
1
démontrer que {x 7→ einx , n ∈ Z} est une base hilbertienne de L2C ([0, 2π], B([0, 2π]), 2π λ) revient fondamentalement à
appliquer cette proposition.
On se place désormais dans Rd avec d ∈ N∗ . Pour tout n ∈ N∗ , on définit :

kn (x) = x 7→ nd exp(−πn2 ||x||2 )

Il s’agit d’un noyau de sommabilité, qu’on appelle noyau de Gauss.

Définition

OnRappelle suite régularisante toute suite (ρn )n∈N satisfaisant pour tout n :
1. E ρn dµ = 1
2. ρn ≥ 0
3. Supp ρn ⊂ B(0, n ) avec lim n = 0
n→+∞
4. ρn ∈ C +∞ (Rd )

Exemple : On pose :
(  
−1
exp 1−||x||2 si ||x|| < 1
Ψ(x) =
0 sinon
R
et on note c = Rd
Ψdλ. Un exemple de suite régularisante est alors :
( d  
nd n
c exp −1
1−n2 ||x||2 si ||x|| < 1
n
ρn (x) = Ψ(nx) =
c 0 sinon

Proposition

Soit (ρn )n∈N une suite régularisante, p ∈ [1, +∞[ et f ∈ Lp (Rd ). Alors ρn ∗ f → f dans Lp et ρn ∗ f → f
uniformément sur tout compact.

Théorème

Pour tout ouvert connexe Ω de Rd et pour tout p ∈ [1, +∞[, D(Ω) = CC (Ω) est dense dans Lp (Ω, B(Ω), λ).

49
Chapitre VIII. Vecteurs aléatoires
Section VIII.1 - Fonctions de répartition, Copules

Définition

Soit (Ω, A, P) un espace probabilisé, X1 , ..., Xd des variables aléatoires définies sur (R, B(R)). On dit que
X : Ω 7→ Rd telle que  
X1 (ω)
∀ω ∈ Ω, X(ω) =  ... 
 

Xd (ω)
est un vecteur aléatoire.
On parle aussi de variable aléatoire multidimensionnelle.

Exemple : Le lancer de 2 dés peut être modélisée par un vecteur aléatoire de R2 .

Définition

Soit X : Ω → Rd un vecteur aléatoire (X = (X1 , ..., Xd )).


La fonction de répartition (multivariée) de X est la fonction FX : Rd → [0, 1] définie par :

FX (x1 , ..., xd ) = P(Xi < xi pour i ∈ [[1, d]])

Proposition

Soit X : Ω → Rd un vecteur aléatoire. Notons F = FX . Alors :


• F est croissante dans chacune de ses variables.
• F est continue à droite dans chacune de ses variables.
• Pour tout i ∈ [[1, d]], lim F (x1 , ..., xd ) = 0.
xi →−∞
• lim F (x1 , ..., xd ) = 1.
(x1 ,...,xd )→(+∞,...,+∞)

Proposition

Soit X = (X1 , ..., Xd ) : Ω → Rd un vecteur aléatoire dont la fonction de répartition est F : Rd → R, alors :
X Pd
P(X ∈ [xi1 , xi2 ], i ∈ [[1, d]]) = (−1)( j=1 ij ) F (x1i1 , ..., xdid )
(i1 ,...,id )∈{1,2}d

Démonstration : Par récurrence sur d.

Proposition

Soit X : Ω → Rd un vecteur aléatoire. Sa loi PX : Rd → R est caractérisée par sa fonction de répartition


FX : Rd → R.

Démonstration : PX caractérise FX par construction de FX , et FX caractérise PX par coı̈ncidence sur le π-système


des pavés.

50
Définition

Soit X = (X1 , ..., Xd ) : Ω → Rd un vecteur aléatoire et FX sa fonction de répartition.


On appelle lois marginales de X les lois :
• des Xi prises séparément

FXi (xi ) = P(Xi ≤ xi ) = lim FX (x1 , ..., xd )


(x1 ,...,xi−1 ,xi+1 ,...,xd →(+∞,...,+∞)

• ou de plusieurs composantes Xi1 , ..., Xik du vecteur aléatoire X

FXi1 ,...,Xik (xi1 , ..., xik ) = P(Xi1 ≤ xi1 , ..., Xik ≤ xik )

= lim FX (x1 , ..., xd )


xij →+∞ pour j6∈[[1,k]]

Proposition

Soit (Ω, A, P) un espace probabilisé et Xi : Ω → (R, B(R)) d variables aléatoires.


Alors, les Xi sont indépendantes ssi :

∀(x1 , ..., xd ) ∈ Rd , FX (x1 , ..., xd ) = FX1 (x1 ) × ... × FXd (xd )

Si les Xi admettent une densité fXi , alors elles sont indépendantes ssi :

∀(x1 , ..., xd ) ∈ Rd , fX (x1 , ..., xd ) = fX1 (x1 ) × ... × fXd (xd )

Définition

On appelle copule de dimension 2 toute fonction C : R2 → [0, 1] tq :


• C(x, y) = 0 si x ≤ 0 ou y ≤ 0.
• C(x, y) = x si y ≥ 1.
• C(x, y) = y si x ≥ 1.
• C(x, y) = 1 si x ≥ 1 et y ≥ 1.
• 0 ≤ a ≤ b ≤ 1 et 0 ≤ c ≤ d ≤ 1 entraı̂ne :

C(b, d) − C(b, c) − C(a, d) + C(a, c) ≥ 0

Remarque : Il suffit de définir C sur [0, 1]2 .

Exemples : C(x, y) = xy pour (x, y) ∈ [0, 1]2 est une copule. On l’appelle la copule d’indépendance.
C(x, y) = min(x, y) pour (x, y) ∈ [0, 1]2 est une copule. On l’appelle la copule de comonotonicité.
θ 1
+(− ln y)θ ) θ
C(x, y) = e−((− ln x) pour (x, y) ∈ [0, 1]2 est une copule. On l’appelle la copule de Gumbel de paramètre
θ ∈ [1, +∞[.
Théorème (Sklar)

• Soit Z = (X, Y ) : Ω → R2 un vecteur aléatoire. On note FZ la fonction de répartition (bi-variée) de Z, FX


et FY les fonctions de répartition de X et Y .
Alors, il existe une copule C de dimension 2 telle que FZ (x, y) = C(FX (x), FY (y)). Elle est unique si FX et
FY sont continues.
• Soit X : Ω → R et Y : Ω → R deux variables aléatoires, de fonctions de répartition FX et FY . Soit C une
copule de dimension 2.
Alors, on peut construire une variable aléatoire Z : Ω → R2 sur un espace probabilisé (Ω, F, P) dont la fonction
de répartition est FZ (x, y) = C(FX (x), FY (y)) .

51
Définition

On appelle copule de dimension d toute fonction C : Rd → [0, 1] tq :


• C(x1 , ..., xd ) = 0 si l’un des xi est nul.
• C(x1 , ..., xd ) = xj si ∀i ∈ [[1, d]]\{j}, xi = 1.
• C(x1 , ..., xd ) = 1 si ∀i ∈ [[1, d]], xi = 1.
• ∀i ∈ [[1, d]], 0 ≤ xi1 ≤ xi2 ≤ 1 entraı̂ne :
X Pd
(−1)( j=1 ij ) C(x1i1 , ..., xdid ) ≥ 0
(i1 ,...,id )∈{1,2}d

Remarque : Le théorème de Sklar se généralise aux copules de dimension d.

Section VIII.2 - Moments, Covariance

Définition

Soit (Ω, A, P) un espace probabilisé, et X : Ω → Rd un vecteur aléatoire tel que ∀i ∈ [[1, d]], Xi ∈ L1 (Ω, F, P).
On appelle espérance de X le vecteur  
E(X1 )
E(X) =  ... 
 

E(Xd )

Définition

Soit (Ω, A, P) un espace probabilisé, X : Ω → R et Y : Ω → R deux variables aléatoires dans L2 (Ω, F, P).
On appelle covariance de X et Y le réel

Cov(x, y) = E[(X − E(X))(Y − E(Y ))]

Proposition

Soit X : Ω → R et Y : Ω → R deux variables aléatoires dans L2 (Ω, F, P).


• Cov(X, Y ) = E(XY ) − E(X)E(Y ).
• Cov(X, Y ) = Cov(Y, X).
• Cov(X, X) = Var(X).
• Cov : L2 (Ω, F, P) × L2 (Ω, F, P) → R est bilinéaire.
• Var(X + Y ) = Var(X) + Var(Y ) + 2 Cov(X, Y )

Proposition (inégalité de Cauchy-Schwarz)

Soit X et Y deux variables aléatoires réelles dans L2 (Ω, F, P). Alors :


p p
| Cov(X, Y )| ≤ Var(X) Var(Y )

Démonstration : | Cov(X, Y )| = |E((X−E(X)(Y −E(Y ))| = |hX−E(X), Y −E(Y )iL2 (Ω,F ,P) | ≤ ||X−E(X)||L2 (Ω,F ,P) ||Y −
p p
E(Y )||L2 (Ω,F ,P) = Var(X) Var(Y ) par l’inégalité de Cauchy-Schwarz classique.

Définition

Soit X et Y deux variables aléatoires réelles dans L2 (Ω, F, P) de variance non nulle.
On appelle coefficient de corrélation linéaire le réel de [−1, 1]

Cov(X, Y )
ρX,Y =
σX σY

52
Proposition

Soit X et Y deux variables aléatoires réelles dans L2 (Ω, F, P) de variance non nulle. Alors :

∃(a, b) ∈ R2 , Y = aX + b ⇔ |ρX,Y | = 1

Proposition

Soit X et Y deux variables aléatoires réelles dans L2 (Ω, F, P).


Si X et Y sont indépendantes, alors Cov(X, Y ) = 0. Si de plus elles sont de variance non nulle, alors ρX,Y = 0.

Démonstration : Cov(X, Y ) = E(XY ) − E(X)E(Y ) = 0.

Définition

Soit X et Y deux variables aléatoires réelles dans L2 (Ω, F, P).


X et Y sont dites linéairement indépendantes si Cov(X, Y ) = 0.

Remarques : Deux variables aléatoires indépendantes sont linéairement indépendantes, mais la réciproque est fausse.
Par exemple, X ∼ U([−1, 1]) et Y = X 2 ne sont pas indépendantes, mais Cov(X, Y ) = E(X 3 ) − E(X 2 )E(X) =
0 − 1 × 0 = 0.
Cov : L2 (Ω, F, P) × L2 (Ω, F, P) → R est bilinéaire, symétrique et positive, mais pas définie : en effect Cov(X, X) =
Var(X) = 0 n’implique pas que X = 0 (seulement X constante). On peut remédier à cela en considérant la relation
d’équivalence ≡ définie par X ≡ Y ssi X et Y diffèrent d’une constante (∃a ∈ R, Y = X + a). Cov est alors un
produit scalaire sur L2 (Ω, F, P)/ ≡. On a par ailleurs la complétude de L2 (Ω, F, P)/ ≡, ce qui nous permet d’affirmer
que (L2 (Ω, F, P)/ ≡, Cov) est un espace de Hilbert pour lequel la norme induite est l’écart-type, et l’orthogonalité est
l’indépendance linéaire.

Définition

Soit (Ω, F, P) un espace probabilisé, X : Ω → Rd un vecteur aléatoire tel que ∀i ∈ [[1, d]], Xi ∈ L2 (Ω, F, P).
On appelle matrice de covariances de X la matrice
 
Cov(X1 , X1 ) . . . Cov(X1 , Xd )
Σ=
 .. .. .. 
. . . 
Cov(Xd , X1 ) . . . Cov(Xd , Xd )

Proposition

Σ est la matrice de la forme quadratique q définie sur L = Rd par

∀V ∈ Rd , q(V ) = Var(hX, V i)

Démonstration : Soit q la forme quadratique associée à la matrice Σ. Alors :


d X
X d d X
X d
q(V ) = t V ΣV = Cov(Xi , Xj )Vi Vj = Cov(Vi Xi , Vj Xj )
i=1 j=1 i=1 j=1

Xd d
X
= Cov( Vi Xi , Vj Xj ) = Cov(hX, V i, hX, V i) = Var(hX, V i)
i=1 i=1

Proposition

La matrice de covariances est symétrique et positive.

Démonstration : Cov(Xi , Xj ) = Cov(Xj , Xi ) et ∀V ∈ Rd , t V ΣV = Var(hX, V i) ≥ 0.

53
Proposition

Soit X : Ω → Rd un vecteur aléatoire admettant une densité fX dont le support est A. Soit φ : A → B un
difféomorphisme C 1 et Y = φ(X).
Alors Y admet une densité fY définie par
1
fY = fX ◦ φ−1 1B
|Jφ ◦ φ−1 |

où Jφ = det Dφ est la jacobienne de φ.

Démonstration : Soit V ∈ B(Rd ) et U = φ−1 (V ∩ B).


Z Z
(d)
P(X ∈ U ) = fX (x)λ (dx) = fX (x)λ(d) (dx)
U φ−1 (V ∩B)
Z
⇒ P(Y ∈ B ∩ D) = fX (φ−1 (y))|Jφ−1 (y)|λ(d) (dy)
V ∩B

54
Chapitre IX. Transformée de Fourier, Fonction caractéristique
Section IX.1 - Transformée de Fourier d’une mesure

Définition

Soit µ une mesure finie sur (Rd , B(Rd )). On appelle transformée de Fourier de µ la fonction µ̂ : Rd → C
définie par Z
µ̂(y) = eihx,yi µ(dx)
Rd

Remarque : Le fait que l’on ait choisi une mesure finie rend eihx,yi intégrable. On ne peut pas définir la transformée
de Fourier de λ(d) .

Exemples : Soit a ∈ Rd et µ = δa , alors µ̂(y) = Rd eihx,yi δa (dx) = eiha,xi .


R
1 1
λ, alors µ̂(y) = Rd eixy 1[−1,1] 2π
R
Soit µ = 1[−1,1] 2π λ(dx)).

Proposition

La fonction µ̂ est continue et bornée (par µ̂(0) = µ(Rd ))

Démonstration : Soit y ∈ Rd . Alors |µ̂(y)| = | Rd eihx,yi µ(dx)| ≤ Rd |eihx,yi |µ(dx) = Rd µ(dx) = µ(Rd ). Ainsi µ̂
R R R

est bornée. Pour la continuité, on peut appliquer le théorème de continuité sous le signe somme avec domination de
|eihx,yi | par 1.

Théorème

Soit µ et ν deux mesures finies sur (Rd , B(Rd )), alors

∗ ν = µ̂ν̂
µ[

Démonstration : Soit x ∈ Rd . Z
∗ ν(x) =
µ[ eihx,yi (µ ∗ ν)(dy)
Rd
µ ∗ ν est la mesure image de la somme pour la mesure produit donc :
Z
µ[∗ ν(x) = eihx,u+vi (µ ⊗ ν)(du, dv)
Rd ×Rd
Z Z
= eihx,ui µ(du) ˆ ν(x)
eihx,vi ν(dv) = µ(x) ˆ
Rd Rd
D’où le résultat.

Théorème

Soit µ et ν deux mesures finies sur (Rd , B(Rd )), alors

µ̂ = ν̂ ⇔ µ = ν

Section IX.2 - Transformée de Fourier d’une fonction

Définition

Soit f ∈ L1 (R). On appelle transformée de Fourier de f la fonction fˆ : R → C définie par


Z
1
fˆ(y) = √ e−ixy f (x)λ(dx)
2π R
On la note aussi Ff .

55
Remarque : La fonction Ff est bien définie puisque |e−ixy f (x)| = |f (x)| et f ∈ L1 (R).

Proposition

Lorsque f ∈ L1 (R), la fonction Ff est continue est bornée sur R.


De plus, ||Ff ||∞ ≤ √12π ||f ||1 et lim Ff (x) = lim Ff (x) = 0
x→−∞ x→+∞

1
f λ. Alors λˆf ≤ λf (R), donc λˆf est borné par √12π R f dλ =
R
Démonstration : Si f est à valeurs positives, on pose λf = 2π
√1 ||f ||1 . On a aussi la continuité par le résultat de la section précédente. Dans le cas général, on peut refaire un

raisonnement analogue sur la fonction et non la mesure.
Les limites en +∞ et −∞ s’obtiennent en établissant le résultat sur les fonctions f en escalier puis en raisonnant par
densité des fonctions en escalier dans L1 (R).
Proposition

Soit f, g ∈ L1 (R) et a, b ∈ C. Alors :


• F(af + bg) = aFf + bFg.
• ∀c ∈ R∗ , F(x 7→ f (cx)) = y 7→ 1c Ff ( yc ).
• ∀x0 ∈ R∗ , F(x
√ 7→ f (x − x0 )) = e
−ix0 y
Ff .
• F(f ∗ g) = 2πFf Fg.

Démonstration : La première proposition découle de la linéarité de l’intégrale, les deux suivantes des changements de
variables x 7→ cx et x 7→ x − x0 et la dernière en utilisant les mesures de densité f et g.

Proposition

Si f et x 7→ xf (x) sont dans L1 (R), alors :


• Ff ∈ C 1 (R).
• (Ff )0 = F(x 7→ −ixf (x)).

Démonstration : ∀y ∈ R, (x 7→ f (x)e−ixy ) ∈ L1 (R), ∀x ∈ R, l’application y 7→ f (x)e−ixy est dérivable et (y 7→


f (x)e−ixy )0 ≤ |xf (x)| qui est intégrable. Le théorème de dérivation des intégrales à paramètre donne alors le résultat.

Proposition

Soit f ∈ L1 (R) ∩ C 1 (R) tel que f 0 ∈ L1 (R).


Alors F(f 0 ) = y 7→ iy(Ff )(y).

Démonstration : F(f 0 ) est bien définie puisque f 0 existe et f 0 ∈ L1 (R). Soit A > 0, alors :
Z Z A
1 1
√ f 0 (x)e−ixy λ(dx) = √ f 0 (x)e−ixy dx
2π [−A,A] 2π −A

Z A
iy 1  A
=√ f (x)e−ixy dx + √ f (x)e−ixy −A
2π −A 2π
En faisant tendre A vers +∞, on obtient le résultat.
Définition

Soit F ∈ L1 (R). On appelle transformée de Fourier inverse de F la fonction F : R → C définie par :


Z
1
FF = y 7→ √ eixy F (x)λ(dx)
2π R

On la note aussi parfois F −1 .

Remarque : La fonction Ff est bien définie puisque |eixy F (x)| = |F (x)| et F ∈ L1 (R).

56
Proposition

Soit f ∈ L1 (R) telle que Ff ∈ L1 (R), alors


FFf = f p.p.

Démonstration : Z  Z 
1 ixu 1 −iuy
(FFf )(x) = √ e √ e f (y)λ(dy) λ(du)
2π R 2π R

A ce stade, on pourrait être tenté d’appliquer Fubini, mais ce n’est pas possible ici car (u, y) 7→ eiu(x−y) f (y) 6∈ L1 (R2 ).
1 − |u|
Cependant, pour n ∈ N∗ , posons an (u) = 2π e n et notons kn = Fan .
Z
1 |u|
kn (x) = e−ixu− n λ(du)
2π R
Z Z
1 u
−ixu+ n 1 u
= e λ(du) + e−ixu− n λ(du)
2π R− 2π R+
 
1 1 1 n 1
= 1 + 1 =
2π −ix + n ix + n π 1 + (nx)2
On remarque que R kn dλ = 1, supn∈N R |kn |dλ < +∞ et pour tout F ⊂ R∗ fermé, lim F kn dλ = 0. Ainsi, kn est
R R R
n→+∞
un noyau de sommabilité. Ainsi kn ∗ f → f lorsque n tend vers +∞ dans Lp . Or :
Z  Z 
1
(kn ∗ f )(x) = √ an (u)e−u(x−y) λ(du) f (y)λdy
R 2π R
et (u, y) 7→ ei(y−u)x an (u)f (y) ∈ L1 (R2 ), ce qui nous permet d’utiliser le théorème de Fubini :
Z  Z 
−iux 1 iuy
(kn ∗ f )(x) = an (u)e √ e f (y)λ(dy) λ(du)
R 2π R
 Z  Z
iux 1 −iuy
= an (−u)e √ e f (y)λ(dy) λ(du) = an (u)eiux (Ff )(u)λ(du)
2π R R

Puisque |an (u)eiux (Ff )(u) ≤ |(Ff )(u)| avec Ff ∈ L1 (R), le théorème de convergence dominée s’applique. Puisque
l’on a la convergence Lp du membre de gauche, on peut trouver une extractrice φ telle que la sous-suite (kφ(n) ∗ f )
converge simplement vers f . Ainsi en passant à la limite lorsque n → +∞ :
Z
(kφ(n) ∗ f )(x) = aφ(n) (u)eiux (Ff )(u)λ(du)
R

⇒ f (x) = FF(x)
Ce qui nous donne le résultat attendu.

Remarque : Si f ∈ L1 (R), on a pas forcément Ff ∈ L1 (R). Par exemple, avec f = 1[−1,1] ∈ L1 (R), le calcul fournit
q
Ff = π2 sinc 6∈ L1 (R).

Définition

On appelle espace de Schwartz l’ensemble des fonctions φ ∈ C ∞ (R) à décroissance rapide, c’est-à-dire
vérifiant
∀(p, q) ∈ N2 , ∃M > 0, ∀x ∈ R, (1 + x2 )p |φ(q) (x)| ≤ M
On le note S(R).

Remarque : La décroissance rapide est équivalente à

∀p ∈ N, ∃C > 0, sup ||xα φ(b) ||∞ ≤ C


α≤p,β≤p

Proposition

Soit φ, ψ ∈ S(R), P ∈ R[X] et λ ∈ C.


Alors, φ0 , φP, φ + ψ, λφ et φψ sont dans S(R).

57
2
Exemple : La fonction φ définie par φ(x) = e−x est dans l’espace de Schwartz.
Définition
+∞
On dit que φ ∈ C ∞ (R) est dans CC (R) = C0+∞ (R) = D(R) si elle est à support compact, i.e. {x ∈ R, φ(x) 6= 0}
compact.

Exemple : La fonction φ définie par


(  
−1
exp 1−x2 si |x| < 1
φ(x) =
0 sinon
+∞
appartient à CC (R).

Proposition

C0+∞ (R) ⊂ S(R) ⊂ Lp (R)

Démonstration : La première inclusion se déduit du fait qu’une fonction continue sur un compact est bornée. La
M p
seconde se déduit du fait que pour tout p ∈ [1, +∞[, x 7→ ( 1+x2) est intégrable.

Définition

Soit φ ∈ S(R). Pour α et β dans N, on note |φ|α,β = ||x(a) φ(b) ||∞ et on considère la topologie initiale associée
aux fonctions φ 7→ |φ|α,β , c’est-à-dire la topologie la plus fine rendant ces fonctions continues. On l’appelle la
topologie de S(R).

Remarque : Soit (φn )n∈N une suite de S(R). P


φn → φ lorsque n → +∞ signifie ∀p ∈ N, lim Np (φn − φ) = 0 où Np (·) = 0≤α,β≤p | · |α,β .
n→+∞

Proposition

C0∞ (R) est dense dans S.

Théorème

La transformée de Fourier F est un automorphisme de S(R) et F −1 = F.

Démonstration : Soit φ ∈ S(R) ⊂ L1 (R). On a aussi x 7→ xφ(x) ∈ S(R) ⊂ L1 (R). Donc Fφ ∈ C 1 (R) et (Fφ)0 =
F(x 7→ −ixφ(x). Par récurrence, on vérifie que ∀β ∈ N∗ , (Fφ)(β) = (−1)β F(x 7→ xβ φ(x)). Par ailleurs, φ ∈ S(R)
donc φ0 ∈ L1 (R). Ainsi, F(φ0 ) = y 7→ iy(Fφ)(y). Par récurrence, ∀α ∈ N∗ , F(φ(a) ) = y 7→ (iy)α (Fφ)(y). On a alors :

y α (Fφ)(β) (y) = (−i)α+β (iy)α F(x 7→ xβ φ(x))(y)

= (−i)α+β F((x 7→ xβ φ(x))(α) )(y)


On en déduit que y α (Fφ)β est borné, et donc que Fφ ∈ S(R). Puisque Fφ ∈ L1 (R), on a l’égalité FFφ = φ presque
partout, ce qui achève la démonstration.

Théorème (Formule de Plancherel)

Pour tout φ et ψ dans S(R) :


hFφ, FψiL2 (R) = hφ, ψiL2 (R)

Démonstration : Soit φ et ψ dans S(R).


Z
hφ, ψiL2 (R) = φ(x)ψ(x)λ(dx)
R
Z Z
1
= (Fφ)(y)eixy λ(dy)ψ(x)λ(dx)
R 2π R

58
(x, y) 7→ Fφ(y)ψ(x) ∈ L1 (R) donc Fubini s’applique.
Z Z
1
hφ, ψiL2 (R) = (Fφ)(y) ψ(x)e−ixy λ(dx)λ(dy)
R 2π R
Z
= Fφ(y)(Fψ)(y)λ(dy) = hFφ, FψiL2 (R)
R

Remarque : hFφ, ψiL2 (R) = hφ, FψiL2 (R) .


On dit que F est l’opérateur adjoint de F.

Définition

On définit F de L2 (R) dans L2 (R) par densité. Si f ∈ L2 (R), on peut construire une suite fn d’éléments de
S(R) qui converge vers f . F étant une isométrie de S(R) et par complétude de L2 (R), Ffn admet une limite
dans L2 (R), qu’on note Ff . Si f ∈ L1 (R) ∩ L2 (R), F coı̈ncide bien avec la définition donnée sur L1 (R).

Proposition

Soit f ∈ L2 (R). Alors :


Z !
1 −ixy
Ff = √ lim y 7→ f (x)e λ(dx) dans L2 (R)
2π n→+∞ [−n,n]

Démonstration : On pose φn = f 1[−n,n] . ∀n ∈ N, φn ∈ L1 (R) ∩ L2R(R) car f ∈ L2 (R) et 1[−n,n] ∈ L2 (R). On a


lim ||φn − f ||2 = 0 donc lim ||Fφn − Ff ||2 = 0. Or Fφn = √1 [−n,n]
f (x)e−ixy λ(dx), ce qui donne le résultat
n→+∞ n→+∞ 2p i
attendu.

Proposition

Soit f ∈ L2 (R). Alors :


1 − e−ixy
Z
1 d
Ff = √ f (x) λ(dx)
2π dy R ix

Démonstration : On pose φn = f 1[−n,n] ∈ L1 (R) ∩ L2 (R). Soit y ∈ R+ . lim h1[0,y] , Fφn i = h1[0,y] , Ff i. En
n→+∞
−ixt 1
appliquant Fubini à (x, t) 7→ f (x)e ∈ L ([−n, n] × [0, y] :
Z Z Z
1 −ixt
lim √ f (x)e λ(dx)λ(dt) = Ff (x)λ(dx)
n→+∞ [0,y] 2π [−n,n] [0,y]
Z Z Z
1 −ixt
⇒√ lim f (x)e λ(dt)λ(dx) = Ff (x)λ(dx)
2π n→+∞ [−n,n] [0,y] [0,y]
−ixy
1−e
Z Z
1
⇒√ lim f (x) λ(dx) = Ff (x)λ(dx)
2π n→+∞ [−n,n] ix [0,y]

1−e−ixy −ixy
Comme f ∈ L2 (R) et x 7→ ix ∈ L2 (R), on a y 7→ f (x) 1−eix ∈ L2 (R) et on peut alors appliquer le théorème de
convergence dominée :
1 − e−ixy
Z Z
f (x) λ(dx) = Ff (x)λ(dx)
R ix [0,y]

D’où le résultat après dérivation.

Théorème (Plancherel)

F est un automorphisme isométrique de L2 (R).

Démonstration : C’est une conséquence directe du fait que F est un automorphisme isométrique dans S(R). (cf.
formule de Plancherel)

59
Proposition

Soit f ∈ L2 (R) ∩ C 1 (R), tel que f 0 ∈ L2 (R). Alors :

F(f 0 ) = (y 7→ iy)Ff

Démonstration : La proposition s’établit dans S(R), puis en passant à la limite.

Section IX.3 - Fonction caractéristique

Définition
Soit X une variable aléatoire et PX sa loi.
PˆX s’appelle la fonction caractéristique de X, et se note ΦX :
Z
ΦX (t) = eiht,xi PX (dx) = E(eiht,Xi )
Rd

Remarque : Lorsque PX a une densité f par rapport à la mesure de Lebesgue, alors


Z
ΦX (t) = f (x)eiht,xi λ(dx)
Rd
Pn 1
Exemples : Pour PX = k=1 n δak (loi uniforme discrète) :
Z n
! n
iht,xi
X 1 1 X iak t
ΦX (t) = e δa (dx) = e
Rd n k n
k=1 k=1

Proposition

Soit X une variable aléatoire. Alors :


• ΦX (0) = 1
• ∀t ∈ Rd , |ΦX (t)| ≤ 1
• ∀a ∈ R, ∀b ∈ Rd , ΦaX+b = eibt ΦX (at)
• ΦX est continue sur Rd .

Proposition

Soit X une variable aléatoire dont la loi a une densité fX par rapport à la mesure de Lebesgue. Alors :
• lim ΦX (t) = lim ΦX (t) = 0.
t→−∞
Rt→+∞
• fX (x) = (2π)
1
d Rd
e−iht,xi ΦX (t)λ(d) (dt)

Proposition

Soit X une variable aléatoire. ΦX satisfait :


X
∀N ∈ N∗ , (t1 , ..., tN ) ∈ RN , (x1 , ..., xN ) ∈ RN , xj ΦX (tj − tk )xk ≥ 0
1≤j,k≤N

Démonstration : Cela provient de l’égalité :



N
2 
X X
xj ΦX (tj − tk )xk = E  xj eihtj ,Xi  ≥ 0


1≤j,k≤N i=1

Théorème (Théorème d’unicité)

Deux variables aléatoires X et Y ont la même loi ssi ΦX = ΦY .

60
Démonstration : Deux mesures ayant la même transformée de Fourier sont égales.

Théorème
Les variables aléatoires réelles X1 , ..., Xn sont indépendantes ssi :
n
Y
∀(t1 , ..., tn ) ∈ RN , Φ(X1 ,...,Xn ) (t1 , ..., tn ) = ΦXk (tk )
k=1

Démonstration : Par définition de la mesure produit :


Z N Z
Y
eiht,xi (PX1 ⊗ ...PXk )(dx1 , ..., dxk ) = eitk xk PXk (dtk )
Rn k=1 R

Le résultat équivaut donc à P(X1 ,...,Xn ) = PX1 ⊗ ... ⊗ PXk , c’est-à-dire à l’indépendance des variables aléatoires.

Proposition

Soit X1 , ..., Xn des variables aléatoires indépendantes. Alors :


N
Y
ΦX1 +...+XN = ΦXk
k=1

Démonstration : On sait que PX1 +...+Xn = PX1 ∗ ... ∗ PXn . On a alors PX\
1 +...+Xn
= Pd
X1 ...PXN , d’où le résultat.
d

Proposition

Soit X une variable aléatoire dans Ln (Ω, F, P) avec n ∈ N∗ .


Alors ΦX ∈ C n (R) et
(k)
∀k ≤ n, ∀t ∈ R, ΦX (t) = ik E(X k eitX )

Proposition

Soit X une variable aléatoire dans Ln (Ω, F, P) avec n ∈ N∗ . Alors :


(k)
E(X k ) = (−i)n ΦX (0)

Démonstration : C’est un corollaire immédiat de la proposition précédente.

61
Chapitre X. Vecteurs Gaussiens
Section X.1 - Définition d’un vecteur gaussien

Définition

Soit (Ω, A, P) un espace probabilisé, et X1 , ..., Xd des variables aléatoires sur (R, B(R)).
On dit que le vecteur X = (X1 , ..., Xd ) est gaussien si ∀(a1 , ..., ad ) ∈ Rd , a1 X1 +...+ad Xd suit une loi normale.

Exemples : Soit X1 ∼ N (m1 , σ12 ) et X2 ∼ N (m2 , σ22 deux variables aléatoires indépendantes. Alors X = (X1 , X2 )
est un vecteur aléatoire gaussien. En effet, ∀(a1 , a2 ) ∈ R2 , a1 X1 + a2 X2 ∼ N (a1 m1 + a2 m2 , a21 σ12 + a22 σ22 ). (pour le
montrer, utiliser le fait que la fonction caractéristique d’une somme de deux variables aléatoires indépendantes est le
produit des fonctions caractéristiques de chaque variable)
X1 ∼ N (m1 , σ12 ),  suivant la loi de Bernoulli 21 δ−1 + 12 δ1 indépendante de X1 et X2 = X1 . On a ΦX2 (t) =
RSoit itux
R2
e (PX1 ⊗ P )(dx, du) par indépendance des variables aléatoires, ce qui ce simplifie par application du théorème
1 2 1 2
de Fubini en ΦX2 (t) = R cos(tx) √12π e− 2 x λ(dx) = e− 2 t . Ainsi X2 ∼ N (0, 1). Or, X1 + X2 = (1 + )X1 donc
R

P(X1 + X2 = 0) = 21 : X1 + X2 ne peut pas suivre de loi normale, et donc (X1 , X2 ) n’est pas gaussien puisque l’on a
trouvé une combinaison linéaire de X1 et X2 qui ne suit pas une loi normale.
On retiendra que si X = (X1 , ..., Xn ) est gaussien, alors les Xi suivent une loi normale, mais que la réciproque est fausse.

Section X.2 - Caractérisation d’un vecteur gaussien

Proposition

Soit X = (X1 , ..., Xd ) un vecteur gaussien.


Sa fonction caractéristique ΦX : Rd → C est donnée par
 
1
ΦX (t) = exp iht, mi − ht, Dti
2

où m = (mj )1≤j≤d est le vecteur d’espérance de X et D = (Dj,k )1≤j,k≤d est la matrice de covariances de X.

Démonstration : Soit t = (t1 , ..., td ) ∈ Rd et Y = ht, Xi = t1 X1 + ... + td Xd . X étant gaussien, Y suit une loi
Pd P
normale. E(Y ) = k=1 tk mk = ht, mi et Var(Y ) = Cov(Y, Y ) = 1≤k,j≤d tj Dj,k tk = ht, Dti. On en déduit que
ΦY (u) = exp(iht, miu − 21 ht, Dtiu2 ). Or ΦX (t) = E(exp(iht, Xi)) = E(exp(iY )) = ΦY (1), d’où le résultat.

Proposition

La loi d’un vecteur gaussien est entièrement caractérisée par son vecteur d’espérance m ∈ Rd et sa matrice de
covariances D ∈ Md (R).
On notera alors N (m, D) cette loi.

Démonstration : ΦX caractérise la loi de X.

Théorème

Soit X = (X1 , ..., Xd ) un vecteur gaussien. Les Xi sont indépendants si et seulement si la matrice D de
covariance de X est diagonale.

Démonstration : Pour le sens direct, cela vient simplement du fait que l’indépendance
Qd entraı̂ne la non-corrélation.
Pour le sens indirect, si D est diagonale alors on a l’égalité ΦX (t1 , ..., td ) = k=1 ΦXk (tk ).
Proposition

Soit m ∈ Rd et D ∈ Md (R) symétrique et positive. Alors, il existe un vecteur gaussien à valeurs dans Rd
d’espérance m et de matrice de covariance D.

62
Démonstration : D étant symétrique et positive, elle admet une décomposition de Cholesky : D = C t C. Soit d variables
aléatoires Yi ∼ N (0, 1) indépendantes. Le vecteur Y = (Y1 , ..., Yd )P
est gaussien, tout comme XP = CY + m. Alors,
E(X) = E(CY ) + m = m, et Cov(Xi , Xj ) = E((CY )i (CY )j ) = 1≤k,l≤d Cik Cjl E(Yk Yl ) = 1≤k,l≤d Cik Cjl δkl =
Pd
k=1 Cik Cjk = (D)ij . On a donc construit le vecteur gaussien recherché.

Section X.3 - Loi d’un vecteur gaussien

Proposition

Soit m ∈ Rd et D ∈ Md (R) symétrique positive.


D est inversible si et seulement si la loi N (m, D) est absolument continue par rapport à la mesure de Lebesgue.
La densité est alors la fonction de Rd dans R :
 
1 1 −1
x 7→ d √ exp − hx − m, D (x − m)i
(2π) 2 det D 2

Démonstration : Supposons D inversible. On réécrit comme précédemment D = C t C et X = CY + m, de sorte que


Y = C −1 (X − m) = φ(X) où, pour x = (x1 , ..., xd ), on a défini φ(x) = C −1 (x − m). Chaque Yi suit une loi normale
Qd
centrée réduite, et les Yi sont indépendantes. La densité de la loi de Y est (y1 , ..., yd ) 7→ i=1 √12π exp(− 12 yi2 ) =
1 1 d
d exp(− 2 hy, yi). Soit A ∈ B(R ) et B = φ(A), alors P(X ∈ A) = P(Y ∈ B). Or,
(2π) 2
P(Y ∈ B) = B 1 d exp(− 12 hy, yi)λ(d) (dy). On a donc P(X ∈ A) = φ(A) 1 d exp(− 21 hy, yi)λ(d) (dy)
R R
(2π) 2 (2π) 2
= A 1 d exp(− 21 hC −1 (x−m), C −1 (x−m)i)| det C − 1|λ(d) (dx) = A 1
exp(− 12 hx−m, D−1 (x−m)i)λ(d) (dx),
R R
d
(2π) 2 (2π) 2 det C

et on en déduit, puisque det C = det D, la densité attendue.
Réciproquement, on suppose que D est singulière, et X ∼ N (m, D). Soit v ∈ (Ker D)\{0}. On pose Z = hv, Xi. Alors,
Pd Pd
E(Z) = E(hv, Xi) = E( i=1 vi Xi = i=1 vi E(Xi ) = hv, mi, et Var(Z) = Var(hv, Xi) = t vDv = 0. On en déduit que
Z est égale à son espérance presque partout, soit P(Z = hv, mi) = 1. Ainsi, P(hv, Xi = hv, mi) = P(hv, X−mi = 0) = 1.
En notant H l’hyperplan de vecteur normal v, cela siginfie que P(X − m ∈ H) = P(X ∈ m + H) = PX (m + H) = 1.
Or un hyperplan est de mesure nulle pour la mesure de Lebesgue λ(d) ; si PX était absolument continue par rapport
à la mesure de Lebesgue, on devrait donc avoir Px (m + H) = 0. On conclut donc que si D est singulière alors la loi
N (m, D) ne peut pas être absolument continue par rapport à la mesure de Lebesgue, ce qui achève la preuve.

63
Chapitre XI. Convergence de variables aléatoires
Section XI.1 - Les différents modes de convergence d’une v.a.

Définition

La suite de v.a. (Xn )n∈N converge en probabilité vers la v.a. X ssi :

∀ > 0, lim P(|Xn − X| > ) = 0


n→+∞

P
On note alors Xn → X.

Exemple : Pour n ∈ N∗ , on considère Xn : R → R définie par :



 0 si ω < 0
Xn = ω 7→ 1 − nω si ω ∈ [0, n1 ]
0 si ω > n1

Soit  > 0, et X = ω 7→ X. Alors, P(|Xn − X| > ) = P([0, 1−


n ). Ainsi, si P est une mesure à densité par rapport à la
1−
R 1− P
mesure de Lebesgue, lim P([0, n ]) = lim 0 f (x)dx = 0, c’est-à-dire Xn → X.
n
n→+∞ n→+∞

Définition

La suite de v.a. (Xn )n∈N converge presque sûrement vers la v.a. X ssi :

P({ω ∈ Ω; lim Xn (ω) = X(ω)}) = 1


n→+∞

p.s.
On note alors Xn → X.

Exemple : En reprenant Xn définie ∀n ∈ N comme précédemment et X = ω 7→ 0, on remarque que la suite de variables


aléatoires (Xn )n∈N converge simplement vers X presque partout (il n’y a qu’en 0 qu’on a pas la convergence simple).
p.s.
Ainsi, Xn → X.
Proposition

Soit (Xn )n∈N une suite de variables aléatoires convergeant presque sûrement vers X.
Alors, (Xn )n∈N converge en probabilité vers X.

Démonstration : Soit (Xn )n∈N une suite de variables aléatoires convergeant presque sûrement vers X. Alors, Ω∗ = {ω ∈
Ω; lim Xn (ω) = X(ω)} a pour mesure 1. Pour  > 0, on pose Ω = {ω ∈ Ω; ∃N ∈ N, ∀n ≥ N, |Xn (ω) − X(ω)| < }.
n→+∞
On remarque que Ω = ∪N ∈N∗ ∩n≥N {ω ∈ Ω, |Xn (ω)−X(ω)| < } est une union d’intersections d’ensembles mesurables,
donc est mesurable, et que Ω∗ ⊂ Ω . Ainsi, P(Ω ) = 1. Posons AN = ∩n≥N {ω ∈ Ω, |Xn (ω) − X(ω)| < }. Alors,
(AN )N ∈N∗ est croissante et ∪N ∈N∗ AN = Ω . Donc, lim P(AN ) = 1. Dit autrement, ∀δ > 0, ∃N ∈ N∗ , P(An ) > 1−δ,
N →+∞
avec pour n ≥ N, AN ⊂ {ω ∈ Ω; |Xn (ω)−X(ω)| < }. Donc P(|Xn −X| < ) > 1−δ. Ainsi, lim P(|Xn −X| < ) = 1,
n→+∞
p.s.
d’où lim P(|Xn − X| > ) = 0 et donc Xn → X.
n→+∞

Proposition

Soit (Xn )n∈N une suite de variables aléatoires convergeant en probabilité vers X.
Alors, on peut extraire une sous-suite (Xφ(n) )n∈N qui converge presque sûrement vers X.

Remarque : Généralement, la convergence en probabilité n’entraı̂ne pas la convergence presque sûrement.


Par ailleurs, elle n’entraı̂ne pas non plus la convergence des moments : en modifiant la définition de la suite de variables
aléatoires définies dans le premier exemple par

 0 si ω < 0
Xn = ω 7→ n − n 2
ω si ω ∈ [0, n1 ]
0 si ω > n1

64
1
alors on a ∀n ∈ N, E(Xn ) = 2 mais E(X) = 0, donc lim E(Xn ) 6= E(X).
n→+∞

Définition

Soit p ≥ 1. La suite de variables aléatoires (Xn )n∈N converge dans Lp vers la v.a. X ssi toutes les variables
aléatoires Xn et X sont dans Lp et :
lim E(|Xn − X|p ) = 0
n→+∞
p
L
On note alors Xn → X.

Exemple : Soit p ∈ [1, +∞[. On reprend la définition de (Xn )n∈N du premier exemple :

 0 si ω < 0
Xn = ω 7→ 1 − nω si ω ∈ [0, n1 ]
0 si ω > n1

et X = ω 7→ 0. Alors :
1   n1
1 −1
Z
p
n
p 1
E(|Xn − X| ) = (1 − nω) dω = (1 − nω)p+1 = → 0
0 p+1 n 0 n(p + 1) n→+∞

et donc (Xn )n∈N converge vers X dans Lp .

Proposition

Soit (Xn )n∈N une suite de variables aléatoires convergeant dans Lp vers X.
Alors, (Xn )n∈N converge en probabilité vers X.

1
Démonstration : Cela résulte de l’inégalité de Markov : P(|Xn − X| > ) < p E(|Xn − X|p ) → 0.
n→+∞

Théorème
P
Soit p ∈ [1, +∞[ et (Xn )n∈N une suite de variables aléatoires vérifiant Xn → X et ∃Y ∈ Lp , ∀n ∈ N, |Xn | ≤ Y .
p
L
Alors, X ∈ Lp et Xn → X.

Proposition

Les limites ainsi définies par les convergences en probabilité, presque sûre et dans Lp vérifient l’unicité de la
limite, la linéarité et le passage à la limite dans les inégalités.
De plus, pour toute fonction f continue, on a Xn → X ⇒ f (Xn ) → f (X).

Section XI.2 - Lois des grands nombres

Théorème (Loi faible des grands nombres)

Soit (Xn )n∈N∗ une suite de variables aléatoires de L2 (Ω, F, P) indépendantes et identiquement distribuées.
PN P
On note m = E(Xn ) et MN = N1 n=1 Xn . Alors, MN → m, c’est-à-dire ∀ > 0, lim P(|MN − m| > ) = 0.
N →+∞

PN
Démonstration : On note m = E(Xn ) et σ 2 = Var(Xn ). Alors, E(MN ) = N1 n=1 E(Xn ) = Nm
m = m et Var(MN ) =
N σ2 σ2
1
PN
N2 n=1 Var(Xn ) = N 2 = N . Pour tout  > 0, on applique l’inégalité de Chebyshev :

σ2
P(|Mn − m| > ) ≤ → 0
N 2 N →+∞

P
d’où MN → m.

65
Théorème (Loi forte des grands nombres)

Soit (Xn )n∈N∗ une suite de variables aléatoires de L2 (Ω, F, P) indépendantes et identiquement distribuées.
PN p.s. Lp
On note m = E(Xn ) et MN = N1 n=1 Xn . Alors, MN → m et MN → m.

Remarque : Cela nous permet d’effectuer des approximations numériques, par exemple la méthode de Monte Carlo.
On prend Xn ∼ U([0, 1]) une suite de variables aléatoires indépendantes, et alors on a :
N Z
1 X
lim f (Xn ) = E(f (Xn )) = f (x)λ(dx)
N →+∞ N [0,1]
n=1

Cela permet d’approcher la valeur d’intégrales par l’utilisation de variables aléatoires,


√ et on peut par exemple en
déduire une approximation de la valeur de π avec l’intégrale sur [0, 1] de f (x) = 1 − x2 .

Section XI.3 - Convergence en loi

Définition

Soit (Xn )n∈N une suite de variables aléatoires réelles, (FXn )n∈N leurs fonctions de répartition respectives, et
soit X une variable aléatoire de fonction de répartition FX .
On dit que la suite des variables aléatoires (Xn )n∈N converge en loi vers la variable aléatoire X ssi (FXn )n∈N
L
converge simplement vers FX , sauf éventuellement aux points de discontinuité de FX . On note Xn → X.

Exemple : Considérons (R, B(R), U([0, 1])) et :



 0 si ω < 0
Xn = ω 7→ 1 − nω si ω ∈ [0, n1 ]
0 si ω > n1

de fonctions de répartition respectives :



 0 si x < 0
1
FXn = x 7→ n + (1 − n1 )x si x ∈ [0, n1 ]
1 si x > 1

L
Alors, (FXn )n∈N converge simplement vers FX = 1[0,+∞[ . Ainsi Xn → 0.

Définition

Soit (µn )n∈N une suite de mesures de probabilité sur E. On dit que (µn )n∈N converge faiblement (ou
étroitement) vers µ ssi Z Z
∀f ∈ Cb (E), lim f dµn = f dµ
n→+∞ E E

où Cb (E) est l’ensemble des fonctions continues et bornées de E.

Proposition

Lorsque E = R, la suite de variables (Xn )n∈N converge en loi vers X ssi la suite des lois de Xn converge vers
la loi de X.

Définition

Lorsque E 6= R, on dit que la suite de variables (Xn )n∈N converge en loi vers X ssi la suite des lois de Xn
L
converge vers la loi de X. On note Xn → X.

66
Théorème (Portmanteau pour les mesures)

Soit (µn )n∈N une suite de mesures de probabilité sur E. Toutes les propositions suivantes sont équivalentes :
• (µn )n∈N converge faiblement vers µ.
• Pour toute fonction f de E uniformément continue et bornée, lim E f dµn = E f dµ.
R R
n→+∞
• Pour toute fonction f de E continue et à support compact, lim E f dµn = E f dµ.
R R
n→+∞
• Pour tout A ⊂ E fermé, lim sup µn (A) ≤ µ(A).
n→+∞
• Pour tout A ⊂ E ouvert, lim inf µn (A) ≥ µ(A).
n→+∞
• Pour tout A ∈ B(E) tel que µ(∂A) = 0, lim µn (A) = µ(A).
n→+∞

Théorème (Portmanteau pour les variables aléatoires)

Soit (Xn )n∈N une suite de variables aléatoires sur E. Toutes les propositions suivantes sont équivalentes :
L
• Xn → X.
• Pour toute fonction f de E uniformément continue et bornée, lim E(f (Xn )) = E(f (X)).
n→+∞
• Pour toute fonction f de E continue et à support compact, lim E(f (Xn )) = E(f (X)).
n→+∞
• Pour tout A ⊂ E fermé, lim sup P(Xn ∈ A) ≤ P(X ∈ A).
n→+∞
• Pour tout A ⊂ E ouvert, lim inf P(Xn ∈ A) ≥ P(X ∈ A).
n→+∞
• Pour tout A ∈ B(E) tel que P(X ∈ ∂A) = 0, lim P(Xn ∈ A) = P(X ∈ A).
n→+∞

Proposition

Soit (Xn )n∈N une suite de variables aléatoires à valeurs dans un ensemble discret. Alors :
L
Xn → X ⇔ ∀k ∈ E, lim P(Xn = k) = P(X = k)
n→+∞

Proposition

Soit (Xn )n∈N une suite de variables aléatoires de fonction caractéristiques respectives Φn = ΦXn et X une
variable aléatoire de fonction caractéristique Φ = ΦX . Alors :
L
Xn → X ⇔ Φn → Φ simplement

Exemple : Soit λ > 0, Xn ∼ B(n, nλ ), et X ∼ Pois(λ). La fonction caractéristique de Xn est Φn = t 7→ (1 − nλ + nλ eit )n ,


et (Φ(n))n∈N converge simplement vers φ = t 7→ exp(λ(eit − 1)) qui est précisément la fonction caractéristique de X.
L
On en déduit que Xn → X.

Proposition

Soit (Xn )n∈N une suite de variables aléatoires convergeant en probabilité vers X.
Alors, (Xn )n∈N converge en loi vers X.

P P
Démonstration : Supposons que Xn → X. Soit f une fonction continue et bornée. Alors, f (Xn ) → f (X) et puisque
1
L
f est bornée, |f (Xn )| ≤ C ∈ L1 donc f (Xn ) → f (X). Dit autrement, lim E(f (Xn )) = E(f (X)), ce qui donne la
n→+∞
convergence en loi par le théorème Portmanteau.

Proposition

Soit (Xn )n∈N une suite de variables aléatoires définies sur (Ω, F, P) à valeurs dans E = Rd . On suppose que
L P
Xn → X et X = c presque sûrement, où c ∈ E est une constante. Alors, Xn → X.

67
Section XI.4 - Théorème Central Limite (TCL)

Théorème (Central Limite)

Soit (Xn )n∈N une suite de variables aléatoires de L2 (Ω, F, P) indépendantes et identiquement distribuées. On
PN
note SN = n=1 Xn , m = E(Xn ) et σ 2 = Var(Xn ). On suppose que σ 6= 0. Alors :

SN − N m L
√ −→ Y
σ N N →+∞

où Y ∼ N (0, 1).


PN
Démonstration : Quitte à remplacer Xn par Xnσ−m , on suppose que m = 0 et σ = 1. Soit YN = √1 SN
N
= √1
N n=1 Xn .
Alors, puisque les Xn sont indépendants et identiquement distribués :
n     N
Y t t
ΦYN (t) = Φ √1 PN (t) = ΦXn √ = ΦX √
n=1 Xn
N
i=1
N N

Les Xn sont dans L2 , donc ΦX ∈ C 2 . On a alors ΦX (0) = 1, Φ0X (t) = iE(XeitX ) donc Φ0X (0) = im = 0 et
Φ00X (t) = −E(X 2 eitX ) donc Φ00X (0) = −σ = −1. On en déduit que :

t2
   2 
t t
ΦX (t) = 1 − t2 + o(t2 ) ⇒ ΦX √ =1− +o √
0 N 0 2N N

t2
 2 
t2
   
t t t
⇒ ln ΦX √ =− +o √ ⇒ N ln ΦX √ = − + o(t2 )
N 0 2N N N 0 2
On obtient ainsi un équivalent à t fixé lorsque N → +∞. On en déduit que
N
t2
   
t
∀t ∈ R, ΦYN (t) = ΦX √ −→ exp
N N →+∞ 2
L
On a établi que (ΦYN )N ∈N converge simplement vers la fonction caractéristique de Y ∼ N (0, 1), d’où YN → Y .

68
Chapitre XII. Introduction aux processus stochastiques
Section XII.1 - Espérance conditionnelle

Proposition

Soit (Ω, F, P) un espace probabilisé et X : Ω → R une variable aléatoire. Soit G ⊂ F une sous-tribu.
Alors, il existe une unique variable aléatoire Y ∈ L2 (Ω, G, P) vérifiant ∀U ∈ L2 (Ω, G, P), E(XU ) = E(Y U ).

Démonstration : H = L2 (Ω, F, P) est un espace de Hilbert, de produit scalaire hX, Y i = Ω XY dP = E(XY ).


R

A = L2 (Ω, G, P) est un sous-espace vectoriel fermé de H, on peut donc définir la projection orthogonale sur A.
Ainsi, il existe un unique Y ∈ A tel que ∀U ∈ A, hX − Y, U i = 0 ⇒ ∀U ∈ A, E(XU ) = E(Y U ).

Définition
La variable aléatoire Y définie précédemment est appelée espérance conditionnelle de X sachant G.
Elle est notée E(X|G).

Proposition

Soit (Ω, F, P) un espace probabilisé et G ⊂ F une sous-tribu. Alors :


• L’application X 7→ E(X|G) est linéaire dans L1 (Ω, F, P).
• X ≥ 0 p.s. ⇒ E(X|G) ≥ 0 p.s.
• E(E(X|G)) = E(X).

Remarque : Cette proposition et un argument de densité permettent d’étendre la définition de E(X|G) à L1 .

Définition

Soit (Ω, F, P) un espace probabilisé et X : Ω → R une variable aléatoire. Soit G ⊂ F une sous-tribu.
La variable aléatoire Y ∈ L1 (Ω, G, P) vérifiant pour toute variable aléatoire U G-mesurable et bornée, E(XU ) =
E(Y U ) est appelée espérance conditionnelle de X sachant G. Elle est notée E(X|G).
R R
Remarque : Cela équivaut à vérifier ∀A ∈ G, A
XdP = A
Y dP.

Proposition

Soit (Ω, F, P) un espace probabilisé et G ⊂ F une sous-tribu. Alors :


• L’application X 7→ E(X|G) est linéaire dans L1 (Ω, F, P).
• X ≥ 0 p.s. ⇒ E(X|G) ≥ 0 p.s.
• E(E(X|G)) = E(X).
• J ⊂ G ⊂ F ⇒ E(E(X|G)|J ) = E(X|J ).

Proposition

Soit X et Y des variables aléatoires réelles sur (Ω, F, P), et G ⊂ F une sous-tribu. On suppose que X est
G-mesurable. Si X, Y et XY sont intégrables (ou positives), alors E(XY |G) = XE(Y |G).

Proposition (Inégalité de Jensen)

Soit (Ω, F, P) un espace probabilisé, G ⊂ F une sous-tribu et φ : R → R convexe. Si X et φ(X) sont intégrables,
alors φ(E(X|G)) ≤ E(φ(X)|G)

Exemple : On considère (Ω, F, P) = (R, B(R), U([0, 1]) et X : R → R définie par :



 0 si ω < 0
X = ω 7→ 1 − ω si ω ∈ [0, 1]
0 si ω > 1

69
On pose G = σ({[ 2i , i+12 ], i ∈ Z}). On remarque R X n’est pas G-mesurable. On cherche à déterminer E(X|G), qui
que
doit être L1 (Ω, G, P) et vérifier ∀A ∈ G, A XdP = A E(X|G)dP). Puisque E(X|G) doit être G-mesurable, elle doit être
R

constante sur les intervalles de la forme [ 2i , i+1


2 ]. En calculant l’intégrale de X sur chacun de ces intervalles, on trouve
alors que : 
 03 si ω < 0 1

si ω ∈ [0, 2 ]

E(X|G) = ω 7→ 4
1
si ω ∈] 12 , 1]
 4


0 si ω > 1
Pour J = {∅, Ω}, on a E(X|J ) = ω 7→ 21 . Puisque X ∈ L1 (Ω, F, P), on a E(X|F) = X.

Théorème

Soit (Ω, F, P) un espace probabilisé et X : Ω → R une variable aléatoire intégrable (ou positive). Alors :

E(X|G) = X ⇔ X est G-mesurable

Proposition

Soit X : (Ω, F, P) → (E, E) une variable aléatoire et B ∈ F tel que P(B) > 0 et P(Ω\B) > 0. Alors, E(X|σ(B))
est la variable aléatoire
E(X1B ) E(X1Ω\B )
1B + 1Ω\B
P(B) 1 − P(B)

Démonstration : σ(B) = {∅, B, Ω\B, Ω}. Soit ω1 ∈ B et x1 = E(X|G)(ω1 ). Puisque E(X|G) est mesurable, alors
E(X|G)−1 (x1 ) ∈ σ(B) soit, puisque cet ensemble est non vide, différent de Ω (la mesure de Ω\B est non nulle) et
contient ω1 ∈ B, E(X|G)−1 (x1 ) = B. De même, si ω2 ∈ Ω\B et x2 = E(X|G)(ω2 ), alors E(X|G)−1 (x2 ) = Ω\B. Donc,
B)
E(X|G) = x1 1B + x2 1Ω\B . Or, E(X1B ) = E((x1 1B + x2 1Ω\B )1B ) = x1 E(1B ) = x1 P(B) soit x1 = E(X1
P(B) et de même,
E(X1Ω\B )
x2 = P(Ω\B) , ce qui donne le résultat attendu.

Définition

Soit B ∈ F tel que P(B) > 0 et P(Ω\B) > 0.


On appelle espérance conditionnelle de X sachant B, et on note E(X|B), le réel :

E(X1B )
E(X|B) =
P(B)

Remarque : E(X) = E(E(X|σ(B))) = E(E(X|B)1B + E(X|Ω\B)1Ω\B ) = E(X|B)P(B) + E(X|Ω\B)P(Ω\B).

Définition

Soit X : (Ω, F, P) → R) et Y : (Ω, F, P) → (E, E) deux variables aléatoires.


On appelle espérance conditionnelle de X sachant Y la variable aléatoire E(X|σ(Y )). On la note E(X|Y ).
De manière analogue, on notera E(X|Y1 , ..., Yn ) = E(X|σ(Y1 , ..., Yn )).

Théorème

Soit X : (Ω, F, P) → R) et Y : (Ω, F, P) → (E, E) deux variables aléatoires.


Il existe une application borélienne h : E → R telle que E(X|Y ) = h(Y ).

Proposition

Soit (Ω, F, P) un espace probabilisé et (X, Y ) : Ω R→ R2 un vecteur aléatoire admettant une densité f(X,Y ) . On
suppose que X ∈ L1 (Ω, F, P) et ∀y ∈ R, fY (y) = R f(X,Y ) (x, y)λ(dx) > 0. On pose :
Z
fX,Y (x, y)
fX|Y =y (x) = et h(y) = xfX|Y =y (x)λ(dx)
fY (y) R

Alors, E(X|Y ) = h(Y ).

70
Proposition

Soit (Ω, F, P) un espace probabilisé et (Xn )n∈N une suite de variables aléatoires. Alors :
p.s. p.s.
Xn −→ X et ∀n ∈ N, Xn ≥ 0 ⇒ E(Xn |G) −→ E(X|G) (convergence monotone)
p.s.
Xn −→ X ⇒ E(lim inf Xn |G) ≤ lim inf E(X|G) p.s. (lemme de Fatou)
p.s. p.s.
Xn −→ X et ∃Z ∈ L1 (Ω, F, P), ∀n ∈ N, |Xn | ≤ Z ⇒ E(Xn |G) −→ E(X|G) (convergence dominée)

Définition

Soit (Ω, F, P) un espace probabilisé et A ∈ F. Soit G ⊂ F une sous-tribu.


On appelle probabilité conditionnelle de A sachant G, et on note P(A|G), la variable aléatoire :

P(A|G) = E(1A |G)

Remarque : Pour B ∈ F, alors :

E(1A 1B ) E(1A 1Ω\B ) P(A ∩ B) P(A ∩ (Ω\B))


P(A|σ(B)) = 1B + 1Ω\B = 1B + 1Ω\B = P(A|B)1B + P(A|(Ω\B))1Ω\B .
P(B) P(Ω\B) P(B) P(Ω\B)

Section XII.2 - Processus stochastiques

Définition

Soit (Ω, F, P) un espace probabilisé et (E, E) un espace mesuré. On appelle processus stochastique (ou
processus aléatoire) toute collection de variables aléatoires (Xt )t∈T sur (Ω, F, P) à valeurs dans E.
On le note X = {Xt , t ∈ T }. Lorsque T = N, le processus est dit discret.

Définition

Un processus stochastique discret (Sn )n∈N est appelé marche aléatoire à un paramètre si ses accroissements
Xn = Sn − Sn−1 pour n ≥ 1 sont indépendants et identiquement distribués.

Définition

Soit (Ω, F, P) un espace probabilisé. On appelle filtration toute suite croissante (Fn )n∈N de sous-tribus de F.

Définition

On dit qu’un processus stochastique discret X = {Xn , n ∈ N} est adapté à la filtration F si pour tout
n ∈ N, Xn est Fn -mesurable.

Exemple : Soit X = {Xn , n ∈ N}. La filtration (Fn )n∈N définie par Fn = σ(Xk , k ∈ [[1, n]]) est adaptée au processus
X. On l’appelle filtration naturelle de X.

Définition

Un processus discret X est appelé une martingale par rapport à la filtration (Fn )n∈N ssi le processus est
adapté à la filtration, pour tout n ∈ N, Xn ∈ L1 (Ω, F, P) et pour tout n ∈ N, Xn = E(Xn+1 |Fn ) p.s. (∗)
En remplaçant (∗) par Xn ≤ E(Xn+1 |Fn ) p.s., on l’appelle une sous-martingale.
En remplaçant (∗) par Xn ≥ E(Xn+1 |Fn ) p.s., on l’appelle une sur-martingale.

Proposition

Si X est une martingale, alors ∀n ∈ N, E(Xn ) = E(X0 ).

Démonstration : Pour n ∈ N, E(Xn ) = E(E(Xn+1 |Fn )) = E(Xn+1 ), et on conclut par récurrence.

71
Définition

Un processus X adapté à une filtration (Fn )n∈N est prévisible si ∀n ∈ N, Xn est Fn+1 -mesurable.

Proposition

Soit S une martingale et C un processus prévisible et borné. Alors, le processus stochastique ((C · S)n )n∈N
défini par : 
(C · S)0 = 0 Pn
∀n ∈ N∗ , (C · S)n = k=1 Ck (Sn − Sn−1 )
est une martingale.

Définition
On appelle C · S la transformée de la martingale S par le processus C.

72

Vous aimerez peut-être aussi