Poly de CIP

Sommaire
Chapitre I. Topologie, Convergence 2

I.1 - Espaces métriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
I.2 - Espaces vectoriels normés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
I.3 - Espaces topologiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Chapitre II. Espaces de Hilbert, Séries de Fourier 8

II.1 - Produit scalaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
II.2 - Espaces de Hilbert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
II.3 - Séries de Fourier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
Chapitre III. Mesurabilité 13

III.1 - Tribus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
III.2 - Mesures . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
Chapitre IV. Intégration 18

IV.1 - Intégrale par rapport à une mesure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
IV.2 - Intégrale de Lebesgue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
IV.3 - Mesure de densité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
Chapitre V. Espaces Lp 26
V.1 - Relations d’équivalence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
V.2 - Construction de l’e.v.n. Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
V.3 - Propriétés de l’e.v.n. Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
V.4 - L’espace L2C . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
Chapitre VI. Introduction aux probabilités 33

VI.1 - Mesure de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
VI.2 - Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
VI.3 - Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
VI.4 - Moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
VI.5 - Fonction de répartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
VI.6 - Quelques lois remarquables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
Chapitre VII. Mesure produit, Convolution 41

VII.1 - Espace produit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
VII.2 - Intégrales multiples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
VII.3 - Indépendance des variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
VII.4 - Convolution . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Chapitre VIII. Vecteurs aléatoires 50

VIII.1 - Fonctions de répartition, Copules . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
VIII.2 - Moments, Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
Chapitre IX. Transformée de Fourier, Fonction caractéristique 55

IX.1 - Transformée de Fourier d’une mesure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
IX.2 - Transformée de Fourier d’une fonction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
IX.3 - Fonction caractéristique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
Chapitre X. Vecteurs Gaussiens 62

X.1 - Définition d’un vecteur gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
X.2 - Caractérisation d’un vecteur gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
X.3 - Loi d’un vecteur gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
Chapitre XI. Convergence de variables aléatoires 64

XI.1 - Les différents modes de convergence d’une v.a. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
XI.2 - Lois des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
XI.3 - Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
XI.4 - Théorème Central Limite (TCL) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
Chapitre XII. Introduction aux processus stochastiques 69

XII.1 - Espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
XII.2 - Processus stochastiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
1
Chapitre I. Topologie, Convergence
Section I.1 - Espaces métriques
Définition
Soit E un ensemble et d : E × E → R+ une fonction.

d est une distance sur E ssi :
1. ∀(x, y) ∈ E × E, d(x, y) = 0 ⇔ x = y
2. ∀(x, y) ∈ E × E, d(x, y) = d(y, x)
3. ∀(x, y, z) ∈ E × E × E, d(x, z) ≤ d(x, y) + d(y, z)
On dit alors que (E, d) est un espace métrique.
Exemples : Sur n’importe quel ensemble E, on peut définir une distance : la distance triviale, pour laquelle d(x, y) = 0
si x = y et d(x, y) = 1 sinon.
Pn 1
Sur Rn , on note dp (X, Y ) = ( i=1 |yi − xi |p ) p .
Sur C([0, 1], R), d(f, g) = sup |g(x) − f (x)| définit une distance.
x∈[0,1]
Définition
Soit (E, d) un espace métrique et l ∈ E.

(un ) tend vers l ssi ∀ > 0, ∃N ∈ N, n ≥ N ⇒ d(un , l) < .
Remarque : R peut être muni de distances différentes, qui peuvent mener à des convergences différentes. La suite
un = n1 tend vers 0 avec les distances dp , mais pas avec la distance triviale.
Définition
Soit (E, d) un espace métrique, a ∈ E et r ≥ 0.

La boule ouverte centrée en a de rayon r est :
B(a, r) = {x ∈ E|d(x, a) < r}
Proposition
Soit (E, d) un espace métrique.

(un ) tend vers l ssi ∀ > 0, ∃N ∈ N, n ≥ N ⇒ un ∈ B(l, )
Définition
Soit E un ensemble, da et db deux distances sur E.
On dit que da est plus fine que db si ∃C > 0, db ≤ Cda .
Si da est plus fine que db et db est plus fine que da , alors on dit que da et db sont équivalentes.
Exemple : Sur Rn , toutes les distances dp sont équivalentes.
Définition
Soit E un ensemble, A ⊂ E non vide et x ∈ E. La distance du point x à A est :
d(x, A) = inf{d(x, a), a ∈ A}
2
Définition
Soit (un ) une suite réelle majorée.

On définit sa limite supérieure par :
lim sup un = lim sup um

n→+∞ n→+∞ m≥n
Soit (un ) une suite réelle minorée.

On définit sa limite inférieure par :
lim inf un = lim inf um

n→+∞ n→+∞ m≥n
Remarque : Si (un ) converge, limite, limite supérieure et limite inférieure sont des quantités égales.
Définition
Une suite (un ) est de Cauchy si :
∀ > 0, ∃N ∈ N, ∀(p, q) ∈ N2 , q > p > N ⇒ d(uq , up ) <
Proposition
Toute suite convergente est de Cauchy.

√
b 210n c
Remarque : La réciproque est fausse : la suite de Q définie par un = 10n ne converge pas dans Q, mais est de
Cauchy car si q > p > N alors |uq − up | < 101N .
Définition
Soit E un ensemble. On dit que E est complet si toute suite de Cauchy de E converge.
Théorème
R est complet.
R1
Exemple : C([0, 1], R) muni de la distance d(f, g) = 0 |g(x) − f (x)|dx n’est pas complet. En effet, la suite de fonctions
définies par :
si x < 21 − n1

 0
n
fn (x) = x + 2 − 4 si 21 − n1 ≤ x ≤ 12 + n1
1 n
 2
1 si x > 12 + n1
1 1
vérifie, pour q > p, d(fq , fp ) = 2p − 2q , et est donc de Cauchy, mais ne converge pas dans C([0, 1], R).
Section I.2 - Espaces vectoriels normés
Définition
Soit E un espace vectoriel et N : E × E → R+ une fonction.

N est une norme sur E ssi :
1. ∀x ∈ E, N (x) = 0 ⇔ x = 0
2. ∀x ∈ E, λ ∈ R, N (λx) = |λ|N (x)
3. ∀(x, y) ∈ E × E, N (x + y) ≤ N (x) + N (y)
On dit alors que (E, d) est un espace vectoriel normé.
Exemple : Soit p ∈ [1, +∞[.

Pn 1
Sur Rn , on définit la norme Np (f ) = ( i=1 |xi |p ) p .
R1 1
Sur C([0, 1], R), on définit la norme Np (f ) = ( 0 |f (x)|p dx) p .
3
Proposition
Soit (E, N ) un espace vectoriel normé.

d(x, y) = N (x − y) est une distance sur E, appelée distance induite par N .
Remarque : Toute distance n’est pas forcément induite par une norme ; par exemple, la distance triviale ne l’est jamais.
Définition
Soit E un espace vectoriel, Na et Nb deux normes sur E.
On dit que Na est plus fine que Nb si ∃C > 0, Nb ≤ CNa .
Si Na est plus fine que Nb et Nb est plus fine que Na , alors on dit que Na et Nb sont équivalentes.
Proposition
La relation ”être plus fine que” est réflexive et transitive. On dit que c’est un pré-ordre et on note Nb 4 Na .
Théorème
Soit (E, N ) un espace vectoriel sur R ou C.

E est de dimension finie ssi toutes ses normes sont équivalentes.
Définition
Soit (E, N ) un espace vectoriel normé, a ∈ E et r ≥ 0.

La boule ouverte centrée en a de rayon r est :
B(a, r) = {x ∈ E|N (x − a) < r}
Proposition
Deux normes sont équivalentes si et seulement si leurs boules unité peuvent être incluses l’une dans l’autre
après application d’une homothétie.
Définition
Soit (E, N ) un espace métrique et l ∈ E.

(un ) tend vers l ssi ∀ > 0, ∃N ∈ N, n ≥ N ⇒ N (un − l) < .
Définition
On appelle espace de Banach tout espace vectoriel normé complet.
Exemples : C([0, 1], R) muni de Np est un espace vectoriel normé, mais pas un espace de Banach.
R3 est un espace de Banach (peu importe la norme choisie : cf. proposition suivante)
Proposition
Deux normes équivalentes conduisent à la même convergence.
Remarque : En dimension infinie, il faut toujours préciser la norme lorsque l’on parle de convergence. Par exemple
dans C([0, 1], R), la suite de fonctions définies par :
1 − nx si 0 ≤ x ≤ n1

fn (x) =
0 si n1 ≤ x ≤ 1
1
converge vers 0 pour N1 (car N1 (fn ) = n) mais converge vers 1 pour N∞ (car N∞ (fn ) = 1).
4
Section I.3 - Espaces topologiques
Définition
Soit E un ensemble. T est une topologie sur E ssi :
1. ∅ ∈ T et E ∈ T .
2. Toute union d’éléments de T est dans T .
3. Toute intersection finie d’élements de T est dans T .
(E, T ) est alors un espace topologique et les éléments de T sont appelés les ouverts.
Exemples : Pour E = {1, 2, 3, 4, 5}, T = {∅, {1, 2}, {3, 4}, {1, 2, 3, 4}, E} est une topologie.
Pour E un ensemble quelconque, les topologies T = {∅, E} et T = P(E) sont toujours des topologies sur E, qu’on
appelle respectivement topologie grossière et topologie discrète.
Définition
Soit Ta et Tb deux topologies sur E. On dit que Tb est plus fine que Ta si Ta ⊂ Tb .
On dit alors que Ta est plus grossière que Tb .
Définition
Soit (E, T ) un espace topologique. X ⊂ E est un fermé si E\X est un ouvert.
Définition
Soit (E, T ) un espace topologique et x ∈ E. On dit que V ⊂ E est un voisinage de x si ∃U ∈ T tel que x ∈ U
et U ⊂ V .
On note V(x) l’ensemble des voisinages de x.
On appelle base de voisinages de x toute partie B ⊂ V(x) telle que ∀V ∈ V(x), ∃B ∈ B, B ⊂ V .
Remarque : Si Ta et Tb sont deux topologies sur E telles que Tb est plus fine que Ta , alors tout voisinage de x pour Ta
sera un voisinage de x pour Tb .
Proposition
Soit (E, T ) un espace topologique.

U ⊂ E est un ouvert ssi il est voisinage de chacun de ses points.
Démonstration : Si U est un ouvert, alors pour chaque point x de U , on a x ∈ U ⊂ U et donc U est voisinage de
chacun de ses points.
Réciproquement, si U est voisinage de chacun de ses points, alors pour tout x de U , on choisit un ouvert Ax qui
contient x inclus dans U . Alors, A = ∪x∈U Ax est un ouvert (union d’ouverts), tel que U ⊂ A car tous les éléments de
x sont dans A et A ⊂ U car chaque Ax est inclus dans U . On a donc U = A ouvert.
Proposition
Soit (E, d) un espace métrique.

T = {unions de B(x, r), x ∈ E, r > 0} est une topologie sur E, on parle de topologie induite par la distance.
Démonstration : Vérifions que l’on a effectivement une topologie.

• ∅ = B(0, 0) ∈ T et E = ∪r≥0 B(0, r) ∈ T .
• T est par définition stable par union.
• Soit U, V ∈ T . On écrit U = ∪i∈I B(xi , ri ) et V = ∪j∈J B(xj , rj ). Alors U ∩ V = ∪(i,j)∈I×J (B(xi , ri ) ∩ B(xj , rj )).
Soit B(xi , ri ) ∩ B(xj , rj ) est vide, et alors c’est un ouvert, soit elle est non vide et alors on considère, pour tout
z ∈ B(xi , ri ) ∩ B(xj , rj ), ρz = min(ri − d(z, xi ), rj − d(z, xj )) de sorte que B(z, ρz ) ⊂ B(xi , ri ) ∩ B(xj , rj ). On a alors
∪z∈B(xi ,ri )∩B(xj ,rj ) B(z, ρz ) ⊂ B(xi , ri ) ∩ B(xj , rj ), et puisque B(xi , ri ) ∩ B(xj , rj ) ⊂ ∪z∈B(xi ,ri )∩B(xj ,rj ) B(z, ρz ), on
en déduit que B(xi , ri ) ∩ B(xj , rj ) = ∪z∈B(xi ,ri )∩B(xj ,rj ) B(z, ρz ). Donc B(xi , ri ) ∩ B(xj , rj ) est un ouvert, et on étend
le résultat par récurrence à une intersection finie, ce qui conclut.
Exemple : La topologie induite par la distance triviale est la topologie discrète.
5
Remarque : Si da et db sont deux distances sur E telles que db est plus fine que da , alors la topologie induite par db
est plus fine que la topologique induite par da .
Définition
Sur R, la distance d(x, y) = |y − x| induit la topologie suivante : T = {unions d’intervalles ouverts}.

On l’appelle la topologie usuelle de R.
Définition
Soit (E, T ) un espace topologique et l ∈ E.

(un ) tend vers l ssi ∀V ∈ V(l), ∃N ∈ N, n ≥ N ⇒ un ∈ V .
Remarque : Dans les espaces métriques, on peut prendre V = B(l, ), ce qui nous ramène à la définition de la conver-
gence dans un espace métrique.
Définition
Un espace topologique E est dit de Hausdorff (ou T2 ) si :
∀(x, y) ∈ E 2 , x 6= y, ∃U ∈ V(x), ∃V ∈ V(y), U ∩ V = ∅
Proposition
Dans un espace de Hausdorff, la limite, si elle existe, est unique.
Démonstration : Soit (un )n∈N une suite d’un espace de Hausdorff et l sa limite. Supposons par l’absurde que l0 6= l
soit une autre limite de (un )n∈N . Alors il existe U ∈ V(l) et V ∈ V(l0 ) tel que U ∩ V = ∅. Or par définition de la
limite, il existe N ∈ N tel que uN ∈ U et uN ∈ V , d’où la contradiction.
Proposition
Toute topologie induite par une distance est de Hausdorff.
Démonstration : Soit x et y deux points de l’espace topologique. En posant U = B(x, d(x,y)

2 ) et V = B(y,
d(x,y)
2 ), on
a U ∈ V(x), V ∈ V(y) et U ∩ V = ∅.
Définition
Soit (E, TE ) et (F, TF ) deux espaces topologiques.

Une fonction f : E → F est continue ssi ∀U ∈ TF , f −1 (U ) ∈ TE .
Proposition
Soit (E, TE ) et (F, TF ) deux espaces topologiques, f : E → F une fonction continue et (un )n∈N une suite
d’éléments de E convergente vers l.
Alors lim f (un ) = f (l).
n→+∞
Démonstration : Soit W un voisinage de f (l). Il existe un ouvert U tel que f (l) ∈ U et U ⊂ W . On a alors l ∈ f −1 (U ),
f −1 (U ) ⊂ f −1 (W ) et f −1 (U ) ouvert car f est continue et U ouvert. Ainsi, f −1 (W ) est un voisinage de l. Or (un )n∈N
converge vers l, donc ∃N ∈ N, n ≥ N ⇒ un ∈ f −1 (W ) ⇒ f (un ) ∈ W . Ceci vaut quelque soit le voisinage de f (l)
considéré, et donc on conclut que f (un ) tend vers f (l).
Définition
Soit (E, TE ) un espace topologique.

K ∈ E non vide est compact ssi pour tout recouvrement de K par des ouverts, on peut extraire un sous-
recouvrement fini.
1 1
Exemple : Pour E = R avec la topologie usuelle, N n’est pas compact : en considérant Ui =]i − 10 , i + 10 [, on a bien
N ⊂ ∪i∈N Ui mais on ne peut pas trouver de sous-recouvrement fini de N. (enlever un des Ui ne recouvre plus N)
6
Théorème (Borel-Lebesgue)
Lorsque E = Rn est muni de la topologie usuelle, les compacts sont les fermés bornés.
Théorème (Bolzano-Weierstrass)
Soit E un espace topologique métrisable (dont la topologie est induite par une distance).
K ⊂ E est compact ssi toute suite d’éléments de K admet une sous-suite convergente (dans K).
Définition
Soit (E, TE ) un espace topologique, A ⊂ E et x ∈ E.

On dit que x est adhérent à A ssi ∀V ∈ V(x), V ∩ A 6= ∅.
On dit que x est un point isolé de A ssi ∃V ∈ V(x), V ∩ A = {x}.
On dit que x est un point d’accumulation de A ssi ∀V ∈ V(x), V ∩ A\{x} =
6 ∅
Définition
Soit (E, TE ) un espace topologique et D ⊂ E.

On dit que D est discret ssi tout point de D est isolé.
Définition

On appelle adhérence de A, et on note A, l’ensemble des points adhérents à A.
Définition
Soit (E, TE ) un espace topologique et (un ) une suite de E.

On dit que a ∈ E est une valeur d’adhérence de (un ) si ∀N ∈ N, a ∈ {un , n ≥ N }.
Définition
Soit (un ) une suite majorée (resp. minorée).

lim inf un (resp. lim sup un ) est la plus petite (resp. plus grande) valeur d’adhérence de (un ).
Remarque : Dans le cas réel, la définition donnée ci-dessus coincide bien avec celle donnée au début du chapitre.
Définition

On dit que A est dense dans E si A = E.
Exemple : Pour la topologie usuelle, Q est dense dans R.
Définition
Soit (E, TE ) un espace topologique, A ⊂ E

◦
On appelle intérieur de A, et on note A, l’ensemble des points dont A est le voisinage.
Proposition
A est le plus petit fermé contenant A.

◦
A est le plus grand ouvert contenu dans A.
Définition
Soit (E, TE ) un espace topologique, A ⊂ E

◦
On appelle frontière de A, et on note ∂A, l’ensemble A\A.
7
Chapitre II. Espaces de Hilbert, Séries de Fourier
Section II.1 - Produit scalaire
Définition
Soit E un espace vectoriel sur C.
On dit que φ : E × E → C est une forme sesquilinéaire si :

φ(x + λz, y) = φ(x, y) + λφ(z, y)
∀(x, y, z) ∈ E × E × E, ∀λ ∈ C,
φ(x, y + λz) = φ(x, y) + λφ(x, z)
On dit alors que cette forme est :

• hermitienne ssi ∀(x, y) ∈ E × E, φ(x, y) = φ(y, x)
• positive ssi ∀x ∈ E, φ(x, x) ∈ R+
• définie ssi φ(x, x) = 0 ⇒ x = 0.
Définition
Soit E un espace vectoriel sur C.
On appelle produit scalaire sur E toute forme sesquilinéaire φ hermitienne définie positive.
On dit alors que (E, φ) est un espace préhilbertien.
Lorsque E est de dimension finie, on dit que (E, φ) est un espace hermitien.
Exemples : C2 muni de φ : (x, y) 7→ 2x1 y1 + x2 y2 est un espace hermitien.

R1
C([0, 1], C) muni de φ : (f, g) 7→ 0 f (x)g(x)dx est un espace préhilbertien.
Proposition (Identité du parallélogramme)
Soit E un espace préhilbertien et x, y ∈ E. Alors :
||x + y||2 + ||x − y||2 = 2||x||2 + 2||y||2
Proposition (Pythagore)
x ⊥ y ⇒ ||x + y||2 = ||x||2 + ||y 2 ||
Remarque : On veillera bien au fait que dans C, il n’y a qu’une implication.
Proposition (Identité de polarisation)

1
hx, yi = (||x + y||2 + i||x + iy||2 − ||x − y||2 − i||x − iy||2 )
4
Section II.2 - Espaces de Hilbert
Définition
On appelle espace de Hilbert tout espace préhilbertien complet.
P+∞
Exemples : l2 = {(un )n∈N | u2n converge} muni de h(un )n∈N , (vn )n∈N i = n=0 un vn est un espace de Hilbert.
P
R n≥0
1
C([0, 1], C) muni de hf, gi = 0 f (x)g(x)dx n’est pas un espace de Hilbert (car non complet)
8
Définition
Soit H un espace de Hilbert.
On dit que {ei }i∈I est une base hilbertienne de H ssi :
• ∀(i, j) ∈ I × I, hei , ej i = δij
• Vect{ei , i ∈ I} = H
Remarque : Une base hilbertienne est donc une base orthonormale totale.
Définition
On dit qu’un espace de Hilbert H est séparable s’il existe E ⊂ H dénombrable et dense dans H.
Proposition
Tout espace de Hilbert séparable admet une base hilbertienne au plus dénombrable.
Démonstration : Soit (vn )n∈N une suite d’éléments de H telle que {vn , n ∈ N} = H. Pour N ∈ N , on note FN =
Vect({vn , n ∈ [[1, n]]}) ; la suite (FN )N ∈N est une suite croissante d’espaces vectoriels de dimension finie. On construit
alors une base orthonormée pour F1 , qu’on complète pour F2 ... etc, ce qui conclut puisque ∪N ∈N FN est dense dans
H.
Exemple : Une base hilbertienne de l2 est {(uin )n∈N , i ∈ N} où uin = δi,n .
Théorème (Projection sur un convexe fermé)
Soit H un espace de Hilbert et A ⊂ H un convexe fermé non vide.

Pour tout x dans H, il existe un unique x0 ∈ A tel que d(x, x0 ) = min d(x, a).
a∈A
On note alors x0 = PA (x), qu’on appelle projection orthogonale de x sur A.
De plus, x0 = PA (x) ⇔ ∀u ∈ A, hx − x0 , u − x0 i ≤ 0.
Remarque : Dans le cas complexe, on aurait ∀u ∈ A, Re(hx − x0 , u − x0 i) ≤ 0.
Démonstration : On a défini d(x, A) = inf a∈A d(x, a). Soit (un )n∈N une suite de A telle que (dn )n∈N définie par
dn = d(x, un ) soit décroissante et tende vers d(x, A) (on dit que (dn )n∈N est une suite minimisante). On va montrer
que (un )n∈N est de Cauchy.
Soit > 0 et q > p deux entiers. On applique l’inégalité du parallélogramme avec x − up et x − uq :
||(x − up ) + (x − uq )||2 + ||(x − up ) − (x − uq )||2 = 2||x − up ||2 + 2||x − uq ||2

up + uq 2
⇔ ||uq − up ||2 = 2||x − up ||2 + 2||x − uq ||2 − 4||x − ||
2
up +uq
Or A est convexe donc 2 ∈ A ; on a donc
||uq − up ||2 ≤ 2d(x, up )2 + 2d(x, uq )2 − 4d(x, A)2
⇔ ||uq − up ||2 ≤ 2(d(x, up )2 − d(x, A)2 ) + 2(d(x, uq )2 − d(x, A)2 )

Or dp et dq tendent vers d(x, A) ; on peut donc écrire qu’il existe N1 ∈ N tel que p ≥ N1 ⇒ d2p − d(x, A)2 < et
N2 ∈ N tel que q ≥ N2 ⇒ d2q − d(x, A)2 < . Alors, pour q > p > N = max(N1 , N2 ), on a ||uq − up ||2 < 4, et on en
déduit que (un )n∈N est de Cauchy. Puisque (un )n∈N est une suite de Cauchy d’un ensemble fermé et complet, on sait
qu’il existe x0 ∈ A tel que lim un = x0 . D’où d(x, A) = inf d(x, a) = min d(x, a) = d(x, x0 ).
n→+∞ a∈A a∈A
Soit u ∈ A et t ∈]0, 1]. On pose v = (1 − t)x0 + tu ∈ A. Alors :
||x − x0 || ≤ ||x − v|| = ||x − x0 + t(u − x0 )||
⇔ ||x − x0 ||2 ≤ h(x − x0 ) − t(u − x0 ), (x − x0 ) − t(u − x0 )i

⇔ ||x − x0 ||2 ≤ ||x − x0 ||2 − 2thx − x0 , u − x0 i + t2 ||u − x0 ||2
t
⇔ hx − x0 , u − x0 i ≤ ||u − x0 ||2
2
9
Lorsque t → 0, on obtient alors hx − x0 , u − x0 i ≤ 0.
Réciproquement, on suppose que ∀u ∈ A, hx − x0 , u − x0 i ≤ 0. On a alors 2hx − x0 , u − x0 i − ||x0 − u||2 ≤ 0. Or,
2hu−x0 , x−x0 i−||x0 −u||2 = h2x−2x0 , u−x0 i+hx0 −u, u−x0 i = h2x−x0 −u, u−x0 i = 2hx, ui−2hx, x0 i+||x0 ||2 −||u||2 =
(||x0 ||2 − 2hx, x0 i + ||x||2 ) − (||u||2 − 2hx, ui + ||x||2 ) = ||x0 − x||2 − ||x − u||2 . Ainsi, on a ||x0 − x||2 ≤ ||u − x||2 soit
d(x0 , x) ≤ d(u, x) : x0 est donc bien égal à PA (x), puisqu’il minimise la distance de x à A.
On termine par vérifier l’unicité de x0 : si il existe x1 ∈ A tel que ∀u ∈ A, hx−x1 , u−x1 i ≤ 0, alors hx−x1 , x0 −x1 i ≤ 0
et hx − x0 , x1 − x0 i ≤ 0 implique hx1 − x + x − x0 , x1 − x0 i = ||x1 − x0 ||2 ≤ 0, d’où x0 = x1 .
Proposition
Soit H un espace de Hilbert et A ⊂ H un convexe fermé non vide.

Soit x, y ∈ H, et x0 , y0 leurs projections orthogonales sur A respectives.
Alors ||x0 − y0 || ≤ ||x − y||.
Démonstration : ∀u ∈ A, hx−x0 , u−x0 i ≤ 0 et hy −y0 , u−y0 i ≤ 0. On a donc hx−x0 , y0 −x0 i ≤ 0 et hy −y0 , x0 −y0 i ≤
0 ⇒ hx − y + y0 − x0 , y0 − x0 i ≤ 0 ⇒ ||y0 − x0 ||2 ≤ hx − y, x0 − y0 i ≤ ||x − y||||x0 − y0 || ⇒ ||x0 − y0 || ≤ ||x − y||.
Remarque : En particulier, l’application PA est 1-lipschitzienne, donc continue.
Proposition
Soit H un espace de Hilbert et A ⊂ H un sev fermé. Soit x ∈ H.

Alors x0 = PA (x) ⇔ x0 ∈ A et ∀u ∈ A, hx − x0 , ui = 0
Démonstration : Supposons que x0 = PA (x), et soit u ∈ A. Puisque u + x0 ∈ A, on a hx − x0 , (u + x0 ) − x0 i ≤ 0 donc

hx − x0 , ui ≤ 0. Or −u ∈ A, donc on a aussi hx − x0 , −ui ≤ 0 soit hx − x0 , ui ≥ 0. Ainsi hx − x0 , ui = 0.
La réciproque est immédiate.
Proposition
Soit H un espace de Hilbert et A ⊂ H un sev fermé.

Alors PA est un opérateur linéaire.
Démonstration : Soit x, y ∈ H, λ ∈ R. ∀u ∈ A, hx − PA (x), ui = 0 et hy − PA (y), ui = 0. Donc ∀u ∈ A, hx + λy −

(PA (x) + λPA (y)), ui = 0, et on en déduit que PA (x) + λPA (y) = PA (x + λy).
Théorème (Parseval)
Soit H un espace de Hilbert séparable, et {en , x ∈ N} une base hilbertienne de H.

Pour tout x dans H, on a :
X+∞ +∞
X
x= hx, en ien et ||x||2 = |hx, en i|2
n=0 n=0
Démonstration : Soit N ∈ N et EN = Vect({en , n ∈ [[0, N ]]}). EN est un sev fermé de H, donc PEN est un opérateur
linéaire de H dans H. Soit x ∈ H, alors :
XN
PEN (x) = hx, en ien
n=0
N
X N
X
⇒ ||PEN (x)||2 = || hx, en ien ||2 = |hx, en i|2
n=0 n=0
PN
On remarque par ailleurs que hx, en ien i = |hx, en i|2 , et donc que hx, PEN (x)i = 2
n=0 |hx, en i| . On a alors
2
||PEN (x)|| = hx, PEN (x)i ≤ ||PEN (x)|| ||x||. Ainsi, pour tout x ∈ H, ||PEN (x)|| ≤ ||x||. On note désormais
F = ∪N ∈N EN , et on considère y ∈ H et > 0. F est dense dans H, donc il existe y 0 ∈ F tel que ||y − y 0 || < . Comme
y 0 ∈ F , on sait qu’il existe n0 tel que y 0 ∈ En0 ⇒ PEn0 (y 0 ) = y 0 . Alors : ||PEn0 (y)−y|| = ||PEn0 (y)−PEn0 (y 0 )−y+y 0 || ≤
||PEn0 (y − y 0 )|| + ||y − y 0 || ≤ 2||y − y 0 || ≤ 2. On conclut alors que y = lim PEN (y). En passant à la limite dans les
N →+∞
PN PN
égalités PEN (x) = n=0 hx, en ien et ||PEN (x)||2 = n=0 |hx, en i|2 , on obtient donc le résultat recherché.
10
Définition
Soit E un espace vectoriel.
On appelle dual algébrique de E l’ensemble des formes linéaires. On le note E ∗ .
Si de plus E est muni d’une topologie, on appelle dual topologique de E l’ensemble des formes linéaires
continues. On le note E 0 .
Remarque : Si E est de dimension finie, alors bien entendu E ∗ = E 0 .
Théorème (Représentation de Riesz)
Soit H un espace de Hilbert.

Pour tout φ ∈ H 0 , il existe un unique u ∈ H tel que φ = x 7→ hx, ui.
On a par ailleurs ||φ||H 0 = ||u||H .
Démonstration : Soit M = Ker φ. Si M = H, alors φ = 0 ; on peut donc prendre u = 0. Sinon, on suppose

z−PM (z)
M 6= H. Soit z ∈ H\M . On pose g = ||z−P M (z)||
puis u = φ(g)g.. On remarque qu’on a ||g|| = 1. Soit
φ(x)
x ∈ H ; on note λ = φ(g) et m = x − λg. Ainsi, x = λg + m avec g ∈ M ⊥ et m ∈ M (car φ(m) = 0).
hg, mi = 0 ⇒ hg, x − λgi = 0 ⇒ hg, xi = λhg, gi = λ = φ(x)
φ(g) . D’où φ(x) = hu, xi.
Pour l’unicité, si il existe v ∈ H tel que ∀x ∈ E, φ(x) = hx, ui = hx, vi, alors pour x = u − v, on a hu − v, u − vi = 0
soit u = v.
Remarque : L’application φ 7→ u est un isomorphisme isométrique ; on peut donc identifier H et H 0 , et on notera

(un peu abusivement) H = H 0 .
Définition
Soit E un espace vectoriel normé.
On appelle bidual de E le dual de son dual, c’est-à-dire E 00 .
Lorsque E = E 00 (au sens de l’identification), on dit que E est réflexif.
Proposition (Prolongement de H’ dans V’)
Soit H un espace de Hilbert, V ⊂ H un espace de Banach dense dans H.

Soit φ ∈ H 0 et u ∈ H sa représentation au sens du théorème de Riesz.
On définit T φ : V → R telle que T φ = (v 7→ hv, ui). T φ ∈ V 0 ; on peut donc définir T : H 0 → V 0 telle que
T = (φ 7→ T φ). T est linéaire, injective et continue, et T (H) est dense dans V 0 .
On dit qu’on a injecté H 0 dans V 0 . On identifie H et H 0 qu’on appelle espace pivot, et on écrira V ⊂ H =
H 0 ⊂ V 0 . (ou V ⊂ H ⊂ V 0 )
P+∞
Exemple : l1 = {(xn )n∈N , n=0 |un | < ∞} est un espace de Banach mais pas un espace de Hilbert, et l2 =
P+∞
{(xn )n∈N , n=0 u2n < ∞} est un espace de Hilbert. On admet ici que l1 ⊂ l2 et que l1 est dense dans l2 . Alors
en posant H = l2 et V =Pl1 , on a par ce qui précède V ⊂ H ⊂ V 0 . On a cependant pas V 0 = H 0 ; par exemple φ
+∞
définie par φ((un )n∈N ) = n=0 un appartient à V 0 , mais pas à H 0 .
11
Section II.3 - Séries de Fourier
Définition
Soit f : R → C continue par morceaux et 2π-périodique.
On appelle coefficient de Fourier de f les coordonnées de f dans la base hilbertienne {en : x 7→ einx , n ∈ Z}
avec le produit scalaire : Z π
1
hf, gi = f (x)g(x)dx
2π −π
On note ces coefficients cn et on a :

Z π
1
∀n ∈ Z, cn = f (x)e−inx dx
2π −π
inx
P
On appelle série de Fourier la série n∈Z cn e .
Définition
Soit f : R → C continue par morceaux et 2π-périodique.
On appelle coefficients de Fourier trigonométriques les coefficients an = cn + c−n et bn = i(cn − c−n ).
On a alors :
1 π 1 π
Z Z
an = f (x) cos(nx)dx et bn = f (x) sin(nx)dx
π −π π −π
P+∞
La série de Fourier s’écrit a20 + n=1 (an cos(nx) + bn sin(nx)).
Remarque : Cette écriture permet, lorsque f est à valeurs dans R, de ne travailler qu’avec des nombres réels.
Définition
Soit f une fonction continue par morceaux. On note f˜ la fonction définie pour tout x du domaine de f par :
(
f (x) si f est continue en x
f˜(x) = 1
(lim f + lim f ) sinon
2 − +
x x
Théorème (Dirichlet)
Soit f : R → C de classe C 1 par morceaux et 2π-périodique.

Alors la série de Fourier de f converge simplement vers f˜.
Si de plus f est continue, alors la convergence est normale.
12
Chapitre III. Mesurabilité
Section III.1 - Tribus
Définition
Soit E un ensemble.
On dit que E ⊂ P(E) est une tribu ssi :
1. ∅ ∈ E
2. E est stable par complémentarité (A ∈ E ⇒ E\A ∈ E)
3. E est stable par union dénombrable (∀n ∈ N, An ∈ E ⇒ ∪n∈N An ∈ E)
(E, E) est alors un espace mesurable, et les ensembles de E sont les ensembles mesurables.
Exemples : Pour E = {1, 2, 3, 4}, E = {∅, {1, 2}, {3, 4}, E} est une tribu.
Pour E = R, E = {∅, R−∗ , R+ , R} est une tribu. Par contre, l’ensemble des ouverts de R pour la topologie usuelle n’en
est pas une, car il n’est pas stable par complémentarité.
Pour E un ensemble quelconque, E = {∅, E} et E = P(E) sont toujours des tribus sur E, qu’on appelle respectivement
tribu grossière et tribu discrète.
Proposition
Soit (E, E) un espace mesurable. La définition d’une tribu entraı̂ne :

-E∈E
- La stabilité de E par différence ensembliste (A, B ∈ E ⇒ A\B ∈ E)
- La stabilité de E par intersection dénombrable (∀n ∈ N, An ∈ E ⇒ ∩n∈N An ∈ E)
Proposition
Soit E un ensemble, et (Ei )i∈I une famille de tribus sur E.

Alors ∩i∈I Ei est une tribu sur E.
Démonstration : 1. ∀i ∈ I, ∅ ∈ Ei ⇒ ∅ ∈ ∩i∈I Ei
2. Soit A ∈ ∩i∈I Ei . Alors ∀i ∈ I, A ∈ Ei ⇒ ∀i ∈ I, E\AEi ⇒ E\A ∈ ∩i∈I Ei .
3. Soit (An )n∈N des éléments de ∩i∈I Ei , alors ∀n ∈ N, ∀i ∈ I, An ∈ Ei ⇒ ∀i ∈ I, ∪n∈N An ∈ Ei ⇒ ∪n∈N An ∈ ∩i∈I Ei .
Définition
Soit E un ensemble, et C ⊂ P(E) une famille de sous-ensembles de E.

On appelle tribu engendrée par C, et on note σ(C), l’intersection de toutes les tribus de E contenant C.
Il s’agit de la plus petite tribu de E contenant C.
Exemple : Si E = {1, 2, 3, 4}, alors σ({1}) = {∅, {1}, {2, 3, 4}, E}.
Définition
Soit (E, T ) un espace topologique.

La tribu de Borel de (E, T ) est la tribu engendrée par T .
On note B(T ) = σ(T ). Lorsqu’il y a une topologie usuelle sur E, on note aussi B(E).
Les éléments de cette tribu sont appelés les boréliens.
Exemples : B(R) est la tribu engendrée par les intervalles ouverts. Elle contient les ouverts, les fermés donc les single-
tons, tous les ensembles dénombrables...
B(N) = P(N), la topologie usuelle sur N étant P(N).
13
Définition
On note R+ = [0, +∞] l’ensemble R+ ∪ {+∞}.

On peut définir une addition et une multiplication qui étend les opérations de R+ :
• ∀a ∈ R+ , a + (+∞) = +∞
• (+∞) + (+∞) = +∞
• ∀a ∈ R+∗ , a × (+∞) = +∞
• 0 × (+∞) = 0
• (+∞) × (+∞) = +∞
Définition
On munit R+ de la topologie obtenue par union des ensembles :

• ∀a, b ∈ R+ , ]a, b[
• ∀a ∈ R+ , ]a, +∞]
• ∀b ∈ R+ , [0, b[
Cette topologie s’appelle topologie de l’ordre.
Définition
Soit (E, E) et (F, F) deux espaces mesurables.

La fonction f : E → F est mesurable ssi f −1 (F) ⊂ E, c’est-à-dire si pour tout ensemble mesurable B inclus
dans F , son image réciproque {x ∈ E, f (x) ∈ B} est mesurable.
Proposition
Soit (E, E) un espace mesurable et A ⊂ E.

1A est mesurable ssi A est mesurable.
Démonstration : Si 1A est mesurable, alors 1−1

A ({1}) = A donc A est mesurable.
Réciproquement soit A mesurable, et soit B ∈ B(R). Il y a 4 cas à considérer :
• B ne contient ni 0 ni 1 ; alors 1−1
A (B) = ∅.
• B contient 1, mais pas 0, alors 1−1
A (B) = A
• B contient 0, mais pas 1, alors 1−1
A (B) = E\A
• B contient 0 et 1, alors 1−1
A (B) = E
Dans tous les cas 1−1
A (B) est mesurable, ce qui conclut.
Proposition
Soit (E, E) et (F, F) deux espaces mesurables avec F = σ(C) pour C ∈ P(F ).
f : E → F est mesurable ssi f −1 (C) ∈ E
Démonstration : Le sens direct est immédiat ; montrons la réciproque.

Vérifions que F 0 = {B ⊂ F, f −1 (B) ∈ E} est une tribu.
1. f −1 (∅) = ∅ ∈ E donc ∅ ∈ F 0 .
2. Soit B ∈ F 0 , alors f −1 (B) ∈ ⇒ E\f −1 (B) ∈ E ⇒ f −1 (F \B) ∈ E → F \B ∈ F 0 .
3. Soit (Bn )n∈N des éléments de F 0 , alors ∪n∈N f −1 (Bn ) ∈ E ⇒ f −1 (∪n∈N Bn ) ∈ E ⇒ ∪n∈N Bn ∈ F 0 .
Si C ⊂ F 0 , alors F = σ(C) ⊂ F 0 . Ainsi ∀B ∈ F, f −1 (B) ∈ . Donc f est mesurable.
Définition
Soit (E, T ) et (F, U) deux espaces topologiques, qu’on équipe de leurs tribus de Borel E = σ(T ) et F = σ(U).
On appelle fonction borélienne toute fonction mesurable f : (E, E) → (F, F).
Proposition
Toute fonction continue est borélienne.
Démonstration : Les ouverts engendrent la tribu, et l’image réciproque des ouverts sont des ouverts.
14
Proposition
Soit (E, E), (F, F) et (G, G) trois espaces mesurables.

Soit f : E → F et g : F → G deux fonctions mesurables. Alors g ◦ f est mesurable.
Proposition
Soit (E, E) un espace mesurable.

Soit f et g deux fonctions mesurables de E dans R, R+ ou R+ . Alors f + g, f g, max(f, g), min(f, g) et |f |
sont mesurables.
Soit (fn )n∈N des fonctions mesurables de E dans R, R+ ou R+ . Alors supn∈N fn , inf n∈N fn , lim supn→+∞ fn ,
P+∞
lim inf n→+∞ fn , limn→+∞ fn et n=0 fn sont mesurables lorsqu’elles existent.
Définition

Une fonction f : E → R est dite étagée ssi elle est mesurable et prend un nombre fini de valeurs.
Remarque : Une fonction est étagée si et seulement si elle est combinaison linéaire de fonctions indicatrices.
Théorème

Toute fonction mesurable f : E → R+ est la limite simple d’une suite croissante de fonctions étagées.
Section III.2 - Mesures
Définition

On dit que µ : E ⇒ [0, +∞] est une mesure ssi :
1. µ(∅) = 0 P+∞
2. Pour toute famille dénombrable (An )n∈N d’élements de E deux-à-deux disjoints, µ(∪n∈N An ) = n=0 µ(An )
(E, E, µ) est alors un espace mesuré.
Exemples : Pour E = N, E = P(N), on définit la mesure µ : E → [0, +∞] telle que pour A ⊂ N, on a :

Card(A) si A est fini
µ(A) =
+∞ sinon.
Cette mesure s’appelle mesure de comptage.

Pour E quelconque, E une tribu et x0 ∈ E, on définit la mesure µ : E → [0, +∞] telle que pour A ∈ E, µ(A) = 1A (x0 ).
Cette mesure s’appelle mesure de Dirac au point x0 , qu’on note δx0 .
Pour E = R3 , E = P(R3 ), on sait par le théorème de Banach-Tarski qu’il ne peut pas exister de mesure µ : E → [0, +∞]
qui généralise la notion de volumes.
Proposition
Soit (E, E, µ) un espace mesuré.

Soit A ∈ E et B ∈ E, alors :
• A ⊂ B ⇒ µ(A) ≤ µ(B)
• A ⊂ B et µ(B) < +∞ ⇒ µ(B\A) ≤ µ(B) − µ(A)
• µ(A ∪ B) = µ(A) + µ(B) − µ(A ∩ B)
Soit (An )n∈N Pune famille d’éléments de E, alors :
+∞
• µ(∪n∈N ) ≤ n=0 µ(An )
• An ⊂ An+1 ⇒ µ(∪n∈N An ) = limn→+∞ µ(An ) = supn∈N µ(An )
• An+1 ⊂ An et µ(A0 ) < +∞ ⇒ µ(∩n∈N An ) = limn∈N µ(An ) = inf n∈N µ(An )
15
Définition

Si µ(E) < +∞, on dit que µ est une mesure finie.
Si µ(E) = 1, on dit que µ est une mesure de probabilité.
Exemple : La mesure de Dirac est une mesure de probabilité. La mesure de comptage de N n’est pas une mesure finie.
Définition

x ∈ E est un atome si {x} ∈ E et µ({x}) > 0.
Si µ est sans atome, on dit que c’est une mesure diffuse.
Définition
Soit (E, E, µ) un espace mesuré. On dit que µ est discrète s’il existe une suite (ai )i∈I dans E, avec I au plus
dénombrable, telle que µ(E\ ∪i∈I {ai }) = 0.
Remarque : Si les singletons appartiennent à la tribu, alors µ se décompose comme une combinaison linéaire de mesures
de Dirac.
Définition

Si E est une réunion dénombrable d’ensembles de mesures finies, on dit que µ est σ-finie.
Exemple : La mesure de comptage est σ-finie sur N, mais pas sur R.

Définition

On dit que A ∈ E est négligeable si µ(A) = 0.
Lorsqu’une proposition logique est vraie, sauf sur un ensemble négligeable, on dit qu’elle est vraie presque
partout (p.p).
Définition

On dit que µ est une mesure complète si tout sous-ensemble d’un ensemble mesurable négligeable est lui-
même mesurable (et donc négligeable).
Remarque : Si µ n’est pas une mesure complète, on peut toujours ”compléter” E afin qu’elle le devienne : en con-
sidérant l’ensemble N = {S ⊂ E, ∃A ∈ E, µ(A) = 0, S ⊂ A}, la tribu complétée est E = σ(E ∪ N ). µ s’étend de
manière unique de E à E, et cette extension est une mesure complète.
Objectif : On cherche désormais à définir une mesure µ sur Rn telle que :

n
Y
µ([a1 , b1 ] × ... × [an , bn ]) = |bi − ai |
i=1
Nous n’y parviendrons pas sur la tribu P(R), et nous allons donc devoir accepter une tribu (légèrement) plus petite.
Définition
On définit l’application λ∗ pour A ∈ P(R) par :

( )
X [
∗
λ (A) = inf (bi − ai ), A ⊂ ]ai , bi [, ai ≤ bi
i∈N i∈N
16
Proposition
Soit M = {B ∈ P(R), ∀X ∈ P(R), λ∗ (B) = λ∗ (B ∩ X) + λ∗ (B\X)}.

Alors M est une tribu, et B(R) ⊂ M.
Proposition
La restriction de λ∗ à M est une mesure ; on la note λ et on l’appelle mesure de Lebesgue.

M = B(R) est le complété de la tribu de Borel, on l’appelle la tribu de Lebesgue.
Proposition
La mesure de Lebesgue λ a la propriété suivante :
∀A ∈ B(R), λ(A) = inf{λ(U ), A ⊂ U, U ouvert}
∀A ∈ B(R), λ(A) = sup{λ(K), K ⊂ A, K compact}

On dit qu’elle est régulière.
Démonstration : Soit A ∈ B(R). Clairement λ(A) ≤ inf{λ(U ), A ⊂ U, U ouvert}. Supposons λ(A) P < +∞ (le cas
échéant, c’est trivial). Pour tout > 0, il existe un recouvrement de A par des ]ai , bi [ tels que λ(A) ≥ i∈N (bi −ai )−.
En notant U = ∪i∈N ]ai , bi [, on a donc λ(A) ≥ λ(U ) − . Ainsi λ(A) ≥ inf{λ(U ), A ⊂ U, U ouvert}, puis λ(A) =
inf{λ(U ), A ⊂ U, U ouvert}.
Montrons la seconde proposition ; clairement λ(A) ≥ sup{λ(K), K ⊂ A, K compact}. On suppose d’abord qu’il existe
un compact C tel que A ⊂ C. Pour tout > 0, il existe U ouvert contenant C\A tel que λ(C\A) ≥ λ(U ) − . Or
C\U = (A ∪ (C\A))\U ⊂ (A ∪ (C\A))\(C\A) = A. On note donc K = C\U tel que K soit compact et inclus dans
A ; on a alors λ(K) = λ(C\U ) ≥ λ(C) − λ(U ) ≥ λ(C) − λ(C\A) − ≥ λ(A) − . En conclusion, pour tout > 0, il
existe un compact K tel que λ(K) ≥ λ(A) + , ce qui montre que λ(A) ≤ sup{λ(K), K ⊂ A, K compact} ⇒ λ(A) =
sup{λ(K), K ⊂ A, K compact}.
Supposons maintenant qu’il n’existe pas de compact C tel que A ⊂ C. On se ramène au cas précédent en faisant
entrer A ∩ [−n, n] dans un compact ; on a alors ∀n ∈ N∗ , λ(A ∩ [−n, n]) ≤ sup{λ(K), K ⊂ A ∩ [−n, n], K compact},
d’où le résultat en passant à la limite lorsque n → +∞.
Proposition
Soit µ une mesure sur Rd invariante par translations, et telle que 0 < µ(]0, 1[d ) < +∞.
Alors, µ est proportionnelle à la mesure de Lebesgue λ.
Remarque : La mesure de Lebesgue est elle-même invariante par translations, et telle que 0 < λ(]0, 1[d ) = 1 < +∞.
17
Chapitre IV. Intégration
Section IV.1 - Intégrale par rapport à une mesure
Définition
Soit (E, E) un espace mesurable, µ une mesure sur (E, E) et f : E → R+ une fonction étagée.
−1
On note
P αi les n valeurs distinctes prises par f qu’on ordonne (α1 < ... < αn ), et Ai = f (αi ). On a alors
f = i∈I αi 1Ai
L’intégrale de la fonction étagée positive f par rapport à µ est :
Z n
X
f (x)µ(dx) = αi µ(Ai )
E i=1
R
On la note également f dµ.
P
Remarque
P : Si f est exprimée
R sous forme
Pn d’une autre combinaison linéaire de fonction indicatrices f = i∈I βi 1Bi ,
alors i∈I βi µ(Bi ) = E f (x)µ(dx) = i=1 αi µ(Ai ). En effet, pour tout i ∈ I, on peut définir un ensemble fini Ji tel
que ∀j ∈ Ji , βj = αi et Ai = ∪j∈Ji Bj .
Proposition
Soit (E, E, µ) un espace mesuré, f, g deux fonctions étagées à valeurs dans R+ et λ ∈ R+ . Alors :
Z Z Z
(f + λg)dµ = f dµ + λ gdµ
Pn Pm
Démonstration : On écrit f = i=1 αi 1Ai et g = j=1 βj 1Bj . On a Ai = ∪m (A ∩ Bj ) et Bj = ∪ni=1 (Ai ∩ Bj ) donc
Pn Pm Pn Pm Pn Pm j=1 i R
f = i=1 j=1 αi 1Ai ∩Bj , g = i=1 j=1 βj 1Ai ∩Bj et f + λg = i=1 j=1 (αi + λβj )1Ai ∩Bj . Ainsi (f + λg)dµ =
Pn Pm Pn Pm Pn Pm R R
i=1 j=1 (αi + λβj )µ(1Ai ∩Bj ) = i=1 j=1 αi µ(1Ai ∩Bj ) + λ i=1 j=1 βi µ(1Ai ∩Bj ) = f dµ + λ gdµ.
Proposition
Soit (E, E, µ) un espace mesuré et f, g deux fonctions étagées à valeurs dans R+ telles que f ≤ g. Alors :
Z Z
f dµ ≤ gdµ
R R R R
Démonstration : g − f ≥ 0, donc gdµ = f dµ + (g − f )dµ ≥ f dµ.
Proposition
Soit (E, E, µ) un espace mesuré et f une fonction étagée à valeurs dans R+ nulle presque partout. Alors :
Z
f dµ = 0
Pn
Démonstration : On écrit f = i=1 αi 1Ai avec α1 < ...αn et Ai = f −1 (αi ). Si α1 = 0, alors ∀i ∈ [[2, n]], Ai = {x ∈
E; f (x) = αiR} ⊂ {x ∈PE; f (x) > 0}. Siα1 > 0, alors ∀i ∈ [[1, n]], Ai = {x ∈ E; f (x) = αi } ⊂ {x ∈ E; f (x) > 0}. Dans
n
tous les cas f dµ = i=1 αi µ(Ai ) = 0.
Définition

On note S(E) l’ensemble des fonctions étagées de (E, E).
On note S + (E) l’ensemble des fonctions étagées positives de (E, E).
18
Définition
Soit f : (E, E, µ) → ([0, +∞], B([0, +∞]) une fonction mesurable.

L’intégrale de f par rapport à la mesure µ est définie par :
Z Z
f (x)µ(dx) = sup h(x)µ(dx)
E h∈S + (E),h≤f E
R
On la note également f dµ.
Proposition
Soit (E, E, µ) un espace mesuré et f, g deux fonctions mesurables de (E, E, µ) à valeurs dans ([0, +∞], B([0, +∞])
telles que f ≤ g. Alors : Z Z
f dµ ≤ gdµ
Démonstration : Si h ∈ S + (E) et h ≤ f , alors h ∈ S + (E) et h ≤ f . Donc suph∈S + (E),h≤f

R R
hdµ ≤ suph∈S + (E),h≤g hdµ.
Proposition
Soit (E, E, µ) un espace mesuré et f une fonction mesurable de (E, E, µ) à valeurs dans ([0, +∞], B([0, +∞])
nulle presque partout. Alors : Z
f dµ = 0
Démonstration : Soit h une fonction

R étagée à valeurs dans [0, +∞] inférieure
R à f . Alors µ({x ∈ E, f (x) > 0}) = 0 ⇒
µ({x ∈ E, h(x) > 0} = 0. Donc hdµ = 0, et ceci valant quelque soit h, f dµ = 0.
Remarque : L’intégrale de f peut être nulle sans que f ne soit nulle (elle ne le sera seulement que presque partout).
Théorème (Convergence monotone)
Soit (fn )n∈N une suite croissante de fonctions mesurables fn : E → R+ convergeant simplement vers f : E →
R+ . Alors : Z Z
f dµ = lim fn dµ
n→+∞
R R R R
Démonstration : f est mesurable donc f dµ = suph∈S + (E),h≤f hdµ. ∀n ∈ N, fn ≤ fn+1 donc fn dµ ≤ fn+1 dµ.
R R R R
R ailleurs,R fn ≤ f donc fn dµ ≤ f dµ. La suite ( fn dµ)n∈N est également
La suite ( fn dµ)n∈N est croissante. Par
majorée ; ainsi, elle converge et lim fn dµ ≤ f dµ.
n→+∞ Pm
Soit h ∈ S (E) telle que h ≤ f . On écrit h = i=1 αi 1Ai . Soit a ∈]0, 1[. Pour tout n ∈ N, on définit Ena = {x ∈
+
E; ah(x) ≤ fn (x)}. Comme fn et h sont mesurables, Ena est mesurable et on a :

Z Z m
X
fn dµ ≥ ah1Ena dµ = a αi µ(Ai ∩ Ena )
i=1
Or (fn )n∈N est croissante donc Ena ⊂ En+1

a
⇒ Ai ∩ Ena ⊂ Ai ∩ En+1
a
. Supposons qu’il existe x ∈ E tel que x 6∈ ∪n∈N Ena ,
alors ∀n ∈ N, ah(x) > fn (x) donc h(x) > ah(x) ≥ f (x) impossible. Ainsi E = ∪n∈N Ena , soit Ai = ∪n∈N (Ai ∩ Ena ). On
a donc lim µ(Ai ∩ Ena ) = µ(Ai ), soit :
n→+∞
Z m
X Z
lim fn dµ ≥ a αi µ(Ai ) = a hdµ
n→+∞
i=1
R R R R
Ceci vaut pour tout a < 1 ; on a donc lim fn dµ ≥ f dµ, et en conclusion, f dµ = lim fn dµ.
n→+∞ n→+∞
19
Proposition
Soit (E, E, µ) un espace mesuré, f, g deux fonctions mesurables de (E, E, µ) à valeurs dans ([0, +∞], B([0, +∞])
et λ ∈ [0, +∞]. Alors : Z Z Z
(f + λg)dµ = f dµ + λ gdµ
Démonstration : Il existe une suite de fonctions étagées positives (fn )n∈N qui converge simplement vers f , et il existe
une suite de fonctions
R étagées positives
R (gnR)n∈N qui converge simplement vers g (cf. théorème du chapitre précédent).
Alors
R ∀n ∈ N, (fRn + λg n )dµR = f n dµ + λ gdµ, soit en passant à la limite par le théorème de convergence monotone
: (f + λg)dµ = f dµ + λ gdµ.
Proposition
Soit (E, E, µ) un espace mesuré, (fn )n∈N une suite de fonctions mesurables de (E, E, µ) à valeurs dans
([0, +∞], B([0, +∞]). Alors : !
Z X +∞ +∞ Z
X
fn dµ = fn dµ
n=0 n=0
PN
Démonstration : On applique le théorème de convergence monotone à la suite des sommes partielles SN = n=0 fn :
Z +∞
! Z N Z +∞ Z
X X X
fn dµ = lim SN dµ = lim fn dµ = fn dµ
N →+∞ N →+∞
n=0 n=0 n=0
Proposition (Inégalité de Markov)
Soit (E, E, µ) un espace mesuré, f une fonction mesurable de (E, E, µ) à valeurs dans ([0, +∞], B([0, +∞]).
Alors : Z
1
∀a > 0, µ({x ∈ E; f (x) ≥ a}) ≤ f dµ
a
R R
Démonstration : Soit A = {x ∈ E; f (x) ≥ a}. Alors f ≥ a1A ⇒ f dµ ≥ a1A dµ = aµ(A).
Proposition
Alors : Z
f = 0 p.p. ⇔ f dµ = 0
Démonstration : On a déjà traité le sens direct ; pour la réciproque, on pose Bn = {x ∈ E; f (x) ≥ n1 }. Alors µ(Bn ) ≤
1
R
n f dµ = 0. Or Bn ⊂ Bn+1 et ∪n∈N∗ Bn = {x ∈ E; f (x) > 0} donc µ({x ∈ E; f (x) > 0}) = lim µ(Bn ) = 0. Ainsi
n→+∞
f = 0 presque partout.
Proposition
Soit (E, E, µ) un espace mesuré, f, g deux fonctions mesurables de (E, E, µ) à valeurs dans ([0, +∞], B([0, +∞]).
Alors : Z Z
f = g p.p. ⇔ f dµ = gdµ
R
Démonstration : f − min(f,
R R 0 p.p. et f − min(f, g) ≥ 0. Par la propositionR précédente,
g) = R on a donc (f −
min(f,
R g))dµ
R = 0, soit f dµ = min(f, g)dµ. De la même manière, on montre que gdµ = min(f, g)dµ, et donc
f dµ = gdµ.
20
Proposition
Alors : Z
f dµ < +∞ ⇒ f < +∞ p.p.
1
R
Démonstration : Soit An = {x ∈ E; f (x) ≥ n} et A∞ = {x ∈ E; f (x) = +∞}. µ(An ) ≤ n f dµ donc lim µ(An ) =
n→+∞
0. Comme An+1 ⊂ An , µ(A0 ) < ∞ et ∩n∈N∗ An = A∞ , on a µ(A∞ ) = µ(∩n∈N An ) = lim µ(An ) = 0. AInsi f < +∞
n→+∞
p.p.
Proposition (Lemme de Fatou)
Soit (E, E, µ) un espace mesuré, (fn )n∈N une suite de fonctions mesurables de (E, E, µ) à valeurs dans
([0, +∞], B([0, +∞]). Alors : Z Z
(lim inf fn )dµ ≤ lim inf fn dµ
R
Démonstration : On applique le théorème de la convergence monotone à (inf m≥n fm )n∈N : on a donc lim (inf m≥n fm )dµ =
R R R R n→+∞ R
( lim (inf m≥n fm )dµ. Or p ≥ n ⇒ (inf m≥n fm )dµ ≤ fp dµ. On en déduit que (inf m≥n fm )dµ ≤ inf p≥n fp dµ.
n→+∞ R R R
En passant à la limite quand n → +∞, on obtient donc (lim inf fn )dµ = lim (inf m≥n fm )dµ ≤ lim inf p≥n fp dµ.
n→+∞ n→+∞ n→+∞
Définition
Soit (E, E, µ) un espace mesuré, f : (E, E, µ) → (R, B(R)) une fonction mesurable.
On dit que f est intégrable par rapport à la mesure µ ssi :
Z
|f |dµ < +∞
On note L1 (E, E, µ) l’ensemble des fonctions intégrables par rapport à µ.

Lorsque f est intégrable par rapport à la mesure µ, on note f + = max(f, 0) et f − = − min(f, 0). On définit
l’intégrale de f par : Z Z Z
f dµ = f + dµ − f − dµ
Proposition

Pour tout f ∈ L1 (E, E, µ), | f dµ| ≤ |f |dµ.
R R
Démonstration : Puisque |f | = f + + f − , on a :
Z Z Z Z Z Z Z
f dµ = f + dµ − f − dµ ≤ f + dµ + f − dµ = f + + f − dµ = |f |dµ

Proposition
Soit (E, E, µ) un espace mesuré. L1 (E, E, µ) est un espace vectoriel et l’application f 7→

R
f dµ est une forme
linéaire sur L1 (E, E, µ).
Démonstration : Soit f, g ∈ L1 (E, E, µ). 0 ≤ |f + g| ≤ |f | + |g| donc |f + g|dµ ≤ |f |dµ + |g|dµ < +∞ et
R R R
− − − − −
donc f + g ∈ L1 (E, E,Rµ). Par ailleurs,
R f + g− = (f R+ g)
+
− (f + +
R +−g) =R f+ + g R −−f g ⇒ R (f + g) +
+
R f + gR =
− + + + +
(f + g) + f + g ⇒ (f + g) dµR − (f + g) dµR = f dµ − f dµ + g dµ − g dµ ⇒ f + gdµ = f dµ + dµ.
Soit f ∈ LR1 (E, E, µ) et
R λ−∈ R. |λf
R |dµ ≤ |λ|
R −|f |dµ < +∞
1
R donc λf ∈ L (E, E,Rµ). Par ailleurs, si Rλ ≥ 0, alors
+ + +
− (λf )− dµ =
R R
λfRdµ = λf Rdµ − λf dµ = λ( f dµ + f dµ) = λ f dµ et si λ < 0, alors λf dµ = (λf )
−λ f dµ + λ f dµ = λ( f dµ + f dµ) = λ f dµ (en utilisant le fait que pour a > 0, (−af )+ = −af − et
− +
R + R − R
(−af )− = −af + ).
|f | n’est pas une norme sur L1 (E, E, µ).

R
Remarque : L’application f 7→
21
Proposition
1
Soit (E, E, µ) R mesuré, f, g ∈ L (E, E, µ). Alors :
R un espace
• f ≤ g ⇒ f dµR ≤ gdµR
• f = g p.p. ⇒ f dµ = gdµ
Théorème (Convergence dominée)
Soit (fn )n∈N une suite de fonctions mesurables de L1 (E, E, µ). On suppose que :
• Il existe une fonction mesurable f tel que lim fn (x) = f (x) pour presque tout x dans E
n→+∞
• Il existe une fonction mesurable
R
g à valeurs positivesRtel que ∀n ∈ N, |fn | ≤ g p.p. et gdµ < +∞
Alors f ∈ L1 (E, E, µ), lim
R R
fn dµ = f dµ et lim |fn − f |dµ = 0.
n→+∞ n→+∞
Démonstration : On commence par supposer les hypothèses partout (et pas seulement presque partout). En faisant
tendre n vers +∞ dans |fn | ≤ g, on a |f | ≤ g donc f ∈ LR1 (E, E, µ). On a aussi
R |fn − f | ≤ 2g, soit 2g − |fn − f | ≥ 0 ;
en appliquant le lemme de Fatou, on trouve alors lim inf (2g − |fn − f |)dµ ≥ 2gdµ. Or lim inf(−un ) = − lim sup un
R n→+∞ R
; ceci est donc équivalent à 2gdµ − lim sup|fn − f |dµ ≥ 2gdµ ⇔ lim sup|fn − f |dµ ≤ 0. Par positivité de l’intégrale,
R n→+∞ R n→+∞
R
on a donc lim |fn − f |dµ = 0. Ceci implique aussi lim fn dµ = f dµ.
n→+∞ n→+∞
On suppose désormais les hypothèses telles quelles. Soit Ẽ = {x ∈ E; lim fn (x) = f (x) et supn∈N fn (x) ≤ g(x)}.
n→+∞
Les fonctions f˜ = f 1Ẽ et fñ = fn 1Ẽ satisfont les hypothèses partout ; par ailleurs, µ(E\Ẽ) = 0 donc f = f˜ et fn = fñ
p.p. soit |fn − f |dµ = |fñ − f˜|dµ, ce qui conclut.
R R
Définition
Pour tout p ∈ [1, +∞[, on définit :

Z
Lp (E, E, µ) = {f : E → R mesurable ; |f |p dµ < +∞}
et L∞ (E, E, µ) = {f : E → R mesurable ; ∃C > 0, |f | ≤ C p.p}
Remarque : Lorsque µ est une mesure finie, alors p < q ⇒ Lp (E, E, µ) ⊂ Lq (E, E, µ). Attention, cela est faux dans le
cas général.
Section IV.2 - Intégrale de Lebesgue
Définition
Considérons E = Rd muni de la tribu de Lebesgue et de la mesure de Lebesgue λ(d) .

On appelle intégrale de Lebesgue l’intégrale par rapport à λ(d) .
Soit f ∈ L1 (Rd , B(Rd ), λ(d) ). L’intégrale de f est notée :
Z Z Z
(d) (d)
f dλ ou f (x)λ (dx) ou f (x1 , ..., xd )λ(d) (dx1 , ..., dxd )
Rd Rd Rd
Définition
Soit f ∈ L1 (Rd , B(Rd ), λ(d) ) et U ⊂ Rd mesurable.

|f 1U | ≤ |f | donc ∈ L1 (R
R f 1U (d)
d d ), λ(d) ).
R , B(R (d)
On note alors U f dλ = U f 1U dλ
Définition
Une fonction f : Rd → R est dite localement intégrable si pour tout compact K ⊂ Rd , f 1K ∈

L1 (Rd , B(Rd ), λ(d) ).
On note L1loc (Rd , B(Rd ), λ(d) ) l’ensemble de ces fonctions.
22
Remarque : L1loc (Rd , B(Rd ), λ(d) ) ⊂ L1 (Rd , B(Rd ), λ(d) ), mais l’inclusion est stricte (on peut par exemple considérer la
fonction de R dans R constante égale à 1, qui est intégrable sur tout compact mais pas sur R).
Définition
Soit a et b deux réels tels que a < b.
On dit que f : [a, b] → R est une fonction en escalier s’il existe une subdivision de [a, b] : a = x0 < x1 <
... < xJ = b et des réels y1 , ..., yJ tels que ∀i ∈ [[1, J]], ∀x ∈]xi−1 , xi [, f (x) = yi .
L’ensemble de ces fonctions se note R([a, b]).
PJ
Pour h ∈ R([a, b]), on note I(h) = i=1 (xi − xi−1 )yi .
Remarque : R([a, b]) ⊂ S([a, b]).
Définition
Une fonction f : [a, b] → R est dite Riemann-intégrable ssi :
sup I(h) = inf I(h)

h∈R([a,b]),h≤f h∈R([a,b]),h≥f
Rb
On note alors a
f (x)dx cette valeur.
Proposition
R
Soit h ∈ R([a, b]). Alors I(h) = [a,b]
hdλ.
R PJ
Démonstration : [a,b]
hdλ = i=1 yi λ(]xi−1 , xi [) = I(h)
Théorème
Soit f : [a, b] → R une fonction Riemann-intégrable.

Alors f est mesurable pour la tribu de Lebesgue, et les intégrales de Riemann et de Lebesgue coı̈ncident i.e.
Z Z b
f dλ = f (x)dx
[a,b] a
.
−
Démonstration : Il existe deux fonctions en escalier (h+
n )n∈N et (hn )n∈N deux suites de fonctions en escalier telles que
hn ≤ f ≤ hn et lim I(hn ) = lim I(hn ). On peut extraire une sous-suite croissante de (h−
− + + −
n )n∈N et une sous-suite
n→+∞ n→+∞
− −
décroissante de (h+ + +
n )n∈N . Elles sont bornées. On pose par ailleurs h∞ et h∞ les limites simples de (hn )n∈N et (hn )n∈N .
Elles sont mesurables.
−
On applique le théorème de convergence dominée à h+ n et à hn :
Z Z Z b
+ + +
h∞ dλ = lim hn dλ = lim I(hn ) = f (x)dx
[a,b] n→+∞ [a,b] n→+∞ a
Z Z Z b
h−
∞ dλ = lim h− −
n dλ = lim I(hn ) = f (x)dx
[a,b] n→+∞ [a,b] n→+∞ a
− − − −
On a donc [a,b] h+ + + +
R R R
∞ dλ = [a,b] h∞ dλ, soit [a,b] h∞ −h∞ dλ = 0 ou encore h∞ = h∞ presque partout (car h∞ −h∞ ≥ 0).
Puisque h− + +
∞ ≤ f ≤ h∞ , on a donc f = h∞ presque partout soit :
Z Z Z b
f dλ = h+
∞ dλ = f (x)dx
[a,b] [a,b] a
Remarque : Certaines fonctions peuvent être Lebesgue-intégrables sans être Riemann-intégrables, par exemple f = 1Q
Définition
Soit a ∈ R et b ∈]a, +∞] (respectivement b ∈ R et a ∈ [−∞, a[).

La fonction f : [a, b[→ R (respectivement f ; ]a, b] → R) est localement Riemann-intégrable si f est
intégrable sur tout compact de [a, b[ (respectivement ]a, b]).
23
Théorème
Toute fonction localement Riemann-intégrable est Lebesgue-intégrable si et seulement si elle est Riemann-
Rb
absolument convergente (i.e. a |f (x)|dx existe et est finie).
Dans ce cas les deux intégrales coı̈ncident.
Conséquence : Les intégrales impropres absolument convergentes sont dans L1 , mais les intégrales impropres semi-
convergentes ne sont pas dans L1 .
Théorème
Soit f ∈ L1loc et a ∈ R. On définit : Z

F (x) = f dλ
[a,x]
Alors F est continue et dérivable presque partout, et F 0 = f p.p.
Théorème
Soit F : R → R une fonction dérivable en tout point de R.
Supposons f = F 0 ∈ L1loc . Alors pour tous réels a et b tels que a < b :
Z
f dλ = F (b) − F (a)
[a,b]
Proposition
P
Considérons E = N, E = P(N) et µ = n∈N δn .
Soit u : E → N ; on note un = u(n). Si la série de terme général (un )n∈N est absolument convergente, alors :
Z +∞
X
u(x)µ(dx) = un
n=0
Définition
On note : !
X
`p = Lp N, P(N), δn
n∈N
!
X
∞ ∞
` =L N, P(N), δn
n∈N
Section IV.3 - Mesure de densité
Proposition
Soit f : (E, E, µ) → ([0, +∞], B([0, +∞]) une fonction

R mesurable.
R
L’application ν définie pour tout A ∈ E par ν(A) = A f dµ = E f 1A dµ est une mesure sur (E, E).
Définition
On dit que ν est la mesure de densité f par rapport à µ.
Exemple : Considérons E = R équipé de la tribu de Lebesgue et de la mesure de Lebesgue λ. Soit f définie sur R par
:
0 si x < 0
f (x) =
e−x si x ≥ 0
24
On a alors, par exemple, ν([0, 1]) = 1 − 1e , ν([−69, 420]) = 1 − e−420 et ν(R) = 1, ce qui fait par ailleurs de ν une
mesure de probabilité.
Remarque : Si A est de mesure nulle pour µ alors ν(A) = 0 donc A est de mesure nulle pour ν.
On dit que ν est absolument continue par rapport à µ et on note ν µ.
Théorème
Une fonction borélienne f : R → R+ est la densité d’une mesure de probabilité P ssi

Z
f (x)λ(dx) = 1
R
R
Dans ce cas, P(A) = A
f (x)λ(dx) et on dit que f est la dérivée de Radon-Nikodym de P par rapport à λ.
Démonstration : Immédiate en prenant A = R dans la définition d’une mesure de densité f .
Théorème (Continuité des intégrales dépendant d’un paramètre)
Soit (E, E, µ) un espace mesuré, (U, d) un espace métrique, fu : E → R une fonction dépendant d’un paramètre
u ∈ U et u0 ∈ U .
On suppose que :
• Pour presque tout u ∈ U , la fonction x 7→ fu (x) est mesurable.
• Pour presque tout x ∈ E, la fonction u 7→ fu (x) est continue en u0 .
• Il existe une 1
R fonction positive g ∈ L (E, E, µ telle que ∀u ∈ U, |fu (x)| ≤ g(x) pour presque tout x.
Alors u 7→ E fu (x)µ(dx) est définie pour presque tout u ∈ U et continue en u0 .
Théorème (Dérivabilité sous le signe somme)
Soit (E, E, µ) un espace mesuré, U ⊂ R muni de sa tribu de Borel et I ⊂ U un intervalle, f : I × E → R une

fonction dépendant d’un paramètre et u0 ∈ I. On suppose que :
• Pour presque tout u ∈ U , la fonction x 7→ fu (x) ∈ L1 (E, E, µ)
• Pour presque tout x ∈ E, la fonction u 7→ fu (x) est dérivable en u0 .
• Il existe une fonction positive g ∈ L1 (E, E, µ telle que ∀u ∈ U, |fu (x) − f (u0 , x)| ≤ g(x)|u − u0 | pour presque
tout x. R R ∂f
Alors u 7→ E fu (x)µ(dx) est dérivable en u0 , de dérivée E ∂u (u0 , x)µ(dx).
25
Chapitre V. Espaces Lp
Section V.1 - Relations d’équivalence
Définition
Soit E un ensemble. On dit qu’une relation ∼ est une relation d’équivalence ssi :
• Elle est réflexive (∀x ∈ E, x ∼ x)
• Elle est symétrique (∀x, y ∈ E, x ∼ y ⇒ y ∼ x)
• Elle est transitive (∀x, y, z ∈ E, x ∼ y ∧ y ∼ z ⇒ x ∼ z)
Définition
Soit ∼ une relation d’équivalence sur un ensemble E et x ∈ E.
On appelle classe d’équivalence de x l’ensemble {y ∈ E, y ∼ x}.
On le note ẋ ou [x].
Définition
Soit ∼ une relation d’équivalence sur un ensemble E et x ∈ E.
On appele l’ensemble quotient de E par ∼ l’ensemble des classes d’équivalences des éléments de E, qu’on
note E/ ∼.
Proposition
E/ ∼ forme une partition de E.
Démonstration : ∀x ∈ E, x ∈ ẋ donc E = ∪x∈E ẋ.

Si ẋ ∩ ẏ 6= ∅, soit z ∈ ẋ ∩ ẏ. Soit a ∈ ẋ et b ∈ ẏ, alors a ∼ z ∼ b donc ẋ = ȧ = ḃ = ẏ. On a donc une partition de E.
(les classes d’équivalences sont deux-à-deux disjointes et leur réunion forme E)
Exemple : Soit E = Lp (E, E, µ) et p ∈ [1, +∞].

La relation ∼ définie par f ∼ g ⇔ f − g = 0 p.p est une relation d’équivalence.
On aura alors, par exemple, 1Q ∼ 0 si µ est la mesure de Lebesgue.
Définition
Soit ∼ une relation d’équivalence sur un ensemble E.
Une application f : E → E est compatible avec ∼ ssi
∀x ∈ E, ∀y ∈ E, x ∼ y ⇒ f (x) ∼ f (y)
On peut alors définir une fonction f / ∼ sur l’ensemble quotient E/ ∼. Pour C ∈ E/ ∼, on considère un
représentant x ∈ C et on pose :
˙
f / ∼ (C) = f (x). On notera souvent f au lieu de f / ∼.
Définition
Soit ∼ une relation d’équivalence sur un ensemble E.
Une loi interne ∗ est compatible avec ∼ ssi
∀x1 , x2 , y1 , y2 ∈ E, x1 ∼ x2 et y1 ∼ y2 ⇒ x1 ∗ y1 ∼ x2 ∗ y2
On définit alors la loi quotient ∗/ ∼ sur E/ ∼ en associant aux classes d’équivalences de x et y la classe
d’équivalence de x ∗ y. On notera souvent ∗ au lieu de f / ∼.
26
Section V.2 - Construction de l’e.v.n. Lp
Définition
Soit p ∈ [1, +∞]. On note Lp (E, E, µ) le quotient de l’espace Lp (E, E, µ) par la relation d’égalité µ−presque
partout. On note Lp (Rd ) = Lp (Rd , B(Rd ), λ(d) ).
: Lp (N, P(N ), n∈N δn ) = Lp (N, P(N ), n∈N δn ) = `p , puisque l’égalité presque partout pour la mesure
P P
Remarque
l’égalité (chaque classe d’équivalence contient un unique élément, donc les ensembles Lp (N, P(N ), n∈N δn )
P P
n∈N δn sur N est
et Lp (N, P(N ), n∈N δn ) sont en bijection ; on les identifie).
P
Proposition
Les opérations + et × de Lp (E, E, µ) sont compatibles avec la relation d’équivalence µ-pp.
Démonstration : Soit f1 , f2 , g1 , g2 dans Lp (E, E, µ) avec f1 ∼ f2 et g1 ∼ g2 . Alors (f1 + g1 ) − (f2 + g2 ) = (f1 − f2 ) +

(g1 − g2 ) = 0 presque partout, donc f1 + g1 ∼ f2 + g2 , et f1 g1 − f2 g2 = f1 (g1 − g2 ) + (f1 − f2 )g2 = 0 presque partout,
donc f1 g1 ∼ f2 g2 .
Proposition
Lp (E, E, µ) est un espace vectoriel.
Remarque : Soit x0 ∈ E. La fonction d’évaluation en x0 (appelée également trace sur {x0 }) de Lp (E, E, µ) → R qui
à f associe f (x0 ) n’est pas compatible avec la relation d’équivalence égalité µ-pp. En d’autres termes, la valeur des
éléments de Lp (E, E, µ) en un point n’a pas de sens.
Proposition
f p dµ sur Lp (E, E, µ) est compatible avec la relation d’équivalence µ-pp.

R
La forme linéaire f 7→ E
Démonstration : Soit f, g dans Lp (E, E, µ) avec f ∼ g, alors f p dµ = g p dµ.

R R
E E
Proposition
Dans Lp (E, E, µ) : Z
|f |p dµ = 0 ⇔ f = 0
E
Définition
On dit que M ∈ R est un presque majorant de f : E → R si f (x) ≤ M pour presque tout x ∈ E.
Définition
Soit f : E → R. Si f admet un ou plusieurs presque majorants, on appelle borne supérieure essentielle le
plus petit d’entre eux et on le note sup ess f
Définition
Soit p ∈ [1, +∞].

• Si p ∈]1, +∞[, son conjugué est p
p−1 i.e. le réel q tel que 1
p + 1
q = 1.
• Si p = 1, son conjugué est +∞.
• Si p = ∞, son conjugué est 1.
27
Théorème (Inégalité de Young)
Soit p et q dans ]1, +∞[ conjugués. Alors :
ap bq
∀(a, b) ∈ R+ × R+ , ab ≤ +
p q
Démonstration : Par concavité de x 7→ ln(x) sur ]0, +∞[, on a ∀t ∈ [0, 1], ln(tap + (1 − t)bq ) ≥ t ln(ap ) + (1 − t) ln(bq ).
En posant t = p1 , alors 1 − t = 1q et :
ap bq 1 1
ln( + ) ≥ ln(ap ) + ln(bq ) = ln(ab)
p q p q
d’où le résultat en passant à l’exponentielle strictement croissante.
Définition
Pour f ∈ Lp (E, E, µ) avec p ∈ [1, +∞], on note :

Z p1
p
||f ||p = |f | dµ si p < +∞ et ||f ||∞ = sup ess |f |
E
Théorème (Inégalité de Hölder)
Soit p et q dans ]1, +∞[ conjugués. Soit f ∈ Lp (E, E, µ) et g ∈ Lq (E, E, µ). Alors :
f g ∈ L1 (E, E, µ) et ||f g||1 ≤ ||f ||p ||g||q
Démonstration : Si p = 1 ou q = 1 alors le résultat est trivial, si f = 0 ou g = 0 aussi. On élimine donc ces cas, et on
suppose p ∈]1, +∞[. L’inégalité de Young donne :
|f (x)|p |f (x)|q
|f (x)||g(x)| ≤ +
p q
Ainsi f g ∈ L1 (E, E, µ) et, en intégrant :

1 1
||f g||1 ≤ ||f ||pp + ||g||qq
p q
Pour λ > 0, le même raisonnement sur les fonctions λf et g conduisent à l’inégalité :
λp−1 1
||f g||1 ≤ ||f ||pp + ||g||qq
p λq
q
||g||qp
On pose alors λ = ||f ||p , ce qui nous permet d’obtenir :
q !p−1
1 ||g||qp 1 ||f ||p 1 q(p−1)
1 q(p−1)
||f g||1 ≤ ||f ||pp + q

q ||g||q = ||g||q p ||f ||p + ||f ||p ||g||q p
p ||f ||p q ||g|| p p q
q
q(p−1) 1 1
Or p = 1 et p + q = 1, d’où :
||f g||1 ≤ ||f ||p ||f ||q
Théorème (Inégalité de Minkowski)
Soit p ∈ [1, +∞]. Soit f et g dans Lp (E, E, µ). Alors :
f + g ∈ Lp (E, E, µ) et ||f + g||p ≤ ||f ||p + ||g||p
Démonstration : Puisque p ∈ [1, +∞], x 7→ xp est convexe sur R+ donc :

p p
1
f + 1 g ≤ 1 |f | + 1 |g| ≤ 1 |f |p + 1 |g|p

2 2 2 2 2 2
28
⇔ |f + g|p ≤ 2p−1 |f |p + 2p−1 |g|p
On a donc f + g ∈ Lp (E, E, µ). Alors :
Z Z Z
p p−1 p−1
||f + g||p = |f + g| |f + g|dµ ≤ |f + g| |f | + |f + g|p−1 |g|
E E E
Appliquons l’inégalité de Hölder :

Z Z p−1
p
p
|f + g|p−1 |f | ≤ || |f + g|p−1 || p−1
p ||f || =
p (|f + g|p−1 ) p−1 dµ ||f ||p
E E
Z 1 !p−1
p
= (|f + g|p )dµ ||f ||p = (||f + g||p )p−1 ||f ||p
E
De manière équivalente, on a aussi :

Z
|f + g|p−1 |f | ≤ (||f + g||p )p−1 ||g||p
E
Ainsi :
||f + g||pp ≤ (||f + g||p )p−1 (||f ||p + ||g||p ) ⇔ ||f + g||p ≤ ||f ||p + ||g||p
Proposition
Soit p ∈ [1, +∞].

Alors Lp (E, E, µ) est un espace vectoriel normé, de norme ||f ||p .
Démonstration : Clairement ||f ||p = 0 ⇔ f = 0 et ||λf ||p = λ||f ||p . L’inégalité triangulaire n’est autre que l’inégalité
de Minkowski démontrée ci-dessus.
Remarque : Il ne faut pas confondre ”f une fonction continue presque partout” et ”f est égale presque partout à une
fonction continue”.
Définition
Soit f : E → R une classe de fonctions.
S’il y a une fonction continue dans cette classe, on dira que f est continue.
Dans ce cas, pour x0 ∈ E on donnera à f (x0 ) la valeur de son représentant continu en x0 .
Section V.3 - Propriétés de l’e.v.n. Lp
Théorème (Fischer-Riesz)
Soit p ∈ [1, +∞]. Lp (E, E, µ) est un espace de Banach.
Démonstration : On commence par traiter le cas p = +∞. Soit (fn )n∈N une suite de Cauchy d’éléments de L∞ (E, E, µ).
∀k ∈ N∗ , ∃N ∈ N, ∀(m, n) ∈ N2 , m > n > N ⇒ ||fm − fn ||∞ < k1 . Il existe Zk de mesure nulle tel que ∀k ∈ N∗ , ∃N ∈
N, ∀(m, n) ∈ N2 , ∀x ∈ E\Zk , m > n > N ⇒ |fm − fn | < k1 . Z = ∪k∈N∗ Zk est de mesure nulle, alors ∀k ∈ N∗ , ∃N ∈
N, ∀(m, n) ∈ N2 , ∀x ∈ E\Z, m > n > N ⇒ |fm (x) − fn (x)| < k1 . On en déduit que ∀x ∈ E\Z, (fn (x))n∈N est
une suite de Cauchy d’éléments de R, qui converge car R est complet. Notons f (x) sa limite ; (fn )n∈N converge
simplement vers f sur E\Z. Ainsi ∀x ∈ E\Z, ∀k ∈ N∗ , ∃N ∈ N, ∀n ∈ N, |fn (x) − f (x)| < k1 . Ainsi f ∈ L∞ (E, E, µ) et
lim ||fn − f ||∞ = 0, donc (fn )n∈N converge dans L∞ (E, E, µ).
n→+∞
p
Désormais, soit p ∈ [1, +∞[, et (fn )P
n∈N une suite de Cauchy d’éléments de L (E, E, µ). On extrait (fnk ) telle que
1 n
||fnk+1 − fnk ||p < 2k . On note gn = k=1 |fnk+1 − fnk |. Alors :
n n
X X 1
||gn ||p = || |fnk+1 − fnk | ||p ≤ ||fnk+1 − fnk ||p ≤ 1 − ≤1
2m
k=1 k=1
Ainsi (gn (x)) converge vers g(x) presque partout. Soit s et t deux entiers avec s > t. Par téléscopage, |fns − fnt | ≤
g − gt−1 donc (fnk (x)) est de Cauchy pour presque tout x. Ainsi, elle converge, et on note f (x) sa limite. Lorsque
29
s → +∞, on |f − fnt | ≤ g − gt−1 ≤ g, ce qu’on réecrit |fnk − f (x)|p < g p (x), soit |fnk (x) − f (x)|p → 0 lorsque
nk → +∞. D’après le théorème de convergence dominée, f ∈ Lp (E, E, µ) et lim ||fnk (x) − f (x)||p = 0.
k→+∞
Proposition
L2 (E, E, µ) est un espace de Hilbert.
Démonstration : hf, gi = E f gdµ est un produit scalaire sur L2 (E, E, µ). C’est un espace préhilbertien, et il est
R
complet pour la norme induite par le produit scalaire par la proposition précédente.
Théorème (Riesz)
Soit p ∈]1, +∞[ et q son conjugué.

Pour tout φ ∈ (Lp (E, E, µ)0 , il existe un unique g ∈ Lq (E, E, µ) tel que φ = f 7→ f gdµ.
R
En outre, ||φ||(Lp )0 = ||g||q .
Remarque : On identifie (Lp )0 et Lq : (Lp )0 = Lq .

Attention cependant, on a exclu p = 1 : (L∞ )0 6= L1 . Le dual de L∞ contient strictement L1 .
Définition
Soit p ∈]1, +∞[ et q son conjugué.

Pour f ∈ Lp et g ∈ Lq , on note hf, gi = E f gdµ.
R
h., .i s’appelle un crochet de dualité.

Avec ces notations, pour φ ∈ (Lp )0 , il lui correspond un unique g ∈ Lq par Riesz. On a alors φ(f ) = hf, gi.
Remarque : Dans l’espace de Hilbert L2 , le crochet de dualité est le produit scalaire.
Théorème
Soit p ∈ [1, +∞[.

L’ensemble Cc (E) des fonctions continues à support compact de E dans R est dense dans Lp (E, E, µ).
Mieux encore, l’ensemble Cc∞ (E) des fonctions infiniment dérivables à support compact de E dans R est dense
dans Lp (E, E, µ).
Section V.4 - L’espace L2C
Définition
Soit f : (E, E, µ) → (C, B(C) une fonction mesurable.

On dit que f est intégrable par rapport à la mesure µ ssi
Z
|f |dµ < +∞
On note L1C (E, E, µ) l’ensemble des fonctions intégrables par rapport à µ.

Lorsque f est intégrable par rapport à la mesure µ, on définit l’intégrale de f par
Z Z Z
f dµ = Re f dµ + i Im f dµ
30
Définition
Pour tout p ∈ [1, +∞[, on définit :

Z
LpC (E, E, µ) = {f : E → C mesurable ; |f |p dµ < +∞}
L∞
C (E, E, µ) = {f : E → C mesurable ; ∃C > 0, |f | ≤ C p.p.}
Pour tout p ∈ [1, +∞], on définit

LpC (E, E, µ) = LpC (E, E, µ)/ ∼
où ∼ est la relation d’égalité presque partout.
Proposition
Pour tout p ∈ [1, +∞], LpC (E, E, µ) est un espace de Banach.

LpC (E, E, µ) est un espace de Hilbert.
Proposition
1
On considère l’espace de Hilbert HR = L2C ([0, 2π], B([0, 2π]), 2π λ).
1
Le produit scalaire est hf, gi = 2π [0,2π] f g dλ.
Alors, H admet la base hilbertienne {en , n ∈ Z}, où en est défini par en (x) = einx = cos(nx) + i sin(nx)
Démonstration : Soit n, m ∈ Z. Par le calcul :

Z
1
hen , em i = einx e−imx dx = δn,m
2π [0,2π]
1
Soit f ∈ H, et > 0. Cc ([0, 2π], C) est dense dans H = L2C ([0, 2π], B([0, 2π]), 2π λ). Ainsi il existe u ∈ Cc ([0, 2π], C)

tel que ||u − f ||2 < 2 . On pose :
k
X sin((k + 12 )x)
Dk (x) = einx =
sin x2
n=−k
qu’on appelle le k-ième noyau de Dirichet. On pose alors :

K−1
!
1 X 1 sin Kx2
FK (x) = Dk (x) =
K K sin x2
k=0
qu’on appelle K-ième terme du noyau de Fejér. Alors ∀K ∈ N∗ , FK (x) ≥ 0, 2π 1

R
F (x)dλ = 1 et ∀h >
[−π,π] K
1 1
R R
0, 2π [−π,− h h FK (x)dλ → 0 lorsque K → +∞. En notant Z K = 2π [ h h FK (x)dλ, ceci implique que
2 ]∪[ 2 ,π] 2 ,2π− 2 ]
∀h > 0, lim ZK = 0. On pose maintenant :
K→+∞
Z
1
uK (x) = u(x − t)FK (t)dλ(t)
2π [0,2π]
On a alors : Z
1
||uK − u||2 = ||x 7→ [u(x − t) − u(x)]FK (t)dλ(t)||2
2π [0,2π]
h
Soit h > 0 tel que |y2 − y1 | < 2⇒ |u(y1 ) − u(y2 )| ≤ 4 . Sur [0, h2 ] ∪ [2π − h2 , 2π], on a (u(x − t) − u(x)) < 4 . Donc :
Z
1
||x 7→ [u(x − t) − u(x)]FK (t)dλ(t)||2 <
2π [0, h2 ]∪[2π− h2 ,2π] 4
Z
1
et∃K ∈ N∗ , ||x 7→ [u(x − t) − u(x)]FK (t)dλ(t)||2 ≤ M ZK <
2π [h h
2 ,2π− 2 ]
4
Z
1
⇒ ||uK − u||2 = ||x 7→ [u(x − t) − u(x)]FK (t)dλ(t)||2 <
2π [0,2π] 2
31
Or, on a : !
K−1 k Z
X X 1 1
uK (x) = u(x − t)dλ(t) eint
2π K [0,2π]
k=0 n=−k
PN
Donc uK est une combinaison linéaire de en . Il existe un N ∈ N et des cn tels que ||u − n=−N cn en ||2 < 2 . Alors :
N
X N
X
||f − cn en ||2 ≤ ||f − u||2 + ||u − cn en ||2 <
n=−N n=−N
On conclut que H = Vect{en , n ∈ Z}.
32
Chapitre VI. Introduction aux probabilités
Section VI.1 - Mesure de probabilité
Définition
On appelle espace probabilisé un espace mesuré pour lequel la mesure P est une mesure de probabilité. (P(Ω) =
1)
Définition
Soit (Ω, F, P) un espace probabilisé.

On appelle espace d’états l’ensemble Ω.
On appelle événements les éléments de F.
La mesure P associe à chaque événement une probabilité.
Définition
Les singletons de F sont appelés évènements élémentaires.
Définition
Soit (Ω, F, P) un espace probabilisé avec Ω fini et F = P(Ω).

On dit qu’il y a équiprobabilité si la mesure P est définie par
Card(A)
P : P(Ω) → [0, 1], P(A) =
Card(Ω)
1
Les évènements élémentaires sont dits équiprobables. Ils ont tous la même probabilité Card(Ω) .
On dit également que P est la mesure uniforme discrète sur l’ensemble Ω.
Théorème
Soit Ω = {ωi ; i ∈ I} un ensemble fini ou dénombrable. Soit F = P(Ω).

Toute mesure de probabilité P est caractérisée par sa valeur sur les atomes : pi = P(ωP i ) pour tout i ∈ I.
Réciproquement, soit (pi )i∈I une suite de réels positifs de nombres réels positifs tels que i∈I pi = 1 alors il
existe une mesure de probabilité P telle que ∀i ∈ I, P(ωi ) = pi
Démonstration : Soit Ω = {ωi ; i ∈ I} un ensemble fini ou dénombrable. Supposons connaı̂tre pi = P(ωi ) pour tout
i ∈ I. P
Soit A ∈ F = P(Ω). A = ∪i∈I,ωi ∈A donc P(A) =P i∈I,ωi ∈A pi est définie de manière unique.
Pque i∈I pi = 1. On suppose P(ωi ) = pi . Soit A = ∪i∈I,ωi ∈A {ωi } ∈ F.
Soit (pi )i∈I une suite de réels positifs tels
Alors on définit la mesure P par P(A) = i∈I,ωi ∈A pi .
Définition
Soit (Ω, F, P) un espace probabilisé. Soit A ∈ F.

On dit que A est presque sûr ssi P(A) = 1.
Section VI.2 - Probabilité conditionnelle
Définition
Soit (Ω, F, P) un espace probabilisé, et A et B deux évènements avec P(B) > 0. La probabilité conditionnelle
de A sachant B est définie par
P(A ∩ B)
P(A|B) =
P(B)
33
Remarque : A 7→ P(A|B) définit une mesure de probabilité sur (Ω, F ).
Proposition (Formule des probabilités totales)
Soit (Ω, F, P) un espace probabilisé. Soit (Ei )i∈I une partition des évènements de mesure non nulle, avec I fini
ou dénombrable.
Pour tout évènement A, on a : X
P(A) = P(A|Ei )P(Ei )
i∈I
Théorème (Bayes)
Soit (Ω, F, P) un espace probabilisé. Soit (Ei )i∈I une partition des évènements de mesure non nulle, avec I fini
ou dénombrable.
Soit A un évènement et n ∈ I. Alors :
P(A|En )P(En )
P(En |A) = P
i∈I P(A|Ei )P(Ei )
Définition
Soit (Ω, F, P) un espace probabilisé.

On dit que deux évènements A et B sont indépendants ssi :
P(A ∩ B) = P(A)P(B)
Remarque : Si P(B) > 0, alors A et B sont indépendants ssi P(A|B) = P(A).
Définition
Soit (Ω, F, P) un espace probabilisé, (Ai )i∈I une famille d’évènements.

Les Ai sont mutuellement indépendants ssi :
Y
∀J ⊂ I, J fini, P(∩i∈J ) = P(Ai )
i∈J
Remarque : L’indépendance mutuelle entraı̂ne l’indépendance deux-à-deux, mais la réciproque est fausse. Prenons
Ω = [[1, 6]]2 , F = P(Ω) et P la mesure d’équiprobabilité. Alors les évènements A1 = {6} × [[1, 6]], A2 = [[1, 6]] × {6} et
A3 = {(x, x); x ∈ [[1, 6]]} sont deux-à-deux indépendants, mais pas mutuellement indépendants.
Section VI.3 - Variables aléatoires
Définition
Soit (Ω, F, P) un espace probabilisé et (E, E) un espace mesuré.

On appelle variable aléatoire (de Ω à valeurs dans E) toute fonction mesurable de Ω dans E.
Définition
Soit (Ω, F, P) un espace probabilisé, (E, E) un espace mesuré et X une variable aléatoire.
L’application PX définie de E dans [0, 1] par PX (A) = P(X −1 (A)) est une mesure de probabilité sur (E, E),
que l’on appelle loi de X.
On ne peut que recommander d’aller voir la vidéo de John Cagnol, qui introduit les variables aléatoires par
l’exemple du jeu de l’oie.
Exemples : Pour A ∈ E, P(X ∈ A) signifie P(X −1 (A)).

Pour E = R, E = B(Ω) et a ∈ R, P(X ≥ a) signifie P(X −1 ([a, +∞[)). P(X 2 +1 ≥ a) signifie P({ω ∈ Ω; X 2 (ω)+1 ≥ a}).
34
P(X = Y ) signifie P({ω ∈ Ω; X(ω) = Y (ω)}).
Remarque : Supposons E au plus dénombrable et prenons E = P(E). Puisqu’une variable aléatoire X est une fonction
mesurable de (Ω, F ) dans (E, E), il y a équivalence entre ”X est une variable aléatoire” et ”∀e ∈ E, X −1 ({E}) ∈ F ”.
Définition
Soit X une variable aléatoire.
On appelle tribu engendrée par la variable aléatoire, et on note σ(X), la tribu σ(X −1 (E)).
Section VI.4 - Moments
Définition
Soit X une variable aléatoire sur un espace probabilisé (Ω, F, P) à valeurs dans R.
On dit que X admet un moment d’ordre n ∈ N∗ si X ∈ Ln (Ω, F, P). Dans ce cas, on note :
Z
mn = X n dP
Ω
Le moment d’ordre 1 est appelé espérance de la variable aléatoire et noté E(X).
Remarque : p ≤ q ⇒ Lq (Ω, F, P) ⊂ Lp (Ω, F, P) puisque P est une mesure finie.
Proposition
Soit X une variable aléatoire sur un espace probabilisé (Ω, F, P) à valeurs dans (E, E) et h : E → R une fonction
mesurable.
Alors h(X) est une variable aléatoire sur (Ω, F, P) à valeurs dans R.
Théorème (de transfert)
Soit X une variable aléatoire sur un espace probabilisé (Ω, F, P) à valeurs dans (E, E). Alors pour toute fonction
mesurable bornée h : E → R : Z
E(h(X)) = hdPX
E
Démonstration : Soit A ∈ E et h = 1A .
Z Z Z
−1
E(h(X)) = 1A (X)dP = P(X (A)) = PX (A) = 1A dPX = hdPX
Ω E E
On a donc l’égalité pour toute fonction indicatrice, et par linéarité de l’intégrale, cela s’étend pour toute fonction
étagée h : E → R+ .
Soit h : E → [0, +∞] une fonction mesurable. Il existe une suite croissante (hn )n∈N de fonctions étagées positives
convergeant simplement vers h. Le théorème de transfert s’applique aux (hn ), et le théorème de convergence monotone
permet d’obtenir le théorème pour h.
Soit h : E → R une fonction mesurable. Le théorème de transfert s’applique à |h| :
Z
E(|h(X)|) = |h|dPX
E
Ainsi h ∈ L1 (E, E, PX ) ⇔ h(X) ∈ L1 (E, E, P). On décompose h = h+ − h− et on applique le théorème de transfert à

h+ et h− , ce qui conclut.
R
Remarque : Si il existe une mesure µ telle que pour toute fonction mesurable bornée h : E → R, E(h(X)) = E
hdµ,
alors µ = PX est la loi de X.
35
Théorème
Soit X une variable aléatoire sur un espace probabilisé (Ω, F, P) à valeurs dans E dont la loi PX admet une
densité fX et soit h : E → R une fonction mesurable telle que :
Z
|h(x)|fX (x)λ(dx) < +∞
R
Alors, X admet un moment d’ordre 1 et :

Z
E(h(X)) = h(x)fX (x)λ(dx)
R
Proposition
Soit (Xn )n∈N une suite de variables aléatoires sur un espace probabilisé (Ω, F, P) à valeurs dans R.
• Si (Xn ) est une suite croissante et positive, alors lim E(Xn ) = E( lim Xn ) (théorème de la convergence
n→+∞ n→+∞
monotone)
• Si (Xn )n∈N est une suite positive alors E(lim inf Xn ) ≤ lim inf E(Xn ) (lemme de Fatou)
• Si ∀n ∈ N, Xn ≤ Z avec Z ∈ L1 alors lim E(Xn ) = E( lim Xn ) (théorème de la convergence dominée)
n→+∞ n→+∞
Proposition
Pour un évènement A, E(1A ) = P(A).

Pour deux variables aléatoires X et Y , et un réel a, E(aX + Y ) = aE(X) + E(Y ).
Remarque : Cela nous permet d’en déduire par exemple que pour tout réel a, E(a) = a ou encore que E(X −E(X)) = 0.
Définition
Soit X une variable aléatoire sur un espace probabilisé (Ω, F, P) à valeurs dans R.
On dit que X admet un moment centré d’ordre n ∈ N∗ si X − E(X) ∈ Ln (Ω, F, P). Dans ce cas, on note :
Z
µn = (X − E(X))n dP
Ω
Le moment centré d’ordre 2 est appelé variance de la variable aléatoire et noté Var(X).
Remarque : µ2 = m2 − m21 c’est-à-dire Var(X) = E(X 2 ) − E(X)2 > 0.
Proposition
Pour deux variables aléatoires X et Y , et un réel a, Var(aX) = a2 Var(X) et Var(X + a) = Var(X).
Définition
Soit X une variable aléatoire sur un espace probabilisé (Ω, F, P) à valeurs dans R admettant un moment d’ordre
2. p
On appelle écart-type le réel positif σ(X) = Var(X).
Remarque : On a la propriété σ(aX) = aσ(X). Attention cependant, contrairement à l’espérance on a généralement

pas Var(X + Y ) = Var(X) + Var(Y ) ou σ(X + Y ) = σ(X) + σ(Y ).
Théorème (Inégalité de Chebyshev)
Soit X une variable aléatoire sur un espace probabilisé (Ω, F, P) à valeurs dans R admettant un moment d’ordre
2. Alors :
1
P(|X − E(X)| ≥ aσ) ≤ 2
a
36
Démonstration : On utilise l’inégalité de Markov :
E(|X − E(X)|2 1
P(|X − E(X)| ≥ aσ) = P(|X − E(X)|2 ≥ a2 Var(X)) ≤ = 2
a2 Var(x) a
Remarque : Ceci implique que Var(X) = 0 ⇔ X = E(X) presque partout.
Définition
Le moment d’ordre 3 donne une indication sur la symétrie. On utilise souvent le coefficient d’asymétrie
µ3
3/2 .
µ2
µ4
Le moment d’ordre 4 donne une indication sur les queues de distribution. On utilise souvent le kurtosis µ22
(et l’excès de kurtosis : µµ24 − 3)
2
Section VI.5 - Fonction de répartition
Définition
Considérons R muni d’une tribu contenant la tribu de Borel, et muni d’une mesure de probabilité P.
On appelle fonction de répartition l’application F : R → [0, 1] définie par F (x) = P(] − ∞, x]).
P6 1
Exemple : Pour la modélistion du lancé d’un dé, P = i=1 6 δi . La fonction de répartition est alors f (x) =
P6
i=1 1[i,+∞[ (x).
Proposition
Soit F une fonction de répartition. Alors, F est croissante et continue à droite, et vérifie lim F (x) = 0 et
x→−∞
lim F (x) = 1
x→+∞
Démonstration : x < y ⇒] − ∞, x] ⊂] − ∞, y] ⇒ P(] − ∞, x]) ≤ P(] − ∞, y]) ⇒ F (x) ≤ F (y).

Soit (xn ) une suite décroissante convergeant vers x. On a ] − ∞, xn+1 ] ⊂] − ∞, xn ] et ∩n∈N ] − ∞, xn ] =] − ∞, x]. Donc
lim F (xn ) = F (x), ce qui montre la continuité à droite. Les limites en −∞ et +∞ se démontrent de façon analogue.
n→+∞
Théorème
Soit F une fonction de R dans R croissante, continue à droite et vérifiant lim F (x) = 0 et lim F (x) = 1.
x→−∞ x→+∞
Alors il existe une mesure de probabilité dont elle est la fonction de répartition.
Définition
On appelle π-système sur Ω toute collection J de parties de Ω stable par intersection finie.
Exemple : L’ensemble {] − ∞, x]; x ∈ R} est un π-système.
Proposition (Lemme de classe monotone)
Deux mesures de probabilité qui coı̈ncident sur un π-système J coı̈ncident également sur σ(J ), la tribu en-
gendrée par J .
Théorème
Considérons R muni de la tribu de Borel. Soit P1 et P2 deux mesures, F1 et F2 leurs fonctions de répartition
respectives. Alors :
F1 = F2 ⇔ P1 = P2
Démonstration : Le sens ⇐ est immédiat. Pour le sens ⇒, on suppose que ∀x ∈ R, P1 (] − ∞, x]) = P2 (] − ∞, x]). On
a σ({] − ∞, x]; x ∈ R}) ⊂ B(R) car les fermés sont dans B(R), et B(R) ⊂ σ({] − ∞, x]; x ∈ R}) car les ]a, b[ sont une
37
base de la topologie de R et ]a, b[= (∪n∈N∗ ] − ∞, b − n1 ])∩] − ∞, a]. Ainsi σ({] − ∞, x]; x ∈ R}) = B(R) ce qui conclut
que P1 = P2 par le lemme de classe monotone.
Proposition
Considérons R muni de la tribu de Borel, P une mesure et F sa fonction de répartition. Alors :
∀x ∈ R, P({x}) = F (x) − lim

−
F
x
Démonstration : P(] − ∞, x[) = lim

−
F et ] − ∞, x] =] − ∞, x[∪{x} donc P(] − ∞, x]) = P(] − ∞, x[) + P({x}). Ainsi
x
P({x}) = F (x) − limF .
x−
Proposition
La fonction de répartition est continue si et seulement si la msure de probabilité associée est diffuse (i.e. sans
atomes)
Démonstration : Il s’agit d’un corollaire de la proposition précédente.
Proposition
Si P est une mesure de probabilité de densité f alors sa fonction de répartition est :

Z
F : x 7→ f dλ
]−∞,x]
Section VI.6 - Quelques lois remarquables
Définition
Soit n ∈ N ∗ . On considère E = {e1 , ..., en }.

Une variable aléatoire X suit la loi uniforme discrète signifie :
n
X 1
PX = δ ei
i=1
n
Cette loi permet de modéliser des situations où il y a un nombre fini de résultats équiprobables.
Définition
Soit p ∈]0, 1[. On considère E = {e1 , e2 }.

X suit une loi de Bernoulli de paramètre p signifie
PX = pδe1 + (1 − p)δe2
Cette loi permet de modéliser des expériences aléatoires dont l’issue est le succès ou l’échec.
Définition
Soit n ∈ N∗ , p ∈]0, 1[. On considère E = [[0, n]].

X suit une loi binomiale de paramètres n, p signifie
n
X
PX = pk (1 − p)n−k δk
k=0
Cette loi permet de modéliser le nombre de succès lors de la répétition de n expériences aléatoires identiques
et indépendantes dont la probabilité de succès est p. On note X ∼ B(n, p).
38
Proposition
Soit n ∈ N∗ , p ∈]0, 1[ et X ∼ B(n, p).

Alors E(X) = np, Var(X) = np(1 − p) et le coefficient d’asymétrie de X vaut √ 1−2p .
np(1−p)
Définition
Soit λ ∈]0, +∞[. On considère E = N.

X suit une loi de Poisson de paramètre λ signifie
+∞ k
X λ
PX = e−λ δk
k!
k=0
Cette loi permet de modéliser le nombre de fois où un évènement se produit dans un intervalle, lorsque l’on
sait que le nombre moyen d’occurrences et habituellement de λ dans cet intervalle. On note X ∼ Pois(λ).
Proposition
Soit λ ∈]0, +∞[ et X ∼ Pois(λ).

Alors E(X) = λ, Var(X) = λ et le coefficient d’asymétrie de X vaut √1 .
λ
Définition
Soit p ∈]0, 1[ et E = N∗ .
X suit une loi géométrique de paramètre p signifie
+∞
X
PX = pk (1 − p)δk
k=1
Cette loi est utile pour modéliser le nombre de succès consécutifs avant un échec lorsque l’on répète des
expériences identiques et indépendantes de probabilité de succès p. On note X ∼ G(p).
Proposition
Soit p ∈]0, 1[ et X ∼ G(p).

p p 1+p
Alors E(X) = 1−p , Var(X) = (1−p)2 et le coefficient d’asymétrie de X vaut √ .
p
Définition
Soit a, b ∈ R tels que a < b. On considère E = R.
X suit une loi uniforme continue de paramètres a et b signifie PX a pour densité
1
fX (x) = 1[a,b]
b−a
Cette loi est utile pour modéliser le nombre de succès consécutifs avant un échec lorsque l’on répète des
expériences identiques et indépendantes de probabilité de succès p. On note X ∼ U(a, b).
Proposition
Soit a, b ∈ R tels que a < b et X ∼ U(a, b).

(b−a)2
Alors E(X) = a+b 2 , Var(X) = 12 et le coefficient d’asymétrie de X vaut 0.
39
Définition
Soit λ ∈]0, +∞[. On considère E = R+ .

X suit une loi exponentielle de paramètre λ signifie PX a pour densité
fX (x) = λe−λx
Cette loi permet de modéliser la durée entre les occurrences d’un évènement.
Proposition
Soit λ ∈]0, +∞[ et X qui suit une loi exponentielle.

Alors E(X) = λ1 , Var(X) = λ12 et le coefficient d’asymétrie de X vaut 2.
Définition
Soit p ∈]0, +∞[ et λ ∈]0, +∞[. On considère E = R+ .

X suit une loi Gamma de paramètres p et λ signifie PX a pour densité
λ
fX (x) = (λx)p−1 e−λx
Γ(p)
R +∞
où Γ(z) = 0 tx−1 e−t dt. Lorsque p = 1, on retrouve une loi exponentielle. On note parfois θ = 1
λ. On note
X ∼ γ(p, λ).
Proposition
Soit p, λ ∈]0, +∞[ et X ∼ γ(p, λ).

Alors E(X) = λp , Var(X) = λp2 et le coefficient d’asymétrie de X vaut √2 .
p
Définition
Soit m ∈R et σ ∈]0, +∞[. On considère E = R.

X suit une loi normale de paramètres m et σ 2 signifie PX a pour densité
(x − m)2

1
fX (x) = √ exp −
2πσ 2σ 2
On note X ∼ N (m, σ 2 ).
Proposition
Soit m ∈ R, σ ∈]0, +∞[ et X ∼ N (m, σ 2 ).

Alors E(X) = m, Var(X) = σ 2 et le coefficient d’asymétrie de X vaut 0.
40
Chapitre VII. Mesure produit, Convolution
Section VII.1 - Espace produit
Définition
Soit (E, E) et (F, F) deux espaces mesurables.

On appelle tribu produit sur E × F la tribu σ(E × F). On la note E ⊗ F.
Exemple : Si E = F = R, E = F = B(R), alors E × F n’est pas directement une tribu (la réunion de deux rectangles
n’est pas un rectangle). E ⊗ F est la plus petite tribu contenant E × F ; on part de E × F, et on espère s’arrêter avant
P(E × F).
Remarque : En général, ⊗ n’est pas commutatif.
Proposition
Soit (E1 , E1 ), ..., (En , En ) des espaces mesurables. Qn

Pour tout k ∈ [[1, n]], la projection canonique πk : i=1 Ei → Ek définie par πk = (x1 , ..., xn ) 7→ xk est
mesurable.
La tribu produit est la plus petite tribu rendant mesurable les n projections canoniques.
Qk−1 Qn Qn
Démonstration : Soit A ∈ Ek . Alors πk−1 (A) = ( i=1 Ei ) × A × ( i=k+1 Ei ) ∈ i=1 Ei ⊂ ⊗ni=1 Ei , donc πk est
mesurable. Qn Qk−1
Supposons π1 , ..., πn mesurables et A = i=1 Ai où Ai ∈ Ei . Alors ∀k ∈ [[1, n]], πk−1 (Ak ) = ( i=1 Ei ) × Ak ×
Qn k−1 n Qn
( i=k+1 Ei ) ∈ ⊗ni=1 Ei . Donc A = ∩nk=1 ( i=1 Ei ) × Q
Ak × ( i=k+1 Ei ) ∈ ⊗ni=1 Ei . Ainsi ⊗ni=1 Ei contient σ( i=1 Ei ).
Q Q
n
La plus petite tribu rendant les πk mesurables est σ( i=1 Ei ).
Proposition
On a B(Rn ) = (B(R))⊗n = B(R) ⊗ ... ⊗ B(R).

Qn
Démonstration : Soit l’ensemble R des produits cartésiens mesurables de (B(R))⊗n . Soit A ∈ R, alors A = i=1 Ai
−1 −1
avec Ai ∈ B(R). Pour tout k ∈ [[1, n]], πk (Ak ) ∈ B(Rn ). Or ∩ni=1 πk (Ak ) = A donc A ∈ B(Rn ). Donc R ⊂ B(Rn ),
donc σ(R) ⊂ B(Rn ). Or σ(R) = (B(R))⊗n d’où (B(R))⊗n ⊂ B(Rn ).
On considère désormais C l’ensemble des pavés de Rn :
( n )
Y
C= ]ai , bi [; ∀i ∈ [[1, n]], ai ∈ R, bi ∈ R et ai < bi
i=1
et l’ensemble R des produits cartésiens mesurables de (B(R))⊗n . C ⊂ R donc B(Rn ) = σ(C) ⊂ σ(R) = (B(R))⊗n , car
les ouverts s’expriment comme réunion dénombrable de pavés. D’où le résultat.
Définition
Soit E et F deux ensembles et A ⊂ E × F .
Pour e ∈ E, on appelle la x-section de A l’ensemble
Ae = {y ∈ F ; (e, y) ∈ A}
Pour f ∈ F , on appelle la y-section de A l’ensemble
Af = {x ∈ E; (x, f ) ∈ A}
Proposition
Soit E et F deux ensembles.

Pour tout A ⊂ E × F, (E × F \A)e = F \Ae .
Pour toute famille (Ai )i∈I d’ensembles inclus dans E × F , (∪i∈I Ai )e = ∪i∈I (Ai )e et (∩i∈I Ai )e = ∩i∈I (Ai )e .
Les propriétés sont analogues pour les y-sections.
41
Proposition
Soit (E, E) et (F, F) deux espaces mesurables, et C ∈ E ⊗ F.

Alors, ∀e ∈ E, Ce ∈ F et ∀f ∈ F, C f ∈ E.
Démonstration : Soit C(e) = {C ∈ E ⊗ F; Ce ∈ F }. C’est une tribu. Soit C = A × B où A ∈ E et B ∈ F. Si e ∈ A

alors Ce = B, sinon C = ∅. Dans les deux cas, Ce ∈ F. Donc C ∈ C(e) : cette tribu contient les A × B où A ∈ E et
B ∈ F. Ainsi E ⊗ F ⊂ C(e), d’où E ⊗ F = C(e).
Proposition
Soit (E, E), (F, F) et (G, G) des espaces mesurables.

Soit e ∈ E, f ∈ F et φ : E × F → G mesurable.
Alors les applications partielles φy=f : E → G telle que φy=f : x 7→ φ(x, f ) et φx=e : F → G telle que
φx=e : y 7→ φ(e, y) sont mesurables.
Démonstration : Soit C ∈ G. Alors φ−1

y=f (C) = {x ∈ E; φ(x, f ) ∈ C} = {(x, f ) ∈ E × F ; (x, f ) ∈ φ
−1
(C)} = φ−1 (C)f ,
−1
ce qui conclut puisque φ (C) est mesurable, donc sa y-section aussi.
Proposition (Lemme de classe monotone, généralisation)
Soit µ et ν deux mesures finies sur un espace mesurable (E, E).

Soit J un π-système sur E.
Si µ et ν coı̈ncident sur J alors elles coı̈ncident sur σ(J ). De plus, s’il existe dans J une suite (An )n∈N telle
que ∀n ∈ N, µ(An ) < +∞ et ∪n∈N An = E, alors le résultat persiste même lorsque µ(E) = +∞.
Définition
On dit qu’une collection J de parties de E est un λ-système ssi :
1. E ∈ J
2. A ∈ J ⇒ E\A ∈ J
3. Pour toute suite (An )n∈N d’éléments disjoints de J , ∪n∈N An ∈ J .
Théorème (Dynkin)
Tout λ-système qui contient un π-système contient également la tribu engendrée par ce π-système.
Théorème
Soit (E, E, µ) et (F, F, ν). On suppose que µ et ν sont σ-finies. Alors :

• Il existe une unique mesure m sur (E × F, E ⊗ F) telle que
∀A ∈ E, ∀B ∈ F, m(A × B) = µ(A)ν(B)
• m est σ-finie, on l’appelle mesure produit de µ et ν et on note
m=µ⊗ν
• Pour tout C ∈ E ⊗ F : Z Z
(µ ⊗ ν)(C) = ν(Cx )µ(dx) = µ(C y )ν(dy)
E F
Démonstration : On se place dans le cas où µ et ν sont finies. On définit la fonction m de E ⊗ F dans [0, +∞] par :
Z
∀C ∈ E ⊗ F, m(C) = ν(Cx )µ(dx)
E
ν(Cx ) est bien défini puisque Cx est la x-section d’un ensemble mesurable. On pose
G = {C ∈ E ⊗ F; hC est borélienne}
G contient tous les produits cartésiens A × B où A ∈ E et B ∈ F. En effet, soit A ∈ E et B ∈ F. (A × B)x = B
si x ∈ A, (A × B)x = ∅ sinon. Ainsi ν((A × B)x ) = 1A (x)ν(B), donc hA×B est borélienne (A est mesurable). Par
42
ailleurs, c’est un λ-système ; ∅ ∈ G car h∅ est la fonction nulle, donc mesurable. Soit C ∈ G. Alors h(E×F )\C =
ν(((E × F )\C)x ) = ν(F \Cx ) = ν(F ) − ν(Cx ). Ainsi h(E×F )\C = ν(F ) − hC est borélienne, et (E × F )\C ∈ G. Si
C1 et C2 sont deux ensembles disjoints de G alors hC1 ∪C2 = hC1 + hC2 est borélienne donc C1 ∪ C2 ∈ G. G est stable
+∞
par union disjointe finie. Soit (Cn )n∈N une suite d’ensembles disjoints de G. On pose YN = ∪N n=0 Cn et Z = ∪n=0 Cn .
hYN est borélienne et croissante. Elle converge vers hZ , qui est donc borélienne. Ainsi Z ∈ G. En conséquence, G est
un λ-système, qui contient le π-système de l’ensemble des produits cartésiens A × B où A ∈ E et B ∈ F. D’après
le théorème de Dynkin, G contient la tribu engendrée par ce π-système, donc contient E ⊗ F, soit G = E ⊗ F. Ainsi
hC : x 7→ ν(Cx ) est bien borélienne, et m est bien définie, et
Z Z
m(A × B) = ν((A × B)x )µ(dx) = 1A (x)ν(B)µ(dx)
E E
Z
= ν(B) 1A (x)µ(dx) = µ(A)ν(B)
R
Vérifions maintenant que m est une mesure. On a m(∅) = E ν(∅x )µ(dx) = 0, et pour toute suite (Cn )n∈N d’éléments
deux-à-deux disjoints de E ⊗ F :
Z Z
m(∪n∈N Cn ) = ν((∪n∈N Cn )x )µ(dx) = ν(∪n∈N ((Cn )x )µ(dx)
E E
Z +∞
! +∞ Z +∞
X X X
= ν((Cn )x ) µ(dx) = ν((Cn )x )µ(dx) = m(Cn )
E n=0 n=0 E n=0
m est donc bien une mesure. Celle-ci est par ailleurs unique, car si m et m0 sont deux mesures telles que ∀A ∈ E, ∀B ∈
F, m(A × B) = µ(A)ν(B) = m0 (A × B), alors m et m0 coı̈ncident sur un π-système et donc d’après le lemme de classe
monotone, m et m0 coı̈ncident sur la tribu engendrée par les produits cartésiens d’ensembles de E et F, c’est-à-dire
E ⊗ F ; donc m = m0 .
Exemple : Considérons la mesure de Lebesgue λ sur R muni de la tribu de Lebesgue. Soit a1 , a2 , b1 , b2 quatre réels
avec a1 < b1 et a2 < b2 . Alors (λ ⊗ λ)(]a1 , b1 [×]a2 , b2 [) = λ(]a1 , b1 [)λ(]a2 , b2 [) = (b1 − a1 )(b2 − a2 ). On a donc bien
généralisé le fait que l’aire d’un rectangle est le produit du longueur par la largeur. De façon analogue, λ(n) = λ⊗n .
Section VII.2 - Intégrales multiples
Théorème (Fubini-Tonelli)
Soit (E, E, µ) et (F, F, ν) deux espaces mesurés, avec µ et ν σ-finies. Soit f : E × F → [0, +∞] mesurable.
Alors : Z
• x 7→ f (x, y)ν(dy) est µ-mesurable
F
Z
• y 7→ f (x, y)µ(dx) est ν-mesurable
E
Z Z Z Z
• f (x, y)ν(dy) µ(dx) = f (x, y)µ(dx) ν(dy)
E F F E
Z
= f (x, y)(µ ⊗ ν)(dx, dy)
E×F
R R
Démonstration : Soit RC ∈ E ⊗ F. Pour f = 1C , on a x 7→ F 1C (x, y)ν(dy) = F 1Cx (y)ν(dy) = ν(Cx ) qui est
µ-mesurable, et y 7→ E 1C (x, y)µ(dx) = µ(C y ) est ν-mesurable. Par linéarité, on obtient la mesurabilité pour toute
fonction étagée positive, puis par limite croissante, pour tout f positive.
Soit C ∈ E ⊗F. Pour f = 1C , l’égalité demandée est (E ⊗F)(C) = E ν(Cx )µ(dx) = F µ(C y )ν(dy) que l’on sait vraie.
R R
On l’obtient ensuite par linéarité pour toute f étagée positive, puis, par limite croissante, pour toute fonction f positive.
43
Théorème (Fubini-Lebesgue)
Soit (E, E, µ) et (F, F, ν) deux espaces mesurés, avec µ et ν σ-finies. Soit f ∈ L1 (E × F, E ⊗ F, µ ⊗ ν). Alors :
• x 7→ f (x, y) est dans L1 (E, E, µ) pour ν-presque tout y, y 7→ f (x, y) est dans L1 (F, F, ν) pour µ-presque tout
x.
• y 7→ E f (x, y)µ(dx) est ν-mesurable, définie presque partout et dans L1 (F, F, ν), et x 7→ F f (x, y)ν(dy) est
R R
µ-mesurable, définie presque partout et dans L1 (E, E, µ).

Z Z Z Z
• f (x, y)ν(dy) µ(dx) = f (x, y)µ(dx) ν(dy)
E F F E
Z
= f (x, y)(µ ⊗ ν)(dx, dy)
E×F
R R
Démonstration
R : |f | est mesurable est positive, donc d’aprèsR le théorème de Fubini-Tonelli, E ( F |f (x, y)|µ(dx))ν(dy) =
E×F
|f (x, y)|(µ ⊗ ν)(dx, dy) < +∞ par hypothèse, donc F |f (x, y)|µ(dx) < +∞ presque partout. Ainsi y 7→ f (x, y)
1 1
est dans R L (F, F, ν) presque partout. De même, on montre que x 7→ f (x, y) est dans L (E, R E,
R µ) presque partout.

x →
7
R R F f (x, y)ν(dy) est bien définie sauf sur un ensemble négligeable. On a alors E
f (x, y)ν(dy) µ(dx) ≤
F
( |f (x, y)|ν(dy)|µ(dx) ≤ E×F |f |d(µ ⊗ ν). Ainsi x 7→ F f (x, y)ν(dy) est dans L1 (E, E, µ) et de la même manière,
R R
E F
y 7→ E f (x, y)µ(dx) est dans L1 (F, F, ν).
R
Enfin, en décomposant f = f + − f − , et en appliquant le théorème de Fubini-Tonelli à f + et à f − , on obtient le dernier

résultat.
Exemples : Pour calculer [2,3]×[0,1] xyλ(2) (dx, dy), on peut remarquer que la mesure de Lebesgue est σ-finie et que
R
(x, y) 7→ xy1[2,3]×[0,1] ∈ L1 (R2 ) donc le théorème de Fubini-Lebesgue s’applique.

xyλ(2) (dx, dy) = [0,1] y( [2,3] xλ(dx))λ(dy) = 54 .
R R R
[2,3]×[0,1]
Pour calculer n∈N,m∈N 2n13m , on peut remarquer que la mesure de comptage sur N est σ-finie sur N, et donc le
P
1 1 1
P P P
théorème de Fubini-Tonelli s’applique : n∈N,m∈N 2n 3m = n∈N 2n m∈N 3m = 3.
Proposition (Changement de variable linéaire)
Soit φ : Rd → Rd une application linéaire bijective.

Soit f une application intégrable sur Rd . Alors :
Z Z
f (φ(x))| det φ|λ(d) (dx) = f (y)λ(d) (dy)
Rd Rd
et pour tout borélien A : Z Z

f (φ(x))| det φ|λ(d) (dx) = f (y)λ(d) (dy)
A φ(A)
(y12 + y22 )λ(2) (dy1 , dy2 ) = ((2x1 )2 + (2x2 )2 )4λ(2) (dx1 , dx2 ).
R R
Exemple : B(0,1) B(0, 12 )
Définition
Soit U et V deux ouverts non vides de Rd , φ : U → V un difféomorphisme C 1 et x = (x1 , ..., xn ) ∈ Rd . On

appelle matrice jacobienne de φ la matrice :
 ∂φ1 ∂φ1 
∂x1 (x1 , ..., xn ) ... ∂xd (x1 , ..., xd )
Dφ(x) = 
 .. .. .. 
. . . 
∂φd ∂φd
∂x1 (x1 , ..., xd ) ... ∂xd (x1 , ..., xd )
On appelle alors Jacobien de φ en x le nombre réel Jφ(x) = det(Dφ(x)).
44
Proposition (Changement de variable linéaire)
Soit U et V deux ouverts non vides de Rd et φ : U → V un difféomorphisme C 1 .

Soit f une application borélienne sur U . Alors f est intégrable sur V ssi (f ◦ φ)|Jφ| est intégrable sur U . Dans
ce cas : Z Z
(d)
f (φ(x))|Jφ(x)|λ (dx) = f (y)λ(d) (dy)
U V
Exemple : En prenant φ : (r, θ) 7→ (r cos θ, r sin θ), on a Jφ = r et :

2 2 2
ex1 +x2 λ(2) (dx1 , dx2 ) = ]0,1[×]0,2π[ rer λ(dr, dθ) = ]0,2π[ ( [0,1] r exp(r2 )λ(dr))λ(dθ) = π(e − 1).
R R R R
B(0,1)
Section VII.3 - Indépendance des variables aléatoires
Définition
Soit (Ω, A, P) un espace probabilisé et X : Ω → (E, E), Y : Ω → (F, F) deux variables aléatoires.
La construction de la tribu produit et de la mesure produit permet de définir une variable aléatoire Z : Ω →
(E × F, E ⊗ F) telle que Z(ω) = (X(ω), Y (ω)). Z sera notée (X, Y ).
La loi P(X,Y ) de (X, Y ) est la mesure définie sur E ⊗ F par ∀C ∈ E ⊗ F, P(X,Y ) (C) = P((X, Y ) ∈ C).
Remarque : Pour C = A × B avec A ∈ E et B ∈ F, on a P(X,Y ) (C) = P((X, Y ) ∈ A × B) = P(X ∈ A, Y ∈ B).
Définition
Soit (Ω, A, P) un espace probabilisé et X : Ω → (E, E), Y : Ω → (F, F) deux variables aléatoires.
On note PX la loi de X, PY la loi de Y et P(X,Y ) la loi jointe de (X, Y ). On dit alors que X et Y sont
indépendantes ssi P(X,Y ) = PX ⊗ PY . Les lois PX et PY sont appelées lois marginales de (X, Y ).
Proposition
Soit (Ω, A, P) un espace probabilisé et X : Ω → (E, E), Y : Ω → (F, F) deux variables aléatoires. X et Y sont
indépendantes ssi :
∀A ∈ E, ∀B ∈ F, P(X ∈ A, Y ∈ B) = P(X ∈ A)P(X ∈ B)
Démonstration : Le sens ⇒ découle directement de la définition de l’indépendance, et le sens ⇐ repose sur le fait que
P(X,Y ) et PX ⊗ PY sont finies et coı̈ncident sur un π-système, donc sont égales par le lemme de classe monotone.
Proposition
Soit (Ω, A, P) un espace probabilisé, X : Ω → (E, E) et Y : Ω → (F, F) deux variables aléatoires.

X et Y sont indépendantes ssi pour toutes fonctions bornées mesurables f : E → R et g : F → R,
E(f (X)g(Y )) = E(f (X))E(g(Y )).
Démonstration : Le sens direct se démontre en remarquant qu’on a l’égalité pour les fonctions indicatrices, puis on
procède comme habituellement : on étend l’égalité aux fonctions étagées positives, puis aux fonctions positives, puis
à toute fonction bornée mesurable. Le sens indirect se montre en choisissant, pour A ∈ E et B ∈ F, les fonctions
f = 1A et g = 1B .
Remarque : X et Y sont indépendantes si et seulement si pour toutes fonctions bornées mesurables f : E → R et

g : F → R, f (X) et g(Y ) sont indépendantes.
Définition
Soit (Ω, A, P) un espace probabilisé et (Xi )i∈I une famille de variables aléatoires.
On dit que (Xi )i∈I est une famille indépendante ssi :
Pour tout J ⊂ I fini, P((Xi )i∈J ) = ⊗i∈J PXi
45
Définition
Soit (Ω, A, P) un espace probabilisé et (Ai )i∈I une famille de sous-tribus de A.

On dit que (Ai )i∈I est une famille de sous-tribus indépendante ssi :
Y
∀J ⊂ I fini, ∀Ai ∈ Ai , P(∩i∈J Ai ) = P(Ai )
i∈J
Proposition
Soit (Ω, A, P) un espace probabilisé, X : Ω → (E, E) et Y : Ω → (F, F) deux variables aléatoires.

X et Y sont indépendantes ssi pour toutes fonctions bornées mesurables f : E → R et g : F → R,
E(f (X)g(Y )) = E(f (X))E(g(Y )).
Proposition
Une famille de variables aléatoires (Xi )i∈J est indépendantes ssi les tribus σ(Xi ) le sont.
Section VII.4 - Convolution
Définition
Soit (E, +) un groupe commutatif, et T une topologie rendant l’application (x, y) 7→ x − y continue. On munit
E de sa tribu borélienne B(T ). Soit λ et µ deux mesures σ-finies sur (E, B(T )). On appelle produit de
convolution de la mesure µ par la mesure ν la mesure µ ∗ ν définie par :
Z
∀A ∈ B(T ), (µ ∗ ν)(A) = 1A (x + y)(µ ⊗ ν)(dx, dy)
E×E
Remarque : µ ∗ ν est bien définie puisque (x, y) 7→ x + y est borélienne. µ ∗ ν est la mesure image de µ ⊗ ν par
(x, y) 7→ x + y.
Proposition
Si µ et ν sont des mesures de probabilité, alors µ ∗ ν est une mesure de probabilité.

R
Démonstration : (µ ∗ ν)(E) = E×E
1E (x + y)(µ ⊗ ν)(dx, dy) = (µ ⊗ ν)(E) = 1.
Proposition
Si X et Y sont deux variables aléatoires indépendantes, alors PX ∗ PY = PX+Y .

R R
Démonstration : PX+Y (A) = P((X +Y ) ∈ A) = E×E
1A (X +Y )dPX,Y = E×E
1A (x+y)(PX ⊗PY )(dx, dy) = PX ∗PY .
Proposition
La mesure de Dirac en 0 est élément neutre pour la convolution.

R R R
Démonstration : (δ ∗ ν)(A) = E
( E 1A (x + y)δ(dx))ν(dy) = E 1A (y)ν(dy) = ν(A).
Proposition
Le produit de convolution est commutatif.
Démonstration : µ ∗ ν est la mesure image de µ ⊗ ν par (x, y) 7→ x + y. L’addition étant commutative, on a donc
µ ∗ ν = ν ∗ µ.
46
Définition
Soit f et Rg deux fonctions mesurables de Rd dans R.

Lorsque Rd |f (x − y)g(y)|λ(d) (dy) < +∞, on définit le produit de convolution de la fonction f par la
fonction g par : Z
f ∗ g = x 7→ f (x − y)g(y)λ(d) (dy)
Rd
Remarque : Si f et g sont positives et si µ et ν sont des mesures de densité f et g par rapport à la mesure de Lebesgue,
alors µ ∗ ν est une mesure de densité f ∗ g par rapport à la mesure de Lebesgue.
Proposition
• f ∗g =g∗f
• (f ∗ g) ∗ h = f ∗ (g ∗ h)
∀a ∈ R, f ∗ (g + ah) = f ∗ g + a(f ∗ h)
Théorème
Soit f et g dans L1 (Rd , B(Rd ), λ(d) ). Alors :

• (f ∗ g)(x) est définie pour presque tout x ∈ R
• f ∗ g ∈ L1 (Rd , B(Rd ), λ(d) )
• ||f ∗ g||1 ≤ ||f ||1 ||g||1
Démonstration : On note par commodité λ = λ(d) . D’après le théorème de Fubinni-Tonelli :

Z Z Z Z
|f (x − y)||g(y)|λ(dy) λ(dx) = |f (x − y)||g(y)|λ(dx) λ(dx)
Rd Rd Rd Rd
Z Z Z Z
|g(y)| |f (t − y)||g(y)|λ(dt) λ(dy) = |g(y)| |f (x)|λ(dx) λ(dy)
Rd Rd Rd Rd
Z Z
= |f (x)|λ(dx) |g(y)|λ(dy) < +∞
Rd Rd
Théorème
Soit p et q dans [1, +∞] conjugués, soit f ∈ Lp (Rd , B(Rd ), λ(d) ) et g ∈ Lq (Rd , B(Rd ), λ(d) .
Alors f ∗ g est bien définie, uniformément continue et bornée.
Démonstration : D’après Hölder :
||(y 7→ f (x − y)) × g||1 ≤ ||y 7→ f (x − y)||p ||g||q = ||f ||p ||g||q
Ainsi f ∗ g est bien définie. On ne démontrera pas ici les autres propriétés.
Théorème
1
Soit f ∈ CC (Rd ) et g ∈ L1 (Rd , B(Rd ), λ(d) ).
Alors f ∗ g est bien définie, de classe C 1 et ∀i ∈ [[1, d]], ∂i (f ∗ g) = (∂i f ) ∗ g.
Démonstration : On traite le cas d = 1. On a CC 1

(R) ⊂ CC0
(R) ⊂ L1 (Rd , B(Rd ), λ(d) ) donc f ∗ g et f 0 ∗ g sont bien
définies. Soit x ∈ R et > 0. Soit z ∈ R et h > 0. Alors :
Z
f (z + h) − f (z) = f 0 (u)λ(du)
[z,z+h]
Z
0
⇒ f (z + h) − f (z) − hf (z) = (f 0 (u) − f 0 (z))λ(du)
[z,z+h]
Z
=h (f 0 (z + hv) − f 0 (z))λ(dv)
[0,1]
47
f (z + h) − f (z)
Z
⇒ − f 0 (z) = (f 0 (z + hv) − f 0 (z))λ(dv)
h [0,1]
f 0 est continue sur un compact, donc uniformément continue (Heine), donc il existe η > 0 tel que |z1 − z2 | < η ⇒
|f 0 (z1 ) − f 0 (z2 )| < ||g||

1
. Pour h < η, on a donc |f 0 (z + hv) − f 0 (z)| < ||g||

1
d’où | f (z+h)−f
h
(z)
− f 0 (z)| < ||g||

1
. On a
alors, en multipliant par g(y) et en intégrant :
Z
f (x − y + h) − f (x − y) 0
− f (x − y) g(y)λ(dy) <
R h
(f ∗ g)(x + h) − (f ∗ g)(x)
⇒ − (f 0 ∗ g)(x) <
h
D’où le résultat.
Proposition
k
Soit f ∈ CC (Rd ) et g ∈ L1 (Rd , B(Rd ), λ(d) ).
Alors f ∗ g est bien définie, de classe C k et :
∂1n1 ...∂dnd (f ∗ g) = (∂1n1 ...∂dnd f ) ∗ g
où n1 + ... + nd ≤ k.
Démonstration : C’est un corollaire du théorème précédent.
Définition
Soit u = (un )n∈Zd et v = (vn )n∈Zd deux suites.

La suite u ∗ v dont le n-ième terme vaut X
un−k vk
k∈Z d
est le produit de convolution de u = (un )n∈Z d par (v = (vn )n∈Z d .
Remarques : On prendra gare au fait que n et k sont des multi-indices : n = (n1 , ..., nd ) et k = (k1 , ...kd ).
Si u et v sont positives et si µ et ν sont des mesures de densité u et v par rapport à la mesure de comptage alors µ ∗ ν
est une mesure de densité u ∗ v par rapport à la mesure de comptage.
Si u et v sont absolument convergentes alors u ∗ v est bien défini.
La mesure de Dirac δ en 0 est une mesure de densité u = (un )n∈Z par rapport à la mesure de comptage pour u0 = 1
et ∀n ∈ Zd \{0, }, un = 0. Cette suite (un )n∈Zd est donc élément neutre pour la convolution des suites.
n β n −β
Exemple : Soit un = αn! e−α et vn = n! e , où α et β sont des réels strictement positifs. Soit la suite (wn )n∈N =
(un )n∈N ∗ (vn )n∈N . Alors :
n n
X X αn−k −α β k −β
wn = un−k vk = e e
(n − k)! k!
k=0 k=0
−(α+β) n
e X n (α + β)n −(α+β)
= αn−k β k = e
n! k n!
k=0
On vient ici de montrer que la somme de deux variables indépendantes suivant des lois de Poisson de paramètre α et
β est une loi de Poisson de paramètre α + β.
Définition
OnRappelle noyau de sommabilité toute suite (kn )n∈N de fonctions intégrables vérifiant :
1. E kn dµR = 1
2. supn∈N |kn |dµ < +∞ R
3. Pour tout F ⊂ E\{0} fermé, lim F kn dµ = 0
n→+∞
48
Proposition
Soit f ∈ Lp (E, E, µ) et (kn )n∈N un noyau de sommabilité. Alors :
lim ||kn ∗ f − f ||p = 0

n→+∞
Pk 1
PK−1
Exemple : On considère Dk (x) = n=−k einx et FK (x) = K k=0 Dk (x). On rappelle que nous avons déjà vu dans
le chapitre V que :
!2
1 sin Kx2
FK (x) = prolongé par K en 0[2π]
K sin x2
(FK )K∈N∗ est un noyau de sommabilité pour E = [0, 2π]. Dans le chapitre V, la démonstration effectuée pour
1
démontrer que {x 7→ einx , n ∈ Z} est une base hilbertienne de L2C ([0, 2π], B([0, 2π]), 2π λ) revient fondamentalement à
appliquer cette proposition.
On se place désormais dans Rd avec d ∈ N∗ . Pour tout n ∈ N∗ , on définit :
kn (x) = x 7→ nd exp(−πn2 ||x||2 )
Il s’agit d’un noyau de sommabilité, qu’on appelle noyau de Gauss.
Définition
OnRappelle suite régularisante toute suite (ρn )n∈N satisfaisant pour tout n :
1. E ρn dµ = 1
2. ρn ≥ 0
3. Supp ρn ⊂ B(0, n ) avec lim n = 0
n→+∞
4. ρn ∈ C +∞ (Rd )
Exemple : On pose :
(
−1
exp 1−||x||2 si ||x|| < 1
Ψ(x) =
0 sinon
R
et on note c = Rd
Ψdλ. Un exemple de suite régularisante est alors :
( d
nd n
c exp −1
1−n2 ||x||2 si ||x|| < 1
n
ρn (x) = Ψ(nx) =
c 0 sinon
Proposition
Soit (ρn )n∈N une suite régularisante, p ∈ [1, +∞[ et f ∈ Lp (Rd ). Alors ρn ∗ f → f dans Lp et ρn ∗ f → f
uniformément sur tout compact.
Théorème
∞
Pour tout ouvert connexe Ω de Rd et pour tout p ∈ [1, +∞[, D(Ω) = CC (Ω) est dense dans Lp (Ω, B(Ω), λ).
49
Chapitre VIII. Vecteurs aléatoires
Section VIII.1 - Fonctions de répartition, Copules
Définition
Soit (Ω, A, P) un espace probabilisé, X1 , ..., Xd des variables aléatoires définies sur (R, B(R)). On dit que
X : Ω 7→ Rd telle que  
X1 (ω)
∀ω ∈ Ω, X(ω) =  ... 
 
Xd (ω)
est un vecteur aléatoire.
On parle aussi de variable aléatoire multidimensionnelle.
Exemple : Le lancer de 2 dés peut être modélisée par un vecteur aléatoire de R2 .
Définition
Soit X : Ω → Rd un vecteur aléatoire (X = (X1 , ..., Xd )).

La fonction de répartition (multivariée) de X est la fonction FX : Rd → [0, 1] définie par :
FX (x1 , ..., xd ) = P(Xi < xi pour i ∈ [[1, d]])
Proposition
Soit X : Ω → Rd un vecteur aléatoire. Notons F = FX . Alors :

• F est croissante dans chacune de ses variables.
• F est continue à droite dans chacune de ses variables.
• Pour tout i ∈ [[1, d]], lim F (x1 , ..., xd ) = 0.
xi →−∞
• lim F (x1 , ..., xd ) = 1.
(x1 ,...,xd )→(+∞,...,+∞)
Proposition
Soit X = (X1 , ..., Xd ) : Ω → Rd un vecteur aléatoire dont la fonction de répartition est F : Rd → R, alors :
X Pd
P(X ∈ [xi1 , xi2 ], i ∈ [[1, d]]) = (−1)( j=1 ij ) F (x1i1 , ..., xdid )
(i1 ,...,id )∈{1,2}d
Démonstration : Par récurrence sur d.
Proposition
Soit X : Ω → Rd un vecteur aléatoire. Sa loi PX : Rd → R est caractérisée par sa fonction de répartition

FX : Rd → R.
Démonstration : PX caractérise FX par construction de FX , et FX caractérise PX par coı̈ncidence sur le π-système

des pavés.
50
Définition
Soit X = (X1 , ..., Xd ) : Ω → Rd un vecteur aléatoire et FX sa fonction de répartition.

On appelle lois marginales de X les lois :
• des Xi prises séparément
FXi (xi ) = P(Xi ≤ xi ) = lim FX (x1 , ..., xd )

(x1 ,...,xi−1 ,xi+1 ,...,xd →(+∞,...,+∞)
• ou de plusieurs composantes Xi1 , ..., Xik du vecteur aléatoire X
FXi1 ,...,Xik (xi1 , ..., xik ) = P(Xi1 ≤ xi1 , ..., Xik ≤ xik )
= lim FX (x1 , ..., xd )

xij →+∞ pour j6∈[[1,k]]
Proposition
Soit (Ω, A, P) un espace probabilisé et Xi : Ω → (R, B(R)) d variables aléatoires.

Alors, les Xi sont indépendantes ssi :
∀(x1 , ..., xd ) ∈ Rd , FX (x1 , ..., xd ) = FX1 (x1 ) × ... × FXd (xd )
Si les Xi admettent une densité fXi , alors elles sont indépendantes ssi :
∀(x1 , ..., xd ) ∈ Rd , fX (x1 , ..., xd ) = fX1 (x1 ) × ... × fXd (xd )
Définition
On appelle copule de dimension 2 toute fonction C : R2 → [0, 1] tq :

• C(x, y) = 0 si x ≤ 0 ou y ≤ 0.
• C(x, y) = x si y ≥ 1.
• C(x, y) = y si x ≥ 1.
• C(x, y) = 1 si x ≥ 1 et y ≥ 1.
• 0 ≤ a ≤ b ≤ 1 et 0 ≤ c ≤ d ≤ 1 entraı̂ne :
C(b, d) − C(b, c) − C(a, d) + C(a, c) ≥ 0
Remarque : Il suffit de définir C sur [0, 1]2 .
Exemples : C(x, y) = xy pour (x, y) ∈ [0, 1]2 est une copule. On l’appelle la copule d’indépendance.
C(x, y) = min(x, y) pour (x, y) ∈ [0, 1]2 est une copule. On l’appelle la copule de comonotonicité.
θ 1
+(− ln y)θ ) θ
C(x, y) = e−((− ln x) pour (x, y) ∈ [0, 1]2 est une copule. On l’appelle la copule de Gumbel de paramètre
θ ∈ [1, +∞[.
Théorème (Sklar)
• Soit Z = (X, Y ) : Ω → R2 un vecteur aléatoire. On note FZ la fonction de répartition (bi-variée) de Z, FX

et FY les fonctions de répartition de X et Y .
Alors, il existe une copule C de dimension 2 telle que FZ (x, y) = C(FX (x), FY (y)). Elle est unique si FX et
FY sont continues.
• Soit X : Ω → R et Y : Ω → R deux variables aléatoires, de fonctions de répartition FX et FY . Soit C une
copule de dimension 2.
Alors, on peut construire une variable aléatoire Z : Ω → R2 sur un espace probabilisé (Ω, F, P) dont la fonction
de répartition est FZ (x, y) = C(FX (x), FY (y)) .
51
Définition
On appelle copule de dimension d toute fonction C : Rd → [0, 1] tq :

• C(x1 , ..., xd ) = 0 si l’un des xi est nul.
• C(x1 , ..., xd ) = xj si ∀i ∈ [[1, d]]\{j}, xi = 1.
• C(x1 , ..., xd ) = 1 si ∀i ∈ [[1, d]], xi = 1.
• ∀i ∈ [[1, d]], 0 ≤ xi1 ≤ xi2 ≤ 1 entraı̂ne :
X Pd
(−1)( j=1 ij ) C(x1i1 , ..., xdid ) ≥ 0
(i1 ,...,id )∈{1,2}d
Remarque : Le théorème de Sklar se généralise aux copules de dimension d.
Section VIII.2 - Moments, Covariance
Définition
Soit (Ω, A, P) un espace probabilisé, et X : Ω → Rd un vecteur aléatoire tel que ∀i ∈ [[1, d]], Xi ∈ L1 (Ω, F, P).
On appelle espérance de X le vecteur  
E(X1 )
E(X) =  ... 
 
E(Xd )
Définition
Soit (Ω, A, P) un espace probabilisé, X : Ω → R et Y : Ω → R deux variables aléatoires dans L2 (Ω, F, P).
On appelle covariance de X et Y le réel
Cov(x, y) = E[(X − E(X))(Y − E(Y ))]
Proposition
Soit X : Ω → R et Y : Ω → R deux variables aléatoires dans L2 (Ω, F, P).

• Cov(X, Y ) = E(XY ) − E(X)E(Y ).
• Cov(X, Y ) = Cov(Y, X).
• Cov(X, X) = Var(X).
• Cov : L2 (Ω, F, P) × L2 (Ω, F, P) → R est bilinéaire.
• Var(X + Y ) = Var(X) + Var(Y ) + 2 Cov(X, Y )
Proposition (inégalité de Cauchy-Schwarz)
Soit X et Y deux variables aléatoires réelles dans L2 (Ω, F, P). Alors :

p p
| Cov(X, Y )| ≤ Var(X) Var(Y )
Démonstration : | Cov(X, Y )| = |E((X−E(X)(Y −E(Y ))| = |hX−E(X), Y −E(Y )iL2 (Ω,F ,P) | ≤ ||X−E(X)||L2 (Ω,F ,P) ||Y −
p p
E(Y )||L2 (Ω,F ,P) = Var(X) Var(Y ) par l’inégalité de Cauchy-Schwarz classique.
Définition
Soit X et Y deux variables aléatoires réelles dans L2 (Ω, F, P) de variance non nulle.
On appelle coefficient de corrélation linéaire le réel de [−1, 1]
Cov(X, Y )
ρX,Y =
σX σY
52
Proposition
Soit X et Y deux variables aléatoires réelles dans L2 (Ω, F, P) de variance non nulle. Alors :
∃(a, b) ∈ R2 , Y = aX + b ⇔ |ρX,Y | = 1
Proposition
Soit X et Y deux variables aléatoires réelles dans L2 (Ω, F, P).

Si X et Y sont indépendantes, alors Cov(X, Y ) = 0. Si de plus elles sont de variance non nulle, alors ρX,Y = 0.
Démonstration : Cov(X, Y ) = E(XY ) − E(X)E(Y ) = 0.
Définition
Soit X et Y deux variables aléatoires réelles dans L2 (Ω, F, P).

X et Y sont dites linéairement indépendantes si Cov(X, Y ) = 0.
Remarques : Deux variables aléatoires indépendantes sont linéairement indépendantes, mais la réciproque est fausse.
Par exemple, X ∼ U([−1, 1]) et Y = X 2 ne sont pas indépendantes, mais Cov(X, Y ) = E(X 3 ) − E(X 2 )E(X) =
0 − 1 × 0 = 0.
Cov : L2 (Ω, F, P) × L2 (Ω, F, P) → R est bilinéaire, symétrique et positive, mais pas définie : en effect Cov(X, X) =
Var(X) = 0 n’implique pas que X = 0 (seulement X constante). On peut remédier à cela en considérant la relation
d’équivalence ≡ définie par X ≡ Y ssi X et Y diffèrent d’une constante (∃a ∈ R, Y = X + a). Cov est alors un
produit scalaire sur L2 (Ω, F, P)/ ≡. On a par ailleurs la complétude de L2 (Ω, F, P)/ ≡, ce qui nous permet d’affirmer
que (L2 (Ω, F, P)/ ≡, Cov) est un espace de Hilbert pour lequel la norme induite est l’écart-type, et l’orthogonalité est
l’indépendance linéaire.
Définition
Soit (Ω, F, P) un espace probabilisé, X : Ω → Rd un vecteur aléatoire tel que ∀i ∈ [[1, d]], Xi ∈ L2 (Ω, F, P).
On appelle matrice de covariances de X la matrice
 
Cov(X1 , X1 ) . . . Cov(X1 , Xd )
Σ=
 .. .. .. 
. . . 
Cov(Xd , X1 ) . . . Cov(Xd , Xd )
Proposition
Σ est la matrice de la forme quadratique q définie sur L = Rd par
∀V ∈ Rd , q(V ) = Var(hX, V i)
Démonstration : Soit q la forme quadratique associée à la matrice Σ. Alors :

d X
X d d X
X d
q(V ) = t V ΣV = Cov(Xi , Xj )Vi Vj = Cov(Vi Xi , Vj Xj )
i=1 j=1 i=1 j=1
Xd d
X
= Cov( Vi Xi , Vj Xj ) = Cov(hX, V i, hX, V i) = Var(hX, V i)
i=1 i=1
Proposition
La matrice de covariances est symétrique et positive.
Démonstration : Cov(Xi , Xj ) = Cov(Xj , Xi ) et ∀V ∈ Rd , t V ΣV = Var(hX, V i) ≥ 0.
53
Proposition
Soit X : Ω → Rd un vecteur aléatoire admettant une densité fX dont le support est A. Soit φ : A → B un
difféomorphisme C 1 et Y = φ(X).
Alors Y admet une densité fY définie par
1
fY = fX ◦ φ−1 1B
|Jφ ◦ φ−1 |
où Jφ = det Dφ est la jacobienne de φ.
Démonstration : Soit V ∈ B(Rd ) et U = φ−1 (V ∩ B).

Z Z
(d)
P(X ∈ U ) = fX (x)λ (dx) = fX (x)λ(d) (dx)
U φ−1 (V ∩B)
Z
⇒ P(Y ∈ B ∩ D) = fX (φ−1 (y))|Jφ−1 (y)|λ(d) (dy)
V ∩B
54
Chapitre IX. Transformée de Fourier, Fonction caractéristique
Section IX.1 - Transformée de Fourier d’une mesure
Définition
Soit µ une mesure finie sur (Rd , B(Rd )). On appelle transformée de Fourier de µ la fonction µ̂ : Rd → C
définie par Z
µ̂(y) = eihx,yi µ(dx)
Rd
Remarque : Le fait que l’on ait choisi une mesure finie rend eihx,yi intégrable. On ne peut pas définir la transformée
de Fourier de λ(d) .
Exemples : Soit a ∈ Rd et µ = δa , alors µ̂(y) = Rd eihx,yi δa (dx) = eiha,xi .

R
1 1
λ, alors µ̂(y) = Rd eixy 1[−1,1] 2π
R
Soit µ = 1[−1,1] 2π λ(dx)).
Proposition
La fonction µ̂ est continue et bornée (par µ̂(0) = µ(Rd ))
Démonstration : Soit y ∈ Rd . Alors |µ̂(y)| = | Rd eihx,yi µ(dx)| ≤ Rd |eihx,yi |µ(dx) = Rd µ(dx) = µ(Rd ). Ainsi µ̂
R R R
est bornée. Pour la continuité, on peut appliquer le théorème de continuité sous le signe somme avec domination de
|eihx,yi | par 1.
Théorème
Soit µ et ν deux mesures finies sur (Rd , B(Rd )), alors
∗ ν = µ̂ν̂
µ[
Démonstration : Soit x ∈ Rd . Z
∗ ν(x) =
µ[ eihx,yi (µ ∗ ν)(dy)
Rd
µ ∗ ν est la mesure image de la somme pour la mesure produit donc :
Z
µ[∗ ν(x) = eihx,u+vi (µ ⊗ ν)(du, dv)
Rd ×Rd
Z Z
= eihx,ui µ(du) ˆ ν(x)
eihx,vi ν(dv) = µ(x) ˆ
Rd Rd
D’où le résultat.
Théorème
Soit µ et ν deux mesures finies sur (Rd , B(Rd )), alors
µ̂ = ν̂ ⇔ µ = ν
Section IX.2 - Transformée de Fourier d’une fonction
Définition
Soit f ∈ L1 (R). On appelle transformée de Fourier de f la fonction fˆ : R → C définie par

Z
1
fˆ(y) = √ e−ixy f (x)λ(dx)
2π R
On la note aussi Ff .
55
Remarque : La fonction Ff est bien définie puisque |e−ixy f (x)| = |f (x)| et f ∈ L1 (R).
Proposition
Lorsque f ∈ L1 (R), la fonction Ff est continue est bornée sur R.

De plus, ||Ff ||∞ ≤ √12π ||f ||1 et lim Ff (x) = lim Ff (x) = 0
x→−∞ x→+∞
1
f λ. Alors λˆf ≤ λf (R), donc λˆf est borné par √12π R f dλ =
R
Démonstration : Si f est à valeurs positives, on pose λf = 2π
√1 ||f ||1 . On a aussi la continuité par le résultat de la section précédente. Dans le cas général, on peut refaire un
2π
raisonnement analogue sur la fonction et non la mesure.
Les limites en +∞ et −∞ s’obtiennent en établissant le résultat sur les fonctions f en escalier puis en raisonnant par
densité des fonctions en escalier dans L1 (R).
Proposition
Soit f, g ∈ L1 (R) et a, b ∈ C. Alors :

• F(af + bg) = aFf + bFg.
• ∀c ∈ R∗ , F(x 7→ f (cx)) = y 7→ 1c Ff ( yc ).
• ∀x0 ∈ R∗ , F(x
√ 7→ f (x − x0 )) = e
−ix0 y
Ff .
• F(f ∗ g) = 2πFf Fg.
Démonstration : La première proposition découle de la linéarité de l’intégrale, les deux suivantes des changements de
variables x 7→ cx et x 7→ x − x0 et la dernière en utilisant les mesures de densité f et g.
Proposition
Si f et x 7→ xf (x) sont dans L1 (R), alors :

• Ff ∈ C 1 (R).
• (Ff )0 = F(x 7→ −ixf (x)).
Démonstration : ∀y ∈ R, (x 7→ f (x)e−ixy ) ∈ L1 (R), ∀x ∈ R, l’application y 7→ f (x)e−ixy est dérivable et (y 7→

f (x)e−ixy )0 ≤ |xf (x)| qui est intégrable. Le théorème de dérivation des intégrales à paramètre donne alors le résultat.
Proposition
Soit f ∈ L1 (R) ∩ C 1 (R) tel que f 0 ∈ L1 (R).

Alors F(f 0 ) = y 7→ iy(Ff )(y).
Démonstration : F(f 0 ) est bien définie puisque f 0 existe et f 0 ∈ L1 (R). Soit A > 0, alors :
Z Z A
1 1
√ f 0 (x)e−ixy λ(dx) = √ f 0 (x)e−ixy dx
2π [−A,A] 2π −A
Z A
iy 1 A
=√ f (x)e−ixy dx + √ f (x)e−ixy −A
2π −A 2π
En faisant tendre A vers +∞, on obtient le résultat.
Définition
Soit F ∈ L1 (R). On appelle transformée de Fourier inverse de F la fonction F : R → C définie par :

Z
1
FF = y 7→ √ eixy F (x)λ(dx)
2π R
On la note aussi parfois F −1 .
Remarque : La fonction Ff est bien définie puisque |eixy F (x)| = |F (x)| et F ∈ L1 (R).
56
Proposition
Soit f ∈ L1 (R) telle que Ff ∈ L1 (R), alors

FFf = f p.p.
Démonstration : Z Z
1 ixu 1 −iuy
(FFf )(x) = √ e √ e f (y)λ(dy) λ(du)
2π R 2π R
A ce stade, on pourrait être tenté d’appliquer Fubini, mais ce n’est pas possible ici car (u, y) 7→ eiu(x−y) f (y) 6∈ L1 (R2 ).
1 − |u|
Cependant, pour n ∈ N∗ , posons an (u) = 2π e n et notons kn = Fan .
Z
1 |u|
kn (x) = e−ixu− n λ(du)
2π R
Z Z
1 u
−ixu+ n 1 u
= e λ(du) + e−ixu− n λ(du)
2π R− 2π R+

1 1 1 n 1
= 1 + 1 =
2π −ix + n ix + n π 1 + (nx)2
On remarque que R kn dλ = 1, supn∈N R |kn |dλ < +∞ et pour tout F ⊂ R∗ fermé, lim F kn dλ = 0. Ainsi, kn est
R R R
n→+∞
un noyau de sommabilité. Ainsi kn ∗ f → f lorsque n tend vers +∞ dans Lp . Or :
Z Z
1
(kn ∗ f )(x) = √ an (u)e−u(x−y) λ(du) f (y)λdy
R 2π R
et (u, y) 7→ ei(y−u)x an (u)f (y) ∈ L1 (R2 ), ce qui nous permet d’utiliser le théorème de Fubini :
Z Z
−iux 1 iuy
(kn ∗ f )(x) = an (u)e √ e f (y)λ(dy) λ(du)
R 2π R
Z Z
iux 1 −iuy
= an (−u)e √ e f (y)λ(dy) λ(du) = an (u)eiux (Ff )(u)λ(du)
2π R R
Puisque |an (u)eiux (Ff )(u) ≤ |(Ff )(u)| avec Ff ∈ L1 (R), le théorème de convergence dominée s’applique. Puisque
l’on a la convergence Lp du membre de gauche, on peut trouver une extractrice φ telle que la sous-suite (kφ(n) ∗ f )
converge simplement vers f . Ainsi en passant à la limite lorsque n → +∞ :
Z
(kφ(n) ∗ f )(x) = aφ(n) (u)eiux (Ff )(u)λ(du)
R
⇒ f (x) = FF(x)
Ce qui nous donne le résultat attendu.
Remarque : Si f ∈ L1 (R), on a pas forcément Ff ∈ L1 (R). Par exemple, avec f = 1[−1,1] ∈ L1 (R), le calcul fournit
q
Ff = π2 sinc 6∈ L1 (R).
Définition
On appelle espace de Schwartz l’ensemble des fonctions φ ∈ C ∞ (R) à décroissance rapide, c’est-à-dire
vérifiant
∀(p, q) ∈ N2 , ∃M > 0, ∀x ∈ R, (1 + x2 )p |φ(q) (x)| ≤ M
On le note S(R).
Remarque : La décroissance rapide est équivalente à
∀p ∈ N, ∃C > 0, sup ||xα φ(b) ||∞ ≤ C

α≤p,β≤p
Proposition
Soit φ, ψ ∈ S(R), P ∈ R[X] et λ ∈ C.

Alors, φ0 , φP, φ + ψ, λφ et φψ sont dans S(R).
57
2
Exemple : La fonction φ définie par φ(x) = e−x est dans l’espace de Schwartz.
Définition
+∞
On dit que φ ∈ C ∞ (R) est dans CC (R) = C0+∞ (R) = D(R) si elle est à support compact, i.e. {x ∈ R, φ(x) 6= 0}
compact.
Exemple : La fonction φ définie par

(
−1
exp 1−x2 si |x| < 1
φ(x) =
0 sinon
+∞
appartient à CC (R).
Proposition
C0+∞ (R) ⊂ S(R) ⊂ Lp (R)
Démonstration : La première inclusion se déduit du fait qu’une fonction continue sur un compact est bornée. La
M p
seconde se déduit du fait que pour tout p ∈ [1, +∞[, x 7→ ( 1+x2) est intégrable.
Définition
Soit φ ∈ S(R). Pour α et β dans N, on note |φ|α,β = ||x(a) φ(b) ||∞ et on considère la topologie initiale associée
aux fonctions φ 7→ |φ|α,β , c’est-à-dire la topologie la plus fine rendant ces fonctions continues. On l’appelle la
topologie de S(R).
Remarque : Soit (φn )n∈N une suite de S(R). P

φn → φ lorsque n → +∞ signifie ∀p ∈ N, lim Np (φn − φ) = 0 où Np (·) = 0≤α,β≤p | · |α,β .
n→+∞
Proposition
C0∞ (R) est dense dans S.
Théorème
La transformée de Fourier F est un automorphisme de S(R) et F −1 = F.
Démonstration : Soit φ ∈ S(R) ⊂ L1 (R). On a aussi x 7→ xφ(x) ∈ S(R) ⊂ L1 (R). Donc Fφ ∈ C 1 (R) et (Fφ)0 =
F(x 7→ −ixφ(x). Par récurrence, on vérifie que ∀β ∈ N∗ , (Fφ)(β) = (−1)β F(x 7→ xβ φ(x)). Par ailleurs, φ ∈ S(R)
donc φ0 ∈ L1 (R). Ainsi, F(φ0 ) = y 7→ iy(Fφ)(y). Par récurrence, ∀α ∈ N∗ , F(φ(a) ) = y 7→ (iy)α (Fφ)(y). On a alors :
y α (Fφ)(β) (y) = (−i)α+β (iy)α F(x 7→ xβ φ(x))(y)
= (−i)α+β F((x 7→ xβ φ(x))(α) )(y)

On en déduit que y α (Fφ)β est borné, et donc que Fφ ∈ S(R). Puisque Fφ ∈ L1 (R), on a l’égalité FFφ = φ presque
partout, ce qui achève la démonstration.
Théorème (Formule de Plancherel)
Pour tout φ et ψ dans S(R) :

hFφ, FψiL2 (R) = hφ, ψiL2 (R)
Démonstration : Soit φ et ψ dans S(R).

Z
hφ, ψiL2 (R) = φ(x)ψ(x)λ(dx)
R
Z Z
1
= (Fφ)(y)eixy λ(dy)ψ(x)λ(dx)
R 2π R
58
(x, y) 7→ Fφ(y)ψ(x) ∈ L1 (R) donc Fubini s’applique.
Z Z
1
hφ, ψiL2 (R) = (Fφ)(y) ψ(x)e−ixy λ(dx)λ(dy)
R 2π R
Z
= Fφ(y)(Fψ)(y)λ(dy) = hFφ, FψiL2 (R)
R
Remarque : hFφ, ψiL2 (R) = hφ, FψiL2 (R) .

On dit que F est l’opérateur adjoint de F.
Définition
On définit F de L2 (R) dans L2 (R) par densité. Si f ∈ L2 (R), on peut construire une suite fn d’éléments de
S(R) qui converge vers f . F étant une isométrie de S(R) et par complétude de L2 (R), Ffn admet une limite
dans L2 (R), qu’on note Ff . Si f ∈ L1 (R) ∩ L2 (R), F coı̈ncide bien avec la définition donnée sur L1 (R).
Proposition
Soit f ∈ L2 (R). Alors :

Z !
1 −ixy
Ff = √ lim y 7→ f (x)e λ(dx) dans L2 (R)
2π n→+∞ [−n,n]
Démonstration : On pose φn = f 1[−n,n] . ∀n ∈ N, φn ∈ L1 (R) ∩ L2R(R) car f ∈ L2 (R) et 1[−n,n] ∈ L2 (R). On a

lim ||φn − f ||2 = 0 donc lim ||Fφn − Ff ||2 = 0. Or Fφn = √1 [−n,n]
f (x)e−ixy λ(dx), ce qui donne le résultat
n→+∞ n→+∞ 2p i
attendu.
Proposition
Soit f ∈ L2 (R). Alors :

1 − e−ixy
Z
1 d
Ff = √ f (x) λ(dx)
2π dy R ix
Démonstration : On pose φn = f 1[−n,n] ∈ L1 (R) ∩ L2 (R). Soit y ∈ R+ . lim h1[0,y] , Fφn i = h1[0,y] , Ff i. En
n→+∞
−ixt 1
appliquant Fubini à (x, t) 7→ f (x)e ∈ L ([−n, n] × [0, y] :
Z Z Z
1 −ixt
lim √ f (x)e λ(dx)λ(dt) = Ff (x)λ(dx)
n→+∞ [0,y] 2π [−n,n] [0,y]
Z Z Z
1 −ixt
⇒√ lim f (x)e λ(dt)λ(dx) = Ff (x)λ(dx)
2π n→+∞ [−n,n] [0,y] [0,y]
−ixy
1−e
Z Z
1
⇒√ lim f (x) λ(dx) = Ff (x)λ(dx)
2π n→+∞ [−n,n] ix [0,y]
1−e−ixy −ixy
Comme f ∈ L2 (R) et x 7→ ix ∈ L2 (R), on a y 7→ f (x) 1−eix ∈ L2 (R) et on peut alors appliquer le théorème de
convergence dominée :
1 − e−ixy
Z Z
f (x) λ(dx) = Ff (x)λ(dx)
R ix [0,y]
D’où le résultat après dérivation.
Théorème (Plancherel)
F est un automorphisme isométrique de L2 (R).
Démonstration : C’est une conséquence directe du fait que F est un automorphisme isométrique dans S(R). (cf.
formule de Plancherel)
59
Proposition
Soit f ∈ L2 (R) ∩ C 1 (R), tel que f 0 ∈ L2 (R). Alors :
F(f 0 ) = (y 7→ iy)Ff
Démonstration : La proposition s’établit dans S(R), puis en passant à la limite.
Section IX.3 - Fonction caractéristique
Définition
Soit X une variable aléatoire et PX sa loi.
PˆX s’appelle la fonction caractéristique de X, et se note ΦX :
Z
ΦX (t) = eiht,xi PX (dx) = E(eiht,Xi )
Rd
Remarque : Lorsque PX a une densité f par rapport à la mesure de Lebesgue, alors

Z
ΦX (t) = f (x)eiht,xi λ(dx)
Rd
Pn 1
Exemples : Pour PX = k=1 n δak (loi uniforme discrète) :
Z n
! n
iht,xi
X 1 1 X iak t
ΦX (t) = e δa (dx) = e
Rd n k n
k=1 k=1
Proposition
Soit X une variable aléatoire. Alors :

• ΦX (0) = 1
• ∀t ∈ Rd , |ΦX (t)| ≤ 1
• ∀a ∈ R, ∀b ∈ Rd , ΦaX+b = eibt ΦX (at)
• ΦX est continue sur Rd .
Proposition
Soit X une variable aléatoire dont la loi a une densité fX par rapport à la mesure de Lebesgue. Alors :
• lim ΦX (t) = lim ΦX (t) = 0.
t→−∞
Rt→+∞
• fX (x) = (2π)
1
d Rd
e−iht,xi ΦX (t)λ(d) (dt)
Proposition
Soit X une variable aléatoire. ΦX satisfait :

X
∀N ∈ N∗ , (t1 , ..., tN ) ∈ RN , (x1 , ..., xN ) ∈ RN , xj ΦX (tj − tk )xk ≥ 0
1≤j,k≤N
Démonstration : Cela provient de l’égalité :


N
2 
X X
xj ΦX (tj − tk )xk = E  xj eihtj ,Xi  ≥ 0

1≤j,k≤N i=1
Théorème (Théorème d’unicité)
Deux variables aléatoires X et Y ont la même loi ssi ΦX = ΦY .
60
Démonstration : Deux mesures ayant la même transformée de Fourier sont égales.
Théorème
Les variables aléatoires réelles X1 , ..., Xn sont indépendantes ssi :
n
Y
∀(t1 , ..., tn ) ∈ RN , Φ(X1 ,...,Xn ) (t1 , ..., tn ) = ΦXk (tk )
k=1
Démonstration : Par définition de la mesure produit :

Z N Z
Y
eiht,xi (PX1 ⊗ ...PXk )(dx1 , ..., dxk ) = eitk xk PXk (dtk )
Rn k=1 R
Le résultat équivaut donc à P(X1 ,...,Xn ) = PX1 ⊗ ... ⊗ PXk , c’est-à-dire à l’indépendance des variables aléatoires.
Proposition
Soit X1 , ..., Xn des variables aléatoires indépendantes. Alors :

N
Y
ΦX1 +...+XN = ΦXk
k=1
Démonstration : On sait que PX1 +...+Xn = PX1 ∗ ... ∗ PXn . On a alors PX\
1 +...+Xn
= Pd
X1 ...PXN , d’où le résultat.
d
Proposition
Soit X une variable aléatoire dans Ln (Ω, F, P) avec n ∈ N∗ .

Alors ΦX ∈ C n (R) et
(k)
∀k ≤ n, ∀t ∈ R, ΦX (t) = ik E(X k eitX )
Proposition
Soit X une variable aléatoire dans Ln (Ω, F, P) avec n ∈ N∗ . Alors :

(k)
E(X k ) = (−i)n ΦX (0)
Démonstration : C’est un corollaire immédiat de la proposition précédente.
61
Chapitre X. Vecteurs Gaussiens
Section X.1 - Définition d’un vecteur gaussien
Définition
Soit (Ω, A, P) un espace probabilisé, et X1 , ..., Xd des variables aléatoires sur (R, B(R)).
On dit que le vecteur X = (X1 , ..., Xd ) est gaussien si ∀(a1 , ..., ad ) ∈ Rd , a1 X1 +...+ad Xd suit une loi normale.
Exemples : Soit X1 ∼ N (m1 , σ12 ) et X2 ∼ N (m2 , σ22 deux variables aléatoires indépendantes. Alors X = (X1 , X2 )
est un vecteur aléatoire gaussien. En effet, ∀(a1 , a2 ) ∈ R2 , a1 X1 + a2 X2 ∼ N (a1 m1 + a2 m2 , a21 σ12 + a22 σ22 ). (pour le
montrer, utiliser le fait que la fonction caractéristique d’une somme de deux variables aléatoires indépendantes est le
produit des fonctions caractéristiques de chaque variable)
X1 ∼ N (m1 , σ12 ), suivant la loi de Bernoulli 21 δ−1 + 12 δ1 indépendante de X1 et X2 = X1 . On a ΦX2 (t) =
RSoit itux
R2
e (PX1 ⊗ P )(dx, du) par indépendance des variables aléatoires, ce qui ce simplifie par application du théorème
1 2 1 2
de Fubini en ΦX2 (t) = R cos(tx) √12π e− 2 x λ(dx) = e− 2 t . Ainsi X2 ∼ N (0, 1). Or, X1 + X2 = (1 + )X1 donc
R
P(X1 + X2 = 0) = 21 : X1 + X2 ne peut pas suivre de loi normale, et donc (X1 , X2 ) n’est pas gaussien puisque l’on a
trouvé une combinaison linéaire de X1 et X2 qui ne suit pas une loi normale.
On retiendra que si X = (X1 , ..., Xn ) est gaussien, alors les Xi suivent une loi normale, mais que la réciproque est fausse.
Section X.2 - Caractérisation d’un vecteur gaussien
Proposition
Soit X = (X1 , ..., Xd ) un vecteur gaussien.

Sa fonction caractéristique ΦX : Rd → C est donnée par

1
ΦX (t) = exp iht, mi − ht, Dti
2
où m = (mj )1≤j≤d est le vecteur d’espérance de X et D = (Dj,k )1≤j,k≤d est la matrice de covariances de X.
Démonstration : Soit t = (t1 , ..., td ) ∈ Rd et Y = ht, Xi = t1 X1 + ... + td Xd . X étant gaussien, Y suit une loi
Pd P
normale. E(Y ) = k=1 tk mk = ht, mi et Var(Y ) = Cov(Y, Y ) = 1≤k,j≤d tj Dj,k tk = ht, Dti. On en déduit que
ΦY (u) = exp(iht, miu − 21 ht, Dtiu2 ). Or ΦX (t) = E(exp(iht, Xi)) = E(exp(iY )) = ΦY (1), d’où le résultat.
Proposition
La loi d’un vecteur gaussien est entièrement caractérisée par son vecteur d’espérance m ∈ Rd et sa matrice de
covariances D ∈ Md (R).
On notera alors N (m, D) cette loi.
Démonstration : ΦX caractérise la loi de X.
Théorème
Soit X = (X1 , ..., Xd ) un vecteur gaussien. Les Xi sont indépendants si et seulement si la matrice D de
covariance de X est diagonale.
Démonstration : Pour le sens direct, cela vient simplement du fait que l’indépendance
Qd entraı̂ne la non-corrélation.
Pour le sens indirect, si D est diagonale alors on a l’égalité ΦX (t1 , ..., td ) = k=1 ΦXk (tk ).
Proposition
Soit m ∈ Rd et D ∈ Md (R) symétrique et positive. Alors, il existe un vecteur gaussien à valeurs dans Rd
d’espérance m et de matrice de covariance D.
62
Démonstration : D étant symétrique et positive, elle admet une décomposition de Cholesky : D = C t C. Soit d variables
aléatoires Yi ∼ N (0, 1) indépendantes. Le vecteur Y = (Y1 , ..., Yd )P
est gaussien, tout comme XP = CY + m. Alors,
E(X) = E(CY ) + m = m, et Cov(Xi , Xj ) = E((CY )i (CY )j ) = 1≤k,l≤d Cik Cjl E(Yk Yl ) = 1≤k,l≤d Cik Cjl δkl =
Pd
k=1 Cik Cjk = (D)ij . On a donc construit le vecteur gaussien recherché.
Section X.3 - Loi d’un vecteur gaussien
Proposition
Soit m ∈ Rd et D ∈ Md (R) symétrique positive.

D est inversible si et seulement si la loi N (m, D) est absolument continue par rapport à la mesure de Lebesgue.
La densité est alors la fonction de Rd dans R :

1 1 −1
x 7→ d √ exp − hx − m, D (x − m)i
(2π) 2 det D 2
Démonstration : Supposons D inversible. On réécrit comme précédemment D = C t C et X = CY + m, de sorte que

Y = C −1 (X − m) = φ(X) où, pour x = (x1 , ..., xd ), on a défini φ(x) = C −1 (x − m). Chaque Yi suit une loi normale
Qd
centrée réduite, et les Yi sont indépendantes. La densité de la loi de Y est (y1 , ..., yd ) 7→ i=1 √12π exp(− 12 yi2 ) =
1 1 d
d exp(− 2 hy, yi). Soit A ∈ B(R ) et B = φ(A), alors P(X ∈ A) = P(Y ∈ B). Or,
(2π) 2
P(Y ∈ B) = B 1 d exp(− 12 hy, yi)λ(d) (dy). On a donc P(X ∈ A) = φ(A) 1 d exp(− 21 hy, yi)λ(d) (dy)
R R
(2π) 2 (2π) 2
= A 1 d exp(− 21 hC −1 (x−m), C −1 (x−m)i)| det C − 1|λ(d) (dx) = A 1
exp(− 12 hx−m, D−1 (x−m)i)λ(d) (dx),
R R
d
(2π) 2 (2π) 2 det C
√
et on en déduit, puisque det C = det D, la densité attendue.
Réciproquement, on suppose que D est singulière, et X ∼ N (m, D). Soit v ∈ (Ker D)\{0}. On pose Z = hv, Xi. Alors,
Pd Pd
E(Z) = E(hv, Xi) = E( i=1 vi Xi = i=1 vi E(Xi ) = hv, mi, et Var(Z) = Var(hv, Xi) = t vDv = 0. On en déduit que
Z est égale à son espérance presque partout, soit P(Z = hv, mi) = 1. Ainsi, P(hv, Xi = hv, mi) = P(hv, X−mi = 0) = 1.
En notant H l’hyperplan de vecteur normal v, cela siginfie que P(X − m ∈ H) = P(X ∈ m + H) = PX (m + H) = 1.
Or un hyperplan est de mesure nulle pour la mesure de Lebesgue λ(d) ; si PX était absolument continue par rapport
à la mesure de Lebesgue, on devrait donc avoir Px (m + H) = 0. On conclut donc que si D est singulière alors la loi
N (m, D) ne peut pas être absolument continue par rapport à la mesure de Lebesgue, ce qui achève la preuve.
63
Chapitre XI. Convergence de variables aléatoires
Section XI.1 - Les différents modes de convergence d’une v.a.
Définition
La suite de v.a. (Xn )n∈N converge en probabilité vers la v.a. X ssi :
∀ > 0, lim P(|Xn − X| > ) = 0

n→+∞
P
On note alors Xn → X.
Exemple : Pour n ∈ N∗ , on considère Xn : R → R définie par :


 0 si ω < 0
Xn = ω 7→ 1 − nω si ω ∈ [0, n1 ]
0 si ω > n1

Soit > 0, et X = ω 7→ X. Alors, P(|Xn − X| > ) = P([0, 1−

n ). Ainsi, si P est une mesure à densité par rapport à la
1−
R 1− P
mesure de Lebesgue, lim P([0, n ]) = lim 0 f (x)dx = 0, c’est-à-dire Xn → X.
n
n→+∞ n→+∞
Définition
La suite de v.a. (Xn )n∈N converge presque sûrement vers la v.a. X ssi :
P({ω ∈ Ω; lim Xn (ω) = X(ω)}) = 1

n→+∞
p.s.
Exemple : En reprenant Xn définie ∀n ∈ N comme précédemment et X = ω 7→ 0, on remarque que la suite de variables

aléatoires (Xn )n∈N converge simplement vers X presque partout (il n’y a qu’en 0 qu’on a pas la convergence simple).
p.s.
Ainsi, Xn → X.
Proposition
Soit (Xn )n∈N une suite de variables aléatoires convergeant presque sûrement vers X.
Alors, (Xn )n∈N converge en probabilité vers X.
Démonstration : Soit (Xn )n∈N une suite de variables aléatoires convergeant presque sûrement vers X. Alors, Ω∗ = {ω ∈
Ω; lim Xn (ω) = X(ω)} a pour mesure 1. Pour > 0, on pose Ω = {ω ∈ Ω; ∃N ∈ N, ∀n ≥ N, |Xn (ω) − X(ω)| < }.
n→+∞
On remarque que Ω = ∪N ∈N∗ ∩n≥N {ω ∈ Ω, |Xn (ω)−X(ω)| < } est une union d’intersections d’ensembles mesurables,
donc est mesurable, et que Ω∗ ⊂ Ω . Ainsi, P(Ω ) = 1. Posons AN = ∩n≥N {ω ∈ Ω, |Xn (ω) − X(ω)| < }. Alors,
(AN )N ∈N∗ est croissante et ∪N ∈N∗ AN = Ω . Donc, lim P(AN ) = 1. Dit autrement, ∀δ > 0, ∃N ∈ N∗ , P(An ) > 1−δ,
N →+∞
avec pour n ≥ N, AN ⊂ {ω ∈ Ω; |Xn (ω)−X(ω)| < }. Donc P(|Xn −X| < ) > 1−δ. Ainsi, lim P(|Xn −X| < ) = 1,
n→+∞
p.s.
d’où lim P(|Xn − X| > ) = 0 et donc Xn → X.
n→+∞
Proposition
Soit (Xn )n∈N une suite de variables aléatoires convergeant en probabilité vers X.
Alors, on peut extraire une sous-suite (Xφ(n) )n∈N qui converge presque sûrement vers X.
Remarque : Généralement, la convergence en probabilité n’entraı̂ne pas la convergence presque sûrement.

Par ailleurs, elle n’entraı̂ne pas non plus la convergence des moments : en modifiant la définition de la suite de variables
aléatoires définies dans le premier exemple par

 0 si ω < 0
Xn = ω 7→ n − n 2
ω si ω ∈ [0, n1 ]
0 si ω > n1

64
1
alors on a ∀n ∈ N, E(Xn ) = 2 mais E(X) = 0, donc lim E(Xn ) 6= E(X).
n→+∞
Définition
Soit p ≥ 1. La suite de variables aléatoires (Xn )n∈N converge dans Lp vers la v.a. X ssi toutes les variables
aléatoires Xn et X sont dans Lp et :
lim E(|Xn − X|p ) = 0
n→+∞
p
L
Exemple : Soit p ∈ [1, +∞[. On reprend la définition de (Xn )n∈N du premier exemple :

 0 si ω < 0
Xn = ω 7→ 1 − nω si ω ∈ [0, n1 ]
0 si ω > n1

et X = ω 7→ 0. Alors :
1 n1
1 −1
Z
p
n
p 1
E(|Xn − X| ) = (1 − nω) dω = (1 − nω)p+1 = → 0
0 p+1 n 0 n(p + 1) n→+∞
et donc (Xn )n∈N converge vers X dans Lp .
Proposition
Soit (Xn )n∈N une suite de variables aléatoires convergeant dans Lp vers X.
Alors, (Xn )n∈N converge en probabilité vers X.
1
Démonstration : Cela résulte de l’inégalité de Markov : P(|Xn − X| > ) < p E(|Xn − X|p ) → 0.
n→+∞
Théorème
P
Soit p ∈ [1, +∞[ et (Xn )n∈N une suite de variables aléatoires vérifiant Xn → X et ∃Y ∈ Lp , ∀n ∈ N, |Xn | ≤ Y .
p
L
Alors, X ∈ Lp et Xn → X.
Proposition
Les limites ainsi définies par les convergences en probabilité, presque sûre et dans Lp vérifient l’unicité de la
limite, la linéarité et le passage à la limite dans les inégalités.
De plus, pour toute fonction f continue, on a Xn → X ⇒ f (Xn ) → f (X).
Section XI.2 - Lois des grands nombres
Théorème (Loi faible des grands nombres)
Soit (Xn )n∈N∗ une suite de variables aléatoires de L2 (Ω, F, P) indépendantes et identiquement distribuées.
PN P
On note m = E(Xn ) et MN = N1 n=1 Xn . Alors, MN → m, c’est-à-dire ∀ > 0, lim P(|MN − m| > ) = 0.
N →+∞
PN
Démonstration : On note m = E(Xn ) et σ 2 = Var(Xn ). Alors, E(MN ) = N1 n=1 E(Xn ) = Nm
m = m et Var(MN ) =
N σ2 σ2
1
PN
N2 n=1 Var(Xn ) = N 2 = N . Pour tout > 0, on applique l’inégalité de Chebyshev :
σ2
P(|Mn − m| > ) ≤ → 0
N 2 N →+∞
P
d’où MN → m.
65
Théorème (Loi forte des grands nombres)
Soit (Xn )n∈N∗ une suite de variables aléatoires de L2 (Ω, F, P) indépendantes et identiquement distribuées.
PN p.s. Lp
On note m = E(Xn ) et MN = N1 n=1 Xn . Alors, MN → m et MN → m.
Remarque : Cela nous permet d’effectuer des approximations numériques, par exemple la méthode de Monte Carlo.
On prend Xn ∼ U([0, 1]) une suite de variables aléatoires indépendantes, et alors on a :
N Z
1 X
lim f (Xn ) = E(f (Xn )) = f (x)λ(dx)
N →+∞ N [0,1]
n=1
Cela permet d’approcher la valeur d’intégrales par l’utilisation de variables aléatoires,

√ et on peut par exemple en
déduire une approximation de la valeur de π avec l’intégrale sur [0, 1] de f (x) = 1 − x2 .
Section XI.3 - Convergence en loi
Définition
Soit (Xn )n∈N une suite de variables aléatoires réelles, (FXn )n∈N leurs fonctions de répartition respectives, et
soit X une variable aléatoire de fonction de répartition FX .
On dit que la suite des variables aléatoires (Xn )n∈N converge en loi vers la variable aléatoire X ssi (FXn )n∈N
L
converge simplement vers FX , sauf éventuellement aux points de discontinuité de FX . On note Xn → X.
Exemple : Considérons (R, B(R), U([0, 1])) et :


 0 si ω < 0
Xn = ω 7→ 1 − nω si ω ∈ [0, n1 ]
0 si ω > n1

de fonctions de répartition respectives :


 0 si x < 0
1
FXn = x 7→ n + (1 − n1 )x si x ∈ [0, n1 ]
1 si x > 1

L
Alors, (FXn )n∈N converge simplement vers FX = 1[0,+∞[ . Ainsi Xn → 0.
Définition
Soit (µn )n∈N une suite de mesures de probabilité sur E. On dit que (µn )n∈N converge faiblement (ou
étroitement) vers µ ssi Z Z
∀f ∈ Cb (E), lim f dµn = f dµ
n→+∞ E E
où Cb (E) est l’ensemble des fonctions continues et bornées de E.
Proposition
Lorsque E = R, la suite de variables (Xn )n∈N converge en loi vers X ssi la suite des lois de Xn converge vers
la loi de X.
Définition
Lorsque E 6= R, on dit que la suite de variables (Xn )n∈N converge en loi vers X ssi la suite des lois de Xn
L
converge vers la loi de X. On note Xn → X.
66
Théorème (Portmanteau pour les mesures)
Soit (µn )n∈N une suite de mesures de probabilité sur E. Toutes les propositions suivantes sont équivalentes :
• (µn )n∈N converge faiblement vers µ.
• Pour toute fonction f de E uniformément continue et bornée, lim E f dµn = E f dµ.
R R
n→+∞
• Pour toute fonction f de E continue et à support compact, lim E f dµn = E f dµ.
R R
n→+∞
• Pour tout A ⊂ E fermé, lim sup µn (A) ≤ µ(A).
n→+∞
• Pour tout A ⊂ E ouvert, lim inf µn (A) ≥ µ(A).
n→+∞
• Pour tout A ∈ B(E) tel que µ(∂A) = 0, lim µn (A) = µ(A).
n→+∞
Théorème (Portmanteau pour les variables aléatoires)
Soit (Xn )n∈N une suite de variables aléatoires sur E. Toutes les propositions suivantes sont équivalentes :
L
• Xn → X.
• Pour toute fonction f de E uniformément continue et bornée, lim E(f (Xn )) = E(f (X)).
n→+∞
• Pour toute fonction f de E continue et à support compact, lim E(f (Xn )) = E(f (X)).
n→+∞
• Pour tout A ⊂ E fermé, lim sup P(Xn ∈ A) ≤ P(X ∈ A).
n→+∞
• Pour tout A ⊂ E ouvert, lim inf P(Xn ∈ A) ≥ P(X ∈ A).
n→+∞
• Pour tout A ∈ B(E) tel que P(X ∈ ∂A) = 0, lim P(Xn ∈ A) = P(X ∈ A).
n→+∞
Proposition
Soit (Xn )n∈N une suite de variables aléatoires à valeurs dans un ensemble discret. Alors :
L
Xn → X ⇔ ∀k ∈ E, lim P(Xn = k) = P(X = k)
n→+∞
Proposition
Soit (Xn )n∈N une suite de variables aléatoires de fonction caractéristiques respectives Φn = ΦXn et X une
variable aléatoire de fonction caractéristique Φ = ΦX . Alors :
L
Xn → X ⇔ Φn → Φ simplement
Exemple : Soit λ > 0, Xn ∼ B(n, nλ ), et X ∼ Pois(λ). La fonction caractéristique de Xn est Φn = t 7→ (1 − nλ + nλ eit )n ,

et (Φ(n))n∈N converge simplement vers φ = t 7→ exp(λ(eit − 1)) qui est précisément la fonction caractéristique de X.
L
On en déduit que Xn → X.
Proposition
Soit (Xn )n∈N une suite de variables aléatoires convergeant en probabilité vers X.
Alors, (Xn )n∈N converge en loi vers X.
P P
Démonstration : Supposons que Xn → X. Soit f une fonction continue et bornée. Alors, f (Xn ) → f (X) et puisque
1
L
f est bornée, |f (Xn )| ≤ C ∈ L1 donc f (Xn ) → f (X). Dit autrement, lim E(f (Xn )) = E(f (X)), ce qui donne la
n→+∞
convergence en loi par le théorème Portmanteau.
Proposition
Soit (Xn )n∈N une suite de variables aléatoires définies sur (Ω, F, P) à valeurs dans E = Rd . On suppose que
L P
Xn → X et X = c presque sûrement, où c ∈ E est une constante. Alors, Xn → X.
67
Section XI.4 - Théorème Central Limite (TCL)
Théorème (Central Limite)
Soit (Xn )n∈N une suite de variables aléatoires de L2 (Ω, F, P) indépendantes et identiquement distribuées. On
PN
note SN = n=1 Xn , m = E(Xn ) et σ 2 = Var(Xn ). On suppose que σ 6= 0. Alors :
SN − N m L
√ −→ Y
σ N N →+∞
où Y ∼ N (0, 1).

PN
Démonstration : Quitte à remplacer Xn par Xnσ−m , on suppose que m = 0 et σ = 1. Soit YN = √1 SN
N
= √1
N n=1 Xn .
Alors, puisque les Xn sont indépendants et identiquement distribués :
n N
Y t t
ΦYN (t) = Φ √1 PN (t) = ΦXn √ = ΦX √
n=1 Xn
N
i=1
N N
Les Xn sont dans L2 , donc ΦX ∈ C 2 . On a alors ΦX (0) = 1, Φ0X (t) = iE(XeitX ) donc Φ0X (0) = im = 0 et
Φ00X (t) = −E(X 2 eitX ) donc Φ00X (0) = −σ = −1. On en déduit que :
t2
2
t t
ΦX (t) = 1 − t2 + o(t2 ) ⇒ ΦX √ =1− +o √
0 N 0 2N N
t2
2
t2

t t t
⇒ ln ΦX √ =− +o √ ⇒ N ln ΦX √ = − + o(t2 )
N 0 2N N N 0 2
On obtient ainsi un équivalent à t fixé lorsque N → +∞. On en déduit que
N
t2

t
∀t ∈ R, ΦYN (t) = ΦX √ −→ exp
N N →+∞ 2
L
On a établi que (ΦYN )N ∈N converge simplement vers la fonction caractéristique de Y ∼ N (0, 1), d’où YN → Y .
68
Chapitre XII. Introduction aux processus stochastiques
Section XII.1 - Espérance conditionnelle
Proposition
Soit (Ω, F, P) un espace probabilisé et X : Ω → R une variable aléatoire. Soit G ⊂ F une sous-tribu.
Alors, il existe une unique variable aléatoire Y ∈ L2 (Ω, G, P) vérifiant ∀U ∈ L2 (Ω, G, P), E(XU ) = E(Y U ).
Démonstration : H = L2 (Ω, F, P) est un espace de Hilbert, de produit scalaire hX, Y i = Ω XY dP = E(XY ).

R
A = L2 (Ω, G, P) est un sous-espace vectoriel fermé de H, on peut donc définir la projection orthogonale sur A.
Ainsi, il existe un unique Y ∈ A tel que ∀U ∈ A, hX − Y, U i = 0 ⇒ ∀U ∈ A, E(XU ) = E(Y U ).
Définition
La variable aléatoire Y définie précédemment est appelée espérance conditionnelle de X sachant G.
Elle est notée E(X|G).
Proposition
Soit (Ω, F, P) un espace probabilisé et G ⊂ F une sous-tribu. Alors :

• L’application X 7→ E(X|G) est linéaire dans L1 (Ω, F, P).
• X ≥ 0 p.s. ⇒ E(X|G) ≥ 0 p.s.
• E(E(X|G)) = E(X).
Remarque : Cette proposition et un argument de densité permettent d’étendre la définition de E(X|G) à L1 .
Définition
Soit (Ω, F, P) un espace probabilisé et X : Ω → R une variable aléatoire. Soit G ⊂ F une sous-tribu.
La variable aléatoire Y ∈ L1 (Ω, G, P) vérifiant pour toute variable aléatoire U G-mesurable et bornée, E(XU ) =
E(Y U ) est appelée espérance conditionnelle de X sachant G. Elle est notée E(X|G).
R R
Remarque : Cela équivaut à vérifier ∀A ∈ G, A
XdP = A
Y dP.
Proposition
Soit (Ω, F, P) un espace probabilisé et G ⊂ F une sous-tribu. Alors :

• L’application X 7→ E(X|G) est linéaire dans L1 (Ω, F, P).
• X ≥ 0 p.s. ⇒ E(X|G) ≥ 0 p.s.
• E(E(X|G)) = E(X).
• J ⊂ G ⊂ F ⇒ E(E(X|G)|J ) = E(X|J ).
Proposition
Soit X et Y des variables aléatoires réelles sur (Ω, F, P), et G ⊂ F une sous-tribu. On suppose que X est
G-mesurable. Si X, Y et XY sont intégrables (ou positives), alors E(XY |G) = XE(Y |G).
Proposition (Inégalité de Jensen)
Soit (Ω, F, P) un espace probabilisé, G ⊂ F une sous-tribu et φ : R → R convexe. Si X et φ(X) sont intégrables,
alors φ(E(X|G)) ≤ E(φ(X)|G)
Exemple : On considère (Ω, F, P) = (R, B(R), U([0, 1]) et X : R → R définie par :


 0 si ω < 0
X = ω 7→ 1 − ω si ω ∈ [0, 1]
0 si ω > 1

69
On pose G = σ({[ 2i , i+12 ], i ∈ Z}). On remarque R X n’est pas G-mesurable. On cherche à déterminer E(X|G), qui
que
doit être L1 (Ω, G, P) et vérifier ∀A ∈ G, A XdP = A E(X|G)dP). Puisque E(X|G) doit être G-mesurable, elle doit être
R
constante sur les intervalles de la forme [ 2i , i+1

2 ]. En calculant l’intégrale de X sur chacun de ces intervalles, on trouve
alors que : 
 03 si ω < 0 1

si ω ∈ [0, 2 ]

E(X|G) = ω 7→ 4
1
si ω ∈] 12 , 1]
 4


0 si ω > 1
Pour J = {∅, Ω}, on a E(X|J ) = ω 7→ 21 . Puisque X ∈ L1 (Ω, F, P), on a E(X|F) = X.
Théorème
Soit (Ω, F, P) un espace probabilisé et X : Ω → R une variable aléatoire intégrable (ou positive). Alors :
E(X|G) = X ⇔ X est G-mesurable
Proposition
Soit X : (Ω, F, P) → (E, E) une variable aléatoire et B ∈ F tel que P(B) > 0 et P(Ω\B) > 0. Alors, E(X|σ(B))
est la variable aléatoire
E(X1B ) E(X1Ω\B )
1B + 1Ω\B
P(B) 1 − P(B)
Démonstration : σ(B) = {∅, B, Ω\B, Ω}. Soit ω1 ∈ B et x1 = E(X|G)(ω1 ). Puisque E(X|G) est mesurable, alors
E(X|G)−1 (x1 ) ∈ σ(B) soit, puisque cet ensemble est non vide, différent de Ω (la mesure de Ω\B est non nulle) et
contient ω1 ∈ B, E(X|G)−1 (x1 ) = B. De même, si ω2 ∈ Ω\B et x2 = E(X|G)(ω2 ), alors E(X|G)−1 (x2 ) = Ω\B. Donc,
B)
E(X|G) = x1 1B + x2 1Ω\B . Or, E(X1B ) = E((x1 1B + x2 1Ω\B )1B ) = x1 E(1B ) = x1 P(B) soit x1 = E(X1
P(B) et de même,
E(X1Ω\B )
x2 = P(Ω\B) , ce qui donne le résultat attendu.
Définition
Soit B ∈ F tel que P(B) > 0 et P(Ω\B) > 0.

On appelle espérance conditionnelle de X sachant B, et on note E(X|B), le réel :
E(X1B )
E(X|B) =
P(B)
Remarque : E(X) = E(E(X|σ(B))) = E(E(X|B)1B + E(X|Ω\B)1Ω\B ) = E(X|B)P(B) + E(X|Ω\B)P(Ω\B).
Définition
Soit X : (Ω, F, P) → R) et Y : (Ω, F, P) → (E, E) deux variables aléatoires.

On appelle espérance conditionnelle de X sachant Y la variable aléatoire E(X|σ(Y )). On la note E(X|Y ).
De manière analogue, on notera E(X|Y1 , ..., Yn ) = E(X|σ(Y1 , ..., Yn )).
Théorème
Soit X : (Ω, F, P) → R) et Y : (Ω, F, P) → (E, E) deux variables aléatoires.

Il existe une application borélienne h : E → R telle que E(X|Y ) = h(Y ).
Proposition
Soit (Ω, F, P) un espace probabilisé et (X, Y ) : Ω R→ R2 un vecteur aléatoire admettant une densité f(X,Y ) . On
suppose que X ∈ L1 (Ω, F, P) et ∀y ∈ R, fY (y) = R f(X,Y ) (x, y)λ(dx) > 0. On pose :
Z
fX,Y (x, y)
fX|Y =y (x) = et h(y) = xfX|Y =y (x)λ(dx)
fY (y) R
Alors, E(X|Y ) = h(Y ).
70
Proposition
Soit (Ω, F, P) un espace probabilisé et (Xn )n∈N une suite de variables aléatoires. Alors :
p.s. p.s.
Xn −→ X et ∀n ∈ N, Xn ≥ 0 ⇒ E(Xn |G) −→ E(X|G) (convergence monotone)
p.s.
Xn −→ X ⇒ E(lim inf Xn |G) ≤ lim inf E(X|G) p.s. (lemme de Fatou)
p.s. p.s.
Xn −→ X et ∃Z ∈ L1 (Ω, F, P), ∀n ∈ N, |Xn | ≤ Z ⇒ E(Xn |G) −→ E(X|G) (convergence dominée)
Définition
Soit (Ω, F, P) un espace probabilisé et A ∈ F. Soit G ⊂ F une sous-tribu.

On appelle probabilité conditionnelle de A sachant G, et on note P(A|G), la variable aléatoire :
P(A|G) = E(1A |G)
Remarque : Pour B ∈ F, alors :
E(1A 1B ) E(1A 1Ω\B ) P(A ∩ B) P(A ∩ (Ω\B))

P(A|σ(B)) = 1B + 1Ω\B = 1B + 1Ω\B = P(A|B)1B + P(A|(Ω\B))1Ω\B .
P(B) P(Ω\B) P(B) P(Ω\B)
Section XII.2 - Processus stochastiques
Définition
Soit (Ω, F, P) un espace probabilisé et (E, E) un espace mesuré. On appelle processus stochastique (ou
processus aléatoire) toute collection de variables aléatoires (Xt )t∈T sur (Ω, F, P) à valeurs dans E.
On le note X = {Xt , t ∈ T }. Lorsque T = N, le processus est dit discret.
Définition
Un processus stochastique discret (Sn )n∈N est appelé marche aléatoire à un paramètre si ses accroissements
Xn = Sn − Sn−1 pour n ≥ 1 sont indépendants et identiquement distribués.
Définition
Soit (Ω, F, P) un espace probabilisé. On appelle filtration toute suite croissante (Fn )n∈N de sous-tribus de F.
Définition
On dit qu’un processus stochastique discret X = {Xn , n ∈ N} est adapté à la filtration F si pour tout
n ∈ N, Xn est Fn -mesurable.
Exemple : Soit X = {Xn , n ∈ N}. La filtration (Fn )n∈N définie par Fn = σ(Xk , k ∈ [[1, n]]) est adaptée au processus
X. On l’appelle filtration naturelle de X.
Définition
Un processus discret X est appelé une martingale par rapport à la filtration (Fn )n∈N ssi le processus est
adapté à la filtration, pour tout n ∈ N, Xn ∈ L1 (Ω, F, P) et pour tout n ∈ N, Xn = E(Xn+1 |Fn ) p.s. (∗)
En remplaçant (∗) par Xn ≤ E(Xn+1 |Fn ) p.s., on l’appelle une sous-martingale.
En remplaçant (∗) par Xn ≥ E(Xn+1 |Fn ) p.s., on l’appelle une sur-martingale.
Proposition
Si X est une martingale, alors ∀n ∈ N, E(Xn ) = E(X0 ).
Démonstration : Pour n ∈ N, E(Xn ) = E(E(Xn+1 |Fn )) = E(Xn+1 ), et on conclut par récurrence.
71
Définition
Un processus X adapté à une filtration (Fn )n∈N est prévisible si ∀n ∈ N, Xn est Fn+1 -mesurable.
Proposition
Soit S une martingale et C un processus prévisible et borné. Alors, le processus stochastique ((C · S)n )n∈N
défini par :
(C · S)0 = 0 Pn
∀n ∈ N∗ , (C · S)n = k=1 Ck (Sn − Sn−1 )
est une martingale.
Définition
On appelle C · S la transformée de la martingale S par le processus C.
72

Poly de CIP

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Poly de CIP

Transféré par

Droits d'auteur :

Formats disponibles

Sommaire

Chapitre I. Topologie, Convergence 2

Chapitre II. Espaces de Hilbert, Séries de Fourier 8

Chapitre III. Mesurabilité 13

Chapitre IV. Intégration 18

Chapitre VI. Introduction aux probabilités 33

Chapitre VII. Mesure produit, Convolution 41

Chapitre VIII. Vecteurs aléatoires 50

Chapitre IX. Transformée de Fourier, Fonction caractéristique 55

Chapitre X. Vecteurs Gaussiens 62

Chapitre XI. Convergence de variables aléatoires 64

Chapitre XII. Introduction aux processus stochastiques 69

Soit E un ensemble et d : E × E → R+ une fonction.

Soit (E, d) un espace métrique et l ∈ E.

Soit (E, d) un espace métrique, a ∈ E et r ≥ 0.

B(a, r) = {x ∈ E|d(x, a) < r}

Soit (E, d) un espace métrique.

Exemple : Sur Rn , toutes les distances dp sont équivalentes.

d(x, A) = inf{d(x, a), a ∈ A}

Soit (un ) une suite réelle majorée.

lim sup un = lim sup um

Soit (un ) une suite réelle minorée.

lim inf un = lim inf um

Une suite (un ) est de Cauchy si :

∀ > 0, ∃N ∈ N, ∀(p, q) ∈ N2 , q > p > N ⇒ d(uq , up ) < 

Toute suite convergente est de Cauchy.

Section I.2 - Espaces vectoriels normés

Soit E un espace vectoriel et N : E × E → R+ une fonction.

Exemple : Soit p ∈ [1, +∞[.

Soit (E, N ) un espace vectoriel normé.

Soit (E, N ) un espace vectoriel sur R ou C.

Soit (E, N ) un espace vectoriel normé, a ∈ E et r ≥ 0.

B(a, r) = {x ∈ E|N (x − a) < r}

Soit (E, N ) un espace métrique et l ∈ E.

Deux normes équivalentes conduisent à la même convergence.

Soit (E, T ) un espace topologique. X ⊂ E est un fermé si E\X est un ouvert.

Soit (E, T ) un espace topologique.

Soit (E, d) un espace métrique.

Démonstration : Vérifions que l’on a effectivement une topologie.

Sur R, la distance d(x, y) = |y − x| induit la topologie suivante : T = {unions d’intervalles ouverts}.

Soit (E, T ) un espace topologique et l ∈ E.

Un espace topologique E est dit de Hausdorff (ou T2 ) si :

∀(x, y) ∈ E 2 , x 6= y, ∃U ∈ V(x), ∃V ∈ V(y), U ∩ V = ∅

Dans un espace de Hausdorff, la limite, si elle existe, est unique.

Toute topologie induite par une distance est de Hausdorff.

Démonstration : Soit x et y deux points de l’espace topologique. En posant U = B(x, d(x,y)

Soit (E, TE ) et (F, TF ) deux espaces topologiques.

Soit (E, TE ) un espace topologique.

Soit (E, TE ) un espace topologique, A ⊂ E et x ∈ E.

Soit (E, TE ) un espace topologique et D ⊂ E.

Soit (E, TE ) un espace topologique.

Soit (E, TE ) un espace topologique et (un ) une suite de E.

Soit (un ) une suite majorée (resp. minorée).

Soit (E, TE ) un espace topologique.

Exemple : Pour la topologie usuelle, Q est dense dans R.

Soit (E, TE ) un espace topologique, A ⊂ E

A est le plus petit fermé contenant A.

Soit (E, TE ) un espace topologique, A ⊂ E

On dit alors que cette forme est :

Exemples : C2 muni de φ : (x, y) 7→ 2x1 y1 + x2 y2 est un espace hermitien.

Proposition (Identité du parallélogramme)

Soit E un espace préhilbertien et x, y ∈ E. Alors :

||x + y||2 + ||x − y||2 = 2||x||2 + 2||y||2

Soit E un espace préhilbertien et x, y ∈ E. Alors :

∀ > 0, ∃N ∈ N, ∀(p, q) ∈ N2 , q > p > N ⇒ d(uq , up ) <