Calcul Des Probabilités: Concepts Et Résultats de Base

Calcul des probabilités
Concepts et résultats de base

par Jean-Pierre FOUQUE
Docteur ès Sciences
Chargé de Recherche au Centre National de la Recherche Scientifique
Maître de Conférences à l’École Polytechnique
1. Espaces de probabilités ......................................................................... A 560 - 2

1.1 Définitions .................................................................................................... — 2
1.2 Calcul combinatoire des probabilités ........................................................ — 4
1.3 Conditionnement et indépendance............................................................ — 5
2. Variables aléatoires réelles ................................................................... — 8
2.1 Généralités. Loi d’une var ........................................................................... — 8
2.2 Espérance mathématique ........................................................................... — 10
2.3 Var indépendantes....................................................................................... — 11
2.4 Fonction caractéristique.............................................................................. — 12
2.5 Exemples de lois de probabilités ............................................................... — 13
2.6 Simulation .................................................................................................... — 16
3. Vecteurs aléatoires.................................................................................. — 17
3.1 Généralités ................................................................................................... — 17
3.2 Indépendance. Covariance. Fonction caractéristique............................... — 19
3.3 Vecteurs gaussiens ...................................................................................... — 20
4. Théorèmes limites fondamentaux....................................................... — 22
4.1 Loi des grands nombres ............................................................................. — 22
4.2 Théorème de la limite centrale................................................................... — 23
4.3 Comparaison des différents modes de convergence ............................... — 24
5. Espérances et lois conditionnelles ..................................................... — 25
5.1 Approximation au sens des moindres carrés ........................................... — 25
5.2 Espérance conditionnelle............................................................................ — 26
5.3 Lois conditionnelles..................................................................................... — 27
5.4 Conditionnement dans le cas gaussien ..................................................... — 28
Références bibliographiques ......................................................................... — 29
et article est une introduction aux notions fondamentales des Probabilités.

C Celles-ci se sont dégagées progressivement à partir du XVII e siècle, mais
elles n’ont vraiment trouvé que depuis une soixantaine d’années la formulation
mathématique susceptible de leur donner toute la clarté et toute leur puis-
sance.
Depuis sa fondation vers 1650 par Pascal et Fermat, cette théorie s’est déve-
5 - 1993
loppée d’abord pendant plus d’un siècle comme un calcul combinatoire : le calcul
des Probabilités. Vint ensuite la période d’application aux Probabilités de
l’Analyse mathématique qui venait d’être créée : cette période s’ouvre approxi-
mativement avec la parution en 1812 du très important « Traité analytique des
Probabilités » de Laplace. Enfin la période moderne, caractérisée par l’étude des
fonctions aléatoires, débute vers 1930 : dans les « Fondements de la Théorie des
A 560
Probabilités » Kolmogorov publie en 1933 une nouvelle axiomatique basée sur

la théorie de l’intégration et universellement adoptée ensuite. Non seulement
cette axiomatique s’est avérée indispensable dans l’étude de tous les modèles
Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
© Techniques de l’Ingénieur, traité Sciences fondamentales A 560 − 1
CALCUL DES PROBABILITÉS ______________________________________________________________________________________________________________
dynamiques ou chronologiques des Probabilités (fonctions aléatoires ou

« processus stochastiques »), mais il est bien reconnu que l’expression mathé-
matique qui a été ainsi donnée aux concepts fondamentaux confère à ceux-ci
une clarté et une maniabilité beaucoup plus grandes.
L’utilisation des notions et résultats fondamentaux de la théorie de la mesure
et de l’intégration constitue une des difficultés principales de cette présentation
moderne des Probabilités. Nous avons essayé de minimiser cette difficulté en
faisant, au cours du texte, les rappels des notions et résultats utilisés. On trouvera
dans la bibliographie plusieurs ouvrages permettant d’approfondir l’étude de ces
outils mathématiques.
Les probabilités interviennent dans tous les domaines d’application ; ces
domaines peuvent être aussi variés que le calcul de structures, la théorie du
signal, l’optimisation et le contrôle des systèmes, l’imagerie médicale ou les
marchés financiers ; l’exposé des notions et des résultats de base que nous
faisons dans ce texte est destiné à aborder toutes ces applications dont on
trouvera des exemples dans les articles qui suivront.
1. Espaces de probabilités 1.1.1.2 Événements aléatoires et tribus

Les événements liés à une expérience aléatoire Ω sont des par-
ties de Ω ; A ⊂ Ω. Donnons deux exemples.
1.1 Définitions — Amener un total au moins égal à 10 lors d’un lancer de deux
dés : Ω = {1, 2, 3, 4, 5, 6}2 et :
1.1.1 Expériences et événements aléatoires
A = { ( m, n ) ∈ Ω , m + n 10 } = {(4,6), (5,5), (5,6), (6,4), (6,5), (6,6)}
1.1.1.1 Expériences aléatoires
— Dans l’exemple du bruit thermique (§ 1.1.1.1), ω est une fonc-
Une expérience aléatoire est une expérience dont le résultat est tion continue de [t1 , t2] dans et l’on peut s’intéresser à
soumis au hasard, c’est-à-dire dont on ne peut déterminer le résultat l’événement :
a priori ; on supposera aussi que l’on peut répéter cette expérience
un aussi grand nombre de fois que l’on veut. A = { l′amplitude du bruit ne dépasse pas un seuil α donné }
Un résultat possible est appelé une éventualité, notée par la lettre
= ω ∈ ( [ t1 , t2 ] → ) , sup ω (t ) α
ω (petit oméga). t ∈ [ t1 , t2 ]
L’ensemble de toutes les éventualités sera noté Ω (grand

oméga). Les opérations logiques que nous effectuons sur les événements
correspondent aux opérations habituelles sur les parties d’un
Les jeux de hasard tels que le pile ou face, les dés, les cartes, la ensemble.
loterie... fournissent des exemples d’expériences aléatoires pour
lesquelles Ω est fini. Par exemple pour le lancer d’une pièce, on • Ac est l’événement contraire de A,
aura Ω = {Pile, Face} ou pour le lancer d’un dé, Ω = {1, 2, 3, 4, 5, 6}. • A ∩ B est l’événement « A et B sont réalisés »,
Il peut aussi arriver que Ω soit infini dénombrable comme dans • A ∪ B est l’événement « A ou B est réalisé (ou les deux) ».
une modélisation théorique de l’expérience qui consiste à observer Rappelons les règles de calcul :
le nombre d’appels passant par un central téléphonique durant une
période donnée ; on a ici Ω = {0, 1, 2, ...} = . (A ∪ B )c = Ac ∩ B c et (A ∩ B )c = Ac ∪ B c (1)
De manière générale Ω peut être un ensemble très complexe et L’ensemble vide ∅ est l’événement impossible et l’événement
souvent non dénombrable, comme dans les deux exemples Ω est l’événement certain.
suivants :
Si A ∩ B = ∅, on dit alors que A et B sont incompatibles ; il ne
— une expérience aléatoire répétée une infinité de fois comme faudra pas confondre cette notion avec celle d’indépendance qui
dans un jeu de pile ou face de durée infinie pour lequel une éven- sera introduite au paragraphe 2.3.
tualité ω est une suite ordonnée infinie de Piles et de Faces :
ω = (Pile, Face, Face, ...) ; on a alors Ω = { Pile, Face } qui n’est On peut évidemment combiner plus de deux événements avec ces
pas dénombrable. Notons qu’à une expérience aléatoire répétée opérations logiques : par exemple, on pourra considérer une suite
correspond un espace Ω produit ; infinie d’événements ( A n ) n ∈ et regarder ∩ A n , ∪ A n ou
— l’observation, pendant un intervalle de temps [t1 , t2], de n n
l’amplitude du bruit thermique émis par un élément d’un réseau

∩ ∪ Am ∪ ∩ Am
électrique ou du mouvement de diffusion d’une particule dans
d : on a alors Ω = [ t 1 , t 2 ] → ou d , ensemble des fonc-
lim sup A n =
n p
mp et lim inf A
n
n =
pmp ; lim sup A
n
n
est formé des éventualités appartenant à une infinité de An alors que

tions continues de [t1 , t2] dans ou d . lim inf A n est formé de celles appartenant à tous les An sauf un
n
nombre fini.
A 560 − 2 © Techniques de l’Ingénieur, traité Sciences fondamentales
_____________________________________________________________________________________________________________ CALCUL DES PROBABILITÉS
Si An ∩ Am = ∅ dès que m ≠ n et ∪
n
A n = Ω , (An ) forme une • si A1 , ..., An sont deux à deux incompatibles, alors :
partition de Ω et l’on sait alors que le résultat de l’expérience sera N A1 ∪ A2 … ∪ An N A1 + … + N An N A1 N An

toujours dans exactement un des événements An . On a alors -------------------------------------- = -------------------------------------- = --------- + … + ---------- (8)
N N N N
affaire à un système exhaustif d’événements.
Nous utiliserons aussi la relation d’inclusion A ⊂ B pour exprimer
que si A est réalisé alors B l’est aussi. 1.1.3 Définition d’une probabilité
L’ensemble des événements que nous noterons , qui est un
sous-ensemble de l’ensemble des parties de Ω, ( ( Ω ) ) , doit satis- Intuitivement la probabilité d’un événement A, notée P (A), est un
faire à certaines stabilités par rapport aux opérations logiques que nombre compris entre 0 et 1 qui doit mesurer la chance que A a d’être
nous venons de décrire. réalisé au cours d’une expérience. Nous voulons que P (A) puisse
être identifiée à la limite empirique de NA /N et donc possède les
■ Axiomes sur : propriétés de ces fréquences statistiques.
• Ω∈ (2) Une probabilité sur un espace mesurable (Ω, ) est une applica-
• est stable par complémentaire : tion de dans [0, 1], notée P, c’est-à-dire telle que :
A ∈ ⇒ Ac ∈ (3) ∀A ∈ , 0 P (A ) 1 (9)
• est stable par union dénombrable : et P (Ω ) = 1 (10)
An ∈ , n ∈⇒∪ An ∈ (4) P (Ac ) = 1 – P (A ) (11)
n
Si (An ) est une suite d’événements incompatibles, alors :
On déduit facilement de ces trois axiomes que ∅ ∈ et que
est stable par intersection dénombrable.
est une σ-algèbre aussi appelée tribu d’événements. P
∪ A = ∑ P (A
n
n
n
n) (12)
À une expérience aléatoire nous avons associé l’ensemble des
éventualités Ω et la tribu d’événements , c’est-à-dire un espace La propriété (12) est appelée σ-additivité de P.
mesurable (Ω, ). Une probabilité P sur (Ω, ) est donc une mesure positive de
Terminons ce paragraphe par des exemples de tribus. masse totale égale à 1.
Dans le cas ou Ω est fini ou infini dénombrable, on aura Elle possède donc les propriétés d’une mesure comme, par
souvent : = ( Ω ). exemple :
La plus petite tribu possible {∅, Ω } est appelée la tribu triviale.
Si par exemple Ω = (non dénombrable), on pourra considérer la
tribu borélienne qui est la plus petite tribu contenant les intervalles
P
∪ ; A = lim ; P ( A
n
n
n
n) (13)
de ; elle sera notée ( ). Plus généralement si Ω est un espace

topologique, on pourra considérer la tribu ( Ω ) comme la plus où (An ) est une suite croissante d’événements (on déduit facile-
petite tribu contenant (ou engendrée par) les ouverts de Ω. ment des propriétés de P que A ⊂ B ⇒ P ( A ) P ( B ) ). On a bien
sûr :
P (∅) = 1 – P (Ω ) = 0 (14)
1.1.2 Loi empirique des grands nombres
et P (A ∪ B ) = P (A ) + P (B ) – P (A ∩ B ) (15)
Une expérience aléatoire peut être répétée une infinité de fois et qui se généralise à une union finie d’événements donnant la formule
si nous observons alors la fréquence de réalisation d’un événement de Poincaré :
A au cours d’une longue série de répétitions de l’expérience, nous
∪
constatons que NA /N (nombre de fois où A est réalisé divisé par le n
nombre d’expériences) fluctue de moins en moins autour d’une P Am = p 1 – p 2 + … + ( – 1 ) n – 1p n (16)
limite lorsque N augmente. C’est la loi empirique des grands m=1
nombres et nous appellerons probabilité statistique de A la limite
des fréquences statistiques NA /N. où pk = ∑ P ( A i1 ∩ … ∩ A ik )
1 i1 < … < ik n
Les propriétés de ces fréquences statistiques nous guideront pour
définir la notion de probabilité. Par la suite, nous démontrerons la Pour démontrer cette formule, on peut utiliser
loi des grands nombres, qui peut être considérée comme la version
théorique de la loi empirique. n
* = 1– ∏ ( 1 – * Am ) (17)
Un autre objet particulièrement intéressant est formé par les fluc-
∪A
n
m m=1
tuations de NA /N autour de sa limite quand N augmente ; l’étude m=1
de ces petites fluctuations fera l’objet du paragraphe 4.2 consacré
au théorème de la limite centrale. où * A est la fonction indicatrice de l’événement A, c’est-à-dire que
* A ( ω ) = 1 si ω ∈ A et * A ( ω ) = 0 si ω ∉ A . ( Ω , , P ) s’appelle un
■ Propriétés des fréquences statistiques : espace de probabilité ou espace probabilisé.
NA Notons que sur (Ω, ) il existe beaucoup de probabilités diffé-
• pour tout A ∈ , 0 -------- 1 (5) rentes et que l’on peut résumer ce paragraphe 1.1 en disant :
N
NΩ
• -------
- = 1 (6)
N
« Une expérience aléatoire se décrit mathématiquement par
NAc NA la donnée d’un espace de probabilité (Ω, , P ) ».
• N A c = N – N A et donc --------- = 1 – -------
- (7)
N N
1.2 Calcul combinatoire des probabilités Dans le cas n N , on définit aussi les sous-populations de taille n
de S. Il s’agit ici d’un sous-ensemble de S comportant n éléments dis-
tincts pour lequel l’ordre n’intervient pas.
1.2.1 Probabilités sur un espace fini
ou infini dénombrable Le nombre de telles sous-populations est égal au nombre d’échan-
tillons de taille n (sans remise) divisé par n ! qui est le nombre de bijec-
Dans ce paragraphe, nous considérons le cas où l’espace Ω est tions d’un ensemble à n éléments, soit :
fini ou infini dénombrable ; Ω sera toujours muni de la tribu de ses n
A
parties = ( Ω ) . En particulier un singleton {ω } est un événe- N! n
card ( Ω ) = ------N- = ----------------------------- = C N (20)
ment et, grâce à la propriété (12), la donnée d’une famille finie ou n! n ! (N – n) !
infinie dénombrable {p (ω ), ω ∈ Ω } de nombres compris entre 0 et Ce nombre est aussi appelé le nombre de combinaisons de
1 tels que ∑ p ( ω ) = 1 définit une probabilité P sur (Ω, ) par : n éléments parmi N avec 0 n N .
ω∈Ω
Ce sont les coefficients de la formule du binôme :
∀A ∈ , P ( A ) = ∑ p ( ω ) (18)
N
ω∈A
∑
n
( a + b )N = CN a n b N – n (21)
On peut interpréter p (ω ) comme le poids attribué à l’éventualité ω. n=0
Dans le cas d’un ensemble Ω fini, un exemple important est la Le lien est très visible en écrivant :
probabilité uniforme pour laquelle chaque éventualité a le même
poids. Si card désigne le cardinal d’un ensemble, on a alors : N N
1 card ( A )
∏ ( 1 + tj ) = ∑ ∑ t i1 ... t in (22)
p ( ω ) = ----------------------- et P ( A ) = ----------------------- (19) j=1 n = 0 i 1 , ..., i n
card ( Ω ) card ( Ω )
qui donne pour tous les t j égaux entre eux :
Cette probabilité traduit mathématiquement l’expression usuelle
N
au hasard.
∑
n
( 1 + t )N = CN t n (23)
n=0
1.2.2 Échantillons et sous-populations.
n
Loi hypergéométrique Le coefficient binomial C N peut aussi être vu comme le nombre de
partitions distinctes d’une population S de taille N en deux sous-popu-
1.2.2.1 Tirages. Coefficients binomiaux lations complémentaires de tailles n et N – n.
Soit S = {s1 , s 2 , ..., sN } une population de taille N (formée de Plus généralement, si n 1 + n 2 + ... + n k = N, on définit le coefficient
N éléments distincts). multinomial :
Un échantillon de taille n extrait de cette population est une suite N!
--------------------------------------- (24)
n 1 ! n 2 ! ... n k !
ordonnée ( s i1 , ..., s in ) de n éléments de S. Il faut distinguer deux
manières de tirer un échantillon. qui est le nombre de partitions distinctes d’une population S de taille
N en k sous-populations complémentaires de tailles n 1 , n 2 , ..., n k .
■ Tirage avec remise (ou remplacement, ou replacement)
On note aussi que :
La suite ( s i1 , ..., s in ) peut alors comporter plusieurs fois le même
N!
∑
n n
élément. Ω étant l’ensemble de ces tirages possibles, on a : ( t 1 + ... + t k ) N = -------------------------- t 1 1 ... t k k
n 1 , ..., n k
n 1 ! ... n k !
card (Ω ) = N n et faire un tirage au hasard signifie que nous munis-
sons Ω de sa probabilité uniforme. n 1 + ... + n k = N
(25)
■ Tirage sans remise (avec n N ) 1.2.2.2 Loi hypergéométrique
On a alors :
Nous sommes toujours dans le cas Ω fini ou infini dénombrable
n N! et nous allons considérer des applications X de Ω dans que nous
card (Ω ) = N (N – 1) ... (N – n + 1) = A N = ----------------------
(N – n) ! appellerons des variables aléatoires entières. Cette notion sera
n généralisée au paragraphe 2.
un tirage est ici un arrangement et A N le nombre d’arrangements
de n éléments parmi N. À une probabilité P sur Ω (toujours muni de = ( Ω ))
Là aussi un tirage au hasard signifie la probabilité uniforme correspond son image par X sur , c’est-à-dire une probabilité PX
sur Ω. sur définie par les nombres PX (k ) = P {ω ∈ Ω, X (ω ) = k } pour
k ∈ .
Exemple
Dans le cas avec remise, soit l’événement : Ces nombres sont aussi notés succinctement P {X = k } et la pro-
babilité ainsi définie sur est aussi appelée la loi de la variable
A = {échantillons formés d’éléments tous distincts} aléatoire entière X.
bien sûr si n > N, alors P (A) = 0. Soit S une population de taille N formée de deux types d’éléments
Si n N : en nombres respectifs N1 et N 2 avec N1 + N 2 = N. On considère
Ω l’ensemble des sous-populations ω de taille n et l’on munit Ω de
card ( A ) N (N – 1) … (N – n + 1) N! sa probabilité uniforme.
P ( A ) = --------------------
- = ---------------------------------------------------------------
- = ----------------------------n-
Nn Nn (N – n) !N D’après (19) et (20) nous avons :
N!
Dans le cas particulier n = N, P ( A ) = -------N qui tend vers 0 lorsque N card ( A )
augmente. N P ( A ) = -----------------------
n
(26)
CN
On s’intéresse maintenant au nombre, X (ω ), d’éléments de type 1.2.3.2 Loi de Poisson

1 contenu dans la sous-population ω et en particulier à la loi de X ;
Avec les notations du paragraphe 1.2.3.1, si p 2 0, n 3 + ∞ de
nous obtenons : sorte que np → λ où λ est une constante strictement positive, alors
k n –k
C N1 C N2 pour tout k entier :
P {X = k } = P {ω ∈ Ω, X (ω ) = k } = -------------------------
n
- (27)
CN k λk
P { X = k } = C n p k ( 1 – p ) n – k → exp ( – λ ) ------ (29)
k!
avec N1 + N 2 = N, n N et 0 k N 1 , 0 n – k N 2 puisqu’il y a
Ce résultat constitue la convergence de la loi binomiale vers la
k n– k
C N1 C N2 sous-populations contenant k éléments de type 1. loi de Poisson de paramètre λ > 0, notée ( λ ) ; c’est une loi sur
+∞
λk
∑ exp ( – λ )
La loi de X s’appelle la loi hypergéométrique ; le nom de cette
et l’on vérifie que l’on a bien ------ = 1.
loi est relié à sa fonction génératrice, notion que nous introduirons k!
k=0
au paragraphe 2.4.3.
Ces lois ( λ ) jouent un grand rôle dans les phénomènes
Exemple
d’arrivées aléatoires que l’on retrouvera au paragraphe 2.5.3.
Nombre d’as X dans la main d’un joueur de bridge, ce joueur étant
spécifié avant la donne. La démonstration de (29) s’obtient en écrivant que :
La distribution des cartes se faisant au hasard, la main de ce joueur k
C n p k ( 1 – p )n – k
est une sous-population de taille 13 extraite d’une population de taille
obtient avec (27) :

13
52. On a card ( Ω ) = C 52 ; les éléments de type 1 étant les as, on = (1 – p) n ( np ) k
n ( n – 1 ) ... ( n – k + 1 )
-------------- × ----------------------------------------------------------
k! nk
- × ( 1 – p )– k
P {X = 0} ≈ 0,32 P {X = 1} ≈ 0,42 P {X = 2} ≈ 0,21 où, lorsque n 3 + ∞ , p 2 0 et np → λ > 0 , le premier facteur
P {X = 3} ≈ 0,04 et P {X = 4} ≈ 0,003 λk
converge vers exp ( – λ ) ------ et le deuxième vers 1.
Les calculs avec la loi hypergéométrique sont longs à exécuter (et par- k!
fois impossibles !) ; lorsque N 1 et N 2 sont grands par rapport à n, on dis-
pose d’une bonne approximation qui fait l’objet du paragraphe 1.2.3. 1.2.3.3 Applications
Terminons ce paragraphe en donnant une application du type
1.2.3 Approximations par la loi binomiale contrôle industriel de fabrication : on veut calculer la loi de proba-
et la loi de Poisson bilité du nombre X d’objets défectueux dans un tirage de 20 objets
parmi un lot de 10 000 objets dont 500 sont défectueux.
1.2.3.1 Loi binomiale X suit une loi hypergéométrique avec :
Avec les notations du paragraphe 1.2.2.2 fixons k et n de sorte N = 10 000, N1 = 500, N2 = 9 500 et n = 20
N1
que 0 k n ; faisons tendre N vers + ∞ de telle manière que ------- On approxime la loi de X par la loi binomiale
N

N1 1
N2 n = 20, p = ------- = ------ en utilisant (28).
converge vers p avec 0 < p <1 et donc, aussi, que ------- converge N 20
N
vers 1 – p ; on a alors : 1
De plus p = ------ est petit, le conduit np = 1 est significatif et l’on
k n– k 20
C N1 C N2 k peut, grâce à (29), approximer la loi de X par la loi de Poisson
P { X = k } = ------------------------
- → C n p k ( 1 – p )n – k (28)
n 1k e– 1
CN ( λ = 1 ) ; d o n c P ( X = k ) ∼ e –1 ------ = --------- ; p a r e x e m p l e :
k! k!
Dans ces conditions, on peut donc écrire que 1 1
P {X = 0} ∼ ----
- et P { X = 1 } ∼ ----
-.
P { X = k } ∼ C n p k ( 1 – p ) n – k qui est appelée la loi binomiale de
k
e e
paramètres (n, p ) et notée ( n, p ) ; on vérifie bien sûr que
n
1.3 Conditionnement et indépendance
∑ C n p k ( 1 – p )n – k
k
= 1.
k=0
1.3.1 Probabilités conditionnelles
La relation (28) constitue un premier exemple de ce que nous
appellerons plus loin (§ 4.2.1) la convergence en loi ; nous retrou- La notion de probabilité conditionnelle est l’une des plus fruc-
verons la loi binomiale quand nous étudierons l’indépendance et tueuses de la théorie des probabilités ; elle part de la remarque
les variables de Bernoulli (§ 2.5.1). simple suivante : on modifie la probabilité d’un événement lorsque
La démonstration de (28) s’obtient sans difficulté en écrivant l’on a une information partielle sur le résultat de l’expérience.
P {X = k } à l’aide de factorielles.
1.3.1.1 Probabilité conditionnelle empirique
Remarquons finalement que lorsque p est petit et que la taille n
de l’échantillon est grande, on a alors P (X = 0) ~ (1 – p )n ~ exp(– np ), Regardons, comme nous l’avons fait au paragraphe 1.1.2 les fré-
pourvu que le produit np reste significatif ; cette remarque conduit quences statistiques ; fixons un événement A et répétons l’expé-
à l’approximation traitée dans le paragraphe 1.2.3.2. rience N fois ; dès que NA (le nombre de fois où A est réalisé) est
strictement positif, pour un autre événement B nous pouvons
NB ∩ A
considérer le rapport ---------------- qui représente la fréquence de
NA
réalisation de B parmi les NA répétitions aléatoires de l’expérience
qui ont réalisé A.
La limite de ce rapport, lorsque N augmente, est appelée la pro- 1.3.1.4 Formule de Bayes
babilité empirique de B conditionnelle en A et l’on a :
Supposons, comme au paragraphe 1.3.1.3, que nous ayons une
NB ∩ A N B ∩ A N suite exhaustive d’événements (An ) telle que P (An ) > 0 pour tout n
---------------- = -------------------------
- (30) et un événement B de probabilité strictement positive ; alors la
NA NA N
formule suivante, formule de Bayes (autrefois appelée : probabilité
ce qui nous conduit à la définition de la probabilité conditionnelle des causes), est une conséquence immédiate de (33) :
(§ 1.3.1.2). P ( B ∩ An ) P ( BA n ) P ( A n )
P ( A n B ) = ------------------------------ = ------------------------------------------------
- (34)
P (B )
1.3.1.2 Probabilité conditionnelle ∑ P ( BAj ) P ( Aj )
j
Étant donné un espace de probabilité (Ω, , P ), la probabilité de
l’événement B conditionnellement en l’événement A, notée P (B /A ) En statistique, on peut être amené à choisir parmi une suite
est définie par : exhaustive d’événements (An ) (aussi appelés hypothèses) sachant
P (B ∩ A) que l’événement B est réalisé ; une règle de décision bayesienne
P ( BA ) = ------------------------- (31) consistera à maximiser P (An /B ), c’est-à-dire à retenir le (ou les)
P (A)
An les plus plausibles au vu de la réalisation de B ; la formule de
pourvu que P (A ) > 0. Bayes nous permet de calculer ces quantités P (An /B ) connaissant
P (B /A ) se lit aussi « probabilité de B sachant A ». Il est très facile bien sûr les probabilités P (B/An ) et P (An ) pour tous les n.
de vérifier que P (. / A ) définit bien une nouvelle probabilité
sur (Ω, ) ; pour cela il suffit de vérifier les propriétés (9), (10), (11) 1.3.2 Indépendance
et (12) en utilisant la définition (31).
1.3.2.1 Événements indépendants
Exemple
Soit A un événement de probabilité strictement positive sur
Si Ω est fini et P la probabilité uniforme :
l’espace ( Ω, , P ). Un événement B du même espace sera dit
P ( B ∩ A ) card ( B ∩ A ) indépendant de A si la probabilité de B n’est pas modifiée par la
P ( BA ) = -------------------------- = ---------------------------------- pour A ≠ ∅
P (A ) card ( A ) réalisation de A, c’est-à-dire si : P (B ) = P (B/A ) et donc si :
P (./A ) est donc la probabilité uniforme sur A. P (B ∩ A)

P ( B ) = -------------------------
Notons que l’on utilise souvent (31) sous la forme : P (A )
P (A ∩ B ) = P (A ) P (B/A ) pour P (A ) > 0 ou si, finalement : P (A ∩ B ) = P (A ) P (B ) (35)
que l’on généralise à : En prenant la formule (35) comme définition de l’indépendance
des événements A et B, on symétrise la définition qui s’applique
P (A1 ∩ ... ∩ An ) = P (A1) P (A 2 /A1) P (A3 /A 1 ∩ A 2) ... alors aussi aux événements de probabilité nulle indépendants de
P (An /A1 ∩ ... ∩ An – 1) (32) tout autre événement.
par récurrence en utilisant : On notera l’indépendance stochastique (au sens probabiliste)
par le symbole || (A et B indépendants ⇔ A || B ).
P ( A1 ∩ … ∩ An )
P ( A n A 1 ∩ … ∩ A n – 1 ) = --------------------------------------------------
- Il est important de remarquer que la notion d’indépendance
P ( A1 ∩ … ∩ An – 1 ) dépend de la probabilité P, c’est-à-dire que l’on devrait noter || P ;
si Q est une autre probabilité sur (Ω, ), on peut très bien avoir
dès que P (A 1 ∩ ... ∩ A n – 1 ) > 0. A || P B sans avoir A || Q B .
Lorsque l’on ne travaille qu’avec une seule probabilité, on omet
1.3.1.3 Formule de la probabilité totale
l’indice au symbole || .
Cette formule est très simple et souvent très utile ; elle consiste
à décomposer un événement B sur une suite (finie ou infinie) Exemples
exhaustive d’événements (An ) (§ 1.1.1.2). Supposons de plus que, ■ Au cours du lancer de deux pièces, si l’on munit l’espace
pour tout n, P (An ) > 0 ; on obtient alors : Ω = {Pile, Face}2 de la probabilité uniforme, on suppose a priori l’indé-
pendance des résultats des deux pièces ; par exemple :
P (B ) = ∑ P ( B ∩ An ) = ∑ P ( BAn ) P ( An ) (33)
n n 1 1 1 1
P { ( Face, Face ) } = ---------------------- = --- = --- × --- = P 1 { Face } × P 2 { Face }
card ( Ω ) 4 2 2
■ Démonstration
où P1 est la probabilité uniforme sur l’espace {Pile, Face} du lancer de
∪
n
An = Ω – B∩
∪n An = B la première pièce et de même pour P 2 et la deuxième pièce ; l’indépen-
dance correspond ici au fait que nous avons une probabilité produit
sur un espace produit, notion qui sera détaillée au paragraphe 1.3.2.3.
– P B∩ ∪ n
An = P (B ) ■ Ce deuxième exemple est de nature différente ; au cours du lancer
d’un dé, on considère les événements A = {2, 4, 6} et B = {5, 6} ; on a
A || B pour la probabilité uniforme puisque :
– P
∪ (B ∩ A ) = P (B )
n
n par (1) 1 3 2
P ( A ∩ B ) = P ( { 6 } ) = --- = --- × --- = P ( A ) P ( B )
6 6 6
– ∑ P ( B ∩ An ) = P (B ) par (12) L’indépendance ici n’est pas due à l’indépendance de deux expé-
n riences mais à la symétrie dans les événements A et B pour la pro-
et le fait que les (B ∩ An ) sont disjoints deux à deux. On conclut en babilité uniforme.
écrivant P ( B ∩ A n ) = P ( B / A n ) P ( A n ) où nous avons supposé
P (An ) > 0.
L’indépendance se généralise à une suite (finie ou infinie) d’événe- Cette construction s’étend à une suite infinie d’expériences grâce
ments de la manière suivante : une suite (An ) d’événements d’un au théorème de Kolmogorov : on construit tout d’abord l’espace
espace ( Ω, , P ) sera dite indépendante si : ∞ ∞
produit Ω = X Ω i puis = ⊗ i définie comme :
P ( A i1 ∩ … ∩ A ik ) = P ( A i 1 ) ... P ( A ik ) (36) i = 1 i = 1
∞

X A × 
n
pour toute suite finie (i1 , ..., ik ) d’entiers deux à deux distincts. σ i X Ω j pour n 1 et A i ∈ i 
 i = 1 j = n+1

■ Attention, l’indépendance deux à deux n’implique pas l’indépen-
dance comme le montre l’exemple suivant : considérons une urne
contenant quatre boules numérotées 100, 010, 001 et 111 ; on tire une Alors la condition de compatibilité :
boule au hasard et l’on considère les événements : P1 ⊗ ... ⊗ Pn + 1 (A1 × ... × An × Ωn + 1) = P1 ⊗ ... ⊗ Pn (A1 × ... × An )
A1 = {1 au premier chiffre} A 2 = {1 au deuxième chiffre} (conséquence de (33)) assure l’existence d’une unique probabilité
A3 = {1 au troisième chiffre}
∞
1 P sur ( Ω , ), notée ⊗ P i , telle que :
on obtient : P ( A 1 ) = P ( A 2 ) = P ( A 3 ) = --- i = 1
2
1 P (A1 × ... × An × Ωn + 1 × Ωn + 2 × ...) = Pn (A1 × ... × An )
P ( A 1 ∩ A 2 ) = P ( A 1 ∩ A 3 ) = P ( A 2 ∩ A 3 ) = ---
4
= P1 (A1 )...Pn (An )
1 1
mais P ( A 1 ∩ A 2 ∩ A 3 ) = --- ≠ ---
4 8 En particulier cela nous permet de considérer la même
expérience répétée une infinité de fois de manière indépendante
1.3.2.2 Tribus indépendantes en choisissant tous les (Ωi , i , Pi ) égaux entre eux ; on a alors :
Soit ( n ) une suite (finie ou infinie) de sous-tribus de d’un ⊗ ⊗
Ω = Ω1 , = 1 et P = P 1 .
espace de probabilité ( Ω , , P ) ; pour chaque n , n ⊂ et n
est une tribu. Exemple
Nous dirons que la suite ( n ) est indépendante si pour toute
1
suite (An ) d’événements telle que A n ∈ n pour tout n, (An ) est Considérons Ω1 = {0, 1} avec P1({0}) = P1({1}) = --- , c’est-à-dire un
2
indépendante au sens de (36).

La tribu engendrée par une famille d’événements de est, par pile ou face équitable. On peut mettre en bijection Ω = Ω 1 avec
définition, la plus petite sous-tribu de contenant tous ces événe- l’intervalle de réels [0, 1) en considérant ω = (ω 1 , ω 2 , ...) comme l’écri-
ments.
 ∞ ω 
En particulier, la tribu engendrée par un événement A de ,
notée σ (A ), est égale à {∅, A, Ac, Ω } et est réduite à la tribu triviale
ture dyadique d’un réel  x =

∑ ------nn . Avec cette bijection, la tribu
n=1 2 
si A = ∅ ou A = Ω.
⊗
On montre facilement que l’indépendance d’une suite d’événe- = 1 n’est autre, sur [0, 1), que la tribu engendrée par les inter-
ments (An ) est équivalente à l’indépendance de la suite de sous-tri- valles dyadiques, c’est-à-dire la tribu borélienne de [0, 1) : ([0, 1)). Il
bus (σ (An )). ⊗
est alors facile de constater que P = P 1 correspond sur [0, 1), muni
1.3.2.3 Expériences aléatoires indépendantes de ses boréliens, à l’unique mesure attribuant à chaque intervalle dya-
dique sa longueur ; c’est la mesure de Lebesgue sur [0, 1).
Considérons n expériences aléatoires décrites par les espaces de
probabilité (Ωi , i , Pi ) pour i = 1 à n.
1.3.3 Loi du 0-1
Il est utile de savoir construire un espace supportant ces n expé-
riences. Pour cela on peut considérer l’espace produit 1.3.3.1 Lemme de Borel-Cantelli
Ω = Ω1 × ... × Ωn dont un élément ω s’écrit (ω1 , ..., ωn ). On munit cet
espace de la tribu produit = 1 ⊗ … ⊗ n définie comme la plus
petite tribu de Ω contenant les ensembles A1 × ... × An pour tout a ) Pour toute suite infinie (An ) d’événements d’un espace de
A1 , ...., An dans 1 , …, n ; cela peut s’écrire : probabilité (Ω, , P ), on a :
= σ { A1 × … × An , Ai ∈ i , 1 i n } (37)
∑ P ( An ) < + ∞ ⇒ P lim
n
sup A n = 0 (40)
n
où le symbole σ (pour σ-algèbre) désigne la tribu engendrée
définie au paragraphe 1.3.2.2. c’est-à-dire qu’avec probabilité 1 ou P-presque sûrement (en
Nous voulons maintenant munir (Ω, ) d’une probabilité P telle abrégé P-p.s.) un nombre fini au plus de An sont réalisés.
que sa restriction à chaque (Ωi , i ) corresponde à Pi , c’est-à-dire b ) Si, de plus, la suite (An ) est indépendante, alors :
telle que :
P (Ω1 × ... × Ωi – 1 × Ai × Ωi + 1 × ... × Ωn) = Pi (Ai ) (38)
∑ P ( An ) = + ∞ ⇒ P lim
n
sup A n = 1 (41)
pour tout 1 i n et A i ∈ i . n
En général, il existe beaucoup de probabilités P vérifiant (38) ; c’est-à-dire que, dans le cas de l’indépendance,
elles décrivent les diverses dépendances pouvant exister entre
les n expériences.
P ( lim sup A n ) = 0 ou 1 suivant que la série
n
∑ P ( An ) est finie
n
On démontre toutefois qu’il n’en existe qu’une seule telle que ou non (d’où le nom de loi du 0-1).
pour tout Ai dans i :
P (A1 × ... × An ) = P1 (A1) × ... × Pn (An ) (39) La première partie de ce lemme est un outil précieux pour
démontrer qu’une propriété est vraie avec probabilité 1 ou presque
C’est celle-ci qui correspond à l’indépendance des n expériences ; sûrement.
nous la noterons :
P = P1 ⊗ ... ⊗ Pn
La démonstration (très simple) de ce lemme est instructive mais

utilise des notions qui ne seront introduites qu’au paragraphe 2.2.1. 2. Variables aléatoires réelles
■ Pour a ) : remarquons que P (A ) peut s’écrire comme l’intégrale
sur Ω par rapport à la mesure (de probabilité) P de la fonction * A , 2.1 Généralités. Loi d’une var
indicatrice de l’ensemble A ; on a donc :
Nous associons ici une valeur numérique aux différents résultats
∑ P ( An ) < + ∞ ⇒ ∑
Ω
*A d P < + ∞
n
possibles d’une expérience aléatoire ; dans le cas du lancer d’une
pièce on pourra, par exemple, décider que pile vaut 0 et que face
∑
n n vaut 1 ; dans le cas du bruit thermique (§ 1.1.1.1), on pourra observer
⇒ * An d P < + ∞ ⇒ ∑ * An est P -intégrable pendant l’expérience l’énergie d’une trajectoire ω, soit la quantité

Ω t2
n n
2
ω ( t ) dt . On s’intéressera aux ensembles de ω pour lesquels ces
⇒ ∑ * An < + ∞ P -presque sûrement t1
n valeurs numériques sont, par exemple, dans un intervalle de réels
donné. Nous demanderons que ces ensembles d’éventualités soient
des événements de manière à pouvoir, par la suite, calculer leurs
 
soit (40) puisque lim sup A n =  ∑ * An = + ∞ . probabilités.
n n 
■ Pour b ) : si, de plus, (An ) est indépendante :
2.1.1 Définition d’une var
∑ P ( An ) = + ∞ ⇒ ∑ P ( An ) = + ∞ pour tout p 1
np
n
Soit (Ω, ) un espace probabilisable et muni de la tribu de
ses boréliens ( ), engendrée par les intervalles. Une variable
c
P ( Ap ∩ … ∩ Acp + k ) c
= P ( A p )… P ( A p + k )
c
par indépendance
aléatoire réelle (var) est une application mesurable de (Ω, )
dans ( , ( ) ) , c’est-à-dire une application X de Ω dans telle
En faisant tendre k vers l’infini, on a : que, pour tout borélien B de , X –1 (B ) = {ω ∈ Ω, X (ω ) ∈ B }
+ ∞ appartienne à .
∩A =
+ ∞
∏ P ( An )
c c
P n
n=p n=p Remarquons que cette définition ne fait pas intervenir de proba-
bilité P. Les variables aléatoires réelles seront notées X, Y, ... ; l’évé-
D’autre part :
nement X –1 (B ) est aussi noté {X ∈B } où l’on oublie ω. Pour vérifier
la mesurabilité de X, il suffit de vérifier que X –1 (B ) ∈ pour tout

+ ∞ + ∞ + ∞
B dans un système générateur de ( ) ; en prenant, par exemple,
∏ P ( An ) ∏ ( 1 – P ( An ) ) exp ∑
c
= – P ( An ) = 0 l e s i n t e r v a l l e s d e , i l s u f fi r a d e v é r i fi e r q u e
X –1 ((a, b ]) = { ω ∈ Ω , a < X ( ω ) b } = { a < X b } ∈ pour tout
n=p n=p n=p
intervalle (a, b] de ; le choix de l’ouverture en a et de la fermeture

+ ∞
soit P
∪ A = 1 ; la conclusion est donnée par :
n=p
n
en b est ici tout à fait arbitraire ; on aurait pu aussi se restreindre
à des intervalles à extrémités rationnelles, ce qui nous fournit un
système générateur dénombrable.
lim sup A n = ∩ . ∪ An ⇒
n p np 2.1.1.1 Tribu engendrée par une var

P lim sup A n = lim . P
n∪ An = 1 Il est facile de démontrer, en revenant à (2), (3) et (4), que
n p p { X –1 ( B ) , B ∈ ( ) } forme une sous-tribu de lorsque X est une
var ; c’est en fait la plus petite sous-tribu de par rapport à laquelle
X est mesurable ; nous l’appellerons la tribu engendrée par X et nous
1.3.3.2 Une application la noterons σ (X ). Intuitivement, σ (X ) représente l’information
Reprenons l’exemple du paragraphe 1.3.2.3, une suite infinie portée par X puisque celle-ci est formée des événements de que
indépendante de piles ou faces équitables. Soit An l’événement l’on va pouvoir obtenir par des mesures sur X de la forme
X –1 ( B ) pour B ∈ ( ) .
1
{obtenir Face au n -ième lancer} ; P ( A n ) = --- pour tout n implique
2 Exemple
Soit A un événement de ; X = * A définit une var qui vaut 1 si
∑ P ( An ) = + ∞ ; la suite (An ) étant indépendante, (41) implique ω ∈ A et 0 sinon.
n
P lim sup A n = 1, c’est-à-dire que presque sûrement une infinité On a bien sûr X –1 (B ) = ∅ si B ne contient ni 0 ni 1, X –1 (B ) = A si B
n contient 1 mais pas 0, X –1 (B ) = A c si B contient 0 mais pas 1 et
de faces apparaîtront. Cela n’est pas surprenant puisque n’obtenir c
qu’un nombre fini de faces correspond à un nombre dyadique de X –1 (B ) = Ω si 0 et 1 sont dans B. Finalement σ ( * A ) = { ∅, A, A , Ω }
[0, 1) (dans la bijection établie au paragraphe 1.3.2.3) et nous qui est aussi σ (A ) rencontrée au paragraphe 1.3.2.2.
savons que les dyadiques forment un ensemble dénombrable de
mesure de Lebesgue nulle.
De même, on démontrerait que toute série finie de piles et faces,
donnée a priori, apparaîtra une infinité de fois avec une
probabilité 1.
2.1.1.2 Fonctions d’une var ω , X ( ω ) appartient exactement à l’un des B k′ pour lequel
Soit X une var définie sur (Ω, ) et f une application borélienne k k
Y n ( ω ) = -----n- et f n ( X ( ω ) ) = -----n- . Définissons maintenant f par :
de dans , c’est-à-dire telle que f –1 ( B ) ∈ ( ) pour tout 2 2
B ∈ () .
Alors Y = f (X ) définit une nouvelle var ; en effet, pour tout  lim f n ( x ) si cette limite existe
f (x ) = n3+ ∞ (44)
B ∈ ( ) , Y –1 ( B ) = ( f X ) –1 ( B ) = X –1 ( f –1 ( B ) ) ∈ ( ) . En fait,  0 sinon
puisque f –1( B ) ∈ ( ) , X –1 ( f –1 ( B ) ) ∈ σ ( X ), ce qui montre que
σ (Y ) ⊂ σ (X ). Cela peut se traduire intuitivement en disant qu’en f est borélienne puisque l’ensemble où (fn ) converge, égal à
observant une fonction de X on ne peut que perdre de l’informa-  lim inf f = lim sup f  , est borélien ; de plus :
tion par rapport à celle portée par X. Nous dirons aussi que  n n
n
n 
Y = f (X ) est une var σ (X )-mesurable. Ce résultat admet une réci-  

proque qui nous sera très utile pour l’étude des espérances Y ( ω ) = lim Y n ( ω ) = lim f n ( X ( ω ) )
conditionnelles. n n
pour tout ω ∈ Ω montre que X (Ω ) est inclus dans l’ensemble où

2.1.1.3 Lemme de Doob (fn ) converge et donc que Y = f (X ), ce qui conclut la démonstra-
tion. (Attention, X (Ω ) n’est pas forcément un borélien !)
Si X et Y sont deux var définies sur le même espace (Ω, ) et
si Y est σ (X )-mesurable, alors il existe une application 2.1.2 Loi d’une var
borélienne f de dans telle que Y = f (X ).
On se donne un espace de probabilité (Ω, , P ).
■ Démonstration
Nous approximons tout d’abord Y par une suite (Yn ) de var 2.1.2.1 Définition de la loi d’une var
discrètes de la manière suivante : pour n 1, considérons
k  Soit X une var définie sur (Ω, , P ) ; la loi de X est la mesure
D n =  -----n- , k ∈  l’ensemble des nombres dyadiques de rang de probabilité image de P sur ( , ( ) ) par l’application X.
2 
n et définissons : Elle sera notée PX ; elle est caractérisée par :
∈ ( ),
k k k+1
∈
–1
Y n ( ω ) = -----n- si Y (ω) -----n- , -----------
- (42) ∀B PX ( B ) = P ( X (B )) (45)
n
2 2 2
où, rappelons-le, X ( B ) ∈ .
–1
Yn est une var σ (X )-mesurable puisque pour tout B ∈ () :
Nous avons vu, au paragraphe 2.1.1.2, que si f est borélienne de
dans alors Y = f (X ) est une nouvelle var ; la loi de Y est alors
∪
∈ σ ( Y ) ⊂ σ ( X ) ⊂ (43) l’image de PX par f : pour tout B ∈ ( ),
–1 –1 k k+1
Y n (B ) = Y -----n- , -----------
n
-
k 2 2
k ∈ , -----n- ∈ B –1 –1
2 PY ( B ) = P ( Y (B )) = P((f X ) (B ))
–1 –1 –1
1 = P (X (f ( B ) ) ) = PX ( f (B ))
D’autre part, pour tout ω , Y ( ω ) – Y n ( ω ) < -----n- et donc :
2
On peut aussi utiliser la notation :
lim Y n ( ω ) = Y ( ω )
n 3 + ∞ PX = X P (46)
et écrire : P Y = Y P = ( f X ) P = f (X P ) = f PX (47)
 k 
Puisque  Y n = -----n-  ∈ σ ( Y ) ⊂ σ ( X ) , il existe un borélien de ,
 2 
2.1.2.2 Fonction de répartition d’une var
 k  –1 Parmi les ensembles générateurs de ( ) , les intervalles de la
Bk , tel que  Y n = -----n-  = X ( B k ) ; définissons B 0′ = B 0 , forme (– ∞, x] pour x ∈ vont jouer un rôle particulier.
 2 
Si X est une var :
B 1′ = B 1 \B 0 , B–′ 1 = B –1 \ ( B 0′ ∪ B 1′ ), B 2′ = B 2 \ ( B 0′ ∪ B 1′ ∪ B –′ 1 )
–1
etc., de sorte que les B k′ sont deux à deux disjoints, boréliens et P { X x } = P (X (( – ∞ , x ])) = P X (( – ∞ , x ]) = F X ( x ) (48)
–1 –1  k  définit un fonction FX de dans [0,1] qui est appelée fonction de

tels que X ( B k′ ) ⊂ X ( B k ) =  Y n = -----n-  . Soit fn l’application de
 2  répartition de X : cette fonction caractérise entièrement la loi PX de
X. Elle possède les propriétés suivantes :
dans définie par f n ( x ) = -----n- si x ∈ B k′ ; il se peut que ∪ B k′ ne
k
F X : → [ 0,1 ] est croissante (49)
2 k∈
soit pas tout et il nous suffit de donner une valeur arbitraire à puisque FX (x ) est une probabilité et x y ⇒ (– ∞ , x ] ⊂ (– ∞ , y ] :
k∪
c
f n ( x ) sur
∈
B k′
pour la définir sur tout . Par construction, fn lim F X (x ) = 0
x 2 – ∞
et lim F X ( x ) = 1
x 3 + ∞
(50)
est borélienne de dans et vérifie f n ( X ) = Y n puisque pour un puisque PX n∩ 1 (– ∞ , – n ] = PX ( ∅ ) = 0
et PX
n∪ 1 (– ∞ , n ] = PX ( ) = 1 Si X et Y sont deux variables aléatoires réelles définies sur un
même espace (Ω, , P ), l’ensemble {X = Y } est dans ; en effet
FX est continue à droite (51) {X ≠ Y } =
r∈Q
∪ ({X < r < Y } ∪ {Y < r < X }) ∈ .
puisque
Nous dirons que X et Y sont presque sûrement égales si
P {X = Y } = 0. Cela définit une relation d’équivalence dont l’ensemble
lim F X (x n ) = lim P X ( (– ∞ , x n ] ) = P X
x n 2x xn 2 x x∩2 x (– ∞ , xn ]
n
des classes forment l’espace vectoriel L0 (Ω, , P ).
L’ensemble des var intégrables, au sens de (56), et modulo la
= P X ( (– ∞ , x ] ) = F X ( x )
relation d’équivalence d’égalité presque sûre, sera noté L1 (Ω, , P ).
(le fait d’avoir choisi des intervalles (– ∞, x ] fermés à droite implique
bien sûr cette propriété). 2.2.1.2 Intégrale par rapport à la loi d’une var
■ Réciproquement (49), (50) et (51) caractérisent les fonctions de Soit X une var sur (Ω, , P ) de loi PX .
répartition. Si g est une application borélienne de R dans R , alors Y = g (X )
Nous pouvons aussi remarquer l’existence de limites à gauche : est une nouvelle var ; si de plus Y est intégrable, Y ∈ L 1 ( Ω , , P ) ,
alors son intégrale se calcule par :
F X ( x 0– ) = lim F X (x ) F X ( x 0 ) (52)
x3x 0
puisque FX est croissante par (49). On peut alors écrire :

Ω
g ( X ) dP = R
g ( x ) P X ( dx ) = R
g ( x ) dF X ( x ) (57)
la première égalité exprimant le fait que PX est la mesure image de

F X ( x 0 ) – F X ( x 0– ) = P { X x 0 } – P { X < x 0 } = P { X = x 0 } (53)
P par X et la deuxième égalité identifiant les mesures PX (dx )
c’est-à-dire qu’une discontinuité de FX en x 0 indique que la mesure et dFX (x ) sur R puisque :
PX charge le point x 0 avec la masse F X ( x 0 ) – F X ( x 0– ) . Si FX est
continue en x 0 , P {X = x 0 } = 0.
Par (49), FX n’a, au plus, qu’un ensemble dénombrable de dis-
R
* ( – ∞ , x 0 ] ( x ) P X ( d x ) = P X ( ( – ∞ ,x 0 ] ) = F X ( x 0 )
continuités, PX ne charge donc, au plus, qu’un ensemble dénom- et :

brable de points.

x0
* ( – ∞ , x 0] ( x ) d FX ( x ) = d FX ( x ) = FX ( x0 ) – FX ( – ∞ ) = FX ( x0 )
2.2 Espérance mathématique R –∞
cette dernière intégrale étant l’intégrale de Stieljes classique.

2.2.1 Intégration des var Dans les applications, nous nous intéresserons particulièrement
au cas où la mesure PX est faite de masses de Dirac ou possède
2.2.1.1 Intégrale abstraite une densité, auquel cas nous serons ramenés au cas de l’intégrale
On rappelle ici très succinctement la construction de l’intégrale de Riemann habituelle.
abstraite : pour une variable aléatoire indicatrice d’un événement A
d’un espace (Ω, , P ), on a : 2.2.2 Moments d’une var
Ω
* A dP = P ( A ) (54)
2.2.2.1 Espérance d’une var
Si X est une var définie sur (Ω, , P ) et si g est borélienne telle
∈
Soit (An ) une partition de Ω, A n pour tout n 1 , et (yn )
une suite de nombres réels positifs ; ∑ y n * An définit une nouvelle
que Y = g (X ) soit intégrable, Ω
g ( X ) dP est la valeur moyenne de
n Y pondérée par la probabilité P ; nous l’appellerons espérance
variable aléatoire Y pour laquelle : mathématique (ou espérance tout court) et nous la noterons E (Y )
(ou EP (Y ) s’il est besoin de rappeler la probabilité utilisée), soit :
∑ yn ∑ yn P ( An )

Y dP = * An dP = (55)
Ω Ω
n n E (Y ) = Y dP = g ( X ) dP = g ( x ) P X ( dx ) (58)
Ω Ω R
est bien définie dans + ∪ { + ∞ } .
Dans le cas particulier où X ∈ L1 (Ω, , P ), on peut prendre
Par approximation, on définit alors
Ω
Y dP pour toutes variables g (x ) = x ; E (X ) est aussi appelée premier moment de X.
L’espérance est une forme linéaire sur L1 (Ω, , P ) ; c’est l’une
aléatoires positives sur + ∪ { + ∞ }. des propriétés fondamentale de l’intégrale :
Si, maintenant, Y est une var, |Y | est une var positive ; si
∀α , β ∈ R , ∀X , Y ∈ L 1 ( Ω , , P ) , E ( α X + β Y ) = α E ( X ) + β E ( Y ) (59)
Ω
Y dP < + ∞ , on définit alors : Une constante a
var et l’on a :
∈ R peut, bien sûr, être considérée comme une
Ω
Y dP = Ω
+
Y dP – Ω
Y –dP (56) E (a) = Ω
a dP = a Ω
dP = a (60)
où Y + et Y – sont les parties positives et négatives de Y, elles-mêmes d’autre part : X 0 ⇒ E (X ) 0 (61)

des var positives intégrables, c’est-à-dire d’intégrale finie. Bien sûr,
qui implique :
l’intégrale ainsi définie possède les bonnes propriétés d’une inté-
grale que nous mentionnerons au cours de leurs utilisations. X Y, X, Y ∈ L1 ( Ω , , P ) ⇒ E ( X ) E ( Y ) (62)
et finalement : E |X | = 0 ⇒ X = 0 P-p.s. (63)
2.2.2.2 Moments d’ordre supérieur 2.3.1 Définition

Si X est une var et k un entier 1, X k est aussi une var ;
si X k ∈ L1 (Ω, , P ), nous dirons aussi que X ∈ Lk (Ω, , P ) et Une suite de var (Xn ) définies sur un même espace (Ω, ,P ) est
dite indépendante si la suite de sous-tribus de , (σ (Xn )), est
m k (X ) = E ( X k ) (64) indépendante au sens de 1.3.2.2.
La traduction directe de cette définition est la suivante : (Xn ) est
sera appelé le moment d’ordre k de X.
indépendante (ou les var Xn sont indépendantes) si et seulement si
Les espaces L k ( Ω , , P ) sont des espaces de Banach avec la pour toute suite finie d’indices i 1 < i 2 <... < ik , et tout borélien
B1 , ..., Bk de :
norme ||X ||k = (E (|X |k ))1/k pour k 1 .
Notons que : P ( X i1 ∈ B 1 , … , X ik ∈ B k ) = P ( X i1 ∈ B 1 ) × … × P ( X ik ∈ B k ) (71)
X ∈ L k ( Ω , , P ) ⇒ X ∈ L k ′( Ω , , P ) (65)
pour tout k ’ tel que 1 k ′ k . 2.3.2 Caractérisations de l’indépendance
Il suffit, pour cela, d’écrire : La propriété (71) n’est pas très commode à vérifier. Nous
k ′) k ′* k ′* pouvons la simplifier dans deux directions.
E( X = E( X {X 1} ) + E ( X {X > 1} )
2.3.2.1 Caractérisations ensemblistes
P { X 1} + E ( X k *{ X > 1} ) 1+E( X k)
Nous ne considérons qu’une suite finie (X1 , ..., Xn ) de var
puisque le cas de suites infinies s’y ramène. (X1 , ..., Xn ) est indé-
Le cas k = 2 est particulièrement important puisque L2 (Ω, , P )
pendante si, pour tout (B1 , ..., Bn ) appartenant à un système géné-
est un espace de Hilbert avec le produit scalaire 〈 X, Y 〉 L 2 = E ( XY ) rateur de ( ) , on a :
pour X et Y dans L2 (Ω, , P ). Une var de L2 (Ω, , P ) est dite de
carré intégrable. P ( X1 ∈ B1 , … , Xn ∈ Bn ) = P ( X1 ∈ B1 ) … P ( Xn ∈ Bn ) (72)
2.2.2.3 La variance On pourra, par exemple, utiliser les intervalles de , ou simple-

ment les intervalles de la forme (– ∞, x] ; on a alors :
Pour une var de carré intégrable (et donc intégrable par (65), on
peut mesurer sa dispersion autour de son espérance grâce à la ( X 1 , … , X n ) indépendante ⇔ ∀ x 1 , … , x n ∈
variance, sous P, définie par :
P ( X1 x1 , … , Xn xn ) = P ( X1 x1 ) … P ( Xn xn )
Var (X ) = E ((X – E (X ))2 ) (66)
= F X1 ( x 1 ) … F Xn ( x n ) (73)
En développant le carré et en utilisant (59) et (60), on obtient :
où F X1 , … , F Xn sont les fonctions de répartition de
Var (X ) = E (X 2) – (E (X ))2 = m 2 (X ) – (m1(X ))2 (67)
X1 , ..., Xn (§ 2.1.2.2).
Pour revenir à une quantité homogène à X on considère aussi
son écart-type défini par : 2.3.2.2 Caractérisations fonctionnelles
σX = Var ( X ) (68) ( X 1 , … , X n ) indépendante ⇔ ∀ h 1 , … , h n ∈ b ( → )
(à ne pas confondre avec σ (X ), la tribu engendrée par X ). (les fonctions continues bornées).
Notons que σX = 0 implique Var(X ) = 0 et donc que X = E (X ) P-p.s., E (h1 (X1) ... hn (Xn )) = E (h1 (X1)) ... E (hn (Xn)) (74)
c’est-à-dire que X est presque sûrement égale à une constante ;
inversement la variance d’une constante est nulle. Notons finalement Nous avons choisi, ici, des fonctions de b , d’autres choix sont
que :
possibles, comme celui que nous verrons au paragraphe suivant.
Var(aX + b ) = a 2 Var(X ) pour tous réels a et b (69) (74) s’obtient, dans un sens, en utilisant une approximation de * [ a, b ]
par une suite décroissante de fonctions continues bornées et, dans
2.2.2.4 Inégalité de Bienaymé-Tchebychev l’autre, en approchant les fonctions de b par des fonctions étagées
Var ( X )
Si X ∈ L 2 ( Ω , , P ), ∀ ε > 0 , P { X – E ( X ) ε } --------------------
ε2
- (70) ( de la forme ∑ ck *B k
, ck ∈ , Bk ∈ ( ) ) .
k
■ Démonstration
2
Var ( X ) = E ( ( X – E ( X ) ) ) = E ( ( X – E ( X ) ) 2 * { X – E ( X ) 2.3.3 Variance d’une somme
ε} )
+ E ( ( X – E ( X ) ) 2 *{ X – E ( X ) < ε} ) ε2 P { X – E ( X ) ε } + 0 La définition (66) de la variance et un calcul élémentaire donnent

pour une suite de var de carré intégrable :
En divisant par ε 2 on obtient (69). Cette majoration relativement

n n
grossière nous sera utile dans la suite. On peut noter, par exemple,
la faible probabilité que X soit à plus de 10 écarts-types de sa Var ∑ Xk = ∑ Var ( X k ) + ∑ ∑ E ( ( X i – E ( X i ) ) ( X j – E ( X j ) ) )
i≠j
moyenne (prendre ε = 10 σX ). k=1 k=1 (75)
En posant hi (x) = x – E (Xi ), on a :
2.3 Var indépendantes E ((Xi – E (Xi )) (Xj – E (Xj ))) = E (hi (Xi ) hj (Xj )) (76)
Au paragraphe 1.3.2, nous avons donné la notion d’indépendance

pour une suite de sous-tribus de . De cette définition découle natu-
rellement la notion d’indépendance pour une suite de var.
Les fonctions (hi ) sont continues mais non bornées ; (74) ne 2.4 Fonction caractéristique
s’applique pas directement mais le fait que Xi , Xj ∈ L 2 (Ω, , P )
nous permet d’obtenir :
2.4.1 Définition
E (hi (Xi ) hj (Xj )) = E (hi (Xi )) E (hj (Xj ))
Parmi les divers moyens de caractériser la loi PX d’une variable
dès que Xi et Xj sont indépendantes, de carré intégrable. aléatoire réelle X définie sur (Ω, , P ), il en est un particulièrement
D’autre part, E (hi (Xi )) = 0 pour tout i et donc : pratique : la transformée de Fourier de PX .
La fonction caractéristique de X est la fonction ΦX (u ), de la
∑
n n
variable réelle u, définie par :
( X 1 , … , X n ) indépendante ⇒ Var Xk = ∑ Var ( X k ) (77)
pour des var de carré intégrable.

k=1 k=1
ΦX ( u ) =
exp ( i ux ) P X ( d x ) (82)
Attention, la réciproque est fausse en général. C’est la transformée de Fourier de PX (à un coefficient – 2π près) ;
elle est définie pour tout u ∈ et vérifie :
2.3.4 Cas d’expériences indépendantes Φ X ( 0 ) = 1 , Φ X ( u ) 1 et Φ X ( – u ) = Φ X ( u ) (83)
Nous avons vu au paragraphe 1.3.2.3 que des expériences indé- De manière plus probabiliste, ΦX (u) est l’espérance de la variable
aléatoire complexe exp (iuX ) (définie simplement comme l’espé-
pendantes ( Ω 1 , 1 , P 1 ) , … , ( Ω n , n , P n ) peuvent être définies rance de la partie réelle plus i fois l’espérance de la partie
sur le même espace (Ω, , P ), en choisissant Ω = Ω1 × ... × Ωn , imaginaire) :
= 1 ⊗ … ⊗ n et P = P1 ⊗ ... ⊗ Pn . Considérons une suite ΦX (u) = E (exp iuX ) (84)
(X1 , ..., Xn) de var telles que pour tout i = 1, ..., n, Xi ne dépend que On démontre l’injectivité de la transformée de Fourier,
de la i-ième expérience, c’est-à-dire : c’est-à-dire que la fonction caractéristique caractérise entièrement
Xi (ω) = Xi (ω1 ,..., ωn ) = Xi (ω i ) (78) la loi P X de X.
Une application simple du théorème de convergence dominée
Les var X1 , ..., Xn sont alors bien indépendantes puisque pour montre que ΦX est continue en 0 ; en effet, pour toute suite (un )
tout borélien B1 , ..., Bn de : allant vers 0, on a exp ( iu n x ) 1 et la fonction 1 est
P (X1 ∈ B1 , ..., Xn ∈ Bn ) = P {ω ∈ Ω, X1 (ω1) ∈ B1 , ..., Xn (ωn) ∈ Bn } PX -intégrable ; on a alors :
= P1 (X1 ∈ B1) ... Pn (Xn ∈ Bn ) = P (X1 ∈ B1) ... P (Xn ∈ Bn )
lim Φ X ( u n ) = lim
n n

exp ( iu n x ) P X ( dx )
2.3.5 Cas de variables aléatoires discrètes

= lim exp ( i u x ) P
n
n X (dx) (85)
Nous dirons qu’une var est discrète s’il existe un sous-ensemble
dénombrable (xn ) de tel que : =
1 ⋅ P X ( dx ) = 1 = Φ X ( 0 )
PX = ∑ pk δx k
avec pk > 0 et ∑ pk = 1 (79)
k k
2.4.2 Fonction caractéristique et moments
δx désignant la masse de Dirac en x et pk = P {X = xk }. Nous avons
vu, au paragraphe 2.1.2.2, que PX ne peut charger au plus qu’un Les dérivées en 0 de la fonction caractéristique de X sont liées
ensemble dénombrable ; avec la définition (79), (x k ) est exacte- aux moments de X (si ceux-ci existent).
ment l’ensemble des points chargés par P X .
Par exemple on a :
La loi de X est alors entièrement caractérisée par la donnée des
(xk ) et des pk . X ∈ L 1 ( Ω , , P ) ⇒ Φ X dérivable en 0 et ΦX′ ( 0 ) = i E ( X ) (86)
Soit (X1 , ..., Xn ) des var discrètes avec :
C’est encore une application du théorème de convergence
(i ) (i )
P Xi = ∑ pk δ xk (80) dominée :
k
exp ( i uX ) – 1
L’indépendance de ces variables s’écrit alors :
1 1

--- ( Φ X ( u ) – Φ X ( 0 ) ) = --- ( E ( exp ( i uX ) – 1 ) = E --------------------------------------
u u u
(1)
( X 1 , … , X n ) indépendante ⇔ P ( X 1 = x k1 , … , X n = x kn )
(n)
=
exp ( i ux ) – 1

------------------------------------- P X ( d x )
u
(1) (n)
= P ( X1 = x k1 ) … P ( X n = x kn ) (81)
Or exp ( i ux ) – 1
(1)
= p k 1 … p kn
(n) ------------------------------------- i x = x qui est PX -intégrable si :
u
X ∈ L1 ( Ω , , P )
Remarquons finalement que si g est une fonction de
∑ g ( xk ) pk pourvu que ∑
dans , E ( g ( X ) ) = g ( xk ) pk < + ∞ . On a donc :

k k
exp ( i ux ) – 1
En particulier mp ( X ) = E ( X p ) = ∑ ( xk ) p pk
k
pourvu que
u→0
1
lim --- ( Φ X ( u ) – Φ X ( 0 ) ) =
u u→0 u
lim ------------------------------------- P X ( d x )
X ∈ Lp ( Ω , , P ) soit ∑
k
xk p
p k où p est un entier. =
i x PX ( d x ) = i
x PX ( d x ) = i E ( X )
La réciproque est aussi vraie et, plus généralement, si On obtient :

X ∈ L p (Ω, , P ) pour p entier 1 , alors ΦX est p-fois continûment
E (X ) = p et Var (X ) = p (1 – p) (96)
dérivable en 0 et :
et GX (z) = E (z X ) = pz + 1 – p (97)
(p)
ΦX ( 0 ) = ( i ) p E ( X p ) = ( i ) p mp ( X ) (87)
Ce type de variable correspond à une épreuve de Bernoulli où
Pour les variables de carré intégrable, les développements sui- seules deux éventualités sont possibles, que l’on appelle souvent
vants peuvent être utiles : succès et échec ; on associe au succès la valeur 1 et à l’échec la
valeur 0, avec une probabilité de succès égale à p.
1
Φ X ( u ) = 1 + iu E ( X ) – --- E ( X 2 ) u 2 + ( u 2 ), u ∼0 (88)
2 2.5.1.2 Modèle de Bernoulli
1 Il s’agit d’une suite indépendante ( X n ) n 1 d’épreuves de

In Φ X ( u ) = i u E ( X ) – --- Var ( X ) u 2 + ( u 2 ) , u ∼0 (89) Bernoulli de même paramètre p. Nous avons construit au
2
paragraphe 1.3.2.3 un espace ( Ω , , P ) sur lequel les (Xn ) peuvent
Notons enfin la formule de changement de variable. être définies.
ΦaX + b (u ) = E (exp (iu (aX + b ))) = exp (iub) E (exp (iuaX )) 2.5.1.3 Nombre de succès. Loi binomiale
= exp (iub ) ΦX (au ) (90)
Soit Nn le nombre de succès au cours des n premières
épreuves ; on a :
Nn = X1 + X2 + ... + Xn (98)
2.4.3 Somme de variables indépendantes
du fait du choix des valeurs 0 et 1 pour les (Xi ).
Soit (X1 , ..., Xn ) une suite de var indépendantes définies sur On obtient alors la fonction génératrice de Nn :
(Ω, , P ). On s’intéresse ici à la loi de la somme X1 + ... + Xn ; la
fonction caractéristique est parfaitement adaptée à cette question. G Nn ( z ) = ( G X ( z ) ) n = ( pz + 1 – p ) n (99)
On a :
par le même calcul que (91) (92) et l’utilisation de (97)
Φ X1 + … + Xn ( u ) = Φ X1 ( u )… Φ Xn ( u ) (91)
La formule du binôme donne :
En effet : n
∑ C n ( pz ) k ( 1 – p ) n – k
k
Φ X1 + … + Xn ( u ) = E ( exp ( i u ( X 1 + … + X n ) ) ) G Nn ( z ) = (100)
k=0
= E (exp (iu X1) ... exp (iu Xn )) et donc :
k
P { Nn = k } = C n p k ( 1 – p )n – k , 0 k n (101)
= E (exp (iu X1)) ... E (exp (iu Xn )) par (74)
Nn suit donc une loi binomiale (n, p) rencontrée au
En particulier, si les variables X1 , ..., Xn ont en plus même loi, paragraphe 1.2.3.1.
alors : Φ X1 = … = Φ Xn = Φ et : E (Nn ) = n E (X ) = np (102)
Φ X1 + … + Xn ( u ) = ( Φ ( u ) ) n (92) Var (Nn ) = n Var (X ) = np (1 – p) (103)
Ce résultat nous sera très utile pour le théorème de la limite cen- (103) étant obtenue par l’indépendance des (Xi ) et (77).
trale.
Notons que les variables ( N n1 , N n2 – N n1 , … , N nk – N nk – 1 ) sont
Notons finalement que d’autres transformations peuvent être
utiles : i n d é p e n d a n t e s d è s q u e 1 n1 < n2 < … < nk , p u i s q u ’ e l l e s
— pour des variables positives X (P {X < 0} = 0), on pourra dépendent d’ensembles disjoints de Xi .
considérer la transformée de Laplace de PX :
Nous dirons que ( N n ) n 1
est à accroissements indépendants.
exp ( – λ x ) P X ( d x ) toujours définie pour λ 0 (93)

De plus, la loi d’un accroissement est donnée par :
Loi ( N nk – N nk – 1 ) = ( n k – n k – 1 , p ) (104)
— pour des variables entières (à valeurs dans ), on pourra uti-
liser la fonction génératrice : en écrivant : N nk – N nk – 1 = X nk – 1 +1 + … + X nk
GX ( z ) = E ( z X ) = ∑ z n P {X = n} (94)
2.5.1.4 Instants de succès. Loi géométrique
n
toujours définie pour z tel que z 1. Définissons les instants aléatoires suivants :
T0 = 0
2.5 Exemples de lois de probabilités T 1 = inf { n 1, X n = 1 }
…
2.5.1 Variables aléatoires discrètes.

Modèle de Bernoulli T k = inf { n T k – 1 + 1 , X n = 1 } (105)
2.5.1.1 Variables de Bernoulli (T 1 , T 2 , ...) décrit les instants successifs d’arrivées des succès dans
notre modèle de Bernoulli. (T 0 = 0 est une convention pratique.)
Ce sont des var ne prenant que deux valeurs que nous pren-
drons, ici, égales à 0 et 1. X est définie sur un espace (Ω, , P ) et
PX = p δ1 + (1 – p) δ0 où p sera supposé strictement compris entre
0 et 1 pour avoir de l’aléa :
P {X = 1} = p, P {X = 0} = 1 – p (95)
Pour tout m 1 , on a : La propriété (111) caractérise les densités de probabilité. Notons

que si g (X ) ∈ L1 (Ω, , P ) alors :
P { T 1 = m } = P { X 1 = 0, … , X m – 1 = 0 , X m = 1 }
= P { X 1 = 0 }… P { X m – 1 = 0 } P { X m = 1 } = p ( 1 – p ) m – 1 (106) E (g (X )) =
g ( x ) p X ( x ) dx (114)
T 1 suit une loi sur {1, 2, ...} que nous appellerons géométrique de
et, en particulier si g ( x ) = * [ a, b ] ( x ) :
paramètre p, notée Géo (p ). Ce nom est bien sûr lié à la série géo-

métrique utilisée pour vérifier : b
+∞ +∞ P {a X b} = pX ( x ) d x (115)
a
∑ P ( T1 = m ) = ∑ p ( 1 – p )m – 1 = 1
Une loi à densité ne charge aucun point.
m=1 m=1
On a : 2.5.2.2 La loi uniforme sur un intervalle

+∞
pz Soit [a, b] un intervalle borné de :
G T1 ( z ) = E ( z T1 ) = ∑ z m p ( 1 – p ) m – 1 = -------------------------------
1 – (1 – p) z
(107)
1
m=1 p X ( x ) = ------------- * [ a, b ] ( x ) (116)
1 b–a
et E ( T 1 ) = G ′T1 ( 1 ) = ----- (108)
p vérifie (111) et est appelée la densité uniforme sur [a, b] ; la proba-
Plus généralement, on montre que les interarrivées, bilité que X soit dans un sous-intervalle de [a, b] est proportion-
(T 1 – T 0 , T 2 – T 1 , ..., T k – T k – 1 , ...) sont indépendantes de même loi nelle à la longueur de ce sous-intervalle. On dit que X est
géométrique de paramètre p. Pour cela, il suffit d’écrire : uniformément répartie sur [a, b] ; on notera cette loi par ∪ ([a, b]).
Pour X, uniforme sur [a, b], on a :
P { T1 – T0 = m1 , … , Tk – Tk – 1 = mk }
a+b ( b – a )2
E ( X ) = ------------- et Var ( X ) = -------------------- (117)
= P { X 1 = 0, … , X m1 – 1 = 0 , X m1 = 1 , 2 12
X m1 + 1 = 0, … , X mk – 1 = 0 , X mk = 1 }
2.5.2.3 Lois exponentielles
appliquer l’indépendance des (Xi ) et trouver finalement : Ces lois sont importantes et apparaîtront naturellement au
paragraphe 2.5.3 comme limites de lois géométriques.
p ( 1 – p ) m1 – 1 …p ( 1 – p ) mk – 1 La loi exponentielle de paramètre λ > 0 ( (λ)) est la loi possé-
dant la densité :
qui est égal à : P {T 1 – T 0 = m1} ... P {T k – T k – 1 = mk }
p X ( x ) = λ exp ( – λ x ) * [ 0, + ∞) (x) (118)
En conclusion sur le modèle de Bernoulli, on peut remarquer
que celui-ci est caractérisé soit par les (Xi ), soit par (Nn ), soit par Une variable aléatoire exponentielle est donc positive. Sa fonc-
(Tk ) avec les lois que nous venons de trouver. tion caractéristique est donnée par :
Notons une propriété importante des lois géométriques (et en
fait les caractérisant) : ces lois sont sans mémoire, c’est-à-dire : λ
Φ X ( u ) = --------------- (119)
λ – iu
P ( T – n = m/T > n ) = p ( 1 – p ) m – 1 pour n 1 et m 1 (109) 1 1
et E ( X ) = ----- , Var ( X ) = -----2- (120)
Pour cela, il suffit d’appliquer la définition d’une probabilité λ λ
conditionnelle (31) et (106).
La loi exponentielle est sans mémoire :
2.5.2 Variables aléatoires à densité P { X – x y / X > x } = 1 – exp ( – λ y ) (121)
2.5.2.1 Définition et propriétés pour x 0 et y 0 ; c’est-à-dire égale à P { X y } .

Nous dirons que la variable aléatoire réelle X possède une den- Soit X et Y deux va exponentielles indépendantes de paramètres
sité (ou est à densité ) si sa loi PX admet une densité par rapport à respectifs λ et µ ; alors :
la mesure de Lebesgue dx sur ; on notera cette densité pX (x ) ; inf (X, Y ) est exponentielle de paramètre λ + µ (122)
elle vérifie :
En effet : en posant Z = inf (X, Y ), pour z 0 :
PX (dx) = pX (x) dx = dFX (x) (110)
FZ ( z ) = P { Z z } = 1 – P { Z > z } = 1 – P { X > z , Y > z }
p X ( x ) 0 et
pX ( x ) d x = 1 (111)
= 1 – P { X > z } P { Y > z } = 1 – ( 1 – FX ( z ) ) ( 1 – FY ( z ) )
= 1 – exp ( – λ z ) exp ( – µ z ) = 1 – exp ( – ( λ + µ ) z )
FX est la primitive de pX s’annulant en – ∞ (112)
qui est la fonction de répartition d’une loi exponentielle de para-
De manière abusive, nous avons : mètre λ + µ.
PX (dx) = dFX (x) = P {x < X < x + dx } L’addition de variables exponentielles indépendantes de même
= FX (x + dx) – FX (dx) = pX (x) dx (113) paramètre donne lieu à des lois Gamma de fonction caractéristique :
λ

n
Φ n, λ ( u ) = --------------- pour λ > 0 et n 1 (123)
λ – iu
La densité correspondante est : Cette formule n’est qu’un changement de variable ; pour toute
fonction h continue bornée de dans , on a :
λ n x n – 1 exp ( – λ x )
p n, λ ( x ) = ---------------------------------------------------- * [0, + ∞ ) ( x ) (124)

(n – 1) !
E (h (Y )) = E (h (g (X ))) = h ( g ( x ) ) p X ( x ) dx
Cela se généralise à des valeurs de n non entières.
2.5.2.4 Lois gaussiennes = ′

h ( y ) p X ( g –1 ( y ) ) ( g – 1 )′ ( y ) d y

Pour des variables de carré intégrable, la formule (89) nous
donne un développement à l’ordre 2 de In ΦX (u ) au voisinage de =
1
h ( y ) p X ( g –1 ( y ) ) × ------------------------------------
- dy
0 ne faisant intervenir que E (X ) et Var (X ). Les développements ′ g ′ ( g –1 ( y ) )

parfaits, c’est-à-dire avec un reste nul, correspondent aux lois
gaussiennes ou normales que nous noterons (m, σ 2), où = h ( y ) pY ( y ) d y
m = E (X ) et σ 2 = Var (X ). ′
On a donc :
qui identifie la densité pY .
1
X ∈ ( m, σ 2 ) ⇔ In Φ X ( u ) = i um – --- σ 2 u 2 Exemple
2
(125) Si Y = aX + b avec a ≠ 0, on a :
1

⇔ Φ X ( u ) = exp i um – --- σ 2 u 2

2 1 y–b
p Y ( y ) = ------ p X ----------------
a - (129)
Un calcul élémentaire de transformée de Fourier inverse (atten- a
tion au – 2π) donne dans le cas σ > 0 :
( x – m )2

1 2.5.3 Processus de Poisson
p X ( x ) = ----------------- exp – ---------------------
- (126)
2π σ 2σ 2
Ce paragraphe est la version en temps continu du modèle de
dont la représentation graphique donne la fameuse courbe de Bernoulli étudié au paragraphe 2.5.1 ; en effet n ∈ y jouait le rôle
Gauss (ou courbe en cloche), symétrique par rapport à la moyenne d’un temps discret. Supposons maintenant que nous effectuons nos
x = m. épreuves de Bernoulli aux instants n ε, n ∈ sur la demi-droite
Les lois normales seront capitales au niveau des applications réelle + , pour une petite échelle ε > 0. Alors, pour un t > 0 fixé, le
après avoir vu le théorème de la limite centrale.
nombre de succès arrivant avant t devient de plus en plus grand
X–m
En posant Z = ----------------- on obtient une variable normale centrée
σ ( lorsque ε 2 0 ) ; en moyenne il y en a : -εt- × p, où désigne la
réduite (suivant une loi (0, 1)) pour laquelle la fonction de répar-
tition F Z ( z ) =
1

z
x2

-------------- exp – -------- d x est tabulée ; ce qui permet
partie entière, puisque ce nombre suit une loi binomiale -εt- , p
–∞ 2π 2 d’après (101). Choisissons p de la forme ελ, avec λ > 0, de sorte que
d’obtenir des probabilités du type : ce nombre moyen converge, lorsque ε 20 , vers λt. Alors, exacte-
a–m b–m
P { a < X < b } = P  --------------- < Z < --------------- 
 σ σ 
(127)
ment comme au paragraphe 1.2.3.2, la loi -εt- , ελ converge
vers une loi de Poisson de paramètre λt. De la même manière que

b–m
a–m

= F Z --------------- – F Z ---------------
σ σ
(N n ) était à accroissements indépendants, nous allons définir
( Nt ) t , un processus de Poisson d’intensité λ > 0, comme un
0
Le cas σ = 0 correspond au cas déterministe P {X = m } = 1 et processus dont les trajectoires ( N t ( ω ) ) t sont constantes par
0
nous dirons que X est gaussienne dégénérée.
morceaux, continues à droite, ne possédant que des sauts d’ampli-
Nous reviendrons sur ces lois au cours de l’étude des vecteurs tude 1 avec N0 = 0, à accroissements indépendants avec :
gaussiens.
Loi ( N t – N s ) = ( λ ( t – s ) ) pour t > s 0 (130)
2.5.2.5 Changement de variable
Nous avons vu au paragraphe 2.1.1.2 que si X est une var et Appelons T 1 , T 2 , ... les instants de saut de (N t ) de sorte que
g une application borélienne de dans alors Y = g (X ) est une N t compte le nombre de sauts avant t.
nouvelle var ; une question importante est la suivante : connais- Dans le modèle discret, les interarrivées étaient indépendantes
sant la loi de X, calculer la loi de Y ? de même loi géométrique ; considérons T 1 par exemple, on a
Dans le cas d’une var à densité p X (x ) et pour une fonction ( λ t )0
g assez régulière, on peut calculer explicitement la densité p Y (y ) P { T 1 > t } = P { N t = 0 } = exp ( – λ t ) --------------- puisque N t suit une loi
0!
de la var Y. de Poisson de paramètre λt. Soit :
Supposons que pX soit portée par un ouvert de ( lui-même
P { T 1 t } = 1 – exp ( – λ t ) pour t 0 (131)
éventuellement) au sens où
pX (x ) dx = 1 ; soit g : → ′ un T1 suit donc une loi exponentielle de paramètre λ. Cette loi expo-
nentielle joue ici le rôle de la loi géométrique.
difféomorphisme de l’ouvert dans l ′ ouvert ′ , c’est-à-dire une
On démontre aussi que les interarrivées T 1 , T 2 – T 1 , ... sont indé-
bijection de dans ′ continûment différentiable ainsi que son pendantes et suivent la même loi exponentielle de paramètre λ.
inverse. Alors Y = g (X ) possède une densité vérifiant :
1
p Y ( y ) = p X ( g –1 ( y ) ) × ------------------------------------
- (128)
g ′ ( g –1 ( y ) )
Cela nous fournit une description alternative du processus de Sans rentrer dans le détail de ces générateurs, ni dans les tests
Poisson (N t ). Soit (Ω, , P ) un espace supportant une suite infinie statistiques utilisés pour les admettre, on peut dire que les nombres
X 1 , X 2 , ... de va indépendantes et de même loi exponentielle de pseudo-aléatoires fournis par la fonction RANDOM des ordinateurs
paramètre λ. sont en général excellents pour ce qui est de l’uniforme répartition ;
D’après le paragraphe 1.3.2.3, on peut prendre concernant l’indépendance, la périodicité fait apparaître des corré-

lations indésirables ; il existe d’autres générateurs de nombres
Ω = + , = ( + ) et P = ( λ exp ( – λ x ) * [0, + ∞ ) ( x ) d x ) ; pseudo-aléatoires et nous renvoyons pour cela à la référence [15].
posons maintenant T0 = 0, T1 = X1 , T2 = X1 + X2 , ...,
Tn = X1 + ... + Xn , ..., qui définissent nos instants d’arrivées. On
2.6.2 Principes généraux de simulation
montre alors, inversement, que N t = ∑ * { Tn t} (= nombre
n 1
Nous donnons dans ce paragraphe une manière générale de
d’arrivées avant t ) est un processus de Poisson d’intensité λ. simuler des lois discrètes ou des lois à densité ; pour certaines lois,
■ Exemple d’utilisation du processus (Nt ) il est préférable d’exploiter leurs propriétés propres ; nous en ver-
rons quelques exemples dans le paragraphe 2.6.3.
Supposons que nous ayons deux flots indépendants d’arrivées
poissonniennes de paramètres respectifs λ1 et λ2 . Soit On trouvera dans la référence [14] un exposé très complet sur la
simulation des var.
(1) (1) (2) (2)
0<T 1 <T 2 < … et 0 < T 1 < T 2 < … ; si l’on mélange ces deux
flots d’arrivées, on en obtient un nouveau en réappelant les arrivées 2.6.2.1 Lois discrètes
ordonnées 0 < T 1 < T 2 < ... ; il est alors évident que le nombre Soit X une variable aléatoire réelle discrète, c’est-à-dire qu’il
d’arrivées N t du flot global avant t est la somme des nombres existe ( x n ) ⊂ , des probabilités (pn ) strictement positives telles
d’arrivées des deux flots avant t :
(1) (2)
que ∑ pn = 1 et :
Nt = N t +Nt (132) n
De cette relation, il est alors très simple de conclure que le flot

PX = ∑ pn δx n
(135)
n
global est encore poissonnien et a pour intensité la somme des
intensités λ1 + λ 2 . Alors, si U est une variable aléatoire uniforme sur [0, 1], la variable
On peut par exemple utiliser : aléatoire :
G (1) ( z ) = exp ( λ 1 t ( z – 1 ) ), G (2) ( z ) = exp ( λ 2 t ( z – 1 ) ) ∑ xn * (136)

∑p U < ∑ p
N t N t
n i i
et donc G Nt ( z ) = G (z ) G ( z ) = exp ( ( λ 1 + λ 2 )t ( z – 1 ) ) (133)

i<n i n
(1) (2)
N t N t
suit la loi PX ; en appliquant (136) à une suite indépendante (Uk ) de
variables uniformes sur [0, 1], on obtient une suite indépendante
(X k ) de même loi PX .
2.6 Simulation Exemple : la loi uniforme sur {0, 1, ..., N – 1}
On prend :
Comme nous allons le voir, il est possible de simuler n’importe X = 0×* +1×* + … + (N – 1) *
----N- U < ----N-
1
U < ----N- --------------
- U 1
1 2 N–1
quelle loi à partir de la loi uniforme sur [0, 1] (de manière plus ou N
moins efficace). Notre premier problème consiste donc à trouver un
procédé pour générer des nombres réels compris entre 0 et en particulier une variable de Bernoulli est obtenue par :
1 possédant les propriétés d’une suite indépendante de variables
aléatoires uniformes sur [0, 1]. Cela est obtenu grâce aux générateurs X = *{ U < p } (137)
de nombres pseudo-aléatoires. Seuls des tests statistiques nous
permettent de dire que les suites obtenues n’ont pas de mauvaises (136) donne * { 1 – p U < 1} qui a bien même loi que X donnée
propriétés. par (137).
2.6.2.2 Lois à densité

2.6.1 Générateurs de nombres pseudo-aléatoires
2.6.2.2.1 Utilisation de la fonction de répartition
Les ordinateurs étant de précision finie, une suite de nombres xn Supposons que FX soit bijective de [a, b] sur [0, 1], [a, b] pou-
yn vant éventuellement être [– ∞, + ∞] ; notez qu’alors FX est continue
dans [0, 1] sera obtenue par une suite de la forme ------ où les yn –1
N strictement croissante et FX admet une inverse F X de [0, 1] dans
sont entiers entre 0 et N. Un procédé classique est d’engendrer les [a, b] ; on est dans ce cas dès que X a une densité portée par [a, b]
yn par une formule de récurrence du type : et strictement postive continue sur (a, b).
yn + 1 = ayn [modulo m] (134) Si U est uniforme sur [0, 1] alors la variable aléatoire F –1 (U )
a même loi que X. En effet, si nous posons Y = FX (U ), on a :
où a est un entier et m un entier assez grand.
–1
Cette procédure donnera toujours 0 y n m – 1 et en général FY ( y ) = P { Y y } = P { F X ( U ) y }
la période est plus petite que m. Si a et m sont premiers entre eux, = P { U F X ( y ) } = F X ( y ) (138)
la période est de l’ordre du plus petit entier r tel que a r = 1 [mod m].
En FORTRAN IMSL, on utilise par exemple : a = 39 720 494 puisque U est uniforme sur [0, 1], et donc FY = FX .
et m = 231 – 1.
Exemple où nous avons utilisé (139) pour simuler des variables exponentielles
X est exponentielle de paramètre λ > 0 : indépendantes à partir de variables uniformes indépendantes (Uk ).
n
FX (x) = 1 – exp (– λx ) est bijective de [0, +∞) sur [0, 1)
On arrêtera donc la simulation dès que ∑ In Uk < – λ .
–1 1 k=1
F X ( u ) = – ----- In ( 1 – u )
λ
2.6.3.4 Loi gaussienne
et donc :
Pour simuler X ∈ (m, σ 2), il suffit de simuler Z ∈ (0, 1) et
1
– --- In ( 1 – U ) est exponentielle de paramètre λ > 0 (139) d’utiliser le changement de variable X = σ Z + m.
λ On pourrait alors appliquer le principe général du paragraphe
2.6.2.2.1 mais malheureusement nous n’avons pas une forme
1

Remarquons que – ----- In U a aussi la même loi.
λ z
explicite manipulable de F Z ( z ) =
–∞
1
x2

------------- exp – ------- d x .
2π 2
2.6.2.2.2 Méthode du rejet
En anticipant un peu sur le paragraphe suivant (vecteurs aléa-
Soit une loi à densité continue f de support compact [a, b ] et un toires), il est facile de montrer que si Z 1 et Z 2 sont deux variables
nombre M supérieur au maximum de f.
indépendantes de (0, 1), alors, en coordonnées polaires,
On simule un point aléatoire (U, V ) uniformément distribué dans Z 1 = R cos θ, Z 2 = R sin θ, les variables aléatoires R 2 et θ sont indé-
le rectangle [a, b ] × [0, M ] ; pour cela, il suffit de prendre
U = a + (b – a ) U 1 et V = MU 2 où U 1 et U 2 sont indépendantes uni- pendantes, et de plus, R 2 suit une loi exponentielle de paramètre
formes sur [0, 1]. 1
----- et θ est uniforme sur [0, 2π) ; inversement, pour simuler Z 1 , il
Si le point (U, V ) est sous le graphe de f, on l’admet et on pose 2
X = U ; si le point (U, V ) est au-dessus de ce graphe, on le rejette suffira de poser :
et on refait un tirage indépendant d’un nouveau point (U, V ) ; et 1
-----
ainsi de suite jusqu’à obtenir un point sous le graphe ; on Z 1 = ( – 2 In U 1 ) 2 cos ( 2 π U 2 ) (143)
démontre alors que la procédure est finie et que X obtenue a bien
la loi de densité f. où U 1 et U 2 sont indépendantes uniformes sur [0, 1].
Ce procédé se généralise au cas de densités portées par tout
et aussi au cas des vecteurs aléatoires étudiés au paragraphe 3.
2.6.4 Applications
2.6.3 Exemples
Il n’est pas possible, dans le cadre de cet article, de développer
2.6.3.1 Loi binomiale ce paragraphe. En quelques mots, disons simplement que l’on peut
appliquer des méthodes de simulations à des problèmes déter-
Pour X ∈ (n, p ), on pourrait appliquer le principe général du ministes ou à des problèmes intrinsèquement aléatoires. Pour le
paragraphe 2.6.2.1 ; par ailleurs, nous avons vu au paragraphe 2.5.1 premier type de problèmes, en général, les algorithmes obtenus sont
qu’une variable binomiale de paramètres n, p était obtenue comme moins rapides que les algorithmes déterministes mais peuvent
la somme de n variables indépendantes de Bernoulli de paramètre p. présenter l’avantage d’être très simples à programmer.
Grâce à (137), il suffit alors de simuler n variables uniformes sur Pour le deuxième type de problèmes, la simulation de l’aléa est
[0, 1], indépendantes et de poser : inévitable. Donnons simplement l’exemple des réseaux de files
n d’attente pour lesquels nous n’avons pas de formule explicite pour
X = ∑ *{ U k < p} (140) les régimes d’équilibre par exemple. La simulation sera alors un outil
précieux pour le dimensionnement de ces réseaux.
k=1
k
Remarquez que nous n’avons calculé aucun C n .
2.6.3.2 Loi géométrique 3. Vecteurs aléatoires

Pour X entière telle que P {X = n } = p (1 – p )n – 1, n 1 , on pour-
rait aussi appliquer le principe général du paragraphe 2.6.2.1.
Encore une fois, il est beaucoup plus efficace de réinterpréter
3.1 Généralités
X comme le premier temps d’apparition d’un succès dans un
modèle de Bernoulli de paramètre p. (§ 2.5.1). L’étude des vecteurs aléatoires, ou variables aléatoires vecto-
rielles, sera un outil précieux pour étudier la dépendance de plusieurs
On simule donc des variables (Un ) indépendantes uniformes sur variables aléatoires réelles considérées comme les composantes.
[0, 1] jusqu’à ce que Un soit plus petite que p ; on a alors : Dans ce paragraphe, nous donnons les définitions et les propriétés
X = inf { n 1, U n < p } (141) des vecteurs aléatoires qui sont, dans la plupart des cas, de simples
extensions de celles pour les var.
2.6.3.3 Loi de Poisson Dans toute la suite, d désignera un nombre entier strictement
positif et d sera muni de sa tribu borélienne ( d ) = ( ) d ,
Encore une fois il est plus astucieux d’utiliser le modèle du pro- engendrée par les ensembles de la forme B1 × ... × Bd où les
cessus de Poisson étudié au paragraphe 2.5.3. Une variable de Bi sont des boréliens de ; cette tribu est aussi engendrée par les
Poisson de paramètre λ > 0 est le nombre d’arrivées avant t = 1 pavés (a1 , b1] × ... × (ad , bd ].
pour des interarrivées exponentielles (de paramètre λ ) indépen-
dantes. Il suffit donc de poser :
n
– --λ- In U > 1 – 1
1
X = inf n 1, ∑ k (142)
k=1
3.1.1 Définition. Loi de probabilité ■ Attention

Réciproquement, la connaissance des marginales ne détermine
( Ω , ) étant un espace probabilisable, un vecteur aléatoire pas la loi du vecteur.
d-dimensionnel est une application mesurable de Par exemple, considérons deux var sur le même espace (Ω, , P )
( Ω , ) dans ( d , ( d ) ) , c’est-à-dire une application X qui à ω ∈ Ω représentant deux lancers de pièce :
associe X (ω ) = (X1(ω ), ..., Xd (ω )) ∈ d telle que : 1
P ( X = 1 ) = P ( X = 0 ) = P ( Y = 1 ) = P ( Y = 0 ) = -----
2
∀ B1 , … , Bd ∈ ( ) ,
on a donc les marginales du vecteur de composantes X et Y. Par
X –1 ( B 1 × … × B d ) = { X 1 ∈ B 1 , … , X d ∈ B d } ∈ (144) contre, il y a une infinité de lois jointes possédant ces marginales ;
1
Il est équivalent de dire que les composantes X 1 , ..., Xd sont des elles sont paramétrées par α , 0 α ----- , avec
var définies sur le même espace ( Ω , ) . 2
P (X = 0, Y = 0) = α déterminant entièrement la loi du couple (vecteur
1
3.1.1.1 Loi de probabilité 2-dimensionnel). α = ----- correspond bien sûr au cas où X et Y sont
4
Soit X un vecteur aléatoire (d-dimensionnel) défini sur un espace indépendantes.
de probabilité (Ω, , P ) ; la loi de X est la probabilité image de P sur
( d , ( d ) ) par l’application X ; nous la noterons encore PX : 3.1.1.5 Lois à densité
–1
∀ B ∈ ( d ) , PX ( B ) = P ( X ∈ B ) = P ( X ( B ) ) (145) On dira que X admet une densité de probabilité sur d s’il
existe une fonction mesurable non négative de d dans ,
notée pX , telle que :
3.1.1.2 Espérance
Si g est une application borélienne de d dans , alors PX ( B ) = B

pX ( x1 , … , xd ) d x1 … d xd , ∀ B ∈ ( d ) (151)
Y = g (X ) est une variable aléatoire réelle pour laquelle, si elle est
dans L1 (Ω, , P ), on peut définir E (Y ) = E (g (X )) (§ 2.2.2.1). De On a alors, bien sûr :

même que pour les var, on peut choisir des ensembles pratiques
de fonctions g pour caractériser la loi de X : pX ( x1 , … , xd ) d x1 … d xd = pX ( x ) d x = 1 (152)
— pour g ( x ) = * ( a1 , b1 ] ( x 1 )… * ( ad , bd ] ( x d ) , on obtient : d d
E ( g ( X ) ) = P ( a 1 < X 1 b 1 )… P ( a d < X d b d ) (146) Si g est borélienne de d dans et g (X ) ∈ L 1 (Ω, , P ) alors :
— pour g ( x ) = g 1 ( x 1 )…g d ( x d ) et g i ∈ b ( → ) :
E (g (X )) = E (g1 (X1)...gd (Xd )) (147)
E (g (X )) = d
g ( x ) P X ( dx ) = d
g ( x ) p X ( x ) dx (153)
La densité pX est alors reliée à la fonction de répartition FX par :

Nous dirons que X ∈ L 1 (Ω, , P ) si chacune de ses compo-
santes est intégrable ; on définit alors :
E ( X ) ∈ d , ( E ( X ) ) i = E ( X i ) , i = 1, … , d (148)
FX ( x ) = y1 x1
…
yd xd
pX ( y1 , … , yd ) d y1 … d yd (154)
Si X possède une densité, alors chaque marginale possède une

De même si h est borélienne de d dans d ′ , Y = h (X ) est un densité donnée par :
vecteur aléatoire d ’-dimensionnel et E (h (X )) est un vecteur
de d ′ .
p Xi ( x i ) =
d – 1
p X ( x 1 , … , x d ) d x 1 … d x i – 1 d x i + 1 … d x d (155)
3.1.1.3 Fonction de répartition
L’application FX de d dans [0, 1] définie par :
3.1.2 Changement de variable
FX ( x ) = PX ( X1 x1 , … , Xd xd ) (149)
Nous avons vu que si X est un vecteur aléatoire d-dimensionnel
généralise la notion de fonction de répartition au cas vectoriel ; et g une application borélienne de d dans d ′ alors Y = g (X ) est
pour d 2, d n’étant pas totalement ordonné, la notion de crois- un vecteur aléatoire d ’-dimensionnel ; si σ (X ) désigne la tribu
sance pour FX est moins manipulable que dans le cas d = 1 et, pour engendrée par X, c’est-à-dire :
cette raison, FX n’est pas très utilisée dans le cas vectoriel.
–1
σ (X ) = {X ( B ), B ∈ ( d ) } (156)
3.1.1.4 Loi jointe. Lois marginales
alors cette tribu est aussi la plus petite tribu contenant les tribus
La loi PX sur d , d’un vecteur aléatoire X, est aussi appelée loi
σ (X1) ,..., σ (Xd ) ; on note :
jointe de ses composantes (X1 , ..., Xd ).
En choisissant B ∈ ( d ) de la forme × … × × B i × × … × σ (X) = σ (X1 ,..., Xd ) = σ (X1) ∨ ... ∨ σ (Xd ) (157)
pour B i ∈ ( ) sur la i-ième composante, on obtient : Pour Y = g (X ), on a σ (Y ) ⊂ σ (X ) et le lemme de Doob
P X ( B ) = P ( X i ∈ B i ) = P Xi ( B i ) (150) (paragraphe 2.1.1.3) se généralise sans difficulté : si Y est un vecteur
aléatoire d ’-dimensionnel tel que σ (Y ) ⊂ σ (X ), alors il existe g boré-
c’est-à-dire la loi de Xi , appelée i-ième marginale. lienne de d dans d ′ telle que Y = g (X ).
Comme au paragraphe 2.5.2.5, on s’intéresse à la question Pour la loi PX du vecteur X = (X1 , ..., Xd ), cela se traduit par :
suivante : connaissant la loi P X de X, calculer la loi P Y de Y = g (X ).
Lorsque X possède une densité et que g est bijective de d dans d P X ( B 1 × … × B d ) = P X 1 ( B 1 )…P Xd ( B d ) (163)
(d = d ’) et assez régulière, nous avons une formule
généralisant (128). soit P X = P X1 ⊗ … ⊗ P Xd (164)
Si g est bijective de d dans d continûment différentiable c’est-à-dire que P X est une loi produit, produit tensoriel de ses
ainsi que son inverse alors Y possède une densité donnée par : marginales.
pY (y ) = pX (g –1 (y )) |Jac g –1 (y )| (158) Si PX possède une densité pX sur d , nous savons que chaque
composante possède une densité sur ; on a alors :
∂ gi
où Jac g ( x ) = det

-------- ; 1 i , j d . On remarquera que si
∂ xj
( X 1 ,…,X d ) indépendantes ⇔ p X ( x 1 ,…,x d ) = p X1 ( x 1 )…p Xd ( x d ) (165)
1 en effet :
y = g (x ) alors Jac g –1 ( y ) = ------------------------------------------
-.
Exemple
Jac g ( g –1 ( y ) )
B 1 × … × Bd
p X1 ( x 1 )…p Xd ( x d ) dx 1 …dx d
■ Soit (X, Y ) un couple de var possédant une densité p (X, Y ) (x, y ) sur =
B1
p X1 ( x 1 )dx 1 …
Bd
p Xd ( x d ) d x d
2 (pour un couple, on écrit plutôt (X, Y ) que (X1 , X2 )). Quelle est la
densité de la var Z = X + Y ? = P X1 ( B 1 )… P Xd ( B d ) = P X ( B 1 × … × B d )
L’application (x, y ) → x + y de 2 dans n’est pas bijective et l’on
ne peut appliquer directement le résultat précédent. On peut consi- =
B 1 × … × Bd
pX ( x1 , … , xd ) d x1 … d xd
dérer g (x, y ) = (x, x + y ) qui est bijective de 2 dans 2 et aussi
régulière que souhaitée.
et ce, pour tout borélien B1 , ..., Bd de .

1 –1
g –1 ( u, v ) = ( x , y ) = ( u , v – u ) , Jac g –1 ( u , v ) = det =1
0 1 Exemple
Nous avons vu au paragraphe 3.1.2 que si (X, Y ) a une densité sur
et donc p(X, X + Y )(u, v) = p(X, Y ) (u, v – u) × 1 (159) 2 , alors X + Y a une densité sur donnée par :

Pour obtenir la densité de X + Y, il suffit de calculer la deuxième
marginale en intégrant par rapport à la première variable : pX + Y ( v ) = p ( X, Y ) ( u , v – u ) d u , d’après (160)

pX + Y ( v ) =
p ( X, X + Y ) ( u , v ) d u =
p ( X , Y ) ( u , v – u ) d u (160) Si de plus X et Y sont
p (X, Y ) (x, y ) = pX (x ) pY (y ) et donc :
indépendantes, alors

■ Concluons ce paragraphe par un exemple où le résultat général pré-
cédent ne s’applique pas : soit (X, Y ) un couple de var possédant une pX + Y ( v ) = pX ( u ) pY ( v – u ) d u = ( pX pY ) ( v ) (166)

densité p (X, Y ) sur 2 ; on peut alors définir le nouveau couple
le produit de convolution de pX et pY . Cela sera généralisé en utili-
(U, V ) = (inf (X, Y ), sup (X, Y )) ; l’application de 2 dans 2 qui à
sant les fonctions caractéristiques.
(x, y ) associe (inf (x, y ), sup (x, y )) n’est pas bijective.
Puisque U V , la loi P (U, V ) sera portée par { u v } ⊂ 2 . On 3.2.2 Covariance
a alors, pour u < v :
P {u < U < u + du, v < V < v + dv } 3.2.2.1 Rappel sur l’espérance
= P {u < X < u + du, v < Y < v + dv} L’espérance d’un vecteur aléatoire X d-dimensionnel a été
+P {u < Y < u + du, v < X < v + dv} définie au paragraphe 3.1.1.2. C’est une application linéaire de
= p (X, Y ) (u, v) du dv + p (X, Y) (v, u) du dv (161) 1 1
L d ( Ω , , P ) dans d si nous désignons par Ld ( Ω , , P )
et donc p(U, V )(u, v) = (p(X, Y ) (u, v) + p(X, Y ) (v, u)) * { u v } (162) l’ensemble des vecteurs aléatoires d-dimensionnels intégrables,
modulo la relation d’équivalence d’égalité P-presque sûre.
On remarque que :
Si 〈 . , .〉 désigne le produit scalaire de d , on a pour tout
P (U = V ) = P (X = Y ) =
2 * { x = y } p ( X, Y ) ( x,y ) dx dy = 0
vecteur a de d :
E (〈 a , X 〉 ) = 〈 a , E (X ) 〉 (167)
où la première espérance est un réel et la deuxième un vecteur
3.2 Indépendance. Covariance. de d .
Fonction caractéristique
3.2.2.2 Matrice de covariance
3.2.1 Indépendance Nous allons utiliser ici le calcul matriciel ; un vecteur de d est
une colonne et nous désignerons la transposition par l’exposant T ;
Nous avons vu au paragraphe 2.3 que les var X1 ,..., Xd sont si a ∈ d , a T est un vecteur ligne.
indépendantes si pour tout B 1 , … , B d ∈ ( ) : 2
Soit X un vecteur aléatoire de L d ( Ω , , P ) , c’est-à-dire que
P ( X 1 ∈ B 1 , … , X d ∈ B d ) = P X1 ( B 1 )… P Xd ( B d )
chaque composante est dans L 2 (Ω, , P ).
ou si pour tout h 1 , … , h d ∈ b ( → ) :
E (h1 (X1) ... hd (Xd )) = E (h1 (X1)) ... E (hd (Xd ))
L’inégalité de Schwarz donne : Notons que si A est une matrice d × d ( A ∈ d × d ) et b un vecteur

de d alors :

1/2 1/2
X i X j dP ( Xi )2 d P
2
(X j )dP (168) ΦAX + b (u) = exp (i 〈 u, b 〉) ΦX (ATu) (180)
Ω Ω Ω
2 2 De même que dans le cas unidimensionnel, des dérivées partielles

c’est-à-dire E ( Xi Xj ) E (X i ) E (X j ) (169) de ΦX (si elles existent) sont liées aux moments de X. Nous retien-
2
ce qui montre que le produit Xi Xj est dans L 1 (Ω, , P ). La cova- drons que si X est dans L d ( Ω , , P ) , ΦX est deux fois continûment
riance des variables réelles Xi et Xj est définie par : différentiable sur d et :
Cov (Xi , Xj ) = E ((Xi – E (Xi )) (Xj – E (Xj ))) (170) 1
Φ X ( u ) = 1 + i 〈 u , E ( X )〉 – --- 〈 u , E ( XX T ) u 〉 + ( u 2 ) , u ∼ 0 (181)
2
Un calcul simple montre que : 2

1
In Φ X ( u ) = i 〈 u , E ( X ) 〉 – --- 〈 u , K X u 〉 + ( u 2 ) , u ∼ 0 (182)
2
Cov (Xi , Xj ) = E (Xi Xj ) – E (Xi ) E (Xj ) (171) ou
2
et pour i = j on obtient : Dans le cas de variables indépendantes (X1 , ..., Xd ) :
Cov (Xi , Xi ) = Var (Xi ) (172)

d d d
Si Xi et Xj sont indépendantes, Cov (Xi , Xj ) = 0 mais la réciproque ΦX ( u ) = E ∏ exp ( i uk Xk ) = ∏ E ( exp ( i uk Xk ) ) = ∏ ΦX ( uk )
k
est fausse. Nous reviendrons sur ce point au cours de l’étude des k=1 k=1 k=1
vecteurs gaussiens (§ 3.3).
qui s’écrit Φ X = Φ X1 ⊗ … ⊗ Φ Xd (183)
La matrice de covariance du vecteur X de d est la matrice car-
rée d × d, notée KX , définie par :
K X = [ Cov ( X i , X j ) ] ( i , j ) ∈ { 1, … , d } 2 (173) 3.3 Vecteurs gaussiens
Cov (Xi , Xj ) étant l’élément se trouvant à la i-ième ligne et à la 3.3.1 Définition
j-ième colonne.
Les vecteurs gaussiens jouent un rôle essentiel dans les applica-
Cov (Xi , Xj ) = Cov (Xj , Xi ) ⇒ KX est symétrique (174)
tions. Nous les définissons de manière identique aux variables
KX est positive (175) gaussiennes, à partir de la formule (182).
Un vecteur aléatoire X d-dimensionnel est gaussien si sa fonc-
au sens où pour tout a de d , 〈 a , K X a 〉 0 ; en effet : tion caractéristique ΦX (u ) est de la forme :
∑
2

d
1
〈 a, K X a 〉 = E ak ( Xk – E ( Xk ) ) 0 Φ X ( u ) = exp i 〈 u , m〉 – --- 〈 u , Ku 〉 (184)
2
k=1
où m ∈ d et K est une matrice réelle d × d symétrique positive.
En notation matricielle, on a aussi : On a alors :
KX = (X – E (X)) (X – E (X))T (176) m = E (X ) et K = KX (185)
Si la suite (X1 , ..., Xd ) est indépendante, alors la matrice KX est On note la loi gaussienne, ou normale, par (m, K ).
diagonale mais, encore une fois, la réciproque est fausse en géné- Le seul point à vérifier est (185) ; cela réside dans le calcul
ral. simple :
1 ∂ ΦX
3.2.3 Fonction caractéristique --- ----------- = mk = E ( Xk ) (186)
i ∂u k u=0
∂2 ΦX
On généralise la définition du paragraphe 2.4.1 de la manière et -------------------
- = – Kk ,
– m
mk = – E ( Xk X
) (187)
suivante : ∂u k ∂u
u=0
la fonction caractéristique d’un vecteur aléatoire d-dimensionnel d’où l’on déduit (185).
X est la fonction complexe ΦX définie sur d par :
Une loi normale est donc entièrement caractérisée par sa
∀ u ∈ d , Φ X ( u ) = E ( exp ( i 〈 u , X 〉 ) ) = Ω
exp ( i 〈 u , X 〉 ) d P (177)
moyenne m et sa matrice de covariance K.
ΦX est la transformée de Fourier de PX (au coefficient – 2π près) : 3.3.2 Caractérisation
ΦX ( u ) = d
exp ( i 〈 u , x 〉 ) P X ( d x ) (178)
La caractérisation suivante est bien sûr équivalente à la
définition précédente :
Si X a une densité pX , on a alors : X ∈ ( m, N ) ⇔ ∀ u ∈ d , 〈 u, X 〉 ∈ (188)
ΦX ( u ) = d
exp ( i 〈 u , x 〉 ) p X ( x ) d x (179)
En d’autres termes, un vecteur est gaussien si et seulement si
toute combinaison linéaire de ses composantes est une variable
aléatoire normale.
■ Démonstration ■ Démonstration
Supposons X ∈ ( m , K ) ; pour tout u ∈ d et t ∈ : Puisque K est définie positive, il existe une matrice de passage
Q telle que Q –1 KQ = I (identité).
Φ 〈 u, X 〉 ( t ) = E ( exp ( i t 〈 u , X 〉 ) ) = E ( exp ( i 〈 tu , X 〉 ) ) = Φ X ( tu )
Si Z = Q –1 X, on a : Z ∈ ( E ( Z ), I ). Par (190), ses composantes

1 sont indépendantes et donc Z possède la densité produit :
= exp i 〈 tu , m〉 – --- 〈 tu , Ktu 〉
2

d
= exp i 〈 u , m〉 t – --- 〈 u , Ku 〉 t
1
2
2 pZ ( z ) = ∏
k=1
1
1
-------------- exp – ----- ( z k – E ( Z k ) ) 2
2π 2
d
et donc 〈 u , X 〉 suit une loi ( 〈 u , m 〉, 〈 u , Ku 〉 ) d’après la – ---
définition (125). = (2π)
2
1
exp – ----- 〈 z – E ( Z ) , z – E ( Z )〉
2 (193)
Inversement, supposons que pour tout u ∈ d , 〈 u , X 〉 ∈ :
Le changement de variable Z = Q –1X donne alors :
Φ X ( u ) = E ( exp ( i 〈 u , X 〉 ) ) = Φ 〈 u , X 〉 ( 1 )
d
– -----
1

= exp i E ( 〈 u , X 〉 ) – ----- Var ( 〈 u , X 〉 )
2
( x ) = ( 2π )
2
1
exp – ----- 〈 Q –1 ( x – E ( X ) ) , Q –1 ( x – E ( X ) )〉
2 ⋅ det Q –1
= exp i 〈 u , E ( X ) 〉 – ----- 〈 u , K u 〉
1 par la formule (158).
2 X En remarquant alors que KX = QKZ QT = QQ T, on obtient :
et donc X ∈ ( E ( X ) , K X ). det KX = (det Q)2 (194)
■ Une conséquence simple est que les composantes d’un vecteur Finalement la formule :
gaussien sont des variables gaussiennes ; attention la réciproque
〈Q –1 (x – E(X )), Q –1 (x – E (X))〉 = 〈 x – E (X ), (Q –1)T Q –1 (x – E (X))〉
est fausse en général (§ 3.3.4).
= 〈x – E (X), (QQT)–1 (x – E (X ))〉
Par contre, si X1 ,..., Xd sont des variables aléatoires indépen-
–1
dantes gaussiennes, alors le vecteur X = (X1 , ..., Xd ) est gaussien ; = 〈 x – E ( X ), K X (x – E ( X ) ) 〉 (195)
en effet :
donne la formule (192) annoncée.
d
Φ X ( u ) = E ( exp ( i 〈 u , X 〉 ) ) = ∏ ΦX k
( uk ) ■ Dans le cas dégénéré, la loi de X est portée par un sous-espace
vectoriel de d , de dimension strictement inférieure à d, sur lequel
k=1
d elle admet une densité que l’on pourrait écrire si besoin était.
∏ exp i uk E ( Xk ) – ----2- Var ( Xk ) u k
1 2
=
k=1
3.3.4 Exemple
1
= exp i 〈 u , E ( X ) 〉 – ----- 〈 u , Ku 〉
2 (189)
Il s’agit en fait d’un contre-exemple montrant que les composantes
d’un vecteur aléatoire peuvent être gaussiennes sans que le vecteur
où K est diagonale avec Ki, i = Var (Xi ). soit gaussien et ce, même si les covariances sont nulles !
Inversement : Soit X une var gaussienne centrée réduite : X ∈ ( 0, 1 ) .
X ∈ ( m, K ) et K diagonale ⇒ ( X 1 , … , X d ) indépendantes (190) Pour a > 0, définissons Y de la manière suivante :
Y = X si X a
 (196)
3.3.3 Densités  Y = – X si X > a
Si X ∈ ( m, K ), K est une matrice réelle d × d symétrique posi- Par symétrie de la densité de X, on obtient facilement que
tive et il existe donc une base de d telle que, si P désigne la Y ∈ ( 0, 1 ).
matrice de passage : Le couple (X, Y ) n’est pas gaussien car X + Y est non dégénérée,
de loi portée par [– a, a] et donc non gaussienne.
P –1 KP = D où D est diagonale positive (191)
De plus Cov (X, Y ) = E (XY ) = E ( X 2 * { X a} ) – E ( X 2 *{ X > a} )
Si tous les éléments diagonaux de D sont strictement positifs
(c’est-à-dire si K est définie positive : 〈 u, Ku 〉 = 0 ⇒ u = 0), nous est une fonction continue de a, pour a > 0, égale à :
dirons que la loi de X est non dégénérée ; dans ce cas X a une den-

a +∞
sité sur d donnée par :
d
2
0
1
2π
x2
2
x 2 ------------ exp – -------- d x – 2 a
1
x2

x 2 -------------- exp – -------- d x (197)
2π 2
– -----
p X ( x ) = ( 2π )
2 1
1
× --------------------------- exp – ----- 〈 x – m , K –1 ( x – m )〉
det ( K ) 2 (192) et variant de – 1 à 1 ; cette covariance s’annule pour une valeur
de a > 0.
4. Théorèmes limites 4.1.3 Loi faible des grands nombres
fondamentaux Sous les mêmes hypothèses que précédemment (§ 4.1.2), (Xn )

indépendante de même loi de carré intégrable, nous avons :
X1 + … + Xn
4.1 Loi des grands nombres ∀ ε > 0, lim P
n3 + ∞ ----------------------------------
n
– E(X )
d
ε =0 (205)
Il s’agit, dans ce paragraphe, d’étudier le comportement asymp-
X1 + … + Xn X1 + … + Xn
totique d’expressions de la forme --------------------------------- où (Xn ) est une On dit aussi que ---------------------------------- converge en probabilité
n n
vers E (X ).
suite indépendante de vecteurs aléatoires de même loi sur d .
On se ramène encore au cas d = 1 et l’on utilise l’inégalité de
Bienaymé-Tchebychev (70) :
4.1.1 Somme de vecteurs aléatoires indépendants X1 + … + Xn
P ----------------------------------
n
– E(X ) ε
Soit (Xn ) une suite de vecteurs aléatoires indépendants de d ;
X +…+X X +…+X
nous avons vu au paragraphe 3.2.1 que la loi de la suite finie = P ---------------------------------- – E  ----------------------------------
1 n 1 n
ε
(X1 ,..., Xn ) est obtenue comme le produit des lois des Xi : n  n 
X +…+X
------ Var ---------------------------------- = -----------------------
P ( X1 ,…, Xn ) = P X1 ⊗ … ⊗ P Xn (198) 1 1 n Var ( X )
(206)
ε 2 n nε 2
L’application de ( d ) n dans d , qui à (x1 , ..., xn ) associe la qui converge vers 0 lorsque n3 + ∞ et ε > 0 est fixé.
somme x1 + ... + xn , transforme ce produit en produit de
Notons que J. Bernoulli a obtenu, en 1685, la convergence en
convolution :
X1 + … + Xn
probabilité de ---------------------------------- vers p pour des variables de Bernoulli
P X1 + … + Xn = P X1 … P Xn (199) n
indépendantes de paramètre p introduites au paragraphe 2.5.1.1.
Si, pour tout n 1, Xn ∈ L 1 :
Le résultat suivant, loi forte des grands nombres, est beaucoup
E (X1 + ... + Xn ) = E (X1) + ... + E (Xn ) (200) plus récent.
Si, pour tout n 1, Xn ∈ L 2 :
K X1 + … + Xn = K X1 + … + K Xn (201) 4.1.4 Loi forte des grands nombres
Dans tous les cas, sous l’hypothèse d’indépendance : Nous venons de voir que, pour une suite indépendante équidis-
tribuée (Xn ) de vecteurs aléatoires de d , la moyenne arithmétique
Φ X1 + … + Xn = Φ X1 … Φ Xn (202)
X1 + … + Xn
--------------------------------
- n’est pas loin de E (X ) au sens de (203) ou (205).
Ces propriétés ont déjà été rencontrées pour des var, au n
paragraphe 2 ; elles sont une simple généralisation au cas vecto- En fait, nous avons un résultat beaucoup plus profond qui nous
riel. assure que, pourvu que X 1 ∈ L 1 ( Ω , , P ) :
X1 + … + Xn
4.1.2 Convergence L 2 ou en moyenne quadratique --------------------------------- → E ( X ) P-presque sûrement (207)
n n3 + ∞
Si (Xn) est une suite indépendante de vecteurs aléatoires de d Cela constitue la loi forte des grands nombres.
de même loi PX et si X ∈
2
Ld alors : La démonstration de (207) est un peu plus délicate que (203)
ou (205), tout du moins sous l’hypothèse minimale X 1 ∈ L 1 : nous
renvoyons à la bibliographie pour cela.
X1 + … + Xn
---------------------------------- – E(X ) = 0
2
lim E (203) On peut remarquer que si X 1 ∈ L 4, un calcul équivalent à (204) et
n3 + ∞ n d une application du lemme de Borel-Cantelli (§ 1.3.3) fournit une
démonstration de (207).
X1 + … + Xn
On dit aussi que ---------------------------------- converge L 2, ou en moyenne qua- ■ Retour à la loi empirique des grands nombres
n
dratique, vers E (X ). Considérons une expérience aléatoire répétée de manière indé-
Il suffit de démontrer (203) composante par composante, pendante une infinité de fois. Fixons un événement A et désignons
c’est-à-dire de se ramener au cas où d = 1 pour lequel on a : par X n la variable de Bernoulli qui vaut 0 ou 1 suivant que A n’a
pas ou a été réalisé à la n-ième épreuve.
= ------ ∑ (X – E (X ))
n 2 (Xn ) est une suite indépendante de var bornées, de même loi ;
X1 + … + Xn 2
1
E ---------------------------------- – E(X ) -E 2 k k nous pouvons lui appliquer la loi forte des grands nombres et
n n obtenir :
k=1
1
n
1 X1 + … + Xn
= ------2-
n ∑ Var ( Xk ) = ----n- Var ( X ) (204) ----------------------------------
n
→
n3 + ∞
E ( X 1 ) = P ( A ) P-presque sûrement (208)
k=1
qui converge bien vers 0 lorsque n3 + ∞. X1 + … + Xn

où ---------------------------------- n’est autre que la fréquence d’apparition de A au
n
cours des n premières épreuves.
4.1.5 Théorème fondamental de la statistique 4.2.1.1 Convergence en loi

Nous dirons qu’une suite (Xn ) de vecteurs aléatoires de d
Un des problèmes de la statistique est d’estimer la loi de X d’après converge en loi vers le vecteur aléatoire X de d si, pour toute
l’observation de n variables indépendantes (X1 , ..., Xn ) de même loi fonction g continue bornée ( g ∈ ( d → ) ) :
que X ; on parle d’un échantillon indépendant de taille n de PX .
n
lim E ( g ( X n ) ) = E ( g ( X ) ) (212)
n3 + ∞
1
µ n ( ω ) = ---
n ∑ δ Xk ( ω ) (209)
Cela n’est autre que la convergence faible des lois ( P Xn ) vers la
k=1
loi PX :
définit une mesure aléatoire sur d appelée la loi empirique.
On a alors :
∀ g ∈ b ( d → ),
d
g ( x ) P Xn ( d x )
n3 + ∞
→
d
g ( x ) P X ( d x ) (213)
étroitement
µn → PX P-presque sûrement (210) Cette convergence ne concerne que les lois et, éventuellement,
n3 + ∞ les vecteurs aléatoires (Xn ) et X peuvent être définis sur des espaces
différents. Remarquons la faiblesse de cette convergence : si les (Xn )
où la convergence étroite de µn (ω ) vers PX signifie que pour toute sont de même loi, alors la suite (Xn ) converge en loi !
fonction continue de d dans et tendant vers 0 à l’infini :
4.2.1.2 Critère de Lévy
( f ∈ 0 ( d → ) ), d
f dµ n(ω) → d
f d P X lorsque n 3 + ∞
Nous avons vu que la fonction caractéristique ΦX (u) d’un
vecteur aléatoire X caractérise entièrement la loi PX de celui-ci.
En fait nous avons le résultat suivant :
Pour une fonction f, cette convergence est une application
directe de (207) aux variables f (X1), ..., f (Xn ) ; la difficulté de ce Loi
résultat réside dans le P-p.s. ( Xn ) → X ⇔ Φ Xn ( u ) → Φ X ( u ) pour tout u ∈ d (214)
n3 + ∞ n3 + ∞
X1 + … + Xn
Par exemple, la moyenne empirique M n = ---------------------------------- fournira qui nous indique qu’il suffit de vérifier la convergence ponctuelle
n de ( Φ Xn ) vers ΦX pour prouver la convergence en loi de (Xn )
un estimateur convergent de E (X ) pour X ∈ L 1 et la variance vers X.
n
1
empirique ---
n ∑ ( Xk – Mn ) 2 , un estimateur convergent de Var (X ) 4.2.2 Convergence vers la loi normale
k=1
n
1
pour X dans L 2. On lui préférera d’ailleurs -------------
n–1 ∑ ( Xk – Mn )2 qui ■ Théorème de la limite centrale
k=1
est sans biais dans le sens où son espérance est égale à Var (X ).
Soit ( X n ) n 1
une suite indépendante de vecteurs aléatoires
4.2 Théorème de la limite centrale de d , de même loi PX et de carré intégrable, alors :
X1 + … + Xn
---------------------------------- – E (X )
Loi
4.2.1 Fluctuations et convergence en loi Zn = n → ( 0, K X ) (215)
n n3 + ∞
Le but de ce paragraphe est d’étudier la vitesse de convergence
dans la loi des grands nombres du paragraphe précédent (§ 4.1) ou, (Ce résultat a été obtenu au début du XVIIIe siècle par De Moivre,
plus précisément, d’étudier les fluctuations autour de 0 de la quantité dans le cas des variables de Bernoulli, en utilisant la toute nou-
velle formule de Stirling. Il est dû dans sa généralité à Laplace.
X1 + … + Xn
- – E ( X ) pour des vecteurs aléatoires indépendants équi-
-------------------------------- L’anglicisme théorème central limite est encore parfois
n employé).
distribués et de carré intégrable.
Prenons le cas d = 1 et considérons la variable aléatoire Z n définie ■ Démonstration
par :
D’après (214), il suffit de prouver que Φ Zn ( u ) converge ponctuel-
X1 + … + Xn
Zn = nα ----------------------------------
n
– E (X ) (211) 1

lement vers exp – ----- 〈 u , K X u 〉 qui est la fonction caractéristique
2
où α est un nombre positif.
d’un vecteur gaussien ( 0, K X ) (§ 3.3). Un calcul simple donne :
On a bien sûr E (Z n ) = 0 et un calcul simple montre que
Var (Z n ) = n 2α – 1 Var (X ).
1
Il nous faut choisir α = --- pour obtenir une limite significative,
1
2
u 2
n Φ Zn ( u ) = – ----- 〈 u , K X u 〉 + n ------------
n (216)
2
où le deuxième terme converge vers 0 lorsque n3 + ∞ .
X1 + … + Xn 1
c’est-à-dire que --------------------------------- – E ( X ) va vers 0 à la vitesse -------- . Dans le cas d = 1, le résultat s’énonce :
n n
soit ( X n ) n une suite indépendante de var, de même loi PX et de
Avec ce choix de α, on a déjà Var (Z n ) qui converge vers Var (X ) ; 1
on ne peut donc pas espérer une limite déterministe pour la carré intégrable telle que σX > 0, alors :
suite (Z n ).
n X1 + … + Xn

Loi
---------- ---------------------------------- – E (X ) → ( 0, 1 ) (217)
σX n n3 + ∞
4.2.3 Remarques 4.3 Comparaison des différents modes

4.2.3.1 Amplitudes des fluctuations
de convergence
Dans le cas d = 1, par exemple, (217) est aussi équivalent à : 4.3.1 Schéma général

b
n X1 + … + Xn

x2

1 Rappelons les différents modes de convergence de la suite (Xn )
P a < --------- ------------------------------- – E (X ) < b → ------------ exp – ------- d x (218)
σX n n3 + ∞ a 2π 2 vers la variable X :
— convergence presque sûre :
pour tout a < b.
p.s.
En prenant a = – ε et b = ε on obtient : Xn →
n3 + ∞
X ⇔ P lim X n = X = 1
n (224)

+ε
P
X1 + … + Xn
-------------------------------
n
σX ε
– E ( X ) < ------------
n
→
n3 + ∞ –ε
1

x2

------------ exp – ------- d x (219)
2π 2
— convergence L 2 ou en moyenne quadratique :
Xn ∈ L 2 , ∀n 1 et X ∈ L2
Par exemple, dans un jeu de pile ou face, avec
m.q. (225)
1 1
p = --- , on a σ X = p ( 1 – p ) = ----- et l’on peut donc estimer des pro- Xn → X ⇔ lim E ( ( X n – X ) 2 ) = 0
n3 + ∞ n
2 2
babilités du type : — convergence en probabilité :

P nombre de Piles – ----- < r
n
2 (220)
Xn
Proba
→
n3 + ∞
X ⇔ ∀ ε > 0, lim P ( |X n – X | > ε ) = 0
n
(226)
r
en utilisant (219) avec ε = ------------------ .
σX n — convergence en loi :
4.2.3.2 Bruit gaussien Loi
Xn → X ⇔ ∀ g ∈ b , lim E ( g ( X n ) ) = E ( g ( X ) ) (227)
Les erreurs, dans une mesure physique par exemple, sont, en n3 + ∞ n
général, la somme de petites erreurs indépendantes.
On a alors le schéma suivant :
Supposons que ces erreurs X1 , ..., Xn soient des var indépen-
σ
dantes de même loi, centrées et d’écart-type d’ordre -------- .
n
Le théorème de la limite centrale nous dit qu’alors, pour n assez
grand, la loi de l’erreur totale X1 + ... + Xn est proche d’une
loi ( 0, σ ) .
Si a est la valeur exacte de la quantité à mesurer, la mesure sera
donc une variable aléatoire de la forme a + B où B ∈ ( 0, σ ) est
appelé le bruit.
4.2.3.3 Taille d’un échantillon

Considérons le cas très simple d’une épreuve de Bernoulli où
P (X = 1) = p est inconnu. À partir d’un échantillon indépendant de
taille n, de cette loi, nous voulons estimer p : une manière de faire
e s t d e c o n s t r u i r e u n i n t e r v a l l e d e c o n fi a n c e d u t y p e
X1 + … + Xn X1 + … + Xn
----------------------------------
n n
– ε , ---------------------------------- + ε et de s’imposer un niveau de
confiance 1 – α de sorte que : où sous-suite signifie que, par exemple, si X n

m.q.
→ X , on peut
n3 + ∞
X1 + … + Xn X1 + … + Xn
1 – α
p.s.
P p ∈ --------------------------------- – ε , --------------------------------
-+ε (221) trouver une sous-suite ( n k ) 3 + ∞ telle que X n k →
k3 + ∞
X.
n n
Remarquons que la convergence p.s. implique la convergence en
En posant σ = p ( 1 – p ) , le théorème de la limite centrale nous probabilité, mais n’implique pas en général la convergence en
assure que : moyenne quadratique ; cela est toutefois vrai si l’on est dans les
conditions d’application du théorème de convergence dominée
ε n

p.s.
X1 + … + Xn -----------
P n
-– p ε
--------------------------------- ∼
ε n
σ
– -----------
1
x2

------------- exp – -------- d x (222)
2π 2
( Xn ) ∈ L 2 , Xn →
n3 + ∞
X et | X n | Y où Y ∈ L 2 ; alors (Xn ) converge
σ vers X en moyenne quadratique.

La convergence en loi est la plus faible de toutes ces convergences.
1
pour n grand. En remarquant que σ = ----- est la valeur maximale
2
de p ( 1 – p ) , nous pouvons écrire, qu’asymptotiquement en n : 4.3.2 Cas gaussien

X1 + … + Xn 2ε n

Il est intéressant de noter le résultat suivant (on se restreint à
P ----------------------------------
n
–p ε
– 2ε n
1

x2

----------- exp – -------- d x (223)
2π 2 d = 1 mais il reste vrai pour d > 1).
Soit (Xn ) une suite de var gaussiennes qui converge en loi
ε étant donné, il ne reste plus qu’à choisir n de telle sorte que vers X ; alors :
l’intégrale dans (223) soit égale à 1 – α.
X est gaussienne (228)
Par exemple, pour ε = 0,02 et α = 0,01, on obtient n = 4 225.
■ Démonstration (soit E H (Y ) ∈ H ), et :
E (Y (a0 + a1X1 + ... + an Xn ))
1
2
2
2
Φ Xn ( u ) = exp i um n – --- u 2 σ n où m n = E ( X n ) et σ n = Var ( X n ) = E ((α 0 + α1X1 + ... + αn Xn )(a 0 + a1X1 + ... + an Xn )) (233)
pour tout a 0 , a 1 , … , a n ∈ .
Φ Xn ( u ) → ΦX ( u ) implique la convergence des modules,
n3 + ∞ Notons par X le vecteur aléatoire (X1 , ..., Xn ), K X sa matrice de
2
c’est-à-dire la convergence de σ n vers un nombre positif σ 2. On covariance et Cov (Y, X ) la matrice colonne formée des éléments
Cov (Y, Xi ), 1 i n .
démontre alors que la suite (mn ) est bornée (le contraire implique-
L’unique solution de (233) est donnée par :
rait une perte de masse) ; en choisissant u assez petit, on obtient
la convergence de (mn ) vers un nombre (fini) m. E H ( Y ) = E ( Y ) + 〈 α , X – E ( X ) 〉 n (234)
1

On a donc Φ X ( u ) = exp i um – --- u 2 σ 2
2 ; soit X ∈ ( m , σ 2). où α ∈ n est une solution du système linéaire :
KX α = Cov (Y, X ) (235)
Les convergences p.s., m.q. ou en probabilité impliquant la
convergence en loi, on en déduit que si X n → X p.s., m.q. ou en Si de plus KX est inversible, alors α est uniquement déterminé
probabilité et Xn gaussienne ∀ n 1 , alors X est gaussienne. par :
–1
α = K X Cov ( Y , X ) (236)
5. Espérances L’erreur d’approximation, Y – (Y )

son carré, appelé variance résiduelle :
EH L 2 (Ω, , P ), est donnée par
et lois conditionnelles –1
E ( ( Y – E H ( Y ) ) 2 ) = Var Y – ( Cov ( Y , X ) ) T K X Cov ( Y , X )
5.1 Approximation det K ( X1 , … , Xn , Y ) (237)
= ---------------------------------------------
-
au sens des moindres carrés det K ( X1 , … , Xn )
5.1.1 Projection orthogonale 5.1.1.5 Régression linéaire

Il s’agit, par exemple, d’approximer Y ∈ L 2 ( Ω , , P ) , au sens
5.1.1.1 L’espace L 2 ( Ω , , P ) des moindres carrés, par les variables de la forme aX + b où
Rappelons que L 2 ( Ω , , P ) est l’espace des classes d’équiva- X ∈ L 2 ( Ω , , P ).
lence des var de carré intégrable modulo l’égalité P presque sûre. ~
(234) et (236) donnent la meilleure approximation Y :
Cet espace est un espace de Hilbert (espace vectoriel normé
complet) avec le produit scalaire 〈 X, Y 〉 L 2 = E ( XY ) et la norme ~ Cov ( X , Y )
X L 2 = ( E ( X 2 ) )1 / 2 . Y = -------------------------------- ( X – E ( X ) ) + E ( Y ) (238)
Var ( X )
5.1.1.2 Projection orthogonale (pourvu que Var (X ) > 0).

La variance résiduelle est donnée par :
Soit H un sous-espace de L 2 ( Ω , , P ) , c’est-à-dire, ici, un
sous-espace vectoriel fermé de L 2 ( Ω , , P ) ; alors, pour tout ~ 2
Y ∈ L 2 ( Ω , , P ), il existe un unique élément de H, noté E H (Y ), qui E ( ( Y – Y ) 2 ) = ( 1 – ρ X, Y ) Var ( Y ) (239)
minimise la distance de Y à H ; il est caractérisé par :
Cov ( X , Y )
E H (Y ) ∈ H et Y – E H (Y ) ⊥ H (229) où ρ X, Y = -------------------------------- est le coefficient de corrélation (on sup-
σX σY
L’orthogonalité de Y – E H (Y ) et H peut encore s’écrire : pose aussi σY > 0) ; on a toujours ρ X, Y 1.
〈Y – EH ( Y ), Z 〉 L 2 = E ( ( Y – EH ( Y ) ) Z ) = 0, ∀Z ∈ H La droite d’équation :
ou encore ∀ Z ∈ H, E (YZ ) = E (E H (Y ) Z ) (230) Cov ( X , Y )
y = --------------------------------- ( x – E ( X ) ) + E ( Y ) (240)
Var ( X )
5.1.1.3 Approximation par les constantes
est la droite de régression de Y en X.
Si H est l’ensemble des constantes alors, pour Y ∈ L 2,
EH (Y ) = E (Y ) puisque E (Y ) ∈ H et ∀ z ∈ H : 5.1.2 Espérance conditionnelle
E (Yz) = zE (Y ) = E (E (Y ) z ) (231) par rapport à une tribu
5.1.1.4 Approximation affine 5.1.2.1 Cas général

Soit une sous-tribu de ; L 2 ( Ω , , P ) est un sous-espace de
Soit H le sous-espace de L 2 ( Ω , , P ) engendré par les constantes
L 2 ( Ω , , P ) (nous supposerons, dans toute la suite, que contient
et les var X1 , ..., Xn de L 2 ( Ω , , P ) .
tous les P-négligeables de ) ; nous noterons alors :
Un élément de H s’écrit donc :
L2 ( Ω , , P )
Z = a0 + a1X1 + ... + an Xn (232) E (. ) = E ( ./ ) (241)
et EH (Y ), pour Y ∈ L 2 ( Ω , , P ) est caractérisé par : la projection de L2 ( Ω , , P ) sur L2 ( Ω , , P ).
EH (Y ) = α 0 + α1X1 + ... + αn Xn
Si Y ∈ L 2 ( Ω , , P ) , E ( Y / ) , appelée l’espérance conditionnelle Les fonctions h de b ( n → ) suffiraient à caractériser

de Y sachant , est l’unique élément de L 2 ( Ω , , P ) vérifiant : E (Y/σ (X1, ..., Xn )) = g (X1, ..., Xn ).
Dans ce cas, on écrit aussi E (Y / X 1 , ..., X n ) au lieu de
∀ Z ∈ L 2 ( Ω , , P ) , E ( YZ ) = E ( E ( Y / ) Z ) (242) E (Y/σ (X1 , ..., Xn )).
L’espérance conditionnelle est un élément de L2 ( Ω , , P ) et
donc une var définie P-p.s. 5.1.2.4 Comparaison avec l’approximation affine
Pour caractériser E ( Y/ ) , il suffira de vérifier (242) pour des Les fonctions affines de n dans étant boréliennes, le
Z qui engendrent L 2 ( Ω , , P ) ; par exemple, en prenant Z de la sous-espace H de L 2 ( Ω , , P ) , engendré par les var X1, ..., Xn de
forme * A pour tout A ∈ , on a : carré intégrable et les constantes, est un sous-espace de
E ( Y/ ) est l’unique élément de L2 ( Ω , , P ) tel que : L 2 (Ω, σ (X1 , ..., Xn ), P ). Pour tout Y de L 2 ( Ω , , P ) , on a alors :
A
Y dP = A
E ( Y/ ) dP (243)
E ( ( Y – E H ( Y ) )2 ) E ( ( Y – E ( Y / X1 , … , Xn ) )2 ) (254)
5.1.2.5 Exemple
5.1.2.2 Propriétés Soient A et B deux événements de , avec P (A) > 0.
L’espérance conditionnelle possède des propriétés analogues à Calculons E ( * B /* A ) . C’est une var mesurable par rapport à
celle d’une espérance, bien que ce soit une va définie P-p.s.
σ ( * A ) = σ (A) = {∅, A, Ac, Ω } ; on a donc E ( * B /* A ) = α * A + β * A c
■ Linéarité
P-p.s. avec les conditions :
∀ X, Y ∈ L 2 ( Ω , , P ) , ∀ α , β ∈ ,
(244) E ( ( α * A + β * A c )* A ) = E ( * B * A )
E (αX + βY/) = αE (X/) + βE (Y/) P-p.s.
et E ( ( α * A + β * A c )* A c ) = E ( * B * A c ) (255)
■ Positivité
Ce système linéaire en α et β se résout et donne :
∀ Y ∈ L 2 ( Ω , , P ) telle que Y 0 P -p.s.,
E ( Y / ) 0 P -p.s. (245) E ( *B *A ) P (A ∩ B )
α = ----------------------- - = -------------------------- = P ( B/A )
P (A ) P (A )
Pour démontrer cette propriété importante il suffit de prendre E ( *B *Ac )
dans (243), A = { E ( Y/ ) a } pour a < 0 ; on a alors : P ( Ac ∩ B )
et β = ------------------------- = - = P ( B/A c )
----------------------------
P ( Ac ) P ( Ac )
0 A
Y dP = A
E ( Y / ) d P aP ( A ) soit E ( * B /* A ) = P ( B/A ) * A + P ( B/A c ) * A c P-p.s. (256)
et donc P (A ) = 0 pour tout a < 0 soit P ( E ( Y/ ) 0 ) = 1. Cette formule fait le lien avec les probabilités conditionnelles du
paragraphe 1.3.1.
Les propriétés suivantes se démontrent facilement :
X Y P -p.s. ⇒ E ( X / ) E ( Y / ) P-p.s. (246) 5.2 Espérance conditionnelle
1 ⊂ 2 ⇒ E ( E ( Y/ 2 )/ 1 ) = E ( Y/ 1 ) P-p.s. (247)
5.2.1 Généralisation aux variables positives
= ( ∅, Ω ) ⇒ E ( Y / ) = E ( Y ) P-p.s. (248)
ou intégrables
E ( E ( Y/ ) ) = E ( Y ) (249) Nous avons défini, au paragraphe 5.1.2.1, l’espérance condition-

nelle, E ( Y/ ) , d’une va Y de L 2 ( Ω , , P ) par rapport à une
Y ∈ L2 ( Ω , , P ) ⇒ E ( Y / ) = Y P-p.s. (250) sous-tribu de . La propriété de positivité (245) nous permet
d’étendre cette définition aux variables aléatoires positives Y par
Y indépendante de ⇒ E ( Y / ) = E ( Y ) P-p.s. (251) des suites croissantes de L 2 ( Ω , , P ) de telle manière que :
X ∈ L 2 ( Ω , , P ) ⇒ E ( XY / ) = XE ( Y / )
= lim ; E ( X
P-p.s. (252) E lim ; X n / n / ) (257)
n n
5.1.2.3 Espérance conditionnelle

par rapport à un vecteur aléatoire On aura, par exemple, pour Y 0 :
Nous considérons ici le cas particulier où est la tribu engen- E ( Y/ ) = lim ; ( Y ∧ n / ) P-p.s.
n
drée par un vecteur aléatoire X = (X1, ..., Xn ) défini sur
( Ω , , P ) ; est bien une sous-tribu de que nous avons notée Si, maintenant, Y ∈ L 1 (Ω, , P ), les parties positive et négative,
= σ (X1 ,..., Xn ) (§ 3.1.2). D’après le lemme de Doob (§ 3.1.2) Y + et Y –, sont des va positives et nous définissons :
toute variable aléatoire σ (X1, ..., Xn ) – mesurable s’écrit :
g (X1, ..., Xn ) pour une fonction borélienne de n dans . La E ( Y/ ) = E ( Y + / ) – E ( Y – / ) (258)
définition de l’espérance conditionnelle devient alors : pour
Y ∈ L2 ( Ω , , P ) : (Y étant intégrable, et Y+ Y–
le sont et les deux espérances
conditionnelles sont finies P-p.s.).
E (Y/σ (X1, ..., Xn )) est l’unique élément de L 2 (Ω, σ (X), P ), s’écri-
vant g (X1, ..., Xn ), tel que, pour toute fonction borélienne h de Les propriétés du paragraphe 5.1.2.2 sont alors conservées pour
n dans (bornées par exemple) : les variables de L 1 (Ω, , P ).
E (g (X1, ..., Xn ) h (X1, ..., Xn )) = E (Yh (X1, ..., Xn )) (253)
5.2.2 Espérance conditionnelle d’un vecteur On obtient donc la loi conditionnelle :

aléatoire P ( Y,X ) ( dy, X = x )
P Y/X ( dy/x ) = -------------------------------------------------- , x ∈ D X (264)
P (X = x)
Jusqu’à maintenant nous n’avons défini l’espérance condition-
nelle que d’une variable aléatoire intégrable Y. qui s’écrit ici de manière naturelle : P Y/X = x (dy ), x ∈ DX .
La définition pour un vecteur aléatoire se fait composante par
composante sans difficulté.
1
Soit Y un vecteur aléatoire de L d ( Ω , , P ) et X un vecteur aléa- 5.3.3 Densités conditionnelles
toire d ’-dimensionnel défini sur (Ω, , P ) :
1 Considérons le cas où le couple (X, Y ) a une densité p(X, Y ) (x, y)
E (Y /X ) est l’unique vecteur aléatoire de L d (Ω, σ (X ), P ) qui
s’écrit g (X ) avec g borélienne de d′ dans d tel que : sur d ′ × d ; pour caractériser la loi conditionnelle de Y en X, on
E (g (X ) h (X )) = E (Yh (X )) (259) cherche une fonction borélienne g de d ′ dans telle que pour
pour toute fonction h de b ( d ′ → ) . h ∈ b ( d → ) et tout k ∈ b ( d ′ → ) :
E (h (Y ) k (X)) = E (g (X) k (X)) (265)

5.3 Lois conditionnelles (h (Y ) est la variable à conditionner par X et k (X ) = Z .)
5.3.1 Définition La relation (265) est alors équivalente à :
Soit X un vecteur aléatoire d ’-dimensionnel et Y un vecteur aléa-

toire d-dimensionnel, tous deux définis sur (Ω, , P ) ; de même que
d ′ × d
h ( y ) k ( x ) p ( X, Y ) ( x , y ) d x d y = d ′
g ( x ) k ( x ) p X ( x ) d x (266)
la loi de Y est définie par la probabilité P Y sur d telle que soit h ( y ) p ( X, Y ) ( x , y ) d y = g ( x ) p X ( x ) (267)

d
∀ h ∈ b ( d → ) , E (h (Y )) =
d
h (y ) PY (dy ), la loi conditionnelle et donc g (x ) = d
p ( X, Y ) ( x , y )
h ( y ) ------------------------------------ d y
pX ( x )
(268)
de Y en X sera définie par une famille de probabilités sur d , indexée
sur l’ensemble {pX > 0}. On en déduit donc :
par x ∈ d ′ , notée PY/X (dy/x) et vérifiant :
p ( X, Y ) ( x , y )
∀ h ∈ b ( d → ) P Y/X ( dy/x ) = ------------------------------------ d y sur { p X > 0 } (269)
pX ( x )
g (x) = d
h (y) P Y/X (dy/x) est borélienne de d ′ dans et p ( X, Y ) ( x , y )
------------------------------------ est la densité conditionnelle de Y sachant X que
satisfait : pX ( x )
l’on note abusivement pY/X = x (y) et qui a l’interprétation intuitive
E (h (Y )/X ) = g (X) P-p.s. (260)
suivante :
′
Si P Y/X (dy/x) est une autre famille de probabilités sur d satis-
x < X < x + d x
faisant à (260), on a alors :
P y < Y < y + dy
B = { x ∈ d ′ , PY / X ( ./ x ) = P Y′ / X ( ./ x ) } ∈ ( d ′ )
et PX (B ) = P (X ∈ B ) = 0 (261) P ( y < Y < y + dy, x < X < x + d x )

= -----------------------------------------------------------------------------------------
P(x < X < x + dx)
On démontre qu’une telle famille existe toujours mais, dans les
cas qui vont nous intéresser dans la suite, nous aurons une for- p( X , Y ) ( x , y )
= ------------------------------------ d y
mule explicite. pX ( x )
après simplification par dx.

5.3.2 Conditionnement
par rapport à une variable discrète
5.3.4 Exemple
Soit DX l’ensemble dénombrable des valeurs prises par X :
Soient X et Y deux variables aléatoires indépendantes uniformé-
P (X = x) > 0, ∑ P (X = x) = 1, et soit Y un vecteur aléatoire de ment réparties sur [0, 1] ; on pose U = inf (X, Y ) et V = sup (X, Y ) et
x ∈ DX l’on voudrait la loi conditionnelle de U sachant V.
d défini sur le même espace (Ω, , P ). Nous avons déjà considéré cet exemple au paragraphe 3.1.2 et
σ (X ) est engendrée par les ensembles {X = x} pour x ∈ DX . nous avons montré que le couple (U, V ) a une densité de probabi-
lité qui s’écrit (162) :
Pour h ∈ b ( d → ), E (h (Y )/X ) = g (X) où g est une application
p(U, V ) (u, v) = (p(X, Y) (u, v) + p(X, Y ) (v, u)) * { u v}
de DX dans telle que :
où ici p (X, Y ) (x, y ) = * [ 0, 1 ] ( x ) * [ 0, 1 ] ( y ) puisque X et Y sont indé-
E ( h ( Y ) * { X = x } ) = E ( g ( X ) * { X = x } ) = E ( g ( x ) * { X = x } ) (262)
pendantes et uniformément réparties sur [0, 1]. On a donc :
On a donc :
p (U, V ) (u, v) = 2 × * { 0 u v 1} (270)
E ( h ( Y ) *{ X = x } )
g ( x ) = ----------------------------------------------- (263)
P (X = x)
Pour tout v tel que 0 < v < 1, la densité conditionnelle de La loi conditionnelle de X (2), sachant X (1), est déterminée par sa
U sachant V = v est donc égale à : fonction caractéristique :
1
p U/V = v ( u ) = --- * [ 0, v ] ( u ) (271) Φ X ( 2 ) /X ( 1 ) ( u 2 ) = E ( exp ( i 〈 u 2 , X ( 2 ) 〉 ) / X (1) ) , u ∈ d 2 (278)
v
puisque pV (v ) =
p(U, V ) (u, v ) du = 2v* [ 0, 1 ] ( v ) et (269).
On veut donc montrer que cette fonction caractéristique est de
i 〈 u , AX
1
La loi conditionnelle de U sachant V est donc la loi uniforme sur la forme Φ X ( 2 ) /X ( 1 ) ( u 2 ) = exp (1) 〉 – ----- 〈 u 2 , Bu 2 〉 , ce
2 2
[0, V ]. On a par exemple :
qui caractérise une loi (AX (1), B ).
E ( U/V ) = g ( v ) où g ( v ) =
v
u p U / V = v ( u ) d u = ---
2
σ (X (1)) étant engendrée par {exp (i 〈u 1 , X (1) 〉), u 1 ∈ d 1 }, il suffit
de vérifier que :
V
soit E ( U/V ) = ---- P-p.s. (272)
2
1

E exp i 〈 u 2 , AX ( 1 ) 〉 – ----- 〈 u 2 , Bu 2 〉 exp ( i 〈 u 1 , X ( 1 ) 〉 )
2
= E (exp ( i 〈 u 2 , X ( 2 ) 〉 ) exp ( i 〈 u 1 , X ( 1 ) 〉 ) (279)
5.4 Conditionnement dans le cas
Cela se fait sans difficulté grâce à (276) et (277).
gaussien
Le cas des vecteurs gaussiens est important dans la pratique et

5.4.2 Exemple
nous allons voir que la situation est idéale dans le sens que
l’approximation affine, pour laquelle nous avons une formule Supposons qu’un signal soit représenté par une variable aléa-
explicite, coïncide avec l’espérance conditionnelle. toire gaussienne X ∈ (s, α 2 ).
Nous observons ce signal additionné d’un bruit représenté par
une variable aléatoire gaussienne B ∈ (0, σ 2) indépendante de
5.4.1 Résultat général X : notons Y = X + B l’observation.
Notre problème est d’estimer X sachant Y.
Soit X un vecteur aléatoire de d 1 + d 2 dont nous désignerons
La réponse, au sens des moindres carrés, est contenue dans le
par X (1) (resp. X (2)) le vecteur aléatoire de d1 (resp. d2 ) formé
calcul de l’espérance conditionnelle de X sachant Y.
par les d 1 premières composantes (resp. les d 2 dernières compo-
santes).
X ,
B
Nous supposerons X gaussien en insistant bien sur le fait que Le vecteur aléatoire de 2 , est gaussien puisque les
cette hypothèse est plus forte que l’hypothèse : X (1) et X (2) sont
variables B et X sont gaussiennes indépendantes.
gaussiens (§ 3.3).
X = = 0 1 X
La matrice de covariance KX de X s’écrit : Y X+B 1 1 B
(280)
X

K 11 K 12
KX = (273) est donc lui aussi un vecteur gaussien ; on peut appliquer le théo-
K 21 K 22
rème du paragraphe 5.4.1 avec X (1) = Y et X (2) = X.
T
où K 11 = K X ( 1 ) , K 22 = K X ( 2 ) et K 12 = K 21 = Cov ( X ( 1 ) , X ( 2 ) ) est une

K 11 K 12 Var ( Y ) Cov ( X , Y )
matrice d 1 × d 2 . K = =
K 21 K 22 Cov ( X , Y ) Var ( X )
Nous allons étudier la loi de X (2) conditionnellement en X (1).

Var ( X ) + Var ( B ) Cov ( X , X ) α2 + σ2 α2
■ Théorème = = (281)
Cov ( X , X ) Var ( X ) α2 α2
X (2) possède, conditionnellement en X (1), une loi gaussienne On a donc :
sur d2 , d’espérance et de covariance données par :
–1 α2
A = K 21 K = ---------------------
E (X (2)/X (1)) = E (X (2)) + A (X (1) – E (X (1))) (274) 11
α2 + σ 2
α2
Cov (X (2)/X (1)) = B (275) et E ( X/Y ) = s + ---------------------
- (Y – s) (282)
α2 + σ2
où A, de format d 2 × d 1 est telle que AK 11 = K 21 , et :
et l’erreur quadratique est donnée par :
–1
A = K 21 K (276)
11 α 2σ 2
E ((X – E (X/Y ))2) = E (Var (X/Y )) = B = ---------------------
- (283)
si K 11 est inversible et où B, de format d 2 × d 2 , est donnée par : α2 + σ2
B = K 22 – AK11 AT (277) Cet exemple est la forme la plus simple d’un problème très
général de filtrage.
■ Démonstration
En remplaçant X (1) par X (1) – E (X (1)) et X (2) par X (2) – E (X (2)),
on peut toujours supposer X centré.
Références bibliographiques
Ouvrages d’introduction Ouvrages d’approfondissement [12] NEVEU (J.). – Martingales à temps discret.
aux Probabilités des outils mathématiques Masson (1972).
[13] DELLACHERIE (C.) et MEYER (P.A.). – Probabi-
[1] BOULEAU (N.). – Probabilités de l’ingénieur. [6] BOURBAKI (N.). – Éléments de mathéma- lités et potentiel. Théorie des martingales.
Variables aléatoires et simulation. Hermann tiques. Livre VI. Intégration. Hermann. Hermann (1975) et (1980).
(1986). [7] HALMOS (P.R.). – Measure theory. Van
[2] BREIMANN (L.). – Probability theory. Nostrand (1953).
Addison-Wesley (1968). [8] METIVIER (M.) et NEVEU (J.). – Théorie de la Ouvrages tournés vers la simulation
[3] FELLER (W.). – An introduction to Probability mesure et de l’intégration. Cours de l’École
theory and its applications. 2 volumes. Wiley Polytechnique. Édition (1983). [14] DEVROYE (L.). – Non-Uniform Random
(1957). [9] NEVEU (J.). – Bases mathématiques du calcul Variate Generation. Springer-Verlag (1986).
[4] METIVIER (M.). – Probabilités : Dix leçons des Probabilités. Masson (1984). [15] KNUTH (D.E.). – The art of computer. Vol 1.
d’introduction. Ellipses (1987). [10] RUDIN (W.). – Analyse réelle et complexe. Fundamental algorithms, Addison-Wesley,
[5] NEVEU (J.). – Introduction aux Probabilités. Masson (1987). Reading, Mass. (1968).
Cours de l’École Polytechnique – Édition [16] MORGAN (B.). – Elements of simulation.
(1990). Chapmann and Hall (1984).
Ouvrages d’introduction à la théorie [17] RUBINSTEIN (R.). – Simulation and the Monte
des martingales et des processus Carlo method. Wiley (1981).
stochastiques
[11] BOULEAU (N.). – Processus stochastiques et

applications. Hermann (1988).

Calcul Des Probabilités: Concepts Et Résultats de Base

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Calcul Des Probabilités: Concepts Et Résultats de Base

Transféré par

Droits d'auteur :

Formats disponibles

Calcul des probabilités

Concepts et résultats de base

1. Espaces de probabilités ......................................................................... A 560 - 2

et article est une introduction aux notions fondamentales des Probabilités.

Probabilités » Kolmogorov publie en 1933 une nouvelle axiomatique basée sur

dynamiques ou chronologiques des Probabilités (fonctions aléatoires ou

1. Espaces de probabilités 1.1.1.2 Événements aléatoires et tribus

L’ensemble de toutes les éventualités sera noté Ω (grand

l’amplitude du bruit thermique émis par un élément d’un réseau

est formé des éventualités appartenant à une infinité de An alors que

partition de Ω et l’on sait alors que le résultat de l’expérience sera N A1 ∪ A2 … ∪ An N A1 + … + N An N A1 N An

de ; elle sera notée  ( ). Plus généralement si Ω est un espace

On s’intéresse maintenant au nombre, X (ω ), d’éléments de type 1.2.3.2 Loi de Poisson

obtient avec (27) :

P (./A ) est donc la probabilité uniforme sur A. P (B ∩ A)

La démonstration (très simple) de ce lemme est instructive mais

intervalle (a, b] de ; le choix de l’ouverture en a et de la fermeture

Y = f (X ) est une var σ (X )-mesurable. Ce résultat admet une réci-  

pour tout ω ∈ Ω montre que X (Ω ) est inclus dans l’ensemble où

–1 –1  k  définit un fonction FX de dans [0,1] qui est appelée fonction de

est borélienne de dans et vérifie f n ( X ) = Y n puisque pour un puisque PX n∩ 1 (– ∞ , – n ] = PX ( ∅ ) = 0

puisque FX est croissante par (49). On peut alors écrire :

la première égalité exprimant le fait que PX est la mesure image de

continuités, PX ne charge donc, au plus, qu’un ensemble dénom- et :

cette dernière intégrale étant l’intégrale de Stieljes classique.

où Y + et Y – sont les parties positives et négatives de Y, elles-mêmes d’autre part : X 0 ⇒ E (X ) 0 (61)

2.2.2.2 Moments d’ordre supérieur 2.3.1 Définition

2.2.2.3 La variance On pourra, par exemple, utiliser les intervalles de , ou simple-

+ E ( ( X – E ( X ) ) 2 *{ X – E ( X ) < ε} ) ε2 P { X – E ( X ) ε } + 0 La définition (66) de la variance et un calcul élémentaire donnent

En posant hi (x) = x – E (Xi ), on a :

Au paragraphe 1.3.2, nous avons donné la notion d’indépendance

pour des var de carré intégrable.

2.3.4 Cas d’expériences indépendantes Φ X ( 0 ) = 1 , Φ X ( u ) 1 et Φ X ( – u ) = Φ X ( u ) (83)

2.3.5 Cas de variables aléatoires discrètes

La réciproque est aussi vraie et, plus généralement, si On obtient :

1 Il s’agit d’une suite indépendante ( X n ) n 1 d’épreuves de

exp ( – λ x ) P X ( d x ) toujours définie pour λ 0 (93)

2.5.1 Variables aléatoires discrètes.

Pour tout m 1 , on a : La propriété (111) caractérise les densités de probabilité. Notons

On a : 2.5.2.2 La loi uniforme sur un intervalle

2.5.2.1 Définition et propriétés pour x 0 et y 0 ; c’est-à-dire égale à P { X y } .

2.5.2.4 Lois gaussiennes = ′

vers une loi de Poisson de paramètre λt. De la même manière que

De cette relation, il est alors très simple de conclure que le flot

G (1) ( z ) = exp ( λ 1 t ( z – 1 ) ), G (2) ( z ) = exp ( λ 2 t ( z – 1 ) ) ∑ xn * (136)

et donc G Nt ( z ) = G (z ) G ( z ) = exp ( ( λ 1 + λ 2 )t ( z – 1 ) ) (133)

2.6.2.2 Lois à densité

2.6.3.2 Loi géométrique 3. Vecteurs aléatoires

3.1.1 Définition. Loi de probabilité ■ Attention

Si g est une application borélienne de d dans , alors PX ( B ) = B

E ( g ( X ) ) = P ( a 1 < X 1 b 1 )… P ( a d < X d b d ) (146) Si g est borélienne de d dans et g (X ) ∈ L 1 (Ω, , P ) alors :

La densité pX est alors reliée à la fonction de répartition FX par :

Si X possède une densité, alors chaque marginale possède une

L’inégalité de Schwarz donne : Notons que si A est une matrice d × d ( A ∈ d × d ) et b un vecteur

2 2 De même que dans le cas unidimensionnel, des dérivées partielles

Un calcul simple montre que : 2

ΦX est la transformée de Fourier de PX (au coefficient – 2π près) : 3.3.2 Caractérisation

et donc X ∈  ( E ( X ) , K X ). det KX = (det Q)2 (194)

4. Théorèmes limites 4.1.3 Loi faible des grands nombres

fondamentaux Sous les mêmes hypothèses que précédemment (§ 4.1.2), (Xn )

qui converge bien vers 0 lorsque n3 + ∞. X1 + … + Xn

4.1.5 Théorème fondamental de la statistique 4.2.1.1 Convergence en loi

4.2 Théorème de la limite centrale de d , de même loi PX et de carré intégrable, alors :

de ; elle sera notée ( ). Plus généralement si Ω est un espace

2.5.2.4 Lois gaussiennes = ′

et donc X ∈ ( E ( X ) , K X ). det KX = (det Q)2 (194)