Académique Documents
Professionnel Documents
Culture Documents
loppée d’abord pendant plus d’un siècle comme un calcul combinatoire : le calcul
des Probabilités. Vint ensuite la période d’application aux Probabilités de
l’Analyse mathématique qui venait d’être créée : cette période s’ouvre approxi-
mativement avec la parution en 1812 du très important « Traité analytique des
Probabilités » de Laplace. Enfin la période moderne, caractérisée par l’étude des
fonctions aléatoires, débute vers 1930 : dans les « Fondements de la Théorie des
A 560
Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
© Techniques de l’Ingénieur, traité Sciences fondamentales A 560 − 1
CALCUL DES PROBABILITÉS ______________________________________________________________________________________________________________
Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
A 560 − 2 © Techniques de l’Ingénieur, traité Sciences fondamentales
_____________________________________________________________________________________________________________ CALCUL DES PROBABILITÉS
Si An ∩ Am = ∅ dès que m ≠ n et ∪
n
A n = Ω , (An ) forme une • si A1 , ..., An sont deux à deux incompatibles, alors :
A ∈ ⇒ Ac ∈ (3) ∀A ∈ , 0 P (A ) 1 (9)
• est stable par union dénombrable : et P (Ω ) = 1 (10)
An ∈ , n ∈⇒∪ An ∈ (4) P (Ac ) = 1 – P (A ) (11)
n
Si (An ) est une suite d’événements incompatibles, alors :
On déduit facilement de ces trois axiomes que ∅ ∈ et que
est stable par intersection dénombrable.
est une σ-algèbre aussi appelée tribu d’événements. P
∪ A = ∑ P (A
n
n
n
n) (12)
À une expérience aléatoire nous avons associé l’ensemble des
éventualités Ω et la tribu d’événements , c’est-à-dire un espace La propriété (12) est appelée σ-additivité de P.
mesurable (Ω, ). Une probabilité P sur (Ω, ) est donc une mesure positive de
Terminons ce paragraphe par des exemples de tribus. masse totale égale à 1.
Dans le cas ou Ω est fini ou infini dénombrable, on aura Elle possède donc les propriétés d’une mesure comme, par
souvent : = ( Ω ). exemple :
La plus petite tribu possible {∅, Ω } est appelée la tribu triviale.
Si par exemple Ω = (non dénombrable), on pourra considérer la
tribu borélienne qui est la plus petite tribu contenant les intervalles
P
∪ ; A = lim ; P ( A
n
n
n
n) (13)
∪
constatons que NA /N (nombre de fois où A est réalisé divisé par le n
nombre d’expériences) fluctue de moins en moins autour d’une P Am = p 1 – p 2 + … + ( – 1 ) n – 1p n (16)
limite lorsque N augmente. C’est la loi empirique des grands m=1
nombres et nous appellerons probabilité statistique de A la limite
des fréquences statistiques NA /N. où pk = ∑ P ( A i1 ∩ … ∩ A ik )
1 i1 < … < ik n
Les propriétés de ces fréquences statistiques nous guideront pour
définir la notion de probabilité. Par la suite, nous démontrerons la Pour démontrer cette formule, on peut utiliser
loi des grands nombres, qui peut être considérée comme la version
théorique de la loi empirique. n
* = 1– ∏ ( 1 – * Am ) (17)
Un autre objet particulièrement intéressant est formé par les fluc-
∪A
n
m m=1
tuations de NA /N autour de sa limite quand N augmente ; l’étude m=1
de ces petites fluctuations fera l’objet du paragraphe 4.2 consacré
au théorème de la limite centrale. où * A est la fonction indicatrice de l’événement A, c’est-à-dire que
* A ( ω ) = 1 si ω ∈ A et * A ( ω ) = 0 si ω ∉ A . ( Ω , , P ) s’appelle un
■ Propriétés des fréquences statistiques : espace de probabilité ou espace probabilisé.
NA Notons que sur (Ω, ) il existe beaucoup de probabilités diffé-
• pour tout A ∈ , 0 -------- 1 (5) rentes et que l’on peut résumer ce paragraphe 1.1 en disant :
N
NΩ
• -------
- = 1 (6)
N
« Une expérience aléatoire se décrit mathématiquement par
NAc NA la donnée d’un espace de probabilité (Ω, , P ) ».
• N A c = N – N A et donc --------- = 1 – -------
- (7)
N N
Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
© Techniques de l’Ingénieur, traité Sciences fondamentales A 560 − 3
CALCUL DES PROBABILITÉS ______________________________________________________________________________________________________________
1.2 Calcul combinatoire des probabilités Dans le cas n N , on définit aussi les sous-populations de taille n
de S. Il s’agit ici d’un sous-ensemble de S comportant n éléments dis-
tincts pour lequel l’ordre n’intervient pas.
1.2.1 Probabilités sur un espace fini
ou infini dénombrable Le nombre de telles sous-populations est égal au nombre d’échan-
tillons de taille n (sans remise) divisé par n ! qui est le nombre de bijec-
Dans ce paragraphe, nous considérons le cas où l’espace Ω est tions d’un ensemble à n éléments, soit :
fini ou infini dénombrable ; Ω sera toujours muni de la tribu de ses n
A
parties = ( Ω ) . En particulier un singleton {ω } est un événe- N! n
card ( Ω ) = ------N- = ----------------------------- = C N (20)
ment et, grâce à la propriété (12), la donnée d’une famille finie ou n! n ! (N – n) !
infinie dénombrable {p (ω ), ω ∈ Ω } de nombres compris entre 0 et Ce nombre est aussi appelé le nombre de combinaisons de
1 tels que ∑ p ( ω ) = 1 définit une probabilité P sur (Ω, ) par : n éléments parmi N avec 0 n N .
ω∈Ω
Ce sont les coefficients de la formule du binôme :
∀A ∈ , P ( A ) = ∑ p ( ω ) (18)
N
ω∈A
∑
n
( a + b )N = CN a n b N – n (21)
On peut interpréter p (ω ) comme le poids attribué à l’éventualité ω. n=0
Dans le cas d’un ensemble Ω fini, un exemple important est la Le lien est très visible en écrivant :
probabilité uniforme pour laquelle chaque éventualité a le même
poids. Si card désigne le cardinal d’un ensemble, on a alors : N N
1 card ( A )
∏ ( 1 + tj ) = ∑ ∑ t i1 ... t in (22)
p ( ω ) = ----------------------- et P ( A ) = ----------------------- (19) j=1 n = 0 i 1 , ..., i n
card ( Ω ) card ( Ω )
qui donne pour tous les t j égaux entre eux :
Cette probabilité traduit mathématiquement l’expression usuelle
N
au hasard.
∑
n
( 1 + t )N = CN t n (23)
n=0
1.2.2 Échantillons et sous-populations.
n
Loi hypergéométrique Le coefficient binomial C N peut aussi être vu comme le nombre de
partitions distinctes d’une population S de taille N en deux sous-popu-
1.2.2.1 Tirages. Coefficients binomiaux lations complémentaires de tailles n et N – n.
Soit S = {s1 , s 2 , ..., sN } une population de taille N (formée de Plus généralement, si n 1 + n 2 + ... + n k = N, on définit le coefficient
N éléments distincts). multinomial :
Un échantillon de taille n extrait de cette population est une suite N!
--------------------------------------- (24)
n 1 ! n 2 ! ... n k !
ordonnée ( s i1 , ..., s in ) de n éléments de S. Il faut distinguer deux
manières de tirer un échantillon. qui est le nombre de partitions distinctes d’une population S de taille
N en k sous-populations complémentaires de tailles n 1 , n 2 , ..., n k .
■ Tirage avec remise (ou remplacement, ou replacement)
On note aussi que :
La suite ( s i1 , ..., s in ) peut alors comporter plusieurs fois le même
N!
∑
n n
élément. Ω étant l’ensemble de ces tirages possibles, on a : ( t 1 + ... + t k ) N = -------------------------- t 1 1 ... t k k
n 1 , ..., n k
n 1 ! ... n k !
card (Ω ) = N n et faire un tirage au hasard signifie que nous munis-
sons Ω de sa probabilité uniforme. n 1 + ... + n k = N
(25)
■ Tirage sans remise (avec n N ) 1.2.2.2 Loi hypergéométrique
On a alors :
Nous sommes toujours dans le cas Ω fini ou infini dénombrable
n N! et nous allons considérer des applications X de Ω dans que nous
card (Ω ) = N (N – 1) ... (N – n + 1) = A N = ----------------------
(N – n) ! appellerons des variables aléatoires entières. Cette notion sera
n généralisée au paragraphe 2.
un tirage est ici un arrangement et A N le nombre d’arrangements
de n éléments parmi N. À une probabilité P sur Ω (toujours muni de = ( Ω ))
Là aussi un tirage au hasard signifie la probabilité uniforme correspond son image par X sur , c’est-à-dire une probabilité PX
sur Ω. sur définie par les nombres PX (k ) = P {ω ∈ Ω, X (ω ) = k } pour
k ∈ .
Exemple
Dans le cas avec remise, soit l’événement : Ces nombres sont aussi notés succinctement P {X = k } et la pro-
babilité ainsi définie sur est aussi appelée la loi de la variable
A = {échantillons formés d’éléments tous distincts} aléatoire entière X.
bien sûr si n > N, alors P (A) = 0. Soit S une population de taille N formée de deux types d’éléments
Si n N : en nombres respectifs N1 et N 2 avec N1 + N 2 = N. On considère
Ω l’ensemble des sous-populations ω de taille n et l’on munit Ω de
card ( A ) N (N – 1) … (N – n + 1) N! sa probabilité uniforme.
P ( A ) = --------------------
- = ---------------------------------------------------------------
- = ----------------------------n-
Nn Nn (N – n) !N D’après (19) et (20) nous avons :
N!
Dans le cas particulier n = N, P ( A ) = -------N qui tend vers 0 lorsque N card ( A )
augmente. N P ( A ) = -----------------------
n
(26)
CN
Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
A 560 − 4 © Techniques de l’Ingénieur, traité Sciences fondamentales
_____________________________________________________________________________________________________________ CALCUL DES PROBABILITÉS
Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
© Techniques de l’Ingénieur, traité Sciences fondamentales A 560 − 5
CALCUL DES PROBABILITÉS ______________________________________________________________________________________________________________
La limite de ce rapport, lorsque N augmente, est appelée la pro- 1.3.1.4 Formule de Bayes
babilité empirique de B conditionnelle en A et l’on a :
Supposons, comme au paragraphe 1.3.1.3, que nous ayons une
NB ∩ A N B ∩ A N suite exhaustive d’événements (An ) telle que P (An ) > 0 pour tout n
---------------- = -------------------------
- (30) et un événement B de probabilité strictement positive ; alors la
NA NA N
formule suivante, formule de Bayes (autrefois appelée : probabilité
ce qui nous conduit à la définition de la probabilité conditionnelle des causes), est une conséquence immédiate de (33) :
(§ 1.3.1.2). P ( B ∩ An ) P ( BA n ) P ( A n )
P ( A n B ) = ------------------------------ = ------------------------------------------------
- (34)
P (B )
1.3.1.2 Probabilité conditionnelle ∑ P ( BAj ) P ( Aj )
j
Étant donné un espace de probabilité (Ω, , P ), la probabilité de
l’événement B conditionnellement en l’événement A, notée P (B /A ) En statistique, on peut être amené à choisir parmi une suite
est définie par : exhaustive d’événements (An ) (aussi appelés hypothèses) sachant
P (B ∩ A) que l’événement B est réalisé ; une règle de décision bayesienne
P ( BA ) = ------------------------- (31) consistera à maximiser P (An /B ), c’est-à-dire à retenir le (ou les)
P (A)
An les plus plausibles au vu de la réalisation de B ; la formule de
pourvu que P (A ) > 0. Bayes nous permet de calculer ces quantités P (An /B ) connaissant
P (B /A ) se lit aussi « probabilité de B sachant A ». Il est très facile bien sûr les probabilités P (B/An ) et P (An ) pour tous les n.
de vérifier que P (. / A ) définit bien une nouvelle probabilité
sur (Ω, ) ; pour cela il suffit de vérifier les propriétés (9), (10), (11) 1.3.2 Indépendance
et (12) en utilisant la définition (31).
1.3.2.1 Événements indépendants
Exemple
Soit A un événement de probabilité strictement positive sur
Si Ω est fini et P la probabilité uniforme :
l’espace ( Ω, , P ). Un événement B du même espace sera dit
P ( B ∩ A ) card ( B ∩ A ) indépendant de A si la probabilité de B n’est pas modifiée par la
P ( BA ) = -------------------------- = ---------------------------------- pour A ≠ ∅
P (A ) card ( A ) réalisation de A, c’est-à-dire si : P (B ) = P (B/A ) et donc si :
Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
A 560 − 6 © Techniques de l’Ingénieur, traité Sciences fondamentales
_____________________________________________________________________________________________________________ CALCUL DES PROBABILITÉS
L’indépendance se généralise à une suite (finie ou infinie) d’événe- Cette construction s’étend à une suite infinie d’expériences grâce
ments de la manière suivante : une suite (An ) d’événements d’un au théorème de Kolmogorov : on construit tout d’abord l’espace
espace ( Ω, , P ) sera dite indépendante si : ∞ ∞
produit Ω = X Ω i puis = ⊗ i définie comme :
P ( A i1 ∩ … ∩ A ik ) = P ( A i 1 ) ... P ( A ik ) (36) i = 1 i = 1
∞
X A ×
n
pour toute suite finie (i1 , ..., ik ) d’entiers deux à deux distincts. σ i X Ω j pour n 1 et A i ∈ i
i = 1 j = n+1
■ Attention, l’indépendance deux à deux n’implique pas l’indépen-
dance comme le montre l’exemple suivant : considérons une urne
contenant quatre boules numérotées 100, 010, 001 et 111 ; on tire une Alors la condition de compatibilité :
boule au hasard et l’on considère les événements : P1 ⊗ ... ⊗ Pn + 1 (A1 × ... × An × Ωn + 1) = P1 ⊗ ... ⊗ Pn (A1 × ... × An )
A1 = {1 au premier chiffre} A 2 = {1 au deuxième chiffre} (conséquence de (33)) assure l’existence d’une unique probabilité
A3 = {1 au troisième chiffre}
∞
1 P sur ( Ω , ), notée ⊗ P i , telle que :
on obtient : P ( A 1 ) = P ( A 2 ) = P ( A 3 ) = --- i = 1
2
1 P (A1 × ... × An × Ωn + 1 × Ωn + 2 × ...) = Pn (A1 × ... × An )
P ( A 1 ∩ A 2 ) = P ( A 1 ∩ A 3 ) = P ( A 2 ∩ A 3 ) = ---
4
= P1 (A1 )...Pn (An )
1 1
mais P ( A 1 ∩ A 2 ∩ A 3 ) = --- ≠ ---
4 8 En particulier cela nous permet de considérer la même
expérience répétée une infinité de fois de manière indépendante
1.3.2.2 Tribus indépendantes en choisissant tous les (Ωi , i , Pi ) égaux entre eux ; on a alors :
Soit ( n ) une suite (finie ou infinie) de sous-tribus de d’un ⊗ ⊗
Ω = Ω1 , = 1 et P = P 1 .
espace de probabilité ( Ω , , P ) ; pour chaque n , n ⊂ et n
est une tribu. Exemple
Nous dirons que la suite ( n ) est indépendante si pour toute
1
suite (An ) d’événements telle que A n ∈ n pour tout n, (An ) est Considérons Ω1 = {0, 1} avec P1({0}) = P1({1}) = --- , c’est-à-dire un
2
indépendante au sens de (36).
La tribu engendrée par une famille d’événements de est, par pile ou face équitable. On peut mettre en bijection Ω = Ω 1 avec
définition, la plus petite sous-tribu de contenant tous ces événe- l’intervalle de réels [0, 1) en considérant ω = (ω 1 , ω 2 , ...) comme l’écri-
ments.
∞ ω
En particulier, la tribu engendrée par un événement A de ,
notée σ (A ), est égale à {∅, A, Ac, Ω } et est réduite à la tribu triviale
ture dyadique d’un réel x =
∑ ------nn . Avec cette bijection, la tribu
n=1 2
si A = ∅ ou A = Ω.
⊗
On montre facilement que l’indépendance d’une suite d’événe- = 1 n’est autre, sur [0, 1), que la tribu engendrée par les inter-
ments (An ) est équivalente à l’indépendance de la suite de sous-tri- valles dyadiques, c’est-à-dire la tribu borélienne de [0, 1) : ([0, 1)). Il
bus (σ (An )). ⊗
est alors facile de constater que P = P 1 correspond sur [0, 1), muni
1.3.2.3 Expériences aléatoires indépendantes de ses boréliens, à l’unique mesure attribuant à chaque intervalle dya-
dique sa longueur ; c’est la mesure de Lebesgue sur [0, 1).
Considérons n expériences aléatoires décrites par les espaces de
probabilité (Ωi , i , Pi ) pour i = 1 à n.
1.3.3 Loi du 0-1
Il est utile de savoir construire un espace supportant ces n expé-
riences. Pour cela on peut considérer l’espace produit 1.3.3.1 Lemme de Borel-Cantelli
Ω = Ω1 × ... × Ωn dont un élément ω s’écrit (ω1 , ..., ωn ). On munit cet
espace de la tribu produit = 1 ⊗ … ⊗ n définie comme la plus
petite tribu de Ω contenant les ensembles A1 × ... × An pour tout a ) Pour toute suite infinie (An ) d’événements d’un espace de
A1 , ...., An dans 1 , …, n ; cela peut s’écrire : probabilité (Ω, , P ), on a :
= σ { A1 × … × An , Ai ∈ i , 1 i n } (37)
∑ P ( An ) < + ∞ ⇒ P lim
n
sup A n = 0 (40)
n
où le symbole σ (pour σ-algèbre) désigne la tribu engendrée
définie au paragraphe 1.3.2.2. c’est-à-dire qu’avec probabilité 1 ou P-presque sûrement (en
Nous voulons maintenant munir (Ω, ) d’une probabilité P telle abrégé P-p.s.) un nombre fini au plus de An sont réalisés.
que sa restriction à chaque (Ωi , i ) corresponde à Pi , c’est-à-dire b ) Si, de plus, la suite (An ) est indépendante, alors :
telle que :
P (Ω1 × ... × Ωi – 1 × Ai × Ωi + 1 × ... × Ωn) = Pi (Ai ) (38)
∑ P ( An ) = + ∞ ⇒ P lim
n
sup A n = 1 (41)
pour tout 1 i n et A i ∈ i . n
En général, il existe beaucoup de probabilités P vérifiant (38) ; c’est-à-dire que, dans le cas de l’indépendance,
elles décrivent les diverses dépendances pouvant exister entre
les n expériences.
P ( lim sup A n ) = 0 ou 1 suivant que la série
n
∑ P ( An ) est finie
n
On démontre toutefois qu’il n’en existe qu’une seule telle que ou non (d’où le nom de loi du 0-1).
pour tout Ai dans i :
P (A1 × ... × An ) = P1 (A1) × ... × Pn (An ) (39) La première partie de ce lemme est un outil précieux pour
démontrer qu’une propriété est vraie avec probabilité 1 ou presque
C’est celle-ci qui correspond à l’indépendance des n expériences ; sûrement.
nous la noterons :
P = P1 ⊗ ... ⊗ Pn
Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
© Techniques de l’Ingénieur, traité Sciences fondamentales A 560 − 7
CALCUL DES PROBABILITÉS ______________________________________________________________________________________________________________
∑ P ( An ) < + ∞ ⇒ ∑
Ω
*A d P < + ∞
n
possibles d’une expérience aléatoire ; dans le cas du lancer d’une
pièce on pourra, par exemple, décider que pile vaut 0 et que face
∑
n n vaut 1 ; dans le cas du bruit thermique (§ 1.1.1.1), on pourra observer
⇒ * An d P < + ∞ ⇒ ∑ * An est P -intégrable pendant l’expérience l’énergie d’une trajectoire ω, soit la quantité
Ω t2
n n
2
ω ( t ) dt . On s’intéressera aux ensembles de ω pour lesquels ces
⇒ ∑ * An < + ∞ P -presque sûrement t1
n valeurs numériques sont, par exemple, dans un intervalle de réels
donné. Nous demanderons que ces ensembles d’éventualités soient
des événements de manière à pouvoir, par la suite, calculer leurs
soit (40) puisque lim sup A n = ∑ * An = + ∞ . probabilités.
n n
■ Pour b ) : si, de plus, (An ) est indépendante :
2.1.1 Définition d’une var
∑ P ( An ) = + ∞ ⇒ ∑ P ( An ) = + ∞ pour tout p 1
np
n
Soit (Ω, ) un espace probabilisable et muni de la tribu de
ses boréliens ( ), engendrée par les intervalles. Une variable
c
P ( Ap ∩ … ∩ Acp + k ) c
= P ( A p )… P ( A p + k )
c
par indépendance
aléatoire réelle (var) est une application mesurable de (Ω, )
dans ( , ( ) ) , c’est-à-dire une application X de Ω dans telle
En faisant tendre k vers l’infini, on a : que, pour tout borélien B de , X –1 (B ) = {ω ∈ Ω, X (ω ) ∈ B }
+ ∞ appartienne à .
∩A =
+ ∞
∏ P ( An )
c c
P n
n=p n=p Remarquons que cette définition ne fait pas intervenir de proba-
bilité P. Les variables aléatoires réelles seront notées X, Y, ... ; l’évé-
D’autre part :
nement X –1 (B ) est aussi noté {X ∈B } où l’on oublie ω. Pour vérifier
la mesurabilité de X, il suffit de vérifier que X –1 (B ) ∈ pour tout
+ ∞ + ∞ + ∞
B dans un système générateur de ( ) ; en prenant, par exemple,
∏ P ( An ) ∏ ( 1 – P ( An ) ) exp ∑
c
= – P ( An ) = 0 l e s i n t e r v a l l e s d e , i l s u f fi r a d e v é r i fi e r q u e
X –1 ((a, b ]) = { ω ∈ Ω , a < X ( ω ) b } = { a < X b } ∈ pour tout
n=p n=p n=p
lim sup A n = ∩ . ∪ An ⇒
n p np 2.1.1.1 Tribu engendrée par une var
P lim sup A n = lim . P
n∪ An = 1 Il est facile de démontrer, en revenant à (2), (3) et (4), que
n p p { X –1 ( B ) , B ∈ ( ) } forme une sous-tribu de lorsque X est une
var ; c’est en fait la plus petite sous-tribu de par rapport à laquelle
X est mesurable ; nous l’appellerons la tribu engendrée par X et nous
1.3.3.2 Une application la noterons σ (X ). Intuitivement, σ (X ) représente l’information
Reprenons l’exemple du paragraphe 1.3.2.3, une suite infinie portée par X puisque celle-ci est formée des événements de que
indépendante de piles ou faces équitables. Soit An l’événement l’on va pouvoir obtenir par des mesures sur X de la forme
X –1 ( B ) pour B ∈ ( ) .
1
{obtenir Face au n -ième lancer} ; P ( A n ) = --- pour tout n implique
2 Exemple
Soit A un événement de ; X = * A définit une var qui vaut 1 si
∑ P ( An ) = + ∞ ; la suite (An ) étant indépendante, (41) implique ω ∈ A et 0 sinon.
n
P lim sup A n = 1, c’est-à-dire que presque sûrement une infinité On a bien sûr X –1 (B ) = ∅ si B ne contient ni 0 ni 1, X –1 (B ) = A si B
n contient 1 mais pas 0, X –1 (B ) = A c si B contient 0 mais pas 1 et
de faces apparaîtront. Cela n’est pas surprenant puisque n’obtenir c
qu’un nombre fini de faces correspond à un nombre dyadique de X –1 (B ) = Ω si 0 et 1 sont dans B. Finalement σ ( * A ) = { ∅, A, A , Ω }
[0, 1) (dans la bijection établie au paragraphe 1.3.2.3) et nous qui est aussi σ (A ) rencontrée au paragraphe 1.3.2.2.
savons que les dyadiques forment un ensemble dénombrable de
mesure de Lebesgue nulle.
De même, on démontrerait que toute série finie de piles et faces,
donnée a priori, apparaîtra une infinité de fois avec une
probabilité 1.
Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
A 560 − 8 © Techniques de l’Ingénieur, traité Sciences fondamentales
_____________________________________________________________________________________________________________ CALCUL DES PROBABILITÉS
2.1.1.2 Fonctions d’une var ω , X ( ω ) appartient exactement à l’un des B k′ pour lequel
Soit X une var définie sur (Ω, ) et f une application borélienne k k
Y n ( ω ) = -----n- et f n ( X ( ω ) ) = -----n- . Définissons maintenant f par :
de dans , c’est-à-dire telle que f –1 ( B ) ∈ ( ) pour tout 2 2
B ∈ () .
Alors Y = f (X ) définit une nouvelle var ; en effet, pour tout lim f n ( x ) si cette limite existe
f (x ) = n3+ ∞ (44)
B ∈ ( ) , Y –1 ( B ) = ( f X ) –1 ( B ) = X –1 ( f –1 ( B ) ) ∈ ( ) . En fait, 0 sinon
puisque f –1( B ) ∈ ( ) , X –1 ( f –1 ( B ) ) ∈ σ ( X ), ce qui montre que
σ (Y ) ⊂ σ (X ). Cela peut se traduire intuitivement en disant qu’en f est borélienne puisque l’ensemble où (fn ) converge, égal à
observant une fonction de X on ne peut que perdre de l’informa- lim inf f = lim sup f , est borélien ; de plus :
tion par rapport à celle portée par X. Nous dirons aussi que n n
n
n
∈ ( ),
k k k+1
∈
–1
Y n ( ω ) = -----n- si Y (ω) -----n- , -----------
- (42) ∀B PX ( B ) = P ( X (B )) (45)
n
2 2 2
où, rappelons-le, X ( B ) ∈ .
–1
Yn est une var σ (X )-mesurable puisque pour tout B ∈ () :
Nous avons vu, au paragraphe 2.1.1.2, que si f est borélienne de
dans alors Y = f (X ) est une nouvelle var ; la loi de Y est alors
∪
∈ σ ( Y ) ⊂ σ ( X ) ⊂ (43) l’image de PX par f : pour tout B ∈ ( ),
–1 –1 k k+1
Y n (B ) = Y -----n- , -----------
n
-
k 2 2
k ∈ , -----n- ∈ B –1 –1
2 PY ( B ) = P ( Y (B )) = P((f X ) (B ))
–1 –1 –1
1 = P (X (f ( B ) ) ) = PX ( f (B ))
D’autre part, pour tout ω , Y ( ω ) – Y n ( ω ) < -----n- et donc :
2
On peut aussi utiliser la notation :
lim Y n ( ω ) = Y ( ω )
n 3 + ∞ PX = X P (46)
et écrire : P Y = Y P = ( f X ) P = f (X P ) = f PX (47)
k
Puisque Y n = -----n- ∈ σ ( Y ) ⊂ σ ( X ) , il existe un borélien de ,
2
2.1.2.2 Fonction de répartition d’une var
k –1 Parmi les ensembles générateurs de ( ) , les intervalles de la
Bk , tel que Y n = -----n- = X ( B k ) ; définissons B 0′ = B 0 , forme (– ∞, x] pour x ∈ vont jouer un rôle particulier.
2
Si X est une var :
B 1′ = B 1 \B 0 , B–′ 1 = B –1 \ ( B 0′ ∪ B 1′ ), B 2′ = B 2 \ ( B 0′ ∪ B 1′ ∪ B –′ 1 )
–1
etc., de sorte que les B k′ sont deux à deux disjoints, boréliens et P { X x } = P (X (( – ∞ , x ])) = P X (( – ∞ , x ]) = F X ( x ) (48)
k∪
c
f n ( x ) sur
∈
B k′
pour la définir sur tout . Par construction, fn lim F X (x ) = 0
x 2 – ∞
et lim F X ( x ) = 1
x 3 + ∞
(50)
Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
© Techniques de l’Ingénieur, traité Sciences fondamentales A 560 − 9
CALCUL DES PROBABILITÉS ______________________________________________________________________________________________________________
et PX
n∪ 1 (– ∞ , n ] = PX ( ) = 1 Si X et Y sont deux variables aléatoires réelles définies sur un
même espace (Ω, , P ), l’ensemble {X = Y } est dans ; en effet
FX est continue à droite (51) {X ≠ Y } =
r∈Q
∪ ({X < r < Y } ∪ {Y < r < X }) ∈ .
puisque
Nous dirons que X et Y sont presque sûrement égales si
P {X = Y } = 0. Cela définit une relation d’équivalence dont l’ensemble
lim F X (x n ) = lim P X ( (– ∞ , x n ] ) = P X
x n 2x xn 2 x x∩2 x (– ∞ , xn ]
n
des classes forment l’espace vectoriel L0 (Ω, , P ).
L’ensemble des var intégrables, au sens de (56), et modulo la
= P X ( (– ∞ , x ] ) = F X ( x )
relation d’équivalence d’égalité presque sûre, sera noté L1 (Ω, , P ).
(le fait d’avoir choisi des intervalles (– ∞, x ] fermés à droite implique
bien sûr cette propriété). 2.2.1.2 Intégrale par rapport à la loi d’une var
■ Réciproquement (49), (50) et (51) caractérisent les fonctions de Soit X une var sur (Ω, , P ) de loi PX .
répartition. Si g est une application borélienne de R dans R , alors Y = g (X )
Nous pouvons aussi remarquer l’existence de limites à gauche : est une nouvelle var ; si de plus Y est intégrable, Y ∈ L 1 ( Ω , , P ) ,
alors son intégrale se calcule par :
F X ( x 0– ) = lim F X (x ) F X ( x 0 ) (52)
x3x 0
x0
* ( – ∞ , x 0] ( x ) d FX ( x ) = d FX ( x ) = FX ( x0 ) – FX ( – ∞ ) = FX ( x0 )
2.2 Espérance mathématique R –∞
Ω
* A dP = P ( A ) (54)
2.2.2.1 Espérance d’une var
Si X est une var définie sur (Ω, , P ) et si g est borélienne telle
∈
Soit (An ) une partition de Ω, A n pour tout n 1 , et (yn )
une suite de nombres réels positifs ; ∑ y n * An définit une nouvelle
que Y = g (X ) soit intégrable, Ω
g ( X ) dP est la valeur moyenne de
n Y pondérée par la probabilité P ; nous l’appellerons espérance
variable aléatoire Y pour laquelle : mathématique (ou espérance tout court) et nous la noterons E (Y )
(ou EP (Y ) s’il est besoin de rappeler la probabilité utilisée), soit :
∑ yn ∑ yn P ( An )
Y dP = * An dP = (55)
Ω Ω
n n E (Y ) = Y dP = g ( X ) dP = g ( x ) P X ( dx ) (58)
Ω Ω R
est bien définie dans + ∪ { + ∞ } .
Dans le cas particulier où X ∈ L1 (Ω, , P ), on peut prendre
Par approximation, on définit alors
Ω
Y dP pour toutes variables g (x ) = x ; E (X ) est aussi appelée premier moment de X.
L’espérance est une forme linéaire sur L1 (Ω, , P ) ; c’est l’une
aléatoires positives sur + ∪ { + ∞ }. des propriétés fondamentale de l’intégrale :
Si, maintenant, Y est une var, |Y | est une var positive ; si
∀α , β ∈ R , ∀X , Y ∈ L 1 ( Ω , , P ) , E ( α X + β Y ) = α E ( X ) + β E ( Y ) (59)
Ω
Y dP < + ∞ , on définit alors : Une constante a
var et l’on a :
∈ R peut, bien sûr, être considérée comme une
Ω
Y dP = Ω
+
Y dP – Ω
Y –dP (56) E (a) = Ω
a dP = a Ω
dP = a (60)
Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
A 560 − 10 © Techniques de l’Ingénieur, traité Sciences fondamentales
_____________________________________________________________________________________________________________ CALCUL DES PROBABILITÉS
X ∈ L k ( Ω , , P ) ⇒ X ∈ L k ′( Ω , , P ) (65)
pour tout k ’ tel que 1 k ′ k . 2.3.2 Caractérisations de l’indépendance
Il suffit, pour cela, d’écrire : La propriété (71) n’est pas très commode à vérifier. Nous
k ′) k ′* k ′* pouvons la simplifier dans deux directions.
E( X = E( X {X 1} ) + E ( X {X > 1} )
2.3.2.1 Caractérisations ensemblistes
P { X 1} + E ( X k *{ X > 1} ) 1+E( X k)
Nous ne considérons qu’une suite finie (X1 , ..., Xn ) de var
puisque le cas de suites infinies s’y ramène. (X1 , ..., Xn ) est indé-
Le cas k = 2 est particulièrement important puisque L2 (Ω, , P )
pendante si, pour tout (B1 , ..., Bn ) appartenant à un système géné-
est un espace de Hilbert avec le produit scalaire 〈 X, Y 〉 L 2 = E ( XY ) rateur de ( ) , on a :
pour X et Y dans L2 (Ω, , P ). Une var de L2 (Ω, , P ) est dite de
carré intégrable. P ( X1 ∈ B1 , … , Xn ∈ Bn ) = P ( X1 ∈ B1 ) … P ( Xn ∈ Bn ) (72)
(à ne pas confondre avec σ (X ), la tribu engendrée par X ). (les fonctions continues bornées).
Notons que σX = 0 implique Var(X ) = 0 et donc que X = E (X ) P-p.s., E (h1 (X1) ... hn (Xn )) = E (h1 (X1)) ... E (hn (Xn)) (74)
c’est-à-dire que X est presque sûrement égale à une constante ;
inversement la variance d’une constante est nulle. Notons finalement Nous avons choisi, ici, des fonctions de b , d’autres choix sont
que :
possibles, comme celui que nous verrons au paragraphe suivant.
Var(aX + b ) = a 2 Var(X ) pour tous réels a et b (69) (74) s’obtient, dans un sens, en utilisant une approximation de * [ a, b ]
par une suite décroissante de fonctions continues bornées et, dans
2.2.2.4 Inégalité de Bienaymé-Tchebychev l’autre, en approchant les fonctions de b par des fonctions étagées
Var ( X )
Si X ∈ L 2 ( Ω , , P ), ∀ ε > 0 , P { X – E ( X ) ε } --------------------
ε2
- (70) ( de la forme ∑ ck *B k
, ck ∈ , Bk ∈ ( ) ) .
k
■ Démonstration
2
Var ( X ) = E ( ( X – E ( X ) ) ) = E ( ( X – E ( X ) ) 2 * { X – E ( X ) 2.3.3 Variance d’une somme
ε} )
n n
grossière nous sera utile dans la suite. On peut noter, par exemple,
la faible probabilité que X soit à plus de 10 écarts-types de sa Var ∑ Xk = ∑ Var ( X k ) + ∑ ∑ E ( ( X i – E ( X i ) ) ( X j – E ( X j ) ) )
i≠j
moyenne (prendre ε = 10 σX ). k=1 k=1 (75)
2.3 Var indépendantes E ((Xi – E (Xi )) (Xj – E (Xj ))) = E (hi (Xi ) hj (Xj )) (76)
Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
© Techniques de l’Ingénieur, traité Sciences fondamentales A 560 − 11
CALCUL DES PROBABILITÉS ______________________________________________________________________________________________________________
Les fonctions (hi ) sont continues mais non bornées ; (74) ne 2.4 Fonction caractéristique
s’applique pas directement mais le fait que Xi , Xj ∈ L 2 (Ω, , P )
nous permet d’obtenir :
2.4.1 Définition
E (hi (Xi ) hj (Xj )) = E (hi (Xi )) E (hj (Xj ))
Parmi les divers moyens de caractériser la loi PX d’une variable
dès que Xi et Xj sont indépendantes, de carré intégrable. aléatoire réelle X définie sur (Ω, , P ), il en est un particulièrement
D’autre part, E (hi (Xi )) = 0 pour tout i et donc : pratique : la transformée de Fourier de PX .
La fonction caractéristique de X est la fonction ΦX (u ), de la
∑
n n
variable réelle u, définie par :
( X 1 , … , X n ) indépendante ⇒ Var Xk = ∑ Var ( X k ) (77)
Attention, la réciproque est fausse en général. C’est la transformée de Fourier de PX (à un coefficient – 2π près) ;
elle est définie pour tout u ∈ et vérifie :
Nous avons vu au paragraphe 1.3.2.3 que des expériences indé- De manière plus probabiliste, ΦX (u) est l’espérance de la variable
aléatoire complexe exp (iuX ) (définie simplement comme l’espé-
pendantes ( Ω 1 , 1 , P 1 ) , … , ( Ω n , n , P n ) peuvent être définies rance de la partie réelle plus i fois l’espérance de la partie
sur le même espace (Ω, , P ), en choisissant Ω = Ω1 × ... × Ωn , imaginaire) :
= 1 ⊗ … ⊗ n et P = P1 ⊗ ... ⊗ Pn . Considérons une suite ΦX (u) = E (exp iuX ) (84)
(X1 , ..., Xn) de var telles que pour tout i = 1, ..., n, Xi ne dépend que On démontre l’injectivité de la transformée de Fourier,
de la i-ième expérience, c’est-à-dire : c’est-à-dire que la fonction caractéristique caractérise entièrement
Xi (ω) = Xi (ω1 ,..., ωn ) = Xi (ω i ) (78) la loi P X de X.
Une application simple du théorème de convergence dominée
Les var X1 , ..., Xn sont alors bien indépendantes puisque pour montre que ΦX est continue en 0 ; en effet, pour toute suite (un )
tout borélien B1 , ..., Bn de : allant vers 0, on a exp ( iu n x ) 1 et la fonction 1 est
P (X1 ∈ B1 , ..., Xn ∈ Bn ) = P {ω ∈ Ω, X1 (ω1) ∈ B1 , ..., Xn (ωn) ∈ Bn } PX -intégrable ; on a alors :
= P1 (X1 ∈ B1) ... Pn (Xn ∈ Bn ) = P (X1 ∈ B1) ... P (Xn ∈ Bn )
lim Φ X ( u n ) = lim
n n
exp ( iu n x ) P X ( dx )
PX = ∑ pk δx k
avec pk > 0 et ∑ pk = 1 (79)
k k
2.4.2 Fonction caractéristique et moments
δx désignant la masse de Dirac en x et pk = P {X = xk }. Nous avons
vu, au paragraphe 2.1.2.2, que PX ne peut charger au plus qu’un Les dérivées en 0 de la fonction caractéristique de X sont liées
ensemble dénombrable ; avec la définition (79), (x k ) est exacte- aux moments de X (si ceux-ci existent).
ment l’ensemble des points chargés par P X .
Par exemple on a :
La loi de X est alors entièrement caractérisée par la donnée des
(xk ) et des pk . X ∈ L 1 ( Ω , , P ) ⇒ Φ X dérivable en 0 et ΦX′ ( 0 ) = i E ( X ) (86)
Soit (X1 , ..., Xn ) des var discrètes avec :
C’est encore une application du théorème de convergence
(i ) (i )
P Xi = ∑ pk δ xk (80) dominée :
k
exp ( i uX ) – 1
L’indépendance de ces variables s’écrit alors :
1 1
--- ( Φ X ( u ) – Φ X ( 0 ) ) = --- ( E ( exp ( i uX ) – 1 ) = E --------------------------------------
u u u
(1)
( X 1 , … , X n ) indépendante ⇔ P ( X 1 = x k1 , … , X n = x kn )
(n)
=
exp ( i ux ) – 1
------------------------------------- P X ( d x )
u
(1) (n)
= P ( X1 = x k1 ) … P ( X n = x kn ) (81)
Or exp ( i ux ) – 1
(1)
= p k 1 … p kn
(n) ------------------------------------- i x = x qui est PX -intégrable si :
u
X ∈ L1 ( Ω , , P )
Remarquons finalement que si g est une fonction de
∑ g ( xk ) pk pourvu que ∑
dans , E ( g ( X ) ) = g ( xk ) pk < + ∞ . On a donc :
k k
exp ( i ux ) – 1
En particulier mp ( X ) = E ( X p ) = ∑ ( xk ) p pk
k
pourvu que
u→0
1
lim --- ( Φ X ( u ) – Φ X ( 0 ) ) =
u u→0 u
lim ------------------------------------- P X ( d x )
X ∈ Lp ( Ω , , P ) soit ∑
k
xk p
p k où p est un entier. =
i x PX ( d x ) = i
x PX ( d x ) = i E ( X )
Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
A 560 − 12 © Techniques de l’Ingénieur, traité Sciences fondamentales
_____________________________________________________________________________________________________________ CALCUL DES PROBABILITÉS
ΦaX + b (u ) = E (exp (iu (aX + b ))) = exp (iub) E (exp (iuaX )) 2.5.1.3 Nombre de succès. Loi binomiale
= exp (iub ) ΦX (au ) (90)
Soit Nn le nombre de succès au cours des n premières
épreuves ; on a :
Nn = X1 + X2 + ... + Xn (98)
2.4.3 Somme de variables indépendantes
du fait du choix des valeurs 0 et 1 pour les (Xi ).
Soit (X1 , ..., Xn ) une suite de var indépendantes définies sur On obtient alors la fonction génératrice de Nn :
(Ω, , P ). On s’intéresse ici à la loi de la somme X1 + ... + Xn ; la
fonction caractéristique est parfaitement adaptée à cette question. G Nn ( z ) = ( G X ( z ) ) n = ( pz + 1 – p ) n (99)
On a :
par le même calcul que (91) (92) et l’utilisation de (97)
Φ X1 + … + Xn ( u ) = Φ X1 ( u )… Φ Xn ( u ) (91)
La formule du binôme donne :
En effet : n
∑ C n ( pz ) k ( 1 – p ) n – k
k
Φ X1 + … + Xn ( u ) = E ( exp ( i u ( X 1 + … + X n ) ) ) G Nn ( z ) = (100)
k=0
= E (exp (iu X1) ... exp (iu Xn )) et donc :
k
P { Nn = k } = C n p k ( 1 – p )n – k , 0 k n (101)
= E (exp (iu X1)) ... E (exp (iu Xn )) par (74)
Nn suit donc une loi binomiale (n, p) rencontrée au
En particulier, si les variables X1 , ..., Xn ont en plus même loi, paragraphe 1.2.3.1.
alors : Φ X1 = … = Φ Xn = Φ et : E (Nn ) = n E (X ) = np (102)
Φ X1 + … + Xn ( u ) = ( Φ ( u ) ) n (92) Var (Nn ) = n Var (X ) = np (1 – p) (103)
Ce résultat nous sera très utile pour le théorème de la limite cen- (103) étant obtenue par l’indépendance des (Xi ) et (77).
trale.
Notons que les variables ( N n1 , N n2 – N n1 , … , N nk – N nk – 1 ) sont
Notons finalement que d’autres transformations peuvent être
utiles : i n d é p e n d a n t e s d è s q u e 1 n1 < n2 < … < nk , p u i s q u ’ e l l e s
— pour des variables positives X (P {X < 0} = 0), on pourra dépendent d’ensembles disjoints de Xi .
considérer la transformée de Laplace de PX :
Nous dirons que ( N n ) n 1
est à accroissements indépendants.
GX ( z ) = E ( z X ) = ∑ z n P {X = n} (94)
2.5.1.4 Instants de succès. Loi géométrique
n
toujours définie pour z tel que z 1. Définissons les instants aléatoires suivants :
T0 = 0
2.5 Exemples de lois de probabilités T 1 = inf { n 1, X n = 1 }
…
2.5.1.1 Variables de Bernoulli (T 1 , T 2 , ...) décrit les instants successifs d’arrivées des succès dans
notre modèle de Bernoulli. (T 0 = 0 est une convention pratique.)
Ce sont des var ne prenant que deux valeurs que nous pren-
drons, ici, égales à 0 et 1. X est définie sur un espace (Ω, , P ) et
PX = p δ1 + (1 – p) δ0 où p sera supposé strictement compris entre
0 et 1 pour avoir de l’aléa :
P {X = 1} = p, P {X = 0} = 1 – p (95)
Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
© Techniques de l’Ingénieur, traité Sciences fondamentales A 560 − 13
CALCUL DES PROBABILITÉS ______________________________________________________________________________________________________________
= P { X 1 = 0 }… P { X m – 1 = 0 } P { X m = 1 } = p ( 1 – p ) m – 1 (106) E (g (X )) =
g ( x ) p X ( x ) dx (114)
T 1 suit une loi sur {1, 2, ...} que nous appellerons géométrique de
et, en particulier si g ( x ) = * [ a, b ] ( x ) :
paramètre p, notée Géo (p ). Ce nom est bien sûr lié à la série géo-
métrique utilisée pour vérifier : b
+∞ +∞ P {a X b} = pX ( x ) d x (115)
a
∑ P ( T1 = m ) = ∑ p ( 1 – p )m – 1 = 1
Une loi à densité ne charge aucun point.
m=1 m=1
X m1 + 1 = 0, … , X mk – 1 = 0 , X mk = 1 }
2.5.2.3 Lois exponentielles
appliquer l’indépendance des (Xi ) et trouver finalement : Ces lois sont importantes et apparaîtront naturellement au
paragraphe 2.5.3 comme limites de lois géométriques.
p ( 1 – p ) m1 – 1 …p ( 1 – p ) mk – 1 La loi exponentielle de paramètre λ > 0 ( (λ)) est la loi possé-
dant la densité :
qui est égal à : P {T 1 – T 0 = m1} ... P {T k – T k – 1 = mk }
p X ( x ) = λ exp ( – λ x ) * [ 0, + ∞) (x) (118)
En conclusion sur le modèle de Bernoulli, on peut remarquer
que celui-ci est caractérisé soit par les (Xi ), soit par (Nn ), soit par Une variable aléatoire exponentielle est donc positive. Sa fonc-
(Tk ) avec les lois que nous venons de trouver. tion caractéristique est donnée par :
Notons une propriété importante des lois géométriques (et en
fait les caractérisant) : ces lois sont sans mémoire, c’est-à-dire : λ
Φ X ( u ) = --------------- (119)
λ – iu
P ( T – n = m/T > n ) = p ( 1 – p ) m – 1 pour n 1 et m 1 (109) 1 1
et E ( X ) = ----- , Var ( X ) = -----2- (120)
Pour cela, il suffit d’appliquer la définition d’une probabilité λ λ
conditionnelle (31) et (106).
La loi exponentielle est sans mémoire :
2.5.2 Variables aléatoires à densité P { X – x y / X > x } = 1 – exp ( – λ y ) (121)
p X ( x ) 0 et
pX ( x ) d x = 1 (111)
= 1 – P { X > z } P { Y > z } = 1 – ( 1 – FX ( z ) ) ( 1 – FY ( z ) )
= 1 – exp ( – λ z ) exp ( – µ z ) = 1 – exp ( – ( λ + µ ) z )
FX est la primitive de pX s’annulant en – ∞ (112)
qui est la fonction de répartition d’une loi exponentielle de para-
De manière abusive, nous avons : mètre λ + µ.
PX (dx) = dFX (x) = P {x < X < x + dx } L’addition de variables exponentielles indépendantes de même
= FX (x + dx) – FX (dx) = pX (x) dx (113) paramètre donne lieu à des lois Gamma de fonction caractéristique :
λ
n
Φ n, λ ( u ) = --------------- pour λ > 0 et n 1 (123)
λ – iu
Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
A 560 − 14 © Techniques de l’Ingénieur, traité Sciences fondamentales
_____________________________________________________________________________________________________________ CALCUL DES PROBABILITÉS
La densité correspondante est : Cette formule n’est qu’un changement de variable ; pour toute
fonction h continue bornée de dans , on a :
λ n x n – 1 exp ( – λ x )
p n, λ ( x ) = ---------------------------------------------------- * [0, + ∞ ) ( x ) (124)
(n – 1) !
E (h (Y )) = E (h (g (X ))) = h ( g ( x ) ) p X ( x ) dx
Cela se généralise à des valeurs de n non entières.
Pour des variables de carré intégrable, la formule (89) nous
donne un développement à l’ordre 2 de In ΦX (u ) au voisinage de =
1
h ( y ) p X ( g –1 ( y ) ) × ------------------------------------
- dy
0 ne faisant intervenir que E (X ) et Var (X ). Les développements ′ g ′ ( g –1 ( y ) )
parfaits, c’est-à-dire avec un reste nul, correspondent aux lois
gaussiennes ou normales que nous noterons (m, σ 2), où = h ( y ) pY ( y ) d y
m = E (X ) et σ 2 = Var (X ). ′
On a donc :
qui identifie la densité pY .
1
X ∈ ( m, σ 2 ) ⇔ In Φ X ( u ) = i um – --- σ 2 u 2 Exemple
2
(125) Si Y = aX + b avec a ≠ 0, on a :
1
⇔ Φ X ( u ) = exp i um – --- σ 2 u 2
2 1 y–b
p Y ( y ) = ------ p X ----------------
a - (129)
Un calcul élémentaire de transformée de Fourier inverse (atten- a
tion au – 2π) donne dans le cas σ > 0 :
( x – m )2
1 2.5.3 Processus de Poisson
p X ( x ) = ----------------- exp – ---------------------
- (126)
2π σ 2σ 2
Ce paragraphe est la version en temps continu du modèle de
dont la représentation graphique donne la fameuse courbe de Bernoulli étudié au paragraphe 2.5.1 ; en effet n ∈ y jouait le rôle
Gauss (ou courbe en cloche), symétrique par rapport à la moyenne d’un temps discret. Supposons maintenant que nous effectuons nos
x = m. épreuves de Bernoulli aux instants n ε, n ∈ sur la demi-droite
Les lois normales seront capitales au niveau des applications réelle + , pour une petite échelle ε > 0. Alors, pour un t > 0 fixé, le
après avoir vu le théorème de la limite centrale.
nombre de succès arrivant avant t devient de plus en plus grand
X–m
En posant Z = ----------------- on obtient une variable normale centrée
σ ( lorsque ε 2 0 ) ; en moyenne il y en a : -εt- × p, où désigne la
réduite (suivant une loi (0, 1)) pour laquelle la fonction de répar-
tition F Z ( z ) =
1
z
x2
-------------- exp – -------- d x est tabulée ; ce qui permet
partie entière, puisque ce nombre suit une loi binomiale -εt- , p
–∞ 2π 2 d’après (101). Choisissons p de la forme ελ, avec λ > 0, de sorte que
d’obtenir des probabilités du type : ce nombre moyen converge, lorsque ε 20 , vers λt. Alors, exacte-
a–m b–m
P { a < X < b } = P --------------- < Z < ---------------
σ σ
(127)
ment comme au paragraphe 1.2.3.2, la loi -εt- , ελ converge
Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
© Techniques de l’Ingénieur, traité Sciences fondamentales A 560 − 15
CALCUL DES PROBABILITÉS ______________________________________________________________________________________________________________
Cela nous fournit une description alternative du processus de Sans rentrer dans le détail de ces générateurs, ni dans les tests
Poisson (N t ). Soit (Ω, , P ) un espace supportant une suite infinie statistiques utilisés pour les admettre, on peut dire que les nombres
X 1 , X 2 , ... de va indépendantes et de même loi exponentielle de pseudo-aléatoires fournis par la fonction RANDOM des ordinateurs
paramètre λ. sont en général excellents pour ce qui est de l’uniforme répartition ;
D’après le paragraphe 1.3.2.3, on peut prendre concernant l’indépendance, la périodicité fait apparaître des corré-
lations indésirables ; il existe d’autres générateurs de nombres
Ω = + , = ( + ) et P = ( λ exp ( – λ x ) * [0, + ∞ ) ( x ) d x ) ; pseudo-aléatoires et nous renvoyons pour cela à la référence [15].
posons maintenant T0 = 0, T1 = X1 , T2 = X1 + X2 , ...,
Tn = X1 + ... + Xn , ..., qui définissent nos instants d’arrivées. On
2.6.2 Principes généraux de simulation
montre alors, inversement, que N t = ∑ * { Tn t} (= nombre
n 1
Nous donnons dans ce paragraphe une manière générale de
d’arrivées avant t ) est un processus de Poisson d’intensité λ. simuler des lois discrètes ou des lois à densité ; pour certaines lois,
■ Exemple d’utilisation du processus (Nt ) il est préférable d’exploiter leurs propriétés propres ; nous en ver-
rons quelques exemples dans le paragraphe 2.6.3.
Supposons que nous ayons deux flots indépendants d’arrivées
poissonniennes de paramètres respectifs λ1 et λ2 . Soit On trouvera dans la référence [14] un exposé très complet sur la
simulation des var.
(1) (1) (2) (2)
0<T 1 <T 2 < … et 0 < T 1 < T 2 < … ; si l’on mélange ces deux
flots d’arrivées, on en obtient un nouveau en réappelant les arrivées 2.6.2.1 Lois discrètes
ordonnées 0 < T 1 < T 2 < ... ; il est alors évident que le nombre Soit X une variable aléatoire réelle discrète, c’est-à-dire qu’il
d’arrivées N t du flot global avant t est la somme des nombres existe ( x n ) ⊂ , des probabilités (pn ) strictement positives telles
d’arrivées des deux flots avant t :
(1) (2)
que ∑ pn = 1 et :
Nt = N t +Nt (132) n
Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
A 560 − 16 © Techniques de l’Ingénieur, traité Sciences fondamentales
_____________________________________________________________________________________________________________ CALCUL DES PROBABILITÉS
Exemple où nous avons utilisé (139) pour simuler des variables exponentielles
X est exponentielle de paramètre λ > 0 : indépendantes à partir de variables uniformes indépendantes (Uk ).
n
FX (x) = 1 – exp (– λx ) est bijective de [0, +∞) sur [0, 1)
On arrêtera donc la simulation dès que ∑ In Uk < – λ .
–1 1 k=1
F X ( u ) = – ----- In ( 1 – u )
λ
2.6.3.4 Loi gaussienne
et donc :
Pour simuler X ∈ (m, σ 2), il suffit de simuler Z ∈ (0, 1) et
1
– --- In ( 1 – U ) est exponentielle de paramètre λ > 0 (139) d’utiliser le changement de variable X = σ Z + m.
λ On pourrait alors appliquer le principe général du paragraphe
2.6.2.2.1 mais malheureusement nous n’avons pas une forme
1
Remarquons que – ----- In U a aussi la même loi.
λ z
explicite manipulable de F Z ( z ) =
–∞
1
x2
------------- exp – ------- d x .
2π 2
2.6.2.2.2 Méthode du rejet
En anticipant un peu sur le paragraphe suivant (vecteurs aléa-
Soit une loi à densité continue f de support compact [a, b ] et un toires), il est facile de montrer que si Z 1 et Z 2 sont deux variables
nombre M supérieur au maximum de f.
indépendantes de (0, 1), alors, en coordonnées polaires,
On simule un point aléatoire (U, V ) uniformément distribué dans Z 1 = R cos θ, Z 2 = R sin θ, les variables aléatoires R 2 et θ sont indé-
le rectangle [a, b ] × [0, M ] ; pour cela, il suffit de prendre
U = a + (b – a ) U 1 et V = MU 2 où U 1 et U 2 sont indépendantes uni- pendantes, et de plus, R 2 suit une loi exponentielle de paramètre
formes sur [0, 1]. 1
----- et θ est uniforme sur [0, 2π) ; inversement, pour simuler Z 1 , il
Si le point (U, V ) est sous le graphe de f, on l’admet et on pose 2
X = U ; si le point (U, V ) est au-dessus de ce graphe, on le rejette suffira de poser :
et on refait un tirage indépendant d’un nouveau point (U, V ) ; et 1
-----
ainsi de suite jusqu’à obtenir un point sous le graphe ; on Z 1 = ( – 2 In U 1 ) 2 cos ( 2 π U 2 ) (143)
démontre alors que la procédure est finie et que X obtenue a bien
la loi de densité f. où U 1 et U 2 sont indépendantes uniformes sur [0, 1].
Ce procédé se généralise au cas de densités portées par tout
et aussi au cas des vecteurs aléatoires étudiés au paragraphe 3.
2.6.4 Applications
2.6.3 Exemples
Il n’est pas possible, dans le cadre de cet article, de développer
2.6.3.1 Loi binomiale ce paragraphe. En quelques mots, disons simplement que l’on peut
appliquer des méthodes de simulations à des problèmes déter-
Pour X ∈ (n, p ), on pourrait appliquer le principe général du ministes ou à des problèmes intrinsèquement aléatoires. Pour le
paragraphe 2.6.2.1 ; par ailleurs, nous avons vu au paragraphe 2.5.1 premier type de problèmes, en général, les algorithmes obtenus sont
qu’une variable binomiale de paramètres n, p était obtenue comme moins rapides que les algorithmes déterministes mais peuvent
la somme de n variables indépendantes de Bernoulli de paramètre p. présenter l’avantage d’être très simples à programmer.
Grâce à (137), il suffit alors de simuler n variables uniformes sur Pour le deuxième type de problèmes, la simulation de l’aléa est
[0, 1], indépendantes et de poser : inévitable. Donnons simplement l’exemple des réseaux de files
n d’attente pour lesquels nous n’avons pas de formule explicite pour
X = ∑ *{ U k < p} (140) les régimes d’équilibre par exemple. La simulation sera alors un outil
précieux pour le dimensionnement de ces réseaux.
k=1
k
Remarquez que nous n’avons calculé aucun C n .
– --λ- In U > 1 – 1
1
X = inf n 1, ∑ k (142)
k=1
Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
© Techniques de l’Ingénieur, traité Sciences fondamentales A 560 − 17
CALCUL DES PROBABILITÉS ______________________________________________________________________________________________________________
même que pour les var, on peut choisir des ensembles pratiques
de fonctions g pour caractériser la loi de X : pX ( x1 , … , xd ) d x1 … d xd = pX ( x ) d x = 1 (152)
— pour g ( x ) = * ( a1 , b1 ] ( x 1 )… * ( ad , bd ] ( x d ) , on obtient : d d
— pour g ( x ) = g 1 ( x 1 )…g d ( x d ) et g i ∈ b ( → ) :
E (g (X )) = E (g1 (X1)...gd (Xd )) (147)
E (g (X )) = d
g ( x ) P X ( dx ) = d
g ( x ) p X ( x ) dx (153)
E ( X ) ∈ d , ( E ( X ) ) i = E ( X i ) , i = 1, … , d (148)
FX ( x ) = y1 x1
…
yd xd
pX ( y1 , … , yd ) d y1 … d yd (154)
Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
A 560 − 18 © Techniques de l’Ingénieur, traité Sciences fondamentales
_____________________________________________________________________________________________________________ CALCUL DES PROBABILITÉS
Comme au paragraphe 2.5.2.5, on s’intéresse à la question Pour la loi PX du vecteur X = (X1 , ..., Xd ), cela se traduit par :
suivante : connaissant la loi P X de X, calculer la loi P Y de Y = g (X ).
Lorsque X possède une densité et que g est bijective de d dans d P X ( B 1 × … × B d ) = P X 1 ( B 1 )…P Xd ( B d ) (163)
(d = d ’) et assez régulière, nous avons une formule
généralisant (128). soit P X = P X1 ⊗ … ⊗ P Xd (164)
Si g est bijective de d dans d continûment différentiable c’est-à-dire que P X est une loi produit, produit tensoriel de ses
ainsi que son inverse alors Y possède une densité donnée par : marginales.
pY (y ) = pX (g –1 (y )) |Jac g –1 (y )| (158) Si PX possède une densité pX sur d , nous savons que chaque
composante possède une densité sur ; on a alors :
∂ gi
où Jac g ( x ) = det
-------- ; 1 i , j d . On remarquera que si
∂ xj
( X 1 ,…,X d ) indépendantes ⇔ p X ( x 1 ,…,x d ) = p X1 ( x 1 )…p Xd ( x d ) (165)
1 en effet :
y = g (x ) alors Jac g –1 ( y ) = ------------------------------------------
-.
Exemple
Jac g ( g –1 ( y ) )
B 1 × … × Bd
p X1 ( x 1 )…p Xd ( x d ) dx 1 …dx d
■ Soit (X, Y ) un couple de var possédant une densité p (X, Y ) (x, y ) sur =
B1
p X1 ( x 1 )dx 1 …
Bd
p Xd ( x d ) d x d
2 (pour un couple, on écrit plutôt (X, Y ) que (X1 , X2 )). Quelle est la
densité de la var Z = X + Y ? = P X1 ( B 1 )… P Xd ( B d ) = P X ( B 1 × … × B d )
L’application (x, y ) → x + y de 2 dans n’est pas bijective et l’on
ne peut appliquer directement le résultat précédent. On peut consi- =
B 1 × … × Bd
pX ( x1 , … , xd ) d x1 … d xd
dérer g (x, y ) = (x, x + y ) qui est bijective de 2 dans 2 et aussi
régulière que souhaitée.
et ce, pour tout borélien B1 , ..., Bd de .
1 –1
g –1 ( u, v ) = ( x , y ) = ( u , v – u ) , Jac g –1 ( u , v ) = det =1
0 1 Exemple
Nous avons vu au paragraphe 3.1.2 que si (X, Y ) a une densité sur
et donc p(X, X + Y )(u, v) = p(X, Y ) (u, v – u) × 1 (159) 2 , alors X + Y a une densité sur donnée par :
Pour obtenir la densité de X + Y, il suffit de calculer la deuxième
marginale en intégrant par rapport à la première variable : pX + Y ( v ) = p ( X, Y ) ( u , v – u ) d u , d’après (160)
pX + Y ( v ) =
p ( X, X + Y ) ( u , v ) d u =
p ( X , Y ) ( u , v – u ) d u (160) Si de plus X et Y sont
p (X, Y ) (x, y ) = pX (x ) pY (y ) et donc :
indépendantes, alors
■ Concluons ce paragraphe par un exemple où le résultat général pré-
cédent ne s’applique pas : soit (X, Y ) un couple de var possédant une pX + Y ( v ) = pX ( u ) pY ( v – u ) d u = ( pX pY ) ( v ) (166)
densité p (X, Y ) sur 2 ; on peut alors définir le nouveau couple
le produit de convolution de pX et pY . Cela sera généralisé en utili-
(U, V ) = (inf (X, Y ), sup (X, Y )) ; l’application de 2 dans 2 qui à
sant les fonctions caractéristiques.
(x, y ) associe (inf (x, y ), sup (x, y )) n’est pas bijective.
Puisque U V , la loi P (U, V ) sera portée par { u v } ⊂ 2 . On 3.2.2 Covariance
a alors, pour u < v :
P {u < U < u + du, v < V < v + dv } 3.2.2.1 Rappel sur l’espérance
= P {u < X < u + du, v < Y < v + dv} L’espérance d’un vecteur aléatoire X d-dimensionnel a été
+P {u < Y < u + du, v < X < v + dv} définie au paragraphe 3.1.1.2. C’est une application linéaire de
= p (X, Y ) (u, v) du dv + p (X, Y) (v, u) du dv (161) 1 1
L d ( Ω , , P ) dans d si nous désignons par Ld ( Ω , , P )
et donc p(U, V )(u, v) = (p(X, Y ) (u, v) + p(X, Y ) (v, u)) * { u v } (162) l’ensemble des vecteurs aléatoires d-dimensionnels intégrables,
modulo la relation d’équivalence d’égalité P-presque sûre.
On remarque que :
Si 〈 . , .〉 désigne le produit scalaire de d , on a pour tout
P (U = V ) = P (X = Y ) =
2 * { x = y } p ( X, Y ) ( x,y ) dx dy = 0
vecteur a de d :
E (〈 a , X 〉 ) = 〈 a , E (X ) 〉 (167)
où la première espérance est un réel et la deuxième un vecteur
3.2 Indépendance. Covariance. de d .
Fonction caractéristique
3.2.2.2 Matrice de covariance
3.2.1 Indépendance Nous allons utiliser ici le calcul matriciel ; un vecteur de d est
une colonne et nous désignerons la transposition par l’exposant T ;
Nous avons vu au paragraphe 2.3 que les var X1 ,..., Xd sont si a ∈ d , a T est un vecteur ligne.
indépendantes si pour tout B 1 , … , B d ∈ ( ) : 2
Soit X un vecteur aléatoire de L d ( Ω , , P ) , c’est-à-dire que
P ( X 1 ∈ B 1 , … , X d ∈ B d ) = P X1 ( B 1 )… P Xd ( B d )
chaque composante est dans L 2 (Ω, , P ).
ou si pour tout h 1 , … , h d ∈ b ( → ) :
E (h1 (X1) ... hd (Xd )) = E (h1 (X1)) ... E (hd (Xd ))
Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
© Techniques de l’Ingénieur, traité Sciences fondamentales A 560 − 19
CALCUL DES PROBABILITÉS ______________________________________________________________________________________________________________
1/2 1/2
X i X j dP ( Xi )2 d P
2
(X j )dP (168) ΦAX + b (u) = exp (i 〈 u, b 〉) ΦX (ATu) (180)
Ω Ω Ω
d d d
Si Xi et Xj sont indépendantes, Cov (Xi , Xj ) = 0 mais la réciproque ΦX ( u ) = E ∏ exp ( i uk Xk ) = ∏ E ( exp ( i uk Xk ) ) = ∏ ΦX ( uk )
k
est fausse. Nous reviendrons sur ce point au cours de l’étude des k=1 k=1 k=1
vecteurs gaussiens (§ 3.3).
qui s’écrit Φ X = Φ X1 ⊗ … ⊗ Φ Xd (183)
La matrice de covariance du vecteur X de d est la matrice car-
rée d × d, notée KX , définie par :
K X = [ Cov ( X i , X j ) ] ( i , j ) ∈ { 1, … , d } 2 (173) 3.3 Vecteurs gaussiens
Cov (Xi , Xj ) étant l’élément se trouvant à la i-ième ligne et à la 3.3.1 Définition
j-ième colonne.
Les vecteurs gaussiens jouent un rôle essentiel dans les applica-
Cov (Xi , Xj ) = Cov (Xj , Xi ) ⇒ KX est symétrique (174)
tions. Nous les définissons de manière identique aux variables
KX est positive (175) gaussiennes, à partir de la formule (182).
Un vecteur aléatoire X d-dimensionnel est gaussien si sa fonc-
au sens où pour tout a de d , 〈 a , K X a 〉 0 ; en effet : tion caractéristique ΦX (u ) est de la forme :
∑
2
d
1
〈 a, K X a 〉 = E ak ( Xk – E ( Xk ) ) 0 Φ X ( u ) = exp i 〈 u , m〉 – --- 〈 u , Ku 〉 (184)
2
k=1
où m ∈ d et K est une matrice réelle d × d symétrique positive.
En notation matricielle, on a aussi : On a alors :
KX = (X – E (X)) (X – E (X))T (176) m = E (X ) et K = KX (185)
Si la suite (X1 , ..., Xd ) est indépendante, alors la matrice KX est On note la loi gaussienne, ou normale, par (m, K ).
diagonale mais, encore une fois, la réciproque est fausse en géné- Le seul point à vérifier est (185) ; cela réside dans le calcul
ral. simple :
1 ∂ ΦX
3.2.3 Fonction caractéristique --- ----------- = mk = E ( Xk ) (186)
i ∂u k u=0
∂2 ΦX
On généralise la définition du paragraphe 2.4.1 de la manière et -------------------
- = – Kk ,
– m
mk = – E ( Xk X
) (187)
suivante : ∂u k ∂u
u=0
la fonction caractéristique d’un vecteur aléatoire d-dimensionnel d’où l’on déduit (185).
X est la fonction complexe ΦX définie sur d par :
Une loi normale est donc entièrement caractérisée par sa
∀ u ∈ d , Φ X ( u ) = E ( exp ( i 〈 u , X 〉 ) ) = Ω
exp ( i 〈 u , X 〉 ) d P (177)
moyenne m et sa matrice de covariance K.
ΦX ( u ) = d
exp ( i 〈 u , x 〉 ) P X ( d x ) (178)
La caractérisation suivante est bien sûr équivalente à la
définition précédente :
Si X a une densité pX , on a alors : X ∈ ( m, N ) ⇔ ∀ u ∈ d , 〈 u, X 〉 ∈ (188)
ΦX ( u ) = d
exp ( i 〈 u , x 〉 ) p X ( x ) d x (179)
En d’autres termes, un vecteur est gaussien si et seulement si
toute combinaison linéaire de ses composantes est une variable
aléatoire normale.
Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
A 560 − 20 © Techniques de l’Ingénieur, traité Sciences fondamentales
_____________________________________________________________________________________________________________ CALCUL DES PROBABILITÉS
■ Démonstration ■ Démonstration
Supposons X ∈ ( m , K ) ; pour tout u ∈ d et t ∈ : Puisque K est définie positive, il existe une matrice de passage
Q telle que Q –1 KQ = I (identité).
Φ 〈 u, X 〉 ( t ) = E ( exp ( i t 〈 u , X 〉 ) ) = E ( exp ( i 〈 tu , X 〉 ) ) = Φ X ( tu )
Si Z = Q –1 X, on a : Z ∈ ( E ( Z ), I ). Par (190), ses composantes
1 sont indépendantes et donc Z possède la densité produit :
= exp i 〈 tu , m〉 – --- 〈 tu , Ktu 〉
2
d
= exp i 〈 u , m〉 t – --- 〈 u , Ku 〉 t
1
2
2 pZ ( z ) = ∏
k=1
1
1
-------------- exp – ----- ( z k – E ( Z k ) ) 2
2π 2
d
et donc 〈 u , X 〉 suit une loi ( 〈 u , m 〉, 〈 u , Ku 〉 ) d’après la – ---
définition (125). = (2π)
2
1
exp – ----- 〈 z – E ( Z ) , z – E ( Z )〉
2 (193)
Inversement, supposons que pour tout u ∈ d , 〈 u , X 〉 ∈ :
Le changement de variable Z = Q –1X donne alors :
Φ X ( u ) = E ( exp ( i 〈 u , X 〉 ) ) = Φ 〈 u , X 〉 ( 1 )
d
– -----
1
= exp i E ( 〈 u , X 〉 ) – ----- Var ( 〈 u , X 〉 )
2
( x ) = ( 2π )
2
1
exp – ----- 〈 Q –1 ( x – E ( X ) ) , Q –1 ( x – E ( X ) )〉
2 ⋅ det Q –1
= exp i 〈 u , E ( X ) 〉 – ----- 〈 u , K u 〉
1 par la formule (158).
2 X En remarquant alors que KX = QKZ QT = QQ T, on obtient :
■ Une conséquence simple est que les composantes d’un vecteur Finalement la formule :
gaussien sont des variables gaussiennes ; attention la réciproque
〈Q –1 (x – E(X )), Q –1 (x – E (X))〉 = 〈 x – E (X ), (Q –1)T Q –1 (x – E (X))〉
est fausse en général (§ 3.3.4).
= 〈x – E (X), (QQT)–1 (x – E (X ))〉
Par contre, si X1 ,..., Xd sont des variables aléatoires indépen-
–1
dantes gaussiennes, alors le vecteur X = (X1 , ..., Xd ) est gaussien ; = 〈 x – E ( X ), K X (x – E ( X ) ) 〉 (195)
en effet :
donne la formule (192) annoncée.
d
Φ X ( u ) = E ( exp ( i 〈 u , X 〉 ) ) = ∏ ΦX k
( uk ) ■ Dans le cas dégénéré, la loi de X est portée par un sous-espace
vectoriel de d , de dimension strictement inférieure à d, sur lequel
k=1
d elle admet une densité que l’on pourrait écrire si besoin était.
∏ exp i uk E ( Xk ) – ----2- Var ( Xk ) u k
1 2
=
k=1
3.3.4 Exemple
1
= exp i 〈 u , E ( X ) 〉 – ----- 〈 u , Ku 〉
2 (189)
Il s’agit en fait d’un contre-exemple montrant que les composantes
d’un vecteur aléatoire peuvent être gaussiennes sans que le vecteur
où K est diagonale avec Ki, i = Var (Xi ). soit gaussien et ce, même si les covariances sont nulles !
Inversement : Soit X une var gaussienne centrée réduite : X ∈ ( 0, 1 ) .
X ∈ ( m, K ) et K diagonale ⇒ ( X 1 , … , X d ) indépendantes (190) Pour a > 0, définissons Y de la manière suivante :
Y = X si X a
(196)
3.3.3 Densités Y = – X si X > a
Si X ∈ ( m, K ), K est une matrice réelle d × d symétrique posi- Par symétrie de la densité de X, on obtient facilement que
tive et il existe donc une base de d telle que, si P désigne la Y ∈ ( 0, 1 ).
matrice de passage : Le couple (X, Y ) n’est pas gaussien car X + Y est non dégénérée,
de loi portée par [– a, a] et donc non gaussienne.
P –1 KP = D où D est diagonale positive (191)
De plus Cov (X, Y ) = E (XY ) = E ( X 2 * { X a} ) – E ( X 2 *{ X > a} )
Si tous les éléments diagonaux de D sont strictement positifs
(c’est-à-dire si K est définie positive : 〈 u, Ku 〉 = 0 ⇒ u = 0), nous est une fonction continue de a, pour a > 0, égale à :
dirons que la loi de X est non dégénérée ; dans ce cas X a une den-
a +∞
sité sur d donnée par :
d
2
0
1
2π
x2
2
x 2 ------------ exp – -------- d x – 2 a
1
x2
x 2 -------------- exp – -------- d x (197)
2π 2
– -----
p X ( x ) = ( 2π )
2 1
1
× --------------------------- exp – ----- 〈 x – m , K –1 ( x – m )〉
det ( K ) 2 (192) et variant de – 1 à 1 ; cette covariance s’annule pour une valeur
de a > 0.
Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
© Techniques de l’Ingénieur, traité Sciences fondamentales A 560 − 21
CALCUL DES PROBABILITÉS ______________________________________________________________________________________________________________
X1 + … + Xn
4.1 Loi des grands nombres ∀ ε > 0, lim P
n3 + ∞ ----------------------------------
n
– E(X )
d
ε =0 (205)
Il s’agit, dans ce paragraphe, d’étudier le comportement asymp-
X1 + … + Xn X1 + … + Xn
totique d’expressions de la forme --------------------------------- où (Xn ) est une On dit aussi que ---------------------------------- converge en probabilité
n n
vers E (X ).
suite indépendante de vecteurs aléatoires de même loi sur d .
On se ramène encore au cas d = 1 et l’on utilise l’inégalité de
Bienaymé-Tchebychev (70) :
4.1.1 Somme de vecteurs aléatoires indépendants X1 + … + Xn
P ----------------------------------
n
– E(X ) ε
Soit (Xn ) une suite de vecteurs aléatoires indépendants de d ;
X +…+X X +…+X
nous avons vu au paragraphe 3.2.1 que la loi de la suite finie = P ---------------------------------- – E ----------------------------------
1 n 1 n
ε
(X1 ,..., Xn ) est obtenue comme le produit des lois des Xi : n n
X +…+X
------ Var ---------------------------------- = -----------------------
P ( X1 ,…, Xn ) = P X1 ⊗ … ⊗ P Xn (198) 1 1 n Var ( X )
(206)
ε 2 n nε 2
L’application de ( d ) n dans d , qui à (x1 , ..., xn ) associe la qui converge vers 0 lorsque n3 + ∞ et ε > 0 est fixé.
somme x1 + ... + xn , transforme ce produit en produit de
Notons que J. Bernoulli a obtenu, en 1685, la convergence en
convolution :
X1 + … + Xn
probabilité de ---------------------------------- vers p pour des variables de Bernoulli
P X1 + … + Xn = P X1 … P Xn (199) n
indépendantes de paramètre p introduites au paragraphe 2.5.1.1.
Si, pour tout n 1, Xn ∈ L 1 :
Le résultat suivant, loi forte des grands nombres, est beaucoup
E (X1 + ... + Xn ) = E (X1) + ... + E (Xn ) (200) plus récent.
Si, pour tout n 1, Xn ∈ L 2 :
K X1 + … + Xn = K X1 + … + K Xn (201) 4.1.4 Loi forte des grands nombres
Dans tous les cas, sous l’hypothèse d’indépendance : Nous venons de voir que, pour une suite indépendante équidis-
tribuée (Xn ) de vecteurs aléatoires de d , la moyenne arithmétique
Φ X1 + … + Xn = Φ X1 … Φ Xn (202)
X1 + … + Xn
--------------------------------
- n’est pas loin de E (X ) au sens de (203) ou (205).
Ces propriétés ont déjà été rencontrées pour des var, au n
paragraphe 2 ; elles sont une simple généralisation au cas vecto- En fait, nous avons un résultat beaucoup plus profond qui nous
riel. assure que, pourvu que X 1 ∈ L 1 ( Ω , , P ) :
X1 + … + Xn
4.1.2 Convergence L 2 ou en moyenne quadratique --------------------------------- → E ( X ) P-presque sûrement (207)
n n3 + ∞
Si (Xn) est une suite indépendante de vecteurs aléatoires de d Cela constitue la loi forte des grands nombres.
de même loi PX et si X ∈
2
Ld alors : La démonstration de (207) est un peu plus délicate que (203)
ou (205), tout du moins sous l’hypothèse minimale X 1 ∈ L 1 : nous
renvoyons à la bibliographie pour cela.
X1 + … + Xn
---------------------------------- – E(X ) = 0
2
lim E (203) On peut remarquer que si X 1 ∈ L 4, un calcul équivalent à (204) et
n3 + ∞ n d une application du lemme de Borel-Cantelli (§ 1.3.3) fournit une
démonstration de (207).
X1 + … + Xn
On dit aussi que ---------------------------------- converge L 2, ou en moyenne qua- ■ Retour à la loi empirique des grands nombres
n
dratique, vers E (X ). Considérons une expérience aléatoire répétée de manière indé-
Il suffit de démontrer (203) composante par composante, pendante une infinité de fois. Fixons un événement A et désignons
c’est-à-dire de se ramener au cas où d = 1 pour lequel on a : par X n la variable de Bernoulli qui vaut 0 ou 1 suivant que A n’a
pas ou a été réalisé à la n-ième épreuve.
= ------ ∑ (X – E (X ))
n 2 (Xn ) est une suite indépendante de var bornées, de même loi ;
X1 + … + Xn 2
1
E ---------------------------------- – E(X ) -E 2 k k nous pouvons lui appliquer la loi forte des grands nombres et
n n obtenir :
k=1
1
n
1 X1 + … + Xn
= ------2-
n ∑ Var ( Xk ) = ----n- Var ( X ) (204) ----------------------------------
n
→
n3 + ∞
E ( X 1 ) = P ( A ) P-presque sûrement (208)
k=1
Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
A 560 − 22 © Techniques de l’Ingénieur, traité Sciences fondamentales
_____________________________________________________________________________________________________________ CALCUL DES PROBABILITÉS
( f ∈ 0 ( d → ) ), d
f dµ n(ω) → d
f d P X lorsque n 3 + ∞
Nous avons vu que la fonction caractéristique ΦX (u) d’un
vecteur aléatoire X caractérise entièrement la loi PX de celui-ci.
En fait nous avons le résultat suivant :
Pour une fonction f, cette convergence est une application
directe de (207) aux variables f (X1), ..., f (Xn ) ; la difficulté de ce Loi
résultat réside dans le P-p.s. ( Xn ) → X ⇔ Φ Xn ( u ) → Φ X ( u ) pour tout u ∈ d (214)
n3 + ∞ n3 + ∞
X1 + … + Xn
Par exemple, la moyenne empirique M n = ---------------------------------- fournira qui nous indique qu’il suffit de vérifier la convergence ponctuelle
n de ( Φ Xn ) vers ΦX pour prouver la convergence en loi de (Xn )
un estimateur convergent de E (X ) pour X ∈ L 1 et la variance vers X.
n
1
empirique ---
n ∑ ( Xk – Mn ) 2 , un estimateur convergent de Var (X ) 4.2.2 Convergence vers la loi normale
k=1
n
1
pour X dans L 2. On lui préférera d’ailleurs -------------
n–1 ∑ ( Xk – Mn )2 qui ■ Théorème de la limite centrale
k=1
est sans biais dans le sens où son espérance est égale à Var (X ).
Soit ( X n ) n 1
une suite indépendante de vecteurs aléatoires
X1 + … + Xn
---------------------------------- – E (X )
Loi
4.2.1 Fluctuations et convergence en loi Zn = n → ( 0, K X ) (215)
n n3 + ∞
Le but de ce paragraphe est d’étudier la vitesse de convergence
dans la loi des grands nombres du paragraphe précédent (§ 4.1) ou, (Ce résultat a été obtenu au début du XVIIIe siècle par De Moivre,
plus précisément, d’étudier les fluctuations autour de 0 de la quantité dans le cas des variables de Bernoulli, en utilisant la toute nou-
velle formule de Stirling. Il est dû dans sa généralité à Laplace.
X1 + … + Xn
- – E ( X ) pour des vecteurs aléatoires indépendants équi-
-------------------------------- L’anglicisme théorème central limite est encore parfois
n employé).
distribués et de carré intégrable.
Prenons le cas d = 1 et considérons la variable aléatoire Z n définie ■ Démonstration
par :
D’après (214), il suffit de prouver que Φ Zn ( u ) converge ponctuel-
X1 + … + Xn
Zn = nα ----------------------------------
n
– E (X ) (211) 1
lement vers exp – ----- 〈 u , K X u 〉 qui est la fonction caractéristique
2
où α est un nombre positif.
d’un vecteur gaussien ( 0, K X ) (§ 3.3). Un calcul simple donne :
On a bien sûr E (Z n ) = 0 et un calcul simple montre que
Var (Z n ) = n 2α – 1 Var (X ).
1
Il nous faut choisir α = --- pour obtenir une limite significative,
1
2
u 2
n Φ Zn ( u ) = – ----- 〈 u , K X u 〉 + n ------------
n (216)
2
où le deuxième terme converge vers 0 lorsque n3 + ∞ .
X1 + … + Xn 1
c’est-à-dire que --------------------------------- – E ( X ) va vers 0 à la vitesse -------- . Dans le cas d = 1, le résultat s’énonce :
n n
soit ( X n ) n une suite indépendante de var, de même loi PX et de
Avec ce choix de α, on a déjà Var (Z n ) qui converge vers Var (X ) ; 1
on ne peut donc pas espérer une limite déterministe pour la carré intégrable telle que σX > 0, alors :
suite (Z n ).
n X1 + … + Xn
Loi
---------- ---------------------------------- – E (X ) → ( 0, 1 ) (217)
σX n n3 + ∞
Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
© Techniques de l’Ingénieur, traité Sciences fondamentales A 560 − 23
CALCUL DES PROBABILITÉS ______________________________________________________________________________________________________________
b
n X1 + … + Xn
x2
1 Rappelons les différents modes de convergence de la suite (Xn )
P a < --------- ------------------------------- – E (X ) < b → ------------ exp – ------- d x (218)
σX n n3 + ∞ a 2π 2 vers la variable X :
— convergence presque sûre :
pour tout a < b.
p.s.
En prenant a = – ε et b = ε on obtient : Xn →
n3 + ∞
X ⇔ P lim X n = X = 1
n (224)
+ε
P
X1 + … + Xn
-------------------------------
n
σX ε
– E ( X ) < ------------
n
→
n3 + ∞ –ε
1
x2
------------ exp – ------- d x (219)
2π 2
— convergence L 2 ou en moyenne quadratique :
Xn ∈ L 2 , ∀n 1 et X ∈ L2
Par exemple, dans un jeu de pile ou face, avec
m.q. (225)
1 1
p = --- , on a σ X = p ( 1 – p ) = ----- et l’on peut donc estimer des pro- Xn → X ⇔ lim E ( ( X n – X ) 2 ) = 0
n3 + ∞ n
2 2
babilités du type : — convergence en probabilité :
P nombre de Piles – ----- < r
n
2 (220)
Xn
Proba
→
n3 + ∞
X ⇔ ∀ ε > 0, lim P ( |X n – X | > ε ) = 0
n
(226)
r
en utilisant (219) avec ε = ------------------ .
σX n — convergence en loi :
4.2.3.2 Bruit gaussien Loi
Xn → X ⇔ ∀ g ∈ b , lim E ( g ( X n ) ) = E ( g ( X ) ) (227)
Les erreurs, dans une mesure physique par exemple, sont, en n3 + ∞ n
général, la somme de petites erreurs indépendantes.
On a alors le schéma suivant :
Supposons que ces erreurs X1 , ..., Xn soient des var indépen-
σ
dantes de même loi, centrées et d’écart-type d’ordre -------- .
n
Le théorème de la limite centrale nous dit qu’alors, pour n assez
grand, la loi de l’erreur totale X1 + ... + Xn est proche d’une
loi ( 0, σ ) .
Si a est la valeur exacte de la quantité à mesurer, la mesure sera
donc une variable aléatoire de la forme a + B où B ∈ ( 0, σ ) est
appelé le bruit.
p.s.
X1 + … + Xn -----------
P n
-– p ε
--------------------------------- ∼
ε n
σ
– -----------
1
x2
------------- exp – -------- d x (222)
2π 2
( Xn ) ∈ L 2 , Xn →
n3 + ∞
X et | X n | Y où Y ∈ L 2 ; alors (Xn ) converge
X1 + … + Xn 2ε n
Il est intéressant de noter le résultat suivant (on se restreint à
P ----------------------------------
n
–p ε
– 2ε n
1
x2
----------- exp – -------- d x (223)
2π 2 d = 1 mais il reste vrai pour d > 1).
Soit (Xn ) une suite de var gaussiennes qui converge en loi
ε étant donné, il ne reste plus qu’à choisir n de telle sorte que vers X ; alors :
l’intégrale dans (223) soit égale à 1 – α.
X est gaussienne (228)
Par exemple, pour ε = 0,02 et α = 0,01, on obtient n = 4 225.
Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
A 560 − 24 © Techniques de l’Ingénieur, traité Sciences fondamentales
_____________________________________________________________________________________________________________ CALCUL DES PROBABILITÉS
■ Démonstration (soit E H (Y ) ∈ H ), et :
E (Y (a0 + a1X1 + ... + an Xn ))
1
2
2
2
Φ Xn ( u ) = exp i um n – --- u 2 σ n où m n = E ( X n ) et σ n = Var ( X n ) = E ((α 0 + α1X1 + ... + αn Xn )(a 0 + a1X1 + ... + an Xn )) (233)
pour tout a 0 , a 1 , … , a n ∈ .
Φ Xn ( u ) → ΦX ( u ) implique la convergence des modules,
n3 + ∞ Notons par X le vecteur aléatoire (X1 , ..., Xn ), K X sa matrice de
2
c’est-à-dire la convergence de σ n vers un nombre positif σ 2. On covariance et Cov (Y, X ) la matrice colonne formée des éléments
Cov (Y, Xi ), 1 i n .
démontre alors que la suite (mn ) est bornée (le contraire implique-
L’unique solution de (233) est donnée par :
rait une perte de masse) ; en choisissant u assez petit, on obtient
la convergence de (mn ) vers un nombre (fini) m. E H ( Y ) = E ( Y ) + 〈 α , X – E ( X ) 〉 n (234)
1
On a donc Φ X ( u ) = exp i um – --- u 2 σ 2
2 ; soit X ∈ ( m , σ 2). où α ∈ n est une solution du système linéaire :
KX α = Cov (Y, X ) (235)
Les convergences p.s., m.q. ou en probabilité impliquant la
convergence en loi, on en déduit que si X n → X p.s., m.q. ou en Si de plus KX est inversible, alors α est uniquement déterminé
probabilité et Xn gaussienne ∀ n 1 , alors X est gaussienne. par :
–1
α = K X Cov ( Y , X ) (236)
et lois conditionnelles –1
E ( ( Y – E H ( Y ) ) 2 ) = Var Y – ( Cov ( Y , X ) ) T K X Cov ( Y , X )
5.1 Approximation det K ( X1 , … , Xn , Y ) (237)
= ---------------------------------------------
-
au sens des moindres carrés det K ( X1 , … , Xn )
EH (Y ) = α 0 + α1X1 + ... + αn Xn
Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
© Techniques de l’Ingénieur, traité Sciences fondamentales A 560 − 25
CALCUL DES PROBABILITÉS ______________________________________________________________________________________________________________
A
Y dP = A
E ( Y/ ) dP (243)
E ( ( Y – E H ( Y ) )2 ) E ( ( Y – E ( Y / X1 , … , Xn ) )2 ) (254)
5.1.2.5 Exemple
5.1.2.2 Propriétés Soient A et B deux événements de , avec P (A) > 0.
L’espérance conditionnelle possède des propriétés analogues à Calculons E ( * B /* A ) . C’est une var mesurable par rapport à
celle d’une espérance, bien que ce soit une va définie P-p.s.
σ ( * A ) = σ (A) = {∅, A, Ac, Ω } ; on a donc E ( * B /* A ) = α * A + β * A c
■ Linéarité
P-p.s. avec les conditions :
∀ X, Y ∈ L 2 ( Ω , , P ) , ∀ α , β ∈ ,
(244) E ( ( α * A + β * A c )* A ) = E ( * B * A )
E (αX + βY/) = αE (X/) + βE (Y/) P-p.s.
et E ( ( α * A + β * A c )* A c ) = E ( * B * A c ) (255)
■ Positivité
Ce système linéaire en α et β se résout et donne :
∀ Y ∈ L 2 ( Ω , , P ) telle que Y 0 P -p.s.,
E ( Y / ) 0 P -p.s. (245) E ( *B *A ) P (A ∩ B )
α = ----------------------- - = -------------------------- = P ( B/A )
P (A ) P (A )
Pour démontrer cette propriété importante il suffit de prendre E ( *B *Ac )
dans (243), A = { E ( Y/ ) a } pour a < 0 ; on a alors : P ( Ac ∩ B )
et β = ------------------------- = - = P ( B/A c )
----------------------------
P ( Ac ) P ( Ac )
0 A
Y dP = A
E ( Y / ) d P aP ( A ) soit E ( * B /* A ) = P ( B/A ) * A + P ( B/A c ) * A c P-p.s. (256)
et donc P (A ) = 0 pour tout a < 0 soit P ( E ( Y/ ) 0 ) = 1. Cette formule fait le lien avec les probabilités conditionnelles du
paragraphe 1.3.1.
Les propriétés suivantes se démontrent facilement :
X Y P -p.s. ⇒ E ( X / ) E ( Y / ) P-p.s. (246) 5.2 Espérance conditionnelle
1 ⊂ 2 ⇒ E ( E ( Y/ 2 )/ 1 ) = E ( Y/ 1 ) P-p.s. (247)
5.2.1 Généralisation aux variables positives
= ( ∅, Ω ) ⇒ E ( Y / ) = E ( Y ) P-p.s. (248)
ou intégrables
X ∈ L 2 ( Ω , , P ) ⇒ E ( XY / ) = XE ( Y / )
= lim ; E ( X
P-p.s. (252) E lim ; X n / n / ) (257)
n n
Nous considérons ici le cas particulier où est la tribu engen- E ( Y/ ) = lim ; ( Y ∧ n / ) P-p.s.
n
drée par un vecteur aléatoire X = (X1, ..., Xn ) défini sur
( Ω , , P ) ; est bien une sous-tribu de que nous avons notée Si, maintenant, Y ∈ L 1 (Ω, , P ), les parties positive et négative,
= σ (X1 ,..., Xn ) (§ 3.1.2). D’après le lemme de Doob (§ 3.1.2) Y + et Y –, sont des va positives et nous définissons :
toute variable aléatoire σ (X1, ..., Xn ) – mesurable s’écrit :
g (X1, ..., Xn ) pour une fonction borélienne de n dans . La E ( Y/ ) = E ( Y + / ) – E ( Y – / ) (258)
définition de l’espérance conditionnelle devient alors : pour
Y ∈ L2 ( Ω , , P ) : (Y étant intégrable, et Y+ Y–
le sont et les deux espérances
conditionnelles sont finies P-p.s.).
E (Y/σ (X1, ..., Xn )) est l’unique élément de L 2 (Ω, σ (X), P ), s’écri-
vant g (X1, ..., Xn ), tel que, pour toute fonction borélienne h de Les propriétés du paragraphe 5.1.2.2 sont alors conservées pour
n dans (bornées par exemple) : les variables de L 1 (Ω, , P ).
E (g (X1, ..., Xn ) h (X1, ..., Xn )) = E (Yh (X1, ..., Xn )) (253)
Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
A 560 − 26 © Techniques de l’Ingénieur, traité Sciences fondamentales
_____________________________________________________________________________________________________________ CALCUL DES PROBABILITÉS
la loi de Y est définie par la probabilité P Y sur d telle que soit h ( y ) p ( X, Y ) ( x , y ) d y = g ( x ) p X ( x ) (267)
d
∀ h ∈ b ( d → ) , E (h (Y )) =
d
h (y ) PY (dy ), la loi conditionnelle et donc g (x ) = d
p ( X, Y ) ( x , y )
h ( y ) ------------------------------------ d y
pX ( x )
(268)
de Y en X sera définie par une famille de probabilités sur d , indexée
sur l’ensemble {pX > 0}. On en déduit donc :
par x ∈ d ′ , notée PY/X (dy/x) et vérifiant :
p ( X, Y ) ( x , y )
∀ h ∈ b ( d → ) P Y/X ( dy/x ) = ------------------------------------ d y sur { p X > 0 } (269)
pX ( x )
g (x) = d
h (y) P Y/X (dy/x) est borélienne de d ′ dans et p ( X, Y ) ( x , y )
------------------------------------ est la densité conditionnelle de Y sachant X que
satisfait : pX ( x )
l’on note abusivement pY/X = x (y) et qui a l’interprétation intuitive
E (h (Y )/X ) = g (X) P-p.s. (260)
suivante :
′
Si P Y/X (dy/x) est une autre famille de probabilités sur d satis-
x < X < x + d x
faisant à (260), on a alors :
P y < Y < y + dy
B = { x ∈ d ′ , PY / X ( ./ x ) = P Y′ / X ( ./ x ) } ∈ ( d ′ )
Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
© Techniques de l’Ingénieur, traité Sciences fondamentales A 560 − 27
CALCUL DES PROBABILITÉS ______________________________________________________________________________________________________________
Pour tout v tel que 0 < v < 1, la densité conditionnelle de La loi conditionnelle de X (2), sachant X (1), est déterminée par sa
U sachant V = v est donc égale à : fonction caractéristique :
1
p U/V = v ( u ) = --- * [ 0, v ] ( u ) (271) Φ X ( 2 ) /X ( 1 ) ( u 2 ) = E ( exp ( i 〈 u 2 , X ( 2 ) 〉 ) / X (1) ) , u ∈ d 2 (278)
v
puisque pV (v ) =
p(U, V ) (u, v ) du = 2v* [ 0, 1 ] ( v ) et (269).
On veut donc montrer que cette fonction caractéristique est de
i 〈 u , AX
1
La loi conditionnelle de U sachant V est donc la loi uniforme sur la forme Φ X ( 2 ) /X ( 1 ) ( u 2 ) = exp (1) 〉 – ----- 〈 u 2 , Bu 2 〉 , ce
2 2
[0, V ]. On a par exemple :
qui caractérise une loi (AX (1), B ).
E ( U/V ) = g ( v ) où g ( v ) =
v
u p U / V = v ( u ) d u = ---
2
σ (X (1)) étant engendrée par {exp (i 〈u 1 , X (1) 〉), u 1 ∈ d 1 }, il suffit
de vérifier que :
V
soit E ( U/V ) = ---- P-p.s. (272)
2
1
E exp i 〈 u 2 , AX ( 1 ) 〉 – ----- 〈 u 2 , Bu 2 〉 exp ( i 〈 u 1 , X ( 1 ) 〉 )
2
= E (exp ( i 〈 u 2 , X ( 2 ) 〉 ) exp ( i 〈 u 1 , X ( 1 ) 〉 ) (279)
5.4 Conditionnement dans le cas
Cela se fait sans difficulté grâce à (276) et (277).
gaussien
X = = 0 1 X
La matrice de covariance KX de X s’écrit : Y X+B 1 1 B
(280)
X
K 11 K 12
KX = (273) est donc lui aussi un vecteur gaussien ; on peut appliquer le théo-
K 21 K 22
rème du paragraphe 5.4.1 avec X (1) = Y et X (2) = X.
T
où K 11 = K X ( 1 ) , K 22 = K X ( 2 ) et K 12 = K 21 = Cov ( X ( 1 ) , X ( 2 ) ) est une
K 11 K 12 Var ( Y ) Cov ( X , Y )
matrice d 1 × d 2 . K = =
K 21 K 22 Cov ( X , Y ) Var ( X )
Nous allons étudier la loi de X (2) conditionnellement en X (1).
Var ( X ) + Var ( B ) Cov ( X , X ) α2 + σ2 α2
■ Théorème = = (281)
Cov ( X , X ) Var ( X ) α2 α2
X (2) possède, conditionnellement en X (1), une loi gaussienne On a donc :
sur d2 , d’espérance et de covariance données par :
–1 α2
A = K 21 K = ---------------------
E (X (2)/X (1)) = E (X (2)) + A (X (1) – E (X (1))) (274) 11
α2 + σ 2
α2
Cov (X (2)/X (1)) = B (275) et E ( X/Y ) = s + ---------------------
- (Y – s) (282)
α2 + σ2
où A, de format d 2 × d 1 est telle que AK 11 = K 21 , et :
et l’erreur quadratique est donnée par :
–1
A = K 21 K (276)
11 α 2σ 2
E ((X – E (X/Y ))2) = E (Var (X/Y )) = B = ---------------------
- (283)
si K 11 est inversible et où B, de format d 2 × d 2 , est donnée par : α2 + σ2
B = K 22 – AK11 AT (277) Cet exemple est la forme la plus simple d’un problème très
général de filtrage.
■ Démonstration
En remplaçant X (1) par X (1) – E (X (1)) et X (2) par X (2) – E (X (2)),
on peut toujours supposer X centré.
Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
A 560 − 28 © Techniques de l’Ingénieur, traité Sciences fondamentales
_____________________________________________________________________________________________________________ CALCUL DES PROBABILITÉS
Références bibliographiques
Ouvrages d’introduction Ouvrages d’approfondissement [12] NEVEU (J.). – Martingales à temps discret.
aux Probabilités des outils mathématiques Masson (1972).
[13] DELLACHERIE (C.) et MEYER (P.A.). – Probabi-
[1] BOULEAU (N.). – Probabilités de l’ingénieur. [6] BOURBAKI (N.). – Éléments de mathéma- lités et potentiel. Théorie des martingales.
Variables aléatoires et simulation. Hermann tiques. Livre VI. Intégration. Hermann. Hermann (1975) et (1980).
(1986). [7] HALMOS (P.R.). – Measure theory. Van
[2] BREIMANN (L.). – Probability theory. Nostrand (1953).
Addison-Wesley (1968). [8] METIVIER (M.) et NEVEU (J.). – Théorie de la Ouvrages tournés vers la simulation
[3] FELLER (W.). – An introduction to Probability mesure et de l’intégration. Cours de l’École
theory and its applications. 2 volumes. Wiley Polytechnique. Édition (1983). [14] DEVROYE (L.). – Non-Uniform Random
(1957). [9] NEVEU (J.). – Bases mathématiques du calcul Variate Generation. Springer-Verlag (1986).
[4] METIVIER (M.). – Probabilités : Dix leçons des Probabilités. Masson (1984). [15] KNUTH (D.E.). – The art of computer. Vol 1.
d’introduction. Ellipses (1987). [10] RUDIN (W.). – Analyse réelle et complexe. Fundamental algorithms, Addison-Wesley,
[5] NEVEU (J.). – Introduction aux Probabilités. Masson (1987). Reading, Mass. (1968).
Cours de l’École Polytechnique – Édition [16] MORGAN (B.). – Elements of simulation.
(1990). Chapmann and Hall (1984).
Ouvrages d’introduction à la théorie [17] RUBINSTEIN (R.). – Simulation and the Monte
des martingales et des processus Carlo method. Wiley (1981).
stochastiques
Toute reproduction sans autorisation du Centre français d’exploitation du droit de copie est strictement interdite.
© Techniques de l’Ingénieur, traité Sciences fondamentales A 560 − 29