Vous êtes sur la page 1sur 36

Cours 9 : Les principales lois de probabilité (suite)

Feriel Bouhadjera
feriel.bouhadjera@lecnam.net

CNAM, Paris

STA103
Calcul de probabilités
2022–2023
Plan

Lois (suite)
Discrètes
Binomiale négative
Hypergéométrique
Continues
Bêta
Student
Fisher
Log-normale
Cauchy

Mélange de lois

Méthode de Monte-Carlo
Binomiale négative

Une variable aléatoire réelle (v.a.r.) X est dite de loi binomiale négative de
paramètres n et p si elle est à valeurs dans D = N et si
n−1 n k
P(X = k ) = Cn+k −1 p (1 − p)

Exemple : On fait des tirages successifs au hasard, indépendants et avec


remise dans une urne contenant des boules blues et rouges en proportion
respectivement p et 1 − p.
Binomiale négative

Soit Y le nombre de tirages que l’on doit faire pour obtenir n boules bleues.
Alors la v.a.r. X = Y − n représentant donc le nombre de boules rouges
obtenues avant d’avoir n boules bleues suit une loi binomiale négative.
On retrouve facilement que :
n−1 n k
P(X = k ) = Cn+k −1 p (1 − p)

puisque l’événement {X = k } signifie que sur k + n tirages on a eu k boules


rouges et n boules bleues, dont l’une est la dernière tirée. La probabilité de
chaque résultat élémentaire permettant à l’événement {X = k } d’être vérifié
n−1
est donc pn (1 − p)k . Or l’événement {X = k } est une réunion de Cn+k −1
résultats élémentaires différents : une boule bleue étant tirée en dernier, il
n−1
reste Cn+k −1 façon différentes de placer les autres boules bleues.
Remarque : lorsque n = 1 alors la loi de Y est une loi géométrique G(p).
Loi hypergéométrique

Une v.a.r. X est dite de loi hypergéométrique de paramètre (n,N,M) où n,N


et M sont des entiers tels que M < N et n ≤ N, si elle est à valeurs dans
D = N ∩ [max(0,n − (N − M)), min(n,M)] et si
n−k
CMk CN−M
P(X = k ) = n
.
CN

pour max(0,n − (N − M)) ≤ k ≤ min(n,M). Cette loi apparaît lorsque l’on tire
au hasard et sans remise dans une urne contenant M boules blanches et
N − M boules noires (M < N) (et donc en tout N boules). Si on tire au
hasard et sans remise n boules successivement (n ≤ N), le nombre X de
boules blanches obtenues suit une loi hypergéométrique (n,N,M).
L’expression de la probabilité P(X = k ) se comprend alors toute seule.
Bêta

On rappelle d’abord l’expression de la 1ère fonction d’Euler appelée aussi


fonction Bêta. Elle est définie pour tout a et b positifs par :
Z 1
β(a,b) = x a−1 (1 − x)b−1 dx
0

Notons que l’on a :


Γ(a)Γ(b)
β(a,b) = β(b,a) = .
Γ(a + b)
Une v.a.r. X à valeurs dans [0,1] est dite de loi Bêta de paramètre a et b si
elle est absolument continue et admet pour densité :
1
f (x) = x a−1 (1 − x)b−1 1[0,1] (x).
β(a,b)
On note X ⇝ Beta(a,b).
Student

Une v.a.r. X à valeurs dans R est dite de loi de student à n degrés de liberté
si elle est absolument continue de densité :
− n+1
x2
 2
1
f (x) = √ 1 n
 1+
nβ ,
2 2
n

On note X ⇝ T (n).
Fisher

Une v.a.r. X à valeurs dans R+ est dite de loi de Fisher à n et m degrés de


liberté, si elle est absolument continue de densité :
n
1 n m x 2 −1
f (x) = n m
n2 m 2 n+m 1R+ (x).
β 2, 2 (m + nx) 2

On note X ⇝ F (n,m).
Loi log-normale

Une v.a. X à valeurs dans ]0, + ∞[ est dite suivre la loi Log-normale de
paramètre (µ,σ) avec µ ∈ R et σ > 0 si Y = log X suit la loi N (µ,σ).
Propriétés de la loi log-normale

▶ La fonction de répartition de X est donnée par :

Φ log x−µ
 
, si x > 0;
F (x) = σ
0, sinon.

▶ La densité de X est donnée par :


 2 !
1 1 1 log x − µ
f (x) = √ exp − 1]0,+∞[(x)
σ 2π x 2 σ

2
▶ Les premiers moments de X sont E[X ] = eµ+σ /2 et
2 2
V (X ) = e2µ+σ (eσ − 1).
▶ Si X suit la loi log-normale de paramètre (µ,σ), alors X r (pour r > 0) suit
la loi log-normale de paramètre (r µ,r σ).
Cauchy

Une v.a.r. à valeurs dans R est dite de loi de Cauchy C(0,1) si elle est
absolument continue et admet pour densité :
1 1
f (x) =
π 1 + x2
pour x ∈ R.
Exemple 1 : Changement de variable

Soit X une v.a.r. de fonction de répartition FX continue et strictement


croissante. Prenons ψ = FX et cherchons la loi de la v.a.r.

Y = ψ ◦ X = FX (X ).
Correction 1

On a, pour tout y dans [0,1] (la fonction de répartition de Y étant nulle pour
y ≤ 0 et égale à 1 pour y ≥ 1,)

FY (y ) = P(Y ≤ y )
= P(FX (X ) ≤ y )
= P(X ≤ FX−1 (y ))
= FX (FX−1 (y ))
= y.

Par caractérisation de la fonction de répartition, on en déduit que la v.a.r.


FX (X ) est de loi U([0,1]). Ce résultat est souvent utilisé pour faire des
simulations.
Exemple 2

On cherche à calculer la densité de la loi log-normale. On a vu qu’une v.a.r.


X est de loi LN (µ,σ 2 ) si la v.a.r. Y = log(X ) est de loi N (µ,σ 2 ). La fonction
ψ = exp est clairement un C 1 -difféomorphisme de R dans R+ ⋆ d’inverse
ψ −1 = ln et telle que :
1
(ψ −1 )′ (x) = .
x
En utilisant la formule de changement de variable, on a :

fX (x) = fY (ψ −1 (x))|(ψ −1 )′ (x)|1R+⋆ (x)


 2 !
1 1 ln x − µ 1
= √ exp − × 1R+⋆ (x)
2πσ 2 σ x

et on retrouve bien la densité de la loi log-normale.


Plan

Lois (suite)
Discrètes
Binomiale négative
Hypergéométrique
Continues
Bêta
Student
Fisher
Log-normale
Cauchy

Mélange de lois

Méthode de Monte-Carlo
Mélange de lois

Soient P1 et P2 deux probabilités sur R. Supposons que P1 soit absolument


continue par rapport à la mesure de Lebesgue (de densité f ) et supposons
que P2 soit discrète sur D partie de N avec pour tout n dans D

P2 ({n}) = pn ,

i.e. absolument continue par rapport à la mesure de dénombrement.


Alors, pour tout α dans ]0,1[, la mesure

P = αP1 + (1 − α)P2

est encore une probabilité et, pour tout A dans B(R) :


Z
P(A) = 1A dP
Z Z
= α 1A dP1 + (1 − α) 1A dP2
Z X
= α f (x)dx + (1 − α) pn .
A n∈A∪D
Loi de Dirac

Soit x0 ∈ R. Une v.a. X est dite de loi de Dirac δx0 si elle est à valeurs dans R
et telle que PX = δx0 . On a donc, pour tout borélien A :

1 si x0 ∈ A;
PX (A) = δx0 (A) =
0 sinon.

De plus, on a :

PX ({x0 }) = P(X = x0 ) = 1
PX ({x}) = P(X = x) = 0,

pour tout x ̸= x0 . On dit que la v.a. réelle X est presque sûrement (p.s.) égale
à x0 .
Exemple : Mélange d’une loi de Dirac en 0 et d’une exponentielle

On considère un matériel qui, quand il est mis en marche, a une probabilité


1 − α de tomber en panne dès l’instant initial et qui, ensuite, est tel que le
temps d’attente avant l’arrivée d’une panne suit une loi exponentielle de
paramètre λ. Notons P1 la loi absolument continue de densité

f (x) = λe−λx 1]0,+∞[ (x)

et P2 = δ0 (loi absolument continue par rapport à la mesure de


dénombrement). Ainsi pour tout x strictement positif :
Z x
P(] − ∞,x]) = α f (u)du + (1 − α)
−∞

et P({0}) = 1 − α = probabilité de tomber en panne dès l’instant initial.


Plan

Lois (suite)
Discrètes
Binomiale négative
Hypergéométrique
Continues
Bêta
Student
Fisher
Log-normale
Cauchy

Mélange de lois

Méthode de Monte-Carlo
Méthode de Monte-Carlo (Introduction)

Le génération de v.a. peut avoir un grand intérêt pour l’approximation


numérique de calculs complexes (par exemple : les intégrales en grande
dimension). On qualifie de méthode de Monte-Carlo, toute méthode ayant
recours à la simulation pour le calcul. Par exemple :
▶ Calculer l’aire d’une surface dont les contours ne sont pas simple
(exemple : l’air d’un étang);
▶ Calculer un volume (exemple : le volume d’une pièce d’un appartement)
▶ Calculer l’intégrale d’une fonction à l’expression analytique complexe.
Méthode de Monte-Carlo

Nous allons montré par cette partie, que nous pouvons appliquer la loi des
grands nombres au calcul d’intégrales. Dans ce but, nous allons énoncé ce
corollaire immédiat de la loi des grands nombres.

Corollaire
Considérons une suite (Xn )n de v.a. i.i.d. de lois uniformes sur [0,1], et une
fonction f mesurable bornée sur [0,1], par exemple une fonction continue sur
[0,1]. Alors
Z 1
f (X1 ) + · · · + f (Xn )
f (x)dx = lim ,
0 n n
pour la convergence presque-sûre.
Preuve

Nous appliquons la loi des grands nombres aux variables aléatoires f (Xi ) qui
vérifient bien toutes les hypothèses voulues puisque f est bornée. Nous
avons alors
Z 1
f (X1 ) + · · · + f (Xn )
lim = E[f (X )] = f (x)dx.
n n 0

En choisissant des v.a. de loi uniforme sur [a,b], nous pouvons obtenir de
même une approximation d’une intégrale définie sur l’intervalle [a,b].
Preuve(suite)

On peut généraliser ce résultat à toutes


R les dimensions.
Nous voulons calculer l’intégrale I = A f (x)dx, où f est une fonction
mesurable bornée et A est le cube {x = (x1 , · · · ,xd ) : |xi | ≤ α ∀i} de Rd .
Pour calculer I, nous pouvons simuler une suite X1 , · · · ,Xn de v.a.
indépendantes et de loi uniforme sur A. Cela revient à dire que si chaque Xn
admet les composantes Xn,j avec 1 ≤ j ≤ d, les v.a.
(Xn,j : n ≥ 1, 1 ≤ j ≤ d) sont indépendantes et uniformes sur [−α,α]. Une
suite de valeurs approchées de I est alors :

(2α)d
In = (f (X1 ) + · · · + f (Xn )) .
n
1
En effet, la loi uniforme sur A admet une densité g(x) = (2α)d
1A (x), donc
I
l’espérance des f (Xi ) est égale à (2α)d
, et il s’ensuit que In converge vers I
par la loi des grands nombres.
Calcul d’intégrale

On veut calculer
Z
I= f (x)dx
D

où D 1 est un pavé fermé borné (e.g. un intervalle de R en dim 1)


Pour cela, on se donne une suite (X1 , . . . ,Xn ) de v.a. iid de loi U(D) et on
construit l’estimateur
n
Vol(D) X
In = f (Xk )
n
k =1

Celui-ci converge en proba vers I (converge p.s.)

1. Ici D = A
Explications

Il s’agit de montrer que In −→ I pour n assez grand

On a
n
Vol(D) X
In = f (Xk )
n
k =1

1 Pn
La loi des grands nombres dit que n k =1 Xk −→ E[X ] d’où
n
1 X
f (Xk ) −→ E[f (X )]
n
k =1

Le théorème de transfert : Si X admet une densité g sur R, alors


Z
E[f (X )] = f (x)g(x)dx
R
On en déduit que
f (x)
Z
E[f (X )] = dx
D Vol(D)
D’où In −→ I avec n
Inconvénient (méthode Monte-Carlo)

▶ In est une approximation aléatoire de I, donc on a du mal à contrôler


l’erreur In − I.
▶ On peut cependant contrôler cette erreur en utilisant le théorème de la
limite centrale.
Avantage (méthode Monte-Carlo)

▶ La méthode reste valable si la fonction f est très irrégulière


(contrairement aux méthodes déterministes de type "méthode du
trapèze" qui ne se justifient que si la fonction f est continue.)
▶ Elle est peu sensible au fléau de la dimension d, le temps de calcul est
proportionnel à d. (contrairement aux méthodes déterministes qui ne
sont techniquement possible que pour un d petit (exemple : d ≤ 3), car
le temps de calcul est proportionnel à une constante à la puissance d. )
▶ Dans notre cas, tirer une v. X de loi uniforme sur A revient à tirer ses d
composantes, chacune selon la loi uniforme sur [0,1].
▶ La vitesse de convergence de In vers I ne dépend pas de la dimension d.

Les algorithmes obtenus par méthodes de Monte-Carlo sont extrêmement


utilisés dans toutes les situations nécessitant des temps de calcul très courts
ou en grande dimension.
Exemple
Exercice

Réduction de la variance dans une méthode de Monte-Carlo.

Soit g une fonction mesurable telle que 0 ≤ g ≤ 1. On souhaite calculer


R1
m = 0 g(x)dx. Soient X et Y deux v.a. i.i.d., de loi uniforme sur [0,1] et

U = 1{Y ≤g(X )} ,

V = g(X )
et
g(X ) + g(1 − X )
W = .
2

1. Calculer l’espérance et la variance de U, V et W .


2. Proposer trois méthodes de types Monte-Carlo pour calculer m.
Exercice

3. On suppose pour la suite que g est monotone. Montrer que


(g(x) − g(y ))(g(1 − x) − g(1 − y )) ≤ 0 pour tout x,y . En déduire
Z 1 Z 1
E[g(X )g(1 − X )] = g(x)g(1 − x)dx ≤ m2 ≤ g 2 (x)dx.
0 0

Comparer les variances de U, V et W .


4. Soit (Xi )i≥1 une suite de v.a. i.i.d. de loi uniforme sur [0,1]. Des
estimateurs
2n n
1 X 1 X
An = g(Xi ), Bn = (g(Xi ) + g(1 − Xi )) ,
2n 2n
i=1 i=1

Lequel est le meilleur pour calculer m ?


Correction

1. E[U] = E[V ] = E[W ] = m et V (U) = m(1 − m) et


V (V ) =∈10 g 2 (x)dx − m2 ≤ V (U) car g ≤ 1. De plus,
R1
V (W ) = 21 0 (g 2 (x) + g(x)g(1 − x))dx − m2 .
2. Soient Xi et Yi des v.a. i.i.d. de loi uniforme sur [0,1]. On peut appliquer
la loi des grands nombres aux variables correspondantes Ui , Vi et Wi .
Ainsi, nous aurons :
1X
g(Xi ),
n
i

1 X
(g(Xi ) + g(1 − Xi ))
2n
i

et
1X
1Yi ≤g(Xi )
n
i
converge p.s. vers m.
Correction(suite)

3. La monotonie de g entraîne que


E[(g(X ) − g(Y ))(g(1 − X ) − g(1 − Y ))] ≤ 0. Nous en déduisons que :
2E[g(X )(g(1 − X ))] − 2E[g(Y )g(1 − X )] ≤ 0. Or,
R1
E[g(Y )g(1 − X )] = m2 . Donc, 0 g(x)g(1 − x)dx ≤ m2 . Par ailleurs,
1
m2 ≤ 0 g 2 (x)dx. Finalement, nous avons
R

Z 1 
1 2 2 1
V (X ) ≤ g (x)dx − m ≤ V (V ).
2 0 2

1 1
4. V (An ) = 2n V (V ) et V (Bn ) = nV (W )
. La comparaison ci-dessus entraîne
que Bn est le meilleur.

Vous aimerez peut-être aussi