Vous êtes sur la page 1sur 51

Université Moulay Ismail

Faculté des Sciences


Département de Mathématiques

Support du cours sur le


calcul des probabilités
Filière: SMIA
Semestre III
Chapitre 3: Variables aléatoires:
généralités

Réalisé par: J. H’michane

Année Universitaire 2020-2021


VARIABLES ALÉATOIRES : GÉNÉRALITÉS

I. Variable aléatoire et loi de probabilité

1. Variable aléatoire

Une variable aléatoire est une application X dont la valeur dépend du résultat obtenu lors de
l’expérience aléatoire.
Soit (Ω, A, P) un espace de probabilité. Une variable aléatoire est donc une application

X : Ω −→ X(Ω)
ω 7−→ X(ω)

En pratique, l’ensemble X(Ω) pourra être un ensemble fini ou dénombrable ou R ou un intervalle


de R ou Rn ou l’espace C(I, R) des fonctions continues de I dans R.

Exemple 1. 1) On lance deux dés et on pose Ω = {1, 2, 3, 4, 5, 6}2 . L’application

X: Ω −→ X(Ω)
ω = (a, b) 7−→ a + b

est la variable aléatoire qui relie chaque résultat de l’expérience avec la somme des chifres obtenues.
Notons que X(Ω) = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}.
2) On lance une fléchette contre une cible et on pose Ω = R2 . La distance euclidienne du point
d’atteinte au centre de la cible est une variable aléatoire sur Ω.

X: Ω −→ X(Ω) = [0, r]

ω = (a, b) 7−→ a2 + b 2

où r est le rayon de la cible.

X(Ω) est un espace connu dans la pratique et il est simple à manipuler si on le compare avec Ω qui
est un espace souvent difficile à décrire (espace abstrait, lourd). Donc, il est naturel de s’intéresser
aux chances de réalisation des valeurs de X plutôt que de travailler sur l’espace (Ω, A, P) (c’est à
dire d’étudier les chances de réalisation des résultats de l’expérience).

1
Remarque 1. Soient (Ω, A, P) un espace de probabilité et X : Ω −→ X(Ω) une variable aléatoire
sur Ω.
Soit B ⊂ X(Ω). Pour que P(X −1 (B)) ait un sens, il est nécessaire que X −1 (B) ∈ A, où X −1 (B) =
{ω, X(ω) ∈ B} est l’image réciproque de B par la variable aléatoire X qu’on peut la notée par
{X ∈ B} (notation probabiliste).

Proposition
Soient (Ω, A, P) un espace de probabilité et X une variable aléatoire sur Ω.
L’ensemble F des parties B de X(Ω) telles que X −1 (B) ∈ A forme une tribu de X(Ω).

Démonstration :

— X −1 (X(Ω)) = Ω ∈ A =⇒ X(Ω) ∈ F.
— Si B ∈ F, alors X −1 (B) = (X −1 (B)) ∈ A =⇒ B ∈ F.
— Soit (Bn )n une suite d’éléments de F. Alors

X −1 ( X −1 (Bn ) ∈ A =⇒
[ [ [
Bn ) = Bn ∈ F.
n n n

Ainsi, on peut toujours muni l’ensemble X(Ω) de la tribu F ainsi définie. D’où la définition plus
générale suivante.

Définition
Une variable aléatoire est une application

X : (Ω, A) −→ (X(Ω), F)

telle que ∀B ∈ F, on a X −1 (B) ∈ A.

Propriété
Si X est une variable aléatoire sur (Ω, A) et g est une application bien définie de (X(Ω), F)
et continue (continue par morceaux), alors g ◦ X est une variable aléatoire sur (Ω, A).

Démonstration :
Soit B ∈ g(X(Ω)). Comme g est continue, alors g −1 (B) ∈ F et comme X est une variable aléatoire
sur (Ω, A), alors X −1 (g −1 (B)) ∈ A ce qui entraine que (g ◦ X)−1 (B) ∈ A. Ainsi, g ◦ X est une
variable aléatoire sur (Ω, A).

2. Loi de probabilité :

Théorème
L’application PX définie pour B ∈ F par :

PX (B) = P(X −1 (B))

2
définit une probabilité sur la tribu F.

Démonstration :

• Totalité : On a PX (X(Ω)) = P{X −1 (X(Ω))} = P(Ω) = 1.


Bn ) = P(X −1 (
[ [
• σ-additivité : On a PX ( Bn ))
n n

Bn ) = P(X −1 (
[ [
PX ( Bn ))
n n
−1
(Bn )) (X −1 (Bn ) deux à deux disjoints)
[
= P( X
n

P(X −1 (Bn )) (σ − additivité de P)


X
=
n
X
= PX (Bn )
n

Définition
La probabilité PX définie dans le théorème précédent est appelé loi de la variable aléatoire X
(ou distribution de X). C’est la mesure image de la probabilité P par la variable aléatoire X.

Remarque 2. • La probabilité PX est plus facile à caractériser que la probabilité P, car X(Ω) est
un ensemble connu dans la pratique (topologiquement) alors que Ω est un ensemble abstrait.
• En général, F 6= P(X(Ω)), même si on a A = P(Ω). Cela justifier le fait qu’une probabilité soit
définie sur une tribu qui peut être strictement plus petites que P(Ω).

Dans la suite de ce cours nous allons nous intéresser à la classe des variables aléatoires réelles,
c’est à dire les variables aléatoires à valeurs dans R ou dans un intervalle I de R ou dans un
ensemble F ⊂ R fini ou dénombrable.
Les variables aléatoires réelles au programme de ce cours sont de deux types :
• Les variables discrètes, lorsque X(Ω) est fini ou dénombrable.
• Les variables continues,
Z xlorsque FX (la fonction de répartition) est continue et peut s’écrire sous
la forme FX (x) = f (y)dy où f est une fonction positive, intégrable sur R (par exemple,
−∞
discontinue sur un ensemble fini de points) et d’intégrale sur R égale à 1 (densité totale égale
1). La fontion f est appelée densité de probabililté.

Remarque 3. Il existe des variables aléatoires réelles qui ne sont ni continues, ni discrètes.

3. Fonction de répartition d’une variable aléatoire réelle :

Soit X une variable aléatoire réelle définie sur (Ω, A), alors la loi de X est une probabilité définie
sur (R, BR ) et vérifie :
PX (B) = P(X ∈ B); ∀B ∈ BR .
Cette loi est caractérisée par la fonction suivante (fonction de répartition).

3
Définition
Soient X une variable aléatoire réelle et PX sa loi de probabilité.
On appelle fonction de répartition de X la fonction définie pour tout x ∈ R par :

FX (x) = PX (] − ∞, x]) = P(X −1 (] − ∞, x])) = P(X ≤ x).

Exemple 2. Si X est nulle presque surment, alors sa loi PX = δ0 (mesure


 de Dirac en 0) et sa
 1 si x ≥ 0
fonction de répartition est exactement la fonction d’Heaviside H(x) = 
0 si x < 0

La fonction de répartition d’une variable aléatoire réelle possède les propriétés suivantes :

Proposition
1. FX est une fonction croissante.
2. FX est continue à droite en tout point de R.
3. lim FX (x) = 0 et lim FX (x) = 1.
x−→−∞ x−→+∞
4. FX a des limites à gauche en tout point, et on a :

∀x ∈ R, FX (x− ) = lim− FX (y) = FX (x) − P(X = x).


y−→x

5. ∀x, y ∈ R, x < y on a P (x < X ≤ y) = FX (y) − FX (x).

Démonstration. 1. Si x ≤ y alors ] − ∞, x] ⊂] − ∞, y]
et donc
PX (] − ∞, x]) ≤ PX (] − ∞, y]) =⇒ FX (x) ≤ FX (y).

2. Soit x ∈ R. Montrons que lim+ FX (y) = FX (x). Comme FX est croissante, il suffit de montrer
y−→x
1
que lim FX (x + ) = FX (x).
x−→+∞ n
1
En effet, supposons que FX (x + ) tend vers FX (x) quand n tend vers +∞. Comme FX est
n
1 1
croissante, alors pour tout x ≤ y ≤ x + (n ∈ N∗ ) on a FX (x) ≤ FX (y) ≤ FX (x + ), et
n n
1
donc lim+ FX (y) = lim FX (x + ) = FX (x).
y−→x n−→+∞ n
1 1 1
Montrons d’abord que lim FX (x + ) = FX (x). On a FX (x + ) = PX (] − ∞, x + ]).
n−→+∞ n n n
1
Puisque la suite d’intervalles ] − ∞, x + ] est décroissante, alors
n

1 \ 1
lim PX (] − ∞, x + ]) = PX ( ] − ∞, x + ])
n−→+∞ n n∈N∗ n
= PX (] − ∞, x])
= FX (x).

3. Comme FX est croissante (monotone), alors on a l’équivalence suivante

lim FX (x) = 0 ⇐⇒ lim FX (−n) = 0.


x−→−∞ n−→+∞

4
D’autre part FX (−n) = P(X −1 (] − ∞, −n])). Noton pour tout n ∈ N, An = X −1 (] − ∞, −n]).
La suite d’événements (An )n est décroissante (au sens de l’inclusion) et donc la suite des réels
(P(An ))n est convergente et on a :
+∞
\
lim P(An ) = P( ) =⇒ lim FX (−n) = P(∅) = 0,
n−→+∞ n−→+∞
n=0

d’où lim FX (x) = 0.


x−→−∞
De même, on peut montrer que lim FX (x) = 1.
x−→+∞
1
4. Il suffit d’étudier la suite (FX (x − ))n .
n
1 1 1
On a FX (x − ) = P(X (] − ∞, x − ])) = P(An ) où An = X −1 (] − ∞, x − ]).
−1
n n n
Comme la suite (An ))n est croissante (au sens d’inclusion), alors la suite (P(An ))n converge
et on a :
+∞
1
An ) =⇒ lim FX (x − ) = P(X −1 (] − ∞, x[)) = P(X < x).
[
lim P(An ) = P(
n−→+∞
n=0
n−→+∞ n
Ainsi, FX a une limite à gauche en x, et on a :
FX (x) − lim− FX (y) = P(X ≤ x) − P(X < x) = P(X = x)
y−→x
=⇒ lim− FX (y) = FX (x) − P(X = x).
y−→x

5. Si x < y, on a ] − ∞, y] =] − ∞, x]∪]x, y], donc FX (y) = FX (x) + PX (]x, y])


=⇒ PX (]x, y]) = FX (y) − FX (x).
Nous pouvons obtenir aussi, que pour x < y,

PX (]x, y[) = FX (y − ) − FX (x)

PX ([x, y]) = FX (y) − FX (x− )


PX ([x, y[) = FX (y − ) − FX (x− ).
En particulier,
PX ({x}) = FX (x) − FX (x− ) (saut de F au point x ).

Nous avons la proposition suivante.

Proposition
Soient X une variable aléatoire réelle et PX sa loi, alors
la fonction de répartition de X est continue en x si, et seulement si, PX ({x}) = P(X = x) = 0.

Théorème
Toute fonction F : R −→ [0, 1] telle que
• F est croissante.
• lim F (x) = 0 et lim F (x) = 1.
x−→−∞ x−→+∞
• F est continue à droite en tout point.
est la fonction de répartition d’une unique probabilité sur R muni de sa tribu borilienne.

5
Démonstration. La preuve de ce théorème dépasse le cadre de ce cours.

II. Variables aléatoires discrètes (réelle)

Dans tout ce paragraphe, l’espace Ω est fini ou dénombrable et donc l’espace probabilisé considéré
sera (Ω, P(Ω)).
Notons que si X : Ω −→ X(Ω) ⊆ R est une application, alors pour tout x ∈ X(Ω) on a X −1 (x) ∈
P(Ω).
Ainsi, on a la définition suivante :

Définition
On appelle variable aléatoire discrète sur (Ω, P(Ω)) toute application X : Ω −→ X(Ω).
Notons que X(Ω) est nécessairement fini ou dénombrable.

Exemple 3. Une urne contient 3 boules rouges et 4 boules noires. On extrait successivement avec
remise 2 boules de l’ume (on choisit comme univers Ω = {R1 ; R2 ; R3 ; N1 ; N2 ; N3 ; N4 }2 et comme
tribu A = P(Ω)). On mise au départ 10Dh, et on gagne 8Dh par boule rouge obtenue. Soit X la
v.a.r. prenant pour valeur le gain final.
X est une v.a.r. discrète et on a : X(Ω) = {−10; −2; +6}.

On considère l’ensemble des variables aléatoires réelles discrètes définies sur le même espace
(Ω; A; P), noté F . Muni de la loi + (addition usuelles de 2 fonctions : (X + Y )(ω) est égal
par définition à X(ω) + Y (ω)) et de la loi · (loi de composition externe classique : ∀λ ∈ R,
λ · X est la fonction définie par : (λ · X)(ω) = λX(ω)), (F ; +; ·) est un espace vectoriel.

1. Loi de probabilité d’une variable aléatoire discrète.

Soit X une variable aléatoire discrète. La loi de X est une probabilité sur X(Ω) caractérisé par
les nombres :

PX (xi ) = P(X = xi ) = P(X −1 (xi )) = P{ω ∈ Ω/X(ω) = xi } =


X
pω , ∀xi ∈ X(Ω).
ω,X(ω)=xi

Ainsi, on a la proposition suivante :

Proposition
La loi d’une variable aléatoire X à valeurs dans un espace fini ou dénombrable X(Ω) est
caractérisée par :

{(xi , PX (xi )), xi ∈ X(Ω)}, avec PX (xi ) = P(X = xi ).

6
Remarque 4. • Si X ne prend qu’un petit nombre de valeurs, alors la loi de probabilité de X est
généralement présentée dans un tableau.
• Pour représenter graphiquement une loi d’une variable aléatoire discrète, on utilise un diagramme
"en bâton". Les valeurs xi sont placées en abscisse et les images PX (xi ) en ordonnée.

Exemple 4. Dans le cas d’équiprobabilité, une variable aléatoire X : Ω −→ {0, 1, 2, ..., n} a pour
1
loi de probabilité : {(k, ), 1 ≤ k ≤ n}
n
Exemple 5. La loi de probabilité uniforme associée à un lancer de dé est représentée dans le tableau
xi 1 2 3 4 5 6
suivant : 1 1 1 1 1 1
pi 1
6 6 6 6 6 6
Exemple 6. Loi de probabilité d’une variable certain. Il s’agit d’une variable aléatoire qui est
constante (prend la même valeur b quel que soit le résultat de l’épreuve) : PX (x) = b pour tout
x ∈ X(Ω).
Dans ce cas on parle de loi de Dirac centrée en b associée à cette variable certaine (notée par δb ).

Exemple 7. Loi d’une variable indicatrice. Soit A ∈ A un événement quelconque, on appelle


variable aléatoire indicatrice de l’événement A, la variable aléatoire définie par :

 1 si ω ∈ A
X(ω) =
 0 si ω ∈ A

et notée par X = 1A . Ainsi :

P(X = 1) = P{ω/ω ∈ A} = P(A)


P(X = 0) = P{ω/ω ∈ A} = P(A) = 1 − P(A).

2. Espérance mathématique.

Définition
Soit X : Ω −→ X(Ω) une variable aléatoire (réelle) sur l’espace fini ou dénombrable Ω. On
appelle espérence mathématique de X, la quantité, si elle existe :
X
E(X) = xi × PX (xi ).
xi ∈X(Ω)

Plus précisement,
n
X
— Lorsque X(Ω) = {x1 , x2 , ..., xn } on a E(X) = xi × PX (xi ).
i=1
X
— Lorsque X(Ω) = {xi , i ≥ 1} et lorsque la série xi × PX (xi ) est absolument
xi ∈X(Ω)

X
convergente, on a E(X) = xi × PX (xi ).
i=1

7
Remarque 5. • Dans le cas où X(Ω) est fini, E(X) est le barycentre de la famille de points
pondérés (xi , PX (xi ))1≤i≤n .
• Dans le cas où X(Ω) est dénombrable, on ne peut pas exiger seulement la convergence de la série.
On aura besoin d’exiger la convergence absolue (sommabilité) pour garantir que l’espérance de
X est défini indépendamment de la façon dont on a numéroté X(Ω).

Exemple 8. 1) Soit X : Ω −→ {1, 2, 3, 4, 5, 6} de loi de probabilité uniforme :

xi 1 2 3 4 5 6
1 1 1 1 1 1
pi 1
6 6 6 6 6 6
1 1 1 1 1 1 21
alors E(X) = 1 × +2× +3× +4× +5× +6× = .
6 6 6 6 6 6 6
n
1X
2) Dans le cas de la loi uniforme sur X(Ω) = {x1 , x2 , ..., xn }, on obtient E(X) = xi et dans
n i=1
ce cas E(X) coincide avec la moyenne arithmétique x des valeurs possible de X.
2n
3) Soit X : Ω −→ N une variable aléatoire de loi de probabilité PX (n) = P(X = n) = e−2 ×
n!
(loi de Poisson de paramètre 2).
X
La série n × PX (n) est absolument convergente (règle d’Alembert), donc E(X) existe et on
n≥0
a:
+∞ +∞
2n
n × e−2 ×
X X
E(X) = n × PX (n) =
n=0 n=0 n!
+∞ n +∞
X 2n
2
= e−2 × = e−2 × 2 ×
X

n=1 (n − 1)! n=0 n!


= 2e−2 × e2 = 2.
6
4) Soit X : Ω −→ N∗ une variable aléatoire de loi PX (n) = 2 2 , ∀n ∈ N∗ .
π n
X X 6
Puisque la série n × PX (n) = 2
est divergente (par comparaison), alors X n’a pas
n≥1 n≥1 π n
d’espérance.
1. Pour une variable aléatoire indicatrice :

E(X) = 0 × PX (0) + PX (1) = P(A).

Définition
On appelle variable aléatoire intégrable, une variable aléatoire X qui admet une espérance,
X
c’est à dire telle que la série xi × PX (xi ) est absolument convergente.
xi ∈X(Ω)
On note par L1 (Ω, P(Ω), P) := L1 l’ensemble de toutes les variables aléatoires intégrables.

Théorème
Soit Ω un espace fini ou dénombrable. Si X ∈ L1 , alors :
X
E(X) = X(ω)P({ω}).
ω∈Ω

8
Démonstration :
[
Notons par : Ai = {ω ∈ Ω/X(ω) = xi }. Il est claire que Ω = Ai .
i
On a :

PX (xi ) = P(X = xi ) = P(X −1 (xi ))


= P(Ai )
X
= P({ω}).
ω∈Ai

donc
X X X
xi PX (xi ) = xi × P({ω})
i i ω∈Ai
X X
= xi P({ω})
i ω∈Ai
X X
= X(ω) × P({ω})
i ω∈Ai
X
= X(ω) × P({ω}).
ω∈Ω

Proposition
Soient Ω un espace fini ou dénombrable et P une probabilité sur Ω. L’ensemble L1 est un espace
vectoriel, et l’espérance est linéaire sur L1 :

∀X, Y ∈ L1 , ∀a, b ∈ R on a E(aX + bY ) = aE(X) + bE(Y ).

Démonstration :
X
Tout d’abord, la série (aX(ω) + bY (ω)) × P({ω}) est absolument convergente (somme de deux
ω∈Ω
séries absolument convergentes). Donc,
X X X
(aX(ω) + bY (ω)) × P({ω}) = aX(ω) × P({ω}) + bY (ω) × P({ω}) = aE(X) + bE(Y ).
ω∈Ω ω∈Ω ω∈Ω

Propriétés
Soient Ω un ensemble fini ou dénombrable et P une probabilité sur Ω.
1. Si X(Ω) = a (a ∈ R) pour tout ω ∈ Ω, alors E(X) = a.
2. X ∈ L1 ⇐⇒ |X| ∈ L1 , et dans ce cas |E(X)| ≤ E(|X|).
3. Si X ≥ 0 et X ∈ L1 alors E(X) ≥ 0 (l’espérance est positive).
4. Si X, Y ∈ L1 telle que X ≤ Y , alors E(X) ≤ E(Y ).
5. Si X est telle qu’il existe a ∈ R tel que |X(ω)| ≤ a pour tout ω ∈ Ω, alors X ∈ L1
(L1 contient les variables aléatoires bornées).
6. Si Ω est fini, alors L1 contient toutes les variables aléatoires définissent sur Ω.
7. Si g est une fonction continue (continue par morceaux) définie sur un intervalle J conte-

9
nant X(Ω), alors :
X
E(g(X)) = g(xi ) × PX (xi )
xi ∈X(Ω)

sous réserve de convergence absolue. Ce dernier résultat est appelé "propriété de trans-
fert".

Proposition
Soient Ω un espace fini ou dénombrable et X une variable aléatoire sur Ω. Si Ω possède un
maximum et un minimum, alors E(X) existe et :

min{X(Ω)} ≤ E(X) ≤ max{X(Ω)}.

Démonstration :
Supposons que Ω est un ensemble dénombrable et posons xmin = min{X(Ω)} et xmax = max{X(Ω)}.
Soit M = max(|xmin |, |xmax |). On a :
X
∀i ∈ N, |xi | ≤ M =⇒ |xi | × PX (xi ) ≤ M
i≥0

X
donc, la série xi × PX (xi ) est absolument convergente.
i≥0
Ainsi, E(X) existe. De plus :
+∞
X +∞
X +∞
X
∀i ∈ N, xmin ≤ xi ≤ xmax =⇒ xmin × PX (xi ) ≤ xi × PX (xi ) ≤ xmax × PX (xi )
i=0 i=0 i=0
=⇒ xmin ≤ E(X) ≤ xmax .

Dans le cas fini, on peut suivre les même démarche de démonsration.

3. Variance et écart-type.

Définition
Soit p ∈ N∗ . On dit que la variable aléatoire X admet un moment d’ordre p si la variable
aléatoire X p ∈ L1 , et d’aprés la propriété de transfert, on a :

E(X p ) = xpi × PX (xi ).


X

xi ∈X(Ω)

Notation : On note par Lp l’ensemble des variables aléatoires X telles que X p soit intégrable
(∈ L1 ). En particulier, L2 est l’ensemble des variables aléatoires de carré intégrable.

Remarque 6. • Si X(Ω) est fini, alors X possède des moments de tout ordre.
• Si X(Ω) est dénombrable, l’existence du moment d’ordre p impose par définition la convergence
X p
absolue de la série xi × PX (xi ).
i∈N

10
Propriété
Si X possède un moment d’ordre p, alors les moments d’ordre k ≤ p de X existent aussi.

Démonstration :
On sait que : ∀x ∈ R, ∀p ∈ N∗; |x|p−1 ≤ |x|p + 1, donc

|xi |p−1 × PX (xi ) ≤ |xi |p × PX (xi ).


X X X
PX (xi ) +
i∈N∗ i∈N∗ i∈N∗

|xi |p × PX (xi ) sont convergentes, alors par comparaison des


X X
Comme les séries PX (xi ) et
i∈N∗ i∈N∗
|xi |p−1 × PX (xi ) est convergente, et par suite la
X
séries à termes positifs on trouve que la série
i∈N∗
variable aléatoire X possède un moment d’ordre p − 1.
Par récurrence, on obtient que pour tout k ≤ p, X possède un moment d’ordre k.

Proposition
L’ensemble L2 est un sous espace vectoriel de l’espace L1 , et si X ∈ L2 on a :
q
E(|X|) ≤ E(X 2 ).

Démonstration :

• Soient X et Y deux variables aléatoires tels que X, Y dans L2 et soit a ∈ R.


Puisque (aX +Y )2 ≤ a2 X 2 +Y 2 +2aXY et 2aXY ≤ a2 X 2 +Y 2 alors (aX +Y )2 ≤ 2a2 X 2 +2Y 2
et comme X ∈ L2 et Y ∈ L2 , alors par comparaison des séries à termes positifs on obtient
aX + Y ∈ L2 .
Ainsi, L2 est un espace vectoriel. D’autre part, il découle de |X| ≤ 1 + X 2 que L2 ⊂ L1 .
• Soit Y = X − E(|X|). On a

E(Y 2 ) = E((X − E(|X|))2 )


= E(X 2 − 2E(|X|) × X + (E(|X|))2 )
= E(X 2 ) − 2E(|X|) × E(X) + (E(|X|))2 .
— Si X ≥ 0, alors E(Y 2 ) = E(X 2 ) − (E(X))2 . q
Comme E(Y 2 ) ≥ 0 alors (E(X))2 ≤ E(X 2 ) et par suite E(X) ≤ E(X 2 ) .
— On admet le résultat pour le cas X non positive.

Définition
Soit X ∈ L2 . On appelle variance de X l’espérance de la variable (X − E(X))2 :

V (X) = E((X − E(X))2 )


(xi − E(X))2 × PX (xi ).
X
=
i

On l’appelle aussi moment centré d’ordre 2.

11
Définition
Lorsque la variable aléatoire X admet une variance, on appelle écart-tupe de X le réel :
q
σ(X) = V (X).

L’écart-type est une grandeur qui mesure la moyenne de l’écart des valeurs de X à sa moyenne.

Théorème
Si X possède une variance, alors :

V (X) = E(X 2 ) − (E(X))2 .

Démonstration :
On a :

V (X) = E((X − E(X))2 )


= E(X 2 − 2E(X) × X + (E(X))2 )
= E(X 2 ) − 2(E(X))2 + (E(X))2
= E(X 2 ) − (E(X))2 .

Propriété
X admet une variance ⇐⇒ X admet un moment d’ordre 2.

Démonstration :

• Si X(Ω) est fini, il est claire que X admet une variance.


• Si X(Ω) est dénombrable : l’existence de V (X) suppose l’existence de E(X) et de E(X 2 ).
Or L2 ⊂ L1 alors l’existence de E(X 2 ) implique l’existence de V (X).
Réciproquement : Soit N ≥ 1. On a :
N N N
2
x2i xi × PX (xi ) + (E(X))2 ,
X X X
(xi − E(X)) × PX (xi ) = × PX (xi ) − 2E(X)
i=1 i=1 i=1

N
(xi − E(X))2 × PX (xi ) implique l’existence de
X
donc l’existence de V (X) = lim
n−→+∞
i=1
N
E(X 2 ) = x2i × PX (xi ).
X
lim
n−→+∞
i=1
Autres propriétés de la variance sont citer dans :

Propriété
Soient X et Y deux variables aléatoires. Alors :
1. V (X) ≥ 0.
2. V (X) = 0 ⇐⇒ X est constante presque partout.

12
3. V (X + a) = V (X) ; ∀a ∈ R.
4. V (aX) = a2 V (X) ; ∀a ∈ R.

Démonstration :
1) Par définition.
2) Si X est constante, alors il est claire que V (X) = 0.
Réciproquement,

V (X) = 0 =⇒ ∀i, (xi − E(X))2 × PX (xi ) = 0


=⇒ ∀i, E(X) = xi sauf lorsque PX (xi ) = 0
=⇒ X est une constante presque partout.

3) On a

V (X + a) = E((X + a − E(X + a))2 )


= E((X − E(X))2 )
= V (X)

4)On a

V (aX) = E((aX − aE(X))2 )


= a2 E((X − E(X))2 )
= a2 V (X)

c’est à dire qu’un changement d’echelle implique une modéfication de la variance.

Définition
• Toute variable aléatoire X vérifie E(X) = 0 est dite variable centré.
• Toute variable aléatoire X vérifie V (X) = 1 est dite variable réduite.

Exemple 9. • La variable X − E(X) est une variable aléatoire centrée.


1
• La variable × X est une variable aléatoire réduite.
σ(X)

4. Fonction de répartition

Soient (Ω, A, P) un espace de probabilité et X une variable aléatoire sur Ω.


Si X(Ω) est une partie finie ou dénombrable de R, alors la loi de la probabilité PX est caractérisée
par une fonction réelle de variable réelle (fonction de répartition).

13
Définition
Soit X une variable aléatoire dans une parie X(Ω) de R et PX sa loi de probabilité. On appelle
fonction de répartition de X la fonction

FX : R −→ [0, 1]
X
x 7−→ FX (x) = PX ({i})
i∈X(Ω);i≤x

avec FX (x) = 0 s’il n’existe pas d’élément i ∈ X(Ω) tel que i ≤ x.

En particulier : 1) Si la variable aléatoire X est constante (X(ω) = a, ∀ω ∈ Ω), alors PX = δa et


FX = 1[a,+∞[ .
2) Si X est une variable aléatoire qui prend ses valeurs dans N, alors la loi de X est caractérisée
par la suite :
pn = PX (n) = P(X = n)
et la fonction de répartition de X vaut donc



 0 si x < 0
n
FX (x) = X


 pi si n ≤ x < n + 1
i=0

On remarque que dans ce cas la fonction FX est une fonction en escalier.

Exemple 10. Si on considère l’expérience aléatoire "lancer de dé" qui suit une loi uniforme.
Alors : 

 0 si x < 1
1


FX (x) = E(x) × si 1 ≤ x < 6


 6
1 si x ≥ 6.

Note : Dans la section des variables aléatoires continues, on va voir que la fonction de répartition
possède des propriétés fonctionnels importantes.

5. Fonction génératrice

Dans ce paragraphe nous considérons une variable aléatoire à valeurs dans N. Donc la loi de X
est une probabilité sur N caractérisée par la suite de nombre pn = P(X = n).
On va voir dans ce paragraphe qu’on peut caractérisée cette loi par une fonction appelée fonction
génératrice.

Définition
La fonction génératrice de la variable aléatoire X est la fonction définie par :

GX : [0, 1] −→ R
pn tn
X
t 7−→ GX (t) =
n≥0

14
c’est une fonction qui ne dépend que de la loi de X.

Proposition
La fonction génératrice est continue sur [0, 1] et indéfiniment dérivable sur [0, 1[.

Démonstration :
La démonstration de cette proposition demande des résultats sur les séries entières (continuité,
dérivabilité...).
(n)
Remarque 7. La dérivée nième en 0 de la fonction GX est GX (0) = pn × n!. Ainsi, la fonction
GX caractérise les pn .

Théorème
Soient (Ω, A, P) un espace de probabilité et soit X une variable aléatoire a valeurs dans N , de
fonction génératrice GX . Alors :

X ∈ L1 ⇐⇒ GX est dérivable à gauche en 1


0
et dans ce cas on a E(X) = GX (1).

Démonstration :
Si t < 1, alors on a :
GX (t) − GX (1) X tn − 1
= pn ×
t−1 n≥0 t−1
pn × (1 + t + t2 + ... + tn−1 )
X
=
n≥0

GX (t) − GX (1)
pn × (1 + t + t2 + ... + tn−1 ).
X
donc lim = lim
t−→1 t−1 t−→1
n≥0
Or les fonction un (t) = pn ×(1+t+t2 +...+tn−1 ) sont croissante et positives, alors on peut permuter
la limite avec la somme, et donc

pn × (1 + t + t2 + ... + tn−1 ) = lim pn × (1 + t + t2 + ... + tn−1 )


X X
lim
t−→1 t−→1
n≥0 n≥0
X
= pn × n
n≥0

GX (t) − GX (1) X
ainsi lim = pn × n. D’où l’équivalence demandée.
t−→1 t−1 n≥0

Par la même démonstrations on peut trouver le résultat suivant qui représente une généralisation
du résultat précédent.

Proposition
La variable aléatoire X(X − 1)(X − 2)...(X − p) est intégrable, si et seulement si GX est p + 1
fois dérivable à gauche en 1, et on a alors :

E(X(X − 1)(X − 2)...(X − p)) = Gp+1


X (1).

15
En particulier : E(X(X − 1)) = GX 00 (1) et donc V (X) = GX 00 (1) + GX 0 (1) − (GX 0 (1))2 .
Note : Gp+1 pn × Ap+1
X X
X (1) = pn × n(n − 1)...(n − p) = n .
n n

Remarque 8. Par fois, pour calculer l’espérance ou la variance d’une variable aléatoire, il peut
étre plus simple d’utiliser les dérivées de GX plutôt qu’un calcul direct.

6. Couple de variables aléatoires discrètes

Définition
Soit (Ω, A, P) un espace probabilisé.  
X1
 
 . 
 
 
Un vecteur aléatoire V est un n-uplet   .

 où les Xi sont des variables aléatoires réelles
 
 . 
 
Xn
(sur(Ω, A, P)), c’est-à-dire une application :

V : Ω −→ Rn
 
X1 (ω)
 
 . 
.
 
 
ω 7−→ V (ω) = 
 . 

 

 . 

Xn (ω)

V est appelé vecteur aléatoire discret si les Xi sont des variables aléatoires discrètes, et dans
le cas n = 2 on parle d’un couple de variables aléatoires.

Exemple 11. On lance deux fois un dé équilibré. On modélise cette expérience en posant Ω = [[1; 6]]2
et A = P(Ω) et P la probabilité uniforme. Soient X la variable aléatoire réelle égale à la somme des
2 lancers et Y la la variable aléatoire réelle égale au maximum des 2 lancers. L ’application

V : Ω −→ Rn  
X(ω) = ω1 + ω2 
ω = (ω1 ; ω2) −
7 → V (ω) = 
Y (ω) = max(ω1 ; ω2 )

est un couple de variables aléatoires discretes.

Remarque 9. D’après la définition on a V (Ω) ⊂ X(Ω) × Y (Ω), et comme le montre l’exemple


précédent, cette inclusion peut être stricte. En effet, on a (3, 6) ∈ X(Ω) × Y (Ω) mais (3, 6) ∈
/ V (Ω).

L’ensemble des valeurs possibles des variables X et Y peut s’écrire respectivement sous la forme
{xi }i∈I et {yj }j∈J , où I et J sont des ensembles d’indices inclus dans N, pouvant d’ailleurs être N
tout entier.

16
6.1. Loi conjointe d’un couple de variables aléatoires dis-
crètes

Définition
La loi de V , ou loi conjointe du couple (X; Y ), est la donnée de :
1. V (Ω), ensemble des valeurs possibles de V .
2. P [(X; Y ) = (xi ; yj )] = P [(X = xi ) ∩ (Y = yj )] pour tous les couples (xi ; yj ) de V (Ω).
On note pi,j = P [(X = xi ) ∩ (Y = yj )].
XX XX
Les pi,j sont des probabilités qui vérifient : pi,j = pi,j = 1.
i∈I j∈J j∈J i∈I

En pratique, on donne la loi conjointe lorsque I et J sont finis, sous la forme d’un tableau à double
entrée (Tableau de contingence) :

Y
@
@
@
@ y1 y2 ... yj ... yk Total
X @
@
@
@

x1 p1,1 p1,2 ... p1,j ... p1,k p1,.


x2 p2,1 p2,2 ... p2,j ... p2,k p2,.
... ... ... ... ... ... ... ...
xi pi,1 pi,2 ... pi,j ... pi,k pi,.
... ... ... ... ... ... ... ...
xm pm,1 pm,2 ... pm,j ... pm,k pm,.
Total p.,1 p.,2 ... p.,j ... p.,k 1
Exemple 12. Pour l’exemple précédent, où on lance deux fois un dé équilibré. On a la loi conjointe
suivante :
Exemple de calcul :

p5,4 = P [(X = 5) ∩ (Y = 4)] = P [{1; 4} ∪ {4; 1}] = P({1; 4}) + P({4; 1})
1 1 1 1 2
= × + × = .
6 6 6 6 36

17
HH
Y
HH
1 2 3 4 5 6 Total
X H
HH
1 1
2 0 0 0 0 0
36 36
2 2
3 0 0 0 0 0
36 36
1 2 3
4 0 0 0 0
36 36 36
2 2 4
5 0 0 0 0
36 36 36
1 2 2 5
6 0 0 0
36 36 36 36
2 2 2 6
7 0 0 0
36 36 36 36
1 2 2 5
8 0 0 0
36 36 36 36
2 2 4
9 0 0 0 0
36 36 36
1 2 3
10 0 0 0 0
36 36 36
2 2
11 0 0 0 0 0
36 36
1 1
12 0 0 0 0 0
36 36
1 3 5 7 9 11
Total 1
36 36 36 36 36 36

6.2. Loi marginale

Définition
On appelle loi marginale de X (respt. de Y ) du ouple (X, Y ), la loi de probabilité de X (respt.
de Y )
 
[
pi,. = P [(X = xi )] = P  [(X = xi ) ∩ (Y = Yj )]
j∈J(union disjointe)
k
X k
X
= P [(X = xi ) ∩ (Y = Yj )] = pi,j .
j=1 j=1

 
[
p.,j = P [(Y = yj )] = P  [(X = xi ) ∩ (Y = Yj )]
i∈I(union disjointe)
m
X m
X
= P [(X = xi ) ∩ (Y = Yj )] = pi,j .
i=1 i=1

Exemple 13. Dans l’exemple précédent, la loi marginale de Y est donnée par :

Y (Ω) 1 2 3 4 5 6
1 3 5 7 9 11
p.,j
36 36 36 36 36 36

et la loi marginale de X est donnée par :

18
X(Ω) 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
pi,.
36 36 36 36 36 36 36 36 36 36 36
Application 1. Un sac contient 4 boules numérotées de 1 à 4. On tire deux boules avec remises, et
on note X et Y les numéros obtenus. Soit Z = Sup(X, Y ) et P la probabilité uniforme sur (Ω; P(Ω)).
Donner les lois des couples (X; Y ) et (X; Z).

Solution :
On a Ω = {1, 2, 3, 4}.
1
Pour tout (i, j) ∈ Ω, on a : P [(X = i) ∩ (Y = j)] = . Donc la loi conjointe du couple (X, Y ) est
16
donnée par le tableau suivant :

HH
Y
HH
1 2 3 4
X H
HH
1 1 1 1
1
16 16 16 16
1 1 1 1
2
16 16 16 16
1 1 1 1
3
16 16 16 16
1 1 1 1
4
16 16 16 16

D’atre part, on a :
1
i < j =⇒ P [(X = i) ∩ (Z = j)] = P [(X = i) ∩ (Y = j)] = .
16
i > j =⇒ P [(X = i) ∩ (Z = j)] = P(∅) = 0.
i
X i
i = j =⇒ P [(X = i) ∩ (Z = i)] = P [(X = i) ∩ (Y = k)] =
.
k=1 16
Donc la loi conjointe du couple (X, Z) est donnée par le tableau suivant :

H
HH Z
HH 1 2 3 4
X HH
1 1 1 1
1
16 16 16 16
2 1 1
2 0
16 16 16
3 1
3 0 0
16 16
4
4 0 0 0
16

Pour les lois marginales on a :

X(Ω) 1 2 3 4
4 4 4 4
pi,.
16 16 16 16

et

Y (Ω) 1 2 3 4
4 4 4 4
p.,j
16 16 16 16

19
et

Z(Ω) 1 2 3 4
1 3 5 7
p.,j
16 16 16 16

6.3. Indépendance de 2 variables aléatoires discrètes

Définition
Deux variables aléatoires réelles X et Y sont indépendantes si :

∀(B1 ; B2 ) ∈ (BR )2 , P [(X ∈ B1 ) ∩ (Y ∈ B2 )] = P [(X ∈ B1 )] × P [(Y ∈ B2 )] .

Lorsque X et Y sont discrètes, la définition est équivalente à :

∀(i; j) ∈ I × J, P [(X = xi ) ∩ (Y = yj )] = P [(X = xi )] × P [(Y = yj )] .

Autrement dit : ∀(i; j) ∈ I × J, pi,j = pi,. × p.,j .

Exemple 14. Les variables X et Z de l’application précédente ne sont pas indépendantes puisque
1 4 5
P [(X = 2) ∩ (Z = 3)] = et P [(X = 2)] × P [(Z = 3)] = × .
16 16 16
Alors que les variables X et Y sont indépendantes.

Théorème
Soient X et Y deux variables aléatoires discrètes indépendantes, admettant une espérance.
Alors la variable aléatoire XY admet une espérance, et on a :

E(XY ) = E(X) × E(Y ).

la réciproque de ce théorème est fausse en général : l’égalité E(XY ) = E(X) × E(Y ) n’implique
pas l’indépendance de X et Y comme le montre l’exemple suivant :

Exemple 15. Considérons le couple (X, Y ) dont la loi est définie par le tableau ci-après :

HH
HH X
-1 0 1
Y H
HH
1 1 1
-1
8 8 8
1 1 1
0
16 8 16
1 1 1
1
8 8 8

20
2 5 2
On a E(X) = E(Y ) = 0 et E(XY ) = −1 × + 0 × + 1 × = 0 et cependant ces deux variables
8 8 8
ne sont pas indépendantes puisque par exemple :
1 5 3
P(X = −1; Y = −1) = 6= P(X = −1) × P(Y = −1) = × .
8 16 8

On rappel que (F, +, ·) est un espace vectoriel, où F est l’ensemble des variables aléatoires réelles
discrètes. Soit F1 l’ensemble des éléments de F qui possèdent une variance. F1 est un sous-espace
vectoriel de F inclus dans L1 (à titre d’exercice).

Définition
L ’application :
cov : (F1 )2 −→ R
(X; Y ) 7−→ E(XY ) − E(X)E(Y )

est bien définie, et est appelée covariance de X et Y .

Propriété :
Pour tout (X, Y ) ∈ F12 , on a

V (X + Y ) = V (X) + V (Y ) + 2cov(X, Y ).

En particulier, si X et Y sont deux variables aléatoires indépendantes, alors

V (X + Y ) = V (X) + V (Y ).

Démonstration :

V (X + Y ) = E(X + Y )2 − (E(X + Y ))2


= E(X)2 + E(Y 2 ) + 2E(XY ) − (E(X))2 − (E(Y ))2 − 2E(X) × E(Y )
= E(X 2 ) − (E(X))2 + E(Y 2 ) − (E(Y ))2 + 2(E(XY ) − E(X) × E(Y ))
= V (X) + V (Y ) + 2cov(X, Y ).

Si X et Y sont deux variables aléatoires indépendantes, alors E(XY ) = E(X)E(Y ) et donc


cov(X; Y ) = 0.

Propriété :
Pour tout (X, Y ) ∈ F12 , on a

cov(X, Y ) = E ((X − E(X))(Y − E(Y ))) .

21
Démonstration :

E ((X − E(X))(Y − E(Y ))) = E(XY ) − E(X)E(Y ) − E(X)E(Y ) + E(X)E(Y )


= E(XY ) − E(X)E(Y )
= cov(X, Y ).

Définition
Soient X et Y deux éléments de F1 , de variance strictement positive. On appelle coefficient
de corrélation linéaire le réel :
cov(X; Y )
r(X; Y ) = .
σ(X)σ(Y )

Propriété :
Pour tout (X, Y ) ∈ F12 , on a
|r(X; Y )| ≤ 1.

Démonstration :
Pour montrer que |r(X; Y )| ≤ 1 il suffit de montrer que |cov(X; Y )| ≤ σ(X)σ(Y ). Pour cela, soit
λ ∈ R on a :
V (X + λY ) = V (X) + λ2 V (Y ) + 2λcov(X, Y )
puisque V (X +λY ) ≥ 0, alors le discriminant du trinôme V (X)+λ2 V (Y )+2λcov(X, Y ) est négatif,
et comme ∆ = 4(cov(X; Y ))2 − 4V (X)V (Y ), on en déduit que (cov(X; Y ))2 ≤ V (X)V (Y ) et par
suite |cov(X; Y )| ≤ σ(X)σ(Y ).

Propriété :
Pour tout (X, Y ) ∈ F12 , on a

r(X; Y ) = r (X − E(X); Y − E(Y )) .

Démonstration :
On a V (X − E(X)) = V (X) et cov(X − E(X); Y − E(Y )) = cov(X; Y ) et donc
r(X; Y ) = r (X − E(X); Y − E(Y )).

6.4. Lois conditionnelles

On peut associer deux lois conditionnelles à la loi d’un couple, c’est-à-dire la loi d’une variable,
l’autre ayant une valeur fixée (loi dans une ligne ou dans une colonne donnée). Par exemple, pour Y =
yj fixé, la loi conditionnelle de X est définie par l’ensemble des valeurs possibles et les probabilités
associées :
P(X = xi ; Y = yj ) pi,j
P(X = xi /Y = yj ) = = = pji .
P(Y = yj ) p.,j

22
On vérifie que c’est bien une loi de probabilité sur X(Ω) = {xi ; i ∈ I} :
X j 1 X
pi = pi,j = 1.
i∈I p.,j i∈I

Exemple 16. Considérons le couple (X, Y ) dont la loi est définie par le tableau ci-après :

HH
X
HH
-2 0 2 p.,j
Y H
HH
-1 0,1 0,2 0,1 0,4
2 0,2 0,2 0,2 0,6
pi,. 0,3 0,4 0,3 1

La loi conditionnelle de X pour Y = −1 figure dans le tableau ci-après :

X/Y = −1 -2 0 2
0, 1 0, 2 0, 1
1
0, 4 0, 4 0, 4

Dans le cas où les variables aléatoires sont indépendantes, bien entendu, les lois conditionnelles
sont confondues avec les lois marginales ; par exemple :
pi,. p.,j
P(X = xi /Y = yj ) = pji = = pi,. .
p.,j

6.5. Moments conditionnels

Aux lois conditionnelles sont associés des moments conditionnels, comme par exemple l’espérance
conditionnelle de Y pour X = xi fixé, qui est l’espérance de la loi définie par les couples
{(yj ; pij ); ∈ J}, soit :

yj pij .
X X
E(Y /X = xi ) = yj P(Y = yj /X = xi ) =
j∈J j∈J

Le graphe de cette espérance conditionnelle en fonction de xi s’appelle courbe de régression (non


linéaire) de Y en X.

On peut également calculer la variance conditionnelle :


 
V (Y /X = xi ) = E [Y − E(Y /X = xi )]2 /X = xi
= E(Y 2 /X = xi ) − (E(Y /X = xi ))2
pij [yj − E(Y /X = xi )]2
X
=
j∈J

Exemple 17. Considérons le couple (X, Y ) dont la loi est définie par le tableau ci-après :

23
HH
X
HH
-2 0 2 p.,j
Y H
HH
-1 0,1 0,2 0,1 0,4
2 0,2 0,2 0,2 0,6
pi,. 0,3 0,4 0,3 1

La loi conditionnelle de Y pour X = 2 est donnée par le tableau suivant :

Y /X = 2 -1 2
0, 1 0, 2
1
0, 3 0, 3

On peut calculer, à partir de ce tableau, l’espérance conditionnelle de Y pour X = 2 :


1 2
E(Y /X = 2) = (−1) × + 2 × = 1.
3 3
On peut aussi calculer la variance conditionnelle de Y pour X = 2 :

V (Y /X = 2) = p2−1 [−1 − E(Y /X = 2)]2 + p22 [2 − E(Y /X = 2)]2 = 0, 6.

7. Lois usuelles discrètes

7.1. Loi uniforme sur [ 1, n]]

Définition
Soient (Ω, A, P) un espace de probabilité et X une variable aléatoire a valeurs dans N.
X est dite suit la loi uniforme sur [[1, n]] si :
• X(Ω) = [[1, n]].
1
• ∀i ∈ [[1, n]], P(X = i) = .
n
On note X ∼ U([[1, n]]).

Il s’agit donc, d’une loi dont tous les poids de probabilité sont identiques.

Propriété
Si X est une variable aléatoire suit la loi uniforme sur [[1, n]], alors :

n+1 n2 − 1
E(X) = et V (X) = .
2 12

n n
X 1 1X 1 n(n + 1) n+1
Démonstration. • E(X) = i× = i= × = .
i=1 n n i=1 n 2 2
n
1 1 n(n + 1)(2n + 1) (n + 1)(2n + 1)
• On a E(X 2 ) = i2 ×
X
= × = .
i=1 n n 6 6
2 2 (n + 1)(2n + 1) (n + 1)2 n2 − 1
Donc, V (X) = E(X ) − (E(X)) = − = .
6 4 12

24
La loi uniforme est souvent utilisée pour générer des nombres aux hasard et elle est souvent à la
base de la simulation de n’importe quelle loi de probabilité discrète ou continue.

7.2. Loi de Bernoulli

Définition
Soient (Ω, A, P) un espace de probabilité, X une variable aléatoire a valeurs dans N et soit
p ∈ [0, 1]. X est dite suit la loi de Bernoulli de paramètre p si :
• X(Ω) = {0, 1}.
• P (X = 0) = 1 − p et P (X = 1) = p.
On note X ∼ B(p) (ou X ∼ B(1; p)).

Remarque 10. Si on s’intéresse à un événement A, appelé «succès» et si on note p = P(A), alors


la variable aléatoire X = 1A suit une loi de Bernoulli de paramètre p.

Propriété
Si X est une variable aléatoire suit une loi de Bernoulli de paramètre p, alors :

E(X) = p, V (X) = p(1 − p) et GX (t) = 1 − p + p · t.

2
X
Démonstration. • E(X) = xi × pi = 0 × P(X = 0) + 1 × P(X = 1) = p.
i=1
2
• V (X) = E(X 2 ) − (E(X))2 = x2i × pi − p2 = p − p2 .
X

i=1
n
pn · t = p0 · t + p1 · t1 = 1 − p + p · t.
0
X
• GX (t) =
n≥0

Remarque 11. Si X est une variable aléatoire suit une loi de Bernoulli de paramètre p. Alors,
∀n ≥ 1, on a X n = X et donc les calculs des moments de X sont facile.

La loi de Bernoulli est utilisée lorsqu’une expérience aléatoire n’a que deux résultats possibles
qualitatifs ou quantitatifs.

7.3. Loi binomiale

On considère une expérience aléatoire modélisée par un espace probabilisé (Ω, A, P) et on s’in-
téresse à un événement A appelé «succès» et on note p = P(A).
On répète n fois cette expérience aléatoire de manière « indépendante » (avec remise). Ainsi, la
nouvelle expérience sera modélisée par l’espace de probabilité (Ωn , An , Pn ), où A. est la tribu pro-
duit et Pn est la probabilité produit définie par Pn (A1 , A2 , ..., An ) = P(A1 ) × P(A2 ) × ... × P(An )

25
pour tout (A1 , A2 , ..., An ) ∈ An .
On considère la variable aléatoire X qui prend pour valeur le nombre de succès obtenus au cours
des n réalisations de l’expérience :

X : (ω1 , ω2 , ..., ωn ) 7−→ card({ωi \ωi ∈ A}).

La loi de X :
On a évidemment X(Ω) = {0, 1, 2, ..., n}, et pour les poids de probabilité on a :

Pn (X = 0) = Pn (A; A; ...; A)
= P(A) × P(A) × ... × P(A)
= (1 − p)n

Pn (X = 1) = Pn [(A; A; A; ...; A) ∪ (A; A; A; ...; A) ∪ ... ∪ (A; A; ...; A; A)


= Pn (A; A; A; ...; A) + Pn (A; A; A; ...; A) + ... + Pn (A; A; ...; A; A)
= P(A) × P(A) × ... × P(A) + ... + P(A) × P(A) × ... × P(A)
= np(1 − p)n−1

• Pour k ∈ {1, 2, ..., n}, l’événement (X = k) est la réunion n-uplets où A apparaît k fois et A
apparaît n − k fois.
Ces événements sont 2 à 2 disjoints, donc par σ-additivité de Pn , la probabilité de (X = k)
est la somme des probabilités de ces événements. Ils ont tous pour probabilité pk × (1 − p)n−k .
D’autre part, on a Cnk n-uplets comportant k fois A et n − k fois A, d’où :

Pn (X = k) = Cnk × pk × (1 − p)n−k .

Définition
Soient (Ω, A, P) un espace de probabilité, X une variable aléatoire a valeurs dans N , n ∈ N∗
et p ∈ [0, 1]. X est dite suit la loi binômiale de paramètre n et p si :
• X(Ω) = [[0, n]].
• ∀k ∈ [[0, n]], P (X = k) = Cnk pk × (1 − p)n−k .
On note X ∼ B(n; p).

La loi binômiale permet de calculer la probabilité d’obtenir k succès parmi n épreuves indépen-
dantes (avec remise).

Propriété
Si X est une variable aléatoire suit une loi binômiale de paramètre n et p, alors :

E(X) = np, V (X) = np(1 − p) et GX (t) = (1 − p + p · t)n .

26
Démonstration. •
n n
k × Cnk pk × (1 − p)n−k
X X
E(X) = xk × p k =
k=0 k=0
n
k−1 k
p × (1 − p)n−k
X
= n × Cn−1
k=1
n
k−1 k−1
× (1 − p)n−1−(k−1)
X
= np × Cn−1 p
k=1
= np

• On sait que E(X(X − 1)) = E(X 2 ) − E(X) et on a :


n n
k(k − 1) × Cnk pk × (1 − p)n−k
X X
E(X(X − 1)) = xk (xk − 1) × pk =
k=0 k=0
n
k−2 k−2
= n(n − 1)p2 × (1 − p)n−2−(k−2)
X
Cn−2 p
k=2
n−2
i
= n(n − 1)p2 × pi × (1 − p)n−2−i
X
Cn−2
i=0
= n(n − 1)p2 (p + 1 − p)n−2 = n(n − 1)p2

on en déduit alors que E(X 2 ) = n(n−1)p2 +np, puis V (X) = n2 p2 +np(1−p)−n2 p2 = np(1−p).
n n n
pk · tk = Cnk · pk · (1 − p)n−k · tk = Cnk · (p · t)k · (1 − p)n−k = (1 − p + p · t)n .
X X X
• GX (t) =
k=0 k=0 k=0

Remarque 12. Soit X1 , X2 , ..., Xn n variables aléatoires indépendantes de loi de Bernoulli de pa-
ramètre p ; alors leur somme X suit une loi binomiale de paramètre n et p.

Propriété
Si X1 , X2 , ..., Xm sont des variables aléatoires indépendantes tels que X1 ∼ B(n1 ; p), X2 ∼
B(n2 ; p),..., Xm ∼ B(nm ; p) alors :
m
X m
X
Xi ∼ B( ni ; p).
i=1 i=1

Remarque 13. — Lorsque n est grand le calcul de la loi binomiale devient délicat ; on peut
utiliser des approximations avec d’autres lois.
— L’expression de la loi binomiale est le terme genéral des coéfficients du binome de Newton,
d’ou le nom de loi binomiale.
2
Application 2. la probabilité qu’un tireur atteigne sa cible est p = . On suppose qu’il effectue n
3
tirs (n ≥ 1).
Soit X la variable aléatoire qui représente le nombre de succés obtenus.
On note A l’evénement : "obtenir au moins un succés".
1. Calculer P(A).
2. Combien de tirs faut-il effectuer pour que la probabilité d’obtenir au moins un succés soit
supérieure à 0.9.

27
3. On suppose n = 20. Calculer l’espérance et la variance de X.

Solution :
Dans ce problème le tireur effectue n tirs (les tirs ici sont indépendantes) et dans chaque tir la
2
probabilité que le tireur atteigne sa cible est p = . Puisqu’on s’intéresse au nombre de succés
3
2
obtenus, alors la variable aléatoire X suit la loi binomiale de paraméttre n et p = (X ∼ B(n; p)).
3
Ainsi,
1
1. P(A) = P(X ≥ 1) = 1 − P(X = 0) = 1 − Cn0 · p0 · (1 − p)n−0 = 1 − (1 − p)n = 1 − n .
3
1
2. On a P (A) ≥ 0.9 ⇐⇒ n ≥ ' 2, 09. Ainsi, le tireur doit effectue un nombre de tirs
log(3)
supérieur au égale à 3 tirs.
2 2 1
3. On a E(X) = n · p = 20 × ' 13, 33 et V (X) = n · p · (1 − p) = 20 × × ' 4, 44.
3 3 3

7.4. Loi hypergéométrique

on considère une urne contenant N boules (indiscernables au touché) dont NR des boules rouges
NR
et donc en proportion p = . On tire simultanément et sans remise n boules (n ≤ N ), et on
N
appelle X la v.a.r. égale au nombre de boules rouges obtenues.
Noté que les tirages que ce soit simultanés ou successifs sont ici dépendants puisque la composition
de l’urne est différente après chaque tirage, dépendant des tirages précédents. Aussi, les n tirages
successifs sans remise sont équivalents à un tirage simultané de n boules et il y a donc équiproba-
bilité de chacun des CNn résultats possibles.
On note U l’ensemble des boules de l’urne. Ainsi, l’expérience est modélisée par :
Ω = {A ∈ P(U )/card(A) = n}, A = P(Ω) et P la probabilité uniforme.
La loi de X :

• Valeurs de X : Soit k le nombre des boules rouges obtenue parmis les n boules tirées. Il faut
bien entendu que k ≤ NR (nombre total de boules rouges) et n − k ≤ N − NR (nombre de
boules R) d’où les conditions :

max{0, n − (N − NR )} ≤ k ≤ min{n, NR }.

card(X = k)
• Poids de probabilié : Pour k ∈ X(Ω), on a : P (X = k) = .
card(Ω)
Or card(Ω) = CNn (nombre de parties à n éléments d’un ensemble de cardinal N) et
card(X = k) = CNk R × CNn−k−NR (nombre de parties contenant k boules rouges prises parmi
NR boules rouges multiplié par le nombre de parties contenant n − k boules R prises parmi
N − NR boules R).
Alors,
CNk R × CNn−k
−NR
CNk ·p × CNn−k
(1−p)
P (X = k) = n
= n
.
CN CN

28
X
Pour vérifier qu’il s’agit bien d’une loi de probabilité ( P(X = k) = 1), on utilise la formule
k∈X(Ω)
m
Crk × Csm−k = Cr+s
m
X
de Vandermonde .
k=0

Définition
Soit (n, N ) ∈ N2 tel que n ≤ N et soit p ∈]0, 1[ tel que N · p ∈ N. Une variable aléatoire X est
dite suit la loi hypergéométrique de paramètres (N ; n; p) si :
• X(Ω) = [[max{0, n − N (1 − p)}, min{n, N · p}]].
CNk ·p × CNn−k
(1−p)
• ∀k ∈ X(Ω), P(X = k) = .
CNn
On note X ∼ H(N ; n; p).

Remarque 14. Si le tirage (la choix) se fait successivement et avec remise alors dans ce cas on a :

NRk · (N − NR )n−k
∀k ∈ X(Ω), P(X = k) = Cnk × .
Nn

Propriété
Soit X ∼ H(N ; n; p). Alors :

N −n
E(X) = np, et V (X) = np(1 − p).
N −1

Application 3. Un joueur coche une grille de loto (il choisit 6 numéros parmi 49). Parmi les 49
numéros, on a 6 numéros gagnants (succés) et 43 numéros non gagnants.
1. Calculer la probabilité qu’a le joueur pour obtenir k numéros gagnants, (k ∈ {0, ..., 6}).
2. En moyenne, combien de numéros gagnants obtient-on en jouant une grille de loto ?

Solution :
6
L’univers Ω est l’ensemble des parties à 6 éléments de l’ensemble [[1; 49]]. Donc, card(Ω) = C49 .

1. Notons X la variable aléatoire correspondant au nombre de numéros gagnants.


6
On a X ∼ H(49, 6, ), donc
49
• X(Ω) = [[0; 6]].
6−k
C6k · C43
• ∀k ∈ X(Ω), P(X = k) = 6
. On obtient le tableau suivant :
C49
k 0 1 2 3 4 5 6
P(X = k) 0,436 0,413 0,132 0,0177 9, 69.10−4 1, 84.10−5 7, 15.10−8
36
2. On a E(X) = n · p = ' 0, 735. Donc en moyenne, on obtient moins d’un numéro gagnant
49
par grille cochée.

29
7.5. Loi géométrique ou de Pascal

On considère une expérience aléatoire modélisée par un espace probabilisé (Ω, A, P) et on s’in-
téresse à un événement A appelé «succès» et on note p = P(A).
On répète une infinité de fois cette expérience aléatoire de manière « indépendante » (avec remise).
Ainsi, la nouvelle expérience sera modélisée par l’espace de probabilité (ΩN , Ã, P̃) (la définition de
la tibu à et de la probabilité P̃ sort du cadre de ce cours).
On considère la variable aléatoire X qui prend pour valeur le rang d’apparition du premier succès
obtenus au cours de cette nouvelle expérience.
La loi de X :

• X(Ω) = N∗ .
• À chaque épreuve est associé l’ensemble fondamental Ω = {A, A} et l’événement {X = k} pour
k ∈ N ∗ est représenté par une suite de k − 1 événements A, terminée par l’événement A :

A, A, ..., A, A
| {z }
k−1

Ainsi, la probabilité de cet événement est

P̃(X = k) = (1 − p)k−1 p.
X
Pour vérifier qu’il s’agit bien d’une loi de probabilité ( P(X
e = k) = 1), il suffit d’utiliser la
k∈X(Ω)

1
xk =
X
série entière pour |x| < 1.
k=0 1−x

Définition
Soit p ∈]0; 1]. X suit la loi géométrique de paramètre p si :
• X(Ω) = N∗ .
• ∀k ∈ X(Ω), P (X = k) = (1 − p)k−1 p.
On note X ∼ G(p).

Proposition
Soit X une variable aléatoire qui suit la loi géométrique de paramètre p, alors :
1 1 p·t
• ∀t ∈] − ; [ on a GX (t) = .
1−p 1+p 1 − (1 − p) · t
1
• E(X) = .
p
1−p
• V (X) = .
p2

30
Démonstration. • ∀t tel que |(1 − p) · t| < 1 on a
∞ ∞ n
k k−1 k p·t
(1 − p)k · tk =
X X X
GX (t) = pk · t = p · (1 − p) ·t =t·p·
k=0 k=1 k=0 1 − (1 − p) · t
.
0 p 0 1
• On a GX (t) = et donc E(X) = GX (1) = .
(1 − t − p · t)2 p
!0
00 p 2p · (1 − p)
• On a GX (t) = = , par ailleur
(1 − t − p · t)2 (1 − (1 − p) · t)3

00 0 00 2(1 − p) 1 1 1−p
V (X) = GX (1) + GX (1) − (GX (1))2 = 2
+ − 2 = .
p p p p2

Application 4. Une urne contient 5 boules blanches et 10 boules noires. On tire des boules au
hasard et avec remise jusqu’à ce qu’on obtienne la première boule blanche (succès). Quelle est la
probabilité que la première boule blanche soit tirée aprés 4 tirages ?

Solution :
Soit X la variable aléatoire qui représente le nombre de boules tirées jusqu’à l’obtention d’une boule
5 1
blanche. Puisque la proportion des boules blanches est p = = , alors la variable X suit la loi
15 3
1 1
 
géométrique de paramètre p = X ∼ G( ) . Ainsi,
3 3
4−1  3
1 1 1 2

P(X = 4) = · 1− = · ' 0, 1.
3 3 3 3

7.6. Loi de Poisson

Définition
Soient (Ω, A, P) un espace de probabilité et X une variable aléatoire a valeurs dans N .
Nous dirons que X est une variable aléatoire de Poisson de paramètre λ > 0 (X suit la loi de
Poisson) si :
λk
∀k ∈ N, P(X = k) = e−λ .
k!

Propriété
Si X est une variable aléatoire suit la loi Poisson de paramètre λ > 0, alors :

E(X) = λ, V (X) = λ et GX (t) = eλ(t−1) .

31
Démonstration. •
∞ ∞ ∞
λk λk λk+1
k × e−λ = e−λ = e−λ
X X X
E(X) =
k=0 k! k=1 (k − 1)! k=0 k!

λk
= e−λ × λ × = e−λ × λ × eλ
X

k=0 k!
= λ

• On a V (X) = E(X 2 ) − (E(X))2 et puisque


∞ k ∞ ∞
X
−λ λ −λ
X λk −λ
X λk+2
E(X(X − 1)) = k(k − 1) × e = e =e
k=1 k! k=2 (k − 2)! k=0 k!

λk
= e−λ × λ2 × = e−λ × λ2 × eλ
X

k=0 k!
= λ2

alors, E(X 2 ) = λ2 + E(X) = λ2 + λ et donc V (X) = λ2 + λ − λ2 = λ.


n
−λ λ
n
× tn = e−λ × eλ·t = eλ(t−1) .
X X
• On a GX (t) = pn × t = e
n≥0 n≥0 n!

Application 5. Admettons que le nombre d’erreurs X par page d’un livre suive une loi de Poisson
de paramètre λ = 0, 5. Calculer la probabilité qu’il y ait au moins une erreur dans une page donnée.

Solution :
λ0
On a P (X ≥ 1) = 1 − P (X = 0) = 1 − e−λ = 1 − e−0,5 ≈ 0, 39.
0!

III. Variables aléatoires continues

On rappelle qu’une variable aléatoire réelle sur (Ω, A) est une application X : Ω −→ R telle que
−1
X (B) = {ω ∈ Ω/X(ω) ∈ B} ∈ A pour tout B ∈ BR , où BR est la tribu borilienne.

Exemple 18. 1. La durée de vie d’un individu est représentée par une variable aléatoire réelle.
2. La durée de jeu réel d’un joueur dans un matche de foot est représentée par une variable
aléatoire réelle.

Le résultat suivant est très utile.

Proposition
Soient X, Y et (Xn )n∈N∗ des variables aléatoires réelles. Alors,
X
1. X + Y , XY et si Y 6= 0 sont des variables aléatoires réelles.
Y
2. sup (Xn ) ,sup(Xn ), inf (Xn ) et inf (Xn ) sont des variables aléatoires réelles.
1≤n≤p 1≤n 1≤n≤p 1≤n

3. Z = 1A est une variables aléatoire réelle si, et seulement si, A ∈ A.

32
Définition
Une variable aléatoire réelle X est dit continue, si sa fonction de répartition FX est continue
en tout poit, ce qui est équivalent à dire que P(X = x) = 0 pour tout x.

Une classe importante des variables aléatoire réelles continues est la classe des variables aléatoire
de loi à densité.

1. Variables aléatoires à densité

Définition
On appelle densité Zde probabilité (ou densité),
 toute fonction réelle Z
f définie sur Rqui est
positive, intégrable |f (x)|dx est fine et de densité totale égale 1 f (x)dx = 1 .
R R

Z x
Si f est une densité de probabilité, alors la fonction F définie par F (x) = f (t)dt est une fonction
−∞
croissante, continue à droite en tout point et vérifie lim F (x) = 0 et lim F (x) = 1. C’est donc
x−→−∞ x−→+∞
la fonction de répartition d’une probabilité.

Définition
Une variable aléatoire réelle X est dite de densité f (de loi à densité f ), si pour tout réel x on
a: Z x
FX (x) = f (t)dt.
−∞

Remarque 15. f n’est pas unique. Il suffit de la modifier en un point, et on obtient une autre
fonction vérifiant toutes les conditions de la définition (modifier une fonction en un point ne change
pas la valeur de l’intégrale).

Proposition
Soient X une variable aléatoire réelle de loi PX de densité f . Alors, la probabilité d’un intervalle
s’obtient en intégrant la densité sur cet intervalle :
Z x2
P(X ∈ [x1 , x2 ]) = f (t)dt.
x1

33
Démonstration. En effet,

P(X ∈ [x1 , x2 ]) = PX ([x1 , x2 ]) = FX (x2 ) − FX (x1 )


Z x2 Z x1
= f (t)dt − f (t)dt
−∞ −∞
Z x2 Z −∞
= f (t)dt + f (t)dt
−∞ x1
Z x2
= f (t)dt.
x1

Remarque 16. pour une variable aléatoire à densité, la valeur de la probabilité ne change pas selon
que l’on met des inégalités strictes ou larges :

P(X ∈ [x1 , x2 ]) = P(X ∈]x1 , x2 ]) = P(X ∈ [x1 , x2 [) = P(X ∈]x1 , x2 [)

En effet, ∀x ∈ R, P (X = x) = lim+ FX (t) − FX (x) = 0, et donc par exemple :


t−→x

P(X ∈]x1 , x2 ]) = P(X ∈ [x1 , x2 ]) − P(X = x1 ) = P(X ∈ [x1 , x2 ]).

Corollaire
Soient X une variable aléatoire réelle de loi PX de densité f . Alors, la fonction de répartition
FX de X est continue.

Proposition
Soient X une variable aléatoire réelle de loi PX de densité f . Alors, en tout point α où f est
continue, FX est dérivable et on a :
0
FX (α) = f (α).

34
Démonstration. Soit α un point où f est continue. Alors, on a :

∀ > 0, ∃η > 0, |x − α| ≤ η =⇒ |f (x) − f (α)| ≤ .

1 Z α+h
Soient  > 0 fixé, et h tel que |h| < η. On remarquons que f (α) = f (α)dt on a :
h α
FX (α + h) − FX (α) 1 Z α+h
− f (α) = (f (t) − f (α))dt
h h α
1 Z α+h
≤ |f (t) − f (α)|dt
h α
1
≤ h
h
≤ .
FX (α + h) − FX (α)
Ainsi, lim = f (α).
h−→0 h
Exemple 19. Soit f la fonction définie sur R par :



 0 si t ≤ 0
1




f (t) = si 0 < t < 1
 4 t

 1
si 1 ≤ t



2t2
La fonction f estZ positive et intégrable sur R (car elle admet un nombre fini de points de disconti-
+∞
nuités), de plus f (t)dt = 1. En effet :
−∞

 √ 1
Z 1 Z 1
1 1 1
• f (t)dt = lim √ dt = lim t =
0 x−→0 x 4 t x−→0 2 x 2
x
Z +∞ Z x
1 −1 1

• f (t)dt = lim 2
dt = lim =
1 x−→+∞ 1 2t x−→+∞ 2t 1 2
Z +∞ Z +∞ Z 1 Z +∞
1 1
Donc, f (t)dt = f (t)dt = f (t)dt + f (t)dt = + = 1. Ainsi, f est la densité
−∞ 0 0 1 2 2
d’une variable aléatoire X dont la fonction de répartition soit :



 0 si x ≤ 0
1√



F (x) = x si 0 < x < 1
2
1



1− si 1 ≤ x



2x

Inversement, on a la proposition suivante.

Proposition
Soient X une variable aléatoire réelle et FX sa fonction de répartition. Si la fonction FX est
dérivable sur R, alors X admet la densité de probabilité f définie par f (x) = F 0 (x).

2. Moment d’une variables aléatoires à densité

35
Définition Z
Soit X une variable aléatoire à densité f satisfaisant |xf (x)|dx < ∞. On appelle espérance
R
de X le réel : Z
E(X) = xf (x)dx.
R

X
C’est l’analogue de l’expression de l’espérance dans le cas discret E(X) = xi P(X = xi ).
i∈I

Exemple 20. 1) Soit X une variable aléatoire de densité f définie par


1 1
∀x ∈ R, f (x) = × 2 × 1[1,+∞[ .
ln(2) t + t
1
On peut vérifier facilement que f est une densité, et puisque xf (x) ∼ alors la variable
+∞ ln(2) ×x
aléatoire X ne possède pas d’espérance.
2) Soit Y la variable aléatoire de densité g définie par
2
∀t ∈ R, g(t) = × 1[1,+∞[ .
t3
2
Puisque tg(t) ∼ alors la variable aléatoire Y admet une espérance E(Y ), et on a :
+∞ t2

x
Z +∞ Z +∞
1 Z x
1 −1

E(Y ) = 2 tg(t)dt = 2 2
dt = 2 × lim 2
dt = 2 × lim = 2.
1 1 t x−→+∞ 1 t x−→+∞ t 1

Pour l’espérance d’une variable aléatoire réelle à densité, on a les mêmes propriétés que dans
le cas discret,
Z mais elles sont délicates à démontrer sans faire appel à la théorie de la mesure
(E(X) = X(ω)P(dω)). Par contre, on n’a plus de structure d’espace vectoriel : la somme de deux

variables à densité n’est pas nécessairement une variable à densité (considérer X − X par exemple).
On annonce donc sans démonstration les résultats suivants :

Propriété
Soient X et Y deux variables aléatoires réelles à densité admettant une espérance, et soit
a ∈ R. Alors X + aY admet une espérance, et on a

E(X + aY ) = E(X) + aE(Y ).

Théorème :  Théorème de transfert


Soient
Z X une variable aléatoire réelle à densité f , et g : R −→ R une fonction telle que
|g(x)| × f (x)dx < ∞. Alors g(X) possède une espérance, et on a
R
Z
E(g(X)) = g(x) × f (x)dx.
R

Pour la variance et le moment d’ordre 2, on a :

36
Définition
Soit X une variable aléatoire réelle à densité f . On appelle moment d’ordre 2 l’espérance, si
elle existe, de la variable aléatoire X 2 . C’est donc le réel
Z
2
E(X ) = x2 × f (x)dx.
R

Propriété
Si X est une variable aléatoire réelle à densité f et possède un moment d’ordre 2, alors X
admet une espérance.

Définition
Soit X une variable aléatoire réelle à densité f . On appelle variance de X l’espérance,si elle
existe, de la variable aléatoire (X − E(X))2 . C’est donc le réel
Z
V ar(X) = (x − E(X))2 × f (x)dx.
R

Nous avons évidemment encore

V ar(X) = E(X 2 ) − (E(X))2 .

Les définitions suivantes permettent de caractériser l’asymétrie d’une loi de probabilité (distri-
bution de probabilité).

Définition
Soit X une variable aléatoire réelle à densité f .
• On appelle moment non centré d’ordre p ∈ N∗ de X, la quantité, lorsqu’elle existe :
Z
mp (X) = E(X p ) = xp × f (x)dx.
R

• On appelle moment centré d’ordre p ∈ N∗ de X, la quantité, lorsqu’elle existe :


Z
µp (X) = E((X − E(X))p = ((x − E(X))p × f (x)dx.
R

L’asymétrie d’une distribution peut se caractériser par le moment centré d’ordre trois. En effet, la
distribution est :
— si µ3 (X) = 0, alors la distribution de X est symétrique ;
— si µ3 (X) > 0, alors la distribution de X est dissymétrique étalée vers la droite ;
— si µ3 (X) < 0, alors la distribution de X est dissymétrique étalée vers la gauche.

37
3. Lois usuelles continues

3.1. Loi uniforme

Définition
La variable aléatoire réelle X suit la loi uniforme sur l’intervalle [a, b] (−∞ < a < b < +∞) si
elle a une densité f définie par :
1

si x ∈ [a, b]


f (x) =  b − a
 0 si x ∈
/ [a, b]

On note X ∼ U([a, b]).

38
Propriété
Si X est une variable aléatoire suit la loi uniforme continue sur l’intervalle [a, b], alors sa
fonction de répartition est la fonction définie par :



 0 si x < a
x−a


FX (x) =  si x ∈ [a, b]

 b−a
1 si x > b

ainsi que son espérance et sa variance :

a+b (b − a)2
E(X) = V (X) = .
2 12

Démonstration. • Déterminons
Z x la fonction de répartition de X :
— si x < a : FX (x) = 0dt = 0.
−∞ Z
x Z a Z x
1 x−a
— si a ≤ x ≤ b : FX (x) = f (t)dt = 0dt + dt = .
Z x −∞
Z a −∞
Z b a b−aZ b−a
1 x
— si x > b : FX (x) = f (t)dt = 0dt + dt + 0dt=1.
−∞ −∞ a b−a b

• Calculons l’espérance :
Z +∞
1 Zb b+a
E(X) = xf (x)dx = xdx = .
−∞ b−a a 2
• Calculons maintenant la variance : On a
2
Z +∞
2 1 Zb 2 b2 + ab + a2
E(X ) = x f (x)dx = x dx =
−∞ b−a a 3
(b − a)2
ainsi, V (X) = E(X 2 ) − E 2 (X) = .
12

Application 6. On remplit un verre de volume 20 cl d’une quantité aléatoire d’eau choisie unifor-
mément entre 0 et 20 cl :
1. quelle est la probabilité d’obtenir moins de 5 cl d’eau ?
2. on vide 5 verres ainsi remplis dans une très grande bassine. Quelle quantité moyenne d’eau
obtient-on dans la bassine ?

Démonstration :
Soit X la variable aléatoire correspondant à la quantité d’eau dans un verre. Par hypothèse, X suit
une loi uniforme sur l’intervalle [0; 20].

39
1. On cherche P (X ≤ 5). Par définition de la fonction de répartition, on a P(X ≤ 5) = FX (5).
Or, pour une variable uniforme sur [0; 20], on a
5−0 1
FX (5) = = ,
20 − 0 4
1
alors, la probabilité recherchée est P(X ≤ 5) = .
4
2. Quand on vide 5 verres remplis aléatoirement, V1 ; V2 ; ...; V5 , on obtient la quantité aléatoire
X1 + X2 + ... + X5 . Par linéarité de l’espérance, on a

E(X1 + X2 + ... + X5 ) = E(X1 ) + E(X2 ) + ... + E(X5 ).


0 + 20
Puisque les variables étant toutes uniformes sur [0; 20], elles sont toutes d’espérance .
2
La quantité moyenne d’eau obtenue dans la bassine est de donc 5 × 10 = 50 cl.

3.2. Loi exponentielle

Définition
Soit λ > 0. X suit la loi exponentielle de paramètre λ si elle a pour densité :

 λe−λx si x ≥ 0
f (x) =
 0 si x < 0

On note X ∼ E(λ).

Propriété
Si X est une variable aléatoire suit une loi exponentielle de paramètre λ, alors sa fonction de
répartition est la fonction définie par :

 0 si x < 0
FX (x) =
 1 − e−λx si x ≥ 0

40
ainsi que son espérance et sa variance (à l’aide d’intégration par parties) :
1 1
E(X) = V (X) = .
λ λ2

En pratique, plutôt que de travailler avec la fonction de répartition d’une loi exponentielle, il est
plus commode d’utiliser la fonction de survie G définie par :

 1 si x ≤ 0
G(X) = P(X > x) = 1 − FX (x) =
 e−λx si x ≥ 0

Les lois exponentielles sont souvent utilisés pour modéliser une durée de vie ou le temps d’attente
avant l’arrivée d’un événement spécifique. Par exemple, temps d’attente à partir de maintenant du
prochain tremblement de terre, du prochain faux numéro sur une ligne téléphonique, la durée de
vie d’une bactérie...

Exemple 21. Supposons que la durée de vie d’une conversation téléphonique mesurée en minutes
soit une variable aléatoire exponentielle de paramètre λ = 0, 1. Vous arrivez à une cabine télépho-
nique et quelqu’un entre juste devant vous.
1. Avec quelle probabilité devez-vous attendre plus de 10 minutes ?
2. Avec quelle probabilité devez-vous attendre entre 10 et 20 minutes ?

Solution :
Soit X la variable aléatoire qui désigne la durée de la conversation de la personne précédente. On
a X ∼ E(0, 1) et donc
Z +∞
1. P(X > 10) = 0, 1 · e−0,1·x dx ' 0, 368.
10
Z 20
2. P(10 < X < 20) = 0, 1 · e−0,1·x dx ' 0, 233.
10

L’absence de mémoire en temps continu caractérise les lois exponentielles. C’est-à-dire qu’elle
vérifie :

Propriété
Si X ∼ E(λ), alors

∀s ∈ R, ∀t > 0, P(X > s + t/X > t) = P(X > s).

41
De plus, cette propriété caractérise la loi exponentielle.

Démonstration. Soit G(t) = P (X > t) = 1 − FX (t) la fonction de survie de X. D’après la formule


des probabilités conditionnelles, la propriété de l’énoncé équivaut à dire que G(t + s) = G(t)G(s)
pour tous s, t > 0. Comme G est décroissante et continue à droite et tend vers 0 à l’infini, cela revient
aussi à dire que la solution de la dernière équation fonctionnelle est une exponentielle négative, de
la forme G(t) = e−λ·t pour un λ > 0 (la preuve est laissée au lecteur). La caractérization demandée
s’obtient en utilisant le fait qu’une fonction de répartition caractérise la loi à laquelle elle est associée
et la définition d’une loi exponentielle.

Application 7. On suppose que la durée de vie d’un disque dur est distribuée selon une loi expo-
nentielle. Le fabricant veut garantir que le disque dur a une probabilité inférieure à 0, 001 de tomber
en panne sur un an. Quelle durée de vie moyenne minimale doit avoir le disque dur ?

Démonstration :
Soit X la variable aléatoire donnant la durée de vie du disque dur. La variable X suit une loi
exponentielle de paramètre λ. Le fabricant veut garantir que

P(X ≤ 1) ≤ 0, 001.

Comme P(X ≤ x) = FX (x) par définition. En appliquant la formule de la fonction de répartition


d’une variable de loi exponentielle, on obtient l’inégalité

1 − e−λ·1 ≤ 0, 001.

On a alors

1 − e−λ·1 ≤ 0, 001
0, 999 ≤ e−λ
λ ≤ − ln(0, 999)
−1 1

ln(0, 999) λ
1
999, 5 ≤
λ
1
Or, X suit une loi exponentielle, alors son espérance est . Ainsi, la durée de vie moyenne du disque
λ
dur doit donc être d’au moins 999, 5 ans !.

3.3. Loi normale ou de Laplace-Gauss

Nous introduisons ici la loi de probabilité la plus célèbre en probabilité. C’est une loi fonda-
mentale car elle apparaît comme «loi limite» dans de très nombreuses situations, en vertu du
Théorème Central Limite, que l’on abordera dans le chapitre sur les convergences de suites de va-
riables aléatoires (semestre 5).

42
Définition
X suit la loi normale centrée réduite si elle a pour densité f définie par :
1 x2
∀x ∈ R, f (x) = √ e− 2 .

On note X ∼ N (0; 1).

On peut vérifier que f est bien une densité. En effet :


Z +∞ Z +∞
1
• f est paire, donc f (x)dx converge si et seulement si f (x)dx converge. Or f (x) = o( ),
Z +∞ −∞ 0 x2
alors f (x)dx converge.
−∞
• Pour le calcul de l’intégrale, le problème est que la fonction f ne possède pas de primitive «usuelle»
permettant de mener le calcul et on n’y parvient pas avec des intégrations par parties ou des
changements de variables.
Attention : f étant continue sur R, elle possède bien des primitives (et même une infinité !).
Z +∞ x2
On donne ici une façon classique de calculer e− 2 dx, qu’il est bon d’avoir vue une fois :
0
l’idée est de passer dans le plan,
Z a et d’utilisern les coordonnées polaires.
2
− x2
On pose, pour a > 0, I(a) = e dx.
0
On a, par le théorème de Fubini :
Z a  Z a
y2 x2 +y 2

x2
Z Z
(I(a))2 = e− 2 dx e− 2 dy = e− 2 dxdy.
0 0 [0;a]2

On ne peut pas passer facilement en coordonnées polaires puisqu’on intègre sur le carré [0; a]×
[0; a]. On va intégrer sur le quart de disque en posant :
π
Da = {(rcos(θ); rsin(θ))/r ∈ [0; a], θ ∈ [0; ]}
2
On peut alors calculer, en posant x = rcos(θ) et y = rsin(θ) :
2 +y 2
r2
Z Z Z Z
−x
J(a) = e 2 dxdy = e− 2 rdrdθ.
Da [0;a]×[0; π2 ]

En utilisant de nouveau le théorème de Fubini, on obtient :


π
! Z a
Z a 2

π r2

π

a2

2 − r2
J(a) = dθ re dr = −e− 2 = 1 − e− 2
0 0 2 0 2
π
et donc, lim J(a) =
.
a−→+∞ 2
On encadre ensuite (I(a))2 . On a : Da ⊂ [0; a]2 ⊂ Da√2 , et comme la fonction intégrée est
positive ;

J(a) ≤ (I(a))2 ≤ J(a 2).
En passant à la limite, par encadrement,
π
lim (I(a))2 = ,
a−→+∞ 2
Z +∞
x2
r
π Z +∞
x2 √
et on a donc e− 2 dx = . Ainsi, e− 2 dx = 2π.
0 2 −∞

43
Propriété
Si X ∼ N (0; 1), alors
E(X) = 0 et V (X) = 1.

Z +∞
Démonstration. • L’existence de xf (x)dx est assurée par le fait que la fonction x 7→ xf (x)
−∞
1
est continue et qu’en l’infini, xf (x) = o( ). Comme elle est impaire, on a bien
x2
Z +∞
1 x2
x · √ e− 2 dx = 0.
−∞ 2π
Z +∞
• Pour la variance, l’existence de x2 f (x)dx est assurée pour la même raison que l’espérance
−∞
et le calcul se fait en intégrant par parties. En effet
!
1 − x2 1 2 +∞
Z +∞  Z +∞

x2
− x2
2
x · √ e dx = √
2 −xe + e− 2 dx
−∞ 2π 2π −∞ −∞
1  √ 
= √ 0 + 2π = 1

La fonction de répartition n’a pas d’expression «explicite» à l’aide des fonctions usuelles. Elle
est donnée sousZ la forme d’une table fournie dans la page suivante, où sont rassemblées des valeurs
x 1 t2
approchées de √ e− 2 dt.
−∞ 2π

44
Loi normale centrée réduite

Le tableau donne avec une précision de 10−4 les valeurs de la fonction de répartition de la loi normale
centrée réduite : Z x
1 t2
FX (x) = √ e− 2 dt
−∞ 2π

Exemple 22. FX (1, 21) = 0, 8869 FX (0, 73) = 0, 7673 FX (1, 48) = 0, 9306.

Définition
Soient m ∈ R ei σ > 0. La variable aléatoire X suit la loi normale de paramètre m et σ si elle
a pour densité :
1 (x−m)2
∀x ∈ R, f (x) = √ e− 2σ2 .
σ · 2π
On note X ∼ N (m; σ).

45
Remarque 17. 1. On peut constater que f (2m − x) = f (x), ce qui indique que le graphe de f
est symétrique par rapport à la droite verticale x = m.
2. L’expression (x − m)2 est minimum pour x = m, ce qui va correspondre à un maximum pour
f de valeur :
1
f (m) = √ .
σ 2π
(m − x − σ) (m − x + σ) · f (x)
3. On a f 00 (x) = 4
,
σ
donc f 00 s’annule en changeant de signe pour x = m − σ et x = m + σ, ce qui correspond à
deux points d’inflexion pour le graphe de f .
4. Enfin, quand x devient infini, alors f (x) tend vers 0 et donc l’axe des abscisses est asymptote
au graphe.

Toutes ces remarques permettent de tracer le graphe de la densité f .

Pour des valeurs particulières, on trouve

Propriété
Si X est une variable aléatoire continue, alors pour tout a ∈ R on a :
1. P(X ≥ a) = P(X > a) = 1 − P(X ≤ a) = 1 − FX (a).
2. FX (−a) = 1−FX (a), car la fonction de répartition est symétrique par rapport à la droite
d’équation x = m ; c.a.d P(X < −a) = P(X > a).

46
3. Si a > 0, alors P(|X| < a) = 2FX (a) − 1.

Grâce à la propriété suivante, on peut toujour se ramèner à la loi normale centrée réduite :

Propriété
Soit X une variable aléatoire, alors
X −m
X ∼ N (m; σ) ⇐⇒ ∼ N (0; 1).
σ

Démonstration. Si X ∼ N (m; σ), alors pour tout y ∈ R on a :

X −m Z σy−m
1 (x−m)2
P( ≤ y) = P(X ≤ σy − m) = √ e− 2σ2 dx.
σ −∞ σ · 2π
x−m
En faisant le changement de variable t = nous obtenons
σ
X −m Z y
1 t2
P( ≤ y) = √ e− 2 dt.
σ −∞ 2π
X −m 1 x2 X −m
La variable aléatoire a pour densité x 7→ √ e− 2 , ainsi ∼ N (0; 1).
σ 2π σ

Propriété
Soit X une variable aléatoire, telle que X ∼ N (m; σ). Alors

E(X) = m V (X) = σ 2 .

X −m
Démonstration. On a X ∼ N (m; σ) =⇒ ∼ N (0; 1)
σ
et donc
X −m X −m
E( ) = 0 et V ( )=1
σ σ
ce qui entraine que
1
E(X − m) = 0 et 2 V (X − m) = 1
σ
et par suite
E(X) = m et V (X) = V (X − m) = σ 2 .

Application 8. D’après une étude récente, la taille des femmes marocaines est distribuée selon une
loi normale de moyenne m = 1, 58 et d’écart-type σ = 0, 06. Pour produire un stock de vêtements,
un fabricant souhaite utiliser cette loi.
1. Il commence par déterminer un intervalle de la forme [m − a; m + a] (donc symétrique autour
de la moyenne) contenant en moyenne 90% (environ) des tailles des femmes marocaines.
Calculer a.

47
 tailles, S, M et L, correspondant respectivement aux intervalles
2. Il en déduit trois
m−a m−a m+a m+a
m − a; , ; et ; m + a . Calculer le pourcentage de la production
3 3 3 3
qui doit être affecté à chaque taille.

Démonstration :

1. Soit T la variable aléatoire représentant la taille d’une femme. Par hypothèse, T suit une loi
normale N (1, 58; 0, 062). On cherche a > 0 tel que

P (T ∈ [m − a; m + a]) = 0, 9.
T −m
Soit la variable Y = . On sait que Y suit une loi normale standard N (0; 1). De plus,
σ
on a

m−a ≤ T ≤m+a
a T −m a
− = ≤ ≤ .
σ σ σ
a a
  
Donc, P (T ∈ [m − a; m + a]) = 0, 9 ⇐⇒ P T ∈ − ; − ] = 0, 9.
σ σ
Cherchons donc λ tel que P(Y ∈ [−λ; λ]) = 0, 9.
On utilise ci-dessus la manipulation classique permettant de se ramener à une
variable aléatoire distribuée selon une loi normale standard pour laquelle on dis-
pose d’une table. La technique consiste à appliquer à l’évènement défini sur la
variable d’origine (ici T ) les transformations qui conduisent à la variable centrée
et réduite (ici Y ). On transforme ainsi l’évènement sur T en un évènement sur Y
pour lequel on pourra appliquer la table.
On sait que
P(Y ∈ [−λ; λ]) = FY (λ) − FY (−λ)
car Y est une variable aléatoire continue. De plus, par symétrie de la loi normale standard,
on a FY (−λ) = 1 − FY (λ), et ainsi

P(Y ∈ [−λ; λ]) = 2FY (λ) − 1.

De ce fait, chercher λ tel que P(Y ∈ [−λ; λ]) = 0, 9 est équivalent à chercher λ tel que
1 + 0, 9
FY (λ) = = 0, 95.
2
La lecture de la table de la loi normale donne : FY (1, 64) = 0, 9495 et FY (1, 65) = 0, 9505.
Pour avoir un intervalle légèrement plus grand que celui recherché par le fabricant, on choisit
λ = 1, 65. Si on pose a = σ · λ = 0, 06 × 1, 65 = 0, 099, on a donc

P (T ∈ [m − a; m + a]) = P (T ∈ [1, 481; 1, 679]) ' 0, 9.

2. Étudions le premier intervalle. On a


a
m−a ≤ T ≤m−
3
a
−a ≤ T − m ≤ −
3
a T −m a
− = ≤ ≤
σ σ 3σ
λ
−λ = ≤ Y ≤ − .
3
48
et donc
!
a λ
 
P T ∈ [m − a; m − ] = P Y ∈ [−λ; − ]
3 3
λ
= FY (− ) − FY (−λ)
3
λ
= 1 − FY ( ) − 1 + FY (λ)
3
1, 65
 
= 0, 9505 − FY
3
= 0, 9505 − 0, 7088
= 0, 2417

On a de la même façon
!
a a λ λ
 
P T ∈ [m − ; m + ] = P Y ∈ [− ; ]
3 3 3 3
λ λ
= FY ( ) − FY (− )
3 3
λ
= 2FY ( ) − 1
3
= 2 × 0, 7088 − 1
= 0, 4176.

Et enfin
!
a λ
 
P T ∈ [m + ; m + a] = P Y ∈ [ ; λ]
3 3
λ
= FY (λ) − FY ( )
3
= 0, 9505 − 0, 7088
= 0, 2417.

ce dernier résultat étant évident par symétrie de la loi normale autour de sa moyenne.
On calcule enfin les pourcentages à partir de ces probabilités. La production totale correspond
à 90% de la population et on doit donc diviser les probabilités obtenues par cette valeur. On
obtient alors
0, 2417
pourcentage de S = ' 27%
0, 90
0, 4176
pourcentage de M = ' 46%
0, 90
0, 2417
pourcentage de L = ' 27%.
0, 90

49
BIBLIOGRAPHIE

[1] Jérôme ESCOFFIER : Probabilités et statistiques pour le CAPES externe et l’Agrigation


interne de mathematiques "deuxième édition".
[2] Jean Pierre Lecourte : Statistique et probabilités "Cours et exercices corrigés" 6ième édition.
[3] Sylvie Méléard : Aléatoire "Introduction à la théorie et au calcul des probabilités", Éditions de
l’École Polytechnique - Décembre 2010 91128 Palaiseau Cedex.

50

Vous aimerez peut-être aussi