Probabilités Et Statistique

Probabilités et statistique
Cours et travaux dirigés
Christian Bingane, PhD

christian.bingane@polymtl.ca
27 mars 2022
Table des matières
I Probabilités appliquées 5
1 Probabilités élémentaires 6
1.1 Concepts de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Analyse combinatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2 Variables aléatoires 13
2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Variable aléatoire discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.3 Variable aléatoire continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4 Quelques lois de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4.1 Lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4.2 Lois continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5 Transformation d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . 20
2.6 Caractéristiques d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . 21
2.6.1 Moyenne, médiane et mode . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.6.2 Variance et écart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.3 Moments et fonction caractéristique . . . . . . . . . . . . . . . . . . . . . . 23
2.7 Introduction à la fiabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.7.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.7.2 Fiabilité des systèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.8 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Vecteurs aléatoires 29
3.1 Fonction de répartition conjointe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2 Vecteur aléatoire discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3 Vecteur aléatoire continu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.4 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.4.1 Fonctions de répartition, de masse, de densité conditionnelles . . . . . . . . 31
3.4.2 Moyenne conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.4.3 Indépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.5 Caractéristiques d’un vecteur aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.6 Estimation d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.7 Combinaison linéaire de variables aléatoires . . . . . . . . . . . . . . . . . . . . . . 35
3.7.1 Somme de variables aléatoires indépendantes . . . . . . . . . . . . . . . . . 35
3.7.2 Loi multinomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.7.3 Loi multinormale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.8 Théorèmes limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2
TABLE DES MATIÈRES C. Bingane
3.9 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
4 Processus stochastiques 40
4.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.2 Quelques processus stochastisques . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.1 Chaînes de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.2.2 Processus de Poisson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2.3 Processus de Wiener . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
II Statistique 44
5 Statistique descriptive 45
5.1 Quelques représentations graphiques de données . . . . . . . . . . . . . . . . . . . . 45
5.1.1 Tableau d’effectifs et histogramme . . . . . . . . . . . . . . . . . . . . . . . 45
5.1.2 Diagramme en boîte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.2 Quelques mesures numériques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.3 Distributions échantillonnales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5.3.1 Quelques lois utiles en statistique . . . . . . . . . . . . . . . . . . . . . . . 47
5.3.2 Moyenne et variance échantillonnales . . . . . . . . . . . . . . . . . . . . . 49
5.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
6 Estimation de paramètres 52
6.1 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
6.1.1 Méthode du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . 52
6.1.2 Méthode des moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.2 Estimation par intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
7 Tests d’hypothèses 56
7.1 Tests paramétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
7.2 Test d’ajustement de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
7.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3
Table des figures
2.1 Quelques lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

2.2 Quelques lois continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3 Fiabilité des systèmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.1 Histogramme de l’exemple 57 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

5.2 Diagramme en boîte de l’exemple 57 . . . . . . . . . . . . . . . . . . . . . . . . . . 46
5.3 Lois utiles en statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4
Première partie
Probabilités appliquées
5
Chapitre 1
Probabilités élémentaires
1.1 Concepts de base

Définition 1. Une expérience aléatoire est une expérience qui peut être répétée sous les mêmes
conditions et dont le résultat ne peut pas être prédit avec certitude.
Définition 2. L’espace échantillon d’une expérience aléatoire est l’ensemble Ω de tous les résultats
possibles de cette expérience. Chaque résultat possible ω ∈ Ω est appelé événement élémentaire.
Exemple 1. Soit l’expérience aléatoire suivante : « on lance deux dés identiques à six faces ; si les deux
nombres obtenus sont égaux, on relance (une seule fois) les deux dés ». Combien y a-t-il d’événements
élémentaires dans l’espace échantillon ?
Définition 3. Un événement est un sous-ensemble de l’espace échantillon d’une expérience aléatoire.
Exemple 2. Un étudiant se lève à un instant x et se couche à un instant y, où 0 < x < y < 24. Soit
Ω = {(x, y) | 0 < x < y < 24} l’espace échantillon de cette expérience aléatoire. Écrire sous forme
mathématique l’événement E : « l’étudiant passe au moins trois heures de plus debout que couché ».
Soit Ω l’espace échantillon d’une expérience aléatoire. Soit deux événements A et B. On dit que
• A est inclus dans B, noté A ⊆ B, ssi ∀ω ∈ Ω, ω ∈ A ⇒ ω ∈ B,
• A et B sont égaux, noté A = B, ssi ∀ω ∈ Ω, ω ∈ A ⇔ ω ∈ B.
Si on munit l’ensemble des parties de Ω des opérations :
1. l’union : pour tout A, B ⊆ Ω, A ∪ B = {ω ∈ Ω | ω ∈ A ∨ ω ∈ B},
2. l’intersection : pour tout A, B ⊆ Ω, A ∩ B = {ω ∈ Ω | ω ∈ A ∧ ω ∈ B},
alors les propriétés suivantes sont vérifiées.
i) Pour tout A, B ⊆ Ω, A ∪ B = B ∪ A et A ∩ B = B ∩ A.
ii) Pour tout A, B, C ⊆ Ω, (A ∪ B) ∪ C = A ∪ (B ∪ C) et (A ∩ B) ∩ C = A ∩ (B ∩ C).
iii) Pour tout A, B, C ⊆ Ω, (A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C) et (A ∩ B) ∪ C = (A ∪ C) ∩ (B ∪ C).
iv) Pour tout A ⊆ Ω, A ∪ ∅ = A et A ∩ Ω = A.
v) Pour tout A ⊆ Ω, A ∪ Ω = Ω et A ∩ ∅ = ∅.
vi) Pour tout A ⊆ Ω, A ∪ A = A et A ∩ A = A.
vii) Pour tout A ⊆ Ω, il existe Ac := {ω ∈ Ω | ω ∈
/ A} ⊆ Ω, appelé complémentaire de A, tel que
c c
A ∪ A = Ω et A ∩ A = ∅.
viii) Pour tout A, B ⊆ Ω, (A ∪ B)c = Ac ∩ B c et (A ∩ B)c = Ac ∪ B c .
6
CHAPITRE 1. PROBABILITÉS ÉLÉMENTAIRES C. Bingane
Exemple 3. Soient A, B et C trois événements d’une expérience aléatoire dont l’espace échantillon
est Ω. Écrire sous forme mathématique l’événement E : « exactement un des événements A, B ou C
ne se produit pas ».
Exemple 4. Un transistor est pris au hasard et sa durée de vie est mesurée. L’espace échantillon Ω
de cette expérience aléatoire est [0, ∞). On considère les événements A = [0, 1], B = [0, 2] et
C = [1, ∞). Donner les intervalles qui correspondent aux événements suivants :
a) E1 = A ∪ (B ∩ C). b) E2 = [A ∩ (B c ∪ C c )]c .
Remarque. On appelle ∅ événement impossible et Ω événement certain.
1.2 Probabilité
Soit Ω l’espace échantillon d’une expérience aléatoire.
Définition 4. La probabilité d’un événement A ⊆ Ω est un nombre réel P[A] qui vérifie les propriétés :
1. P[A] ≥ 0 pour tout A ⊆ Ω,
2. P[Ω] = 1,
3. si A et B sont des événements incompatibles, i.e., A ∩ B = ∅, alors P[A ∪ B] = P[A] + P[B].
Théorème 1. Soit les événements A et B.
1. P[Ac ] = 1 − P[A].
2. P[A] ≤ 1.
3. P[∅] = 0.
4. P[A ∪ B] = P[A] + P[B] − P[A ∩ B].
5. Si A ⊆ B, alors P[A] ≤ P[B].
Démonstration.
1. On a Ac ∪ A = Ω et Ac ∩ A = ∅. Alors
P[Ω] = P[Ac ∪ A] = P[Ac ] + P[A] ⇒ P[Ac ] = P[Ω] − P[A] = 1 − P[A].
2. P[A] = 1 − P[Ac ] ≤ 1.
3. P[∅] = P[Ωc ] = 1 − P[Ω] = 1 − 1 = 0.
4. On peut écrire
A ∪ B = A ∪ (Ac ∩ B) ⇒ P[A ∪ B] = P[A] + P[Ac ∩ B],
B = (A ∩ B) ∪ (Ac ∩ B) ⇒ P[B] = P[A ∩ B] + P[Ac ∩ B].
Donc, en soustrayant membre à membre les deux égalités, on a
P[A ∪ B] − P[B] = P[A] − P[A ∩ B].
5. Si A ⊆ B, alors on a
B = A ∪ (Ac ∩ B) ⇒ P[B] = P[A] + P[Ac ∩ B] ≥ P[A].
Exemple 5. Soient A, B et C des événements tels que A ⊆ B, P[(B ∪C)c ] = 1/10, P[B ∩C] = 3/10,
P[Ac ∩ B] = 1/2 et P[C] = 13/20. Calculer P[A].
7
1.3 Probabilité conditionnelle

Soit l’espace échantillon Ω associé à une expérience aléatoire.
Définition 5. Soit A et B deux événements. La probabilité conditionnelle de A sachant B, qu’on note

P[A | B], est donnée par
P[A ∩ B]
P[A | B] = si P[B] > 0.
P[B]
Exemple 6. Deux événements A et B forment une partition de l’espace échantillon Ω d’une expérience
aléatoire. Calculer P[A | B] + P[A | B c ].
Théorème 2 (Formule de multiplication). Si A1 , A2 , . . . , An sont des événements tels que P[A1 ∩

A2 ∩ . . . ∩ An ] > 0, alors
P[A1 ∩ A2 ∩ . . . ∩ An ] = P[A1 ] P[A2 | A1 ] P[A3 | A1 ∩ A2 ] . . . P[An | A1 ∩ A2 ∩ . . . ∩ An−1 ].
Démonstration. Pour tout 1 ≤ k ≤ n, soit Bk = kj=1 Aj . Alors pour tout 2 ≤ k ≤ n,

T
P[Bk ]
Bk = Ak ∩ Bk−1 ⇒ P[Bk ] = P[Ak ∩ Bk−1 ] = P[Ak | Bk−1 ] P[Bk−1 ] ⇒ P[Ak | Bk−1 ] = .
P[Bk−1 ]
Par la suite,
n n n
Y Y P[Bk ] P[Bn ] Y
P[Ak | Bk−1 ] = = ⇒ P[Bn ] = P[B1 ] P[Ak | Bk−1 ].
k=2 k=2
P[Bk−1 ] P[B1]
k=2
Théorème 3 (Formule des probabilités totales). Soit B1 , B2 , . . . , Bn des événements formant une
partition de Ω, i.e.,
1. Bi ∩ Bj = ∅, pour tout i 6= j,
2. ni=1 Bi = Ω.
S
Si P[Bi ] > 0 pour tout i = 1, 2, . . . , n, alors pour tout événement A,

n
X
P[A] = P[A | Bi ] P[Bi ].
i=1
Démonstration. Soit B1 , B2 , . . . , Bn une partition de Ω. Si P[Bi ] > 0 pour tout i = 1, 2, . . . , n, alors

pour tout A ⊆ Ω,
n
! n n n
[ [ X X
A=A∩Ω=A∩ Bi = (A ∩ Bi ) ⇒ P[A] = P[A ∩ Bi ] = P[A | Bi ] P[Bi ].
i=1 i=1 i=1 i=1
Théorème 4 (Formule de Bayes). Soit B1 , B2 , . . . , Bn des événements formant une partition de Ω.

Si P[Bi ] > 0 pour tout i = 1, 2, . . . , n, alors pour tout événement A tel que P[A] > 0,
P[A | Bj ] P[Bj ]
P[Bj | A] = Pn
i=1 P[A | Bi ] P[Bi ]
pour tout j = 1, 2, . . . , n.
8
Démonstration. Soit B1 , B2 , . . . , Bn une partition de Ω. Si P[Bi ] > 0 pour tout i = 1, 2, . . . , n, alors

pour tout A ⊆ Ω tel que P[A] > 0,
P[A | Bj ] P[Bj ] thm. 3 P[A | Bj ] P[Bj ]

P[Bj | A] = = Pn
P[A] i=1 P[A | Bi ] P[Bi ]
pour tout j = 1, 2, . . . , n.
Définition 6. Deux événements A et B sont indépendants si et seulement si
P[A ∩ B] = P[A] P[B].
Remarque. Si A et B sont indépendants et P[B] > 0, alors P[A | B] = P[A].
Proposition 1. Si deux événements A et B sont indépendants, alors

• A et B c sont indépendants ;
• Ac et B sont indépendants ;
• Ac et B c sont indépendants.
Définition 7. On dit que n événements A1 , A2 , . . . , An sont

• deux à deux indépendants si et seulement si pour tout i 6= j,
P[Ai ∩ Aj ] = P[Ai ] P[Aj ],
• mutuellement indépendants si et seulement si pour tout J ⊆ {1, 2, . . . , n},

" #
\ Y
P Aj = P[Aj ].
j∈J j∈J
Exemple 7. Soient A, B et C des événements tels que A et B sont indépendants, P[A] = P[B] =
P[C] = 1/3 et P[C | A ∩ B] = 1/2. Calculer la probabilité P[A ∩ B | C].
Définition 8. Deux événements A et B sont conditionnellement indépendants par rapport à un événe-

ment C tel que P[C] > 0 si et seulement si
P[A ∩ B | C] = P[A | C] P[B | C].
Exemple 8. Dans une certaine usine, 80% des pièces fabriquées sont conformes aux normes. Chaque
pièce fabriquée est soumise à trois opérations de contrôle indépendantes. On suppose que chacune de
ces opérations déclare conformes aux normes 95% des pièces qui sont effectivement conformes aux
normes, et 10% des pièces qui en fait ne le sont pas. Calculer la probabilité qu’une pièce vendue soit
effectivement conforme aux normes.
1.4 Analyse combinatoire

Définition 9. Soit Ω un ensemble à n éléments.
1. Un k-arrangement sans répétition de Ω, où k est un entier naturel tel que 0 ≤ k ≤ n, est un
k-uplet d’éléments distincts de Ω. Le nombre de k-arrangements sans répétition de Ω est
n!
Akn = .
(n − k)!
9
2. Un k-arrangement avec répétition de Ω, où k est un entier naturel, est un k-uplet d’éléments

de Ω. Le nombre de k-arrangements avec répétition de Ω est nk .
3. Une k-combinaison sans répétition de Ω, où k est un entier naturel tel que 0 ≤ k ≤ n, est un
sous-ensemble de k éléments de Ω. Le nombre de k-combinaisons sans répétition de Ω est

n n!
= .
k k!(n − k)!
4. Une k-combinaison avec répétition de Ω, où k est un entier naturel, est un multi-ensemble de
k éléments de Ω. Le nombre de k-combinaisons avec répétition de Ω est

n+k−1 (n + k − 1)!
= .
k k!(n − 1)!
Exemple 9. Dix candidats sont interviewés pour combler deux postes dans une entreprise. De combien
de façons cette dernière peut-elle combler ces postes, si
a) les deux postes sont identiques ?
b) un poste est permanent et l’autre est temporaire ?
Exemple 10. Une classe est constituée de vingt étudiants. Quelle est la probabilité qu’exactement
deux d’entre eux aient le même anniversaire ?
Propriétés.
1. Pour tout x1 , x2 ∈ R et pour tout n ∈ N,
n
n
X n n−k k X n! k1 k2
(x1 + x2 ) = x1 x2 = x1 x2 .
k=0
k k +k =n
k1 !k2 !
1 2
En particulier, si x1 = x2 = 1, alors
n
X n
= 2n
k=0
k
pour tout n ∈ N. De façon générale, pour tout x1 , x2 , . . . , xm ∈ R et pour tout n ∈ N,
X n!
(x1 + x2 + . . . + xm )n = xk11 xk22 . . . xkmm .
k +k +...+k =n
k !k
1 2 ! . . . km !
1 2 m
2. Pour tout n1 , n2 ∈ N et pour tout k ∈ N tel que k ≤ n1 + n2 ,

min{k,n1 }
X n1 n2 n1 + n2
= .
j k−j k
j=max{0,k−n2 }
En particulier, si n1 = n et n2 = 1, alors

n n n+1
+ =
k−1 k k
pour tout 1 ≤ k ≤ n.
3. Pour tout k1 , k2 ∈ N et pour tout n ∈ N tel que n ≥ k1 + k2 ,
n−k
X2 j n − j n + 1
= .
j=k
k1 k 2 k1 + k2 + 1
1
En particulier, si k1 = k et k2 = 0, alors
n
X j n+1
=
j=k
k k+1
pour tout n ≥ k.
10
1.5 Exercices
1. Combien de plaques d’immatriculation différentes constituées de trois lettres et de trois chiffres y
a-t-il si les trois lettres sont placées soit au début, soit à la fin de la plaque ?
2. La combinaison d’un cadenas est constituée de trois chiffres. Combien de possibilités y a-t-il si
a) chaque chiffre ne peut pas être choisi plus d’une fois ?
b) chaque chiffre ne peut pas être choisi plus de deux fois ?
3. Une classe est composée de 5 étudiantes et de 45 étudiants. Parmi les 5 étudiantes, il y en a 4 qui
sont en 2è année, tandis que 30 des 45 étudiants sont en 2è année. Deux personnes sont prises au
hasard, et avec remise, parmi les 50 personnes dans cette classe. Sachant que dans les deux cas, la
personne choisie était en 2è année, quelle est la probabilité qu’un étudiant et une étudiante aient été
choisis ?
4. Des plaques d’immatriculation sont constituées de six caractères pris au hasard parmi les 26 lettres
de l’alphabet et les 10 chiffres. Quelle est la probabilité qu’une plaque quelconque comporte au moins
un chiffre ?
5. Un ingénieur est abonné à deux services indépendants de courrier électronique. La probabilité

que le service 1 soit en panne lors d’une journée est de 1/20, tandis que la probabilité d’une panne
du service 2 est de 1/100 seulement. De plus, lorsque le service 1 fonctionne, la probabilité qu’un
message envoyé soit reçu par son destinataire est de 0.995. Cette probabilité est de 0.99 dans le cas du
service 2. Pour plus de sûreté, l’ingénieur désire envoyer un message important en utilisant les deux
services.
a) Quelle est la probabilité que le destinataire reçoive ce message ?
b) Sachant que le destinataire a reçu le message, quelle est la probabilité que seul le message que
l’ingénieur désire envoyer à l’aide du service 1 se soit rendu ?
6. Une entreprise achète des composants électriques par lots de dix composants. À la réception de
chaque lot, deux composants sont pris au hasard et sans remise et sont ensuite testés. L’entreprise
accepte le lot seulement si aucun des deux composants testés n’est défectueux. En se basant sur les
données antérieures, on estime que la probabilité qu’un lot de dix composants ne contienne aucun
défectueux est de 0.7, la probabilité qu’il contienne exactement un défecteux est de 0.2, et la probabilité
qu’il contienne exactement deux défectueux est de 0.1. Calculer la probabilité
a) qu’un lot ne contienne aucun défectueux et soit accepté ;
b) qu’un lot contienne exactement deux défectueux ou soit accepté ;
c) qu’un lot contienne exactement un défectueux, étant donné qu’il a été rejeté ;
d) que trois lots (indépendants) consécutifs soient rejetés.
7. Une boîte contient cinq composants de marque A, cinq de marque B et cinq de marque C. On prend
cinq composants au hasard et sans remise.
a) Quelle est la probabilité que les cinq composants pris au hasard soient de la même marque ?
b) Quelle est la probabilité que les cinq composants soient de la même marque, étant donné qu’au
moins quatre des cinq composants pris au hasard sont de la même marque ?
8. Une particule se trouve à l’origine à l’instant initial et se déplace ensuite sur les entiers positifs
comme suit : à chaque unité de temps, on lance une pièce de monnaie (de façon indépendante) pour
laquelle la probabilité d’obtenir « pile » égale 1/3 ; si l’on obtient « pile », la particule se déplace d’un
entier vers la droite, tandis que si l’on obtient « face », elle se déplace de deux entiers vers la droite.
11
a) Quelle est la probabilité que la particule ne visite pas le point 3 ?

b) De combien de façons différentes la particule peut-elle passer de 0 à 10 sans visiter le point 2 ?
9. Un système A est constitué de trois sous-systèmes placés en série ; chaque sous-système comprend
deux composants en parallèle. Un autre système B est constitué de deux sous-systèmes en parallèle et
chaque sous-système comprend trois composants placés en série.
On suppose que tous les composants des deux systèmes fonctionnent indépendamment les uns des
autres et ont tous une fiabilité de 90% à un instant donné.
a) Calculer la fiabilité du système A à cet instant.
b) Calculer la fiabilité du système B à ce même instant.
10. On considère le système illustré dans la figure ci-dessous. Chaque composant fonctionne avec une
probabilité de 1/2, et ce, indépendamment des trois autres.
3
2
4
a) Quelle est la probabilité que le système fonctionne ?

b) Étant donné que le système fonctionne, quelle est la probabilité que le composant 1 fonctionne ?
12
Chapitre 2
Variables aléatoires
2.1 Définitions
Définition 10. Soit une expérince aléatoire à laquelle on associe un espace échantillon Ω. Une variable
aléatoire est une fonction X définie comme suit
X: Ω → R
ω 7→ x = X(ω).
L’ensemble des valeurs possibles de X, qu’on note SX , est appelé support de X, i.e., SX = X(Ω).
Définition 11. La fonction de répartition d’une variable aléatoire X est une fonction FX telle que
FX (x) := P[X ≤ x].
Propriétés.
1. 0 ≤ FX (x) ≤ 1 pour tout x ∈ R.
2. FX est non décroissante.
3. FX est continue à droite.
4. lim FX (x) = 0 et lim FX (x) = 1.
x→−∞ x→∞
Théorème 5. Si a < b, alors P[a < X ≤ b] = FX (b) − FX (a).
Démonstration. Notons d’abord que {X ≤ b} = {X ≤ a} ∪ {a < X ≤ b}. Alors
P[X ≤ b] = P[X ≤ a] + P[a < X ≤ b] ⇒ FX (b) = FX (a) + P[a < X ≤ b].
Corollaire 1. Pour tout x ∈ R, P[X = x] = FX (x) − FX (x− ) avec FX (x− ) = lim FX (x − ε).
ε↓0
Exemple 11. Soit 

 0 si x < 0,
1
FX (x) = 4
(x + 1) si 0 ≤ x < 1,
1 si x ≥ 1.

Calculer P[0 < X ≤ 1/2] + P[X = 1].
Définition 12. Le quantile d’ordre p ∈ (0, 1) d’une variable aléatoire X est un nombre réel xp tel que
P[X ≤ xp ] ≥ p et P[X ≥ xp ] ≥ 1 − p.
13
CHAPITRE 2. VARIABLES ALÉATOIRES C. Bingane
• Le quantile d’ordre 1/2 est aussi appelé médiane.

• Pour tout k = 1, 2, 3, le quantile d’ordre k/4 est aussi appelé k-ième quartile.
• Pour tout k = 1, 2, . . . , 9, le quantile d’ordre k/10 est aussi appelé k-ième décile.
• Pour tout k = 1, 2, . . . , 99, le quantile d’ordre k/100 est aussi appelé k-ième centile.
1 1
Exemple 12. Soit FX (x) = 2
+ π
arctan x pour tout x ∈ R. Déterminer les premier, deuxième et
troisième quartiles de X.
Définition 13. Soit A un événement décrit sous la forme X ∈ AX ⊆ SX . On suppose que P[A] =
P[X ∈ AX ] > 0. La fonction de répartition conditionnelle de X sachant A est donnée par
P[{X ≤ x} ∩ {X ∈ AX }]
FX (x | A) = .
P[X ∈ AX ]
Exemple 13. Soit

1 λx

2
e si x < 0,
FX (x) =
1 − 21 e−λx si x ≥ 0,
où λ > 0. Calculer FX (1 | X > 0).
2.2 Variable aléatoire discrète

Si SX est fini ou dénombrable, on dit que la variable aléatoire X est discrète.
Définition 14. La fonction de masse d’une variable aléatoire discrète X est une fonction pX telle que
pX (x) := P[X = x].
La fonction de répartition de X est alors donnée par

X
FX (x) = p(t).
t≤x
Propriétés.
1. Pour tout x ∈ SX , pX (x) > 0 et pour tout x ∈
/ SX , pX (x) = 0.
X
2. pX (x) = 1.
x∈SX
Exemple 14. Soit X une variable aléatoire discrète dont la fonction de masse est donnée dans le
tableau ci-dessous. Calculer FX (0) + FX (1/2).
x −1 0 1
pX (x) 1/8 3/8 1/2
P[X ∈ AX ] > 0. La fonction de masse conditionnelle de X sachant A est donnée par
P[{X = x} ∩ {X ∈ AX }]
pX (x | A) = .
P[X ∈ AX ]
14
2.3 Variable aléatoire continue

Si SX est non dénombrable et FX est continue sur R, on dit que la variable aléatoire X est continue.
Dans ce cas, pour tout x ∈ R et pour tout ε > 0 assez petit, on peut écrire
FX (x + ε) − FX (x) d
P[x < X ≤ x + ε] = FX (x + ε) − FX (x) = ε · ≈ ε FX (x).
ε dx
Définition 16. La fonction de densité d’une variable aléatoire continue X est une fonction fX telle
que
d
fX (x) := FX (x).
dx
La fonction de répartition de X est alors donnée par
Z x
FX (x) = fX (t) dt.
−∞
Propriétés.
1. Pour tout x ∈ SX , fX (x) > 0 et pour tout x ∈
/ SX , fX (x) = 0.
Z
2. fX (x) dx = 1.
SX
Exemple 15. Une variable aléatoire continue X possède la fonction de densité fX (x) = 12 e−|x| pour
x ∈ R. Calculer P[−1 < X ≤ 1] + P[X = 2].
Remarque. Si X est une variable discrète, on peut définir sa fonction de densité par
X
fX (x) = pX (t)δ(x − t),
t∈SX
où δ(·) est la distribution de Dirac.
P[X ∈ AX ] > 0. La fonction de densité conditionnelle de X sachant A est donnée par
d
fX (x | A) = FX (x | A).
dx
Exemple 16. La fonction de densité d’une variable aléatoire X est fX (x) = 2x si 0 < x < 1. Calculer
fX (1/4 | X ≤ 1/2).
2.4 Quelques lois de probabilité

2.4.1 Lois discrètes
Loi de Bernouilli
Soit l’espace échantillon Ω d’une expérience aléatoire. On s’intéresse à un événement particulier A.
Soit X la variable aléatoire associée à cette expérience :

1 si ω ∈ A,
X(ω) =
0 sinon.
15
Tout résultat de cette expérience appartenant à A est considéré comme un succès et tout résultat
contraire est considéré comme un échec. Une telle expérience est appelée épreuve ou essai de Ber-
nouilli.
On dit que X suit une loi de Bernouilli de paramètre p, où 0 < p < 1, et
pX (x) = px (1 − p)1−x
pour tout x ∈ SX = {0, 1}. On écrit X ∼ Bern(p). Sa fonction de répartition est donnée par

 0 si x < 0,
FX (x) = 1 − p si 0 ≤ x < 1,
1 si x ≥ 1.

Loi binomiale
Supposons que l’on effectue n essais de Bernouilli de paramètre p de façon indépendante et on compte
le nombre X de succès. On dit que X suit une loi binomiale de paramètres (n, p) et

n x
pX (x) = p (1 − p)n−x
x
pour tout x ∈ SX = {0, 1, . . . , n}. On écrit X ∼ B(n, p). Sa fonction de répartition est donnée par


 0 si x < 0,
 bxc
n k
 X
FX (x) = p (1 − p)n−k si 0 ≤ x < n,
 k
 k=0


1 si x ≥ n.
Exemple 17. Soit X ∼ B(5, 1/5). Calculer P[X = 1 | X ≤ 1].
Remarque. La loi B(1, p) est une loi Bern(p).
Loi géométrique
À présent, on s’intéresse au nombre X d’essais nécessaires de Bernouilli afin d’obtenir un premier
succès. On dit que X suit une loi géométrique de paramètre p et
pX (x) = (1 − p)x−1 p
pour tout x ∈ SX = {1, 2, . . .}. On écrit X ∼ Geo(p). Sa fonction de répartition est donnée par

0 si x < 1,
FX (x) = bxc
1 − (1 − p) si x ≥ 1.
Exemple 18. Des boîtes contiennent 20 objets chacune. On examine le contenu des boîtes jusqu’à ce
que l’on en trouve une qui ne contient aucun objet défecteux. Soit X le nombre de boîtes que l’on
doit examiner pour terminer l’expérience aléatoire. Quelle loi suit X si la probabilité qu’un objet soit
défectueux est de 1/10, indépendamment d’un objet à l’autre ?
Théorème 6 (Propriété de non vieillissement). Soit X ∼ Geo(p). Pour tout j, k ∈ SX ,
P[X > j + k | X > j] = P[X > k].
Démonstration.
P[{X > j + k} ∩ {X > j}]
P[X > j + k | X > j] =
P[X > j]
P[X > j + k] (1 − p)j+k
= = = (1 − p)k = P[X > k].
P[X > j] (1 − p)j
16
Loi de Poisson
On dit que X suit une loi de Poisson de paramètre λ > 0 si
λx
pX (x) = e−λ
x!
pour tout x ∈ SX = {0, 1, . . .}. On écrit X ∼ Poi(λ). Sa fonction de répartition est donnée par


 0 si x < 0,
bxck
FX (x) = −λ
Xλ
 e
 si x ≥ 0.
k=0
k!
Exemple 19. On suppose que le nombre X de particules émises par une source radioactive pendant
une période d’une heure suit une loi de Poisson de paramètre λ = 1/2, indépendamment d’une heure
à l’autre. Soit Y le nombre d’heures pendant lesquelles aucune particule n’est émise, parmi les 24
heures d’une journée donnée. Quelle loi suit Y ?
Théorème 7. Soit un réel λ > 0. Pour tout naturel k,

k n−k
n λ λ λk
lim 1− = e−λ .
n→∞ k n n k!
Remarque. Soit X ∼ B(n, p). Si n est assez grand et p assez petit, alors X ≈ Poi(np).
Exemple 20. Une école a acheté 20 ordinateurs pour que ses élèves puissent se brancher sur le réseau
Internet. L’école a distribué des codes d’accès aux 200 élèves inscrits au cours d’informatique. On
estime que chaque élève qui possède un code d’accès a une probabilité de 0.2 de vouloir se brancher
à midi lors d’une journée quelconque, et ce, indépendamment d’un élève à l’autre et d’une journée
à l’autre. Utiliser une approximation de Poisson pour calculer la probabilité que tous les ordinateurs
soient occupés, à midi, lors d’une journée donnée.
2.4.2 Lois continues

Soit X une variable aléatoire continue.
Loi uniforme
On dit que X suit une loi uniforme de paramètres (a, b), où a < b, si
1
fX (x) =
b−a
pour tout x ∈ SX = (a, b). On écrit X ∼ U(a, b). Sa fonction de répartition est donnée par

 0
 x− si x < a,
a
FX (x) = si a ≤ x < b,
 b−a

1 si x ≥ b.
17
Fonctions de masse et de répartition d’une loi de Bernouilli Fonctions de masse et de répartition d’une loi binomiale
1 1
0.9 0.9
0.8 0.8
0.7 0.7
0.6 0.6
pX pX
0.5 0.5
FX FX
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
−1 −0.5 0 0.5 1 1.5 2 −1 0 1 2 3 4 5
(a) Loi Bern(3/4) (b) Loi B(4, 1/2)
Fonctions de masse et de répartition d’une loi géométrique Fonctions de masse et de répartition d’une loi de Poisson
1 1
0.9 0.9
0.8 0.8
0.7 0.7
0.6 0.6
pX pX
0.5 0.5
FX FX
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
0 1 2 3 4 5 6 −1 0 1 2 3 4 5
√
(c) Loi Geo( 5/2 − 1/2) (d) Loi Poi(1)
Figure 2.1 – Quelques lois discrètes
Loi exponentielle
On dit que X suit une loi exponentielle de paramètre λ > 0 si
fX (x) = λe−λx
pour tout x ∈ SX = (0, ∞). On écrit X ∼ Exp(λ). Sa fonction de répartition est donnée par

0 si x < 0,
FX (x) = −λx
1−e si x ≥ 0.
Exemple 21. Soit X une variable aléatoire qui suit une loi exponentielle de paramètre λ. Quelle est
la valeur de λ si le 90è centile de X est 1 ?
Théorème 8 (Propriété de non vieillissement). Soit X ∼ Exp(λ). Pour tout s, t > 0,
P[X > s + t | X > s] = P[X > t].
Démonstration.
P[{X > s + t} ∩ {X > s}]
P[X > s + t | X > s] =
P[X > s]
P[X > s + t] e−λ(s+t)
= = = e−λt = P[X > t].
P[X > s] e−λs
18
Loi gamma
On dit que X suit une loi gamma de paramètres (α, λ), où α > 0 et λ > 0, si
λ
fX (x) = (λx)α−1 e−λx
Γ(α)
pour tout x ∈ SX = (0, ∞). On écrit X ∼ G(α, λ).
Exemple 22. Calculer P[X 2 ≤ 9], où X ∼ G(2, 1).
Remarques.
1. La loi G(1, λ) est une loi Exp(λ).
2. La loi G(n, λ), où n est un entier, est aussi appelée loi d’Erlang de paramètres (n, λ). Dans ce
cas, sa fonction de répartition est
 n−1
 −λx
X (λx)k
1−e si x ≥ 0,

FX (x) = k!
 k=0
0 sinon.

Dans ce cas, P[X > x] = P[Y ≤ n − 1], où Y ∼ Poi(λx).

3. La loi G(n/2, 1/2), où n est un entier, est aussi appelée loi du khi-deux à n degrés de liberté.
Loi normale
On dit que X suit une loi normale ou gaussienne de paramètres (µ, σ 2 ), avec σ > 0, si
1 (x−µ)2
fX (x) = √ e− 2σ2
σ 2π
pour tout x ∈ SX = (−∞, ∞). On écrit X ∼ N(µ, σ 2 ).

Remarques.
1. Les paramètres µ et σ sont respectivement la moyenne et l’écart-type de la variable aléatoire X.
2. Pour tout x ∈ R, fX (µ − x) = fX (µ + x) et FX (µ − x) = 1 − FX (µ + x).
3. Si µ = 0 et σ = 1, la loi normale est dite centrée et réduite. On notera Φ et φ sa fonction de
répartition et sa fonction de densité respectives.
Théorème 9. Si X ∼ N(µ, σ 2 ), alors Z = X−µ ∼ N(0, 1) et pour tout x ∈ R, FX (x) = Φ x−µ

σ σ
.
Démonstration. Soit FZ et fZ la fonction de répartition et la fonction de densité respectives de Z.

Alors FZ (z) = P[Z ≤ z] = P[X ≤ µ + σz] = FX (µ + σz). Par la suite,
d d 1 z2
fZ (z) = FZ (z) = FX (µ + σz) = σfX (µ + σz) = √ e− 2 = φ(z).
dz dz 2π
Donc, Z ∼ N(0, 1).
Exemple 23. Soit X ∼ N(1, 1). Calculer P[X 2 − 2X > 0].
Remarque. De façon générale, si X ∼ N(µ, σ 2 ) alors Y = aX + b ∼ N(aµ + b, a2 σ 2 ), où a 6= 0.
19
Fonctions de densité et de répartition d’une loi uniforme Fonctions de densité et de répartition d’une loi exponentielle
1 1
0.9 0.9
0.8 0.8
0.7 0.7
0.6 0.6
fX fX
0.5 0.5
FX FX
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
−3 −2 −1 0 1 2 3 −1 0 1 2 3 4 5
√ √
(a) Loi U(− 3, 3) (b) Loi Exp(1)
Fonctions de densité et de répartition d’une loi gamma Fonctions de densité et de répartition d’une loi normale
1 1
0.9 0.9
0.8 0.8
0.7 0.7
0.6 0.6
fX fX
0.5 0.5
FX FX
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
−1 0 1 2 3 4 5 −3 −2 −1 0 1 2 3
(c) Loi G(4, 2) (d) Loi N(0, 1)
Figure 2.2 – Quelques lois continues
2.5 Transformation d’une variable aléatoire

Soit X une variable aléatoire dont on connaît la fonction de répartition FX et soit une fonction
g : R → R. On cherche à déterminer la fonction de répartition de la nouvelle variable aléatoire
Y := g(X).
1. Si X est une variable discrète, alors Y est aussi une variable discrète et sa fonction de masse pY
est donnée par X
pY (y) = pX (x),
x|g(x)=y
où pX est la fonction de masse de X.

2. Si X est une variable continue et g est une fonction telle que g(x) = cj ∈ R pour tout x ∈ Cj et
pour tout j = 1, 2, . . ., avec C1 , C2 , . . . formant une partition finie ou dénombrable du support
de X, alors Y est une variable discrète et sa fonction de masse pY est donnée par
X
pY (y) = P[X ∈ Cj ],
j|cj =y
3. Si X est une variable continue et g est une fonction continue, alors Y est aussi une variable
continue et sa fonction de répartition est donnée par
Z
FY (y) = P[g(X) ≤ y] = fX (x) dx,
x|g(x)≤y
20
où fX est la fonction de densité de X. De plus, si g est une fonction monotone, alors

−1
dg (y)
fY (y) = fX [g −1 (y)],
dy
où g −1 est la fonction inverse de g.

Exemple 24. Soit Y := cos(πX), où X ∼ Poi(1). Calculer pY .
Exemple 25. Soit 
 0 si X ≤ 0,
Y := 1 si 0 < X ≤ 1,
2 si X > 1,

où X ∼ N(0, 1). Calculer pY .

Exemple 26. Soit Y := 1/X 2 , où X ∼ U(1, 3). Calculer fY .
2.6 Caractéristiques d’une variable aléatoire

2.6.1 Moyenne, médiane et mode
Soit une variable aléatoire X.
Définition 18. L’espérance mathématique ou la moyenne de X, qu’on note E[X] = µ, est donnée par
 X


 xpX (x) si X est discrète,
E[X] := Zx∈SX


 xfX (x) dx si X est continue.
SX
Remarques.
• Lorsque E[X] = 0, on dit que X est une variable centrée.
• Pour tout a, b ∈ R, E[aX + b] = a E[X] + b.
Proposition 2. Supposons que X est à valeurs non négatives.
• Si X est discrète et SX ⊆ N, alors E[X] = ∞
P
k=0 P[X > k].
R∞
• Si X est continue, alors E[X] = 0 P[X > x] dx.
Démonstration.
• X est discrète et SX ⊆ N :
∞
X ∞ X
X k ∞ X
X ∞
E[X] = kpX (k) = pX (k) = pX (k)
k=1 k=1 j=1 j=1 k=j
∞
X X∞
= P[X > j − 1] = P[X > j].
j=1 j=0
• X est continue : Z ∞ Z ∞ Z x
E[X] = xfX (x) dx = fX (x) dt dx
0 0 0
Z ∞Z ∞ Z ∞
= fX (x) dx dt = P[X > t] dt.
0 t 0
21
Théorème 10 (Inégalité de Markov). Si X est à valeurs non négatives et E[X] est finie, alors pour
tout a > 0, P[X > a] ≤ E[X]/a.
Démonstration.
• X est une variable discrète :
X X X
E[X] = xpX (x) = xpX (x) + xpX (x)
x≥0 0≤x≤a x>a
X
≥ xpX (x)
x>a
X X
≥ apX (x) = a pX (x) = a P[X > a].
x>a x>a
• X est une variable continue :

Z ∞ Z a Z ∞
E[X] = xfX (x) dx = xfX (x) dx + xfX (x) dx
0 0 a
Z ∞
≥ xfX (x) dx
a
Z ∞ Z ∞
≥ afX (x) dx = a fX (x) dx = a P[X > a].
a a
Exemple 27. Soit X ∼ G(30, 20). Selon l’inégalité de Markov, quelle est la valeur minimale de
P[X ≤ 2] ?
Théorème 11 (de transfert). La moyenne de g(X), où g est une fonction réelle, est donnée par
 X


 g(x)pX (x) si X est discrète,
E[g(X)] = Zx∈SX


 g(x)fX (x) dx si X est continue.
SX
Exemple 28. Soit X une variable aléatoire dont la fonction de densité est fX (x) = xe−x pour x > 0.
Calculer E[X −2 ].
P[X ∈ AX ] > 0. La moyenne conditionnelle de X sachant A est donnée par
 X


 xpX (x | A) si X est discrète,
x∈A
E[X | A] = Z X


 xfX (x | A) dx si X est continue.
AX
Exemple 29. Soit X ∼ Exp(1). Calculer E[X | 1 < X ≤ 2].

Définition 20. La médiane de X est le quantile d’ordre 1/2 de X.
Définition 21. Le mode de X est le nombre réel x̂ qui maximise sa fonction de densité (ou de masse). Si
X possède un seul mode, on dit que X est unimodale. Dans le cas contraire, elle est dite multimodale.
Exemple 30. Déterminer la moyenne, la médiane et le mode de X ∼ G(2, 1).
22
2.6.2 Variance et écart-type

Soit une variable aléatoire X telle que E[X 2 ] < ∞.
Définition 22. La variance de X, qu’on note var(X) = σ 2 , est donnée par
var(X) := E[(X − E[X])2 ] = E[X 2 ] − (E[X])2 .
Remarques.
• La variance d’une variable aléatoire est une grandeur non négative.
• Lorsque var(X) = 1, on dit que X est une variable réduite.
• On définit l’écart-type d’une variable aléatoire X par std(X) :=
p
var(X) = σ.
• Pour tout a, b ∈ R, var(aX + b) = a2 var(X).
Exemple 31. Soit X une variable aléatoire discrète dont la fonction de masse est donnée dans le
tableau ci-dessous. Calculer std(X 2 ).
x −1 0 1
pX (x) 1/2 1/4 1/4
Théorème 12 (Inégalité de Bienaymé-Tchebychev). Soit X une variable aléatoire de moyenne µ et

de variance σ 2 finies. Pour tout a > 0, P[|X − µ| > a] ≤ σ 2 /a2 .
Démonstration. Notons d’abord que P[|X − µ| > a] = P[(X − µ)2 > a2 ]. Soit Y := (X − µ)2 une
variable aléatoire à valeurs non négatives. D’après l’inégalité de Markov,
E[Y ] var(X) σ2
P[|X − µ| > a] = P[Y > a2 ] ≤ = = .
a2 a2 a2
Exemple 32. La durée de vie moyenne d’un certain type de pneu est de 3 ans, avec un écart-type de
0.3 an. Que peut-on dire, avec le plus de précision possible, au sujet de la probabilité p qu’un pneu de
ce type dure plus de 54 mois ou moins de 18 mois ?
P[X ∈ AX ] > 0 et que E[X 2 | A] < ∞. La variance conditionnelle de X sachant A est donnée par
var(X | A) = E[(X − E[X | A])2 | A] = E[X 2 | A] − (E[X | A])2 .
2.6.3 Moments et fonction caractéristique

Soit X une variable aléatoire. Pour un entier n ≥ 1, on définit
• son moment d’ordre n par µ0n := E[X n ] et
• son moment centré d’ordre n par µn := E[(X − E[X])n ] si sa moyenne | E[X]| < ∞.
Exemple 33. Soit X ∼ G(α, λ). Pour un entier n ≥ 1, calculer E[X n ].
Remarques.
1. Le moment d’ordre 1 par rapport à l’origine correspond à la moyenne.
2. Le moment centré d’ordre 1 est toujours nul et le moment centré d’ordre 2 correspond à la
variance.
23
Pn n Pn n
(−1)k µ0n−k µk et µ0n =

3. µn = k=0 k k=0 k
µn−k µk avec µ = E[X].
La fonction caractéristique de X est une fonction ϕX : R → C telle que
ϕX (ω) := E[ejωX ],
où j2 = −1.
Exemple 34. Soit X ∼ Bern(3/4). Calculer ϕX (1).

2
Exemple 35. Soit X une variable aléatoire dont la fonction caractéristique ϕX (ω) = e−ω . On définit
Y := 2X − 1. Calculer la fonction caractéristique de Y .
Remarque. Si on connaît la fonction caractéristique ϕX , alors

Z ∞
1
fX (x) = e−jωx ϕX (ω) dω.
2π −∞
La fonction caractéristique caractérise entièrement une variable aléatoire.

(n)
Proposition 3. Si E[X n ] existe, alors ϕX (0) = jn E[X n ].
Démonstration. Soit X une variable aléatoire telle que E[X n ] existe pour tout n ∈ N. On a
"∞ # ∞
X (jωX)n X (jω)n
jωX
ϕX (ω) = E[e ] = E = E[X n ].
n=0
n! n=0
n!
(n)
Alors ϕX (0) = jn E[X n ].
Table 2.1 – Quelques lois de probabilité et leurs caractéristiques
Loi Moyenne Variance Fonction caractéristique

Bern(p) p p(1 − p) 1 − p + pejω
n
B(n, p) np np(1 − p) 1 − p + pejω
1 1−p pejω
Geo(p) p p2 1−(1−p)ejω
−λ(1−ejω )
Poi(λ) λ λ e
a+b (b−a)2 ejωb −ejωa
U(a, b) 2 12 jω(b−a)
1 1 λ
Exp(λ) λ λ2 λ−jωα
α α λ
G(α, λ) λ λ2 λ−jω
ω2 σ2
N(µ, σ 2 ) µ σ2 ejωµ− 2
2.7 Introduction à la fiabilité

2.7.1 Définitions
Soit une variable aléatoire continue T telle que ST = (0, ∞). La variable T désigne la durée de vie
d’un composant ou d’un système.
Définition 24. La fonction de fiabilité du système est définie par
R(t) = P[T > t] = 1 − FT (t).
24
La fiabilité d’un système pour une durée donnée est donc la probabilité qu’aucune défaillance ne
survienne pendant cette durée.
Définition 25. On définit

1. la durée de vie moyenne par
Z ∞
prop. 2
E[T ] = R(t) dt,
0
2. le taux de défaillance par
P[t < T ≤ t + ∆t | T > t] R0 (t) fT (t)

r(t) = fT (t | T > t) = lim =− = ,
∆t↓0 ∆t R(t) 1 − FT (t)
Exemple 36. Supposons que la durée de vie d’un système est une variable aléatoire T dont la fonction
de densité est donnée par fT (t) = 1/2 si 1 < t < 3. Calculer le taux de défaillance r(t) à l’instant
t = 2.
2.7.2 Fiabilité des systèmes

Soit un système formé d’un ensemble de n composants ou sous-systèmes montés en série ou parallèle.
On suppose que les composants fonctionnent et tombent en panne de façon indépendante. Pour chaque
composant k, k = 1, 2, . . . , n, on définit Tk , Rk , rk sa durée de vie, sa fiabilité et son taux de défaillance
respectivement.
1
2
1 2 ··· n
···
n
(a) Montage en série (b) Montage en parallèle
Figure 2.3 – Fiabilité des systèmes
Montage en série
La durée de vie T d’un montage en série est T = min{T1 , T2 , . . . , Tn }. Alors
n
ind.
Y
R(t) = P[T > t] = P [T1 > t, T2 > t, . . . , Tn > t] = P[Tk > t]
k=1
n
Y
= Rk (t),
k=1
Xn
r(t) = rk (t).
k=1
25
Montage en parallèle
On considère deux cas :
1. Redondance active : tous les composants commencent à fonctionner à l’instant t = 0. Alors la
durée de vie du système est donnée par T = max{T1 , T2 , . . . , Tn } et
n
ind.
Y
R(t) = 1 − P[T ≤ t] = 1 − P [T1 ≤ t, T2 ≤ t, . . . , Tn ≤ t] = 1 − P[Tk ≤ t]
k=1
n
Y
=1− [1 − Rk (t)],
k=1
n
1 − R(t) X Rk (t)
r(t) = rk (t).
R(t) k=1 1 − Rk (t)
2. Redondance passive : seul le composant 1 commence à fonctionner à l’instant t = 0. Une fois

en panne, le composant
Pn 2 prend le relai et ainsi de suite. Alors la durée de vie du système est
donnée par T = k=1 Tk . On verra dans le chapitre 3 que
n
X
E[T ] = E[Tk ],
k=1
Xn
var(T ) = var(Tk ),
k=1
fT (t) = fT1 (t) ∗ fT2 (t) ∗ . . . ∗ fTn (t).
Exemple 37. On considère un système constitué de deux composants placés en parallèle et d’un
troisième composant placé en série. Quelle est la fiabilité du système à l’instant t = 3 si les trois
composants fonctionnent indépendamment et possèdent tous la fonction de fiabilité R(t) = e−t pour
t > 0?
2.8 Exercices
11. On suppose que la probabilité qu’un appel téléphonique dure plus de cinq minutes est de 0.1,
indépendamment d’un appel à l’autre.
a) Calculer la probabilité que, parmi 20 appels pris au hasard, il y en ait plus de 18 qui ne durent
pas plus de cinq minutes.
b) Calculer approximativement la probabilité en a) à l’aide d’une loi de Poisson.
c) Calculer la probabilité que cela prenne moins de cinq appels pour en obtenir un premier qui
dure plus de cinq minutes.
d) Calculer la probabilité que, parmi cinq appels pris au hasard, le plus long dure moins de cinq
minutes.
12. Soit X le temps (en jours) requis pour réparer un appareil. On suppose que la moyenne du temps
de réparation est de quatre jours et l’écart-type de deux jours.
a) Quelle est, au maximum (et avec le plus de précision possible), la probabilité que le temps de
réparation soit inférieur à un jour ou supérieur à sept jours ?
b) Supposons que X ∼ U(a, b). Trouver la constante a.
c) Supposons que X ∼ G(α, λ). Calculer P[X < 4].
26
d) Supposons que X ∼ N(µ, σ 2 ). Trouver le nombre x0 tel que P[|X − 4| < x0 ] = 0.99.
13. Soit 

 0 si x < 1,
(x − 1)/2
 si 1 ≤ x < 2,√
FX (x) =

 x2 /8 si 2 ≤ x√ < 2 2,
1 si x ≥ 2 2.

a) Calculer FX (x | 3/2 ≤ X ≤ 2).

b) Calculer E[X].
c) Calculer le 90è centile de X.
d) Calculer var(X | X < 3/2).
e) Soit Y := 1/X. Calculer FY (y).
f) Soit Z := bXc. Calculer ϕZ (z).
14. Soit fX (x) = 1 − |x| pour |x| < 1.

a) Calculer FX (3/4).
b) Calculer E[X | X > 0].
c) Soit Y := |X|. Calculer fY (y).
15. Soit X ∼ U(0, 1). On définit Y := max{X, 1/2}.

a) Calculer FY (y). De quel type de variable aléatoire Y est-elle ?
b) Calculer E[Y ].
jω −1
16. Soit ϕX (ω) = c e ω
, où c ∈ C. Calculer E[2X ].
17. Soit ϕX (ω) = 14 (1 + ejω + 2e2jω ). Calculer P[X = 1].
18. Soit fX (x) = nxn−1 pour 0 < x < 1, où n ≥ 1 est un entier.

a) Calculer la médiane de X.
b) Soit Y := X n . Calculer fY (y).
c) Calculer la fonction caractéristique de X.
d) Calculer le taux de défaillance à l’instant x = 1/2 d’un appareil dont la durée de vie X possède
la fonction de densité fX ci-dessus.
19. Soit 
 0 si x < −1,
FX (x) = (1 − x2 )/2 si −1 ≤ x < b,
1 si x ≥ b.

a) Quelles sont les valeurs possibles de la constante b ?

b) Calculer P[X = (b − 1)/2] + P[X ≥ b].
c) Calculer E[X | −1 ≤ X < b].
β
20. Soit fT (t) = tβ−1 e−t pour t > 0. On dit que T suit une loi de Weibull de paramètre β > 0. Cette
loi est souvent utilisée en fiabilité.
a) Calculer le taux de défaillance r(t) d’un système dont la durée de vie T possède la fonction de
densité donnée ci-dessus.
b) Calculer la médiane de T , ainsi que le mode de T .
27
c) Calculer E[T −β/2 ].

d) Pour quelles valeurs de β, la fonction de densité fT (t) est-elle symétrique par rapport à la
moyenne de T ?
21. Soit X une variable aléatoire continue qui prend ses valeurs dans l’intervalle (0, ∞). On dit que
θ
X suit une loi de Pareto de paramètre θ > 0 si fX (x) = (1+x) θ+1 pour x > 0.
En économie, la loi de Pareto est utilisée pour représenter la (mauvaise) répartition de la richesse.
Supposons que, dans un pays donné, la richesse X d’un individu (en milliers de dollars) suit une loi
de Pareto de paramètre θ = 1.2.
a) Calculer fX (2 | 1 < X ≤ 3).
b) Quelle est la richesse médiane dans ce pays ?
c) On trouve qu’environ 11.65% de la population possède une fortune personnelle d’au moins
5000$, soit la richesse moyenne des membres de cette population. Quelle fraction de la richesse
totale du pays possède ce pourcentage de la population ?
1
22. Soit pX (k) = 2k+1
pour k ∈ {0, 1, 2, . . .}.
a) Calculer la probabilité que X prenne une valeur qui est multiple de 3.
b) On génère des nombres aléatoires (indépendants) selon la distribution de la variable aléatoire
X. Soit Y le nombre des nombres aléatoires qui sont supérieurs à 1, parmi les dix premiers
nombres générés. Calculer P[Y = 2].
c) Supposons que l’on approche la probabilité P[Y = k] par P[Z = k], pour k = 0, 1, . . . , 10, où
Z ∼ Poi(5/2). Que peut-on affirmer au sujet de P[Z = k] par rapport à P[Y = k] pour une
valeur quelconque de k prise dans l’ensemble {0, 1, . . . , 10} ?
x 2
x − 2θ
23. Soit fX (x) = θ2
e 2 pour x > 0. On dit que X suit une loi de Rayleigh de paramètre θ > 0.
a) Soit Y := ln X. Calculer la fonction de densité et la fonction caractéristique de Y .
b) On définit Z := 1/X. Calculer l’espérance mathématique de Z.
c) Quelle est la valeur de la fonction de fiabilité d’un système, dont la durée de vie suit une loi de
Rayleigh, à l’instant qui correspond à sa durée de vie moyenne ?
28
Chapitre 3
Vecteurs aléatoires
3.1 Fonction de répartition conjointe

Soit une expérince aléatoire à laquelle on associe un espace échantillon Ω.
Définition 26. Un vecteur aléatoire (X, Y ) est une fonction définie sur Ω comme suit
(X, Y ) : Ω → R2
ω 7→ (x, y) = (X(ω), Y (ω)).
L’ensemble SXY = (X(Ω), Y (Ω)) des valeurs possibles de (X, Y ) est appelé support de (X, Y ). Pour
tout x fixé, on définit le support de Y sachant que X = x par SY |X = {y | (x, y) ∈ SXY }. De même,
S y fixé, on définit
pour tout Sle support de X sachant que Y = y par SX|Y = {x | (x, y) ∈ SXY }. Alors
SX = y SX|Y et SY = x SY |X .
Définition 27. La fonction de répartition conjointe d’un vecteur aléatoire (X, Y ), qu’on note FXY , est
définie comme suit
FXY (x, y) = P[X ≤ x, Y ≤ y].
Propriétés.
1. 0 ≤ FXY (x, y) ≤ 1 pour tout (x, y) ∈ R2 .
2. FXY (a, b) ≤ FXY (c, d) si a ≤ c et b ≤ d.
3. FXY (x+ , y) = FXY (x, y + ) = FXY (x, y).
4. lim FXY (x, y) = lim FXY (x, y) = 0 et lim FXY (x, y) = 1.
x→−∞ y→−∞ (x,y)→(∞,∞)
Théorème 13. Si a < b et c < d, alors
P[a < X ≤ b, c < Y ≤ d] = FXY (b, d) − FXY (b, c) − FXY (a, d) + FXY (a, c).
Corollaire 2. Pour tout (x, y) ∈ R2 ,
P[X = x, Y = y] = FXY (x, y) − FXY (x, y − ) − FXY (x− , y) + FXY (x− , y − ).
Définition 28. La fonction de répartition marginale de X est donnée par
FX (x) = lim FXY (x, y).

y→∞
De même, la fonction de répartition marginale de Y est donnée par
FY (y) = lim FXY (x, y).

x→∞
29
CHAPITRE 3. VECTEURS ALÉATOIRES C. Bingane
Exemple 38. Soit (X, Y ) un vecteur aléatoire dont la fonction de répartition conjointe est


 0 si x < 0 ou y < 0,
 xy si 0 ≤ x < 1, 0 ≤ y < 1,


FXY (x, y) = x si 0 ≤ x < 1, y ≥ 1,
y si x ≥ 1, 0 ≤ y < 1,




1 si x ≥ 1, y ≥ 1.

Calculer FX (1/2) + FY (3/2).
3.2 Vecteur aléatoire discret

Si SXY est fini ou dénombrable, on dit que (X, Y ) est discret.
Définition 29. La fonction de masse conjointe d’un vecteur aléatoire discret (X, Y ) est une fonc-
tion pXY telle que
pXY (x, y) = P[X = x, Y = y].
La fonction de répartition conjointe de (X, Y ) est alors donnée par
XX
FXY (x, y) = pXY (u, v).
u≤x v≤y
Propriétés.
1. Pour tout (x, y) ∈ SXY , pXY (x, y) > 0 et pour tout (x, y) ∈
/ SXY , pXY (x, y) = 0.
X
2. pXY (x, y) = 1.
(x,y)∈SXY
Définition 30. Soit (X, Y ) un vecteur aléatoire discret. La fonction de masse marginale de X est
donnée par
X
pX (x) = pXY (x, y)
y∈SY |X
pour tout x ∈ SX . De même, la fonction de masse marginale de Y est donnée par

X
pY (y) = pXY (x, y)
x∈SX|Y
pour tout y ∈ SY .
Exemple 39. La fonction de masse conjointe d’un vecteur aléatoire discret (X, Y ) est donnée par
−1
2 e
pXY (x, y) =
x 4y!
pour (x, y) ∈ {0, 1, 2} × {0, 1, 2, . . .}.

a) Calculer P[X = 2Y ].
b) Déterminer les fonctions de masse marginales pX et pY .
30
3.3 Vecteur aléatoire continu

Si SXY est non dénombrable et FXY est continue sur R2 , on dit que (X, Y ) est continu.
Définition 31. La fonction de densité conjointe d’un vecteur aléatoire continu (X, Y ) est une fonc-
tion fXY telle que
∂2
fXY (x, y) := FXY (x, y).
∂x∂y
La fonction de répartition conjointe de (X, Y ) est alors donnée par
Z y Z x
FXY (x, y) = fXY (u, v) du dv.
−∞ −∞
Propriétés.
1. Pour tout (x, y) ∈ SXY , fXY (x, y) > 0 et pour tout (x, y) ∈
/ SXY , fXY (x, y) = 0.
ZZ
2. fXY (x, y) dx dy = 1.
SXY
Définition 32. Soit (X, Y ) un vecteur aléatoire continu. La fonction de densité marginale de X est
donnée par Z
fX (x) = fXY (x, y) dy
SY |X
pour tout x ∈ SX . De même, la fonction de densité marginale de Y est donnée par

Z
fY (y) = fXY (x, y) dx
SX|Y
pour tout y ∈ SY .
Exemple 40. Soit fXY (x, y) = 2 pour 0 < x < y < 1.

a) Calculer P[X 2 + Y 2 ≤ 1].
b) Déterminer les fonctions de densité marginales fX et fY .
3.4 Probabilités conditionnelles

3.4.1 Fonctions de répartition, de masse, de densité conditionnelles
Soit (X, Y ) un vecteur aléatoire.
• Si (X, Y ) est discret, la fonction de masse conditionnelle de X sachant que Y = y ∈ SY est
une fonction pX|Y telle que
P[X = x, Y = y] pXY (x, y)

pX|Y (x | y) := P[X = x | Y = y] = =
P[Y = y] pY (y)
pour tout x ∈ SX|Y .
• Si (X, Y ) est continu, la fonction de densité conditionnelle de X sachant que Y = y ∈ SY est
une fonction fX|Y telle que
fXY (x, y)
fX|Y (x | y) :=
fY (y)
31
• La fonction de répartition conditionnelle de X sachant que Y = y est une fonction FX|Y telle
que  P
u≤x pXY (u, y)
si (X, Y ) est discret,


R x pY (y)

FX|Y (x | y) :=
fXY (u, y) du
 −∞

 si (X, Y ) est continu
fY (y)
Exemple 41. Un nombre X est pris au hasard dans l’intervalle (0, 1), puis un nombre Y est pris au
hasard dans l’intervalle (0, X). Calculer P[Y ≤ 1/2].
3.4.2 Moyenne conditionnelle

Soit (X, Y ) un vecteur aléatoire. La moyenne conditionnelle de X sachant que Y = y ∈ SY , qu’on
note E[X | Y = y], est donnée par
 X

 xpX|Y (x | y) si (X, Y ) est discret,

E[X | Y = y] = Zx∈SX|Y


 xfX|Y (x | y) dx si (X, Y ) est continu.
SX|Y
Remarque. E[X | Y = y] est une fonction de y, i.e., E[X | Y = y] = g(y). Alors E[X | Y ] = g(Y )
est une variable aléatoire.
Théorème 14 (de transfert). Soit une fonction g : R → R. La moyenne conditionnelle de g(X)

sachant que Y = y ∈ SY est donnée par
 X

 g(x)pX|Y (x | y) si (X, Y ) est discret,

E[g(X) | Y = y] = Zx∈SX|Y


 g(x)fX|Y (x | y) dx si (X, Y ) est continu.
SX|Y
Proposition 4. Soit une fonction g : R → R. Alors
E [E[g(X) | Y ]] = E[g(X)].
Démonstration. Soit (X, Y ) un vecteur aléatoire continu. E[g(X) | Y ] étant une fonction de Y , alors
Z
E [E[g(X) | Y ]] = E[g(X) | Y = y]fY (y) dy
SY
Z Z
= g(x)fX|Y (x | y)fY (y) dx dy
SY SX|Y
Z Z
= g(x) fX|Y (x | y)fY (y) dy dx
SX SY |X
Z
= g(x)fX (x) dx = E[g(X)].
SX
On raisonne de la même manière dans le cas où (X, Y ) est discret.
Exemple 42. Calculer E[Y ] si Y | X ∼ N(X, 1) et X ∼ Exp(2).
32
3.4.3 Indépendance
Soit (X, Y ) un vecteur aléatoire. Les variables X et Y sont indépendantes si et seulement si FXY =
FX FY . Si (X, Y ) est discret, on a aussi pXY = pX pY et si (X, Y ) est continu, fXY = fX fY .
Exemple 43. Soient X et Y deux variables aléatoires indépendantes qui suivent toutes les deux une
loi de Poisson de paramètre λ = 3/2. Calculer P[X + Y > 3/2].
Remarque. Si les variables X et Y sont indépendantes, alors FX|Y = FX . Si (X, Y ) est discret, on a
aussi pX|Y = pX et si (X, Y ) est continu, fX|Y = fX .
Proposition 5. Soit deux fonctions g1 , g2 : R → R. Si X et Y sont indépendantes, alors g1 (X) et
g2 (Y ) le sont aussi.
3.5 Caractéristiques d’un vecteur aléatoire

Soit (X, Y ) un vecteur aléatoire.
Théorème 15 (de transfert). La moyenne d’une fonction g(X, Y ) est donnée par
 X

 g(x, y)pXY (x, y) si (X, Y ) est discret,

(x,y)∈S
E[g(X, Y )] = ZZ XY
g(x, y)fXY (x, y) dA si (X, Y ) est continu.




SXY
Exemple 44. Calculer E[XY ] si l’on suppose que Y ∼ U(0, 1) et que fX|Y (x | y) = 2x/y 2 si
0 < x < y < 1.
Remarque. On dit que les variables X et Y sont orthogonales si E[XY ] = 0.
Proposition 6. Si g(X, Y ) = g1 (X)g2 (Y ), où g1 , g2 : R → R sont des fonctions, et si X et Y sont
indépendantes alors
E[g(X, Y )] = E[g1 (X)] E[g2 (Y )].
Exemple 45. Soit X ∼ U(−1, 1) et Y := X 2 . Les variables aléatoires X et Y sont-elles orthogonales
et indépendantes ?
Définition 33. Supposons que var(X) > 0 et var(Y ) > 0 sont finies. La covariance de (X, Y ), qu’on
note cov(X, Y ), est donnée par
cov(X, Y ) := E[(X − E[X])(Y − E[Y ])] = E[XY ] − E[X] E[Y ]
et sa matrice de covariance Σ est donnée par

var(X) cov(X, Y )
Σ := .
cov(X, Y ) var(Y )
Théorème 16 (Inégalité de Cauchy-Schwarz). Si var(X), var(Y ) et cov(X, Y ) sont finies, alors
|cov(X, Y )| ≤ std(X) std(Y ).
Démonstration. Pour tout (a, b) ∈ R2 ,
var(aX + bY ) = a2 var(X) + b2 var(Y ) + 2ab cov(X, Y )

var(X) cov(X, Y ) a
= a b .
cov(X, Y ) var(Y ) b
| {z }
Σ
Par définition, var(aX + bY ) ≥ 0. Il suit que la matrice de covariance Σ est semidéfinie positive et
det Σ = var(X) var(Y ) − (cov(X, Y ))2 ≥ 0.
33
Définition 34. Soit (X, Y ) un vecteur aléatoire. On suppose que var(X) > 0 et var(Y ) > 0. On
définit le coefficient de corrélation de X et Y , qu’on note ρ = ρ(X, Y ), par
cov(X, Y )
ρ(X, Y ) := .
std(X) std(Y )
Remarque. Si ρ(X, Y ) = 0, on dit que les variables X et Y sont non corrélées.
Proposition 7. Soit (X, Y ) un vecteur aléatoire. On suppose que le coefficient de corrélation ρ existe.
Alors, pour a 6= 0, Y = aX + b si et seulement si ρ2 = 1.
Démonstration.
(⇒) Soit Y = aX + b, où a 6= 0. On a µY = aµX + b et σY2 = a2 σX
2
. Par la suite,
a2 σ X
4
cov(X, Y ) = E[(X − µX )(Y − µY )] = a E[(X − µX )2 ] = aσX
2
⇒ ρ2 = 2 2
= 1.
σX σY
(⇐) Supposons que ρ2 = 1. Soit les variables aléatoires U = (X − µX )/σX et V = (Y − µY )/σY

centrées réduites. On a
cov(X, Y )
cov(U, V ) = = ρ.
σX σY
D’autre part,
var(V − ρU ) = var(V ) + ρ2 var(U ) − 2ρ cov(U, V ) = 1 − ρ2 = 0.
On déduit
Y − µY X − µX
V − ρU = E[V − ρU ] = E[V ] − ρ E[U ] = 0 ⇒ V = ρU ⇒ =ρ .
σY σX
3.6 Estimation d’une variable aléatoire

Soit (X, Y ) un vecteur aléatoire. On suppose que var(X) > 0 et var(Y ) > 0 sont finies. On veut
estimer Y par une fonction g(X). Le meilleur estimateur Ŷ = g(X) est celui qui minimise l’erreur
quadratique moyenne
EQM(Ŷ ) := E[(Ŷ − Y )2 ].
Proposition 8. Si g est une fonction constante, alors le meilleur estimateur de Y est Ŷ = E[Y ].
Proposition 9. Si g est une fonction linéaire, alors le meilleur estimateur de Y est Ŷ = âX + b̂, où
cov(X, Y )
â = et b̂ = E[Y ] − â E[X].
var(X)
Théorème 17. Le meilleur estimateur de Y en fonction de X est Ŷ = E[Y | X].
Démonstration. Soit Ŷ = E[Y | X]. Pour toute fonction g : R → R,
E[(g(X) − Y )2 ] = E[((g(X) − Ŷ ) + (Ŷ − Y ))2 ]

= E[(g(X) − Ŷ )2 ] + 2 E[(g(X) − Ŷ )(Ŷ − Y )] + E[(Ŷ − Y )2 ].
34
D’autre part, on a
E[(g(X) − Ŷ )(Ŷ − Y )] = E[E[(g(X) − Ŷ )(Ŷ − Y ) | X]]
= E[(g(X) − Ŷ ) E[(Ŷ − Y ) | X]] = 0.
| {z }
=0
Par la suite, E[(g(X) − Y )2 ] = E[(g(X) − Ŷ )2 ] + E[(Ŷ − Y )2 ] ≥ E[(Ŷ − Y )2 ]. D’où Ŷ = E[Y | X]

est le meilleur estimateur de Y en fonction de X.
Exemple 46. Soit fXY (x, y) = √c pour 0 < x < y < 1.
xy
a) Trouver la constante c.
b) Quel est le meilleur estimateur de Y en fonction de X ?
3.7 Combinaison linéaire de variables aléatoires

Soit X = (X1 , X2 , . . . , Xn ) un vecteur aléatoire de taille n. On définit
• le vecteur des moyennes par
µ = E[X] = (E[X1 ], E[X2 ], . . . , E[Xn ]),
• la matrice de covariance par
Σ = E[(X − E[X])(X − E[X])T ],
où Σij = cov(Xi , Xj ) pour tout 1 ≤ i, j ≤ n.
Remarque. La matrice de covariance Σ est une matrice symétrique et semidéfinie positive.
Proposition 10. Soit X = (X1 , X2 , . . . , Xn ) un vecteur aléatoire de taille n. Pour tout a ∈ Rn ,
n
X
T T
E[a X] = a µ = ak E[Xk ],
k=1
Xn X
var(aT X) = aT Σa = a2k var(Xk ) + 2 aj ak cov(Xj , Xk ).
k=1 j<k
3.7.1 Somme de variables aléatoires indépendantes

Soient X et Y deux variables aléatoires indépendantes et soit S := X + Y . La fonction caractéris-
tique ϕS de S peut être déterminée à partir des fonctions caractéristiques ϕX et ϕY comme suit :
ϕS (ω) = E[e−jωS ] = E[e−jω(X+Y ) ] = E[e−jωX ] E[e−jωY ] = ϕX (ω)ϕY (ω) = (ϕX ϕY )(ω).
• Si X et Y sont des variables discrètes, alors
X
pS (s) = P[S = s] = P[X + Y = s] = P[X = t, Y = s − t]
t
X X
= P[X = t] P[Y = s − t] = pX (t)pY (s − t) = (pX ∗ pY )(s)
t t
• Si X et Y sont des variables continues, on peut montrer que

Z
fS (s) = (fX ∗ fY )(s) = fX (t)fY (s − t) dt.
R
On a aussi E[S] = E[X] + E[Y ] et var(S) = var(X) + var(Y ).

Exemple 47. Déterminer la fonction de masse ou densité de S := X + Y , où X et Y sont deux
variables aléatoires indépendantes données.
35
a) X ∼ Bern(p) et Y ∼ Bern(p). b) X ∼ Exp(λ) et Y ∼ Exp(λ).

Pn
De façon générale, si les variables X1 , X2 , . . . , Xn sont indépendantes et Sn = k=1 Xk , on a
n
Y
ϕSn = ϕXk et fSn = fX1 ∗ fX2 ∗ . . . ∗ fXn .
k=1
Propriétés (de reproductivité).

1. La somme de n lois Bern(p) indépendantes est une loi B(n, p).
2. La somme de n lois B(mk , p), k = 1, 2, . . . , n, indépendantes est une loi B(m, p), où m =
m1 + m2 + . . . + mn .
3. La somme de n lois Poi(λk ), k = 1, 2, . . . , n, indépendantes est une loi Poi(λ), où λ =
λ1 + λ2 + . . . + λn .
4. La somme de n lois Exp(λ) indépendantes est une loi G(n, λ).
5. La somme de n lois G(αk , λ), k = 1, 2, . . . , n, indépendantes est une loi G(α, λ), où α =
α1 + α2 + . . . + αn .
6. La combinaison linéaire des lois normales indépendantes est une loi normale.
3.7.2 Loi multinomiale

Soit X = (X1 , X2 , . . . , Xm ) un vecteur aléatoire discret de taille m. Soit p = (p1 , p2 , . . . , pm ) tel que
0 < pk < 1 pour tout k = 1, 2, . . . , m et m
P
k=1 k = 1. On dit que X suit une loi multinomiale si et
p
seulement si sa fonction de masse conjointe est donnée par
m
n! Y
pX (x1 , x2 , . . . , xm ) = pxkk ,
x1 !x2 ! . . . xm ! k=1
pour tout (x1 , x2 , . . . , xm ) ∈ SX = {(x1 , x2 , . . . , xm ) ∈ Nm | x1 + x2 + . . . + xm = n}, où n est un

entier strictement positif.
Exemple 48. Soit (X, Y ) un vecteur aléatoire discret dont la fonction de masse conjointe est donnée
par
4!3y
pXY (x, y) =
x!y!44
pour tout (x, y) ∈ SXY = {(x, y) ∈ N2 | x + y = 4}.
a) Dire si (X, Y ) est un vecteur binomial.
b) Trouver les lois marginales de X et Y .
c) Calculer cov(X, Y ).
Propriétés. Soit X = (X1 , X2 , . . . , Xm ) un vecteur multinomial de paramètres n, p1 , p2 , . . . , pm .

Pm
1. k=1 Xk = n et pour tout k = 1, 2, . . . , m, Xk ∼ B(n, pk ).
2. Pour tout 1 ≤ i < j ≤ n, cov(Xi , Xj ) = −npi pj .
36
3.7.3 Loi multinormale

Soit X = (X1 , X2 , . . . , Xn ) un vecteur aléatoire continu de taille n. On dit que X suit une loi
multinormale ou que X est gaussien si et seulement si pour tout a ∈ Rn , la combinaison linéaire
aT X suit une loi normale. On écrit X ∼ N(µ, Σ) où µ est le vecteur des moyennes et Σ est la
matrice de covariance.
Propriétés.
1. Si X ∼ N(µ, Σ), alors pour tout a ∈ Rn , aT X ∼ N(aT µ, aT Σa).
2. Si X ∼ N(µ, Σ), alors pour tout A ∈ Rm×n , AX ∼ N(Aµ, AΣAT ).
3. X ∼ N(µ, Σ) est dit dégénéré s’il existe a ∈ Rn non nul tel que aT X est une variable aléatoire
dégénérée ou, simplement, si det Σ = 0.
4. Si X ∼ N(µ, Σ) est un vecteur non dégénéré, alors sa fonction de densité conjointe est donnée
par
1 1 T −1
fX (x) = p exp − (x − µ) Σ (x − µ) .
(2π)n det Σ 2
5. Si X = (X1 , X2 , . . . , Xn ) est un vecteur gaussien, alors pour tout k = 1, 2, . . . , n, Xk est une
variable aléatoire gaussienne. La réciproque n’est pas nécessairement vraie.
6. Si X = (X1 , X2 , . . . , Xn ) est un vecteur gaussien et s’il existe 1 ≤ i < j ≤ n tel que
cov(Xi , Xj ) = 0, alors les variables aléatoires Xi et Xj sont indépendantes.
Exemple 49. On considère un vecteur aléatoire (X, Y ) qui suit une loi binormale de paramètres
2
µX = 1, µY = 2, σX = 1, σY2 = 4 et ρ = 1/2. Calculer E[XY ].
Exemple 50. Soit (X1 , X2 , X3 ) un vecteur gaussien tel que E[Xk ] = 0 et var(Xk ) = 2 pour tout
k = 1, 2, 3. On suppose que cov(X1 , X3 ) = −2. Calculer var(X1 + X2 + X3 ).
3.8 Théorèmes limites

Théorème 18 (Loi faible des grands nombres). Soit (Xk ) une suite de variables aléatoiresP
indépen-
dantes et identiquement distribuées de moyenne µ et de variance σ 2 > 0 finies. Si Sn = nk=1 Xk
alors pour tout ε > 0,
lim P[|Sn /n − µ| ≤ ε] = 1.
n→∞
Pn
Démonstration. Soit Sn = k=1 Xk . On a E[Sn ] = nµ et var(Sn ) = nσ 2 . D’après l’inégalité de
Bienaymé-Tchebychev,
var(Sn ) σ 2 n↑∞
P[|Sn /n − µ| ≤ ε] = P [|Sn − nµ| ≤ nε] ≥ 1 − = 1 − → 1.
n 2 ε2 nε2
Théorème 19 (Loi forte des grands nombres). Soit (Xk ) une suite
P de variables aléatoires indépen-
dantes et identiquement distribuées de moyenne µ finie. Si Sn = nk=1 Xk alors
P[ lim Sn /n = µ] = 1.
n→∞
Théorème 20 (Théorème central limite). Soit (Xk ) une suite de variables aléatoires
P indépendantes
et identiquement distribuées de moyenne µ et de variance σ 2 > 0 finies. Si Sn = nk=1 Xk alors
Sn − nµ
Z = lim √ ∼ N(0, 1).
n→∞ σ n
37
Démonstration. Pour tout k, soit Yk = (Xk − µ)/σ. (Yk ) est une suite de variables aléatoires indé-
pendantes et identiquement distribuées de moyenne 0 et de variance 1. Leur fonction caractéristique
est donnée par
E[Y ] E[Y 2 ] ω2
ϕY (ω) = 1 + (jω) + (jω)2 + o(ω 2 ) = 1 − + o(ω 2 ) lorsque ω → 0.
1! 2! 2
Pn
Soit Sn = k=1 Xk , où E[Sn ] = nµ et var(Sn ) = nσ 2 . On définit la variable aléatoire centrée réduite
Sn − nµ
Zn = √ .
σ n
On peut écrire
Pn n 2 n
ω2

k=1 Yk ω ω n↑∞ − ω2
Zn = √ ⇒ ϕZn (ω) = ϕY √ = 1− +o → e 2.
n n 2n n
Z = lim Zn a la même fonction caractéristique que la loi N(0, 1). Donc, Z ∼ N(0, 1).
n→∞
Remarques.
1. Si n est grand (n ≥ 30), on peut dire que Sn ≈ N(nµ, nσ 2 ) ou encore X = Sn /n ≈ N(µ, σ 2 /n).
2. Soit X ∼ B(n, p). Si min{np, n(1 − p)} ≥ 5, alors X ≈ N(np, np(1 − p)) et pour tout
k = 0, 1, . . . , n,
P[X = k] = P[k − 1/2 ≤ X ≤ k + 1/2]

≈ P[k − 1/2 ≤ N(np, np(1 − p)) ≤ k + 1/2]
! !
k + 1/2 − np k − 1/2 − np
=Φ p −Φ p .
np(1 − p) np(1 − p)
Exemple 51. Soit X1 , X2 , . . . , X100 un ensemble de variables aléatoires indépendantes de moyenne 0

et de variance 1. Utiliser le théorème central limite pour calculer P[|X1 + X2 + . . . + X100 | > 10].
3.9 Exercices
24. On prend un point X dans l’intervalle (0, 1) selon une loi uniforme. Soit x la valeur prise par X ;
on prend ensuite un point Y dans l’intervalle (x, 1) selon une loi uniforme. On considère le vecteur
(X, Y ).
a) Quelle est la fonction de densité conjointe de (X, Y ) ?
b) Calculer E[Y | X = x].
c) Calculer E[Y 2 ].
25. Soit les variables aléatoires U := (1 − α)X + αY et V := αX + (1 − α)Y , où X ∼ N(−1, 1) et

Y ∼ N(1, 1) sont des variables aléatoires indépendantes, et où 0 ≤ α ≤ 1.
a) Pour quelles valeurs de α, les variables U et V sont-elles orthogonales ?
b) Pour quelles valeurs de α, les variables U et V sont-elles complètement corrélées ?
c) Quel est le meilleur estimateur linéaire de V en fonction de U ?
d) Quelle est la fonction caractéristique de U et quelle est celle de V ?
38
e) Supposons que X1 , X2 , . . . , X30 et Y1 , Y2 , . . . , Y30 sont des variables indépendantes qui sont
distribuées comme X et comme Y , respectivement. On définit Dk = Xk − Yk , pour k =
1, 2, . . . , 30. Soit N le nombre des Dk qui prendront une valeur positive. Utiliser une loi
gaussienne pour calculer approximativement P[N = 28].
26. Soit (Xk ) une suite de variables

Pn aléatoires indépendantes qui sont toutes distribuées comme X ∼
2
U(−1/2, 1/2), et soit Sn = k=1 Xk . Utiliser le théorème central limite pour calculer P[S1500 ≤ 125].
27. Utiliser le théorème central limite pour calculer approximativement P[(X1 +X2 +. . .+Xn )2 > c],
où les variables aléatoires X1 , X2 , . . . , Xn sont indépendantes et suivent toutes une loi exponentielle
de paramètre λ = 2, et c est une constante positive.
28. Soit fXY (x, y) = 3/4 pour x2 < y < 1.

a) Calculer fX (x) et fY (y).
b) Calculer P[Y ≥ X].
c) Calculer FXY (1/2, 1/9).
d) Les variables aléatoires X et Y sont-elles indépendantes ? orthogonales ?
e) Calculer le meilleur estimateur linéaire de Y en fonction de X.
f) On prend dix observations indépendantes du couple (X, Y ). Quelle est la probabilité qu’elles
soient toutes situées dans le premier quadrant ? Quelle est la valeur approximative de cette
probabilité selon le théorème central limite ?
29. Soit fXY (x, y) = x + xy pour 0 < x < 1, −1 < y < 1.

a) Calculer fX (1/2).
b) Calculer P[XY < 0].
c) Les variables aléatoires X et Y sont-elles orthogonales ? corrélées ? indépendantes ?
d) Quel est le meilleur estimateur linéaire de X en fonction de Z := 1/X ?
e) Soit (Yk ) une suite de variables aléatoires
Pn indépendantes qui possèdent la même fonction de
répartition que Y . On définit Sn = k=1 Yk . Selon la loi forte des grands nombres, vers quelle
valeur tend Sn /n lorsque n → ∞ ? D’après le théorème central limite, quelle est (approximati-
vement) la fonction caractéristique de Sn ?
39
Chapitre 4
Processus stochastiques
4.1 Définitions
Définition 35. Un processus stochastique est un ensemble {X(t), t ∈ T ⊆ R} de variables aléatoires
X(t). La variable déterministe t est souvent interprétée comme le temps.
Remarques.
• Si T est fini ou dénombrable, alors le processus stochastique est dit à temps discret. Sinon, le
processus stochastique est dit à temps continu.
• Si pour tout t ∈ T , le support de X(t) est fini ou dénombrabble, alors le processus stochastique
est dit à état discret. Par contre, si pour tout t ∈ T , le support de X(t) est non dénombrabble,
alors le processus stochastique est dit à à état continu.
Pour tout t ∈ T , on définit
1. la fonction de répartition du 1er ordre par
F (x; t) = P[X(t) ≤ x],
2. la fonction de densité du 1er ordre par
∂
f (x; t) = F (x; t),
∂x
3. la moyenne d’un processus stochastique par

Z
µ(t) = E[X(t)] = xf (x; t) dx,
R
4. la variance d’un processus stochastique par
σ 2 (t) = var(X(t)) = E[(X(t) − µ(t))2 ] = E[X 2 (t)] − µ2 (t).
Exemple 52. Soit {X(t), t ≥ 0} le processus stochastique défini par X(t) = tY + 1, où Y ∼ U(0, 1).
Calculer la fonction de densité du 1er ordre du processus.
De façon générale, pour t1 , t2 , . . . , tn ∈ T , on définit

1. la fonction de répartition d’ordre n par
F (x1 , x2 , . . . , xn ; t1 , t2 , . . . , tn ) = P[X(t1 ) ≤ x1 , X(t2 ) ≤ x2 , . . . , X(tn ) ≤ xn ],
40
CHAPITRE 4. PROCESSUS STOCHASTIQUES C. Bingane
2. la fonction de densité d’ordre n par

∂n
f (x1 , x2 , . . . , xn ; t1 , t2 , . . . , tn ) = F (x1 , x2 , . . . , xn ; t1 , t2 , . . . , tn ),
∂x1 ∂x2 . . . ∂xn
3. la fonction d’autocorrélation par
Z +∞ Z +∞
R(ti , tj ) = E[X(ti )X(tj )] = xi xj f (xi , xj ; ti , tj ) dxi dxj ,
−∞ −∞
4. la fonction d’autocovariance par

C(ti , tj ) = cov(X(ti ), X(tj )) = R(ti , tj ) − µ(ti )µ(tj ),
5. le coefficient d’autocorrélation par
C(ti , tj )
ρ(ti , tj ) = .
σ(ti )σ(tj )
Exemple 53. Soit {Xn , n ∈ N} un processus de Bernouilli, i.e., les variables aléatoires X0 , X1 , . . .
sont indépendantes et suivent toutes une loi de Bernouilli de paramètre p. Calculer la fonction d’au-
tocorrélation R(m, n) du processus si p = 1/2 et m, n ∈ N.
Définition 36. Un processus stochastique {X(t), t ∈ T ⊆ R} est dit
1. à accroissements stationnaires si pour tout τ > 0, la loi des accroissements X(t + τ ) − X(t) ne
dépend pas de t,
2. à accroissements indépendants si pour tout t0 < t1 < t2 < . . . < tn , les accroissements
X(t1 ) − X(t0 ), X(t2 ) − X(t1 ), . . . , X(tn ) − X(tn−1 ) sont indépendants.
4.2 Quelques processus stochastisques

4.2.1 Chaînes de Markov
Définition 37. Soit {Xn , n ∈ N} un processus stochastique à état discret et à temps discret. {Xn , n ∈
N} est une chaîne de Markov si
P[Xn+1 = j | Xn = i, Xn−1 = in−1 , . . . , X0 = i0 ] = P[Xn+1 = j | Xn = i] = pij
pour tous les états i0 , . . . , in−1 , i, j et pour tout n ≥ 0.
Définition 38. Soit {Xn , n ∈ N} une chaîne de Markov. On suppose que pour tout n ∈ N, le support
de Xn est {0, 1, . . . , m}. La matrice P = [pij ] où pij = P[Xn+1 = j | Xn = i] est appelée matrice de
transition en une étape.
Propriété. m
P
j=0 pij = 1.
On définit aussi la matrice de transition en k étapes par
h i
(k)
P (k) = pij = P k = |P × P × {z. . . × P},
k fois
(k)
où pij = P[Xn+k = j | Xn = i].
Exemple 54. La matrice P des probabilités de transition en une étape d’une chaîne de Markov dont
l’espace des états est {0, 1} est donnée par

1/2 1/2
P = .
0 1
Calculer E[X2 ] si P[X0 = 0] = 1/3.
41
4.2.2 Processus de Poisson

Définition 39. Un processus stochastique {N (t), t ≥ 0} est un processus de comptage si N (t) désigne
le nombre d’événements qui se sont produits jusqu’à l’instant t.
Propriétés.
1. Pour tout t ≥ 0, N (t) ∈ N.
2. N est non décroissant, i.e., pour tout t ≥ 0, τ > 0, N (t + τ ) − N (t) ≥ 0.
Définition 40. Un processus de comptage {N (t), t ≥ 0} est dit processus de Poisson de taux λ > 0 si
1. N (0) = 0,
2. {N (t), t ≥ 0} est à accroissements indépendants,
3. pour tout t ≥ 0, τ > 0, N (t + τ ) − N (t) ∼ Poi(λτ ).
Proposition 11. Soit {N (t), t ≥ 0} un processus de Poisson. Alors {N (t), t ≥ 0} est à accroissements
stationnaires et pour tout t > 0, N (t) ∼ Poi(λt).
Exemple 55. Les clients d’un vendeur de journaux se présentent selon un processus de Poisson de
taux λ = 2 par minute. Calculer la probabilité qu’il se présente au moins un client dans l’intervalle
(t0 , t0 + 2], étant donné qu’il y a eu exactement un client dans l’intervalle (t0 − 1, t0 + 1].
4.2.3 Processus de Wiener

Définition 41. Un processus stochastique {W (t), t ≥ 0} est un processus gaussien si pour tout
0 ≤ t1 < t2 < . . . < tn , le vecteur (W (t1 ), W (t2 ), . . . , W (tn )) est gaussien.
Définition 42. Un processus gaussien {W (t), t ≥ 0} est appelé processus de Wiener ou mouvement
brownien standard si
1. W (0) = 0,
2. {W (t), t ≥ 0} est à accroissements stationnaires et indépendants,
3. pour tout t > 0, W (t) ∼ N(0, t).
Propriété. Soit {W (t), t ≥ 0} un processus de Wiener. Pour tout t ≥ 0, τ > 0, W (t + τ ) − W (t) ∼

N(0, τ ).
Exemple 56. Soit {W (t), t ≥ 0} un mouvement brownien standard. Calculer var[W (4) − 2W (1)].
4.3 Exercices
30. On définit le processus stochastique {X(t), t > 0} par X(t) = t/Y pour t > 0, où Y ∼ U(0, 2).
Calculer f (x; t) pour x > t/2.
31. On définit le processus stochastique {X(t), 0 ≤ t ≤ 1} par X(t) = N (t2 ) − t2 N (1) pour
0 ≤ t ≤ 1, où {N (t), t ≥ 0} est un processus de Poisson de taux λ > 0.
a) Calculer la fonction d’autocorrélation RX (t1 , t2 ) du processus stochastique {X(t), 0 ≤ t ≤ 1}
en t1 = 1/4 et t2 = 1/2.
b) Calculer P[X(t) > 0 | N (1) = 1] pour 0 < t < 1.
42
32. Un joueur joue des parties indépendantes du jeu suivant : à chaque partie, il lance une fléchette sur
une cible circulaire. Supposons que la distance D (en centimètres) du point d’impact de la fléchette
au centre de la cible suit une loi U(0, 30). Si D ≤ 5, le joueur gagne 1$ ; si 5 < D ≤ 25, le joueur ne
gagne ni ne perd rien ; si D > 25, le joueur perd 1$. La fortune initiale du joueur est de 1$ et il cessera
de jouer lorsqu’il sera ruiné ou lorsque sa fortune atteindra 3$.
Si Xn est la fortune du joueur au bout de n parties, alors {Xn , n ∈ N} est une chaîne de Markov.
a) Calculer la matrice des probabilités de transition en une étape de la chaîne.
b) Calculer E[X22 ].
33. On définit
0 si N (t) est pair,
Y (t) :=
1 si N (t) est impair,
où {N (t), t ≥ 0} est un processus de Poisson de taux λ = 1. Si Xn = Y (n) pour n ∈ N, alors
{Xn , n ∈ N} est une chaîne de Markov. Calculer sa matrice des probabilités de transition en une
étape.
34. Soit N (t) le nombre des appels téléphoniques reçus à un central dans l’intervalle [0, t]. On
suppose que {N (t), t ≥ 0} est un processus de Poisson de taux λ = 10 par heure. Calculer la
probabilité qu’aucun appel ne soit reçu lors de chacune de deux périodes consécutives de 15 minutes.
35. Les pannes d’une certaine machine se produisent selon un processus de Poisson de taux λ = 1
par semaine.
a) Quelle est la probabilité que la machine ait au moins une panne lors de chacune des deux
premières semaines considérées ?
b) Supposons qu’exactement cinq pannes se sont produites pendant les quatre premières semaines
considérées. Soit X le nombre des pannes pendant la quatrième des quatre semaines en question.
Calculer E[X | X > 0].
36. Calculer la variance de W (t) + 2W (τ ) pour t ≤ τ , où {W (t), t ≥ 0} un mouvement brownien

standard.
37. Soit {W (t), t ≥ 0} un mouvement brownien standard. On définit X(t) = −W (t) pour tout t ≥ 0.
Le processus stochastique {X(t), t ≥ 0} est-il gaussien ? Est-il un mouvement brownien standard ?
43
Deuxième partie
Statistique
44
Chapitre 5
Statistique descriptive
Définition 43. Un échantillon aléatoire de taille n d’une variable aléatoire X est une suite de va-
riables aléatoires indépendantes X1 , X2 , . . . , Xn ayant toutes la même distribution que X. La variable
aléatoire X est aussi appelée population et chaque Xk , une observation de X.
Remarque. Une donnée ou observation particulière de X est une valeur xk prise par une observa-
tion Xk .
5.1 Quelques représentations graphiques de données

5.1.1 Tableau d’effectifs et histogramme
Soit x1 , x2 , . . . , xn un échantillon de données d’une population X. Soit I = (a, b) un intervalle
contenant toutes les données x1 , x2 , . . . , xn , i.e. a < mink xk et b > maxk xk . On partitionne I en m
sous-intervalles C1 , C2 , . . . , Cm , où chaque Cj = (cj−1 , cj ) contient au moins une donnée xk .

1. une classe par un sous-intervalle Cj , j = 1, 2, . . . , m,
2. l’effectif d’une classe Cj par le nombre nj de données qu’elle comporte, i.e.
nj = |{xk : xk ∈ Cj , k = 1, 2, . . . , n}| .
3. la fréquence d’une classe Cj par la proportion pj de données qu’elle comporte, i.e. pj = nj /n.
On construit alors le tableau de fréquences 5.1. Avec ce tableau, on peut représenter les données
avec un histogramme comme le montre la figure 5.1 : l’aire du rectangle correspondant à une classe
Cj = (cj−1 , cj ) est proportionnelle à la fréquence pj de la classe. L’histogramme est donc une
représentation graphique qui permet de voir la distribution des données.
Table 5.1 – Tableau de fréquences de l’exemple 57
i Classe Effectif Eff. cumulé Fréquence Fréq. cumulée

1 C1 = [18.0, 26.5) n1 =9 n1 = 9 9/31 9/31
2 C2 = [26.5, 35.0) n2 = 12 n1 + n2 = 21 12/31 21/31
3 C3 = [35.0, 43.5) n3 =9 n1 + n2 + n3 = 30 9/31 30/31
4 C4 = [43.5, 52.0) n4 =1 n1 + n2 + n3 + n4 = 31 1/31 1
45
CHAPITRE 5. STATISTIQUE DESCRIPTIVE C. Bingane
nj
12
18.0 26.5 35.0 43.5 52.0 x
Figure 5.1 – Histogramme de l’exemple 57
5.1.2 Diagramme en boîte

Soit x1 , x2 , . . . , xn un échantillon de données d’une population X. Soit q1 , q2 et q3 le 1er quartile, le
2è quartile (médiane) et le 3è quartile de cet échantillon. Le diagramme en boîte, appelé aussi boîte à
moustaches ou encore boîte de Tukey, consiste en
• une boîte allant du 1er quartile au 3è quartile coupée par la médiane et
• des segments aux extrémités menant jusqu’aux valeurs extrêmes de données
comme le montre la figure 5.2.
x(1) = 18 q2 = 33 x(31) = 51
q1 = 24 q3 = 37 x
Figure 5.2 – Diagramme en boîte de l’exemple 57
5.2 Quelques mesures numériques

Soit x1 , x2 , . . . , xn un échantillon de données d’une population X. On écrira x(1) , x(2) , . . . , x(n) pour
indiquer que les données ont été placées en ordre croissant.

1. la moyenne de l’échantillon par
n
1X
x= xk ,
n k=1
46
2. le quantile d’ordre p ∈ (0, 1) de l’échantillon par

(1 − p)x(np) + px(np+1) si np est un entier,
x((n+1)p) =
x(dnpe) sinon,
3. la médiane de l’échantillon par le quantile d’ordre 1/2 : x((n+1)/2) = q2 .

4. le mode de l’échantillon par soit la donnée la plus fréquente, soit le point milieu de la classe
avec le plus grand effectif,
5. l’étendue de l’échantillon par x(n) − x(1) ,
6. l’écart interquartile par q3 − q1 , où q1 et q3 sont les premier et troisième quartiles,
7. la variance de l’échantillon par
n n
!
1 X 1 X
s2 = (xk − x)2 = x2k − nx2 ,
n − 1 k=1 n−1 k=1
8. l’écart-type de l’échantillon par √

s= s2 .
La moyenne, la médiane ou le mode sont des mesures de la tendance centrale tandis que l’étendue,
l’écart interquartile ou l’écart-type sont des mesures de dispersion.
Exemple 57. Les notes sur 60 obtenues par 31 étudiants à l’examen final du cours Probabilités et
statistique sont données dans le tableau ci-dessous.
i x10i+1 x10i+2 x10i+3 x10i+4 x10i+5 x10i+6 x10i+7 x10i+8 x10i+9 x10i+10
0 18 19 21 21 21 21 23 24 25 29
1 29 31 32 32 33 33 33 34 34 34
2 35 36 36 37 37 37 38 39 39 40
3 51
a) Calculer la moyenne, l’écart-type, la médiane, l’écart interquartile et l’étendue.

b) Dessiner un histogramme approprié.
c) Dessiner le diagramme en boîte.
5.3 Distributions échantillonnales

5.3.1 Quelques lois utiles en statistique
Loi du khi-deux
Soit Z = (Z1 , Z2 , . . . , Zn ) ∼ N(0, In ). La variable aléatoire W := kZk2 = nk=1 Zk2 suit une loi du
P
khi-deux à n degrés de liberté et on écrit W ∼ χ2n . Sa fonction de densité est donnée par
1 w n2 −1 w
fW (w) = n
e− 2
2Γ 2
2
pour tout w ∈ SW = (0, ∞).
Exemple 58. Déterminer le 95è centile de la variable aléatoire W ∼ χ24 .
47
Théorème 21 (de Cochran). Soit Z = (Z1 , Z2 , . . . , Zn ) ∼ N(0, In ) et soit A ∈ Rn×n une matrice
non nulle, symétrique, idempotente et de rang m < n. Alors AZ ∼ N(0, A) et (In − A)Z ∼
N(0, In − A) sont indépendants. De plus, kAZk2 ∼ χ2m et k(In − A)Zk2 ∼ χ2n−m .
Démonstration. Notons d’abord que si A ∈ Rn×n est une matrice non nulle, symétrique, idempotente
et de rang m < n alors In − A ∈ Rn×n est une matrice non nulle, symétrique, idempotente et de rang
n − m < n. Soit Z = (Z1 , Z2 , . . . , Zn ) ∼ N(0, In ).
1. Montrons que AZ ∼ N(0, A) et (In − A)Z ∼ N(0, In − A) sont indépendants. Soit

A
B= ∈ R2n×n
In − A
et soit
AZ
X = BZ = .
(In − A)Z
Le vecteur aléatoire X est un vecteur gaussien dont le vecteur des moyennes est 0 ∈ R2n et
dont la matrice de covariance est

T A2 A(In − A) A2 =A A 0
BIn B = = .
(In − A)A (In − A)2 0 In − A
D’où AZ ∼ N(0, A) et (In − A)Z ∼ N(0, In − A) sont indépendants.

2. Montrons à présent que kAZk2 ∼ χ2m et k(In −A)Zk2 ∼ χ2n−m . La matrice A étant symétrique,
idempotente et de rang m < n, on peut montrer qu’il existe une matrice C ∈ Rn×m et une
matrice D ∈ Rn×(n−m) telles que CC T = A, DDT = In − A, C T C = Im , DT D = In−m et
C T D = 0. Soit U = C T Z et soit V = DT Z. Le vecteur aléatoire U (respectivement V ) est
un vecteur gaussien dont le vecteur des moyennes est 0 ∈ Rm (respectivement 0 ∈ Rn−m ) et
dont la matrice de covariance est C T In C = Im (respectivement DT In D = In−m ). Par la suite,
kAZk2 = kC T Zk2 = kU k2 ∼ χ2m et k(In − A)Zk2 = kDT Zk2 = kV k2 ∼ χ2n−m .
Loi de Student
Soit Z ∼ N(0, 1) et W ∼ χ2n deux variables aléatoires indépendantes. La variable aléatoire T :=

√ Z suit une loi de Student à n degrés de liberté et on écrit T ∼ tn . Sa fonction de densité est donnée
W/n
par
Γ n+1

1 2 1
fT (t) = √ · n
· n+1
nπ Γ 2 2
1+ t 2
n
pour tout t ∈ ST = (−∞, ∞).
Exemple 59. Déterminer le 95è centile de la variable aléatoire T ∼ t4 .
Remarques.
• La loi t1 est aussi appelée loi de Cauchy.
• Pour tout t ∈ R, fT (−t) = fT (t) et FT (−t) = 1 − FT (t).
• Lorsque n → ∞, la loi tn est une loi N(0, 1).
48
Loi de Fisher
Soit U ∼ χ2m et V ∼ χ2n deux variables aléatoires indépendantes. La variable aléatoire R := U/m
V /n
suit
une loi de Fisher à m degrés de liberté au numérateur et n degrés de liberté au dénominateur et on
écrit R ∼ F(m, n). Sa fonction de densité est donnée par
m
m −1
Γ m+n m

n 2 n
r 2
fR (r) = · m+n
Γ m2 Γ n2

1+ mn
r 2
pour tout r ∈ SR = (0, ∞).

Exemple 60. Déterminer le 95è centile de la variable aléatoire R ∼ F(4, 4).
Remarques.
• Si R ∼ F(m, n), alors 1/R ∼ F(n, m).
• Si T ∼ tn , alors T 2 ∼ F(1, n).
Fonctions de densité et de répartition d’une loi de Student Fonctions de densité et de répartition d’une loi de Fisher
1 1
0.9 0.9
0.8 0.8
0.7 0.7
0.6 0.6
fX fX
0.5 0.5
FX FX
0.4 0.4
0.3 0.3
0.2 0.2
0.1 0.1
0 0
−3 −2 −1 0 1 2 3 −1 0 1 2 3 4 5
(a) Loi t5 (b) Loi F(5, 5)
Figure 5.3 – Lois utiles en statistique
5.3.2 Moyenne et variance échantillonnales

Soit X1 , X2 , . . . , Xn un échantillon aléatoire d’une population X. Une statistique est une fonction
g(X1 , X2 , . . . , Xn ) ne dépendant que des variables aléatoires Xk , k = 1, 2, . . . , n. Toute statistique
est une variable aléatoire dont la distribution est appelée est distribution échantillonnale.
On définit
1. la moyenne échantillonnale par X = n1 nk=1 Xk ,
P
1
Pn
2. la variance échantillonnale par S 2 = n−1 k=1 (Xk − X) .
2
2
Si E[X] = µ et var(X) = σ 2 , on peut montrer que E[X] = µ, var(X) = σn , E[S 2 ] = σ 2 ,
4
2σ 4
var(S 2 ) = n−1 + µ4 −3σ
n
et cov(X, S 2 ) = µn3 , où µ3 = E[(X − µ)3 ] et µ4 = E[(X − µ)4 ].
Exemple 61. Soit X1 , X2 , . . . , X10 un échantillon aléatoire de X ∼ U(−1, 1). Calculer E[X], var(X),
E[S 2 ], var(S 2 ) et cov(X, S 2 ).
Remarque. Dans le cas où la moyenne µ est connue, on définit la variance échantillonnale comme suit
n
1X
Sµ2 = (Xk − µ)2 .
n k=1
µ4 −σ 4
On a E[Sµ2 ] = σ 2 et var(Sµ2 ) = n
.
49
Théorème 22. Si X ∼ N(µ, σ 2 ), alors les statistiques X et S 2 sont indépendantes. De plus,
X −µ
Z= √ ∼ N(0, 1),
σ/ n
S2
W = (n − 1) ∼ χ2n−1 ,
σ2
X −µ
T = √ ∼ tn−1 .
S/ n
√
Démonstration. Pour tout k = 1, 2, . . . , n, soit Y k = (X k −µ)/σ ∼ N(0, 1). On peut écrire Z = Y n,
W = nk=1 (Yk − Y )2 et T = Z/ W/(n − 1).
P p
Soit Y = (Y1 , Y2 , . . . , Yn ) ∼ N(0, In ) et soit A = n1 eeT , où e = (1, 1, . . . , 1) ∈ Rn . La matrice A est

symétrique, idempotente et de rang 1. D’après le théorème 21, les vecteurs AY = (Y , Y , . . . , Y ) ∼
N(0, A) et (In −A)Y = (Y√ 1 −Y , Y2 −Y , . . . , Yn −Y ) ∼ N(0, In −A) sont indépendants. Par la suite,
T
les variables Z = e p AY / n ∼ N(0, 1) et W = k(In − A)Y k2 ∼ χ2n−1 sont aussi indépendantes.
Finalement, T = Z/ W/(n − 1) ∼ tn−1 .
Exemple 62. Soit X1 , X2 , . . . , X10 un échantillon aléatoire de X ∼ N(1, 4). Calculer P[−1 ≤ X ≤ 3],
P[1 ≤ S ≤ 4] et P[1 − S ≤ X ≤ 1 + S].
5.4 Exercices
38. Les notes sur 20 obtenues par 74 étudiants dans le cours Probabilités et statistique sont données
dans le tableau ci-dessous.
i x10i+1 x10i+2 x10i+3 x10i+4 x10i+5 x10i+6 x10i+7 x10i+8 x10i+9 x10i+10
0 13.5 9.0 10.0 10.0 9.0 10.5 10.5 16.5 12.0 10.0
1 11.0 11.0 10.5 11.5 11.5 6.0 5.5 7.0 7.5 12.5
2 10.5 14.0 13.0 6.5 12.5 11.0 10.5 10.5 9.5 11.0
3 8.5 11.0 14.0 5.0 10.5 7.0 9.5 16.5 16.0 12.0
4 8.0 9.5 9.5 12.5 14.5 8.0 14.0 12.5 14.0 12.5
5 7.5 11.5 8.0 12.5 14.0 11.5 9.5 8.5 11.5 7.5
6 11.0 9.0 11.5 10.5 6.0 12.0 12.5 13.5 7.5 11.5
7 13.5 9.0 10.0 16.0
a) Calculer la moyenne, l’écart-type, la médiane, l’écart interquartile et l’étendue.

b) Dessiner un histogramme approprié.
c) Dessiner le diagramme en boîte.
d) Pour tout k = 1, 2, . . . , 74, soit yk = (xk − x)/s. Calculer la moyenne y et l’écart-type sy .
39. Soit un échantillon aléatoire X1 , X2 , . . . , X9 d’une population X ∼ N(µ, σ 2 ). On considère

Z = 3(X − µ)/σ, W = 8S 2 /σ 2 et T = 3(X − µ)/S.
a) Quelles sont les distributions échantillonnales de Z, W et T ?
b) Que valent E[Z], var(Z), E[W ], var(W ), E[T ], var(T ) ?
c) Pour quelles valeurs de z ∗ , w∗ et t∗ , a-t-on P[Z > z ∗ ] = P[W > w∗ ] = P[T > t∗ ] = 0.05 ?
40. Calculer la fonction de répartition de la variable aléatoire donnée.
50
a) W ∼ χ24 b) T ∼ t4 c) R ∼ F(4, 4)
41. Soient les variables aléatoires Z ∼ N(0, 1), W ∼ χ24 , T ∼ t4 et R ∼ F(4, 4). Déterminer les
nombres a, b c et d tels que P[|Z| ≤ 2a] = P[4/b ≤ W ≤ 4b] = P[|T | ≤ 2c] = P[1/d ≤ R ≤ d] =
0.95.
42. Soit X1 , X2 , . . . , Xn un échantillon aléatoire d’une population X ∼ U(0, θ) avec θ > 0.

a) Déterminer la distribution d’échantillonnage de T := X(n) .
b) Vérifier que la distribution d’échantillonnage de Y := T /θ ne dépend pas de θ.
51
Chapitre 6
Estimation de paramètres
6.1 Estimation ponctuelle

Soit X1 , X2 , . . . , Xn un échantillon aléatoire d’une variable aléatoire X dont la distribution dépend
d’un paramètre inconnu θ. Un estimateur ponctuel de θ est une statistique T = g(X1 , X2 , . . . , Xn ) lui
correspondant. De plus, si pour tout ε > 0,
lim P[|T − θ| ≤ ε] = 1,
n→∞
on dit que T est un estimateur convergent de θ.

Définition 46. Le biais d’un estimateur T de θ, qu’on note Biais(T ), est donné par
Biais(T ) := E[T ] − θ.
Remarques.
1. Si Biais(T ) = 0, on dit que T est un estimateur sans biais.
2. Si T est un estimateur basé sur un échantillon aléatoire de taille n et lim Biais(T ) = 0, alors
n→∞
T est dit asymptotiquement sans biais.
Définition 47. L’erreur quadratique moyenne d’un estimateur T de θ, qu’on note EQM(T ), est donnée
par
EQM(T ) := E[(T − θ)2 ] = var(T ) + (Biais(T ))2 .
Remarque. Si T1 et T2 sont deux estimateurs de θ et EQM(T1 ) < EQM(T2 ), alors on dit que T1 est
plus efficace que T2 .
Exemple 63. Soit X1 , X2 , . . . , Xn un échantillon aléatoire d’une population X ∼ U(0, θ). Soit
T = 2X un estimateur du paramètre inconnu θ. Calculer l’erreur quadratique moyenne de T .
Proposition 12. Si lim EQM(T ) = 0, alors T est un estimateur convergent de θ.
n→∞
6.1.1 Méthode du maximum de vraisemblance

On définit la fonction de vraisemblance L(θ) comme suit
 n
 Y
pX (Xk ; θ) si X est discrète,




k=1
L(θ) := Yn




 fX (Xk ; θ) si X est continue.
k=1
L’estimateur à vraisemblance maximale du paramètre θ est la solution θ̂ qui maximise la fonction de

vraisemblance L(θ).
52
CHAPITRE 6. ESTIMATION DE PARAMÈTRES C. Bingane
Exemple 64. Soit X1 , X2 , . . . , Xn un échantillon aléatoire d’une variable aléatoire X dont la distri-
bution dépend d’un paramètre inconnu θ. Calculer l’estimateur à vraisemblance maximale de θ.
a) X ∼ Geo(θ) b) X ∼ Exp(θ)
Proposition 13. Soit une fonction g : R → R. Si θ̂ est l’estimateur à vraisemblance maximale de θ,

alors g(θ̂) est l’estimateur à vraisemblance maximale de g(θ).
6.1.2 Méthode des moments

La méthode des moments consiste à estimer le paramètre inconnuP θ en égalisant le premier moment
théorique E[X ] qui dépend de θ avec sa contrepartie empirique n nk=1 X j . Cette méthode trouve sa
j 1
justification dans la loi des grands nombres. L’estimateur θ̂ de θ, obtenu par la méthode des moments,
est donc la solution d’une équation de la forme
n
j 1X j
E[X ] = X ,
n k=1 k
avec j entier positif.

Exemple 65. Soit X1 , X2 , . . . , Xn un échantillon aléatoire d’une population X dont la fonction de
densité est définie par fX (x; θ) = θxθ−1 si 0 < x < 1, où θ > 0 est un paramètre inconnu. Calculer
l’estimateur de θ par la méthode des moments.
6.2 Estimation par intervalles de confiance

Soit X une population dont la distribution dépend d’un paramètre inconnu θ. Soit X1 , X2 , . . . , Xn un
échantillon aléatoire de X.
• Si L = g(X1 , X2 , . . . , Xn ) et U = h(X1 , X2 , . . . , Xn ) sont des statistiques telles que
P[L ≤ θ ≤ U ] = 1 − α
alors [L, U ] est appelé intervalle de confiance bilatéral pour θ de niveau de confiance 1 − α.
• Si L = g(X1 , X2 , . . . , Xn ) est une statistique telle que
P[L ≤ θ] = 1 − α
alors [L, ∞) est appelé intervalle de confiance unilatéral pour θ de niveau de confiance 1 − α.
• Si U = h(X1 , X2 , . . . , Xn ) est une statistique telle que
P[U ≥ θ] = 1 − α
alors (−∞, U ] est appelé intervalle de confiance unilatéral pour θ de niveau de confiance 1 − α.
Supposons que X ∼ N(µ, σ 2 ), où seule la variance σ 2 est connue. Avec X comme estimateur de µ,
un intervalle de confiance bilatéral naturel de µ serait de la forme
√ √
X − cσ/ n ≤ µ ≤ X + cσ/ n
où c > 0 est une certaine constante. Pour α fixé, par exemple α = 0.05, on peut déterminer c de telle
sorte que √ √ √
P[X − cσ/ n ≤ µ ≤ X + cσ/ n] = P[|X − µ| ≤ cσ/ n] = 1 − α.
53
X−µ
Considérant la statistique Z := ∼ N(0, 1), on a √
σ/ n
√ ∗
P[|X − µ| ≤ cσ/ n] = P[|Z| ≤ c] = 1 − α ⇒ c = zα/2 ,
∗
√ √
où zα/2 = z1−α/2 = Φ−1 (1 − α/2). Donc, [X − zα/2 ∗
σ/ n, X + zα/2 ∗
σ/ n] est un intervalle de
confiance pour µ de niveau de confiance 1 − α.
Remarque. Soit X une variable aléatoire. Pour tout α ∈ (0, 1), on définit x∗α la valeur réelle telle que
P[X > x∗α ] = α.
Table 6.1 – Intervalles de confiance pour la moyenne µ
Intervalles de confiance
Échantillon Cas Statistique
[L, U ] [L, ∞) (−∞, U ]
∗ √σ
X−µ L = X − zα/2 L=X− zα∗ √σn
X1 , X2 , . . . , Xn ∼ N(µ, σ 2 ) σ 2 connue Z= √
σ/ n
∼ N(0, 1) ∗ √σ
n
U = X + zα/2 n
U = X + zα∗ √σn
X−µ L = X − t∗α/2 √Sn L = X − t∗α √Sn

X1 , X2 , . . . , Xn ∼ N(µ, σ 2 ) σ 2 inconnue T = √
S/ n
∼ tn−1
U = X + t∗α/2 √Sn U = X + t∗α √Sn
Table 6.2 – Intervalles de confiance pour la variance σ 2
[L, U ] [L, ∞) (0, U ]
2 2
nSµ nSµ
nSµ2 L= ∗ L=
X1 , X2 , . . . , Xn ∼ N(µ, σ 2 ) µ connue W = ∼ χ2n wα/2 wα∗
σ2 nSµ 2
nSµ2
U= ∗
w1−α/2 U= ∗
w1−α
(n−1)S 2 (n−1)S 2
2 (n−1)S 2 L= ∗ L= ∗
X1 , X2 , . . . , Xn ∼ N(µ, σ ) µ inconnue W = σ2 ∼ χ2n−1 wα/2 wα
(n−1)S 2 (n−1)S 2
U= ∗
w1−α/2 U= ∗
w1−α
Table 6.3 – Intervalles de confiance pour la différence de moyennes µX − µY

[L, U ] [L, ∞) (−∞, U ]
q 2 2
q 2 2
∗ σX σY σX σY
X1 , X2 , . . . , Xm ∼ 2
N(µX , σX ) 2
σX connue Z= r −µX +µY
X−Y
∼ N(0, 1) L=X −Y − zα/2 + L=X −Y − zα∗ +
σ2 σ2
q m2 n
2
m n q 2 2
X + Y σX σY σX σY
∗
Y1 , Y2 , . . . , Yn ∼ N(µY , σY2 ) σY2 connue m n
U =X −Y + zα/2 m + n U = X − Y + zα∗ m + n
q q
X−Y√−µX +µY
X1 , X2 , . . . , Xm ∼ N(µX , σ 2 ) T = ∼ tm+n−2 L = X − Y − t∗α/2 Sp 1
+ 1
L = X − Y − t∗α Sp 1
+ 1
σ 2 inconnue Sp m1
+n1
q
m n m n
q
2 2
(m−1)S X +(n−1)SY
Y1 , Y2 , . . . , Yn ∼ N(µY , σ 2 ) Sp2 = m+n−2 U = X − Y + t∗α/2 Sp 1
m + 1
n U = X − Y + t∗α Sp 1
m + 1
n
D−µ SD SD
X1 , X2 , . . . , Xn ∼ N(µX , σX 2
) σX2
inconnue T = ∼ tn−1
√D
SD / n
L = D − t∗α/2 √ n
L=D− t∗α √ n
SD SD
Y1 , Y2 , . . . , Yn ∼ N(µY , σY2 ) σY2 inconnue D =X −Y U = D + t∗α/2 √ n
U = D + t∗α √ n
2
Table 6.4 – Intervalles de confiance pour le rapport de variances σX /σY2
[L, U ] [L, ∞) (0, U ]
2 2
2 1 SµX 1 SµX
X1 , X2 , . . . , Xm ∼ N(µX , σX ) µX connue 2 /σ 2
SµX X L= ∗ 2 L= ∗ S2
R= 2 /σ 2
SµY
∼ F(m, n) rα/2 SµY
2
rα µY
2
Y
1 SµX 1 SµX
Y1 , Y2 , . . . , Yn ∼ N(µY , σY2 ) µY connue U= ∗
r1−α/2 2
SµY
U= ∗
r1−α 2
SµY
2 2
2 1 SX 1 SX
X1 , X2 , . . . , Xm ∼ N(µX , σX ) µX inconnue 2 /σ 2
SX L= ∗ SY2
L= ∗ S2
R= X
SY2 /σY
2 ∼ F(m − 1, n − 1) rα/2
2
rα Y
2
1 SX 1 SX
Y1 , Y2 , . . . , Yn ∼ N(µY , σY2 ) µY inconnue U= ∗
r1−α/2 SY2
U= ∗
r1−α SY2
54
Exemple 66. Un intervalle de confiance à 95% pour la moyenne µ d’une population√X ∼ N(µ, 9),
calculé à partir d’un échantillon aléatoire de taille n = 99, a donné |µ − 10| ≤ 3z0.025 / 99. Une 100è
observation, x100 , est prise. Calculer le nouvel intervalle de confiance si x100 = 11.
Exemple 67. Soit X ∼ N(µ, σ 2 ), où les paramètres µ et σ 2 sont Pinconnus. Un échantillon

P25 2 aléatoire
particulier x1 , x2 , . . . , x25 de X a donné les résultats suivants : 25 x
k=1 k = 175 et k=1 xk = 1550.
Calculer un intervalle de confiance bilatéral à 95% pour µ.
Exemple 68. Soit X ∼ Poi(λ), où le paramètre λ est inconnu. On considère un échantillon aléatoire
de taille n > 30 de X. Utiliser le théorème central limite pour obtenir un intervalle de confiance
approximatif à 1 − α pour λ.
6.3 Exercices
1 − |x|
43. Soit fX (x; θ) = 2θ
e θ pour x ∈ R, où θ > 0, la fonction de densité d’une variable aléatoire X.
a) Calculer l’estimateur à vraisemblance maximale du paramètre θ.
1
Pn 2 2
b) On considère l’estimateur β̂ = 2(n−1) k=1 Xk du paramètre β := θ . Calculer le biais de β̂.
44. Soit X1 , X2 , . . . , Xn un échantillon aléatoire d’une variable aléatoire X ∼ Bern(p).

a) Calculer l’estimateur à vraisemblance maximale du paramètre p.
b) Donner la loi exacte et la loi approximative que suit nX.
c) Donner une formule pour un intervalle de confiance (approximatif) à 1 − α pour p.
45. On peut montrer qu’un intervalle de confiance théorique à environ 95% pour le paramètre λ d’une
variable aléatoire X ∼ Poi(λ) est donné par X ± 1.96 std(X), où X est la moyenne d’un échantillon
aléatoire de taille n de X. Un échantillon aléatoire particulier de taille n = 1000 a donné une moyenne
de l’échantillon de 0.4. Calculer approximativement l’intervalle de confiance pour λ basé sur cet
échantillon particulier.
46. Soit X ∼ N(µ, µ2 ). Obtenir une formule pour un intervalle de confiance (approximatif) à 1 − α
pour µ.
47. Soit X ∼ N(−θ, θ), où θ > 0 est un paramètre inconnu.

a) On propose l’estimateur θ̂ = −X du paramètre θ. Calculer l’erreur quadratique moyenne de θ̂.
b) Utiliser l’estimateur θ̂ = −X pour obtenir une formule donnant un intervalle de confiance à
1 − α pour θ, basé sur un échantillon de taille n = 100, si l’on suppose que X < 0.
55
Chapitre 7
Tests d’hypothèses
7.1 Tests paramétriques

Supposons que l’on veuille vérifier la valeur d’un paramètre inconnu θ de la distribution d’une
population X. Pour ce faire, on compare deux hypothèses sur la valeur θ :
1. l’hypothèse nulle H0 : θ = θ0 et
2. l’hypothèse alternative ou la contre-hypothèse qui peut être
• bilatérale : H1 : θ 6= θ0 ou
• unilatérale à droite : H1 : θ > θ0 ou encore
• unilatérale à gauche : H1 : θ < θ0 .

1. l’erreur de première espèce (de type I) par
α = P[rejeter H0 | H0 est vraie],
2. l’erreur de deuxième espèce (de type II) par
β = P[ne pas rejeter H0 | H0 est fausse].
On appelle aussi α seuil critique ou seuil de signification du test et 1 − β, puissance du test.
Considérons une population X ∼ N(µ, σ 2 ), où seule la variance σ 2 est connue. On dispose d’un
échantillon aléatoire X1 , X2 , . . . , Xn de X et on veut tester l’hypothèse nulle H0 : µ = µ0 contre
l’hypothèse alternative H1 : µ 6= µ0 . Naturellement, avec X comme estimateur de µ, on rejette H0 si
√
|X − µ0 | > cσ/ n,
où c > 0 est une certaine constante.

À présent, imaginons qu’on se fixe un seuil α, par exemple α = 0.05, et qu’on veuille déterminer c de
telle sorte que l’erreur de première espèce soit exactement α, i.e.,
√
P[rejeter H0 | H0 est vraie] = P[|X − µ0 | > cσ/ n | H0 est vraie] = α.
Pour ce faire, on considère la statistique suivante
X − µ0
Z0 := √ .
σ/ n
56
CHAPITRE 7. TESTS D’HYPOTHÈSES C. Bingane
Sous l’hypothèse H0 , on a Z0 ∼ N(0, 1) et

√ ∗
√
P[|X − µ0 | > cσ/ n] = P[|Z0 | > c] = α ⇒ c = zα/2 / n,
∗
où zα/2 = z1−α/2 = Φ−1 (1 − α/2). On rejette donc H0 au seuil critique α si |Z0 | > zα/2
∗
.
√
Si H0 est fausse : µ = µ0 + ∆ avec ∆ 6= 0, alors Z0 ∼ N(∆ n/σ, 1) et l’erreur de deuxième espèce
est √ √
∗ ∗
β = β(∆) = Φ(zα/2 − ∆ n/σ) − Φ(−zα/2 − ∆ n/σ).
Remarque. Si [L, U ] est un intervalle de confiance de θ de niveau de confiance 1 − α, alors on rejette
au seuil critique α l’hypothèse nulle H0 si θ0 ∈
/ [`, u].
Table 7.1 – Tests d’une moyenne théorique
Statistique sous Conditions de rejet de H0 si

Échantillon Cas
H0 : µ = µ0 H1 : µ 6= µ0 H1 : µ > µ0 H1 : µ < µ 0
X−µ ∗
X1 , X2 , . . . , Xn ∼ N(µ, σ 2 ) σ 2 connue Z0 = √0
σ/ n
∼ N(0, 1) |z0 | > zα/2 z0 > zα∗ z0 < −zα∗
X−µ
X1 , X2 , . . . , Xn ∼ N(µ, σ 2 ) σ 2 inconnue T0 = √0
S/ n
∼ tn−1 |t0 | > t∗α/2 t0 > t∗α t0 < −t∗α
Table 7.2 – Tests d’une variance théorique

Échantillon Cas
H0 : σ 2 = σ02 H1 : σ 2 6= σ02 H1 : σ 2 > σ02 H1 : σ 2 < σ02
∗
nSµ 2 w0 > wα/2 w0 > wα∗
X1 , X2 , . . . , Xn ∼ N(µ, σ 2 ) µ connue W0 = σ02
∼ χ2n ∗ ∗
w0 < w1−α/2 w0 < w1−α
∗
(n−1)S 2 w0 > wα/2 w0 > wα∗
X1 , X2 , . . . , Xn ∼ N(µ, σ 2 ) µ inconnue W0 = σ02
∼ χ2n−1 ∗ ∗
w0 < w1−α/2 w0 < w1−α
Table 7.3 – Tests de l’égalité de deux moyennes

Échantillon Cas
H0 : µX = µY H1 : µX 6= µY H1 : µX > µY H1 : µX < µY
2 2
X1 , X2 , . . . , Xm ∼ N(µX , σX ) σX connue Z0 = r X−Y ∼ N(0, 1) ∗
σ2 σ2
|z0 | > zα/2 z0 > zα∗ z0 < −zα∗
Y1 , Y2 , . . . , Yn ∼ N(µY , σY2 ) σY2 connue X
m + Y
n
X−Y
√
X1 , X2 , . . . , Xm ∼ N(µX , σ 2 ) T0 = ∼ tm+n−2
σ 2 inconnue Sp m1
+n 1 |t0 | > t∗α/2 t0 > t∗α t0 < −t∗α
2 2
2 (m−1)SX +(n−1)SY
Y1 , Y2 , . . . , Yn ∼ N(µY , σ ) Sp2 = m+n−2
X1 , X2 , . . . , Xn ∼ N(µX , σX 2
) σX2
inconnue T0 = SDD√ ∼ tn−1
/ n |t0 | > t∗α/2 t0 > t∗α t0 < −t∗α
2
Y1 , Y2 , . . . , Yn ∼ N(µY , σY ) σY2 inconnue D =X −Y
Table 7.4 – Tests de l’égalité de deux variances

Échantillon Cas
2
H0 : σX = σY2 2
H1 : σX 6= σY2 2
H1 : σX > σY2 2
H1 : σX < σY2
∗
X1 , X2 , . . . , Xm ∼ N(µX , σX 2
) µX connue 2
SµX r0 > rα/2 r0 > rα∗
R0 = 2 ∼ F(m, n) ∗ ∗
Y1 , Y2 , . . . , Yn ∼ N(µY , σY2 ) µY connue SµY
r0 < r1−α/2 r0 < r1−α
∗
X1 , X2 , . . . , Xm ∼ N(µX , σX 2
) µX inconnue 2
SX r0 > rα/2 r0 > rα∗
2
R0 = SY2
∼ F(m − 1, n − 1) ∗ ∗
Y1 , Y2 , . . . , Yn ∼ N(µY , σY ) µY inconnue r0 < r1−α/2 r0 < r1−α
57
7.2 Test d’ajustement de Pearson

Théorème 23. Soit X1 , X2 , . . . , Xn un échantillon aléatoire d’une variable aléatoire discrète X
dont le support est SX = {x1 , x2 , . . . , xm }. Pour tout j = 1, 2, . . . , m, soit Nj le nombre de variables
de l’échantillon qui prennent la valeur xj . Alors
m
X (Nj − npj )2
W = lim ∼ χ2m−1 ,
n→∞
j=1
np j
Pm
où, pour tout j = 1, 2 . . . , m, pj = P[X = xj ] > 0 avec j=1 pj = 1.
Soit X une variable aléatoire dont la fonction de répartition FX est inconnue. On veut tester l’hypothèse
nulle H0 : FX = F0 contre l’hypothèse alternative H1 : FX 6= F0 , où F0 est une fonction donnée. Pour
ce faire, on suit les étapes suivantes :
1. sous H0 , on partitionne le support de X en m classes C1 , C2 , . . . , Cm . Pour tout j = 1, 2, . . . , m,
on calcule p0j = P[X ∈ Cj ] ;
2. on prélève un échantillon de taille n m de X ;
3. on calcule la valeur de la statistique
m
X (Nj − np0j )2
W0 = ≈ χ2m−`−1 ,
j=1
np 0j
où Nj est le nombre de variables de l’échantillon qui appartiennent à la classe Cj pour tout

j = 1, 2 . . . , m et ` est le nombre de paramètres inconnus dans F0 qu’il a fallu estimer ;
4. on rejette H0 si w0 > wα au seuil de signification α.
Exemple 69. On veut tester l’hypothèse qu’une variable aléatoire X suit une loi N(0, 1). Un échantillon
aléatoire particulier de taille n = 100 de X a permis de constituer le tableau 7.5. Calculer la statistique
utilisée pour effectuer le test.
Table 7.5 – Exemple 69
Classe (−∞, −0.674] (−0.674, 0] (0, 0.674] (0.674, ∞)

Effectif 20 25 25 30
Exemple 70. On a recueilli les observations du tableau 7.6 en lançant un dé 90 fois. Soit X le nombre
obtenu en lançant le dé. On veut tester l’hypothèse
H0 : P[X est pair] = P[X est impair].
Calculer la statistique utilisée pour effectuer le test et donner le nombre d de degrés de liberté de cette
statistique sous l’hypothèse nulle H0 .
Table 7.6 – Exemple 70
Classe {1} {2} {3} {4} {5} {6}

Effectif 13 12 16 18 15 16
58
7.3 Exercices
48. La vitesse X des microprocesseurs d’une certaine entreprise est censée être de 2 GHz. On suppose
que X ≈ N(µ, σ 2 ).
a) On prélève un échantillon aléatoire de taille n = 9 de X et on calcule la vitesse moyenne x
des microprocesseurs. Si l’écart-type s de l’échantillon est égal à 0.2, pour quelles valeurs de
x pourra-t-on conclure que la vitesse moyenne des microprocesseurs est inférieure à 2 GHz.
Utiliser α = 0.025.
b) Supposons que la vitesse moyenne des microprocesseurs est en fait 2.1 GHz, et que σ = 0.25.
Quelle est la probabilité de rejeter l’hypothèse H0 : µ = 2 (pour accepter H1 : µ < 2) au seuil
de α = 0.05, si l’on prélève un échantillon aléatoire de taille n = 16 ?
2
c) Quelle est la valeur de la statistique utilisée pour tester l’hypothèse HP
0 : σ = 0.02 contre
2 10
H
P110: σ 2> 0.02 si un échantillon aléatoire de taille n = 10 a donné k=1 xk = 20.17 et
k=1 xk = 40.775 ? Quelle est la conclusion du test si α = 0.05 ?
49. Un fabricant de pneus prétend que la distance de freinage moyenne d’une voiture chaussée de ses
pneus de marque A n’est pas supérieure à la distance de freinage moyenne obtenue avec les pneus plus
coûteux de marque B. On croit que cette affirmation est fausse et on décide de le tester en mesurant la
distance de freinage (en mètres) à partir de 100 km/h jusqu’à l’arrêt. Les données sont les suivantes :
Pneus de marque A 40 41 39 44 45
Pneus de marque B 38 40 38 41 45
Soit X la distance de freinage obtenue avec les pneus de marque A, et Y la distance obtenue avec ceux
2
de marque B. On suppose que X ≈ N(µX , σX ) et Y ≈ N(µY , σY2 ).
a) Supposons que les mesures ont été prises en utilisant cinq marques de voitures différentes, la
première fois avec les pneus de marque A, et la seconde fois avec les pneus de marque B. Donner
la valeur de la statistique utilisée pour tester, au seuil α = 0.05, l’hypothèse H0 : µX = µY ;
donner aussi la valeur du centile c auquel la statistique en question est comparée.
b) Supposons que les dix mesures de distance de freinage ont été prises avec la même voiture, lors
de dix journées différentes. Calculer, en supposant σX = σY = 2.5, la valeur de la statistique
appropriée pour tester au seuil α = 0.05 l’hypothèse H0 : µX = µY , et donner la valeur du
centile c auquel cette statistique est comparée.
c) Sous les mêmes hypothèses qu’en b), quelle est la probabilité de détecter que la distance de
freinage moyenne µX est supérieure à la moyenne µY lorsque, en fait, µX − µY = 1.25 ?
50. On désire comparer la consommation d’essence (en litres par 100 km) des voitures deux marques,
A et B. On croit que les voitures de marque B consomment moins, en moyenne, que celles de marque A.
Soit X (respectivement Y ) la consommation d’essence des voitures de marque A (respectivement B).
2
On suppose que X ≈ N(µX , σX ) et Y ≈ N(µY , σY2 ). Des échantillons aléatoires de X et Y ont été
prélevés. Les données sont les suivantes :
Voitures de marque A 10.5 10.9 9.8 10.2 11.9 9.9 10.7 10.1 10.6
Voitures de marque B 9.7 10.0 10.3 9.4 9.6 9.8 10.2 10.0
a) On doit d’abord tester l’égalité des variances. On trouve que si α = 0.05, alors on conclut que
2
σX = σY2 . Quelle est la valeur de la statistique utilisée pour tester, au seuil de signification
α = 0.05, l’hypothèse que la consommation moyenne des voitures de marque B est inférieure à
celle des voitures de marque A ? Quelle est la contre-hypothèse H1 ?
59
2
b) Si on choisit plutôt α = 0.10, alors on doit conclure que σX 6= σY2 . Quelle est, dans ce cas, la
valeur de la statistique utilisée pour tester, au seuil α = 0.10, l’hypothèse en a) ? Quelle est la
conclusion du test ?
c) Supposons qu’on élimine l’observation 11.9 dans l’échantillon aléatoiree de X, car cette ob-
servation est douteuse. Quelle est alors la valeur de la statistique dont on se sert pour tester
2
l’hypothèse H0 : σX = σY2 contre H1 : σX2
6= σY2 ? Quelle est la conclusion du test si α = 0.05 ?
51. Soit X1 , X2 , . . . , Xn un échantillon aléatoire d’une variable aléatoire X dont la fonction de densité
est fX (x; θ) = θxθ−1 pour 0 < x < 1, où θ > 0 est un paramètre inconnu.
a) Calculer l’estimateur de θ par la méthode du maximum de vraisemblance.
b) Afin de vérifier si le modèle fX (x; θ) proposé ci-dessus est adéquat pour une certaine va-
riable aléatoire X, on effectue un test d’ajustement (de Pearson). On recueille 162 observations
indépendantes de X et on les regroupe en trois classes ; on obtient le tableau d’effectifs suivant.
Classe (0, 1/3] (1/3, 2/3] (2/3, 1)

Effectif 14 62 86
De plus, on trouve que la valeur de l’estimateur à vraisemblance maximale du paramètre θ

calculée à partir de ces 162 observations est θ̂ = 2.
Calculer la statistique utilisée pour effectuer le test et donner le nombre de degrés de liberté
associé à cette statistique (sous H0 ).
2
52. Soit fX (x; θ) = 2θxe−θx pour x > 0, où θ > 0 est un paramètre inconnu.
a) Calculer l’estimateur à vraisemblance maximale du paramètre θ.
b) On a recueilli 30 observations indépendantes de la variable aléatoire X, avec lequel on a construit
le tableau d’effectifs suivant.
√ √
Classe (0, 1/ 2] (1/ 2, 1] (1, ∞)
Effectif 12 8 10
2
On veut faire le test, au seuil α = 0.05, de l’hypothèse H0 : fX (x) = 2xe−x contre H1 : fX (x) 6=
2
2xe−x pour x > 0. Donner la valeur de la statistique utilisée pour effectuer le test et le nombre
de degrés de liberté associé à cette statistique (sous H0 ).
60
Bibliographie
[1] L. Adjengue, Méthodes statistiques. Presses internationales Polytechnique, 2014.

[2] C. Bélisle, “STT-1920 Méthodes statistiques.” Université Laval, 2011.
[3] J. Guérin, “MTH2302B Probabilités et statistique.” Polytechnique Montréal, 2010.
[4] S. Le Digabel, “MTH2302D Probabilités et statistique.” Polytechnique Montréal, 2017.
[5] M. Lefebvre, Probabilités, statistique et applications. Presses internationales Polytechnique, 2011.
[6] M. Lefebvre, Cours et exercices de probabilités appliquées. Presses internationales Polytechnique,
2015.
61

Probabilités Et Statistique

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Probabilités Et Statistique

Transféré par

Droits d'auteur :

Formats disponibles

Probabilités et statistique

Cours et travaux dirigés

Christian Bingane, PhD

2.1 Quelques lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

5.1 Histogramme de l’exemple 57 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

1.1 Concepts de base

Définition 3. Un événement est un sous-ensemble de l’espace échantillon d’une expérience aléatoire.

Remarque. On appelle ∅ événement impossible et Ω événement certain.

P[Ω] = P[Ac ∪ A] = P[Ac ] + P[A] ⇒ P[Ac ] = P[Ω] − P[A] = 1 − P[A].

P[A ∪ B] − P[B] = P[A] − P[A ∩ B].

B = A ∪ (Ac ∩ B) ⇒ P[B] = P[A] + P[Ac ∩ B] ≥ P[A].

1.3 Probabilité conditionnelle

Définition 5. Soit A et B deux événements. La probabilité conditionnelle de A sachant B, qu’on note

Théorème 2 (Formule de multiplication). Si A1 , A2 , . . . , An sont des événements tels que P[A1 ∩

P[A1 ∩ A2 ∩ . . . ∩ An ] = P[A1 ] P[A2 | A1 ] P[A3 | A1 ∩ A2 ] . . . P[An | A1 ∩ A2 ∩ . . . ∩ An−1 ].

Démonstration. Pour tout 1 ≤ k ≤ n, soit Bk = kj=1 Aj . Alors pour tout 2 ≤ k ≤ n,

Si P[Bi ] > 0 pour tout i = 1, 2, . . . , n, alors pour tout événement A,

Démonstration. Soit B1 , B2 , . . . , Bn une partition de Ω. Si P[Bi ] > 0 pour tout i = 1, 2, . . . , n, alors

Théorème 4 (Formule de Bayes). Soit B1 , B2 , . . . , Bn des événements formant une partition de Ω.

Démonstration. Soit B1 , B2 , . . . , Bn une partition de Ω. Si P[Bi ] > 0 pour tout i = 1, 2, . . . , n, alors

P[A | Bj ] P[Bj ] thm. 3 P[A | Bj ] P[Bj ]

Définition 6. Deux événements A et B sont indépendants si et seulement si

P[A ∩ B] = P[A] P[B].

Remarque. Si A et B sont indépendants et P[B] > 0, alors P[A | B] = P[A].

Proposition 1. Si deux événements A et B sont indépendants, alors

Définition 7. On dit que n événements A1 , A2 , . . . , An sont

P[Ai ∩ Aj ] = P[Ai ] P[Aj ],

• mutuellement indépendants si et seulement si pour tout J ⊆ {1, 2, . . . , n},

Définition 8. Deux événements A et B sont conditionnellement indépendants par rapport à un événe-

P[A ∩ B | C] = P[A | C] P[B | C].

1.4 Analyse combinatoire

2. Un k-arrangement avec répétition de Ω, où k est un entier naturel, est un k-uplet d’éléments

2. Pour tout n1 , n2 ∈ N et pour tout k ∈ N tel que k ≤ n1 + n2 ,

5. Un ingénieur est abonné à deux services indépendants de courrier électronique. La probabilité

a) Quelle est la probabilité que la particule ne visite pas le point 3 ?

a) Quelle est la probabilité que le système fonctionne ?

FX (x) := P[X ≤ x].

Théorème 5. Si a < b, alors P[a < X ≤ b] = FX (b) − FX (a).

Démonstration. Notons d’abord que {X ≤ b} = {X ≤ a} ∪ {a < X ≤ b}. Alors

P[X ≤ b] = P[X ≤ a] + P[a < X ≤ b] ⇒ FX (b) = FX (a) + P[a < X ≤ b].

Exemple 11. Soit 

Calculer P[0 < X ≤ 1/2] + P[X = 1].

• Le quantile d’ordre 1/2 est aussi appelé médiane.

Exemple 13. Soit

2.2 Variable aléatoire discrète

pX (x) := P[X = x].

La fonction de répartition de X est alors donnée par

2.3 Variable aléatoire continue

où δ(·) est la distribution de Dirac.

2.4 Quelques lois de probabilité

On dit que X suit une loi de Poisson de paramètre λ > 0 si

Théorème 7. Soit un réel λ > 0. Pour tout naturel k,

2.4.2 Lois continues

(a) Loi Bern(3/4) (b) Loi B(4, 1/2)

Figure 2.1 – Quelques lois discrètes

pour tout x ∈ SX = (0, ∞). On écrit X ∼ G(α, λ).

Exemple 22. Calculer P[X 2 ≤ 9], où X ∼ G(2, 1).

Dans ce cas, P[X > x] = P[Y ≤ n − 1], où Y ∼ Poi(λx).

pour tout x ∈ SX = (−∞, ∞). On écrit X ∼ N(µ, σ 2 ).

Théorème 9. Si X ∼ N(µ, σ 2 ), alors Z = X−µ ∼ N(0, 1) et pour tout x ∈ R, FX (x) = Φ x−µ

Démonstration. Soit FZ et fZ la fonction de répartition et la fonction de densité respectives de Z.

Donc, Z ∼ N(0, 1).

Exemple 23. Soit X ∼ N(1, 1). Calculer P[X 2 − 2X > 0].