Cours Probastat 2023

Probabilités et statistique
Cours et travaux dirigés
Christian Bingane, PhD

christian.bingane@unikin.ac.cd
19 août 2023
Table des matières
I Probabilités appliquées 6
1 Probabilités élémentaires 7
1.1 Concepts de base . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Probabilité conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 Analyse combinatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2 Variables aléatoires 14
2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2 Variable aléatoire discrète . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Variable aléatoire continue . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.4 Huit lois de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.1 Quatre lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.4.2 Lois continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.5 Transformation d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . 22
2.6 Caractéristiques d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.1 Moyenne, mode et médiane . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.6.2 Variance et écart-type . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.6.3 Moments et fonction caractéristique . . . . . . . . . . . . . . . . . . . . . . 25
2.7 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
3 Vecteurs aléatoires 29
3.1 Fonction de répartition conjointe . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2 Vecteur aléatoire discret . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.3 Vecteur aléatoire continu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.4 Probabilités conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.4.1 Fonctions de répartition, de masse, de densité conditionnelles . . . . . . . . 31
3.4.2 Moyenne conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.5 Caractéristiques d’un vecteur aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.6 Estimation d’une variable aléatoire . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
3.7 Deux lois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.7.1 Loi binomiale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.7.2 Loi binormale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.8 Combinaison linéaire de variables aléatoires . . . . . . . . . . . . . . . . . . . . . . 36
3.8.1 Somme de variables aléatoires indépendantes . . . . . . . . . . . . . . . . . 37
3.8.2 Théorèmes limites . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.9 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2
TABLE DES MATIÈRES C. Bingane
II Statistique 40
4 Statistique descriptive 41
4.1 Quelques représentations graphiques de données . . . . . . . . . . . . . . . . . . . . 41
4.1.1 Tableau d’effectifs et histogramme . . . . . . . . . . . . . . . . . . . . . . . 41
4.1.2 Diagramme en boîte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2 Quelques mesures numériques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3 Distributions échantillonnales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.3.1 Quelques lois utiles en statistique . . . . . . . . . . . . . . . . . . . . . . . 43
4.3.2 Moyenne et variance échantillonnales . . . . . . . . . . . . . . . . . . . . . 46
4.4 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
5 Estimation de paramètres 49
5.1 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.1.1 Méthode du maximum de vraisemblance . . . . . . . . . . . . . . . . . . . 49
5.1.2 Méthode des moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.2 Estimation par intervalles de confiance . . . . . . . . . . . . . . . . . . . . . . . . . 50
5.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
6 Tests d’hypothèses 53
6.1 Tests paramétriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
6.2 Test d’ajustement de Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
3
Table des figures
2.1 Quatre lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

2.2 Quatre lois continues . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.1 Histogramme de l’exemple 48 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.2 Diagramme en boîte de l’exemple 48 . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.3 Deux lois utiles en statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4
Liste des tableaux
2.1 Valeurs de Φ(z) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

2.2 Quelques lois de probabilité et leurs caractéristiques . . . . . . . . . . . . . . . . . . 26
3.1 Loi de X + Y , où X et Y sont indépendantes . . . . . . . . . . . . . . . . . . . . . 37
4.1 Tableau de fréquences de l’exemple 48 . . . . . . . . . . . . . . . . . . . . . . . . . 41

4.2 Valeurs de c telles que P[χ2n ≤ cn] = 0.95 . . . . . . . . . . . . . . . . . . . . . . . 44
4.3 Valeurs de c telles que P[χ2n ≥ n/c] = 0.95 . . . . . . . . . . . . . . . . . . . . . . 44
4.4 Valeurs de c telles que P[n/c ≤ χ2n ≤ cn] = 0.95 . . . . . . . . . . . . . . . . . . . 44
4.5 Valeurs de c telles que P[tn ≤ c] = 0.95 . . . . . . . . . . . . . . . . . . . . . . . . 45
4.6 Valeurs de c telles que P[|tn | ≤ c] = 0.95 . . . . . . . . . . . . . . . . . . . . . . . 46
5.1 Intervalles de confiance pour la moyenne µ . . . . . . . . . . . . . . . . . . . . . . 51

5.2 Intervalles de confiance pour la variance σ 2 . . . . . . . . . . . . . . . . . . . . . . 51
6.1 Tests d’une moyenne théorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

6.2 Tests d’une variance théorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
6.3 Exemple 59 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
6.4 Exemple 60 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5
Première partie
Probabilités appliquées
6
Chapitre 1
Probabilités élémentaires
1.1 Concepts de base

Définition 1. Une expérience aléatoire est une expérience qui peut être répétée sous les mêmes
conditions et dont le résultat ne peut pas être prédit avec certitude.
Définition 2. L’espace échantillon d’une expérience aléatoire est l’ensemble Ω de tous les résultats
possibles de cette expérience. Chaque résultat possible ω ∈ Ω est appelé résultat élémentaire.
Exemple 1. Soit l’expérience aléatoire suivante : « on lance deux dés identiques à six faces ; si les deux
nombres obtenus sont égaux, on relance (une seule fois) les deux dés ». Combien y a-t-il d’événements
élémentaires dans l’espace échantillon ?
Remarque. Un espace échantillon est dit discret si il est un ensemble fini ou infini dénombrable. Il est
dit continu si il est infini non dénombrable.
Définition 3. Un événement est un sous-ensemble de l’espace échantillon d’une expérience aléatoire.
Exemple 2. Un étudiant se lève à un instant x et se couche à un instant y, où 0 < x < y < 24. Soit
Ω = {(x, y) | 0 < x < y < 24} l’espace échantillon de cette expérience aléatoire. Écrire sous forme
mathématique l’événement E : « l’étudiant passe au moins trois heures de plus debout que couché ».
Remarque. On appelle ∅ événement impossible et Ω événement certain.

Soit Ω l’espace échantillon d’une expérience aléatoire. Soit deux événements A et B. On dit que
• A est inclus dans B, noté A ⊆ B, ssi ∀ω ∈ Ω, ω ∈ A ⇒ ω ∈ B,
• A et B sont égaux, noté A = B, ssi ∀ω ∈ Ω, ω ∈ A ⇔ ω ∈ B.
Si on munit l’ensemble des parties de Ω des opérations :
1. l’union : pour tout A, B ⊆ Ω, A ∪ B = {ω ∈ Ω | ω ∈ A ∨ ω ∈ B},
2. l’intersection : pour tout A, B ⊆ Ω, A ∩ B = {ω ∈ Ω | ω ∈ A ∧ ω ∈ B},
alors les propriétés suivantes sont vérifiées.
i) Pour tout A, B ⊆ Ω, A ∪ B = B ∪ A et A ∩ B = B ∩ A.
ii) Pour tout A, B, C ⊆ Ω, (A ∪ B) ∪ C = A ∪ (B ∪ C) et (A ∩ B) ∩ C = A ∩ (B ∩ C).
iii) Pour tout A, B, C ⊆ Ω, (A ∪ B) ∩ C = (A ∩ C) ∪ (B ∩ C) et (A ∩ B) ∪ C = (A ∪ C) ∩ (B ∪ C).
iv) Pour tout A ⊆ Ω, A ∪ ∅ = A et A ∩ Ω = A.
v) Pour tout A ⊆ Ω, A ∪ Ω = Ω et A ∩ ∅ = ∅.
vi) Pour tout A ⊆ Ω, A ∪ A = A et A ∩ A = A.
7
CHAPITRE 1. PROBABILITÉS ÉLÉMENTAIRES C. Bingane
vii) Pour tout A ⊆ Ω, il existe Ac := {ω ∈ Ω | ω ∈

/ A} ⊆ Ω, appelé complémentaire de A, tel que
A ∪ Ac = Ω et A ∩ Ac = ∅.
viii) Pour tout A, B ⊆ Ω, (A ∪ B)c = Ac ∩ B c et (A ∩ B)c = Ac ∪ B c .
Exemple 3. Soient A, B et C trois événements d’une expérience aléatoire dont l’espace échantillon
est Ω. Écrire sous forme mathématique l’événement E : « exactement un des événements A, B ou C
ne se produit pas ».
Exemple 4. Un transistor est pris au hasard et sa durée de vie est mesurée. L’espace échantillon Ω
de cette expérience aléatoire est [0, ∞). On considère les événements A = [0, 1], B = [0, 2] et
C = [1, ∞). Donner les intervalles qui correspondent aux événements suivants :
a) E1 = A ∪ (B ∩ C). b) E2 = [A ∩ (B c ∪ C c )]c .
Incompatibilité Deux événements A et B sont dits incompatibles si A ∩ B = ∅.
1.2 Probabilité
Soit Ω l’espace échantillon d’une expérience aléatoire.
Définition 4. La probabilité d’un événement A ⊆ Ω est un nombre réel P[A] qui vérifie les propriétés :
1. P[A] ≥ 0 pour tout A ⊆ Ω,
2. P[Ω] = 1,
3. si A ∩ B = ∅, alors P[A ∪ B] = P[A] + P[B].
Théorème 1. Soit les événements A et B.
1. P[Ac ] = 1 − P[A].
2. P[A] ≤ 1.
3. P[∅] = 0.
4. P[A ∪ B] = P[A] + P[B] − P[A ∩ B].
5. Si A ⊆ B, alors P[A] ≤ P[B].
Démonstration.
1. On a Ac ∪ A = Ω et Ac ∩ A = ∅. Alors
P[Ω] = P[Ac ∪ A] = P[Ac ] + P[A] ⇒ P[Ac ] = P[Ω] − P[A] = 1 − P[A].
2. P[A] = 1 − P[Ac ] ≤ 1.
3. P[∅] = P[Ωc ] = 1 − P[Ω] = 1 − 1 = 0.
4. On peut écrire
A ∪ B = A ∪ (Ac ∩ B) ⇒ P[A ∪ B] = P[A] + P[Ac ∩ B],
B = (A ∩ B) ∪ (Ac ∩ B) ⇒ P[B] = P[A ∩ B] + P[Ac ∩ B].
Donc, en soustrayant membre à membre les deux égalités, on a
P[A ∪ B] − P[B] = P[A] − P[A ∩ B].
5. Si A ⊆ B, alors on a
B = A ∪ (Ac ∩ B) ⇒ P[B] = P[A] + P[Ac ∩ B] ≥ P[A].
Exemple 5. Soient A, B et C des événements tels que A ⊆ B, P[(B ∪C)c ] = 1/10, P[B ∩C] = 3/10,
P[Ac ∩ B] = 1/2 et P[C] = 13/20. Calculer P[A].
8
1.3 Probabilité conditionnelle

Soit l’espace échantillon Ω associé à une expérience aléatoire.
Définition 5. Soit A et B deux événements. La probabilité conditionnelle de A sachant B, qu’on note
P[A | B], est donnée par
P[A ∩ B]
P[A | B] = si P[B] > 0.
P[B]
Exemple 6. Deux événements A et B forment une partition de l’espace échantillon Ω d’une expérience
aléatoire. Calculer P[A | B] + P[A | B c ].
Théorème 2 (Formule de multiplication). Si A1 , A2 , . . . , An sont des événements tels que P[A1 ∩
A2 ∩ . . . ∩ An ] > 0, alors
P[A1 ∩ A2 ∩ . . . ∩ An ] = P[A1 ] P[A2 | A1 ] P[A3 | A1 ∩ A2 ] . . . P[An | A1 ∩ A2 ∩ . . . ∩ An−1 ].
Démonstration. Pour tout 1 ≤ k ≤ n, soit Bk = kj=1 Aj . Alors pour tout 2 ≤ k ≤ n,
T
P[Bk ]
Bk = Ak ∩ Bk−1 ⇒ P[Bk ] = P[Ak ∩ Bk−1 ] = P[Ak | Bk−1 ] P[Bk−1 ] ⇒ P[Ak | Bk−1 ] = .
P[Bk−1 ]
Par la suite,
n n n
Y Y P[Bk ] P[Bn ] Y
P[Ak | Bk−1 ] = = ⇒ P[Bn ] = P[B1 ] P[Ak | Bk−1 ].
k=2 k=2
P[Bk−1 ] P[B1 ] k=2
Théorème 3 (Formule des probabilités totales). Soit B1 , B2 , . . . , Bn des événements formant une
partition de Ω, i.e.,
1. Bi ∩ Bj = ∅, pour tout i ̸= j,
2. ni=1 Bi = Ω.
S
Si P[Bi ] > 0 pour tout i = 1, 2, . . . , n, alors pour tout événement A,

n
X
P[A] = P[A | Bi ] P[Bi ].
i=1
Démonstration. Soit B1 , B2 , . . . , Bn une partition de Ω. Si P[Bi ] > 0 pour tout i = 1, 2, . . . , n, alors

pour tout A ⊆ Ω,
n
! n n n
[ [ X X
A=A∩Ω=A∩ Bi = (A ∩ Bi ) ⇒ P[A] = P[A ∩ Bi ] = P[A | Bi ] P[Bi ].
i=1 i=1 i=1 i=1
Théorème 4 (Formule de Bayes). Soit B1 , B2 , . . . , Bn des événements formant une partition de Ω.

Si P[Bi ] > 0 pour tout i = 1, 2, . . . , n, alors pour tout événement A tel que P[A] > 0,
P[A | Bj ] P[Bj ]
P[Bj | A] = Pn
i=1 P[A | Bi ] P[Bi ]
pour tout j = 1, 2, . . . , n.
Démonstration. Soit B1 , B2 , . . . , Bn une partition de Ω. Si P[Bi ] > 0 pour tout i = 1, 2, . . . , n, alors
pour tout A ⊆ Ω tel que P[A] > 0,
P[A | Bj ] P[Bj ] thm. 3 P[A | Bj ] P[Bj ]
P[Bj | A] = = Pn
P[A] i=1 P[A | Bi ] P[Bi ]
pour tout j = 1, 2, . . . , n.
9
Indépendance Deux événements A et B sont indépendants ssi P[A ∩ B] = P[A] P[B].

Remarque. Si A et B sont indépendants et P[B] > 0, alors P[A | B] = P[A].
Proposition 1. Si deux événements A et B sont indépendants, alors

• A et B c sont indépendants ;
• Ac et B sont indépendants ;
• Ac et B c sont indépendants.
Définition 6. On dit que n événements A1 , A2 , . . . , An sont

• deux à deux indépendants si et seulement si pour tout 1 ≤ i < j ≤ n,
P[Ai ∩ Aj ] = P[Ai ] P[Aj ],
• mutuellement indépendants si et seulement si pour tout 2 ≤ k ≤ n, 1 ≤ i1 < i2 < . . . < ik ≤ n,
P[Ai1 ∩ Ai2 ∩ . . . ∩ Aik ] = P[Ai1 ] P[Ai2 ] . . . P[Aik ].
Exemple 7. Soient A, B et C des événements tels que A et B sont indépendants, P[A] = P[B] =
P[C] = 1/3 et P[C | A ∩ B] = 1/2. Calculer la probabilité P[A ∩ B | C].
Indépendance conditionnelle Deux événements A et B sont conditionnellement indépendants par

rapport à un événement C tel que P[C] > 0 ssi P[A ∩ B | C] = P[A | C] P[B | C].
Exemple 8. Dans une certaine usine, 80% des pièces fabriquées sont conformes aux normes. Chaque
pièce fabriquée est soumise à trois opérations de contrôle indépendantes. On suppose que chacune de
ces opérations déclare conformes aux normes 95% des pièces qui sont effectivement conformes aux
normes, et 10% des pièces qui en fait ne le sont pas. Calculer la probabilité qu’une pièce vendue soit
effectivement conforme aux normes.
1.4 Analyse combinatoire

Définition 7. Soit Ω un ensemble à n éléments.
1. Un k-arrangement sans répétition de Ω, où k est un entier naturel tel que 0 ≤ k ≤ n, est un
k-uplet d’éléments distincts de Ω. Le nombre de k-arrangements sans répétition de Ω est
n!
Akn = .
(n − k)!
2. Un k-arrangement avec répétition de Ω, où k est un entier naturel, est un k-uplet d’éléments

de Ω. Le nombre de k-arrangements avec répétition de Ω est
k
An = nk .
3. Une k-combinaison sans répétition de Ω, où k est un entier naturel tel que 0 ≤ k ≤ n, est un
sous-ensemble de k éléments de Ω. Le nombre de k-combinaisons sans répétition de Ω est

k n n!
Cn = = .
k k!(n − k)!
10
4. Une k-combinaison avec répétition de Ω, où k est un entier naturel, est un multi-ensemble de

k éléments de Ω. Le nombre de k-combinaisons avec répétition de Ω est

k n+k−1 (n + k − 1)!
Cn = = .
k k!(n − 1)!
Exemple 9. Dix candidats sont interviewés pour combler deux postes dans une entreprise. De combien
de façons cette dernière peut-elle combler ces postes, si
a) les deux postes sont identiques ?
b) un poste est permanent et l’autre est temporaire ?
Exemple 10. Une classe est constituée de vingt étudiants. Quelle est la probabilité qu’exactement
deux d’entre eux aient le même anniversaire ?
Propriétés.
1. Pour tout x1 , x2 ∈ R et pour tout n ∈ N,
n
n
X n n−k k X n! k1 k2
(x1 + x2 ) = x1 x2 = x x .
k=0
k k +k =n
k1 !k2 ! 1 2
1 2
En particulier, si x1 = x2 = 1, alors
n
X n
= 2n
k=0
k
pour tout n ∈ N. De façon générale, pour tout x1 , x2 , . . . , xm ∈ R et pour tout n ∈ N,

X n!
(x1 + x2 + . . . + xm )n = xk11 xk22 . . . xkmm .
k1 +k2 +...+km =n
k !k
1 2 ! . . . km !
2. Pour tout n1 , n2 ∈ N et pour tout k ∈ N tel que k ≤ n1 + n2 ,

min{k,n1 }
X n1 n2 n1 + n2
= .
j k−j k
j=max{0,k−n2 }
En particulier, si n1 = n et n2 = 1, alors

n n n+1
+ =
k−1 k k
pour tout 1 ≤ k ≤ n.
3. Pour tout k1 , k2 ∈ N et pour tout n ∈ N tel que n ≥ k1 + k2 ,
n−k
X2
j n−j n+1
= .
j=k1
k1 k2 k1 + k2 + 1
En particulier, si k1 = k et k2 = 0, alors
n
X j n+1
=
j=k
k k+1
pour tout n ≥ k.
11
1.5 Exercices
1. Combien de plaques d’immatriculation différentes constituées de trois lettres et de trois chiffres y
a-t-il si les trois lettres sont placées soit au début, soit à la fin de la plaque ?
2. La combinaison d’un cadenas est constituée de trois chiffres. Combien de possibilités y a-t-il si
a) chaque chiffre ne peut pas être choisi plus d’une fois ?
b) chaque chiffre ne peut pas être choisi plus de deux fois ?
3. Une classe est composée de 5 étudiantes et de 45 étudiants. Parmi les 5 étudiantes, il y en a 4 qui
sont en 2è année, tandis que 30 des 45 étudiants sont en 2è année. Deux personnes sont prises au
hasard, et avec remise, parmi les 50 personnes dans cette classe. Sachant que dans les deux cas, la
personne choisie était en 2è année, quelle est la probabilité qu’un étudiant et une étudiante aient été
choisis ?
4. Des plaques d’immatriculation sont constituées de six caractères pris au hasard parmi les 26 lettres
de l’alphabet et les 10 chiffres. Quelle est la probabilité qu’une plaque quelconque comporte au moins
un chiffre ?
5. Un ingénieur est abonné à deux services indépendants de courrier électronique. La probabilité

que le service 1 soit en panne lors d’une journée est de 1/20, tandis que la probabilité d’une panne
du service 2 est de 1/100 seulement. De plus, lorsque le service 1 fonctionne, la probabilité qu’un
message envoyé soit reçu par son destinataire est de 0.995. Cette probabilité est de 0.99 dans le cas du
service 2. Pour plus de sûreté, l’ingénieur désire envoyer un message important en utilisant les deux
services.
a) Quelle est la probabilité que le destinataire reçoive ce message ?
b) Sachant que le destinataire a reçu le message, quelle est la probabilité que seul le message que
l’ingénieur désire envoyer à l’aide du service 1 se soit rendu ?
6. Une entreprise achète des composants électriques par lots de dix composants. À la réception de
chaque lot, deux composants sont pris au hasard et sans remise et sont ensuite testés. L’entreprise
accepte le lot seulement si aucun des deux composants testés n’est défectueux. En se basant sur les
données antérieures, on estime que la probabilité qu’un lot de dix composants ne contienne aucun
défectueux est de 0.7, la probabilité qu’il contienne exactement un défecteux est de 0.2, et la probabilité
qu’il contienne exactement deux défectueux est de 0.1. Calculer la probabilité
a) qu’un lot ne contienne aucun défectueux et soit accepté ;
b) qu’un lot contienne exactement deux défectueux ou soit accepté ;
c) qu’un lot contienne exactement un défectueux, étant donné qu’il a été rejeté ;
d) que trois lots (indépendants) consécutifs soient rejetés.
7. Une boîte contient cinq composants de marque A, cinq de marque B et cinq de marque C. On prend
cinq composants au hasard et sans remise.
a) Quelle est la probabilité que les cinq composants pris au hasard soient de la même marque ?
b) Quelle est la probabilité que les cinq composants soient de la même marque, étant donné qu’au
moins quatre des cinq composants pris au hasard sont de la même marque ?
8. Une particule se trouve à l’origine à l’instant initial et se déplace ensuite sur les entiers positifs
comme suit : à chaque unité de temps, on lance une pièce de monnaie (de façon indépendante) pour
laquelle la probabilité d’obtenir « pile » égale 1/3 ; si l’on obtient « pile », la particule se déplace d’un
entier vers la droite, tandis que si l’on obtient « face », elle se déplace de deux entiers vers la droite.
12
a) Quelle est la probabilité que la particule ne visite pas le point 3 ?

b) De combien de façons différentes la particule peut-elle passer de 0 à 10 sans visiter le point 2 ?
9. Un système A est constitué de trois sous-systèmes placés en série ; chaque sous-système comprend
deux composants en parallèle. Un autre système B est constitué de deux sous-systèmes en parallèle et
chaque sous-système comprend trois composants placés en série.
On suppose que tous les composants des deux systèmes fonctionnent indépendamment les uns des
autres et ont tous une fiabilité de 90% à un instant donné.
a) Calculer la fiabilité du système A à cet instant.
b) Calculer la fiabilité du système B à ce même instant.
10. On considère le système illustré dans la figure ci-dessous. Chaque composant fonctionne avec une
probabilité de 1/2, et ce, indépendamment des trois autres.
3
2
4
a) Quelle est la probabilité que le système fonctionne ?

b) Étant donné que le système fonctionne, quelle est la probabilité que le composant 1 fonctionne ?
13
Chapitre 2
Variables aléatoires
2.1 Définitions
Définition 8. Soit une expérince aléatoire à laquelle on associe un espace échantillon Ω. Une variable
aléatoire est une fonction X définie comme suit
X: Ω → R
ω 7→ x = X(ω).
L’ensemble des valeurs possibles de X, qu’on note SX , est appelé support de X, i.e., SX = X(Ω).
Définition 9. La fonction de répartition d’une variable aléatoire X est une fonction FX telle que
FX (x) := P[X ≤ x].
Propriétés.
1. 0 ≤ FX (x) ≤ 1 pour tout x ∈ R.
2. FX est non décroissante.
3. FX est continue à droite.
4. lim FX (x) = 0 et lim FX (x) = 1.
x→−∞ x→∞
Théorème 5. Si a < b, alors P[a < X ≤ b] = FX (b) − FX (a).
Démonstration. Notons d’abord que {X ≤ b} = {X ≤ a} ∪ {a < X ≤ b}. Alors
P[X ≤ b] = P[X ≤ a] + P[a < X ≤ b] ⇒ FX (b) = FX (a) + P[a < X ≤ b].
Corollaire 1. Pour tout x ∈ R, P[X = x] = FX (x) − FX (x− ) avec FX (x− ) = lim FX (x − ε).
ε↓0
Exemple 11. Soit 

 0 si x < 0,
1
FX (x) = 4
(2x+ 1) si 0 ≤ x < 1,
1 si x ≥ 1.

Calculer P[0 < X ≤ 1/2] + P[X = 1].
14
CHAPITRE 2. VARIABLES ALÉATOIRES C. Bingane
Quantile Un quantile d’ordre p ∈ (0, 1) d’une variable aléatoire X est un nombre réel xp tel que
P[X ≤ xp ] ≥ p et P[X ≥ xp ] ≥ 1 − p.
• Un quantile d’ordre 1/2 est aussi appelé médiane.
• Pour tout k = 1, 2, 3, un quantile d’ordre k/4 est aussi appelé k-ième quartile.
• Pour tout k = 1, 2, . . . , 9, un quantile d’ordre k/10 est aussi appelé k-ième décile.
• Pour tout k = 1, 2, . . . , 99, un quantile d’ordre k/100 est aussi appelé k-ième centile.
1 1
Exemple 12. Soit FX (x) = 2
+ π
arctan x pour tout x ∈ R. Déterminer les premier, deuxième et
troisième quartiles de X.
Fonction de répartition conditionnelle Soit A un événement décrit sous la forme X ∈ AX ⊆ SX .

On suppose que P[A] = P[X ∈ AX ] > 0. La fonction de répartition conditionnelle de X sachant A
est
P[{X ≤ x} ∩ A]
FX (x | A) := P[X ≤ x | A] = .
P[A]
Exemple 13. Soit
1 x

2
e si x < 0,
FX (x) =
1 − 21 e−x si x ≥ 0
Déterminer FX (x | X > 0).
2.2 Variable aléatoire discrète

Si SX est fini ou dénombrable, on dit que la variable aléatoire X est discrète.
Définition 10. La fonction de masse d’une variable aléatoire discrète X est une fonction pX telle que
pX (x) := P[X = x].
La fonction de répartition de X est alors donnée par

X
FX (x) = pX (t).
t≤x
Propriétés.
1. Pour tout x ∈ SX , pX (x) > 0 et pour tout x ∈
/ SX , pX (x) = 0.
X
2. pX (x) = 1.
x∈SX
3. Si A est un événement décrit sous la forme X ∈ AX ⊆ SX alors

X
P[A] = P[X ∈ AX ] = pX (x).
x∈AX
Exemple 14. Soit X une variable aléatoire discrète dont la fonction de masse est donnée dans le
tableau ci-dessous. Calculer FX (0) + FX (1/2).
x −1 0 1
pX (x) 1/4 1/2 1/4
15
Fonction de masse conditionnelle Soit A un événement décrit sous la forme X ∈ AX ⊆ SX . On

suppose que P[A] = P[X ∈ AX ] > 0. La fonction de masse conditionnelle de X sachant A est
(
pX (x)
si x ∈ AX ,
pX (x | A) := P[X = x | A] = P[A]
0 sinon.
2.3 Variable aléatoire continue

Si SX est non dénombrable et FX est continue sur R, on dit que la variable aléatoire X est continue.
Dans ce cas, si FX est dérivable en x ∈ R, on peut écrire pour tout ε > 0 assez petit,
d
P[x < X ≤ x + ε] = FX (x + ε) − FX (x) = ε FX (x) + o(ε).
dx
Définition 11. La fonction de densité d’une variable aléatoire continue X est une fonction fX telle
que
d
fX (x) := FX (x).
dx
La fonction de répartition de X est alors donnée par
Z x
FX (x) = fX (t) dt.
−∞
Propriétés.
1. Pour tout x ∈ SX , fX (x) > 0 et pour tout x ∈
/ SX , fX (x) = 0.
Z
2. fX (x) dx = 1.
SX
3. Si A est un événement décrit sous la forme X ∈ AX ⊆ SX alors
Z
P[A] = P[X ∈ AX ] = fX (x) dx.
AX
Exemple 15. Une variable aléatoire continue X possède la fonction de densité fX (x) = 12 e−|x| pour
x ∈ R. Calculer P[−1 < X ≤ 1] + P[X = 2].
Remarque. Si X est une variable discrète, on peut définir sa fonction de densité par
X
fX (x) = pX (t)δ(x − t),
t∈SX
où δ(·) est la distribution de Dirac.
Fonction de densité conditionnelle Soit A un événement décrit sous la forme X ∈ AX ⊆ SX . On

suppose que P[A] = P[X ∈ AX ] > 0. La fonction de densité conditionnelle de X sachant A
(
fX (x)
d si x ∈ AX ,
fX (x | A) := FX (x | A) = P[A]
dx 0 sinon.
Exemple 16. La fonction de densité d’une variable aléatoire X est fX (x) = 2x si 0 < x < 1.
Déterminer fX (x | X ≤ 1/2).
16
2.4 Huit lois de probabilité

2.4.1 Quatre lois discrètes
Loi de Bernouilli
Soit l’espace échantillon Ω d’une expérience aléatoire. On s’intéresse à un événement particulier A.
Soit X la variable aléatoire associée à cette expérience :

1 si ω ∈ A,
X(ω) =
0 sinon.
Tout résultat de cette expérience appartenant à A est considéré comme un succès et tout résultat
contraire est considéré comme un échec. Une telle expérience est appelée épreuve ou essai de Ber-
nouilli.
On dit que X suit une loi de Bernouilli de paramètre p, où 0 < p < 1, et
pX (x) = px (1 − p)1−x
pour tout x ∈ SX = {0, 1}. On écrit X ∼ Bern(p). Sa fonction de répartition est donnée par

 0 si x < 0,
FX (x) = 1 − p si 0 ≤ x < 1,
1 si x ≥ 1.

Loi binomiale
Supposons que l’on effectue n essais de Bernouilli de paramètre p de façon indépendante et on compte
le nombre X de succès. On dit que X suit une loi binomiale de paramètres (n, p) et

n x
pX (x) = p (1 − p)n−x
x
pour tout x ∈ SX = {0, 1, . . . , n}. On écrit X ∼ B(n, p). Sa fonction de répartition est donnée par


 0 si x < 0,
 ⌊x⌋
n k
 X
FX (x) = p (1 − p)n−k si 0 ≤ x < n,
 k
 k=0


1 si x ≥ n.
Exemple 17. Soit X ∼ B(5, 1/5). Calculer P[X = 1 | X ≤ 1].
Remarques.
1. La loi B(1, p) est une loi Bern(p).
2. Si X ∼ B(n, p) alors Y := n − X ∼ B(n, 1 − p).
Loi géométrique
À présent, on s’intéresse au nombre X d’essais nécessaires de Bernouilli afin d’obtenir un premier
succès. On dit que X suit une loi géométrique de paramètre p et
pX (x) = (1 − p)x−1 p
pour tout x ∈ SX = {1, 2, . . .}. On écrit X ∼ Geo(p). Sa fonction de répartition est donnée par

0 si x < 1,
FX (x) =
1 − (1 − p)⌊x⌋ si x ≥ 1.
17
Exemple 18. Des boîtes contiennent 20 objets chacune. On examine le contenu des boîtes jusqu’à ce
que l’on en trouve une qui ne contient aucun objet défecteux. Soit X le nombre de boîtes que l’on
doit examiner pour terminer l’expérience aléatoire. Quelle loi suit X si la probabilité qu’un objet soit
défectueux est de 1/10, indépendamment d’un objet à l’autre ?
Théorème 6 (Propriété de non vieillissement). Soit X ∼ Geo(p). Si j et k sont deux entiers tels que
k > j > 0,
P[X > k | X > j] = P[X > k − j].
Démonstration.
P[{X > k} ∩ {X > j}]
P[X > k | X > j] =
P[X > j]
P[X > k] (1 − p)k
= = = (1 − p)k−j = P[X > k − j].
P[X > j] (1 − p)j
Loi de Poisson
On dit que X suit une loi de Poisson de paramètre λ > 0 si
λx
pX (x) = e−λ
x!
pour tout x ∈ SX = {0, 1, . . .}. On écrit X ∼ Poi(λ). Sa fonction de répartition est donnée par


 0 si x < 0,
⌊x⌋ k
FX (x) = −λ
Xλ
 e
 si x ≥ 0.
k=0
k!
Exemple 19. On suppose que le nombre X de particules émises par une source radioactive pendant
une période d’une heure suit une loi de Poisson de paramètre λ = 1/2, indépendamment d’une heure
à l’autre. Soit Y le nombre d’heures pendant lesquelles aucune particule n’est émise, parmi les 24
heures d’une journée donnée. Quelle loi suit Y ?
Théorème 7. Soit un réel λ > 0. Pour tout naturel k,

k n−k
n λ λ λk
lim 1− = e−λ .
n→∞ k n n k!
Remarque. Soit X ∼ B(n, p). Si n est assez grand et p assez petit, alors X ≈ Poi(np).
Exemple 20. Une école a acheté 20 ordinateurs pour que ses élèves puissent se brancher sur le réseau
Internet. L’école a distribué des codes d’accès aux 200 élèves inscrits au cours d’informatique. On
estime que chaque élève qui possède un code d’accès a une probabilité de 0.2 de vouloir se brancher
à midi lors d’une journée quelconque, et ce, indépendamment d’un élève à l’autre et d’une journée
à l’autre. Utiliser une approximation de Poisson pour calculer la probabilité que tous les ordinateurs
soient occupés, à midi, lors d’une journée donnée.
2.4.2 Lois continues

Soit X une variable aléatoire continue.
18
1 1
pX pX
0.8 FX 0.8 FX
0.6 0.6
0.4 0.4
0.2 0.2
0 0
−1 −0.5 0 0.5 1 1.5 2 −1 0 1 2 3 4 5
(a) Loi Bern(1/2) (b) Loi B(4, 1/2)
1 1
pX pX
0.8 FX 0.8 FX
0.6 0.6
0.4 0.4
0.2 0.2
0 0
0 1 2 3 4 5 6 −1 0 1 2 3 4 5
(c) Loi Geo(1/2) (d) Loi Poi(1)
Figure 2.1 – Quatre lois discrètes
Loi uniforme
On dit que X suit une loi uniforme de paramètres (a, b), où a < b, si
1
fX (x) =
b−a
pour tout x ∈ SX = (a, b). On écrit X ∼ U(a, b). Sa fonction de répartition est donnée par

 0
 x− si x < a,
a
FX (x) = si a ≤ x < b,
 b−a

1 si x ≥ b.
Loi exponentielle
On dit que X suit une loi exponentielle de paramètre λ > 0 si
fX (x) = λe−λx
pour tout x ∈ SX = (0, ∞). On écrit X ∼ Exp(λ). Sa fonction de répartition est donnée par

0 si x < 0,
FX (x) = −λx
1−e si x ≥ 0.
Exemple 21. Soit X une variable aléatoire qui suit une loi exponentielle de paramètre λ. Quelle est
la valeur de λ si le 90è centile de X est 1 ?
19
Théorème 8 (Propriété de non vieillissement). Soit X ∼ Exp(λ). Pour tout t > s > 0,
P[X > t | X > s] = P[X > t − s].
Démonstration. Pour tout t > s > 0,
P[{X > t} ∩ {X > s}] t>s P[X > t] e−λt
P[X > t | X > s] = = = −λs = e−λ(t−s) = P[X > t − s].
P[X > s] P[X > s] e
Loi gamma
Pour tout α > 0, la fonction gamma est une fonction
Z ∞
Γ(α) := tα−1 e−t dt.
0
Propriétés.
1. Pour tout α > 0, Γ(α + 1) = αΓ(α).
2. Γ(1) = 1 et pour tout entier n ≥ 0, Γ(n + 1) = n!.
√
3. Γ(1/2) = π.
On dit que X suit une loi gamma de paramètres (α, λ), où α > 0 et λ > 0, si
λ
fX (x) = (λx)α−1 e−λx
Γ(α)
pour tout x ∈ SX = (0, ∞). On écrit X ∼ G(α, λ).
Exemple 22. Calculer P[X 2 ≤ 9], où X ∼ G(2, 1).
Remarques.
1. La loi G(1, λ) est une loi Exp(λ).
2. La loi G(n, λ), où n est un entier, est aussi appelée loi d’Erlang de paramètres (n, λ). Dans ce
cas, sa fonction de répartition est
 n−1
X (λx)k
1 − e−λx

si x ≥ 0,

FX (x) = k!
 k=0
0 sinon.

Dans ce cas, P[X > x] = P[Y ≤ n − 1], où Y ∼ Poi(λx).

3. La loi G(n/2, 1/2), où n est un entier, est aussi appelée loi du khi-deux à n degrés de liberté.
Loi normale
On dit que X suit une loi normale ou gaussienne de paramètres (µ, σ 2 ), avec σ > 0, si
1 (x−µ)2
fX (x) = √ e− 2σ2
σ 2π
pour tout x ∈ SX = (−∞, ∞). On écrit X ∼ N(µ, σ 2 ).
Remarques. Soit X ∼ N(µ, σ 2 ).
1. Les paramètres µ et σ sont respectivement la moyenne et l’écart-type de X.
2. Si µ = 0 et σ = 1, la loi normale est dite centrée et réduite. On notera Φ et ϕ sa fonction de
répartition et sa fonction de densité respectives.
3. Pour tout x ∈ R, FX (x) = Φ x−µ et fX (x) = σ1 ϕ x−µ

σ σ
.
4. Pour tout z ∈ R, Φ(−z) = 1 − Φ(z) et ϕ(−z) = ϕ(z).
Exemple 23. Soit X ∼ N(1, 4). Calculer P[X 2 − 2X > 3].
20
Table 2.1 – Valeurs de Φ(z)
z z + 0.00 z + 0.01 z + 0.02 z + 0.03 z + 0.04 z + 0.05 z + 0.06 z + 0.07 z + 0.08 z + 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
21
1 1
fX fX
0.8 FX 0.8 FX
0.6 0.6
0.4 0.4
0.2 0.2
0 0
−3 −2 −1 0 1 2 3 −1 0 1 2 3 4 5
√ √
(a) Loi U(− 3, 3) (b) Loi Exp(1)
1 1
fX fX
0.8 FX 0.8 FX
0.6 0.6
0.4 0.4
0.2 0.2
0 0
−1 0 1 2 3 4 5 −3 −2 −1 0 1 2 3
(c) Loi G(2, 1) (d) Loi N(0, 1)
Figure 2.2 – Quatre lois continues
2.5 Transformation d’une variable aléatoire

Soit X une variable aléatoire dont on connaît la fonction de répartition FX et soit une fonction
g : R → R. On cherche à déterminer la fonction de répartition de la nouvelle variable aléatoire
Y := g(X).
1. Si X est une variable discrète, alors Y est aussi une variable discrète et sa fonction de masse pY
est donnée par X
pY (y) = pX (x),
x|g(x)=y
où pX est la fonction de masse de X.

2. Si X est une variable continue et g est une fonction telle que g(x) = cj ∈ R pour tout x ∈ Cj et
pour tout j = 1, 2, . . ., avec C1 , C2 , . . . formant une partition finie ou dénombrable du support
de X, alors Y est une variable discrète et sa fonction de masse pY est donnée par
X
pY (y) = P[X ∈ Cj ],
j|cj =y
3. Si X est une variable continue et g est une fonction continue, alors Y est aussi une variable
continue et sa fonction de répartition est donnée par
Z
FY (y) = P[g(X) ≤ y] = fX (x) dx,
x|g(x)≤y
où fX est la fonction de densité de X. De plus, si g est une fonction monotone, alors

−1
dg (y)
fY (y) = fX [g −1 (y)],
dy
22
où g −1 est la fonction inverse de g.

Exemple 24. Soit Y := cos(πX), où X ∼ Poi(1). Calculer pY .
Exemple 25. Soit 
 0 si X ≤ 0,
Y := 1 si 0 < X ≤ 1,
2 si X > 1,

où X ∼ N(0, 1). Calculer pY .

Exemple 26. Soit Y := 1/X 2 , où X ∼ U(1, 3). Calculer fY .
2.6 Caractéristiques d’une variable aléatoire

2.6.1 Moyenne, mode et médiane
Soit une variable aléatoire X.
Définition 12. L’espérance mathématique ou la moyenne de X, qu’on note E[X] = µ, est donnée par
 X


 xpX (x) si X est discrète,
x∈S
E[X] := Z X


 xfX (x) dx si X est continue.
SX
Remarques.
• Lorsque E[X] = 0, on dit que X est une variable centrée.
• Pour tout a, b ∈ R, E[aX + b] = a E[X] + b.
Proposition 2. Supposons que X est à valeurs non négatives.
• Si X est discrète et SX ⊆ N, alors E[X] = ∞
P
k=0 P[X > k].
R∞
• Si X est continue, alors E[X] = 0 P[X > x] dx.
Démonstration.
• X est discrète et SX ⊆ N :
∞
X ∞ X
X k ∞ X
X ∞
E[X] = kpX (k) = pX (k) = pX (k)
k=1 k=1 j=1 j=1 k=j
∞
X X∞
= P[X > j − 1] = P[X > j].
j=1 j=0
• X est continue : Z ∞ Z ∞ Z x
E[X] = xfX (x) dx = fX (x) dt dx
0 0 0
Z ∞Z ∞ Z ∞
= fX (x) dx dt = P[X > t] dt.
0 t 0
Théorème 9 (Inégalité de Markov). Si X est à valeurs non négatives et E[X] est finie, alors pour
tout a > 0, P[X > a] ≤ E[X]/a.
23
Démonstration.
• X est une variable discrète :
X X X
E[X] = xpX (x) = xpX (x) + xpX (x)
x≥0 0≤x≤a x>a
X
≥ xpX (x)
x>a
X X
≥ apX (x) = a pX (x) = a P[X > a].
x>a x>a
• X est une variable continue :

Z ∞ Z a Z ∞
E[X] = xfX (x) dx = xfX (x) dx + xfX (x) dx
0 0 a
Z ∞
≥ xfX (x) dx
a
Z ∞ Z ∞
≥ afX (x) dx = a fX (x) dx = a P[X > a].
a a
Exemple 27. Soit X ∼ G(30, 20). Selon l’inégalité de Markov, quelle est la valeur minimale de
P[X ≤ 2] ?
Théorème 10 (de transfert). La moyenne de g(X), où g est une fonction réelle, est donnée par
 X


 g(x)pX (x) si X est discrète,
E[g(X)] = Zx∈SX


 g(x)fX (x) dx si X est continue.
SX
Exemple 28. Soit X une variable aléatoire dont la fonction de densité est fX (x) = xe−x pour x > 0.
Calculer E[X −2 ].
Moyenne conditionnelle Soit A un événement décrit sous la forme X ∈ AX ⊆ SX . On suppose

que P[A] = P[X ∈ AX ] > 0. La moyenne conditionnelle de X sachant A est donnée par
 X


 xpX (x | A) si X est discrète,
E[X | A] = Zx∈AX


 xfX (x | A) dx si X est continue.
AX
Exemple 29. Soit X ∼ Exp(1). Calculer E[X | 1 < X ≤ 2].
Mode Le mode de X est un nombre réel x̂ qui maximise sa fonction de densité (ou de masse). Si X
possède un seul mode, on dit que X est unimodale. Dans le cas contraire, elle est dite multimodale.
Médiane Un quantile d’ordre 1/2 de X est appelé médiane de X.
Exemple 30. Déterminer la moyenne, le mode et la médiane de X ∼ G(2, 1).
24
2.6.2 Variance et écart-type

Soit une variable aléatoire X telle que E[X 2 ] < ∞.
Définition 13. La variance de X, qu’on note var(X) = σ 2 , est donnée par
var(X) := E[(X − E[X])2 ] = E[X 2 ] − E2 [X].
Remarques.
• La variance d’une variable aléatoire est une grandeur non négative. Lorsque var(X) = 0, la
variable X est dite dégénérée.
• Lorsque var(X) = 1, on dit que X est une variable réduite.
• On définit l’écart-type d’une variable aléatoire X par std(X) := var(X) = σ.
p
• Pour tout a, b ∈ R, var(aX + b) = a2 var(X).

Exemple 31. Soit X une variable aléatoire discrète dont la fonction de masse est donnée dans le
tableau ci-dessous. Calculer std(X 2 ).
x −1 0 1
pX (x) 1/2 1/4 1/4
Théorème 11 (Inégalité de Bienaymé-Tchebychev). Soit X une variable aléatoire de moyenne µ et

de variance σ 2 finies. Pour tout a > 0, P[|X − µ| > a] ≤ σ 2 /a2 .
Démonstration. Notons d’abord que P[|X − µ| > a] = P[(X − µ)2 > a2 ]. D’après l’inégalité de
Markov,
E[(X − µ)2 ] var(X) σ2
P[|X − µ| > a] = P[(X − µ)2 > a2 ] ≤ = = .
a2 a2 a2
Exemple 32. La durée de vie moyenne d’un certain type de pneu est de 3 ans, avec un écart-type de
0.3 an. Que peut-on dire, avec le plus de précision possible, au sujet de la probabilité p qu’un pneu de
ce type dure plus de 54 mois ou moins de 18 mois ?
Variance conditionnelle Soit A un événement décrit sous la forme X ∈ AX ⊆ SX . On suppose

que P[A] = P[X ∈ AX ] > 0 et que E[X 2 | A] < ∞. La variance conditionnelle de X sachant A est
var(X | A) = E[(X − E[X | A])2 | A] = E[X 2 | A] − E2 [X | A].
2.6.3 Moments et fonction caractéristique

Soit X une variable aléatoire.
Moments Pour un entier n ≥ 1, si E[|X|n ] < ∞, on définit

• son moment d’ordre n par µ′n := E[X n ] et
• son moment centré d’ordre n par µn := E[(X − E[X])n ].
Exemple 33. Soit X ∼ G(α, λ). Pour un entier n ≥ 1, calculer E[X n ].
Remarques.
1. Le moment d’ordre 1 par rapport à l’origine correspond à la moyenne.
2. Le moment centré d’ordre 1 est toujours nul et le moment centré d’ordre 2 correspond à la
variance.
3. µn = nk=0 nk (−1)k µ′n−k µk et µ′n = nk=0 nk µn−k µk avec µ = E[X].
P P
25
Fonction caractéristique La fonction caractéristique de X est une fonction φX : R → C telle que
φX (ω) := E[ejωX ],
où j2 = −1.
Exemple 34. Soit X ∼ Bern(3/4). Calculer φX (1).
2
Exemple 35. Soit X une variable aléatoire dont la fonction caractéristique φX (ω) = e−ω . On définit
Y := 2X − 1. Calculer la fonction caractéristique de Y .
Remarque. Si on connaît la fonction caractéristique φX , alors
Z ∞
1
fX (x) = e−jωx φX (ω) dω.
2π −∞
La fonction caractéristique caractérise entièrement une variable aléatoire.
(n)
Proposition 3. Si E[X n ] existe, alors φX (0) = jn E[X n ].
Démonstration. Soit X une variable aléatoire telle que E[X n ] existe pour tout n ∈ N. On a
"∞ # ∞
X (jωX)n X (jω)n
jωX
φX (ω) = E[e ] = E = E[X n ].
n=0
n! n=0
n!
(n)
Alors φX (0) = jn E[X n ].
Table 2.2 – Quelques lois de probabilité et leurs caractéristiques
Loi Moyenne Variance Fonction caractéristique

Bern(p) p p(1 − p) 1 − p + pejω
n
B(n, p) np np(1 − p) 1 − p + pejω
1 1−p pejω
Geo(p) p p2 1−(1−p)ejω
−λ(1−ejω )
Poi(λ) λ λ e
a+b (b−a)2 ejωb −ejωa
U(a, b) 2 12 jω(b−a)
1 1 λ
Exp(λ) λ λ2 λ−jωα
α α λ
G(α, λ) λ λ2 λ−jω
ω2 σ2
N(µ, σ 2 ) µ σ2 ejωµ− 2
2.7 Exercices
11. On suppose que la probabilité qu’un appel téléphonique dure plus de cinq minutes est de 0.1,
indépendamment d’un appel à l’autre.
a) Calculer la probabilité que, parmi 20 appels pris au hasard, il y en ait plus de 18 qui ne durent
pas plus de cinq minutes.
b) Calculer approximativement la probabilité en a) à l’aide d’une loi de Poisson.
c) Calculer la probabilité que cela prenne moins de cinq appels pour en obtenir un premier qui
dure plus de cinq minutes.
d) Calculer la probabilité que, parmi cinq appels pris au hasard, le plus long dure moins de cinq
minutes.
26
12. Soit X le temps (en jours) requis pour réparer un appareil. On suppose que la moyenne du temps
de réparation est de quatre jours et l’écart-type de deux jours.
a) Quelle est, au maximum (et avec le plus de précision possible), la probabilité que le temps de
réparation soit inférieur à un jour ou supérieur à sept jours ?
b) Supposons que X ∼ U(a, b). Trouver la constante a.
c) Supposons que X ∼ G(α, λ). Calculer P[X < 4].
d) Supposons que X ∼ N(µ, σ 2 ). Trouver le nombre x0 tel que P[|X − 4| < x0 ] = 0.99.
13. Soit 

 0 si x < 1,
(x − 1)/2 si 1 ≤ x < 2,√
FX (x) =

 x2 /8 si 2 ≤ x√ < 2 2,
1 si x ≥ 2 2.

a) Calculer le 90è centile de X.

b) Calculer E[X].
c) Calculer FX (x | 3/2 ≤ X ≤ 2).
d) Calculer var(X | 3/2 ≤ X ≤ 2).
e) Soit Y := 1/X. Calculer FY (y).
f) Soit Z := ⌊X⌋. Calculer φZ (ω).
14. Soit fX (x) = 1 − |x| pour |x| < 1.
a) Calculer FX (3/4).
b) Calculer E[X | X > 0].
c) Soit Y := |X|. Calculer fY (y).
15. Soit X ∼ U(0, 1). On définit Y := max{X, 1/2}.
a) Calculer FY (y). De quel type de variable aléatoire Y est-elle ?
b) Calculer E[Y ].
jω −1
16. Soit φX (ω) = c e ω
, où c ∈ C. Calculer E[2X ].
17. Soit φX (ω) = 14 (1 + ejω + 2e2jω ). Calculer P[X = 1].
18. Soit fX (x) = nxn−1 pour 0 < x < 1, où n ≥ 1 est un entier.
a) Calculer la médiane de X.
b) Soit Y := X n . Calculer fY (y).
c) Calculer la fonction caractéristique de X.
d) Calculer le taux de défaillance à l’instant x = 1/2 d’un appareil dont la durée de vie X possède
la fonction de densité fX ci-dessus.
19. Soit 
 0 si x < −1,
2
FX (x) = (1 − x )/2 si −1 ≤ x < b,
1 si x ≥ b.

a) Quelles sont les valeurs possibles de la constante b ?

b) Calculer P[X = (b − 1)/2] + P[X ≥ b].
c) Calculer E[X | −1 ≤ X < b].
27
β
20. Soit fT (t) = tβ−1 e−t pour t > 0. On dit que T suit une loi de Weibull de paramètre β > 0. Cette
loi est souvent utilisée en fiabilité.
a) Calculer la moyenne, la médiane ainsi que le mode de T .
b) Calculer E[T −β/2 ].
c) Pour quelles valeurs de β, la fonction de densité fT (t) est-elle symétrique par rapport à la
moyenne de T ?
21. Soit X une variable aléatoire continue qui prend ses valeurs dans l’intervalle (0, ∞). On dit que
θ
X suit une loi de Pareto de paramètre θ > 0 si fX (x) = (1+x) θ+1 pour x > 0.
En économie, la loi de Pareto est utilisée pour représenter la (mauvaise) répartition de la richesse.
Supposons que, dans un pays donné, la richesse X d’un individu (en milliers de dollars) suit une loi
de Pareto de paramètre θ = 1.2.
a) Calculer fX (2 | 1 < X ≤ 3).
b) Quelle est la richesse médiane dans ce pays ?
c) On trouve qu’environ 11.65% de la population possède une fortune personnelle d’au moins
5000$, soit la richesse moyenne des membres de cette population. Quelle fraction de la richesse
totale du pays possède ce pourcentage de la population ?
1
22. Soit pX (k) = 2k+1
pour k ∈ {0, 1, 2, . . .}.
a) Calculer la probabilité que X prenne une valeur qui est multiple de 3.
b) On génère des nombres aléatoires (indépendants) selon la distribution de la variable aléatoire
X. Soit Y le nombre des nombres aléatoires qui sont supérieurs à 1, parmi les dix premiers
nombres générés. Calculer P[Y = 2].
c) Supposons que l’on approche la probabilité P[Y = k] par P[Z = k], pour k = 0, 1, . . . , 10, où
Z ∼ Poi(5/2). Que peut-on affirmer au sujet de P[Z = k] par rapport à P[Y = k] pour une
valeur quelconque de k prise dans l’ensemble {0, 1, . . . , 10} ?
x 2
x − 2θ
23. Soit fX (x) = θ2
e 2 pour x > 0. On dit que X suit une loi de Rayleigh de paramètre θ > 0.
a) Soit Y := ln X. Calculer la fonction de densité et la fonction caractéristique de Y .
b) On définit Z := 1/X. Calculer l’espérance mathématique de Z.
c) Quelle est la valeur de la fonction de fiabilité d’un système, dont la durée de vie suit une loi de
Rayleigh, à l’instant qui correspond à sa durée de vie moyenne ?
28
Chapitre 3
Vecteurs aléatoires
3.1 Fonction de répartition conjointe

Soit une expérince aléatoire à laquelle on associe un espace échantillon Ω.
Définition 14. Un vecteur aléatoire (X, Y ) est une fonction définie sur Ω comme suit
(X, Y ) : Ω → R2
ω 7→ (x, y) = (X(ω), Y (ω)).
L’ensemble SX,Y = (X(Ω), Y (Ω)) des valeurs possibles de (X, Y ) est appelé support de (X, Y ). Pour
tout x fixé, on définit le support de Y sachant que X = x par SY |X = {y | (x, y) ∈ SX,Y }. De même,
S y fixé, on définit
pour tout Sle support de X sachant que Y = y par SX|Y = {x | (x, y) ∈ SX,Y }. Alors
SX = y SX|Y et SY = x SY |X .
Définition 15. La fonction de répartition conjointe d’un vecteur aléatoire (X, Y ), qu’on note FX,Y ,
est définie comme suit
FX,Y (x, y) = P[X ≤ x, Y ≤ y].
Propriétés.
1. 0 ≤ FX,Y (x, y) ≤ 1 pour tout (x, y) ∈ R2 .
2. FX,Y (a, b) ≤ FX,Y (c, d) si a ≤ c et b ≤ d.
3. FX,Y (x+ , y) = FX,Y (x, y + ) = FX,Y (x, y).
4. lim FX,Y (x, y) = lim FX,Y (x, y) = 0 et lim FX,Y (x, y) = 1.
x→−∞ y→−∞ (x,y)→(∞,∞)
Théorème 12. Si a < b et c < d, alors
P[a < X ≤ b, c < Y ≤ d] = FX,Y (b, d) − FX,Y (b, c) − FX,Y (a, d) + FX,Y (a, c).
Corollaire 2. Pour tout (x, y) ∈ R2 ,
P[X = x, Y = y] = FX,Y (x, y) − FX,Y (x, y − ) − FX,Y (x− , y) + FX,Y (x− , y − ).
Définition 16. La fonction de répartition marginale de X est donnée par
FX (x) = lim FX,Y (x, y).

y→∞
De même, la fonction de répartition marginale de Y est donnée par
FY (y) = lim FX,Y (x, y).

x→∞
29
CHAPITRE 3. VECTEURS ALÉATOIRES C. Bingane
Exemple 36. Soit (X, Y ) un vecteur aléatoire dont la fonction de répartition conjointe est


 0 si x < 0 ou y < 0,
 xy si 0 ≤ x < 1, 0 ≤ y < 1,


FX,Y (x, y) = x si 0 ≤ x < 1, y ≥ 1,
y si x ≥ 1, 0 ≤ y < 1,




1 si x ≥ 1, y ≥ 1.

a) Calculer P[X ≤ 1/2, Y > 1/2].

b) Déterminer les fonctions de répartition marginales FX et FY .
3.2 Vecteur aléatoire discret

Si SX,Y est fini ou dénombrable, on dit que (X, Y ) est discret.
Définition 17. La fonction de masse conjointe d’un vecteur aléatoire discret (X, Y ) est une fonc-
tion pX,Y telle que
pX,Y (x, y) = P[X = x, Y = y].
La fonction de répartition conjointe de (X, Y ) est alors donnée par
XX
FX,Y (x, y) = pX,Y (u, v).
u≤x v≤y
Propriétés.
1. Pour tout (x, y) ∈ SX,Y , pX,Y (x, y) > 0 et pour tout (x, y) ∈
/ SX,Y , pX,Y (x, y) = 0.
X
2. pX,Y (x, y) = 1.
(x,y)∈SX,Y
3. Si A est un événement décrit sous la forme (X, Y ) ∈ AX,Y ⊆ SX,Y alors

X
P[A] = P[(X, Y ) ∈ AX,Y ] = pX,Y (x, y).
(x,y)∈AX,Y
Définition 18. Soit (X, Y ) un vecteur aléatoire discret. La fonction de masse marginale de X est
donnée par X
pX (x) = pX,Y (x, y)
y∈SY |X
pour tout x ∈ SX . De même, la fonction de masse marginale de Y est donnée par

X
pY (y) = pX,Y (x, y)
x∈SX|Y
pour tout y ∈ SY .
Exemple 37. La fonction de masse conjointe d’un vecteur aléatoire discret (X, Y ) est donnée dans le
tableau ci-dessous.
x\y 0 1
0 1/4 1/2
1 0 1/4
a) Calculer P[X + Y ≤ 1].

b) Déterminer les fonctions de masse marginales pX et pY .
30
3.3 Vecteur aléatoire continu

Si SX,Y est non dénombrable et FX,Y est continue sur R2 , on dit que (X, Y ) est continu.
Définition 19. La fonction de densité conjointe d’un vecteur aléatoire continu (X, Y ) est une fonc-
tion fX,Y telle que
∂2
fX,Y (x, y) := FX,Y (x, y).
∂x∂y
La fonction de répartition conjointe de (X, Y ) est alors donnée par
Z y Z x
FX,Y (x, y) = fX,Y (u, v) du dv.
−∞ −∞
Propriétés.
1. Pour tout (x, y) ∈ SX,Y , fX,Y (x, y) > 0 et pour tout (x, y) ∈
/ SX,Y , fX,Y (x, y) = 0.
ZZ
2. fX,Y (x, y) dx dy = 1.
SX,Y
3. Si A est un événement décrit sous la forme (X, Y ) ∈ AX,Y ⊆ SX,Y alors

ZZ
P[A] = P[(X, Y ) ∈ AX,Y ] = fX,Y (x, y) dx dy.
AX,Y
Définition 20. Soit (X, Y ) un vecteur aléatoire continu. La fonction de densité marginale de X est
donnée par Z
fX (x) = fX,Y (x, y) dy
SY |X
pour tout x ∈ SX . De même, la fonction de densité marginale de Y est donnée par

Z
fY (y) = fX,Y (x, y) dx
SX|Y
pour tout y ∈ SY .
Exemple 38. La fonction de densité conjointe d’un vecteur aléatoire continu (X, Y ) est
fX,Y (x, y) = 2 si 0 < x < y < 1.
a) Calculer P[X + Y ≤ 1].

b) Déterminer les fonctions de densité marginales fX et fY .
3.4 Probabilités conditionnelles

3.4.1 Fonctions de répartition, de masse, de densité conditionnelles
Soit (X, Y ) un vecteur aléatoire et soit y ∈ SY .
• Si (X, Y ) est discret, la fonction de masse conditionnelle de X sachant que Y = y est une
fonction pX|Y telle que
P[X = x, Y = y] pX,Y (x, y)

pX|Y (x | y) := P[X = x | Y = y] = =
P[Y = y] pY (y)
pour tout x ∈ SX|Y .
31
• Si (X, Y ) est continu, la fonction de densité conditionnelle de X sachant que Y = y est une
fonction fX|Y telle que
fX,Y (x, y)
fX|Y (x | y) :=
fY (y)
• La fonction de répartition conditionnelle de X sachant que Y = y est une fonction FX|Y telle
que
 P
u≤x pX,Y (u, y)
si (X, Y ) est discret,


pY (y)

FX|Y (x | y) := R x
 f (u, y) du
−∞ X,Y

 si (X, Y ) est continu
fY (y)
Exemple 39. Un nombre X est pris au hasard dans l’intervalle (0, 1), puis un nombre Y est pris au
hasard dans l’intervalle (0, X). Calculer P[Y ≤ 1/2].
Indépendance Les variables X et Y sont indépendantes si et seulement si FX,Y = FX FY . Si (X, Y )

est discret, on a aussi pX,Y = pX pY et si (X, Y ) est continu, fX,Y = fX fY .
Exemple 40. Soient X et Y deux variables aléatoires indépendantes qui suivent toutes les deux une
loi de Poisson de paramètre λ = 3/2. Calculer P[X + Y > 3/2].
Propriété. Soit g, h : R → R. Si X et Y sont indépendantes alors g(X) et h(Y ) le sont aussi.
3.4.2 Moyenne conditionnelle

Soit (X, Y ) un vecteur aléatoire. La moyenne conditionnelle de X sachant que Y = y ∈ SY , qu’on
note E[X | Y = y], est donnée par
 X

 xpX|Y (x | y) si (X, Y ) est discret,

x∈SX|Y
E[X | Y = y] = Z


 xfX|Y (x | y) dx si (X, Y ) est continu.
SX|Y
Remarque. E[X | Y = y] est une fonction de y, i.e., E[X | Y = y] = h(y). Alors E[X | Y ] = h(Y )
est une variable aléatoire.
Théorème 13 (de transfert). Soit une fonction g : R → R. La moyenne conditionnelle de g(X)

sachant que Y = y ∈ SY est donnée par
 X

 g(x)pX|Y (x | y) si (X, Y ) est discret,

x∈SX|Y
E[g(X) | Y = y] = Z


 g(x)fX|Y (x | y) dx si (X, Y ) est continu.
SX|Y
Proposition 4. Soit une fonction g : R → R. Alors
E [E[g(X) | Y ]] = E[g(X)].
32
Démonstration. Soit (X, Y ) un vecteur aléatoire continu. E[g(X) | Y ] étant une fonction de Y , alors
Z
E [E[g(X) | Y ]] = E[g(X) | Y = y]fY (y) dy
SY
Z Z
= g(x)fX|Y (x | y)fY (y) dx dy
SY SX|Y
Z Z
= g(x) fX|Y (x | y)fY (y) dy dx
SX SY |X
Z
= g(x)fX (x) dx = E[g(X)].
SX
On raisonne de la même manière dans le cas où (X, Y ) est discret.
Exemple 41. Calculer E[Y ] si Y | X ∼ N(X, 1) et X ∼ Exp(2).
3.5 Caractéristiques d’un vecteur aléatoire

Soit (X, Y ) un vecteur aléatoire.
Théorème 14 (de transfert). La moyenne d’une fonction g(X, Y ) est donnée par
 X

 g(x, y)pX,Y (x, y) si (X, Y ) est discret,

(x,y)∈SX,Y
E[g(X, Y )] = ZZ
g(x, y)fX,Y (x, y) dA si (X, Y ) est continu.



SX,Y
Exemple 42. Calculer E[XY ] si l’on suppose que Y ∼ U(0, 1) et que fX|Y (x | y) = 2x/y 2 si
0 < x < y < 1.
Propriétés.
1. Pour tout a, b ∈ R, E[aX + bY ] = a E[X] + b E[Y ].
2. Si X et Y sont indépendantes, alors E[XY ] = E[X] E[Y ].
Covariance Supposons que var(X) > 0 et var(Y ) > 0 sont finies. La covariance de (X, Y ), qu’on
note cov(X, Y ), est
cov(X, Y ) := E[(X − E[X])(Y − E[Y ])] = E[XY ] − E[X] E[Y ].
La matrice
var(X) cov(X, Y )
Σ :=
cov(X, Y ) var(Y )
est appelée matrice de covariance du vecteur (X, Y ).
Propriétés.
1. Pour tout a, b ∈ R,
var(aX + bY ) = a2 var(X) + b2 var(Y ) + 2ab cov(X, Y )

var(X) cov(X, Y ) a
= a b .
cov(X, Y ) var(Y ) b
| {z }
Σ
33
2. La matrice de covariance Σ est symétrique et semidéfinie positive.

3. Lorsque la matrice de covariance Σ est singulière, i.e., det Σ = 0, on dit que le vecteur (X, Y )
est dégénéré. Il existe alors a, b ∈ R tels que la variable aléatoire aX + bY est dégénérée.
4. Si X et Y sont indépendantes alors cov(X, Y ) = 0.
Théorème 15 (Inégalité de Cauchy-Schwarz). Si var(X), var(Y ) et cov(X, Y ) sont finies, alors
|cov(X, Y )| ≤ std(X) std(Y ).
Démonstration. Par définition, la matrice de covariance

var(X) cov(X, Y )
Σ=
cov(X, Y ) var(Y )
est semidéfinie positive. Il suit que det Σ = var(X) var(Y ) − cov2 (X, Y ) ≥ 0.
Coefficient de corrélation Supposons que var(X) > 0 et var(Y ) > 0 sont finies. Le coefficient de
corrélation de X et Y est
cov(X, Y )
ρ = ρ(X, Y ) := .
std(X) std(Y )
Si ρ(X, Y ) = 0, on dit que les variables X et Y sont non corrélées.
Proposition 5. Supposons que le coefficient de corrélation ρ de (X, Y ) existe. Alors, pour a ̸= 0,
Y = aX + b si et seulement si ρ2 = 1.
Démonstration. Supposons E[X] = µ, var(X) = σ 2 , E[Y ] = ν, var(Y ) = τ 2 .
(⇒) Soit Y = aX + b, où a ̸= 0. On a ν = aµ + b et τ 2 = a2 σ 2 . Par la suite,
a2 σ 4
cov(X, Y ) = E[(X − µ)(Y − ν)] = a E[(X − µ)2 ] = aσ 2 ⇒ ρ2 = = 1.
σ2τ 2
(⇐) Supposons que ρ2 = 1. Soit les variables aléatoires U = (X − µ)/σ et V = (Y − ν)/τ centrées
réduites. On a
cov(X, Y )
cov(U, V ) = = ρ.
στ
D’autre part,
var(V − ρU ) = var(V ) + ρ2 var(U ) − 2ρ cov(U, V ) = 1 − ρ2 = 0.
On déduit
Y −ν X −µ
V − ρU = E[V − ρU ] = E[V ] − ρ E[U ] = 0 ⇒ V = ρU ⇒ =ρ .
τ σ
3.6 Estimation d’une variable aléatoire

Soit (X, Y ) un vecteur aléatoire. On suppose que var(X) > 0 et var(Y ) > 0 sont finies. On veut
estimer Y par une fonction g(X). Le meilleur estimateur Ŷ = g(X) est celui qui minimise l’erreur
quadratique moyenne
EQM(Ŷ ) := E[(Ŷ − Y )2 ].
Proposition 6. Si g est une fonction constante, alors le meilleur estimateur de Y est Ŷ = E[Y ].
34
Proposition 7. Si g est une fonction linéaire, alors le meilleur estimateur de Y est Ŷ = âX + b̂, où
cov(X, Y )
â = et b̂ = E[Y ] − â E[X].
var(X)
Théorème 16. Le meilleur estimateur de Y en fonction de X est Ŷ = E[Y | X].
Démonstration. Soit Ŷ = E[Y | X]. Pour toute fonction g : R → R,
E[(g(X) − Y )2 ] = E[((g(X) − Ŷ ) + (Ŷ − Y ))2 ]

= E[(g(X) − Ŷ )2 ] + 2 E[(g(X) − Ŷ )(Ŷ − Y )] + E[(Ŷ − Y )2 ].
D’autre part, on a
E[(g(X) − Ŷ )(Ŷ − Y )] = E[E[(g(X) − Ŷ )(Ŷ − Y ) | X]]

= E[(g(X) − Ŷ ) E[(Ŷ − Y ) | X]] = 0.
| {z }
=0
Par la suite, E[(g(X) − Y )2 ] = E[(g(X) − Ŷ )2 ] + E[(Ŷ − Y )2 ] ≥ E[(Ŷ − Y )2 ]. D’où Ŷ = E[Y | X]

est le meilleur estimateur de Y en fonction de X.
Exemple 43. Soit fX,Y (x, y) = √c pour 0 < x < y < 1.

xy
a) Trouver la constante c.
b) Quel est le meilleur estimateur de Y en fonction de X ?
3.7 Deux lois

3.7.1 Loi binomiale
Soit (X, Y ) un vecteur aléatoire discret. Soit n ≥ 1 un entier et soit p, q > 0 tels que p + q = 1. On
dit que (X, Y ) suit une loi binomiale de paramètres (n, p, q) si et seulement si
n! x y
pX,Y (x, y) = p q ,
x!y!
pour tout (x, y) ∈ SX,Y = {(x, y) ∈ N2 | x + y = n}. On écrit (X, Y ) ∼ B(n, p, q).
Exemple 44. Soit (X, Y ) un vecteur aléatoire discret dont la fonction de masse conjointe est donnée
par
4!3y
pX,Y (x, y) =
x!y!44
pour tout (x, y) ∈ SX,Y = {(x, y) ∈ N2 | x + y = 4}.
a) Dire si (X, Y ) est un vecteur binomial.
b) Trouver les lois marginales de X et Y .
c) Calculer cov(X, Y ).
Propriétés. Soit (X, Y ) ∼ B(n, p, q).

1. X ∼ B(n, p) et Y ∼ B(n, q).
2. cov(X, Y ) = −npq.
35
Loi multinomiale Soit n ≥ 1 un entier et soit p1 , p2 , . . . , pm tels que p1 + p2 + . . . + pm = 1.

On dit qu’un vecteur aléatoire discret (X1 , X2 , . . . , Xm ) suit une loi multinomiale de paramètres
(n, p1 , . . . , pm ) si et seulement si
n!
pX1 ,X2 ,...,Xm (x1 , x2 , . . . , xm ) = px1 1 px2 2 . . . pxmm
x1 !x2 ! . . . xm !
pour tout (x1 , x2 , . . . , xm ) ∈ SX1 ,X2 ,...,Xm = {(x1 , x2 , . . . , xm ) ∈ Nm | x1 + x2 + . . . + xm = n}. On
écrit (X1 , X2 , . . . , Xm ) ∼ B(n, p1 , . . . , pm ).
3.7.2 Loi binormale

Soit (X, Y ) un vecteur aléatoire continu. On suppose E[X] = µ, var(X) = σ 2 , E[Y ] = ν, var(Y ) = τ 2
et cov(X, Y ) = ρστ . On dit que (X, Y ) suit une loi binormale ou que (X, Y ) est gaussien si et
seulement si pour tout a, b ∈ R, aX + bY suit une loi normale. On écrit (X, Y ) ∼ N(µ, ν, σ 2 , τ 2 , ρ).
Propriétés. Soit (X, Y ) ∼ N(µ, ν, σ 2 , τ 2 , ρ).
1. Pour tout a, b ∈ R, aX +bY ∼ N(aµ+bν, a2 σ 2 +b2 τ 2 +2abρστ ). En particulier, X ∼ N(µ, σ 2 )
et Y ∼ N(ν, τ 2 ).
2. Si (X, Y ) est non dégénéré, i.e., σ 2 τ 2 (1 − ρ2 ) > 0, alors la fonction de densité conjointe fX,Y
existe et
(x−µ)2 (y−ν)2 (x−µ)(y−ν)
1 − 1
2 2 +
τ2
−2ρ στ
fX,Y (x, y) = p e 2(1−ρ ) σ
2πστ 1 − ρ 2
pour tout (x, y) ∈ R2 .

3. Pour tout x ∈ R, Y | X = x ∼ N(ν + ρτ x−µ
σ
, τ 2 (1 − ρ2 ))
4. Si cov(X, Y ) = 0 ou ρ = 0, alors les variables aléatoires X et Y sont indépendantes.
Exemple 45. On considère un vecteur aléatoire (X, Y ) ∼ N(1, 2, 1, 4, 1/2). Calculer E[XY ].
Loi multinormale On dit qu’un vecteur aléatoire continu (X1 , X2 , . . . , Xn ) suit une loi multinormale
si et seulement si pour tout a1 , a2 , . . . , an ∈ R, a1 X1 +a2 X2 +. . .+an Xn suit une loi normale. On écrit
(X1 , X2 , . . . , Xn ) ∼ N(µ, Σ), où µ := (E[Xk ]) est le vecteur des moyennes et K := [cov(Xi , Xj )]
est la matrice de covariance. Si det Σ ̸= 0, on a
1 1 T −1
fX1 ,X2 ,...,Xn (x1 , x2 , . . . , xn ) = p e− 2 (x−µ) Σ (x−µ)
(2π)n det Σ
pour tout x = (x1 , x2 , . . . , xn ) ∈ SX1 ,X2 ,...,Xn = Rn .
3.8 Combinaison linéaire de variables aléatoires

Soit X = (X1 , X2 , . . . , Xn ) un vecteur aléatoire de taille n. On définit
• le vecteur des moyennes par
µ = E[X] = (E[X1 ], E[X2 ], . . . , E[Xn ]),
• la matrice de covariance par
Σ = E[(X − E[X])(X − E[X])T ] = E[XX T ] − µµT ,
où Σij = cov(Xi , Xj ) pour tout 1 ≤ i, j ≤ n.
36
Propriétés.
1. Pour tout a = (a1 , a2 , . . . , an ) ∈ Rn ,
n
X
T T
E[a X] = a µ = ak E[Xk ],
k=1
Xn X
var(aT X) = aT Σa = a2k var(Xk ) + 2 aj ak cov(Xj , Xk ).
k=1 j<k
2. La matrice de covariance Σ est une matrice symétrique et semidéfinie positive.
3.8.1 Somme de variables aléatoires indépendantes

Soient X et Y deux variables aléatoires indépendantes. La fonction caractéristique φX+Y de X + Y
peut être déterminée à partir des fonctions caractéristiques φX et φY comme suit :
φX+Y (ω) = E[ejω(X+Y ) ] = E[ejωX ejωY ] = E[ejωX ] E[ejωY ] = φX (ω)φY (ω) = (φX φY )(ω).
• Si X et Y sont des variables discrètes, alors

X
pX+Y (s) = P[X + Y = s] = P[X = t, Y = s − t]
t
X X
= P[X = t] P[Y = s − t] = pX (t)pY (s − t) = (pX ∗ pY )(s)
t t
• Si X et Y sont des variables continues, on peut montrer que

Z
fX+Y (s) = fX (t)fY (s − t) dt = (fX ∗ fY )(s).
R
On a aussi E[X + Y ] = E[X] + E[Y ] et var(X + Y ) = var(X) + var(Y ).

Exemple 46. Déterminer la fonction de masse ou densité de X + Y , où X et Y sont deux variables
aléatoires indépendantes données.
a) X ∼ Bern(p) et Y ∼ Bern(p). b) X ∼ Exp(λ) et Y ∼ Exp(λ).
De façon générale, si les variables X1 , X2 , . . . , Xn sont indépendantes et Sn = nk=1 Xk , on a

P
n
Y
φSn = φXk et fSn = fX1 ∗ fX2 ∗ . . . ∗ fXn .
k=1
Table 3.1 – Loi de X + Y , où X et Y sont indépendantes
Loi de X Loi de Y Loi de X + Y

Bern(p) Bern(p) B(2, p)
B(m, p) B(n, p) B(m + n, p)
Poi(λ) Poi(µ) Poi(λ + µ)
Exp(λ) Exp(λ) G(2, λ)
G(α, λ) G(β, λ) G(α + β, λ)
N(µ, σ 2 ) N(ν, τ 2 ) N(µ + ν, σ 2 + τ 2 )
37
3.8.2 Théorèmes limites

Soit (Xn ) une suite de P
variables aléatoires indépendantes et de même distribution qu’une variable
aléatoire X. Soit Sn := nk=1 Xk .
Théorème 17 (Loi faible des grands nombres). Si E[X] = µ est finie alors pour tout ε > 0,
lim P[|Sn /n − µ| > ε] = 0.

n→∞
On dit que (Xn ) converge en probabilité vers µ.

Théorème 18 (Loi forte des grands nombres). Si E[|X|] < ∞ et E[X] = µ alors
P[ lim Sn /n = µ] = 1.
n→∞
On dit que (Xn ) converge presque sûrement vers µ.

Théorème 19 (Théorème central limite). Si E[X] = µ et var(X) = σ 2 > 0 sont finies alors
Sn /n − µ
Z = lim √ ∼ N(0, 1).
n→∞ σ/ n
Sn /n−µ
On dit que (Zn ), où Zn := √ ,
σ/ n
converge en loi vers Z ∼ N(0, 1).
Démonstration. Pour tout k, soit Yk = (Xk − µ)/σ. (Yk ) est une suite de variables aléatoires indé-
pendantes et identiquement distribuées de moyenne 0 et de variance 1. Leur fonction caractéristique
est donnée par
E[Y ] E[Y 2 ] ω2
φY (ω) = 1 + (jω) + (jω)2 + o(ω 2 ) = 1 − + o(ω 2 ) lorsque ω → 0.
1! 2! 2
Pn
Soit Sn = k=1 Xk , où E[Sn /n] = µ et var(Sn /n) = σ 2 /n. On définit la variable aléatoire centrée
réduite
Sn /n − µ
Zn = √ .
σ/ n
On peut écrire
Pn 2 n
ω2

k=1 Yk n ω ω n↑∞ − ω2
Zn = √ ⇒ φZn (ω) = φY √ = 1− +o → e 2.
n n 2n n
Z = lim Zn a la même fonction caractéristique que la loi N(0, 1). Donc, Z ∼ N(0, 1).
n→∞
Remarques.
1. Si n est grand (n ≥ 30), on peut dire que X := Sn /n ≈ N(µ, σ 2 /n) ou encore Sn ≈ N(nµ, nσ 2 ).
2. Soit X ∼ B(n, p). Si min{np, n(1 − p)} ≥ 5, alors X ≈ N(np, np(1 − p)) et pour tout
k = 0, 1, . . . , n,
P[X = k] = P[k − 1/2 ≤ X ≤ k + 1/2]

≈ P[k − 1/2 ≤ N(np, np(1 − p)) ≤ k + 1/2]
! !
k + 1/2 − np k − 1/2 − np
=Φ p −Φ p .
np(1 − p) np(1 − p)
Exemple 47. Soit X1 , X2 , . . . , X100 un ensemble de variables aléatoires indépendantes de moyenne 0

et de variance 1. Utiliser le théorème central limite pour calculer P[|X1 + X2 + . . . + X100 | > 10].
38
3.9 Exercices
24. On prend un point X dans l’intervalle (0, 1) selon une loi uniforme. Soit x la valeur prise par X ;
on prend ensuite un point Y dans l’intervalle (x, 1) selon une loi uniforme. On considère le vecteur
(X, Y ).
a) Quelle est la fonction de densité conjointe de (X, Y ) ?
b) Calculer E[Y | X = x].
c) Calculer E[Y 2 ].
25. Soit les variables aléatoires U := (1 − α)X + αY et V := αX + (1 − α)Y , où X ∼ N(−1, 1) et

Y ∼ N(1, 1) sont des variables aléatoires indépendantes, et où 0 ≤ α ≤ 1.
a) Pour quelles valeurs de α, les variables U et V sont-elles orthogonales ?
b) Pour quelles valeurs de α, les variables U et V sont-elles complètement corrélées ?
c) Quel est le meilleur estimateur linéaire de V en fonction de U ?
d) Quelle est la fonction caractéristique de U et quelle est celle de V ?
e) Supposons que X1 , X2 , . . . , X30 et Y1 , Y2 , . . . , Y30 sont des variables indépendantes qui sont
distribuées comme X et comme Y , respectivement. On définit Dk = Xk − Yk , pour k =
1, 2, . . . , 30. Soit N le nombre des Dk qui prendront une valeur positive. Utiliser une loi
gaussienne pour calculer approximativement P[N = 28].
26. Soit (Xk ) une suite de variables aléatoires indépendantes qui sont toutes distribuées comme X ∼
U(−1/2, 1/2), et soit Sn = nk=1 Xk . Utiliser le théorème central limite pour calculer P[S1500
2
P
≤ 125].
27. Utiliser le théorème central limite pour calculer approximativement P[(X1 +X2 +. . .+Xn )2 > c],
où les variables aléatoires X1 , X2 , . . . , Xn sont indépendantes et suivent toutes une loi exponentielle
de paramètre λ = 2, et c est une constante positive.
28. Soit fX,Y (x, y) = 3/4 pour x2 < y < 1.

a) Calculer fX (x) et fY (y).
b) Calculer P[Y ≥ X].
c) Calculer FX,Y (1/2, 1/9).
d) Les variables aléatoires X et Y sont-elles indépendantes ? orthogonales ?
e) Calculer le meilleur estimateur linéaire de Y en fonction de X.
f) On prend dix observations indépendantes du couple (X, Y ). Quelle est la probabilité qu’elles
soient toutes situées dans le premier quadrant ? Quelle est la valeur approximative de cette
probabilité selon le théorème central limite ?
29. Soit fX,Y (x, y) = x + xy pour 0 < x < 1, −1 < y < 1.

a) Calculer fX (1/2).
b) Calculer P[XY < 0].
c) Les variables aléatoires X et Y sont-elles orthogonales ? corrélées ? indépendantes ?
d) Quel est le meilleur estimateur linéaire de X en fonction de Z := 1/X ?
e) Soit (Yk ) une suite de variables aléatoires
Pn indépendantes qui possèdent la même fonction de
répartition que Y . On définit Sn = k=1 Yk . Selon la loi forte des grands nombres, vers quelle
valeur tend Sn /n lorsque n → ∞ ? D’après le théorème central limite, quelle est (approximati-
vement) la fonction caractéristique de Sn ?
39
Deuxième partie
Statistique
40
Chapitre 4
Statistique descriptive
Définition 21. Un échantillon aléatoire de taille n d’une variable aléatoire X est une suite de va-
riables aléatoires indépendantes X1 , X2 , . . . , Xn ayant toutes la même distribution que X. La variable
aléatoire X est aussi appelée population et chaque Xk , une observation de X.
Remarque. Une donnée ou observation particulière de X est une valeur xk prise par une observa-
tion Xk .
4.1 Quelques représentations graphiques de données

4.1.1 Tableau d’effectifs et histogramme
Soit x1 , x2 , . . . , xn un échantillon de données d’une population X. Soit I = (a, b) un intervalle
contenant toutes les données x1 , x2 , . . . , xn , i.e. a < mink xk et b > maxk xk . On partitionne I en m
sous-intervalles C1 , C2 , . . . , Cm , où chaque Cj = (cj−1 , cj ) contient au moins une donnée xk .
Définition 22. On définit

1. une classe par un sous-intervalle Cj , j = 1, 2, . . . , m,
2. l’effectif d’une classe Cj par le nombre nj de données qu’elle comporte, i.e.
nj = |{xk : xk ∈ Cj , k = 1, 2, . . . , n}| .
3. la fréquence d’une classe Cj par la proportion pj de données qu’elle comporte, i.e. pj = nj /n.
On construit alors le tableau de fréquences 4.1. Avec ce tableau, on peut représenter les données
avec un histogramme comme le montre la figure 4.1 : l’aire du rectangle correspondant à une classe
Cj = (cj−1 , cj ) est proportionnelle à la fréquence pj de la classe. L’histogramme est donc une
représentation graphique qui permet de voir la distribution des données.
Table 4.1 – Tableau de fréquences de l’exemple 48
j Classe Cj Effectif nj Eff. cumulé Fréquence pj Fréq. cumulée

1 C1 = [18.0, 26.5) n1 =9 n1 = 9 9/31 9/31
2 C2 = [26.5, 35.0) n2 = 11 n1 + n2 = 21 11/31 20/31
3 C3 = [35.0, 43.5) n3 = 10 n1 + n2 + n3 = 30 10/31 30/31
4 C4 = [43.5, 52.0) n4 =1 n1 + n2 + n3 + n4 = 31 1/31 1
41
CHAPITRE 4. STATISTIQUE DESCRIPTIVE C. Bingane
nj
12
18.0 26.5 35.0 43.5 52.0 x
Figure 4.1 – Histogramme de l’exemple 48
4.1.2 Diagramme en boîte

Soit x1 , x2 , . . . , xn un échantillon de données d’une population X. Soit q1 , q2 et q3 le 1er quartile, le
2è quartile (médiane) et le 3è quartile de cet échantillon. Le diagramme en boîte, appelé aussi boîte à
moustaches ou encore boîte de Tukey, consiste en
• une boîte allant du 1er quartile au 3è quartile coupée par la médiane et
• des segments aux extrémités menant jusqu’aux valeurs extrêmes de données
comme le montre la figure 4.2.
x(1) = 18 q2 = 33 x(31) = 51
q1 = 24 q3 = 37 x
Figure 4.2 – Diagramme en boîte de l’exemple 48
4.2 Quelques mesures numériques

Soit x1 , x2 , . . . , xn un échantillon de données d’une population X. On écrira x(1) , x(2) , . . . , x(n) pour
indiquer que les données ont été placées en ordre croissant.

1. la moyenne de l’échantillon par
n
1X
x= xk ,
n k=1
42
2. le quantile d’ordre p ∈ (0, 1) de l’échantillon par

(1 − p)x(np) + px(np+1) si np est un entier,
x((n+1)p) =
x(⌈np⌉) sinon,
3. la médiane de l’échantillon par le quantile d’ordre 1/2 : x((n+1)/2) = q2 .

4. le mode de l’échantillon par soit la donnée la plus fréquente, soit le point milieu de la classe
avec le plus grand effectif,
5. l’étendue de l’échantillon par x(n) − x(1) ,
6. l’écart interquartile par q3 − q1 , où q1 et q3 sont les premier et troisième quartiles,
7. la variance de l’échantillon par
n n
!
1 X 1 X
s2 = (xk − x)2 = x2k − nx2 ,
n − 1 k=1 n−1 k=1
8. l’écart-type de l’échantillon par √

s= s2 .
La moyenne, la médiane ou le mode sont des mesures de la tendance centrale tandis que l’étendue,
l’écart interquartile ou l’écart-type sont des mesures de dispersion.
Exemple 48. Les notes sur 60 obtenues par 31 étudiants à l’examen final du cours Probabilités et
statistique sont données dans le tableau ci-dessous.
i x10i+1 x10i+2 x10i+3 x10i+4 x10i+5 x10i+6 x10i+7 x10i+8 x10i+9 x10i+10
0 18 19 21 21 21 21 23 24 25 29
1 29 31 32 32 33 33 33 34 34 34
2 35 36 36 37 37 37 38 39 39 40
3 51
a) Calculer la moyenne, l’écart-type, la médiane, l’écart interquartile et l’étendue.

b) Dessiner un histogramme approprié.
c) Dessiner le diagramme en boîte.
4.3 Distributions échantillonnales

4.3.1 Quelques lois utiles en statistique
Loi du khi-deux
Soit Z = (Z1 , Z2 , . . . , Zn ) ∼ N(0, In ). La variable aléatoire W := ∥Z∥2 = nk=1 Zk2 suit une loi du
P
khi-deux à n degrés de liberté et on écrit W ∼ χ2n . Sa fonction de densité est donnée par
1 w n2 −1 w
fW (w) = n
e− 2
2Γ 2
2
pour tout w ∈ SW = (0, ∞).
Exemple 49. Déterminer le 95è centile de la variable aléatoire W ∼ χ24 .
43
Table 4.2 – Valeurs de c telles que P[χ2n ≤ cn] = 0.95
n n+1 n+2 n+3 n+4 n+5 n+6 n+7 n+8 n+9 n + 10

0 3.8415 2.9957 2.6049 2.3719 2.2141 2.0986 2.0096 1.9384 1.8799 1.8307
10 1.7886 1.7522 1.7202 1.6918 1.6664 1.6435 1.6228 1.6038 1.5865 1.5705
20 1.5557 1.5420 1.5292 1.5173 1.5061 1.4956 1.4857 1.4763 1.4675 1.4591
30 1.4511 1.4436 1.4364 1.4295 1.4229 1.4166 1.4106 1.4048 1.3993 1.3940
40 1.3888 1.3839 1.3792 1.3746 1.3701 1.3659 1.3617 1.3577 1.3538 1.3501
50 1.3465 1.3429 1.3395 1.3362 1.3329 1.3298 1.3267 1.3238 1.3209 1.3180
60 1,3153 1.3126 1.3100 1.3074 1.3049 1.3025 1.3001 1.2978 1.2955 1.2933
70 1.2911 1.2890 1.2869 1.2849 1.2829 1.2809 1.2790 1.2771 1.2753 1.2735
80 1.2717 1.2700 1.2683 1.2666 1.2650 1.2633 1.2618 1.2602 1.2587 1.2572
90 1.2557 1.2542 1.2528 1.2514 1.2500 1,2487 1.2473 1.2460 1.2447 1.2434
Table 4.3 – Valeurs de c telles que P[χ2n ≥ n/c] = 0.95
n n+1 n+2 n+3 n+4 n+5 n+6 n+7 n+8 n+9 n + 10

0 254.3144 19.4957 8.5264 5.6281 4.3650 3.6689 3.2298 2.9276 2.7067 2.5379
10 2.4045 2.2962 2.2064 2.1307 2.0658 2.0096 1.9604 1.9168 1.8780 1.8432
20 1.8117 1.7831 1.7570 1.7330 1.7110 1.6906 1.6717 1.6541 1.6376 1.6223
30 1.6078 1.5943 1.5815 1.5694 1.5580 1.5471 1.5369 1.5271 1.5178 1.5089
40 1.5004 1.4923 1.4846 1.4771 1.4700 1.4632 1.4566 1.4502 1.4441 1.4383
50 1.4326 1.4271 1.4218 1.4167 1.4118 1.4070 1.4024 1.3979 1.3935 1.3893
60 1.3852 1.3812 1.3773 1.3735 1.3699 1.3663 1.3628 1.3594 1.3562 1.3529
70 1.3498 1.3467 1.3438 1.3408 1.3380 1.3352 1.3325 1.3298 1.3272 1.3247
80 1.3222 1.3198 1.3174 1.3150 1.3128 1.3105 1.3083 1.3062 1.3040 1.3020
90 1.2999 1.2979 1.2960 1.2941 1.2922 1.2903 1.2885 1.2867 1.2849 1.2832
Table 4.4 – Valeurs de c telles que P[n/c ≤ χ2n ≤ cn] = 0.95
n n+1 n+2 n+3 n+4 n+5 n+6 n+7 n+8 n+9 n + 10

0 254.3143 19.4957 8.5279 5.6380 4.3875 3.7030 3.2730 2.9776 2.7616 2.5963
10 2.4653 2.3587 2.2701 2.1950 2.1306 2.0745 2.0253 1.9816 1.9426 1.9074
20 1.8756 1.8466 1.8200 1.7956 1.7731 1.7522 1.7328 1.7147 1.6978 1.6819
30 1.6670 1.6529 1.6396 1.6271 1.6152 1.6039 1.5932 1.5829 1.5732 1.5639
40 1.5550 1.5465 1.5383 1.5305 1.5229 1.5157 1.5087 1.5020 1.4956 1.4893
50 1.4833 1.4775 1.4719 1.4664 1.4612 1.4561 1.4511 1.4463 1.4416 1.4371
60 1.4327 1.4285 1.4243 1.4202 1.4163 1.4125 1.4087 1.4051 1.4015 1.3981
70 1.3947 1.3914 1.3882 1.3850 1.3819 1.3789 1.3760 1.3731 1.3703 1.3675
80 1.3648 1.3622 1.3596 1.3571 1.3546 1.3521 1.3497 1.3474 1.3451 1.3428
90 1.3406 1.3384 1.3363 1.3342 1.3321 1.3301 1.3281 1.3261 1.3242 1.3223
Théorème 20 (de Cochran). Soit Z = (Z1 , Z2 , . . . , Zn ) ∼ N(0, In ) et soit A ∈ Rn×n une matrice non
nulle, symétrique, idempotente et de rang m < n. Alors AZ ∼ N(0, A) et (In − A)Z ∼ N(0, In − A)
sont indépendants. De plus, ∥AZ∥2 ∼ χ2m et ∥(In − A)Z∥2 ∼ χ2n−m .
Démonstration. Notons d’abord que si A ∈ Rn×n est une matrice non nulle, symétrique, idempotente
et de rang m < n alors In − A ∈ Rn×n est une matrice non nulle, symétrique, idempotente et de rang
n − m < n. Soit Z = (Z1 , Z2 , . . . , Zn ) ∼ N(0, In ).
1. Montrons que AZ ∼ N(0, A) et (In − A)Z ∼ N(0, In − A) sont indépendants. Soit

A
B= ∈ R2n×n
In − A
44
et soit

AZ
X = BZ = .
(In − A)Z
Le vecteur aléatoire X est un vecteur gaussien dont le vecteur des moyennes est 0 ∈ R2n et
dont la matrice de covariance est

T A2 A(In − A) A
A2 =A 0
BIn B = = .
(In − A)A (In − A)2 0 In − A
D’où AZ ∼ N(0, A) et (In − A)Z ∼ N(0, In − A) sont indépendants.

2. Montrons à présent que ∥AZ∥2 ∼ χ2m et ∥(In −A)Z∥2 ∼ χ2n−m . La matrice A étant symétrique,
idempotente et de rang m < n, on peut montrer qu’il existe une matrice C ∈ Rn×m et une
matrice D ∈ Rn×(n−m) telles que CC T = A, DDT = In − A, C T C = Im , DT D = In−m et
C T D = 0. Soit U = C T Z et soit V = DT Z. Le vecteur aléatoire U (respectivement V ) est
un vecteur gaussien dont le vecteur des moyennes est 0 ∈ Rm (respectivement 0 ∈ Rn−m ) et
dont la matrice de covariance est C T In C = Im (respectivement DT In D = In−m ). Par la suite,
∥AZ∥2 = ∥C T Z∥2 = ∥U ∥2 ∼ χ2m et ∥(In − A)Z∥2 = ∥DT Z∥2 = ∥V ∥2 ∼ χ2n−m .
Loi de Student
Soit Z ∼ N(0, 1) et W ∼ χ2n deux variables aléatoires indépendantes. La variable aléatoire T :=

√ Z suit une loi de Student à n degrés de liberté et on écrit T ∼ tn . Sa fonction de densité est donnée
W/n
par
1 Γ n+1

2 1
fT (t) = √
n Γ 2 Γ 2 1 + t2 n+1
n 1

2
n
pour tout t ∈ ST = (−∞, ∞).
Exemple 50. Déterminer le 95è centile de la variable aléatoire T ∼ t4 .
Table 4.5 – Valeurs de c telles que P[tn ≤ c] = 0.95
n n+1 n+2 n+3 n+4 n+5 n+6 n+7 n+8 n+9 n + 10

0 6.3138 2.9200 2.3534 2.1318 2.0150 1.9432 1.8946 1.8595 1.8331 1.8125
10 1.7959 1.7823 1.7709 1.7613 1.7531 1.7459 1.7396 1.7341 1.7291 1.7247
20 1.7207 1.7171 1.7139 1.7109 1.7081 1.7056 1.7033 1.7011 1.6991 1.6973
30 1.6955 1.6939 1.6924 1.6909 1.6896 1.6883 1.6871 1.6860 1.6849 1.6839
40 1.6829 1.6820 1.6811 1.6802 1.6794 1.6787 1.6779 1.6772 1.6766 1.6759
50 1.6753 1.6747 1.6741 1.6736 1.6730 1.6725 1.6720 1.6716 1.6711 1.6706
60 1.6702 1.6698 1.6694 1.6690 1.6686 1.6683 1.6679 1.6676 1.6672 1.6669
70 1.6666 1.6663 1.6660 1.6657 1.6654 1.6652 1.6649 1.6646 1.6644 1.6641
80 1.6639 1.6636 1.6634 1.6632 1.6630 1.6628 1.6626 1.6624 1.6622 1.6620
90 1.6618 1.6616 1.6614 1.6612 1.6611 1.6609 1.6607 1.6606 1.6604 1.6602
45
Table 4.6 – Valeurs de c telles que P[|tn | ≤ c] = 0.95
n n+1 n+2 n+3 n+4 n+5 n+6 n+7 n+8 n+9 n + 10

0 12.7062 4.3027 3.1824 2.7764 2.5706 2.4469 2.3646 2.3060 2.2622 2.2281
10 2.2010 2.1788 2.1604 2.1448 2.1314 2.1199 2.1098 2.1009 2.0930 2.0860
20 2.0796 2.0739 2.0687 2.0639 2.0595 2.0555 2.0518 2.0484 2.0452 2.0423
30 2.0395 2.0369 2.0345 2.0322 2.0301 2.0281 2.0262 2.0244 2.0227 2.0211
40 2.0195 2.0181 2.0167 2.0154 2.0141 2.0129 2.0117 2.0106 2.0096 2.0086
50 2.0076 2.0066 2.0057 2.0049 2.0040 2.0032 2.0025 2.0017 2.0010 2.0003
60 1.9996 1.9990 1.9983 1.9977 1.9971 1.9966 1.9960 1.9955 1.9949 1.9944
70 1.9939 1.9935 1.9930 1.9925 1.9921 1.9917 1.9913 1.9908 1.9905 1.9901
80 1.9897 1.9893 1.9890 1.9886 1.9883 1.9879 1.9876 1.9873 1.9870 1.9867
90 1.9864 1.9861 1.9858 1.9855 1.9853 1.9850 1.9847 1.9845 1.9842 1.9840
Remarques.
• La loi t1 est aussi appelée loi de Cauchy.
• Pour tout t ∈ R, fT (−t) = fT (t) et FT (−t) = 1 − FT (t).
• Lorsque n → ∞, la loi tn est une loi N(0, 1).
1 1
fX fX
0.8 FX 0.8 FX
0.6 0.6
0.4 0.4
0.2 0.2
0 0
0 2 4 6 −4 −2 0 2 4
(a) Loi χ24 (b) Loi t4
Figure 4.3 – Deux lois utiles en statistique
4.3.2 Moyenne et variance échantillonnales

Soit X1 , X2 , . . . , Xn un échantillon aléatoire d’une population X. Une statistique est une fonction
g(X1 , X2 , . . . , Xn ) ne dépendant que des variables aléatoires Xk , k = 1, 2, . . . , n. Toute statistique
est une variable aléatoire dont la distribution est appelée distribution échantillonnale.
On définit
1. la moyenne échantillonnale par X = n1 nk=1 Xk ,
P
1
Pn
2. la variance échantillonnale par S 2 = n−1 2
k=1 (Xk − X) .
2
Si E[X] = µ et var(X) = σ 2 , on peut montrer que E[X] = µ, var(X) = σn , E[S 2 ] = σ 2 ,
4
2σ 4
var(S 2 ) = n−1 + µ4 −3σ
n
et cov(X, S 2 ) = µn3 , où µ3 = E[(X − µ)3 ] et µ4 = E[(X − µ)4 ].
Remarque. Dans le cas où la moyenne µ est connue, on définit la variance échantillonnale comme suit
n
1X
Sµ2 = (Xk − µ)2 .
n k=1
µ4 −σ 4
On a E[Sµ2 ] = σ 2 et var(Sµ2 ) = n
.
46
Exemple 51. Soit X1 , X2 , . . . , X10 un échantillon aléatoire de X ∼ U(−1, 1). Calculer E[X], var(X),
E[S 2 ], var(S 2 ) et cov(X, S 2 ).
Théorème 21. Si X ∼ N(µ, σ 2 ), alors les statistiques X et S 2 sont indépendantes. De plus,
X −µ
Z= √ ∼ N(0, 1),
σ/ n
S2
W = (n − 1) ∼ χ2n−1 ,
σ2
X −µ
T = √ ∼ tn−1 .
S/ n
√
Démonstration.
Pn Pour tout k = 1, 2,
p . . . , n, soit Y k = (X k −µ)/σ ∼ N(0, 1). On peut écrire Z = Y n,
2
W = k=1 (Yk − Y ) et T = Z/ W/(n − 1).
Soit Y = (Y1 , Y2 , . . . , Yn ) ∼ N(0, In ) et soit A = n1 eeT , où e = (1, 1, . . . , 1) ∈ Rn . La matrice A est
symétrique, idempotente et de rang 1. D’après le théorème 20, les vecteurs AY = (Y , Y , . . . , Y ) ∼
N(0, A) et (In −A)Y = (Y√ 1 −Y , Y2 −Y , . . . , Yn −Y ) ∼ N(0, In −A) sont indépendants. Par la suite,
T
les variables Z = e p AY / n ∼ N(0, 1) et W = ∥(In − A)Y ∥2 ∼ χ2n−1 sont aussi indépendantes.
Finalement, T = Z/ W/(n − 1) ∼ tn−1 .
Exemple 52. Soit X1 , X2 , . . . , X10 un échantillon aléatoire de X ∼ N(1, 4). Calculer P[−1 ≤ X ≤ 3],
P[1 ≤ S ≤ 4] et P[1 − S ≤ X ≤ 1 + S].
4.4 Exercices
30. Les notes sur 20 obtenues par 74 étudiants dans le cours Probabilités et statistique sont données
dans le tableau ci-dessous.
i x10i+1 x10i+2 x10i+3 x10i+4 x10i+5 x10i+6 x10i+7 x10i+8 x10i+9 x10i+10
0 13.5 9.0 10.0 10.0 9.0 10.5 10.5 16.5 12.0 10.0
1 11.0 11.0 10.5 11.5 11.5 6.0 5.5 7.0 7.5 12.5
2 10.5 14.0 13.0 6.5 12.5 11.0 10.5 10.5 9.5 11.0
3 8.5 11.0 14.0 5.0 10.5 7.0 9.5 16.5 16.0 12.0
4 8.0 9.5 9.5 12.5 14.5 8.0 14.0 12.5 14.0 12.5
5 7.5 11.5 8.0 12.5 14.0 11.5 9.5 8.5 11.5 7.5
6 11.0 9.0 11.5 10.5 6.0 12.0 12.5 13.5 7.5 11.5
7 13.5 9.0 10.0 16.0
a) Calculer la moyenne, l’écart-type, la médiane, l’écart interquartile et l’étendue.

b) Dessiner un histogramme approprié.
c) Dessiner le diagramme en boîte.
d) Pour tout k = 1, 2, . . . , 74, soit yk = (xk − x)/s. Calculer la moyenne y et l’écart-type sy .
31. Soit un échantillon aléatoire X1 , X2 , . . . , X9 d’une population X ∼ N(µ, σ 2 ). On considère
Z = 3(X − µ)/σ, W = 8S 2 /σ 2 et T = 3(X − µ)/S.
a) Quelles sont les distributions échantillonnales de Z, W et T ?
b) Que valent E[Z], std(Z), E[W ], std(W ), E[T ], std(T ) ?
c) Pour quelles valeurs de z ∗ , w∗ et t∗ , a-t-on P[Z > z ∗ ] = P[W > w∗ ] = P[T > t∗ ] = 0.05 ?
32. Calculer la fonction de répartition de la variable aléatoire donnée.
47
a) W ∼ χ24 b) T ∼ t4
33. Soient les variables aléatoires Z ∼ N(0, 1), W ∼ χ24 et T ∼ t4 . Déterminer les nombres a, b et c
tels que P[|Z| ≤ 2a] = P[4/b ≤ W ≤ 4b] = P[|T | ≤ 2c] = 0.95.
34. Soit X1 , X2 , . . . , Xn un échantillon aléatoire d’une population X ∼ U(0, θ) avec θ > 0.

a) Déterminer la distribution d’échantillonnage de T := X(n) .
b) Vérifier que la distribution d’échantillonnage de Y := T /θ ne dépend pas de θ.
48
Chapitre 5
Estimation de paramètres
5.1 Estimation ponctuelle

Soit X1 , X2 , . . . , Xn un échantillon aléatoire d’une variable aléatoire X dont la distribution dépend
d’un paramètre inconnu θ. Un estimateur ponctuel de θ est une statistique T = g(X1 , X2 , . . . , Xn ) lui
correspondant. De plus, si pour tout ε > 0,
lim P[|T − θ| > ε] = 0,
n→∞
on dit que T est un estimateur convergent de θ.

Définition 24. Le biais d’un estimateur T de θ, qu’on note Biais(T ), est donné par
Biais(T ) := E[T ] − θ.
Remarques.
1. Si Biais(T ) = 0, on dit que T est un estimateur sans biais.
2. Si T est un estimateur basé sur un échantillon aléatoire de taille n et lim Biais(T ) = 0, alors
n→∞
T est dit asymptotiquement sans biais.
Définition 25. L’erreur quadratique moyenne d’un estimateur T de θ, qu’on note EQM(T ), est donnée
par
EQM(T ) := E[(T − θ)2 ] = var(T ) + Biais2 (T ).
Remarque. Si T1 et T2 sont deux estimateurs de θ et EQM(T1 ) < EQM(T2 ), alors on dit que T1 est
plus efficace que T2 .
Exemple 53. Soit X1 , X2 , . . . , Xn un échantillon aléatoire d’une population X ∼ U(0, θ). Soit
T = 2X un estimateur du paramètre inconnu θ. Calculer l’erreur quadratique moyenne de T .
Proposition 8. Si lim EQM(T ) = 0, alors T est un estimateur convergent de θ.
n→∞
5.1.1 Méthode du maximum de vraisemblance

On définit la fonction de vraisemblance L(θ) comme suit
 n
 Y
pX (Xk ; θ) si X est discrète,




k=1
L(θ) := Yn




 fX (Xk ; θ) si X est continue.
k=1
L’estimateur à vraisemblance maximale du paramètre θ est la solution θ̂ qui maximise la fonction de

vraisemblance L(θ).
49
CHAPITRE 5. ESTIMATION DE PARAMÈTRES C. Bingane
Exemple 54. Soit X1 , X2 , . . . , Xn un échantillon aléatoire d’une variable aléatoire X dont la distri-
bution dépend d’un paramètre inconnu θ. Calculer l’estimateur à vraisemblance maximale de θ.
a) X ∼ Geo(θ) b) X ∼ Exp(θ)
Proposition 9. Soit une fonction g : R → R. Si θ̂ est l’estimateur à vraisemblance maximale de θ,

alors g(θ̂) est l’estimateur à vraisemblance maximale de g(θ).
5.1.2 Méthode des moments

La méthode des moments consiste à estimer le paramètre inconnuP θ en égalisant le premier moment
théorique E[X ] qui dépend de θ avec sa contrepartie empirique n nk=1 X j . Cette méthode trouve sa
j 1
justification dans la loi des grands nombres. L’estimateur θ̂ de θ, obtenu par la méthode des moments,
est donc la solution d’une équation de la forme
n
1X j
E[X j ] = X ,
n k=1 k
avec j entier positif.

Exemple 55. Soit X1 , X2 , . . . , Xn un échantillon aléatoire d’une population X dont la fonction de
densité est définie par fX (x; θ) = θxθ−1 si 0 < x < 1, où θ > 0 est un paramètre inconnu. Calculer
l’estimateur de θ par la méthode des moments.
5.2 Estimation par intervalles de confiance

Soit X une population dont la distribution dépend d’un paramètre inconnu θ. Soit X1 , X2 , . . . , Xn un
échantillon aléatoire de X.
• Si L = g(X1 , X2 , . . . , Xn ) et U = h(X1 , X2 , . . . , Xn ) sont des statistiques telles que
P[L ≤ θ ≤ U ] = 1 − α
alors [L, U ] est appelé intervalle de confiance bilatéral pour θ de niveau de confiance 1 − α.
• Si L = g(X1 , X2 , . . . , Xn ) est une statistique telle que
P[L ≤ θ] = 1 − α
alors [L, ∞) est appelé intervalle de confiance unilatéral pour θ de niveau de confiance 1 − α.
• Si U = h(X1 , X2 , . . . , Xn ) est une statistique telle que
P[U ≥ θ] = 1 − α
alors (−∞, U ] est appelé intervalle de confiance unilatéral pour θ de niveau de confiance 1 − α.
Supposons que X ∼ N(µ, σ 2 ), où seule la variance σ 2 est connue. Avec X comme estimateur de µ,
un intervalle de confiance bilatéral naturel de µ serait de la forme
√ √
X − cσ/ n ≤ µ ≤ X + cσ/ n
où c > 0 est une certaine constante. Pour α fixé, par exemple α = 0.05, on peut déterminer c de telle
sorte que √ √ √
P[X − cσ/ n ≤ µ ≤ X + cσ/ n] = P[|X − µ| ≤ cσ/ n] = 1 − α.
50
X−µ
Considérant la statistique Z := √
σ/ n
∼ N(0, 1), on a
√ ∗
P[|X − µ| ≤ cσ/ n] = P[|Z| ≤ c] = 1 − α ⇒ c = zα/2 ,
∗
√ √
où zα/2 = z1−α/2 = Φ−1 (1 − α/2). Donc, [X − zα/2
∗ ∗
σ/ n, X + zα/2 σ/ n] est un intervalle de
confiance pour µ de niveau de confiance 1 − α.
Remarque. Soit X une variable aléatoire continue. Pour tout α ∈ (0, 1), on définit x∗α la valeur réelle
telle que P[X > x∗α ] = α.
Table 5.1 – Intervalles de confiance pour la moyenne µ
Intervalles de confiance
Échantillon Cas Statistique
[L, U ] [L, ∞) (−∞, U ]
∗ √σ
X−µ L = X − zα/2 L = X − zα∗ √σn
X1 , X2 , . . . , Xn ∼ N(µ, σ 2 ) σ 2 connue Z= √
σ/ n
∼ N(0, 1) ∗ √σ
n
U = X + zα/2 n
U = X + zα∗ √σn
X−µ L = X − t∗α/2 √Sn L = X − t∗α √Sn

X1 , X2 , . . . , Xn ∼ N(µ, σ 2 ) σ 2 inconnue T = √
S/ n
∼ tn−1
U = X + t∗α/2 √Sn U = X + t∗α √Sn
Table 5.2 – Intervalles de confiance pour la variance σ 2
Intervalles de confiance
Échantillon Cas Statistique
[L, U ] [L, ∞) (0, U ]
2 2
nSµ nSµ
nSµ 2 L= ∗ L=
X1 , X2 , . . . , Xn ∼ N(µ, σ 2 ) µ connue W = 2 ∼ χ2n wα/2 wα∗
σ nSµ 2
nSµ2
U= ∗
w1−α/2 U= ∗
w1−α
(n−1)S 2 (n−1)S 2
(n−1)S 2 L= ∗ L=
X1 , X2 , . . . , Xn ∼ N(µ, σ 2 ) µ inconnue W = σ2 ∼ χ2n−1 wα/2 ∗
wα
(n−1)S 2 (n−1)S 2
U= ∗
w1−α/2 U= ∗
w1−α
Exemple 56. Un intervalle de confiance à 95% pour la moyenne µ d’une population√X ∼ N(µ, 9),
calculé à partir d’un échantillon aléatoire de taille n = 99, a donné |µ − 10| ≤ 3z0.025 / 99. Une 100è
observation, x100 , est prise. Calculer le nouvel intervalle de confiance si x100 = 11.
Exemple 57. Soit X ∼ N(µ, σ 2 ), où les paramètres µ et σ 2 sont Pinconnus. Un échantillon
P25 2 aléatoire
25
particulier x1 , x2 , . . . , x25 de X a donné les résultats suivants : k=1 xk = 175 et k=1 xk = 1550.
Calculer un intervalle de confiance bilatéral à 95% pour µ.
Exemple 58. Soit X ∼ Poi(λ), où le paramètre λ est inconnu. On considère un échantillon aléatoire
de taille n > 30 de X. Utiliser le théorème central limite pour obtenir un intervalle de confiance
approximatif à 1 − α pour λ.
5.3 Exercices
1 − |x|
35. Soit fX (x; θ) = 2θ
e θ pour x ∈ R, où θ > 0, la fonction de densité d’une variable aléatoire X.
a) Calculer l’estimateur à vraisemblance maximale du paramètre θ.
1
Pn 2 2
b) On considère l’estimateur β̂ = 2(n−1) k=1 Xk du paramètre β := θ . Calculer le biais de β̂.
36. Soit X1 , X2 , . . . , Xn un échantillon aléatoire d’une variable aléatoire X ∼ Bern(p).
51
a) Calculer l’estimateur à vraisemblance maximale du paramètre p.

b) Donner la loi exacte et la loi approximative que suit nX.
c) Donner une formule pour un intervalle de confiance (approximatif) à 1 − α pour p.
37. On peut montrer qu’un intervalle de confiance théorique à environ 95% pour le paramètre λ d’une
variable aléatoire X ∼ Poi(λ) est donné par X ± 1.96 std(X), où X est la moyenne d’un échantillon
aléatoire de taille n de X. Un échantillon aléatoire particulier de taille n = 1000 a donné une moyenne
de l’échantillon de 0.4. Calculer approximativement l’intervalle de confiance pour λ basé sur cet
échantillon particulier.
38. Soit X ∼ N(µ, µ2 ). Obtenir une formule pour un intervalle de confiance (approximatif) à 1 − α
pour µ.
39. Soit X ∼ N(−θ, θ), où θ > 0 est un paramètre inconnu.

a) On propose l’estimateur θ̂ = −X du paramètre θ. Calculer l’erreur quadratique moyenne de θ̂.
b) Utiliser l’estimateur θ̂ = −X pour obtenir une formule donnant un intervalle de confiance à
1 − α pour θ, basé sur un échantillon de taille n = 100, si l’on suppose que X < 0.
52
Chapitre 6
Tests d’hypothèses
6.1 Tests paramétriques

Supposons que l’on veuille vérifier la valeur d’un paramètre inconnu θ de la distribution d’une
population X. Pour ce faire, on compare deux hypothèses sur la valeur θ :
1. l’hypothèse nulle H0 : θ = θ0 et
2. l’hypothèse alternative ou la contre-hypothèse qui peut être
• bilatérale : H1 : θ ̸= θ0 ou
• unilatérale à droite : H1 : θ > θ0 ou encore
• unilatérale à gauche : H1 : θ < θ0 .
1. l’erreur de première espèce (de type I) par
α = P[rejeter H0 | H0 est vraie],
2. l’erreur de deuxième espèce (de type II) par
β = P[ne pas rejeter H0 | H0 est fausse].
On appelle aussi α seuil critique ou seuil de signification du test et 1 − β, puissance du test.

Remarque. Si [L, U ] est un intervalle de confiance de θ de niveau de confiance 1 − α, alors on rejette
au seuil critique α l’hypothèse nulle H0 si [L, U ] ̸∋ θ0 .
Considérons une population X ∼ N(µ, σ 2 ), où seule la variance σ 2 est connue. On dispose d’un
échantillon aléatoire X1 , X2 , . . . , Xn de X et on veut tester l’hypothèse nulle H0 : µ = µ0 contre
l’hypothèse alternative H1 : µ ̸= µ0 . Naturellement, avec X comme estimateur de µ, on rejette H0 si
√
|X − µ0 | > cσ/ n,
où c > 0 est une certaine constante.

À présent, imaginons qu’on se fixe un seuil α, par exemple α = 0.05, et qu’on veuille déterminer c de
telle sorte que l’erreur de première espèce soit exactement α, i.e.,
√
P[rejeter H0 | H0 est vraie] = P[|X − µ0 | > cσ/ n | H0 est vraie] = α.
Pour ce faire, on considère la statistique suivante
X − µ0
Z0 := √ .
σ/ n
53
CHAPITRE 6. TESTS D’HYPOTHÈSES C. Bingane
Sous l’hypothèse H0 , on a Z0 ∼ N(0, 1) et

√ ∗
P[|X − µ0 | > cσ/ n] = P[|Z0 | > c] = α ⇒ c = zα/2 ,
∗
où zα/2 = z1−α/2 = Φ−1 (1 − α/2). On rejette donc H0 au seuil critique α si |Z0 | > zα/2
∗
.
√
Si H0 est fausse : µ = µ0 + d avec d ̸= 0, alors Z0 ∼ N(d n/σ, 1) et l’erreur de deuxième espèce est
∗
√ ∗
√
β = β(d) = Φ(zα/2 − d n/σ) − Φ(−zα/2 − d n/σ).
Table 6.1 – Tests d’une moyenne théorique
Statistique sous Conditions de rejet de H0 si

Échantillon Cas
H0 : µ = µ0 H1 : µ ̸= µ0 H1 : µ > µ0 H1 : µ < µ 0
X−µ ∗
X1 , X2 , . . . , Xn ∼ N(µ, σ 2 ) σ 2 connue Z0 = √0
σ/ n
∼ N(0, 1) |Z0 | > zα/2 Z0 > zα∗ Z0 < −zα∗
X−µ
X1 , X2 , . . . , Xn ∼ N(µ, σ 2 ) σ 2 inconnue T0 = √0
S/ n
∼ tn−1 |T0 | > t∗α/2 T0 > t∗α T0 < −t∗α
Table 6.2 – Tests d’une variance théorique
Statistique sous Conditions de rejet de H0 si

Échantillon Cas
2
H0 : σ = σ02 H1 : σ ̸= σ02
2
H1 : σ 2 > σ02 H1 : σ 2 < σ02
∗
nSµ 2 W0 > wα/2 W0 > wα∗
X1 , X2 , . . . , Xn ∼ N(µ, σ 2 ) µ connue W0 = σ02
∼ χ2n ∗ ∗
W0 < w1−α/2 W0 < w1−α
∗
(n−1)S 2 W0 > wα/2 W0 > wα∗
X1 , X2 , . . . , Xn ∼ N(µ, σ 2 ) µ inconnue W0 = σ02
∼ χ2n−1 ∗ ∗
W0 < w1−α/2 W0 < w1−α
6.2 Test d’ajustement de Pearson

Théorème 22. Soit X1 , X2 , . . . , Xn un échantillon aléatoire d’une variable aléatoire discrète X
dont le support est SX = {1, 2, . . . , m}. Pour tout j = 1, 2, . . . , m, soit Nj le nombre de variables de
l’échantillon qui prennent la valeur j. Alors
m
X (Nj − npj )2
W = lim ∼ χ2m−1 ,
n→∞
j=1
npj
Pm
où, pour tout j = 1, 2 . . . , m, pj = P[X = j] > 0 avec j=1 pj = 1.
Démonstration. On a (N1 , N2 , . . . , Nm ) ∼ B(n, p1 , . . . , pm ). Pour tout j = 1, 2, . . . , m, soit
Nj − npj
N̂j = √ .
npj
n↑∞ √ √ T √ √
D’après le théorème central limite, (N̂1 , N̂2 , . . . , N̂m ) ∼ N(0, Im − p p ), où p = ( pj ).
D’après le théorème de Cochran, W = N̂12 + N̂22 + . . . + N̂m 2
∼ χ2m−1 .
Soit X une variable aléatoire dont la fonction de répartition FX est inconnue. On veut tester l’hypothèse
nulle H0 : FX = F0 contre l’hypothèse alternative H1 : FX ̸= F0 , où F0 est une fonction donnée. Pour
ce faire, on suit les étapes suivantes :
54
1. sous H0 , on partitionne le support de X en m classes C1 , C2 , . . . , Cm . Pour tout j = 1, 2, . . . , m,

on calcule pj = P[X ∈ Cj ] ;
2. on prélève un échantillon de taille n ≫ m de X ;
3. on calcule la valeur de la statistique
m
X (Nj − npj )2
W0 = ≈ χ2m−ℓ−1 ,
j=1
np j
où Nj est le nombre de variables de l’échantillon qui appartiennent à la classe Cj pour tout

j = 1, 2 . . . , m et ℓ est le nombre de paramètres inconnus dans F0 qu’il a fallu estimer ;
4. on rejette H0 si W0 > wα∗ au seuil de signification α.
Exemple 59. On veut tester l’hypothèse qu’une variable aléatoire X suit une loi N(0, 1). Un échantillon
aléatoire particulier de taille n = 100 de X a permis de constituer le tableau 6.3. Calculer la statistique
utilisée pour effectuer le test.
Table 6.3 – Exemple 59
Classe (−∞, −0.674] (−0.674, 0] (0, 0.674] (0.674, ∞)

Effectif 20 25 25 30
Exemple 60. On a recueilli les observations du tableau 6.4 en lançant un dé 90 fois. Soit X le nombre
obtenu en lançant le dé. On veut tester l’hypothèse
H0 : P[X est pair] = P[X est impair].
Calculer la statistique utilisée pour effectuer le test et donner le nombre d de degrés de liberté de cette
statistique sous l’hypothèse nulle H0 .
Table 6.4 – Exemple 60
Classe {1} {2} {3} {4} {5} {6}

Effectif 13 12 16 18 15 16
6.3 Exercices
40. La vitesse X des microprocesseurs d’une certaine entreprise est censée être de 2 GHz. On suppose
que X ≈ N(µ, σ 2 ).
a) On prélève un échantillon aléatoire de taille n = 9 de X et on calcule la vitesse moyenne x
des microprocesseurs. Si l’écart-type s de l’échantillon est égal à 0.2, pour quelles valeurs de
x pourra-t-on conclure que la vitesse moyenne des microprocesseurs est inférieure à 2 GHz.
Utiliser α = 0.025.
b) Supposons que la vitesse moyenne des microprocesseurs est en fait 2.1 GHz, et que σ = 0.25.
Quelle est la probabilité de rejeter l’hypothèse H0 : µ = 2 (pour accepter H1 : µ < 2) au seuil
de α = 0.05, si l’on prélève un échantillon aléatoire de taille n = 16 ?
2
c) Quelle est la valeur de la statistique utilisée pour tester l’hypothèse HP
0 : σ = 0.02 contre
2 10
H
P110: σ 2> 0.02 si un échantillon aléatoire de taille n = 10 a donné k=1 xk = 20.17 et
k=1 xk = 40.775 ? Quelle est la conclusion du test si α = 0.05 ?
55
41. Soit X1 , X2 , . . . , Xn un échantillon aléatoire d’une variable aléatoire X dont la fonction de densité
est fX (x; θ) = θxθ−1 pour 0 < x < 1, où θ > 0 est un paramètre inconnu.
a) Calculer l’estimateur de θ par la méthode du maximum de vraisemblance.
b) Afin de vérifier si le modèle fX (x; θ) proposé ci-dessus est adéquat pour une certaine va-
riable aléatoire X, on effectue un test d’ajustement (de Pearson). On recueille 162 observations
indépendantes de X et on les regroupe en trois classes ; on obtient le tableau d’effectifs suivant.
Classe (0, 1/3] (1/3, 2/3] (2/3, 1)

Effectif 14 62 86
De plus, on trouve que la valeur de l’estimateur à vraisemblance maximale du paramètre θ

calculée à partir de ces 162 observations est θ̂ = 2.
Calculer la statistique utilisée pour effectuer le test et donner le nombre de degrés de liberté
associé à cette statistique (sous H0 ).
2
42. Soit fX (x; θ) = 2θxe−θx pour x > 0, où θ > 0 est un paramètre inconnu.
a) Calculer l’estimateur à vraisemblance maximale du paramètre θ.
b) On a recueilli 30 observations indépendantes de la variable aléatoire X, avec lequel on a construit
le tableau d’effectifs suivant.
√ √
Classe (0, 1/ 2] (1/ 2, 1] (1, ∞)
Effectif 12 8 10
2
On veut faire le test, au seuil α = 0.05, de l’hypothèse H0 : fX (x) = 2xe−x contre H1 : fX (x) ̸=
2
2xe−x pour x > 0. Donner la valeur de la statistique utilisée pour effectuer le test et le nombre
de degrés de liberté associé à cette statistique (sous H0 ).
56
Bibliographie
[1] L. Adjengue, Méthodes statistiques. Presses internationales Polytechnique, 2014.

[2] C. Bélisle, “STT-1920 Méthodes statistiques.” Université Laval, 2011.
[3] J. Guérin, “MTH2302B Probabilités et statistique.” Polytechnique Montréal, 2010.
[4] S. Le Digabel, “MTH2302D Probabilités et statistique.” Polytechnique Montréal, 2017.
[5] M. Lefebvre, Probabilités, statistique et applications. Presses internationales Polytechnique, 2011.
[6] M. Lefebvre, Cours et exercices de probabilités appliquées. Presses internationales Polytechnique,
2015.
57

Cours Probastat 2023

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours Probastat 2023

Transféré par

Droits d'auteur :

Formats disponibles

Probabilités et statistique

Cours et travaux dirigés

Christian Bingane, PhD

2.1 Quatre lois discrètes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4.1 Histogramme de l’exemple 48 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

2.1 Valeurs de Φ(z) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.1 Loi de X + Y , où X et Y sont indépendantes . . . . . . . . . . . . . . . . . . . . . 37

4.1 Tableau de fréquences de l’exemple 48 . . . . . . . . . . . . . . . . . . . . . . . . . 41

5.1 Intervalles de confiance pour la moyenne µ . . . . . . . . . . . . . . . . . . . . . . 51

6.1 Tests d’une moyenne théorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

1.1 Concepts de base

Définition 3. Un événement est un sous-ensemble de l’espace échantillon d’une expérience aléatoire.

Remarque. On appelle ∅ événement impossible et Ω événement certain.

vii) Pour tout A ⊆ Ω, il existe Ac := {ω ∈ Ω | ω ∈

Incompatibilité Deux événements A et B sont dits incompatibles si A ∩ B = ∅.

1.3 Probabilité conditionnelle

Si P[Bi ] > 0 pour tout i = 1, 2, . . . , n, alors pour tout événement A,

Démonstration. Soit B1 , B2 , . . . , Bn une partition de Ω. Si P[Bi ] > 0 pour tout i = 1, 2, . . . , n, alors

Théorème 4 (Formule de Bayes). Soit B1 , B2 , . . . , Bn des événements formant une partition de Ω.

Indépendance Deux événements A et B sont indépendants ssi P[A ∩ B] = P[A] P[B].

Proposition 1. Si deux événements A et B sont indépendants, alors

Définition 6. On dit que n événements A1 , A2 , . . . , An sont

P[Ai ∩ Aj ] = P[Ai ] P[Aj ],

• mutuellement indépendants si et seulement si pour tout 2 ≤ k ≤ n, 1 ≤ i1 < i2 < . . . < ik ≤ n,

P[Ai1 ∩ Ai2 ∩ . . . ∩ Aik ] = P[Ai1 ] P[Ai2 ] . . . P[Aik ].

Indépendance conditionnelle Deux événements A et B sont conditionnellement indépendants par

1.4 Analyse combinatoire

2. Un k-arrangement avec répétition de Ω, où k est un entier naturel, est un k-uplet d’éléments

4. Une k-combinaison avec répétition de Ω, où k est un entier naturel, est un multi-ensemble de

pour tout n ∈ N. De façon générale, pour tout x1 , x2 , . . . , xm ∈ R et pour tout n ∈ N,

2. Pour tout n1 , n2 ∈ N et pour tout k ∈ N tel que k ≤ n1 + n2 ,

5. Un ingénieur est abonné à deux services indépendants de courrier électronique. La probabilité

a) Quelle est la probabilité que la particule ne visite pas le point 3 ?

a) Quelle est la probabilité que le système fonctionne ?

FX (x) := P[X ≤ x].

Théorème 5. Si a < b, alors P[a < X ≤ b] = FX (b) − FX (a).

Démonstration. Notons d’abord que {X ≤ b} = {X ≤ a} ∪ {a < X ≤ b}. Alors

P[X ≤ b] = P[X ≤ a] + P[a < X ≤ b] ⇒ FX (b) = FX (a) + P[a < X ≤ b].

Exemple 11. Soit 

Calculer P[0 < X ≤ 1/2] + P[X = 1].

Fonction de répartition conditionnelle Soit A un événement décrit sous la forme X ∈ AX ⊆ SX .

2.2 Variable aléatoire discrète

pX (x) := P[X = x].

La fonction de répartition de X est alors donnée par

3. Si A est un événement décrit sous la forme X ∈ AX ⊆ SX alors

Fonction de masse conditionnelle Soit A un événement décrit sous la forme X ∈ AX ⊆ SX . On

2.3 Variable aléatoire continue

où δ(·) est la distribution de Dirac.

Fonction de densité conditionnelle Soit A un événement décrit sous la forme X ∈ AX ⊆ SX . On

2.4 Huit lois de probabilité

Théorème 7. Soit un réel λ > 0. Pour tout naturel k,

2.4.2 Lois continues

Figure 2.1 – Quatre lois discrètes

Dans ce cas, P[X > x] = P[Y ≤ n − 1], où Y ∼ Poi(λx).

Table 2.1 – Valeurs de Φ(z)

Figure 2.2 – Quatre lois continues

2.5 Transformation d’une variable aléatoire

où pX est la fonction de masse de X.

où fX est la fonction de densité de X. De plus, si g est une fonction monotone, alors

où g −1 est la fonction inverse de g.

où X ∼ N(0, 1). Calculer pY .

2.6 Caractéristiques d’une variable aléatoire

• X est une variable continue :