Poly SMIA (S3) Probabilté (2021-2022)

Université Moulay Ismail
Faculté des Sciences

Département de Mathématiques
Support du cours sur le

calcul des probabilités
Filière: SMIA
Semestre III
Réalisé par: J. H’michane et M. Zitane
Année Universitaire 2021-2022

TABLE DES MATIÈRES
1 Dénombrement et analyse combinatoire 2
2 Notions de probabilité 9
1
CHAPITRE 1
DÉNOMBREMENT ET ANALYSE
COMBINATOIRE
1. Ensemble fini
Définition
Un ensemble E est dit fini s’il est vide ou si, pour un certain n ∈ N∗ , il existe une bijection de
l’ensemble {1, 2, ..., n} sur E. Dans le cas contraire, E est dit infini.
Si E est fini non vide, l’entier n précédent est unique et appelé cardinal de E (nombre d’élé-
ments de E), et noté card(E) (ou |E| ou #E).
Par convention, card(∅) = 0.
Exemple 1. Pour tout m, n ∈ Z tel que m ≤ n, on a card({m, m + 1, ..., n}) = n − m + 1. En effet,

La fonction k 7−→ k + m − 1 est bijective de {1, 2, ..., n − m + 1} sur {m, m + 1, ..., n}.
Théorème
Soient E et F deux ensembles. Si E est fini et s’il existe une bijection de E sur F , alors F est
fini et on a : card(E) = card(F ).
Démonstration. Soit E un ensemble non vide et fini. Alors, il existe une bijection f de {1, 2, ..., card(E)}
sur E. Si g est une bijection de E sur un ensemble F , alors g◦f est une bijection de {1, 2, ..., card(E)}
sur F , et donc F est fini et on a card(E) = card(F ).
Théorème
Soient E un ensemble fini et A une partie de E. Alors, A est fini et on a : card(A) ≤ card(F )
avec égalité si, et seulement si, A = E.
2
CHAPITRE 1. DÉNOMBREMENT ET ANALYSE COMBINATOIRE
Remarque 1. Pour montrer que deux ensemble A et B sont égaux, on peut se contenter de montrer
que : A ⊂ B et card(A) = card(B) au lieu de montrer que A ⊂ B et B ⊂ A.
Théorème
Soient E et F deux ensemble et f : E −→ F une application.
• Si f est injective et F est fini, alors E est fini et on a card(E) ≤ card(F ), avec égalité si, et
seulement si, f est bijective.
• Si f est surjective et E est fini, alors F est fini et on a card(F ) ≤ card(E), avec égalité si,
et seulement si, f est bijective.
• Si E et F sont fini de même cardinal, alors :
f bijective ⇔ f injective ⇔ f surjective.
Dans la suite de ce chapitre, on note par ∪ une réunion quelconque et par t une réunion disjoint.
Théorème
Soient A et B deux ensembles finis.
• Réunion : card(A ∪ B) = card(A) + card(B) − card(A ∩ B). En particulier, si A et B sont
désjoints, alors card(A ∪ B) = card(A) + card(B).
Plus généralement, si (Ai )1≤i≤n une famille d’ensembles finis deux à deux disjoints, alors
k=n
G n
X
card( Ak ) = Ak .
k=1 k=1
• Différence : card(A \ B) = card(A) − card(A ∩ B). En particulier, si B ⊂ A alors
card(A \ B) = card(A) − card(B).
Lorsque les ensembles A1 , A2 , ..., An sonr disjoints de même cardinal p, alors

k=n
G n
X
card( Ak ) = Ak = np (cette dérnière formule porte le nom "Principe des bergers".
k=1 k=1
2. Calcul du dénombrement
Dénombrer, c’est compter le nombre d’éléments que contient un ensemble fini, c’est à dire en
déterminer le cardinal.
Le dénombrement s’emploie à étudier et à dénombrer divers types de groupements que l’on peut
faire à partir d’ensembles finis. Il est né de l’étude des jeux de hasard et s’est fortement développé
sous l’influence du calcul des probabilités.
2.1. Principes du dénombrement
Principe de bergers : Ce principe dit qu’un berger qui possède n moutons possède aussi 4n
pattes de moutons.
3
Comment utiliserons ce principe ? Qaund un problème de dénombrement a été décomposé intellec-

tuellement en deux sous-problème avec n choix possible pour l’étape 1 et p choix possibles pour
chacun de ces choix dans l’étape 2, alors le problème complet offre np choix.
Exemple 2. Dans [[0, n]] il y a n(n − 1) couples (x, y) pour lesquels x 6= y. En effet,
Construire un tel couple, c’est par exemple choisir x, puis choisir y. Il y a n valeurs possibles de x
et, pour chacune de ces valeurs, il y a n − 1 valeurs restants pour y. Donc, en tout il y a n(n − 1)
couples possibles.
Exemple 3. À partir d’un alphabet de p lettres, on peut former p(p − 1)n−1 mots de n lettres qui
ne contiennent jamais deux lettres identiques consécutives. En effet,
Pour la première lettre, il y a p possibilités. Mais pour chacune des suivantes, on n’a plus que p − 1
choix possible si on veut bien sur éviter que deux lettres consécutives soient identiques. D’où un
total de p(p − 1)n−1 mots.
Principe des tiroirs : Si vous avez n tiroirs à disposition pour y ranger n + k objets, alors
certains tiroirs contiendront plus d’un objet.
Exemple 4. Dans une classe de 20 étudiants, peut-on trouver deux personnes qui sont nées le même
mois (pas forcément de la même année) ?.
Ici, les tiroirs représentent les mois de l’année et les objets les étudiants. Seuls 12 étudiants peuvent
avoir des dates de naissance différentes.
Exercice :
On jette 51 miettes sur une table carrée de 1 m de côté. Montrez qu’il y a toujours au moins
un triangle formé de 3 miettes dont l’aire vaut au plus 200 cm 2.
2.2. p-uplet (p-liste)
Théorème : Cardinal d’un produit cartésien

Soint (Ai )1≤i≤n une famille d’ensembles finis, alors
card(A1 × A2 × ... × An ) = card(A1 ) × card(A2 ) × ... × card(An ).
En particulier, card(An ) = (card(A))n .
Contruire un élément du produit A1 × A2 × ... × An , c’est choisir d’abord un élément de A1 puis

un élément de A2 .....et enfin un élément de An , donc le nombre des choix total est card(A1 ) ×
card(A2 ) × ... × card(An ).
Définition
On appelle p − uplet d’un ensemble E, tout élément de E p (c’est à dire, toute famille de p
éléments de E).
4
Si on pose n = card(E), alors d’après le théorème précédent il existe np p − uplet de E.

Dans une liste, l’ordre des éléments compte car une liste n’est jamais un ensemble (et même pas
une famille), un même élément peut figurer plusieurs fois dans une liste.
On utilise les listes pour modéliser les tirages successifs avec remise (car les répétitions sont
autorisées).
Exemple 5. Dans une jeux de 52 cartes, le nombre de façons qu’on peut tirer 4 cartes successives
avec remise est 524 .
Exercice 1. Combien y a-t-il de mots de 6 lettres contenant le mot «OU» (pas forcément a un
sens).
Théorème : Nombre d’applications entre deux ensembles finis

Soint E et F deux ensembles finis. On a alors,
card(F(E, F )) = card(F )card(E) ,
où F(E, F ) est l’ensemble des applications de E dans F qui est noté aussi pat F E .
Démonstration. Pour construire une application quelconque f de l’ensemble E = {e1 , e2 , ..., ep }

dans F , on peut choisir une valeur pour f (e1 ) (soit card(F ) possibilité), puis une pour f (e2 ) (aussi
card(F ) possibilité)...et enfin une valeur pour f (ep ) (de card(F ) possibilité). D’où le nombre total
des choix est une p − liste de l’ensemble F , ainssi card(F(E, F )) = card(F )p .
2.3. Arrangement
2.3.1. Arrangement simple
Définition
Un p-arrangement est une collection de p objets pris successivement parmi n en tenant
compte de l’ordre d’apparition. Il est dit simple si on ne peut prendre chaque objet qu’une fois
au plus.
Le premier élément peut être choisi de n façons différents, le deuxième peut prendre (n − 1) valeurs,
le troisième (n − 2) valeurs et le p-ième élément (n − p + 1) valeurs. Ainsi, le nombre d’arrangements
simples est :
n!
n × (n − 1) × (n − 2) × ... × (n − p + 1) = := Apn .
(n − p)!
Exemple 6. Après les prolongations d’un match de football, l’entraîneur doit choisir les 5 tireurs
de penaltys parmi les onze joueurs et l’ordre de passage. Combien de choix a-t-il ?
5
Proposition : Nombre d’injections

• Il y a Apn injections d’un ensemble à p éléments dans un ensemble à n éléments.
• Il y a Ann = n! bijections de E dans F où card(E) = card(F ) = n.
Démonstration. • Pour construire une application injective f de l’ensemble E = {e1 , e2 , ..., ep } dans
F avec card(F ) = n, on peut choisir une valeur pour f (e1 ) (soit n possibilité), puis une pour
f (e2 ) qui est différente de f (e1 ) ( n − 1 possibilité)...et enfin une valeur pour f (ep ) qui est
différente des valeurs déja choisies (n − p + 1 possibilité). D’où le nombre total des choix est :
n × (n − 1) × (n − 2) × ... × (n − p + 1) = Apn .
• Dans ce cas, le nombre de bijections égale au nombre d’injections de E dans F et donc égale
Ann = n!.
2.3.2. Arrangement avec répétitions
Si les répétitions sont permises dans une arrangement, alors tous les éléments peuvent prendre
n valeurs. On ait donc en train de chercher le nombre des p − uplet qui égale :
np pssibilité.
Exemple 7. • Le nombre de numéros de téléphone composés de 9 chiffres est : 109 .

• Le nombre de mots composés de 4 lettres est : 264 .
2.4. Permutations
2.4.1. Permutations simple
Définition
Tout classement ordonné de n éléments distincts est une permutation de ces n éléments.
On peut voir une permutation de n éléments distincts (ensemble E) comme une bijection de E sur
lui même. L’ensemble des pesmutations de E est appelé groupe symétrique de E.
Le nombre de permutations de n éléments peut être calculé de la façon suivante : il y a n places
possibles pour un premier élément, n − 1 pour un deuxième élément,..., et il ne restera qu’une place
pour le dernier élément restant. Donc, il y a n × (n − 1) × (n − 2) × ... × 2 × 1 = n! permutations
possibles.
Exemple 8. Les nombre de permutations possibles des quatre chiffres 1, 2, 3 et 4 est égale à 4! = 24
et elles sont :
1234, 1243, 1324, 1342, 1423, 1432, 2134, 2143, 2314, 2341, 2413, 2431
3124, 3142, 3214, 3241, 3412, 3421, 4123, 4132, 4213, 4231, 4312, 4321.
6
2.4.2. Permutations avec répétitions
Le nombre de permutations que l’on peut constituer si certains des éléments sont identiques est
plus petit que si tous les éléments sont distincts. Lorsque seuls k éléments sont distincts (k ≤ n),
chacun d’eux apparaissant n1 , n2 , ..., nk fois, avec n1 + n2 + ... + nk = n et ni ≥ 1, on a donc :
n!
possibilité.
n1 ! × n2 ! × ... × nk !
4!
Exemple 9. • Pour l’ensemble des éléments a,a,b,c il y a = 12 permutations possibles.
1! × 2! × 1!
7!
• Avec les lettres du verbe «répéter» on peut former = 420 anagrammes.
3! × 2! × 1! × 1!
2.5. Combinaisons
2.5.1. Combinaisons simple
Définition
Une combinaison est une collection de p objets pris simultanément parmi n, donc sans tenir
compte de l’ordre d’apparition. Elle est dite simple si on ne peut prendre chaque objet qu’une
fois au plus.
Ap
!
n
Le nombre de combinaisons de p éléments choisis parmi n est noté Cnp ou , et on a Cnp = n .
p p!
En effet,
Si l’on permute les éléments de chaque combinaison simple, on obtient tous les arrangements simples.
Il y a donc p! fois plus d’arrangements que de combinaisons, ce qui s’écrit : Apn = p! × Cnp .
Exemple 10. Une urne contient 9 boules dont 4 verts et 5 blanches. On tire simultanément et au
hasard 3 boules de l’urne, donc le nombre des cas possibles est une combinaison de 3 parmis 9, c’est
9!
à dire : C93 = = 504.
3! × (9 − 3)!
2.5.2. Combinaisons avec répétitions
Si les répétitions sont permises, le nombre de combinaisons de p éléments choisis parmi n est :
p (n + p − 1)!
Cn+p−1 = .
p! × (n − 1)!
Exemple 11. Le nombre de combinaisons avec répétitions de 4 chiffres choisies parmi les chiffres
{0, 1, ..., 9} est :
4 (10 + 4 − 1)!
C10+4−1 = = 715.
(10 − 1)! × 4!
7
3. Coefficients binomiaux
Triangle de Pascal : Le triangle de Pascal se construit ligne par ligne : chaque terme est
l’addition des deux nombres de la ligne supérieure qui lui sont adjacents.
p=0
n=0 1 p=1
n=1 1 1 p=2
n=2 1 2 1 p=3
n=3 1 3 3 1 p=4
n=4 1 4 6 4 1 p=5
n=5 1 5 10 10 5 1 p=6
n=6 1 6 15 20 15 6 1
. . . . . . . . . .
. . . . . . . . . .
. . . . . . . . . .
Ce triangle permet de déterminer les coefficients binomiaux sans connaître la formule. Par exemple,
le nombre C63 se lit à l’intersection de la ligne n = 6 et de la diagonale p = 3, donc C63 = 20.
Proposition : Binôme de Newton

n
(a + b)n = Cnk ak · bn−k
X
k=0
À l’aide du triangle de Pascal on peut tirer les propriétés suivantes :

m−1
p+1
Cn0 Cnn Cnn−p Cnp , Cnp Cnp+1 n n+1
X
= = 1, = + = Cn+1 et Cn+k = Cn+m .
k=0
Théorème : Nombre de parties d’un ensemble

Soit E un ensemble fini de cardinal n ∈ N∗ , alors :
card(P(E)) = 2n .
Démonstration. Posons n = card(E). Pour tout p ∈ [[0, n]], en notant par Pp (E) l’ensemble des
combinaisons de p éléments de E. On a card(Pp (E)) = Cnp . Comme P(E) est la réunion disjointe
des ensembles P0 (E), P1 (E),...,Pn (E). Alors,
n n n
Cnp = 2n
G X X
card(P(E)) = card( )Pp (E) = card(Pp (E)) =
p=0 p=0 p=0
8
CHAPITRE 2
NOTIONS DE PROBABILITÉ
I. Le langage des probabilité
1. Expérience aléatoire
Définition
On appelle expérience aléatoire une expérience qui, reproduite dans des conditions identique,
Peut conduire à plusieurs résultats possibles, et dont on ne peut prévoir le résultat par avance.
c’est-à-dire toute expérience entraînant des résultats qui dépendent du hasard.
L’espace de tous les résultats possibles est appelé espace d’État ( où l’Univers) associé à l’expérience,
il sera noté par Ω.
Un résultat possible de l’expérience est appelé épreuve et est noté classiquement par ω.
Les jeux de hasard, tels pile ou face, lancer d’un dé, jeux de cartes, loterie, fournissent des
exemples d’expériences aléatoires pour lesquelles Ω est fini, mais Ω peut être un espace plus com-
pliqué.
Exemple 12. "Lancé d’un dé régulier" est une expérience aléatoire avec : Ω = {1, 2, 3, 4, 5, 6}.
ω = {1} est un résultat possible de cette expérience.
Exemple 13. "Lancé de deux pièces de monnaie" est une expérience aléatoire avec :
— Ω = {(P, P ), (P, F ), (F, P ), (F, F )}.
— ω = {(P, F )} est un résultat possible.
Exemple 14. "Durée de vie d’un produit éléctrique" est une expérience aléatoire avec :
— Ω = [0, +∞[.
— t = 2000h est un résultat possible.
Exemple 15. "Temps de passage des voyageurs à un guichet" est une expérience aléatoire avec :
Ω = (R+ )N .
9
CHAPITRE 2. NOTIONS DE PROBABILITÉ
Exemple 16. "L’observation d’un prix d’actif financier sur un intervalle de temps [t1 , t2 ]" est une
expérience aléatoire avec :
Ω = C([t1 , t2 ], R+ ).
La difficulté vient du fait qu’il est possible, pour une même expérience aléatoir, de définir plu-
sieurs univers, suivant ce que l’on entend par le terme «résultat possible». Par exemple, pour le
lancer d’un fléchette sur une cible circulaire, on peut considérer comme résultats possible le point
d’impact, dans ce cas Ω = R2 , après avoir muni le plan d’un repère, ou la trajectoire suivi par la
fléchette, et dans ce cas la Ω = C([0, 1], R3 ).
Remarque 2. Si on répète la même expérience d’univers Ω, on pourra choisir comme univers Ωn

dans le cas de n répétition, et ΩN si on la répète indéfiniment.
2. Événements aléatoires
Définition
Nous appelons événement aléatoire associé à l’expérience, un sous-ensemble de Ω qui peut ou
non se réaliser suivant l’issue de l’expérience.
Exemple 17. Si l’expérience consiste en un lancer d’un dé ; A :«le lancer est impair» est un
événement aléatoire.
Exemple 18. Si l’expérience consiste en un lancer de deux pièces de monnaie ; A :«on obtient
deux Faces» est un événement aléatoire.
Exemple 19. Si l’on s’intéresse au prix d’un actif financier sur le temps [t1 , t2 ] ; l’ensemble A :«le
prix est inférieur au seuil α» est un événement aléatoire.
• Réalisation d’un événement :

Soit A un événement de l’unvers Ω et soit ω le résultat de l’expérience. Alors, A se réalise si
et seulement si ω ∈ A.
— L’événement A = Ω est l’événement certain (tous les résultats de l’expérience prennent
leurs valeurs dans Ω), A = Ω se réalise toujours.
— A = ∅ est l’événement impossible. Il ne se réalise jamais.
— A = {ω} s’appelle événement élémentaire.
• Opérations sur les événements :
♦ Complémentaire (contraire) de A : est un événement constitué des résultats élémen-

taires de Ω qui ne sont pas dans A.
X A = {ω ∈ Ω, ω ∈
/ A}
X A se réalise si et seulement si A ne se réalise pas.
♦ Réunion de A et B : est un événement constitué des résultats élémentaires de Ω qui
appartiennent à A ou B ou aux deux.
X A ∪ B = {ω ∈ Ω, ω ∈ A ou ω ∈ B}.
10
X A ∪ B se séalise si et seulement si A se réalise ou B se réalise.

♦ Intersection de A et B : est un événement constitué des résultats élémentaires de Ω
qui appartiennent à la fois à A et à B.
X A ∩ B = {ω ∈ Ω, ω ∈ A et ω ∈ B}.
X A ∩ B se séalise si et seulement si A et B se réalisent.
♦ Inclusion : l’événement A est inclus dans l’événement B si et seulement si tout élément
de A appartient à B.
X A ⊂ B ⇔ (ω ∈ A ⇒ ω ∈ B).
X si A est réalisé, alors B est réalisé.
♦ Incompatibilité (Disjonction) : A et B sont incompatible si et seulement si A et B
n’ont pas d’éléments communs (A ∩ B = ∅).
♦ Système complet d’événements : Soit (Ai )i∈I une famille d’événements. On dit que
la famille (Ai )i∈I constitue un système complet d’événements, si ils forment une partition
de Ω. C’est-à-dire, si
G
Ai ∩ Aj = ∅ pour tout i 6= j et Ai = Ω.
i∈I
Notation 1. Nous notons par A l’ensemble de tous les événements. Il modélise l’information
qui peut être obtenue à partir des résultats de l’expérience.
Remarque 3. Pour que la modélisation soit cohérente avec l’intuition, A doit être stable par
les opérations ensemblistes si-dessus :
si A, B ∈ A, alors A ∪ B ∈ A, A ∩ B ∈ A, A ∈ A aussi Ω ∈ A et ∅ ∈ A (A est dit une tribu
ou σ-algèbre).
• Correspondances entre opérations ensemblistes et événements aléatoires :
Terminologie probabiliste Terminologie ensembliste Notation
événement certain ensemble tout entier Ω
événement impossible ensemble vide ∅
événement élémentaire singleton {ω}
événement contraire de A complémentaire de A A ou Ac
A ou B réunion de A et B A∪B
A et B intersection de A et B A∩B
A implique B A inclus dans B A⊂B
A et B incompatible A et B disjoints A∩B =∅
ω réalise A ω appartient à A ω∈A
II. Définition générale des probabilités
1. Ensembles dénombrables :
11
Définition
Un ensemble E est dit dénombrable s’il est en bijection avec N, c’est-à-dire si ses points peuvent
être énumérotés en une suite (xn )n∈N .
Exemple 20. — Les ensembles N, Z et Q sont des ensembles dénombrables.

∗
— Les ensembles E = {0, 1}N , R et [a, b] (a < b) ne sont pas dénombrables.
Propriétés
Tout ensemble dénombrable est infini. Mes la réciproque est fausse.
Toute partie d’un ensemble dénombrable est elle-même finie ou dénombrable.
La réunion d’une famille finie ou dénombrable d’ensembles eux-même fini ou dénom-
brable.
Si A n’est ni fini, ni dénombrable, il en est de même de A\B, pour tout B ⊂ A qui est
fini ou dénombrable.
2. Tribu :
Définition
La classe A ⊂ P(Ω) est dite une tribu (ou σ-algèbre) si elle vérifie les assertions suivantes :
. ∅ ∈ A et Ω ∈ A.
. A est stable par complémentaire : A ∈ A =⇒ A ∈ A.
. A est stable par réunion et intersection dénombrable : (An )n∈N une suite d’éléments de
[ \
A implique que An et An sont dans A.
n∈N n∈N
On dit que (Ω, A) est un espace probabilisable (mesurable dans le langage de la théorie des
mesures).
Exemples 21. • A = {∅, Ω} est la tribu grossière (triviale). C’est la plus petite tribu de Ω
(au sense de l’inclusion).
• A = P(Ω) est la tribu discrète (des parties). C’est la plus grande tribu de Ω.
• Si Ω = {a, b, c, d} alors A = {∅, {a}, {b, c, d}, Ω} est une tribu.
Définition
Si G ⊂ P(Ω), on appelle tribu engendrée par G et on la note par T (G), la plus petite tribu
contenant G. Elle existe toujours, car d’une part P(Ω) est une tribu contenant G, et d’autre
part l’intersection d’une famille quelconque de tribus est une tribu. Ainsi, la tribu engendrée
par G est l’intersection de toutes les tribus contenant G.
12
Exemples 22. • La tribu engendrée par un événement A est T (A) = {∅, A, A, Ω}.
• Tribu des borélienne B. C’est la tribu engendrée par la classe des intervalles ouverts de R.
— Lorsque Ω = R, BR = {] − ∞, a], a ∈ Q(ouR)} = {]x, y[, x, y ∈ R}.
— Lorsque Ω = I intervalle de R, BI = {]a, b[, a < b, (a, b) ∈ I 2 }.
• Si F est constitué d’un nombre fini ou dénombrable d’événements (An )n∈N , qui forment une
partition de Ω, la tribu engendrée par F est exactement l’ensemble des réunions quelconques
d’événement An . Par exemple, si F = {A, A}, alors T (F) = {∅, Ω, A, A}.
• Choix d’une tribu : Se fait en fonction de l’information qu’on a sur l’expérience.

— Si Ω est fini ou dénombrable, nous choisisons systématiquement la tribu A = P(Ω).
— Si Ω = R, nous choisisons la tribu A = BR .
— Si Ω = I intervalle de R, nous choisisons la tribu A = BI .
3. Définition d’une probabilité :
Nous cherchons à définir, pour un ensemble possible de réalisations de l’expérience A ∈ A,

la vraisemblance accordée a priori à A. Il s’agit donc d’affecter à chaque événement A un poids
P(A) compris entre 0 et 1, qui représente la chance que cet événement soit réalisé si l’on effectue
l’expérience aléatoire.
Définition
Etant donné un espace probabilisable (Ω, A), on appelle probabilité (dite aussi mesure de
probabilité) sur (Ω, A) toute application P : A −→ [0, 1] satisfaisant aux axiomes suivants :
. P(Ω) = 1 (totalité).
. Pour toute suite (An )n d’éléments de A deux-à deux disjoints, on a :
[ X
P( An ) = P(An ) (σ − additivité).
n n
Remarque 4. Avec le vocabulaire de la théorie de la mesure, P est une mesure positive finie, de
masse totale égale à 1. Le cadre dans lequel nous travaillons est mathématiquement développé par
le théorie de mesure.
Dans la modélisation d’une phénomène aléatoire, la tribu représente un ensemble de parties de

Ω dont on va pouvoir mesurer la chance de réalisation. C’est pour un élément A de cette tribu que
nous allons être capable de définir sa probabilité de réalisation P(A), tandis que P(A) n’aura pas de
sens dès lors que A n’appartient pas à la tribu A. Donc, la tribu modélise l’information que nous
donne cette expérience.
Définition : Modèle de probabilité (Kolmogorov 1933)

On appelle le triplet (Ω, A, P) un espace de probabilité (espace probabilisé). C’est un espace
mesuré dans le langage de la théorie de la mesure.
13
La modélisation probabiliste consiste donc à décrire une expérience aléatoire par la donnée d’un
espace de probabilité.
Définition
Soit (Ω, A, P) un espace de probabilité.
— Si P(A) = 0, on dit que A est P-négligeable (A est un événement presque impossible).
— Si P(A) = 1, on dit que A est P-presque-sûrement (A est presque certain).
Propriétés
Toute probabilité P possède les propriétés suivantes :
1) P(∅) = 0.
2) ∀(A, B) ∈ A2 , A ⊂ B ⇒ P(A) ≤ P(B).
3) ∀A ∈ A, P(A) = 1 − P(A).
4) Fromule de Poincaré : ∀(A1 , A2 , ..., An ) ∈ An ,
n n
(−1)k−1 pk ,
[ X
P( Ai ) =
i=1 k=1
X
où pk = P(Ai1 ∩ Ai2 ∩ ... ∩ Aik ).
1≤i1 <i2 <...<ik ≤n
En particulier,
P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
et
P(A ∪ B ∪ C) = P(A) + P(B) + P(C) − P(A ∩ B) − P(A ∩ C) − P(B ∩ C) + P(A ∩ B ∩ C).
5) Si (Ai )i∈N est une suite croissante d’événement, alors la suite des réels (P(Ai ))i∈N est
croissante, et on a :
∞
[
lim P (An ) = P ( Ai ).
n−→+∞
i=1
6) Si (Ai )i∈N est une suite décroissante d’événement, alors la suite des réels (P(Ai ))i∈N est
décroissante, et on a :
∞
\
lim P (An ) = P ( Ai ).
n−→+∞
i=1
7) Si (Ai )i∈N est une famille finie ou dénombrable d’événements, alors on a :

[ X
P( Ai ) ≤ P(Ai ).
i∈N i∈N
Démonstration :
1). On utilise l’additivité de P. On a P(Ω ∪ ∅) = P(Ω) + P(∅) et donc P(∅) = 0.
2). On a A ⊂ B ⇒ B = (B ∩ A) ∪ A,
d’où : P(B) = P(B ∩ A) + P(A) (car B ∩ A et A sont disjoints)
⇒ P(B) − P(A) = P(B ∩ A) ≥ 0 (car P est positive)
⇒ P(B) ≥ P(A).
3). On a A ∪ A = Ω ⇒ P(A) + P(A) = 1.
14
4). On démontre la formule par récurrence sur n.

n n
Soit Pn la propriété : ∀(A1 , A2 , ..., An ) ∈ An , P( (−1)k−1 pk .
[ X
Ai ) =
i=1 k=1
∗ Initiation : Pour n = 1. Il est claire que P1 est vraie.
Pour n = 2. On a A1 ∪ A2 = A1 ∪ (A2 ∩ A1 ) (union disjointe)
⇒ P(A1 ∪ A2 ) = P(A1 ) + P(A2 ∩ A1 ),
d’autre part : A2 = (A2 ∩ A1 ) ∪ (A2 ∩ A1 ) (union disjointe)
⇒ P(A2 ) = P(A2 ∩ A1 ) + P(A2 ∩ A1 )
d’où P(A1 ∪ A2 ) = P(A1 ) + P(A2 ) − P(A2 ∩ A1 ).
∗ Hérédité : On démontre que : ∀n ∈ N, Pn ⇒ Pn+1 .
n+1
[ n
[ n
[
On a Ai = ( Ai ) ∪ (An+1 ∩ Ai ) (union disjointe),
i=1 i=1 i=1
n+1
[ n
[ n
[
⇒ P( Ai ) = P( Ai ) + P(An+1 ∩ Ai ).
i=1 i=1 i=1
n
[ [n
Or An+1 = (An+1 ∩ Ai ) ∪ (An+1 ∩ Ai ) (union disjointe),
i=1 i=1
n+1
[ n
[ n
[
alors P( Ai ) = P( Ai ) + P(An+1 ) − P(An+1 ∩ ( Ai )) ; d’autre part :
i=1 i=1 i=1
n n n
0
(−1)k−1 pk
[ [ X
P(An+1 ∩ ( Ai )) = P( (Ai ∩ An+1 )) =
i=1 i=1 k=1
0 X
où pk = P(Ai1 ∩ Ai2 ∩ ... ∩ Aik ∩ An+1 ).
1≤i1 <i2 <...<ik ≤n
Donc :
n+1 n n
0
(−1)k−1 pk
[ [ X
P( Ai ) = P( Ai ) + P(An+1 ) −
i=1 i=1 k=1
n n
0
(−1)k−1 pk − (−1)k−1 pk
X X
= P(An+1 ) +
k=1 k=1
X X
= P(An+1 ) + P(Ai ) − P(Ai1 ∩ Ai2 ) + .... +
1≤i≤n 1≤i1 <i2 ≤n
(−1)k−1
X
P(Ai1 ∩ Ai2 ∩ ... ∩ Aik ) + ... +
1≤i1 <i2 <...<ik ≤n
n
(−1)n−1 P(Ai1 ∩ Ai2 ∩ ... ∩ Aik ∩ An ) −
X
P(Ai ∩ An+1 ) +
i=1
P(Ai1 ∩ Ai2 ∩ An+1 ) + (−1)k

X X
P(Ai1 ∩ Ai2 ∩ ... ∩ Aik ∩ An+1 ) +
1≤i1 <i2 ≤n 1≤i1 <i2 <...<ik ≤n
... + (−1)n P(A1 ∩ A2 ∩ ... ∩ An ∩ An+1 ).
n+1
(−1)k−1 pk .
X
=
k=1
5). Il est claire que la suite (P(An ))n∈N est croissante et majorée par 1, donc elle est convergente et
sa limite est inférieure ou égale à 1.
n
[
Puisque la suite (An ))n∈N est croissante, alors pour tout n ∈ N on a : Ai = An .
i=0
On définit une suite d’événements (Bi )i∈N par :
B0 = A0 et ∀i ≥ 1, Bi = Ai \ Ai−1 = Ai ∩ Ai−1 .
n
[ n
[
On a donc : ∀n ≥ 0, Ai = Bi (facile à vérifier).
i=0 i=0
15
Grâce au σ-additivité de P, on en déduit que :

∞
[ ∞
[ ∞
X
P( Ai ) = P( Bi ) = P(Bi )
i=0 i=0 i=0
n
X
= lim P(Bi )
n−→+∞
i=0
n
[
= lim P( Bi )
n−→+∞
i=0
[n
= lim P( Ai )
n−→+∞
i=0
= lim P(An ).
n−→+∞
6). Les mêmes démarches de la propriété précédente (il suffit de passer au complémentaire).
7). Nous traiterons les deux cas séparément.
Si I est fini. Alors, il s’agit de montrer que pour tout k entier,
P(A1 ∪ A2 ∪ ... ∪ Ak ) ≤ P(A1 ) + P(A2 ) + ...P(Ak ).
Nous montrons cette propriété par récurrence sur k :

∗ Initiation : Évidente.
∗ Hérédité : Supposons que la propriété est vraie pour k − 1, avac k ≥ 2, et montrons qu’elle
est vraie pour k.
Posons E = A1 ∪ A2 ∪ ... ∪ Ak−1 et F = E ∪ Ak . En vertu de la propriété (4), nous avons :
P (E ∪ Ak ) + P (E ∩ Ak ) = P (E) + P (Ak ) = P(E) + P(Ak )

⇒ P(F ) ≤ P(E) + P(Ak )
⇒ P(A1 ∪ A2 ∪ ... ∪ Ak ) ≤ P(A1 ) + P(A2 ) + ...P(Ak ).
d’où, la propriété est vraie pour k.

Si maintenant I est dénombrable. Nous pouvons supposer que I = N∗ .
n
[ [
Posons Bn = Ai , qui croît vers l’ensemble C = An .
i=1 n∈N
D’aprés la première partie de la démonstration, nous avons
n
X
P(Bn ) ≤ P(Ai )
i=1
et d’aprés la propriété (5) on a

X
P(C) ≤ P(An ),
n∈I
[ X
d’où P( An ) ≤ P(An ).
n∈N n∈I
4. Probabilité sur un espace fini ou dénombrable :
On suppose que l’univers Ω est fini ou dénombrable. On note Ω = {ω1 , ω2 , ..., ωn , ...}, n ∈ N
(l’ensemble des resultats possibles).
16
— On définit la probabilité pi de chaque résultat élémentaire {ωi }, on obtient alors une suite
(pn )n de nombres tels que :
n
X
0 ≤ pi ≤ 1 et pi = 1.
i=1
X
— La probabilité d’un événement quelconque A est donné par : P(A) = pi
ωi ∈A
Proposition
Une probabilité sur un ensemble fini ou dénombrable est entièrement caractérisée par ses
valeurs sur les singletons.
n
X
Etant donnée une suite (pn )n de nombres réels tels que : 0 ≤ pi ≤ 1 et pi = 1, elle lui
i=1
correspond une unique probabilité P tels que pour tout A,
X X
P(A) = P({ωn }) = pn .
ωn ∈A ωn ∈A
Démonstration :
La démonstration du cas dénombrable est similaire a celle du cas fini. Nous traitons alors seulement
le cas d’un univers fini.
Posons Ω = {ω1 , ω2 , ..., ωn }. Soit P une probabilité sur Ω, et soit pω = P({ω}). Il est alors claire que
0 ≤ pω ≤ 1, de plus
[ X X
P(A) = P ( {ω}) = P({ω}) = p{ω} .
ω∈A ω∈A ω∈A
[ X n
X
D’autre part P(Ω) = P( {ω}) = P({ω}) ⇒ pi = 1.
ω∈Ω ω∈Ω i=1
n
X
Inversement, considérons n nombres (pi )1≤i≤n tels que 0 ≤ pi ≤ 1 et = 1. Nous posons P({ωi }) =
i=1
pi et pour tout A ⊂ Ω, nous définissons P(A) par :
X
P(A) = pω .
ω∈A
Vous pouvez vérifier facilement que P est une probabilité sur Ω.

θn
Exemple 23. Soit θ > 0 et pn = e−θ .
n!
X θn
pn = e−θ
X
On a 0 ≤ pn ≤ 1 (∀n ∈ N) et = 1,
n n n!
donc la suite (pn )n∈N définit une probabilité sur N, appelée loi de Poisson de paramétre θ.
Proposition
Soit Ω = {ω1 , ω2 , ..., ωn , ...} un ensemble dénombrable et soit P une probabilité définie sur Ω,
et pn = P({ωn }).
Alors, ∀A ∈ P(A), on a :
X
P(A) = pn δωn (A)
n
avec
 δω , appelée mesure de Dirac en ω, est définie de la manière suivante : ∀A ∈ P(A)
 δ (A) = 1, si ω ∈ A
ω
 δω (A) = 0, si ω ∈ / A.
17
X
La probabilité P peut donc s’écrire : P = pn δωn .
n
Probabilité uniforme : Un exemple important de probabilité sur un espace d’états Ω fini

est celui de la probabilité uniforme, pour laquelle chaque singleton ω ∈ Ω a la même chance de
réalisation.
Définition
On dit que la probabilité P sur un espace fini Ω est uniforme ( où équiprobable), si pω = P ({ω})
ne dépend pas de ω. Donc, pour tout ω ∈ Ω on a :
1
pω = .
card(Ω)
Ainsi, si A ⊂ P(Ω) un événement, alors :
card(A)
P(A) = .
card(Ω)
Remarque 5. — Le calcul d’une probabilité uniforme se ramène à des dénombrements (calcul

combinatoire).
— Sur un espace fini Ω, il existe une et une seule probabilité uniforme. Cette probabilité décrit
mathématiquement l’expression intuitive de "au hasard".
Exemple 24. On jette deux fois un dè non truqué et on note les deux numéros obtenus.
Soit B l’événement "la somme des deux numéros obtenus est 7".
On a B = {(1, 6); (2, 5); (3, 4); (6, 1); (5, 2); (4, 3)}, donc card(B) = 6.
1 1 1
D’autre part ∀(i, j) ∈ Ω2 , P {(i, j)} = 2 , donc P(B) = 6 × 2 = .
6 6 6
5. Conditionnement (Probabilité conditionnelle) :
Définition
Soit A et B deux événements avec P(B) > 0, alors on appelle probabilité conditionnelle de A
sachant B que l’on note P(A/B), le rapport
P(A ∩ B)
P(A/B) = .
P(B)
Remarque 6. L’application
P(./B) : A −→ [0, 1]
A 7−→ P(A/B)
définit une probabilité sur Ω, appelée probabilité conditionnelle sachant B.
18
Proposition
Si P(A) > 0 et P(B) > 0, alors : P(A/B) × P(B) = P(A ∩ B) = P(B/A) × P(A)
Proposition
Si A1 , A2 , ..., An sont des événements de Ω tels que P(A1 ∩ A2 ∩ ... ∩ An−1 ) > 0, alors :
n
\ n−1
\
P( Ai ) = P(A1 ) × P(A2 /A1 ) × P(A3 /A1 ∩ A2 ) × ... × P(An / Ai ).
i=1 i=1
Démonstration :
Nous montrons ce résultat par récurrence sur n.
∗ Initiation : Pour n = 2. On a P(A1 ∩ A2 ) = P(A1 ) × P(A2 /A1 ) (conditionnement)
∗ Hérédité : Supposons que la propriété est vraie pour n − 1 et montrons qu’elle est vraie pour
n.
n−1
\
Soit B = Ai . On a P(B ∩ An ) = P(B) × P(An /B),
i=1
n
\ n−1
\
donc P( Ai ) = P(A1 ) × P(A2 /A1 ) × ... × P(An / Ai ).
i=1 i=1
Proposition : Formule des probabilité totale

Soit (Ai )i∈N une partition finie ou dénombrable d’événements de Ω, telle que P(Ai ) > 0 pour
chaque i. Alors, ∀B ∈ A, on a :
X X
P(B) = P(B ∩ Ai ) = P(B/Ai ) × P(Ai ).
i∈N i∈N
Démonstration :
[
On a B = (B ∩ Ai ) et par hypothèse, les ensemble (B ∩ Ai ) sont deux-à-deux disjoints.
i∈N [ X X
Ainsi, P(B) = P( (B ∩ Ai )) = P(B ∩ Ai ) = P(Ai ) × P(B/Ai ).
i∈N i∈N i∈N
Proposition : Formule de Bayes

Soit (Ai )i∈N une partition finie ou dénombrable d’événements de Ω, telle que P(Ai ) > 0 pour
chaque i. Si P(B) > 0, alors :
P(B/Ai )P(Ai )
∀i ∈ N, P(Ai /B) = P .
j P(B/Aj )P(Aj )
Démonstration :
P(B ∩ Ai ) × P(Ai ) P(B ∩ Ai )P(Ai )
On a P(Ai /B) = =P .
P(B) j P(B ∩ Aj )P(Aj )
Application 1. Un individu est tiré au hasard dans une population où l’on trouve une proportion
10−5 du virus Covid-19. On lui fait passer un test de détection du virus Covid-19. Par ailleurs,
des expériences antérieures ont permis de savoir que les probabilités d’avoir un résultat positif lors
19
de l’application du test si l’individu est touché par le virus, ou s’il ne l’est pas, sont respectivement
égales à 0.99 (sensibilité du test) et à 0.001 (spécificité du test). Sachant que le test donne un résultat
positif, quelle est la probabilité pour que l’individu soit effectivement contaminé par le virus.
Solution : On considère les événements suivants :

A :«l’individu est contaminé par le virus» et B :«le test de détection donne un résultat positif».
On a P(A) = 10−5 ⇒ P (A) = 0.99999, d’autre part, P(B/A) = 0.99 et P(B/A) = 0.001 (donnés).
P(A ∩ B) P(B/A) × P(A)
Ainsi, P(A/B) = = ' 0.01
P(B) P(B/A) × P(A) + P(B/A) × P(A)
({A, A} est une partition de Ω).
Application 2. On considère une urne U1 contenant deux boules blanches et une boule noire, et
une urne U2 contenant une boule blanche et une boule noire. On choisit une urne au hasard puis on
prélève une boule dans cette urne. Les boules sont indisernables au toucher.
1. Quelle est la probabilité de tirer une boule blanche ?
2. Quelle est la probabilité que la boule soit extraite de l’urne U1 ?
Solution : 1). L’univers de cette expérience est : Ω = {(U1 , B1 ); (U1 , B2 ); (U1 , N1 ); (U2 , B3 ); (U2 , N2 )}.
On considère les événements : B :«la boule tirée est blanche», E1 :«la boule tirée est extraite de
l’urne U1 » et E2 :«la boule tirée est extraite de l’urne U2 ».
L’énoncé permet de définir les probabilité conditionnelle P(./E1 ) et P(./E2 ) par :
1
P((U1 , B1 )/E1 ) = P((U1 , B2 )/E1 ) = P((U1 , N1 )/E1 ) = et P((U2 , B3 )/E1 ) = P((U2 , N2 )/E1 ) = 0.
3
de même : P((U1 , B1 )/E2 ) = P((U1 , B2 )/E2 ) = P((U1 , N1 )/E2 ) = 0 et P((U2 , B3 )/E2 ) = P((U2 , N2 )/E2 ) =
1
.
3
D’aprés l’énoncé on a : P(E1 ) = P(E2 ), et comme la famille {E1 , E2 } forme une partition de Ω,
1
alors : P(E1 ) + P(E2 ) = 1 et donc P(E1 ) = P(E2 ) = .
2
Ainsi, ∀A ∈ P(Ω) on a : P (A) = P(A/E1 ) × P(E1 ) + P(A/E2 ) × P(E2 ) (Probabilité totale).
2 1 1 1 7
Donc, P (A) = P(B/E1 ) × P(E1 ) + P(B/E2 ) × P(E2 ) = × + × = .
3 2 2 2 12
Notons que la probabilité P ainsi définie n’est pas uniforme.
2). On applique la formule de Bayes. On trouve :
2
P(B/E1 ) × P(E1 ) × 12
3 4
P(E1 /B) = = 2 = .
P(B/E1 ) × P(E1 ) + P(B/E2 ) × P(E2 ) 3
× + 21 ×
1
2
1
2
7
5. Indépendance :
Définition
Deux événement A et B sont dits indépendants, relativement à la probabilité P, si
P(A ∩ B) = P(A) × P(B).
Intuitivement, deux événement A et B sont indépendants si le fait de savoir que A est réalisé ne
donne aucune information sur la réalisation de B et réciproquement.
Attention : Ne pas confondre indépendance avec incompatible, car dans ce dernier cas A∩B = ∅
et P(A ∩ B) = 0.
20
En conséquence, si P(B) > 0, alors A sera dit indépendant de B si :

P(A ∩ B)
P(A/B) = = P(A).
P(B)
Remarque 7. 1) La notion d’indépendance est une notion liée au chois de la probabilité P et n’est
pas une notion ensembliste.
2) Si P(A) > 0 et P(B) > 0, alors :
P(A ∩ B) = P(A) × P(B) ⇐⇒ P(A/B) = P(A) ⇐⇒ P(B/A) = P(B)
on dit que la notion d’indépendance est symétrique.
Exemple 25. On lance un dé rouge et un dé noire et on considère les événements suivants :
A : «le dé noire affiche 6» et B : «le dé rouge affiche 5».
L’espace d’état de cette expérience est : Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6}.
1
Les épreuves de cette expérience sont équiprobables : P ({ω}) = 2 .
6
Comme A = {6} × {1, 2, 3, 4, 5, 6} et B = {1, 2, 3, 4, 5, 6} × {5} et A ∩ B = {(6, 5)}, alors :
card(A) 6 1
P(A) = = 2 =
card(Ω) 6 6
card(B) 6 1
P(B) = = 2 =
card(Ω) 6 6
card(A ∩ B) 1
P(A ∩ B) = = 2
card(Ω) 6
et donc A et B sont indépendants.
Bien entendu, ce resultat est évédent, il n’y a pas d’influence d’un dé sur l’autre.
Proposition
A et B indépendants ⇐⇒ A et B indépendants
⇐⇒ A et B indépendants
⇐⇒ A et B indépendants.
Démonstration :
Exercice.
Indépendance mutuelle: Soit (An )n une suite d’événements d’u espace de probabilité (Ω, A, P).
Il y a lieu de distinguer l’indépendance deux-à-deux qui impose :
P(Ai ∩ Aj ) = P(Ai ) × P(Aj ), 1 ≤ i 6= j ≤ n
et l’indépendance mutuelle, condition plus forte qui s’écrit :
P(Ai1 ∩ Ai2 ∩ ...Aik ) = P(Ai1 ) × P(Ai2 ) × ... × P(Aik )
pour toute suite finie (i1 , i2 , ..., ik ) d’entiers deux-à-deux distincts.
La notion d’indépendance mutuelle est délicate. Par exemple, pour que la suite (A, B, C) soit in-
dépendante, la propriété doit être vérifiée pour toutes les intersections de deux ensembles et l’in-
tersection des trois ensembles. Il ne suffit pas d’avoir P(A ∩ B ∩ C) = P(A) × P(B) × P(C). En
effet, prenons un lancé de dé avec A = {1, 2, 3}, B = {2, 4, 6} et C = {1, 2, 4, 5}. Nous avons
1 1 2
P(A) = , P(B) = et P(C) = . Ainsi, nous avons bien P(A ∩ B ∩ C) = P(A) × P(B) × P(C)
2 2 3
mais P(A ∩ B) 6= P(A) × P(B) et donc A, B et C ne sont pas mutuellement indépendants.
21
VARIABLES ALÉATOIRES : GÉNÉRALITÉS
I. Variable aléatoire et loi de probabilité
1. Variable aléatoire
Une variable aléatoire est une application X dont la valeur dépend du résultat obtenu lors de
l’expérience aléatoire.
Soit (Ω, A, P) un espace de probabilité. Une variable aléatoire est donc une application
X : Ω −→ X(Ω)
ω 7−→ X(ω)
En pratique, l’ensemble X(Ω) pourra être un ensemble fini ou dénombrable ou R ou un intervalle

de R ou Rn ou l’espace C(I, R) des fonctions continues de I dans R.
Exemple 26. 1) On lance deux dés et on pose Ω = {1, 2, 3, 4, 5, 6}2 . L’application
X: Ω −→ X(Ω)
ω = (a, b) 7−→ a + b
est la variable aléatoire qui relie chaque résultat de l’expérience avec la somme des chifres obtenues.
Notons que X(Ω) = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}.
2) On lance une fléchette contre une cible et on pose Ω = R2 . La distance euclidienne du point
d’atteinte au centre de la cible est une variable aléatoire sur Ω.
X: Ω −→ X(Ω) = [0, r]
√
ω = (a, b) 7−→ a2 + b 2
où r est le rayon de la cible.
X(Ω) est un espace connu dans la pratique et il est simple à manipuler si on le compare avec Ω qui
est un espace souvent difficile à décrire (espace abstrait, lourd). Donc, il est naturel de s’intéresser
aux chances de réalisation des valeurs de X plutôt que de travailler sur l’espace (Ω, A, P) (c’est à
dire d’étudier les chances de réalisation des résultats de l’expérience).
22
Remarque 8. Soient (Ω, A, P) un espace de probabilité et X : Ω −→ X(Ω) une variable aléatoire

sur Ω.
Soit B ⊂ X(Ω). Pour que P(X −1 (B)) ait un sens, il est nécessaire que X −1 (B) ∈ A, où X −1 (B) =
{ω, X(ω) ∈ B} est l’image réciproque de B par la variable aléatoire X qu’on peut la notée par
{X ∈ B} (notation probabiliste).
Proposition
Soient (Ω, A, P) un espace de probabilité et X une variable aléatoire sur Ω.
L’ensemble F des parties B de X(Ω) telles que X −1 (B) ∈ A forme une tribu de X(Ω).
Démonstration :
— X −1 (X(Ω)) = Ω ∈ A =⇒ X(Ω) ∈ F.
— Si B ∈ F, alors X −1 (B) = (X −1 (B)) ∈ A =⇒ B ∈ F.
— Soit (Bn )n une suite d’éléments de F. Alors
X −1 ( X −1 (Bn ) ∈ A =⇒
[ [ [
Bn ) = Bn ∈ F.
n n n
Ainsi, on peut toujours muni l’ensemble X(Ω) de la tribu F ainsi définie. D’où la définition plus
générale suivante.
Définition
Une variable aléatoire est une application
X : (Ω, A) −→ (X(Ω), F)
telle que ∀B ∈ F, on a X −1 (B) ∈ A.
Propriété
Si X est une variable aléatoire sur (Ω, A) et g est une application bien définie de (X(Ω), F)
et continue (continue par morceaux), alors g ◦ X est une variable aléatoire sur (Ω, A).
Démonstration :
Soit B ∈ g(X(Ω)). Comme g est continue, alors g −1 (B) ∈ F et comme X est une variable aléatoire
sur (Ω, A), alors X −1 (g −1 (B)) ∈ A ce qui entraine que (g ◦ X)−1 (B) ∈ A. Ainsi, g ◦ X est une
variable aléatoire sur (Ω, A).
2. Loi de probabilité :
Théorème
L’application PX définie pour B ∈ F par :
PX (B) = P(X −1 (B))
23
définit une probabilité sur la tribu F.
Démonstration :
• Totalité : On a PX (X(Ω)) = P{X −1 (X(Ω))} = P(Ω) = 1.

Bn ) = P(X −1 (
[ [
• σ-additivité : On a PX ( Bn ))
n n
Bn ) = P(X −1 (
[ [
PX ( Bn ))
n n
−1
(Bn )) (X −1 (Bn ) deux à deux disjoints)
[
= P( X
n
P(X −1 (Bn )) (σ − additivité de P)

X
=
n
X
= PX (Bn )
n
Définition
La probabilité PX définie dans le théorème précédent est appelé loi de la variable aléatoire X
(ou distribution de X). C’est la mesure image de la probabilité P par la variable aléatoire X.
Remarque 9. • La probabilité PX est plus facile à caractériser que la probabilité P, car X(Ω) est
un ensemble connu dans la pratique (topologiquement) alors que Ω est un ensemble abstrait.
• En général, F 6= P(X(Ω)), même si on a A = P(Ω). Cela justifier le fait qu’une probabilité soit
définie sur une tribu qui peut être strictement plus petites que P(Ω).
Dans la suite de ce cours nous allons nous intéresser à la classe des variables aléatoires réelles,
c’est à dire les variables aléatoires à valeurs dans R ou dans un intervalle I de R ou dans un
ensemble F ⊂ R fini ou dénombrable.
Les variables aléatoires réelles au programme de ce cours sont de deux types :
• Les variables discrètes, lorsque X(Ω) est fini ou dénombrable.
• Les variables continues,
Z xlorsque FX (la fonction de répartition) est continue ou peut s’écrire sous
la forme FX (x) = f (y)dy où f est une fonction positive, intégrable sur R (par exemple,
−∞
discontinue sur un ensemble fini de points) et d’intégrale sur R égale à 1 (densité totale égale
1). La fontion f est appelée densité de probabililté.
Remarque 10. Il existe des variables aléatoires réelles qui ne sont ni continues, ni discrètes.
3. Fonction de répartition d’une variable aléatoire réelle :
Soit X une variable aléatoire réelle définie sur (Ω, A), alors la loi de X est une probabilité définie
sur (R, BR ) et vérifie :
PX (B) = P(X ∈ B); ∀B ∈ BR .
Cette loi est caractérisée par la fonction suivante (fonction de répartition).
24
Définition
Soient X une variable aléatoire réelle et PX sa loi de probabilité.
On appelle fonction de répartition de X la fonction définie pour tout x ∈ R par :
FX (x) = PX (] − ∞, x]) = P(X −1 (] − ∞, x])) = P(X ≤ x).
Exemple 27. Si X est nulle presque surment, alors sa loi PX = δ0 (mesure

 de Dirac en 0) et sa
 1 si x ≥ 0
fonction de répartition est exactement la fonction d’Heaviside H(x) = 
0 si x < 0
La fonction de répartition d’une variable aléatoire réelle possède les propriétés suivantes :
Proposition
1. FX est une fonction croissante.
2. FX est continue à droite en tout point de R.
3. lim FX (x) = 0 et lim FX (x) = 1.
x−→−∞ x−→+∞
4. FX a des limites à gauche en tout point, et on a :
∀x ∈ R, FX (x− ) = lim− FX (y) = FX (x) − P(X = x).

y−→x
5. ∀x, y ∈ R, x < y on a P (x < X ≤ y) = FX (y) − FX (x).
Démonstration. 1. Si x ≤ y alors ] − ∞, x] ⊂] − ∞, y]
et donc
PX (] − ∞, x]) ≤ PX (] − ∞, y]) =⇒ FX (x) ≤ FX (y).
2. Soit x ∈ R. Montrons que lim+ FX (y) = FX (x). Comme FX est croissante, il suffit de montrer
y−→x
1
que lim FX (x + ) = FX (x).
n−→+∞ n
1
En effet, supposons que FX (x + ) tend vers FX (x) quand n tend vers +∞. Comme FX est
n
1 1
croissante, alors pour tout x ≤ y ≤ x + (n ∈ N∗ ) on a FX (x) ≤ FX (y) ≤ FX (x + ), et
n n
1
donc lim+ FX (y) = lim FX (x + ) = FX (x).
y−→x n−→+∞ n
1 1 1
Montrons d’abord que lim FX (x + ) = FX (x). On a FX (x + ) = PX (] − ∞, x + ]).
n−→+∞ n n n
1
Puisque la suite d’intervalles ] − ∞, x + ] est décroissante, alors
n
1 \ 1
lim PX (] − ∞, x + ]) = PX ( ] − ∞, x + ])
n−→+∞ n n∈N∗ n
= PX (] − ∞, x])
= FX (x).
3. Comme FX est croissante (monotone), alors on a l’équivalence suivante
lim FX (x) = 0 ⇐⇒ lim FX (−n) = 0.

x−→−∞ n−→+∞
25
D’autre part FX (−n) = P(X −1 (] − ∞, −n])). Noton pour tout n ∈ N, An = X −1 (] − ∞, −n]).

La suite d’événements (An )n est décroissante (au sens de l’inclusion) et donc la suite des réels
(P(An ))n est convergente et on a :
+∞
\
lim P(An ) = P( An ) =⇒ lim FX (−n) = P(∅) = 0,
n−→+∞ n−→+∞
n=0
d’où lim FX (x) = 0.

x−→−∞
De même, on peut montrer que lim FX (x) = 1.
x−→+∞
1
4. Il suffit d’étudier la suite (FX (x − ))n .
n
1 1 1
On a FX (x − ) = P(X (] − ∞, x − ])) = P(An ) où An = X −1 (] − ∞, x − ]).
−1
n n n
Comme la suite (An ))n est croissante (au sens d’inclusion), alors la suite (P(An ))n converge
et on a :
+∞
1
An ) =⇒ lim FX (x − ) = P(X −1 (] − ∞, x[)) = P(X < x).
[
lim P(An ) = P(
n−→+∞
n=0
n−→+∞ n
Ainsi, FX a une limite à gauche en x, et on a :
FX (x) − lim− FX (y) = P(X ≤ x) − P(X < x) = P(X = x)
y−→x
=⇒ lim− FX (y) = FX (x) − P(X = x).
y−→x
5. Si x < y, on a ] − ∞, y] =] − ∞, x]∪]x, y], donc FX (y) = FX (x) + PX (]x, y])

=⇒ PX (]x, y]) = FX (y) − FX (x).
Nous pouvons obtenir aussi, que pour x < y,
PX (]x, y[) = FX (y − ) − FX (x)
PX ([x, y]) = FX (y) − FX (x− )

PX ([x, y[) = FX (y − ) − FX (x− ).
En particulier,
PX ({x}) = FX (x) − FX (x− ) (saut de F au point x ).
Nous avons la proposition suivante.
Proposition
Soient X une variable aléatoire réelle et PX sa loi, alors
la fonction de répartition de X est continue en x si, et seulement si, PX ({x}) = P(X = x) = 0.
Théorème
Toute fonction F : R −→ [0, 1] telle que
• F est croissante.
• lim F (x) = 0 et lim F (x) = 1.
x−→−∞ x−→+∞
• F est continue à droite en tout point.
est la fonction de répartition d’une unique probabilité sur R muni de sa tribu borilienne.
26
Démonstration. La preuve de ce théorème dépasse le cadre de ce cours.
II. Variables aléatoires discrètes (réelle)
Dans tout ce paragraphe, l’espace Ω est fini ou dénombrable et donc l’espace probabilisé considéré
sera (Ω, P(Ω)).
Notons que si X : Ω −→ X(Ω) ⊆ R est une application, alors pour tout x ∈ X(Ω) on a X −1 (x) ∈
P(Ω).
Ainsi, on a la définition suivante :
Définition
On appelle variable aléatoire discrète sur (Ω, P(Ω)) toute application X : Ω −→ X(Ω).
Notons que X(Ω) est nécessairement fini ou dénombrable.
Exemple 28. Une urne contient 3 boules rouges et 4 boules noires. On extrait successivement avec
remise 2 boules de l’ume (on choisit comme univers Ω = {R1 ; R2 ; R3 ; N1 ; N2 ; N3 ; N4 }2 et comme
tribu A = P(Ω)). On mise au départ 10Dh, et on gagne 8Dh par boule rouge obtenue. Soit X la
v.a.r. prenant pour valeur le gain final.
X est une v.a.r. discrète et on a : X(Ω) = {−10; −2; +6}.
On considère l’ensemble des variables aléatoires réelles discrètes définies sur le même espace
(Ω; A; P), noté F . Muni de la loi + (addition usuelles de 2 fonctions : (X + Y )(ω) est égal
par définition à X(ω) + Y (ω)) et de la loi · (loi de composition externe classique : ∀λ ∈ R,
λ · X est la fonction définie par : (λ · X)(ω) = λX(ω)), (F ; +; ·) est un espace vectoriel.
1. Loi de probabilité d’une variable aléatoire discrète.
Soit X une variable aléatoire discrète. La loi de X est une probabilité sur X(Ω) caractérisé par
les nombres :
PX (xi ) = P(X = xi ) = P(X −1 (xi )) = P{ω ∈ Ω/X(ω) = xi } =

X
pω , ∀xi ∈ X(Ω).
ω,X(ω)=xi
Ainsi, on a la proposition suivante :
Proposition
La loi d’une variable aléatoire X à valeurs dans un espace fini ou dénombrable X(Ω) est
caractérisée par :
{(xi , PX (xi )), xi ∈ X(Ω)}, avec PX (xi ) = P(X = xi ).
27
Remarque 11. • Si X ne prend qu’un petit nombre de valeurs, alors la loi de probabilité de X est
généralement présentée dans un tableau.
• Pour représenter graphiquement une loi d’une variable aléatoire discrète, on utilise un diagramme
"en bâton". Les valeurs xi sont placées en abscisse et les images PX (xi ) en ordonnée.
Exemple 29. Dans le cas d’équiprobabilité, une variable aléatoire X : Ω −→ {0, 1, 2, ..., n} a pour
1
loi de probabilité : {(k, ), 1 ≤ k ≤ n}
n
Exemple 30. La loi de probabilité uniforme associée à un lancer de dé est représentée dans le
xi 1 2 3 4 5 6
tableau suivant : 1 1 1 1 1 1
pi 1
6 6 6 6 6 6
Exemple 31. Loi de probabilité d’une variable certain. Il s’agit d’une variable aléatoire qui est
constante (prend la même valeur b quel que soit le résultat de l’épreuve) : PX (x) = b pour tout
x ∈ X(Ω).
Dans ce cas on parle de loi de Dirac centrée en b associée à cette variable certaine (notée par δb ).
Exemple 32. Loi d’une variable indicatrice. Soit A ∈ A un événement quelconque, on appelle
variable aléatoire indicatrice de l’événement A, la variable aléatoire définie par :

 1 si ω ∈ A
X(ω) =
 0 si ω ∈ A
et notée par X = 1A . Ainsi :
P(X = 1) = P{ω/ω ∈ A} = P(A)

P(X = 0) = P{ω/ω ∈ A} = P(A) = 1 − P(A).
2. Espérance mathématique.
Définition
Soit X : Ω −→ X(Ω) une variable aléatoire (réelle) sur l’espace fini ou dénombrable Ω. On
appelle espérence mathématique de X, la quantité, si elle existe :
X
E(X) = xi × PX (xi ).
xi ∈X(Ω)
Plus précisement,
n
X
— Lorsque X(Ω) = {x1 , x2 , ..., xn } on a E(X) = xi × PX (xi ).
i=1
X
— Lorsque X(Ω) = {xi , i ≥ 1} et lorsque la série xi × PX (xi ) est absolument
xi ∈X(Ω)
∞
X
convergente, on a E(X) = xi × PX (xi ).
i=1
28
Remarque 12. • Dans le cas où X(Ω) est fini, E(X) est le barycentre de la famille de points
pondérés (xi , PX (xi ))1≤i≤n .
• Dans le cas où X(Ω) est dénombrable, on ne peut pas exiger seulement la convergence de la série.
On aura besoin d’exiger la convergence absolue (sommabilité) pour garantir que l’espérance de
X est défini indépendamment de la façon dont on a numéroté X(Ω).
Exemple 33. 1) Soit X : Ω −→ {1, 2, 3, 4, 5, 6} de loi de probabilité uniforme :
xi 1 2 3 4 5 6
1 1 1 1 1 1
pi 1
6 6 6 6 6 6
1 1 1 1 1 1 21
alors E(X) = 1 × +2× +3× +4× +5× +6× = .
6 6 6 6 6 6 6
n
1X
2) Dans le cas de la loi uniforme sur X(Ω) = {x1 , x2 , ..., xn }, on obtient E(X) = xi et dans
n i=1
ce cas E(X) coincide avec la moyenne arithmétique x des valeurs possible de X.
2n
3) Soit X : Ω −→ N une variable aléatoire de loi de probabilité PX (n) = P(X = n) = e−2 ×
n!
(loi de Poisson de paramètre 2).
X
La série n × PX (n) est absolument convergente (règle d’Alembert), donc E(X) existe et on
n≥0
a:
+∞ +∞
X X
−2 2n
E(X) = n × PX (n) = n×e ×
n=0 n=0 n!
+∞ +∞
2n X 2n
= e−2 × = e−2 × 2 ×
X
n=1 (n − 1)! n=0 n!

= 2e−2 × e2 = 2.
6
4) Soit X : Ω −→ N∗ une variable aléatoire de loi PX (n) = 2 2 , ∀n ∈ N∗ .
π n
X X 6
Puisque la série n × PX (n) = 2
est divergente (par comparaison), alors X n’a pas
n≥1 n≥1 π n
d’espérance.
1. Pour une variable aléatoire indicatrice :
E(X) = 0 × PX (0) + PX (1) = P(A).
Définition
On appelle variable aléatoire intégrable, une variable aléatoire X qui admet une espérance,
X
c’est à dire telle que la série xi × PX (xi ) est absolument convergente.
xi ∈X(Ω)
On note par L1 (Ω, P(Ω), P) := L1 l’ensemble de toutes les variables aléatoires intégrables.
Théorème
Soit Ω un espace fini ou dénombrable. Si X ∈ L1 , alors :
X
E(X) = X(ω)P({ω}).
ω∈Ω
29
Démonstration :
[
Notons par : Ai = {ω ∈ Ω/X(ω) = xi }. Il est claire que Ω = Ai .
i
On a :
PX (xi ) = P(X = xi ) = P(X −1 (xi ))

= P(Ai )
X
= P({ω}).
ω∈Ai
donc
X X X
xi PX (xi ) = xi × P({ω})
i i ω∈Ai
X X
= xi P({ω})
i ω∈Ai
X X
= X(ω) × P({ω})
i ω∈Ai
X
= X(ω) × P({ω}).
ω∈Ω
Proposition
Soient Ω un espace fini ou dénombrable et P une probabilité sur Ω. L’ensemble L1 est un espace
vectoriel, et l’espérance est linéaire sur L1 :
∀X, Y ∈ L1 , ∀a, b ∈ R on a E(aX + bY ) = aE(X) + bE(Y ).
Démonstration :
X
Tout d’abord, la série (aX(ω) + bY (ω)) × P({ω}) est absolument convergente (somme de deux
ω∈Ω
séries absolument convergentes). Donc,
X X X
(aX(ω) + bY (ω)) × P({ω}) = aX(ω) × P({ω}) + bY (ω) × P({ω}) = aE(X) + bE(Y ).
ω∈Ω ω∈Ω ω∈Ω
Propriétés
Soient Ω un ensemble fini ou dénombrable et P une probabilité sur Ω.
1. Si X(ω) = a (a ∈ R) pour tout ω ∈ Ω, alors E(X) = a.
2. X ∈ L1 ⇐⇒ |X| ∈ L1 , et dans ce cas |E(X)| ≤ E(|X|).
3. Si X ≥ 0 et X ∈ L1 alors E(X) ≥ 0.
4. Si X, Y ∈ L1 telle que X ≤ Y , alors E(X) ≤ E(Y ).
5. Si X est telle qu’il existe a ∈ R tel que |X(ω)| ≤ a pour tout ω ∈ Ω, alors X ∈ L1
(L1 contient les variables aléatoires bornées).
6. Si Ω est fini, alors L1 contient toutes les variables aléatoires définissent sur Ω.
7. Si g est une fonction continue (continue par morceaux) définie sur un intervalle J conte-
30
nant X(Ω), alors :

X
E(g(X)) = g(xi ) × PX (xi )
xi ∈X(Ω)
sous réserve de convergence absolue. Ce dernier résultat est appelé "propriété de trans-
fert".
Proposition
Soient Ω un espace fini ou dénombrable et X une variable aléatoire sur Ω. Si Ω possède un
maximum et un minimum, alors E(X) existe et :
min{X(Ω)} ≤ E(X) ≤ max{X(Ω)}.
Démonstration :
Supposons que Ω est un ensemble dénombrable et posons xmin = min{X(Ω)} et xmax = max{X(Ω)}.
Soit M = max(|xmin |, |xmax |). On a :
X
∀i ∈ N, |xi | ≤ M =⇒ |xi | × PX (xi ) ≤ M
i≥0
X
donc, la série xi × PX (xi ) est absolument convergente.
i≥0
Ainsi, E(X) existe. De plus :
+∞
X +∞
X +∞
X
∀i ∈ N, xmin ≤ xi ≤ xmax =⇒ xmin × PX (xi ) ≤ xi × PX (xi ) ≤ xmax × PX (xi )
i=0 i=0 i=0
=⇒ xmin ≤ E(X) ≤ xmax .
Dans le cas fini, on peut suivre les même démarche de démonsration.
3. Variance et écart-type.
Définition
Soit p ∈ N∗ . On dit que la variable aléatoire X admet un moment d’ordre p si la variable
aléatoire X p ∈ L1 , et d’aprés la propriété de transfert, on a :
E(X p ) = xpi × PX (xi ).

X
xi ∈X(Ω)
Notation : On note par Lp l’ensemble des variables aléatoires X telles que X p soit intégrable
(∈ L1 ). En particulier, L2 est l’ensemble des variables aléatoires de carré intégrable.
Remarque 13. • Si X(Ω) est fini, alors X possède des moments de tout ordre.
• Si X(Ω) est dénombrable, l’existence du moment d’ordre p impose par définition la convergence
X p
absolue de la série xi × PX (xi ).
i∈N
31
Propriété
Si X possède un moment d’ordre p, alors les moments d’ordre k ≤ p de X existent aussi.
Démonstration :
On sait que : ∀x ∈ R, ∀p ∈ N∗; |x|p−1 ≤ |x|p + 1, donc
|xi |p−1 × PX (xi ) ≤ |xi |p × PX (xi ).

X X X
PX (xi ) +
i∈N∗ i∈N∗ i∈N∗
|xi |p × PX (xi ) sont convergentes, alors par comparaison des

X X
Comme les séries PX (xi ) et
i∈N∗ i∈N∗
|xi |p−1 × PX (xi ) est convergente, et par suite la
X
séries à termes positifs on trouve que la série
i∈N∗
variable aléatoire X possède un moment d’ordre p − 1.
Par récurrence, on obtient que pour tout k ≤ p, X possède un moment d’ordre k.
Proposition
L’ensemble L2 est un sous espace vectoriel de l’espace L1 , et si X ∈ L2 on a :
q
E(|X|) ≤ E(X 2 ).
Démonstration :
• Soient X et Y deux variables aléatoires tels que X, Y dans L2 et soit a ∈ R.

Puisque (aX +Y )2 ≤ a2 X 2 +Y 2 +2aXY et 2aXY ≤ a2 X 2 +Y 2 alors (aX +Y )2 ≤ 2a2 X 2 +2Y 2
et comme X ∈ L2 et Y ∈ L2 , alors par comparaison des séries à termes positifs on obtient
aX + Y ∈ L2 .
Ainsi, L2 est un espace vectoriel. D’autre part, il découle de |X| ≤ 1 + X 2 que L2 ⊂ L1 .
• Soit Y = X − E(|X|). On a
E(Y 2 ) = E((X − E(|X|))2 )

= E(X 2 − 2E(|X|) × X + (E(|X|))2 )
= E(X 2 ) − 2E(|X|) × E(X) + (E(|X|))2 .
— Si X ≥ 0, alors E(Y 2 ) = E(X 2 ) − (E(X))2 . q
Comme E(Y 2 ) ≥ 0 alors (E(X))2 ≤ E(X 2 ) et par suite E(X) ≤ E(X 2 ) .
— On admet le résultat pour le cas X non positive.
Définition
Soit X ∈ L2 . On appelle variance de X l’espérance de la variable (X − E(X))2 :
V (X) = E((X − E(X))2 )

(xi − E(X))2 × PX (xi ).
X
=
i
On l’appelle aussi moment centré d’ordre 2.
32
Définition
Lorsque la variable aléatoire X admet une variance, on appelle écart-tupe de X le réel :
q
σ(X) = V (X).
L’écart-type est une grandeur qui mesure la moyenne de l’écart des valeurs de X à sa moyenne.
Théorème
Si X possède une variance, alors :
V (X) = E(X 2 ) − (E(X))2 .
Démonstration :
On a :
V (X) = E((X − E(X))2 )

= E(X 2 − 2E(X) × X + (E(X))2 )
= E(X 2 ) − 2(E(X))2 + (E(X))2
= E(X 2 ) − (E(X))2 .
Propriété
X admet une variance ⇐⇒ X admet un moment d’ordre 2.
Démonstration :
• Si X(Ω) est fini, il est claire que X admet une variance.

• Si X(Ω) est dénombrable : l’existence de V (X) suppose l’existence de E(X) et de E(X 2 ).
Or L2 ⊂ L1 alors l’existence de E(X 2 ) implique l’existence de V (X).
Réciproquement : Soit N ≥ 1. On a :
N N N
(xi − E(X))2 × PX (xi ) = x2i × PX (xi ) − 2E(X) xi × PX (xi ) + (E(X))2 ,
X X X
i=1 i=1 i=1
N
(xi − E(X))2 × PX (xi ) implique l’existence de
X
donc l’existence de V (X) = lim
n−→+∞
i=1
N
E(X 2 ) = x2i × PX (xi ).
X
lim
n−→+∞
i=1
Autres propriétés de la variance sont citer dans :
Propriété
Soient X et Y deux variables aléatoires. Alors :
1. V (X) ≥ 0.
2. V (X) = 0 ⇐⇒ X est constante presque partout.
33
3. V (X + a) = V (X) ; ∀a ∈ R.
4. V (aX) = a2 V (X) ; ∀a ∈ R.
Démonstration :
1) Par définition.
2) Si X est constante, alors il est claire que V (X) = 0.
Réciproquement,
V (X) = 0 =⇒ ∀i, (xi − E(X))2 × PX (xi ) = 0

=⇒ ∀i, E(X) = xi sauf lorsque PX (xi ) = 0
=⇒ X est une constante presque partout.
3) On a
V (X + a) = E((X + a − E(X + a))2 )

= E((X − E(X))2 )
= V (X)
4)On a
V (aX) = E((aX − aE(X))2 )

= a2 E((X − E(X))2 )
= a2 V (X)
c’est à dire qu’un changement d’echelle implique une modéfication de la variance.
Définition
• Toute variable aléatoire X vérifie E(X) = 0 est dite variable centré.
• Toute variable aléatoire X vérifie V (X) = 1 est dite variable réduite.
Exemple 34. • La variable X − E(X) est une variable aléatoire centrée.

1
• La variable × X est une variable aléatoire réduite.
σ(X)
4. Fonction de répartition
Soient (Ω, A, P) un espace de probabilité et X une variable aléatoire sur Ω.

Si X(Ω) est une partie finie ou dénombrable de R, alors la loi de la probabilité PX est caractérisée
par une fonction réelle de variable réelle (fonction de répartition).
34
Définition
Soit X une variable aléatoire dans une parie X(Ω) de R et PX sa loi de probabilité. On appelle
fonction de répartition de X la fonction
FX : R −→ [0, 1]
X
x 7−→ FX (x) = PX ({i})
i∈X(Ω);i≤x
avec FX (x) = 0 s’il n’existe pas d’élément i ∈ X(Ω) tel que i ≤ x.
En particulier : 1) Si la variable aléatoire X est constante (X(ω) = a, ∀ω ∈ Ω), alors PX = δa et

FX = 1[a,+∞[ .
2) Si X est une variable aléatoire qui prend ses valeurs dans N, alors la loi de X est caractérisée
par la suite :
pn = PX (n) = P(X = n)
et la fonction de répartition de X vaut donc



 0 si x < 0
n
FX (x) = X


 pi si n ≤ x < n + 1
i=0
On remarque que dans ce cas la fonction FX est une fonction en escalier.
Exemple 35. Si on considère l’expérience aléatoire "lancer de dé" qui suit une loi uniforme.
Alors : 

 0 si x < 1
1


FX (x) =  E(x) × si 1 ≤ x < 6

 6
1 si x ≥ 6.

Note : Dans la section des variables aléatoires continues, on va voir que la fonction de répartition
possède des propriétés fonctionnels importantes.
5. Fonction génératrice
Dans ce paragraphe nous considérons une variable aléatoire à valeurs dans N. Donc, la loi de X
est une probabilité sur N caractérisée par la suite de nombre pn = P(X = n).
On va voir dans ce paragraphe qu’on peut caractérisée cette loi par une fonction appelée fonction
génératrice.
Définition
La fonction génératrice de la variable aléatoire X est la fonction définie par :
GX : [0, 1] −→ R
pn tn
X
t 7−→ GX (t) =
n≥0
35
c’est une fonction qui ne dépend que de la loi de X.
Proposition
La fonction génératrice est continue sur [0, 1] et indéfiniment dérivable sur [0, 1[.
Démonstration :
La démonstration de cette proposition demande des résultats sur les séries entières (continuité,
dérivabilité...).
(n)
Remarque 14. La dérivée nième en 0 de la fonction GX est GX (0) = pn × n!. Ainsi, la fonction
GX caractérise les pn .
Théorème
Soient (Ω, A, P) un espace de probabilité et soit X une variable aléatoire a valeurs dans N, de
fonction génératrice GX . Alors :
X ∈ L1 ⇐⇒ GX est dérivable à gauche en 1

0
et dans ce cas on a E(X) = GX (1).
Démonstration :
Si t < 1, alors on a :
GX (t) − GX (1) X tn − 1
= pn ×
t−1 n≥0 t−1
pn × (1 + t + t2 + ... + tn−1 )
X
=
n≥0
GX (t) − GX (1)
pn × (1 + t + t2 + ... + tn−1 ).
X
donc lim = lim
t−→1 t−1 t−→1
n≥0
Or les fonction un (t) = pn ×(1+t+t2 +...+tn−1 ) sont croissante et positives, alors on peut permuter
la limite avec la somme, et donc
pn × (1 + t + t2 + ... + tn−1 ) = lim pn × (1 + t + t2 + ... + tn−1 )

X X
lim
t−→1 t−→1
n≥0 n≥0
X
= pn × n
n≥0
GX (t) − GX (1) X
ainsi lim = pn × n. D’où l’équivalence demandée.
t−→1 t−1 n≥0
Par la même démonstrations on peut trouver le résultat suivant qui représente une généralisation
du résultat précédent.
Proposition
La variable aléatoire X(X − 1)(X − 2)...(X − p) est intégrable, si et seulement si GX est p + 1
fois dérivable à gauche en 1, et on a alors :
E(X(X − 1)(X − 2)...(X − p)) = Gp+1

X (1).
36
En particulier : E(X(X − 1)) = GX 00 (1) et donc V (X) = GX 00 (1) + GX 0 (1) − (GX 0 (1))2 .
Note : Gp+1 pn × Ap+1
X X
X (1) = pn × n(n − 1)...(n − p) = n .
n n
Remarque 15. Par fois, pour calculer l’espérance ou la variance d’une variable aléatoire, il peut
étre plus simple d’utiliser les dérivées de GX plutôt qu’un calcul direct.
6. Couple de variables aléatoires discrètes
Définition
Soit (Ω, A, P) un espace probabilisé.  
X1
 
 . 
 
 
Un vecteur aléatoire V est un n-uplet   .

 où les Xi sont des variables aléatoires réelles
 
 . 
 
Xn
(sur(Ω, A, P)), c’est-à-dire une application :
V : Ω −→ Rn
 
X1 (ω)
 
 . 
.
 
 
ω 7−→ V (ω) = 
 . 

 

 . 

Xn (ω)
V est appelé vecteur aléatoire discret si les Xi sont des variables aléatoires discrètes, et dans
le cas n = 2 on parle d’un couple de variables aléatoires.
Exemple 36. On lance deux fois un dé équilibré. On modélise cette expérience en posant Ω = [[1; 6]]2
et A = P(Ω) et P la probabilité uniforme. Soient X la variable aléatoire réelle égale à la somme des
2 lancers et Y la variable aléatoire réelle égale au maximum des 2 lancers. L ’application
V : Ω −→ Rn  
X(ω) = ω1 + ω2 
ω = (ω1 ; ω2) −
7 → V (ω) = 
Y (ω) = max(ω1 ; ω2 )
est un couple de variables aléatoires discretes.
Remarque 16. D’après la définition on a V (Ω) ⊂ X(Ω) × Y (Ω), et comme le montre l’exemple
précédent, cette inclusion peut être stricte. En effet, on a (3, 6) ∈ X(Ω) × Y (Ω) mais (3, 6) ∈
/ V (Ω).
L’ensemble des valeurs possibles des variables X et Y peut s’écrire respectivement sous la forme
{xi }i∈I et {yj }j∈J , où I et J sont des ensembles d’indices inclus dans N, pouvant d’ailleurs être N
tout entier.
37
6.1. Loi conjointe d’un couple de variables aléatoires dis-

crètes
Définition
La loi de V , ou loi conjointe du couple (X; Y ), est la donnée de :
1. V (Ω), ensemble des valeurs possibles de V .
2. P [(X; Y ) = (xi ; yj )] = P [(X = xi ) ∩ (Y = yj )] pour tous les couples (xi ; yj ) de V (Ω).
On note pi,j = P [(X = xi ) ∩ (Y = yj )].
XX XX
Les pi,j sont des probabilités qui vérifient : pi,j = pi,j = 1.
i∈I j∈J j∈J i∈I
En pratique, on donne la loi conjointe lorsque I et J sont finis, sous la forme d’un tableau à double
entrée (Tableau de contingence) :
Y
@
@
@
@ y1 y2 ... yj ... yk Total
X @
@
@
@
x1 p1,1 p1,2 ... p1,j ... p1,k p1,.

x2 p2,1 p2,2 ... p2,j ... p2,k p2,.
... ... ... ... ... ... ... ...
xi pi,1 pi,2 ... pi,j ... pi,k pi,.
... ... ... ... ... ... ... ...
xm pm,1 pm,2 ... pm,j ... pm,k pm,.
Total p.,1 p.,2 ... p.,j ... p.,k 1
Exemple 37. Pour l’exemple précédent, où on lance deux fois un dé équilibré. On a la loi conjointe
suivante :
Exemple de calcul :
p5,4 = P [(X = 5) ∩ (Y = 4)] = P [{1; 4} ∪ {4; 1}] = P({1; 4}) + P({4; 1})
1 1 1 1 2
= × + × = .
6 6 6 6 36
38
HH
Y
HH
1 2 3 4 5 6 Total
X H
HH
1 1
2 0 0 0 0 0
36 36
2 2
3 0 0 0 0 0
36 36
1 2 3
4 0 0 0 0
36 36 36
2 2 4
5 0 0 0 0
36 36 36
1 2 2 5
6 0 0 0
36 36 36 36
2 2 2 6
7 0 0 0
36 36 36 36
1 2 2 5
8 0 0 0
36 36 36 36
2 2 4
9 0 0 0 0
36 36 36
1 2 3
10 0 0 0 0
36 36 36
2 2
11 0 0 0 0 0
36 36
1 1
12 0 0 0 0 0
36 36
1 3 5 7 9 11
Total 1
36 36 36 36 36 36
6.2. Loi marginale
Définition
On appelle loi marginale de X (respt. de Y ) du couple (X, Y ), la loi de probabilité de X (respt.
de Y )
 
[
pi,. = P [(X = xi )] = P  [(X = xi ) ∩ (Y = Yj )]
j∈J(union disjointe)
k
X k
X
= P [(X = xi ) ∩ (Y = Yj )] = pi,j .
j=1 j=1
 
[
p.,j = P [(Y = yj )] = P  [(X = xi ) ∩ (Y = Yj )]
i∈I(union disjointe)
m
X m
X
= P [(X = xi ) ∩ (Y = Yj )] = pi,j .
i=1 i=1
Exemple 38. Dans l’exemple précédent, la loi marginale de Y est donnée par :
Y (Ω) 1 2 3 4 5 6
1 3 5 7 9 11
p.,j
36 36 36 36 36 36
et la loi marginale de X est donnée par :
39
X(Ω) 2 3 4 5 6 7 8 9 10 11 12
1 2 3 4 5 6 5 4 3 2 1
pi,.
36 36 36 36 36 36 36 36 36 36 36
Application 3. Un sac contient 4 boules numérotées de 1 à 4. On tire deux boules avec remises, et
on note X et Y les numéros obtenus. Soit Z = Sup(X, Y ) et P la probabilité uniforme sur (Ω; P(Ω)).
Donner les lois des couples (X; Y ) et (X; Z).
Solution :
On a Ω = {1, 2, 3, 4}.
1
Pour tout (i, j) ∈ Ω, on a : P [(X = i) ∩ (Y = j)] = . Donc la loi conjointe du couple (X, Y ) est
16
donnée par le tableau suivant :
HH
Y
HH
1 2 3 4
X H
HH
1 1 1 1
1
16 16 16 16
1 1 1 1
2
16 16 16 16
1 1 1 1
3
16 16 16 16
1 1 1 1
4
16 16 16 16
D’atre part, on a :
1
i < j =⇒ P [(X = i) ∩ (Z = j)] = P [(X = i) ∩ (Y = j)] = .
16
i > j =⇒ P [(X = i) ∩ (Z = j)] = P(∅) = 0.
i
X i
i = j =⇒ P [(X = i) ∩ (Z = i)] = P [(X = i) ∩ (Y = k)] =
.
k=1 16
Donc la loi conjointe du couple (X, Z) est donnée par le tableau suivant :
HH
Z
HH
1 2 3 4
X H
HH
1 1 1 1
1
16 16 16 16
2 1 1
2 0
16 16 16
3 1
3 0 0
16 16
4
4 0 0 0
16
Pour les lois marginales on a :
X(Ω) 1 2 3 4
4 4 4 4
pi,.
16 16 16 16
et
Y (Ω) 1 2 3 4
4 4 4 4
p.,j
16 16 16 16
40
et
Z(Ω) 1 2 3 4
1 3 5 7
p.,j
16 16 16 16
6.3. Indépendance de 2 variables aléatoires discrètes
Définition
Deux variables aléatoires réelles X et Y sont indépendantes si :
∀(B1 ; B2 ) ∈ (BR )2 , P [(X ∈ B1 ) ∩ (Y ∈ B2 )] = P [(X ∈ B1 )] × P [(Y ∈ B2 )] .
Lorsque X et Y sont discrètes, la définition est équivalente à :
∀(i; j) ∈ I × J, P [(X = xi ) ∩ (Y = yj )] = P [(X = xi )] × P [(Y = yj )] .
Autrement dit : ∀(i; j) ∈ I × J, pi,j = pi,. × p.,j .
Exemple 39. Les variables X et Z de l’application précédente ne sont pas indépendantes puisque
1 4 5
P [(X = 2) ∩ (Z = 3)] = et P [(X = 2)] × P [(Z = 3)] = × .
16 16 16
Alors que les variables X et Y sont indépendantes.
Théorème
Soient X et Y deux variables aléatoires discrètes indépendantes, admettant une espérance.
Alors la variable aléatoire XY admet une espérance, et on a :
E(XY ) = E(X) × E(Y ).
Solution :
Exercice. la réciproque de ce théorème est fausse en général : l’égalité E(XY ) = E(X) × E(Y )
n’implique pas l’indépendance de X et Y comme le montre l’exemple suivant :
Exemple 40. Considérons le couple (X, Y ) dont la loi est définie par le tableau ci-après :
HH
X
H
HH -1 0 1
Y HH
1 1 1
-1
8 8 8
1 1 1
0
16 8 16
1 1 1
1
8 8 8
41
On a E(X) = E(Y ) = 0 et E(XY ) = 0 et cependant ces deux variables ne sont pas indépen-
dantes puisque par exemple :
1 5 3
P(X = −1; Y = −1) = 6= P(X = −1) × P(Y = −1) = × .
8 16 8
Théorème
Soient X et Y deux variables aléatoires discrètes indépendantes, tels que tX et tY sont inté-
grable pour tout t ∈ [0, 1]. Alor
GX+Y (t) = GX (t) × GY (t); ∀ t ∈ [0, 1].
Solution :
Exercice.
On rappel que (F, +, ·) est un espace vectoriel, où F est l’ensemble des variables aléatoires réelles
discrètes. Soit F1 l’ensemble des éléments de F qui possèdent une variance. F1 est un sous-espace
vectoriel de F inclus dans L1 (à titre d’exercice).
Définition
L ’application :
cov : (F1 )2 −→ R
(X; Y ) 7−→ E(XY ) − E(X)E(Y )
est bien définie, et est appelée covariance de X et Y .
Propriété :
Pour tout (X, Y ) ∈ F12 , on a
V (X + Y ) = V (X) + V (Y ) + 2cov(X, Y ).
En particulier, si X et Y sont deux variables aléatoires indépendantes, alors
V (X + Y ) = V (X) + V (Y ).
Démonstration :
V (X + Y ) = E(X + Y )2 − (E(X + Y ))2

= E(X)2 + E(Y 2 ) + 2E(XY ) − (E(X))2 − (E(Y ))2 − 2E(X) × E(Y )
= E(X 2 ) − (E(X))2 + E(Y 2 ) − (E(Y ))2 + 2(E(XY ) − E(X) × E(Y ))
= V (X) + V (Y ) + 2cov(X, Y ).
Si X et Y sont deux variables aléatoires indépendantes, alors E(XY ) = E(X)E(Y ) et donc

cov(X; Y ) = 0.
42
Propriété :
cov(X, Y ) = E ((X − E(X))(Y − E(Y ))) .
Démonstration :
E ((X − E(X))(Y − E(Y ))) = E(XY ) − E(X)E(Y ) − E(X)E(Y ) + E(X)E(Y )

= E(XY ) − E(X)E(Y )
= cov(X, Y ).
Définition
Soient X et Y deux éléments de F1 , de variance strictement positive. On appelle coefficient
de corrélation linéaire le réel :
cov(X; Y )
r(X; Y ) = .
σ(X)σ(Y )
Propriété :
|r(X; Y )| ≤ 1.
Démonstration :
Pour montrer que |r(X; Y )| ≤ 1 il suffit de montrer que |cov(X; Y )| ≤ σ(X)σ(Y ). Pour cela, soit
λ ∈ R on a :
V (X + λY ) = V (X) + λ2 V (Y ) + 2λcov(X, Y )
puisque V (X +λY ) ≥ 0, alors le discriminant du trinôme V (X)+λ2 V (Y )+2λcov(X, Y ) est négatif,
et comme ∆ = 4(cov(X; Y ))2 − 4V (X)V (Y ), on en déduit que (cov(X; Y ))2 ≤ V (X)V (Y ) et par
suite |cov(X; Y )| ≤ σ(X)σ(Y ).
Propriété :
r(X; Y ) = r (X − E(X); Y − E(Y )) .
Démonstration :
On a V (X − E(X)) = V (X) et cov(X − E(X); Y − E(Y )) = cov(X; Y ) et donc
r(X; Y ) = r (X − E(X); Y − E(Y )).
43
6.4. Lois conditionnelles
On peut associer deux lois conditionnelles à la loi d’un couple, c’est-à-dire la loi d’une variable,
l’autre ayant une valeur fixée (loi dans une ligne ou dans une colonne donnée). Par exemple, pour Y =
yj fixé, la loi conditionnelle de X est définie par l’ensemble des valeurs possibles et les probabilités
associées :
P(X = xi ; Y = yj ) pi,j
P(X = xi /Y = yj ) = = = pji .
P(Y = yj ) p.,j
On vérifie que c’est bien une loi de probabilité sur X(Ω) = {xi ; i ∈ I} :
X j 1 X
pi = pi,j = 1.
i∈I p.,j i∈I
H
HH X
H -2 0 2 p.,j
Y HH
H
-1 0,1 0,2 0,1 0,4
2 0,2 0,2 0,2 0,6
pi,. 0,3 0,4 0,3 1
La loi conditionnelle de X pour Y = −1 figure dans le tableau ci-après :
X/Y = −1 -2 0 2
0, 1 0, 2 0, 1
1
0, 4 0, 4 0, 4
Dans le cas où les variables aléatoires sont indépendantes, bien entendu, les lois conditionnelles
sont confondues avec les lois marginales ; par exemple :
pi,. p.,j
P(X = xi /Y = yj ) = pji = = pi,. .
p.,j
6.5. Moments conditionnels
Aux lois conditionnelles sont associés des moments conditionnels, comme par exemple l’espérance
conditionnelle de Y pour X = xi fixé, qui est l’espérance de la loi définie par les couples
{(yj ; pij ); ∈ J}, soit :
yj pij .
X X
E(Y /X = xi ) = yj P(Y = yj /X = xi ) =
j∈J j∈J
Le graphe de cette espérance conditionnelle en fonction de xi s’appelle courbe de régression (non

linéaire) de Y en X.
On peut également calculer la variance conditionnelle :

V (Y /X = xi ) = E [Y − E(Y /X = xi )]2 /X = xi
= E(Y 2 /X = xi ) − (E(Y /X = xi ))2
pij [yj − E(Y /X = xi )]2
X
=
j∈J
44
HH
X
HH
-2 0 2 p.,j
Y H
HH
-1 0,1 0,2 0,1 0,4
2 0,2 0,2 0,2 0,6
pi,. 0,3 0,4 0,3 1
La loi conditionnelle de Y pour X = 2 est donnée par le tableau suivant :
Y /X = 2 -1 2
0, 1 0, 2
1
0, 3 0, 3
On peut calculer, à partir de ce tableau, l’espérance conditionnelle de Y pour X = 2 :

1 2
E(Y /X = 2) = (−1) × + 2 × = 1.
3 3
On peut aussi calculer la variance conditionnelle de Y pour X = 2 :
V (Y /X = 2) = p2−1 [−1 − E(Y /X = 2)]2 + p22 [2 − E(Y /X = 2)]2 = 0, 6.
7. Lois usuelles discrètes
7.1. Loi uniforme sur [ 1, n]]
Définition
Soient (Ω, A, P) un espace de probabilité et X une variable aléatoire a valeurs dans N.
X est dite suit la loi uniforme sur [[1, n]] si :
• X(Ω) = [[1, n]].
1
• ∀i ∈ [[1, n]], P(X = i) = .
n
On note X ∼ U([[1, n]]).
Il s’agit donc, d’une loi dont tous les poids de probabilité sont identiques.
Propriété
Si X est une variable aléatoire suit la loi uniforme sur [[1, n]], alors :
n+1 n2 − 1
E(X) = et V (X) = .
2 12
45
n n
X 1 1X 1 n(n + 1) n+1
Démonstration. • E(X) = i× = i= × = .
i=1 n n i=1 n 2 2
n
1 1 n(n + 1)(2n + 1) (n + 1)(2n + 1)
• On a E(X 2 ) = i2 ×
X
= × = .
i=1 n n 6 6
(n + 1)(2n + 1) (n + 1)2 n2 − 1
Donc, V (X) = E(X 2 ) − (E(X))2 = − = .
6 4 12
La loi uniforme est souvent utilisée pour générer des nombres aux hasard et elle est souvent à la
base de la simulation de n’importe quelle loi de probabilité discrète ou continue.
7.2. Loi de Bernoulli
Définition
Soient (Ω, A, P) un espace de probabilité, X une variable aléatoire a valeurs dans N et soit
p ∈ [0, 1]. X est dite suit la loi de Bernoulli de paramètre p si :
• X(Ω) = {0, 1}.
• P (X = 0) = 1 − p et P (X = 1) = p.
On note X ∼ B(p) (ou X ∼ B(1; p)).
Remarque 17. Si on s’intéresse à un événement A, appelé «succès» et si on note p = P(A), alors

la variable aléatoire X = 1A suit une loi de Bernoulli de paramètre p.
Propriété
Si X est une variable aléatoire suit une loi de Bernoulli de paramètre p, alors :
E(X) = p, V (X) = p(1 − p) et GX (t) = 1 − p + p · t.
2
X
Démonstration. • E(X) = xi × pi = 0 × P(X = 0) + 1 × P(X = 1) = p.
i=1
2
• V (X) = E(X 2 ) − (E(X))2 = x2i × pi − p2 = p − p2 .
X
i=1
pn · tn = p0 · t0 + p1 · t1 = 1 − p + p · t.
X
• GX (t) =
n≥0
Remarque 18. Si X est une variable aléatoire suit une loi de Bernoulli de paramètre p. Alors,
∀n ≥ 1, on a X n = X et donc les calculs des moments de X sont facile.
La loi de Bernoulli est utilisée lorsqu’une expérience aléatoire n’a que deux résultats possibles
qualitatifs ou quantitatifs.
46
7.3. Loi binomiale
On considère une expérience aléatoire modélisée par un espace probabilisé (Ω, A, P) et on s’in-
téresse à un événement A appelé «succès» et on note p = P(A).
On répète n fois cette expérience aléatoire de manière « indépendante » (avec remise). Ainsi, la
nouvelle expérience sera modélisée par l’espace de probabilité (Ωn , An , Pn ), où An est la tribu pro-
duit et Pn est la probabilité produit définie par Pn (A1 , A2 , ..., An ) = P(A1 ) × P(A2 ) × ... × P(An )
pour tout (A1 , A2 , ..., An ) ∈ An .
On considère la variable aléatoire X qui prend pour valeur le nombre de succès obtenus au cours
des n réalisations de l’expérience :
X : (ω1 , ω2 , ..., ωn ) 7−→ card({ωi \ωi ∈ A}).
La loi de X :
On a évidemment X(Ω) = {0, 1, 2, ..., n}, et pour les poids de probabilité on a :
•
Pn (X = 0) = Pn (A; A; ...; A)
= P(A) × P(A) × ... × P(A)
= (1 − p)n
Pn (X = 1) = Pn [(A; A; A; ...; A) ∪ (A; A; A; ...; A) ∪ ... ∪ (A; A; ...; A; A)

= Pn (A; A; A; ...; A) + Pn (A; A; A; ...; A) + ... + Pn (A; A; ...; A; A)
= P(A) × P(A) × ... × P(A) + ... + P(A) × P(A) × ... × P(A)
= np(1 − p)n−1
• Pour k ∈ {1, 2, ..., n}, l’événement (X = k) est la réunion n-uplets où A apparaît k fois et A
apparaît n − k fois.
Ces événements sont 2 à 2 disjoints, donc par σ-additivité de Pn , la probabilité de (X = k)
est la somme des probabilités de ces événements. Ils ont tous pour probabilité pk × (1 − p)n−k .
D’autre part, on a Cnk n-uplets comportant k fois A et n − k fois A, d’où :
Pn (X = k) = Cnk × pk × (1 − p)n−k .
Définition
Soient (Ω, A, P) un espace de probabilité, X une variable aléatoire a valeurs dans N , n ∈ N∗
et p ∈ [0, 1]. X est dite suit la loi binômiale de paramètre n et p si :
• X(Ω) = [[0, n]].
• ∀k ∈ [[0, n]], P (X = k) = Cnk pk × (1 − p)n−k .
On note X ∼ B(n; p).
La loi binômiale permet de calculer la probabilité d’obtenir k succès parmi n épreuves indépen-
dantes (avec remise).
47
Propriété
Si X est une variable aléatoire suit une loi binômiale de paramètre n et p, alors :
E(X) = np, V (X) = np(1 − p) et GX (t) = (1 − p + p · t)n .
Démonstration. •
n n
k × Cnk pk × (1 − p)n−k
X X
E(X) = xk × p k =
k=0 k=0
n
k−1 k
p × (1 − p)n−k
X
= n × Cn−1
k=1
n
k−1 k−1
× (1 − p)n−1−(k−1)
X
= np × Cn−1 p
k=1
= np
• On sait que E(X(X − 1)) = E(X 2 ) − E(X) et on a :

n n
k(k − 1) × Cnk pk × (1 − p)n−k
X X
E(X(X − 1)) = xk (xk − 1) × pk =
k=0 k=0
n
k−2 k−2
= n(n − 1)p2 × (1 − p)n−2−(k−2)
X
Cn−2 p
k=2
n−2
i
= n(n − 1)p2 × pi × (1 − p)n−2−i
X
Cn−2
i=0
= n(n − 1)p (p + 1 − p)n−2 = n(n − 1)p2
2
on en déduit alors que E(X 2 ) = n(n−1)p2 +np, puis V (X) = n2 p2 +np(1−p)−n2 p2 = np(1−p).
n n n
pk · tk = Cnk · pk · (1 − p)n−k · tk = Cnk · (p · t)k · (1 − p)n−k = (1 − p + p · t)n .
X X X
• GX (t) =
k=0 k=0 k=0
Remarque 19. Soit X1 , X2 , ..., Xn n variables aléatoires indépendantes de loi de Bernoulli de pa-
ramètre p ; alors leur somme X suit une loi binomiale de paramètre n et p.
Propriété
Si X1 , X2 , ..., Xm sont des variables aléatoires indépendantes tels que X1 ∼ B(n1 ; p), X2 ∼
B(n2 ; p),..., Xm ∼ B(nm ; p) alors :
m
X m
X
Xi ∼ B( ni ; p).
i=1 i=1
Remarque 20. — Lorsque n est grand le calcul de la loi binomiale devient délicat ; on peut
utiliser des approximations avec d’autres lois.
— L’expression de la loi binomiale est le terme genéral des coéfficients du binome de Newton,
d’ou le nom de loi binomiale.
48
2
Application 4. la probabilité qu’un tireur atteigne sa cible est p = . On suppose qu’il effectue n
3
tirs (n ≥ 1).
Soit X la variable aléatoire qui représente le nombre de succés obtenus.
On note A l’evénement : "obtenir au moins un succés".
1. Calculer P(A).
2. Combien de tirs faut-il effectuer pour que la probabilité d’obtenir au moins un succés soit
supérieure à 0.9.
3. On suppose n = 20. Calculer l’espérance et la variance de X.
Solution :
Dans ce problème le tireur effectue n tirs (les tirs ici sont indépendantes) et dans chaque tir la
2
probabilité que le tireur atteigne sa cible est p = . Puisqu’on s’intéresse au nombre de succés
3
2
obtenus, alors la variable aléatoire X suit la loi binomiale de paraméttre n et p = (X ∼ B(n; p)).
3
Ainsi,
1
1. P(A) = P(X ≥ 1) = 1 − P(X = 0) = 1 − Cn0 · p0 · (1 − p)n−0 = 1 − (1 − p)n = 1 − n .
3
1
2. On a P (A) ≥ 0.9 ⇐⇒ n ≥ ' 2, 09. Ainsi, le tireur doit effectue un nombre de tirs
log(3)
supérieur au égale à 3 tirs.
2 2 1
3. On a E(X) = n · p = 20 × ' 13, 33 et V (X) = n · p · (1 − p) = 20 × × ' 4, 44.
3 3 3
7.4. Loi hypergéométrique
on considère une urne contenant N boules (indiscernables au touché) dont NR des boules rouges
NR
et donc en proportion p = . On tire simultanément et sans remise n boules (n ≤ N ), et on
N
appelle X la v.a.r. égale au nombre de boules rouges obtenues.
Noté que les tirages que ce soit simultanés ou successifs sont ici dépendants puisque la composition
de l’urne est différente après chaque tirage, dépendant des tirages précédents. Aussi, les n tirages
successifs sans remise sont équivalents à un tirage simultané de n boules et il y a donc équiproba-
bilité de chacun des CNn résultats possibles.
On note U l’ensemble des boules de l’urne. Ainsi, l’expérience est modélisée par :
Ω = {A ∈ P(U )/card(A) = n}, A = P(Ω) et P la probabilité uniforme.
La loi de X :
• Valeurs de X : Soit k le nombre des boules rouges obtenue parmis les n boules tirées. Il faut
bien entendu que k ≤ NR (nombre total de boules rouges) et n − k ≤ N − NR (nombre de
boules R) d’où les conditions :
max{0, n − (N − NR )} ≤ k ≤ min{n, NR }.
card(X = k)
• Poids de probabilié : Pour k ∈ X(Ω), on a : P (X = k) = .
card(Ω)
Or card(Ω) = CNn (nombre de parties à n éléments d’un ensemble de cardinal N) et
49
card(X = k) = CNk R × CNn−k−NR (nombre de parties contenant k boules rouges prises parmi
NR boules rouges multiplié par le nombre de parties contenant n − k boules R prises parmi
N − NR boules R).
Alors,
C k × C n−k CNk ·p × CNn−k
(1−p)
P (X = k) = NR n N −NR = .
CN CNn
X
Pour vérifier qu’il s’agit bien d’une loi de probabilité ( P(X = k) = 1), on utilise la formule
k∈X(Ω)
m
Crk × Csm−k = Cr+s
m
X
de Vandermonde .
k=0
Définition
Soit (n, N ) ∈ N2 tel que n ≤ N et soit p ∈]0, 1[ tel que N · p ∈ N. Une variable aléatoire X est
dite suit la loi hypergéométrique de paramètres (N ; n; p) si :
• X(Ω) = [[max{0, n − N (1 − p)}, min{n, N · p}]].
CNk ·p × CNn−k
(1−p)
• ∀k ∈ X(Ω), P(X = k) = .
CNn
On note X ∼ H(N ; n; p).
Remarque 21. Si le tirage (le choix) se fait successivement et avec remise alors dans ce cas on a :
NRk · (N − NR )n−k
∀k ∈ X(Ω), P(X = k) = Cnk × .
Nn
Propriété
Soit X ∼ H(N ; n; p). Alors :
N −n
E(X) = np, et V (X) = np(1 − p).
N −1
Application 5. Un joueur coche une grille de loto (il choisit 6 numéros parmi 49). Parmi les 49
numéros, on a 6 numéros gagnants (succés) et 43 numéros non gagnants.
1. Calculer la probabilité qu’a le joueur pour obtenir k numéros gagnants, (k ∈ {0, ..., 6}).
2. En moyenne, combien de numéros gagnants obtient-on en jouant une grille de loto ?
Solution :
6
L’univers Ω est l’ensemble des parties à 6 éléments de l’ensemble [[1; 49]]. Donc, card(Ω) = C49 .
1. Notons X la variable aléatoire correspondant au nombre de numéros gagnants.

6
On a X ∼ H(49, 6, ), donc
49
• X(Ω) = [[0; 6]].
6−k
C6k · C43
• ∀k ∈ X(Ω), P(X = k) = 6
. On obtient le tableau suivant :
C49
50
k 0 1 2 3 4 5 6
−4 −5
P(X = k)0,436 0,413 0,132 0,0177 9, 69.10 1, 84.10 7, 15.10−8
36
2. On a E(X) = n · p = ' 0, 735. Donc en moyenne, on obtient moins d’un numéro gagnant
49
par grille cochée.
7.5. Loi géométrique ou de Pascal
On considère une expérience aléatoire modélisée par un espace probabilisé (Ω, A, P) et on s’in-
téresse à un événement A appelé «succès» et on note p = P(A).
On répète une infinité de fois cette expérience aléatoire de manière « indépendante » (avec remise).
Ainsi, la nouvelle expérience sera modélisée par l’espace de probabilité (ΩN , Ã, P̃) (la définition de
la tibu Ã et de la probabilité P̃ sort du cadre de ce cours).
On considère la variable aléatoire X qui prend pour valeur le rang d’apparition du premier succès
obtenus au cours de cette nouvelle expérience.
La loi de X :
• X(Ω) = N∗ .
• À chaque épreuve est associé l’ensemble fondamental Ω = {A, A} et l’événement {X = k} pour
k ∈ N ∗ est représenté par une suite de k − 1 événements A, terminée par l’événement A :
A, A, ..., A, A
| {z }
k−1
Ainsi, la probabilité de cet événement est
P̃(X = k) = (1 − p)k−1 p.
X
Pour vérifier qu’il s’agit bien d’une loi de probabilité ( P(X
e = k) = 1), il suffit d’utiliser la
k∈X(Ω)
∞
1
xk =
X
série entière pour |x| < 1.
k=0 1−x
Définition
Soit p ∈]0; 1]. X suit la loi géométrique de paramètre p si :
• X(Ω) = N∗ .
• ∀k ∈ X(Ω), P (X = k) = (1 − p)k−1 p.
On note X ∼ G(p).
Proposition
Soit X une variable aléatoire qui suit la loi géométrique de paramètre p, alors :
1 1 p·t
• ∀t ∈] − ; [ on a GX (t) = .
1−p 1−p 1 − (1 − p) · t
1
• E(X) = .
p
51
1−p
• V (X) = .
p2
Démonstration. • ∀t tel que |(1 − p) · t| < 1 on a

∞ ∞ n
k k−1 k p·t
(1 − p)k · tk =
X X X
GX (t) = pk · t = p · (1 − p) ·t =t·p·
k=0 k=1 k=0 1 − (1 − p) · t
.
0 p 0 1
• On a GX (t) = et donc E(X) = GX (1) = .
(1 − t − p · t)2 p
!0
00 p 2p · (1 − p)
• On a GX (t) = = , par ailleur
(1 − t − p · t)2 (1 − (1 − p) · t)3
00 0 00 2(1 − p) 1 1 1−p
V (X) = GX (1) + GX (1) − (GX (1))2 = 2
+ − 2 = .
p p p p2
Application 6. Une urne contient 5 boules blanches et 10 boules noires. On tire des boules au
hasard et avec remise jusqu’à ce qu’on obtienne la première boule blanche (succès). Quelle est la
probabilité que la première boule blanche soit tirée aprés 4 tirages ?
Solution :
Soit X la variable aléatoire qui représente le nombre de boules tirées jusqu’à l’obtention d’une boule
5 1
blanche. Puisque la proportion des boules blanches est p = = , alors la variable X suit la loi
15 3
1 1

géométrique de paramètre p = X ∼ G( ) . Ainsi,
3 3
4−1 3
1 1 1 2

P(X = 4) = · 1 − = · ' 0, 1.
3 3 3 3
7.6. Loi de Poisson
Définition
Soient (Ω, A, P) un espace de probabilité et X une variable aléatoire a valeurs dans N .
Nous dirons que X est une variable aléatoire de Poisson de paramètre λ > 0 (X suit la loi de
Poisson) si :
λk
∀k ∈ N, P(X = k) = e−λ .
k!
Propriété
Si X est une variable aléatoire suit la loi Poisson de paramètre λ > 0, alors :
E(X) = λ, V (X) = λ et GX (t) = eλ(t−1) .
52
Démonstration. •
∞ ∞ ∞
λk λk λk+1
k × e−λ = e−λ = e−λ
X X X
E(X) =
k=0 k! k=1 (k − 1)! k=0 k!
∞
λk
= e−λ × λ × = e−λ × λ × eλ
X
k=0 k!
= λ
• On a V (X) = E(X 2 ) − (E(X))2 et puisque

∞ k ∞ ∞
X
−λ λ −λ
X λk −λ
X λk+2
E(X(X − 1)) = k(k − 1) × e = e =e
k=1 k! k=2 (k − 2)! k=0 k!
∞
−λ λk
2
= e−λ × λ2 × eλ
X
= e ×λ ×
k=0 k!
= λ2
alors, E(X 2 ) = λ2 + E(X) = λ2 + λ et donc V (X) = λ2 + λ − λ2 = λ.

λn
pn × tn = e−λ × tn = e−λ × eλ·t = eλ(t−1) .
X X
• On a GX (t) =
n≥0 n≥0 n!
Application 7. Admettons que le nombre d’erreurs X par page d’un livre suit une loi de Poisson
de paramètre λ = 0, 5. Calculer la probabilité qu’il y ait au moins une erreur dans une page donnée.
Solution :
0
−λ λ
On a P (X ≥ 1) = 1 − P (X = 0) = 1 − e = 1 − e−0,5 ≈ 0, 39.
0!
III. Variables aléatoires continues
On rappelle qu’une variable aléatoire réelle sur (Ω, A) est une application X : Ω −→ R telle que
−1
X (B) = {ω ∈ Ω/X(ω) ∈ B} ∈ A pour tout B ∈ BR , où BR est la tribu borilienne.
Exemple 43. 1. La durée de vie d’un individu est représentée par une variable aléatoire réelle.
2. La durée de jeu réel d’un joueur dans un matche de foot est représentée par une variable
aléatoire réelle.
Le résultat suivant est très utile.
Proposition
Soient X, Y et (Xn )n∈N∗ des variables aléatoires réelles. Alors,
X
1. X + Y , XY et si Y 6= 0 sont des variables aléatoires réelles.
Y
2. sup (Xn ) ,sup(Xn ), inf (Xn ) et inf (Xn ) sont des variables aléatoires réelles.
1≤n≤p 1≤n 1≤n≤p 1≤n
3. Z = 1A est une variables aléatoire réelle si, et seulement si, A ∈ A.
53
Définition
Une variable aléatoire réelle X est dit continue, si sa fonction de répartition FX est continue
en tout poit, ce qui est équivalent à dire que P(X = x) = 0 pour tout x.
Une classe importante des variables aléatoire réelles continues est la classe des variables aléatoire
de loi à densité.
1. Variables aléatoires à densité
Définition
On appelle densité Zde probabilité (ou densité),
toute fonction réelle Z
f définie sur Rqui est
positive, intégrable |f (x)|dx est fine et de densité totale égale 1 f (x)dx = 1 .
R R
Z x
Si f est une densité de probabilité, alors la fonction F définie par F (x) = f (t)dt est une fonction
−∞
croissante, continue à droite en tout point et vérifie lim F (x) = 0 et lim F (x) = 1. C’est donc
x−→−∞ x−→+∞
la fonction de répartition d’une probabilité.
Définition
Une variable aléatoire réelle X est dite de densité f (de loi à densité f ), si pour tout réel x on
a: Z x
FX (x) = f (t)dt.
−∞
Remarque 22. f n’est pas unique. Il suffit de la modifier en un point, et on obtient une autre
fonction vérifiant toutes les conditions de la définition (modifier une fonction en un point ne change
pas la valeur de l’intégrale).
Proposition
Soient X une variable aléatoire réelle de loi PX de densité f . Alors, la probabilité d’un intervalle
s’obtient en intégrant la densité sur cet intervalle :
Z x2
P(X ∈ [x1 , x2 ]) = f (t)dt.
x1
54
Démonstration. En effet,
P(X ∈ [x1 , x2 ]) = PX ([x1 , x2 ]) = FX (x2 ) − FX (x1 )

Z x2 Z x1
= f (t)dt − f (t)dt
−∞ −∞
Z x2 Z −∞
= f (t)dt + f (t)dt
−∞ x1
Z x2
= f (t)dt.
x1
Remarque 23. pour une variable aléatoire à densité, la valeur de la probabilité ne change pas selon
que l’on met des inégalités strictes ou larges :
P(X ∈ [x1 , x2 ]) = P(X ∈]x1 , x2 ]) = P(X ∈ [x1 , x2 [) = P(X ∈]x1 , x2 [)
En effet, ∀x ∈ R, P (X = x) = lim+ FX (t) − FX (x) = 0, et donc par exemple :

t−→x
P(X ∈]x1 , x2 ]) = P(X ∈ [x1 , x2 ]) − P(X = x1 ) = P(X ∈ [x1 , x2 ]).
Corollaire
Soient X une variable aléatoire réelle de loi PX de densité f . Alors, la fonction de répartition
FX de X est continue.
Proposition
Soient X une variable aléatoire réelle de loi PX de densité f . Alors, en tout point α où f est
continue, FX est dérivable et on a :
0
FX (α) = f (α).
55
Démonstration. Soit α un point où f est continue. Alors, on a :
∀ > 0, ∃η > 0, |x − α| ≤ η =⇒ |f (x) − f (α)| ≤ .
1 Z α+h
Soient > 0 fixé, et h tel que |h| < η. On remarquons que f (α) = f (α)dt on a :
h α
FX (α + h) − FX (α) 1 Z α+h
− f (α) = (f (t) − f (α))dt
h h α
1 Z α+h
≤ |f (t) − f (α)|dt
h α
1
≤ h
h
≤ .
FX (α + h) − FX (α)
Ainsi, lim = f (α).
h−→0 h
Exemple 44. Soit f la fonction définie sur R par :



 0 si t ≤ 0
1


√

f (t) =  si 0 < t < 1
4 t

 1
si 1 ≤ t



2t2
La fonction f estZ positive et intégrable sur R (car elle admet un nombre fini de points de disconti-
+∞
nuités), de plus f (t)dt = 1. En effet :
−∞
√ 1
Z 1 Z 1
1 1 1
• f (t)dt = lim √ dt = lim t =
0 x−→0 x 4 t x−→0 2 x 2
x
Z +∞ Z x
1 −1 1

• f (t)dt = lim 2
dt = lim =
1 x−→+∞ 1 2t x−→+∞ 2t 1 2
Z +∞ Z +∞ Z 1 Z +∞
1 1
Donc, f (t)dt = f (t)dt = f (t)dt + f (t)dt = + = 1. Ainsi, f est la densité
−∞ 0 0 1 2 2
d’une variable aléatoire X dont la fonction de répartition soit :



 0 si x ≤ 0
1√



F (x) =  x si 0 < x < 1
2

 1
1− si 1 ≤ x



2x
Inversement, on a la proposition suivante.
Proposition
Soient X une variable aléatoire réelle et FX sa fonction de répartition. Si la fonction FX est
dérivable sur R, alors X admet la densité de probabilité f définie par f (x) = F 0 (x).
2. Moment d’une variables aléatoires à densité
56
Définition Z
Soit X une variable aléatoire à densité f satisfaisant |xf (x)|dx < ∞. On appelle espérance
R
de X le réel : Z
E(X) = xf (x)dx.
R
X
C’est l’analogue de l’expression de l’espérance dans le cas discret E(X) = xi P(X = xi ).
i∈I
Exemple 45. 1) Soit X une variable aléatoire de densité f définie par

1 1
∀x ∈ R, f (x) = × 2 × 1[1,+∞[ .
ln(2) t + t
1
On peut vérifier facilement que f est une densité, et puisque xf (x) ∼ alors la variable
+∞ ln(2) ×x
aléatoire X ne possède pas d’espérance.
2) Soit Y la variable aléatoire de densité g définie par
2
∀t ∈ R, g(t) = × 1[1,+∞[ .
t3
2
Puisque tg(t) ∼ alors la variable aléatoire Y admet une espérance E(Y ), et on a :
+∞ t2
x
Z +∞ Z +∞
1 Z x
1 −1

E(Y ) = tg(t)dt = 2 2
dt = 2 × lim 2
dt = 2 × lim = 2.
1 1 t x−→+∞ 1 t x−→+∞ t 1
Pour l’espérance d’une variable aléatoire réelle à densité, on a les mêmes propriétés que dans
le cas discret,
Z mais elles sont délicates à démontrer sans faire appel à la théorie de la mesure
(E(X) = X(ω)P(dω)). Par contre, on n’a plus de structure d’espace vectoriel : la somme de deux
Ω
variables à densité n’est pas nécessairement une variable à densité (considérer X − X par exemple).
On annonce donc sans démonstration les résultats suivants :
Propriété
Soient X et Y deux variables aléatoires réelles à densité admettant une espérance, et soit
a ∈ R. Alors X + aY admet une espérance, et on a
E(X + aY ) = E(X) + aE(Y ).
Théorème : Théorème de transfert

Soient
Z X une variable aléatoire réelle à densité f , et g : R −→ R une fonction telle que
|g(x)| × f (x)dx < ∞. Alors g(X) possède une espérance, et on a
R
Z
E(g(X)) = g(x) × f (x)dx.
R
Pour la variance et le moment d’ordre 2, on a :
57
Définition
Soit X une variable aléatoire réelle à densité f . On appelle moment d’ordre 2 l’espérance, si
elle existe, de la variable aléatoire X 2 . C’est donc le réel
Z
2
E(X ) = x2 × f (x)dx.
R
Propriété
Si X est une variable aléatoire réelle à densité f et possède un moment d’ordre 2, alors X
admet une espérance.
Définition
Soit X une variable aléatoire réelle à densité f . On appelle variance de X l’espérance,si elle
existe, de la variable aléatoire (X − E(X))2 . C’est donc le réel
Z
V ar(X) = (x − E(X))2 × f (x)dx.
R
Nous avons évidemment encore
V ar(X) = E(X 2 ) − (E(X))2 .
Les définitions suivantes permettent de caractériser l’asymétrie d’une loi de probabilité (distri-
bution de probabilité).
Définition
Soit X une variable aléatoire réelle à densité f .
• On appelle moment non centré d’ordre p ∈ N∗ de X, la quantité, lorsqu’elle existe :
Z
mp (X) = E(X p ) = xp × f (x)dx.
R
• On appelle moment centré d’ordre p ∈ N∗ de X, la quantité, lorsqu’elle existe :

Z
µp (X) = E((X − E(X))p = ((x − E(X))p × f (x)dx.
R
L’asymétrie d’une distribution peut se caractériser par le moment centré d’ordre trois. En effet, la
distribution est :
— si µ3 (X) = 0, alors la distribution de X est symétrique ;
— si µ3 (X) > 0, alors la distribution de X est dissymétrique étalée vers la droite ;
— si µ3 (X) < 0, alors la distribution de X est dissymétrique étalée vers la gauche.
58
3. Lois usuelles continues
3.1. Loi uniforme
Définition
La variable aléatoire réelle X suit la loi uniforme sur l’intervalle [a, b] (−∞ < a < b < +∞) si
elle a une densité f définie par :
1

si x ∈ [a, b]


f (x) =  b − a
 0 si x ∈
/ [a, b]
On note X ∼ U([a, b]).
59
Propriété
Si X est une variable aléatoire suit la loi uniforme continue sur l’intervalle [a, b], alors sa
fonction de répartition est la fonction définie par :



 0 si x < a
x−a


FX (x) =  si x ∈ [a, b]

 b−a
1 si x > b


ainsi que son espérance et sa variance :
a+b (b − a)2
E(X) = V (X) = .
2 12
Démonstration. • Déterminons
Z x la fonction de répartition de X :
— si x < a : FX (x) = 0dt = 0.
−∞ Z
x Z a Z x
1 x−a
— si a ≤ x ≤ b : FX (x) = f (t)dt = 0dt + dt = .
Z x −∞
Z a −∞
Z b a b−aZ b−a
1 x
— si x > b : FX (x) = f (t)dt = 0dt + dt + 0dt=1.
−∞ −∞ a b−a b
• Calculons l’espérance :
Z +∞
1 Zb b+a
E(X) = xf (x)dx = xdx = .
−∞ b−a a 2
• Calculons maintenant la variance : On a
2
Z +∞
2 1 Zb 2 b2 + ab + a2
E(X ) = x f (x)dx = x dx =
−∞ b−a a 3
(b − a)2
ainsi, V (X) = E(X 2 ) − E 2 (X) = .
12
Application 8. On remplit un verre de volume 20 cl d’une quantité aléatoire d’eau choisie unifor-
mément entre 0 et 20 cl :
1. quelle est la probabilité d’obtenir moins de 5 cl d’eau ?
2. on vide 5 verres ainsi remplis dans une très grande bassine. Quelle quantité moyenne d’eau
obtient-on dans la bassine ?
Démonstration :
Soit X la variable aléatoire correspondant à la quantité d’eau dans un verre. Par hypothèse, X suit
une loi uniforme sur l’intervalle [0; 20].
60
1. On cherche P (X ≤ 5). Par définition de la fonction de répartition, on a P(X ≤ 5) = FX (5).

Or, pour une variable uniforme sur [0; 20], on a
5−0 1
FX (5) = = ,
20 − 0 4
1
alors, la probabilité recherchée est P(X ≤ 5) = .
4
2. Quand on vide 5 verres remplis aléatoirement, V1 ; V2 ; ...; V5 , on obtient la quantité aléatoire
X1 + X2 + ... + X5 . Par linéarité de l’espérance, on a
E(X1 + X2 + ... + X5 ) = E(X1 ) + E(X2 ) + ... + E(X5 ).

0 + 20
Puisque les variables étant toutes uniformes sur [0; 20], elles sont toutes d’espérance .
2
La quantité moyenne d’eau obtenue dans la bassine est de donc 5 × 10 = 50 cl.
3.2. Loi exponentielle
Définition
Soit λ > 0. X suit la loi exponentielle de paramètre λ si elle a pour densité :

 λe−λx si x ≥ 0
f (x) = 
0 si x < 0
On note X ∼ E(λ).
Propriété
Si X est une variable aléatoire suit une loi exponentielle de paramètre λ, alors sa fonction de
répartition est la fonction définie par :

 0 si x < 0
FX (x) =
 1 − e−λx si x ≥ 0
61
ainsi que son espérance et sa variance (à l’aide d’intégration par parties) :

1 1
E(X) = V (X) = .
λ λ2
En pratique, plutôt que de travailler avec la fonction de répartition d’une loi exponentielle, il est
plus commode d’utiliser la fonction de survie G définie par :

 1 si x ≤ 0
G(X) = P(X > x) = 1 − FX (x) =
 e−λx si x ≥ 0
Les lois exponentielles sont souvent utilisés pour modéliser une durée de vie ou le temps d’attente
avant l’arrivée d’un événement spécifique. Par exemple, temps d’attente à partir de maintenant du
prochain tremblement de terre, du prochain faux numéro sur une ligne téléphonique, la durée de
vie d’une bactérie...
Exemple 46. Supposons que la durée de vie d’une conversation téléphonique mesurée en minutes
soit une variable aléatoire exponentielle de paramètre λ = 0, 1. Vous arrivez à une cabine télépho-
nique et quelqu’un entre juste devant vous.
1. Avec quelle probabilité devez-vous attendre plus de 10 minutes ?
2. Avec quelle probabilité devez-vous attendre entre 10 et 20 minutes ?
Solution :
Soit X la variable aléatoire qui désigne la durée de la conversation de la personne précédente. On
a X ∼ E(0, 1) et donc
Z +∞
1. P(X > 10) = 0, 1 · e−0,1·x dx ' 0, 368.
10
Z 20
2. P(10 < X < 20) = 0, 1 · e−0,1·x dx ' 0, 233.
10
L’absence de mémoire en temps continu caractérise les lois exponentielles. C’est-à-dire qu’elle
vérifie :
Propriété
Si X ∼ E(λ), alors
∀s ∈ R, ∀t > 0, P(X > s + t/X > t) = P(X > s).
62
De plus, cette propriété caractérise la loi exponentielle.
Démonstration. Soit G(t) = P (X > t) = 1 − FX (t) la fonction de survie de X. D’après la formule

des probabilités conditionnelles, la propriété de l’énoncé équivaut à dire que G(t + s) = G(t)G(s)
pour tous s, t > 0. Comme G est décroissante et continue à droite et tend vers 0 à l’infini, cela revient
aussi à dire que la solution de la dernière équation fonctionnelle est une exponentielle négative, de
la forme G(t) = e−λ·t pour un λ > 0 (la preuve est laissée au lecteur). La caractérization demandée
s’obtient en utilisant le fait qu’une fonction de répartition caractérise la loi à laquelle elle est associée
et la définition d’une loi exponentielle.
Application 9. On suppose que la durée de vie d’un disque dur est distribuée selon une loi expo-
nentielle. Le fabricant veut garantir que le disque dur a une probabilité inférieure à 0, 001 de tomber
en panne sur un an. Quelle durée de vie moyenne minimale doit avoir le disque dur ?
Démonstration :
Soit X la variable aléatoire donnant la durée de vie du disque dur. La variable X suit une loi
exponentielle de paramètre λ. Le fabricant veut garantir que
P(X ≤ 1) ≤ 0, 001.
Comme P(X ≤ x) = FX (x) par définition. En appliquant la formule de la fonction de répartition

d’une variable de loi exponentielle, on obtient l’inégalité
1 − e−λ·1 ≤ 0, 001.
On a alors
1 − e−λ·1 ≤ 0, 001
0, 999 ≤ e−λ
λ ≤ − ln(0, 999)
−1 1
≤
ln(0, 999) λ
1
999, 5 ≤
λ
1
Or, X suit une loi exponentielle, alors son espérance est . Ainsi, la durée de vie moyenne du disque
λ
dur doit donc être d’au moins 999, 5 ans !.
3.3. Loi normale ou de Laplace-Gauss
Nous introduisons ici la loi de probabilité la plus célèbre en probabilité. C’est une loi fonda-
mentale car elle apparaît comme «loi limite» dans de très nombreuses situations, en vertu du
Théorème Central Limite, que l’on abordera dans le chapitre sur les convergences de suites de va-
riables aléatoires (semestre 5).
63
Définition
X suit la loi normale centrée réduite si elle a pour densité f définie par :
1 x2
∀x ∈ R, f (x) = √ e− 2 .
2π
On note X ∼ N (0; 1).
On peut vérifier que f est bien une densité. En effet :

Z +∞ Z +∞
1
• f est paire, donc f (x)dx converge si et seulement si f (x)dx converge. Or f (x) = o( ),
Z +∞ −∞ 0 x2
alors f (x)dx converge.
−∞
• Pour le calcul de l’intégrale, le problème est que la fonction f ne possède pas de primitive «usuelle»
permettant de mener le calcul et on n’y parvient pas avec des intégrations par parties ou des
changements de variables.
Attention : f étant continue sur R, elle possède bien des primitives (et même une infinité !).
Z +∞ x2
On donne ici une façon classique de calculer e− 2 dx, qu’il est bon d’avoir vue une fois :
0
l’idée est de passer dans le plan,
Z a et d’utilisern les coordonnées polaires.
2
− x2
On pose, pour a > 0, I(a) = e dx.
0
On a, par le théorème de Fubini :
Z a Z a
y2 x2 +y 2

x2
Z Z
(I(a))2 = e− 2 dx e− 2 dy = e− 2 dxdy.
0 0 [0;a]2
On ne peut pas passer facilement en coordonnées polaires puisqu’on intègre sur le carré [0; a]×
[0; a]. On va intégrer sur le quart de disque en posant :
π
Da = {(rcos(θ); rsin(θ))/r ∈ [0; a], θ ∈ [0; ]}
2
On peut alors calculer, en posant x = rcos(θ) et y = rsin(θ) :
2 +y 2
r2
Z Z Z Z
−x
J(a) = e 2 dxdy = e− 2 rdrdθ.
Da [0;a]×[0; π2 ]
En utilisant de nouveau le théorème de Fubini, on obtient :

π
! Z a
Z a 2

π r2

π

a2

2 − r2
J(a) = dθ re dr = −e− 2 = 1 − e− 2
0 0 2 0 2
π
et donc, lim J(a) =
.
a−→+∞ 2
On encadre ensuite (I(a))2 . On a : Da ⊂ [0; a]2 ⊂ Da√2 , et comme la fonction intégrée est
positive ;
√
J(a) ≤ (I(a))2 ≤ J(a 2).
En passant à la limite, par encadrement,
π
lim (I(a))2 = ,
a−→+∞ 2
Z +∞ 2
− x2
r
π Z +∞
x2 √
et on a donc e dx = . Ainsi, e− 2 dx = 2π.
0 2 −∞
64
Propriété
Si X ∼ N (0; 1), alors
E(X) = 0 et V (X) = 1.
Z +∞
Démonstration. • L’existence de xf (x)dx est assurée par le fait que la fonction x 7→ xf (x)
−∞
1
est continue et qu’en l’infini, xf (x) = o( ). Comme elle est impaire, on a bien
x2
Z +∞
1 x2
x · √ e− 2 dx = 0.
−∞ 2π
Z +∞
• Pour la variance, l’existence de x2 f (x)dx est assurée pour la même raison que l’espérance
−∞
et le calcul se fait en intégrant par parties. En effet
!
Z +∞
1 − x2 1 x2
+∞ Z +∞

x2
−
2
x · √ e 2 dx = √ −xe 2 + e− 2 dx
−∞ 2π 2π −∞ −∞
1 √
= √ 0 + 2π = 1
2π
La fonction de répartition n’a pas d’expression «explicite» à l’aide des fonctions usuelles. Elle
est donnée sousZ la forme d’une table fournie dans la page suivante, où sont rassemblées des valeurs
x 1 t2
approchées de √ e− 2 dt.
−∞ 2π
65
Loi normale centrée réduite
Le tableau donne avec une précision de 10−4 les valeurs de la fonction de répartition de la loi normale
centrée réduite : Z x
1 t2
FX (x) = √ e− 2 dt
−∞ 2π
Exemple 47. FX (1, 21) = 0, 8869 FX (0, 73) = 0, 7673 FX (1, 48) = 0, 9306.
Définition
Soient m ∈ R et σ > 0. La variable aléatoire X suit la loi normale de paramètre m et σ si elle
a pour densité :
1 (x−m)2
∀x ∈ R, f (x) = √ e− 2σ2 .
σ · 2π
On note X ∼ N (m; σ).
66
Remarque 24. 1. On peut constater que f (2m − x) = f (x), ce qui indique que le graphe de f
est symétrique par rapport à la droite verticale x = m.
2. L’expression (x − m)2 est minimum pour x = m, ce qui va correspondre à un maximum pour
f de valeur :
1
f (m) = √ .
σ 2π
(m − x − σ) (m − x + σ) · f (x)
3. On a f 00 (x) = ,
00
σ4
donc f s’annule en changeant de signe pour x = m − σ et x = m + σ, ce qui correspond à
deux points d’inflexion pour le graphe de f .
4. Enfin, quand x devient infini, alors f (x) tend vers 0 et donc l’axe des abscisses est asymptote
au graphe.
Toutes ces remarques permettent de tracer le graphe de la densité f .
Pour des valeurs particulières, on trouve
Propriété
Si X est une variable aléatoire continue, alors pour tout a ∈ R on a :
1. P(X ≥ a) = P(X > a) = 1 − P(X ≤ a) = 1 − FX (a).
2. FX (−a) = 1−FX (a), car la fonction de répartition est symétrique par rapport à la droite
d’équation x = m ; c.a.d P(X < −a) = P(X > a).
67
3. Si a > 0, alors P(|X| < a) = 2FX (a) − 1.
Grâce à la propriété suivante, on peut toujour se ramèner à la loi normale centrée réduite :
Propriété
Soit X une variable aléatoire, alors
X −m
X ∼ N (m; σ) ⇐⇒ ∼ N (0; 1).
σ
Démonstration. Si X ∼ N (m; σ), alors pour tout y ∈ R on a :
X −m Z σy−m
1 (x−m)2
P( ≤ y) = P(X ≤ σy − m) = √ e− 2σ2 dx.
σ −∞ σ · 2π
x−m
En faisant le changement de variable t = nous obtenons
σ
X −m Z y
1 t2
P( ≤ y) = √ e− 2 dt.
σ −∞ 2π
X −m 1 x2 X −m
La variable aléatoire a pour densité x 7→ √ e− 2 , ainsi ∼ N (0; 1).
σ 2π σ
Propriété
Soit X une variable aléatoire, telle que X ∼ N (m; σ). Alors
E(X) = m V (X) = σ 2 .
X −m
Démonstration. On a X ∼ N (m; σ) =⇒ ∼ N (0; 1)
σ
et donc
X −m X −m
E( ) = 0 et V ( )=1
σ σ
ce qui entraine que
1
E(X − m) = 0 et 2 V (X − m) = 1
σ
et par suite
E(X) = m et V (X) = V (X − m) = σ 2 .
Application 10. D’après une étude récente, la taille des femmes marocaines est distribuée selon une
loi normale de moyenne m = 1, 58 et d’écart-type σ = 0, 06. Pour produire un stock de vêtements,
un fabricant souhaite utiliser cette loi.
1. Il commence par déterminer un intervalle de la forme [m − a; m + a] (donc symétrique autour
de la moyenne) contenant en moyenne 90% (environ) des tailles des femmes marocaines.
Calculer a.
68
tailles, S, M et L, correspondant respectivement aux intervalles

2. Il en déduit trois
m−a m−a m+a m+a
m − a; , ; et ; m + a . Calculer le pourcentage de la production
3 3 3 3
qui doit être affecté à chaque taille.
Démonstration :
1. Soit T la variable aléatoire représentant la taille d’une femme. Par hypothèse, T suit une loi
normale N (1, 58; 0, 062). On cherche a > 0 tel que
P (T ∈ [m − a; m + a]) = 0, 9.
T −m
Soit la variable Y = . On sait que Y suit une loi normale standard N (0; 1). De plus,
σ
on a
m−a ≤ T ≤m+a
a T −m a
− ≤ ≤ .
σ σ σ
a a

Donc, P (T ∈ [m − a; m + a]) = 0, 9 ⇐⇒ P T ∈ − ; ] = 0, 9.
σ σ
Cherchons donc λ tel que P(Y ∈ [−λ; λ]) = 0, 9.
On utilise ci-dessus la manipulation classique permettant de se ramener à une
variable aléatoire distribuée selon une loi normale standard pour laquelle on dis-
pose d’une table. La technique consiste à appliquer à l’évènement défini sur la
variable d’origine (ici T ) les transformations qui conduisent à la variable centrée
et réduite (ici Y ). On transforme ainsi l’évènement sur T en un évènement sur Y
pour lequel on pourra appliquer la table.
On sait que
P(Y ∈ [−λ; λ]) = FY (λ) − FY (−λ)
car Y est une variable aléatoire continue. De plus, par symétrie de la loi normale standard,
on a FY (−λ) = 1 − FY (λ), et ainsi
P(Y ∈ [−λ; λ]) = 2FY (λ) − 1.
De ce fait, chercher λ tel que P(Y ∈ [−λ; λ]) = 0, 9 est équivalent à chercher λ tel que
1 + 0, 9
FY (λ) = = 0, 95.
2
La lecture de la table de la loi normale donne : FY (1, 64) = 0, 9495 et FY (1, 65) = 0, 9505.
Pour avoir un intervalle légèrement plus grand que celui recherché par le fabricant, on choisit
λ = 1, 65. Si on pose a = σ · λ = 0, 06 × 1, 65 = 0, 099, on a donc
P (T ∈ [m − a; m + a]) = P (T ∈ [1, 481; 1, 679]) ' 0, 9.
2. Étudions le premier intervalle. On a

a
m−a ≤ T ≤m−
3
a
−a ≤ T − m ≤ −
3
a T −m a
− ≤ ≤
σ σ 3σ
λ
−λ ≤ Y ≤ − .
3
69
et donc
!
a λ

P T ∈ [m − a; m − ] = P Y ∈ [−λ; − ]
3 3
λ
= FY (− ) − FY (−λ)
3
λ
= 1 − FY ( ) − 1 + FY (λ)
3
1, 65

= 0, 9505 − FY
3
= 0, 9505 − 0, 7088
= 0, 2417
On a de la même façon
!
a a λ λ

P T ∈ [m − ; m + ] = P Y ∈ [− ; ]
3 3 3 3
λ λ
= FY ( ) − FY (− )
3 3
λ
= 2FY ( ) − 1
3
= 2 × 0, 7088 − 1
= 0, 4176.
Et enfin
!
a λ

P T ∈ [m + ; m + a] = P Y ∈ [ ; λ]
3 3
λ
= FY (λ) − FY ( )
3
= 0, 9505 − 0, 7088
= 0, 2417.
ce dernier résultat étant évident par symétrie de la loi normale autour de sa moyenne.
On calcule enfin les pourcentages à partir de ces probabilités. La production totale correspond
à 90% de la population et on doit donc diviser les probabilités obtenues par cette valeur. On
obtient alors
0, 2417
pourcentage de S = ' 27%
0, 90
0, 4176
pourcentage de M = ' 46%
0, 90
0, 2417
pourcentage de L = ' 27%.
0, 90
4. Loi de probabilité d’une variable aléatoire Y fonction d’une

autre variable aléatoire X
Soient X une variable aléatoire réelle définie sur (Ω, A, P), admettant FX pour fonction de
répartition et f pour densité.
70
Soit ϕ une application continue (continue par morceaux) de R dans R, muni de sa tribu de Borel.
L’application composée, ϕ ◦ X de (Ω, A) dans R définit donc une variable aléatoire réelle notée
Y = ϕ(X).
Pour tout B ∈ B(R). On a :
PY (B) = P(Y −1 (B)) = P(X −1 ◦ ϕ−1 (B)) = PX (ϕ−1 (B)).
Deux cas sont à distinguer selon que l’application ϕ est bijective ou non.
• ϕ est bijective : Nous allons alors distinguer deux cas :
— ϕ est croissante : dans ce cas la, on a
ϕ(X) ≤ y ⇐⇒ X ≤ ϕ−1 (y)
et donc, la fonction de répartition de Y est donnée par :
FY (y) = P(X ≤ ϕ−1 (y)) = FX (ϕ−1 (y)).
— ϕ est décroissante : dans ce cas la, on a
ϕ(X) ≤ y ⇐⇒ X ≥ ϕ−1 (y)
et donc, la fonction de répartition de Y est donnée par :
FY (y) = P(X ≥ ϕ−1 (y)) = 1 − FX (ϕ−1 (y)).
Si X admet une densité f et si ϕ est de plus dérivable, alors on peut déterminer la densité g
de la variable aléatoire Y par dérivation. En effet,
— si ϕ est croissante :
dFY d h i f ◦ ϕ−1 (y)

g(y) = = FX (ϕ−1 (y)) = 0 .
dy dy ϕ ◦ ϕ−1 (y)
— si ϕ est décroissante :
dFY d h i f ◦ ϕ−1 (y)

g(y) = =− FX (ϕ−1 (y)) = − 0 .
dy dy ϕ ◦ ϕ−1 (y)
• ϕ est une application quelconque : La fonction de répartition et la densité de la variable Y
sont obtenues en cherchant directement l’antécédent ou les antécédents, pour la variable X,
de l’événement Y ≤ y.
71
BIBLIOGRAPHIE
[1] Jérôme ESCOFFIER : Probabilités et statistiques pour le CAPES externe et l’Agrigation

interne de mathematiques "deuxième édition".
[2] Jean Pierre Lecourte : Statistique et probabilités "Cours et exercices corrigés" 6ième édition.
[3] Sylvie Méléard : Aléatoire "Introduction à la théorie et au calcul des probabilités", Éditions de
l’École Polytechnique - Décembre 2010 91128 Palaiseau Cedex.
72

Poly SMIA (S3) Probabilté (2021-2022)

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Poly SMIA (S3) Probabilté (2021-2022)

Transféré par

Droits d'auteur :

Formats disponibles

Université Moulay Ismail

Faculté des Sciences

Support du cours sur le

Réalisé par: J. H’michane et M. Zitane

Année Universitaire 2021-2022

1 Dénombrement et analyse combinatoire 2

Exemple 1. Pour tout m, n ∈ Z tel que m ≤ n, on a card({m, m + 1, ..., n}) = n − m + 1. En effet,

f bijective ⇔ f injective ⇔ f surjective.

card(A \ B) = card(A) − card(B).

Lorsque les ensembles A1 , A2 , ..., An sonr disjoints de même cardinal p, alors

2.1. Principes du dénombrement

Comment utiliserons ce principe ? Qaund un problème de dénombrement a été décomposé intellec-

2.2. p-uplet (p-liste)

Théorème : Cardinal d’un produit cartésien

card(A1 × A2 × ... × An ) = card(A1 ) × card(A2 ) × ... × card(An ).

En particulier, card(An ) = (card(A))n .

Contruire un élément du produit A1 × A2 × ... × An , c’est choisir d’abord un élément de A1 puis

Si on pose n = card(E), alors d’après le théorème précédent il existe np p − uplet de E.

Théorème : Nombre d’applications entre deux ensembles finis

card(F(E, F )) = card(F )card(E) ,

Démonstration. Pour construire une application quelconque f de l’ensemble E = {e1 , e2 , ..., ep }

2.3.1. Arrangement simple

Proposition : Nombre d’injections

2.3.2. Arrangement avec répétitions

Exemple 7. • Le nombre de numéros de téléphone composés de 9 chiffres est : 109 .

2.4.1. Permutations simple

2.4.2. Permutations avec répétitions

2.5.1. Combinaisons simple

2.5.2. Combinaisons avec répétitions

Proposition : Binôme de Newton

À l’aide du triangle de Pascal on peut tirer les propriétés suivantes :

Théorème : Nombre de parties d’un ensemble

I. Le langage des probabilité

Remarque 2. Si on répète la même expérience d’univers Ω, on pourra choisir comme univers Ωn

• Réalisation d’un événement :

♦ Complémentaire (contraire) de A : est un événement constitué des résultats élémen-

X A ∪ B se séalise si et seulement si A se réalise ou B se réalise.

II. Définition générale des probabilités

Exemple 20. — Les ensembles N, Z et Q sont des ensembles dénombrables.

• Choix d’une tribu : Se fait en fonction de l’information qu’on a sur l’expérience.

3. Définition d’une probabilité :

Nous cherchons à définir, pour un ensemble possible de réalisations de l’expérience A ∈ A,

Dans la modélisation d’une phénomène aléatoire, la tribu représente un ensemble de parties de

Définition : Modèle de probabilité (Kolmogorov 1933)

P(A ∪ B ∪ C) = P(A) + P(B) + P(C) − P(A ∩ B) − P(A ∩ C) − P(B ∩ C) + P(A ∩ B ∩ C).

7) Si (Ai )i∈N est une famille finie ou dénombrable d’événements, alors on a :

4). On démontre la formule par récurrence sur n.

P(Ai1 ∩ Ai2 ∩ An+1 ) + (−1)k

Grâce au σ-additivité de P, on en déduit que :

P(A1 ∪ A2 ∪ ... ∪ Ak ) ≤ P(A1 ) + P(A2 ) + ...P(Ak ).

Nous montrons cette propriété par récurrence sur k :

P (E ∪ Ak ) + P (E ∩ Ak ) = P (E) + P (Ak ) = P(E) + P(Ak )

d’où, la propriété est vraie pour k.

et d’aprés la propriété (5) on a

4. Probabilité sur un espace fini ou dénombrable :

Vous pouvez vérifier facilement que P est une probabilité sur Ω.

Probabilité uniforme : Un exemple important de probabilité sur un espace d’états Ω fini

Ainsi, si A ⊂ P(Ω) un événement, alors :

Remarque 5. — Le calcul d’une probabilité uniforme se ramène à des dénombrements (calcul

5. Conditionnement (Probabilité conditionnelle) :

Proposition : Formule des probabilité totale

Proposition : Formule de Bayes

Solution : On considère les événements suivants :

P(A ∩ B) = P(A) × P(B).