Cours

Cours Commun Scientifique
de
Probabilités & Statistiques
Laurent Tournier
Janvier 2019
Plan du cours
1 Espaces de probabilité.
Définitions
Équiprobabilité
Probabilités conditionnelles
2 Variables aléatoires. Généralités
3 Couples de variables aléatoires

Espaces de probabilités
Définition
Un espace de probabilité (Ω,P) est constitué de
Ω, un ensemble
P, une probabilité sur Ω. (qui reste à définir)
Ω correspond à l’ensemble des résultats d’une expérience aléatoire.

Un élément ω ∈ Ω est appelé une réalisation, c’est un résultat possible
d’une expérience aléatoire.
Un sous-ensemble A ⊂ Ω est appelé un événement. C’est un ensemble de
réalisations (celles qui vérifient une certaine condition).
Les opérations usuelles sur des événements A et B ont un sens logique :
Notation Sens mathématique Interprétation en probabilités
c
A (= Ω \ A) complémentaire de A contraire de A, « non A »
A∪B réunion de A et B « A ou B »
A∩B intersection de A et B « A et B »
A∩B=∅ A et B sont disjoints « A et B sont incompatibles »
A⊂B A est inclus dans B « A implique B ».
Espaces de probabilités ; exemples
Ω correspond aux résultats de l’expérience :
tirage à pile-ou-face, Ω = {P,F} ou {0,1}

lancer d’un dé, Ω = {1,2,3,4,5,6}
lancer de deux pièces, Ω = {P,F}2 = {(P,P),(P,F),(F,P),(F,F)}
choix de deux parts dans une galette coupée en 8 :
Ω = {(i,j) | i,j ∈ {1, . . . ,8} et i 6= j}
ou, si l’ordre n’a pas d’importance,
Ω = {{i,j} | i,j ∈ {1, . . . ,8} et i 6= j}
attente d’un bus qui passe toutes les T minutes, Ω = [0,T] ⊂ R

placement d’une fève circulaire dans une galette, Ω = D(0,R) ⊂ R2
Pour une même expérience, divers choix de Ω sont possibles. Souvent, on ne

décrira pas Ω et on fera des hypothèses sur des événements (et des variables
aléatoires) en sachant qu’il existe un espace de probabilité Ω convenable.
Une expérience aléatoire d’actualité : tirer les rois
Selon une tradition française (du XVe siècle), on
« tire les rois » à l’Épiphanie (1er dimanche de jan-
vier) : une fève est cachée dans une galette, qui est
un gâteau feuilleté fourré à la frangipane (pâte aux
amandes). On découpe cette galette, et la personne
qui obtient la fève devient le “roi”/la “reine” de la
journée.
La fève était à l’origine une fève (un haricot sec). On utilise maintenant
plutôt un petit objet, généralement en porcelaine, qui peut se collectionner.
Pour A ⊂ Ω, P(A) est la « proportion de chance » que A se réalise.
Intuition : si on répète l’expérience, P(A) est la proportion des fois où A se
réalise (cf. Loi des grands nombres).
Définition
Une probabilité sur Ω est une application P : P(Ω) → [0,1], définie
sur les événements, telle que
1 P(Ω) = 1
2 pour
[toutesuite (An )n∈N d’événements disjoints deux à deux,
X
P An = P(An ).
n∈N n∈N
Si un événement A vérifie P(A) = 0, on dit que A est négligeable ; et

si P(A) = 1, on dit que A est presque sûr, ou que A a lieu presque
sûrement, abrégé « p.s. ».
Pour A ⊂ Ω, P(A) est la « proportion de chance » que A se réalise.
Intuition : si on répète l’expérience, P(A) est la proportion des fois où A se
réalise (cf. Loi des grands nombres).
Définition
Une probabilité sur Ω est une application P : P(Ω) → [0,1], définie
sur les événements, telle que
1 P(Ω) = 1
2 pour
[toutesuite (An )n∈N d’événements disjoints deux à deux,
X
P An = P(An ).
n∈N n∈N
Si un événement A vérifie P(A) = 0, on dit que A est négligeable ; et

si P(A) = 1, on dit que A est presque sûr, ou que A a lieu presque
sûrement, abrégé « p.s. ».
Pour simplifier, on suppose ici que l’on peut définir la probabilité tous les
événements. En vérité, ce n’est pas possible dans certains cas, mais cela ne
posera pas de problème pratique.
Propriétés
a) P(∅) = 0
b) Pour tout événement A, P(Ac ) = 1 − P(A)
c) Si A ⊂ B, alors P(A) ≤ P(B)
d) Pour tous événements A et B, P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
Propriétés
a) P(∅) = 0
Preuve de b) : A et Ac sont disjoints (A ∩ Ac = ∅), et Ω = A ∪ Ac donc

1 = P(Ω) = P(A ∪ Ac ) = P(A) + P(Ac ),
d’où P(Ac ) = 1 − P(A). Et on obtient a) en prenant A = Ω.
Propriétés
a) P(∅) = 0

1 = P(Ω) = P(A ∪ Ac ) = P(A) + P(Ac ),
Preuve de c) : A et B \ A sont disjoints, et A ∪ (B \ A) = B donc
P(B) = P(A ∪ (B \ A)) = P(A) + P(B \ A) ≥ P(A)
et P(B \ A) = P(B) − P(A).
Propriétés
a) P(∅) = 0

1 = P(Ω) = P(A ∪ Ac ) = P(A) + P(Ac ),
Preuve de c) : A et B \ A sont disjoints, et A ∪ (B \ A) = B donc
P(B) = P(A ∪ (B \ A)) = P(A) + P(B \ A) ≥ P(A)
et P(B \ A) = P(B) − P(A).
Preuve de d) : A \ (A ∩ B), A ∩ B et B \ (A ∩ B) sont disjoints, d’union A ∪ B,
donc
P(A ∪ B) = P(A \ (A ∩ B)) + P(A ∩ B) + P(B \ (A ∩ B))
= P(A) − P(A ∩ B) + P(A ∩ B) + P(B) − P(A ∩ B)
Propriétés
S P
e) Pour toute suite (An )n finie ou infinie, P( n An ) ≤ n P(An ).
(on dit que P est sous-additive)
Preuve de e). On l’a vu pour 2 événements :

P(A ∪ B) = P(A) + P(B) − P(A ∩ B) ≤ P(A) + P(B).
On en déduit le cas d’une suite finie par récurrence.
(∗) Pour une suite infinie (An )n≥0 , on peut poser C0 = A0 puis
Cn = An \ (A1 ∪ · · · ∪ An−1 ), alorsSC0 ,C1 , . . .S
sont disjoints,
C0 ∪ · · · ∪ Cn = A0 ∪ · · · ∪ An et n≥0 Cn = n≥0 An . Alors
[ [ X X
N
P( An ) = P( Cn ) = P(Cn ) = lim P(Cn ) = lim P(A1 ∪ · · · ∪ An )
N N
n≥0 n≥0 n≥0 n=0
et X
P(A1 ∪ · · · ∪ An ) ≤ P(A1 ) + · · · + P(An ) −→ P(Ak )
n→∞
k≥0
Distribution uniforme de probabilité
On suppose que Ω est fini, avec Card Ω = n :
Ω = {ω1 ,ω2 , . . . ,ωn }.
Si ces résultats jouent des rôles symétriques, il est naturel de considérer la
probabilité uniforme sur Ω, telle que
1
P({ω1 }) = · · · = P({ωn }) = .
n
Définition
La probabilité uniforme sur Ω (ou distribution équiprobable) est la
probabilité P définie par : pour tout A = {ωi1 ,ωi2 , . . . ,ωik } ⊂ Ω,
k Card A
P(A) = = .
n Card Ω
Autrement dit,
nombre de cas favorables
P(événement) = .
nombre de cas possibles
Rappels de dénombrement :
Calculer des probabilités dans ce cas se ramène donc à dénombrer (compter)
les éléments d’un ensemble.
On commence par un résultat très simple :
Soit n ∈ N∗ . Soit E1 , . . . ,En des ensembles finis.
Un n-uplet (x1 , . . . ,xn ) est une suite de n éléments (l’ordre est important).
Le nombre de n-uplets (x1 , . . . ,xn ) tels que x1 ∈ E1 ,..., xn ∈ En , est
Card E1 × Card E2 × · · · × Card En .
On retient que, s’il y a

k1 choix pour la valeur de x1 , puis
k2 choix pour la valeur de x2 (quel que soit x1 ),
etc.,
alors il y a k1 k2 · · · kn façons de choisir le n-uplet (x1 , . . . ,xn ).
Rappels de dénombrement :
Soit E un ensemble fini.
Une permutation de E est une façon d’ordonner les éléments de E.
Le nombre de permutations d’un ensemble à n éléments est
n! = 1 × 2 × 3 × · · · × (n − 2) × (n − 1) × n.
Un arrangement de k éléments de E est une suite de k éléments de E

distincts 2 à 2. L’ordre est important.
Le nombre d’arrangements de k éléments parmi n éléments est
n!
Akn = n(n − 1) · · · (n − k + 1) = .
(n − k)!
Une combinaison de k éléments de E est une façon de choisir k éléments

de E, sans spécifier d’ordre : c’est un sous-ensemble de E à k éléments.
Le nombre de combinaisons de k éléments parmi n éléments est

n n(n − 1) · · · (n − k + 1) n!
= Cnk = = .
k k! k!(n − k)!
Un exemple très simple
Une galette comporte 8 parts, dont 2 contiennent une fève. On prend 3 parts
au hasard (sans les remettre...). Quelle est la probabilité de ne pas avoir de
fève ?
fève ?
Il y a 6 parts sans fève, d’où
nb de choix de 3 parts sans fève
P(ne pas avoir de fève) =
nb de choix de 3 parts
C63 A36 6·5·4
= 3
= 3
= ' 36 %
C8 A8 8·7·6
Comme l’événement ne dépend pas de l’ordre, on peut choisir deux espaces
Ω différents (au moins) : l’ensemble des combinaisons de 3 éléments parmi
8, ou l’ensemble des arrangements de 3 éléments parmi 8. Avec la
probabilité uniforme sur Ω.
fève ?
Il y a 6 parts sans fève, d’où
nb de choix de 3 parts sans fève
P(ne pas avoir de fève) =
nb de choix de 3 parts
C63 A36 6·5·4
= 3
= 3
= ' 36 %
C8 A8 8·7·6
Comme l’événement ne dépend pas de l’ordre, on peut choisir deux espaces
Ω différents (au moins) : l’ensemble des combinaisons de 3 éléments parmi
8, ou l’ensemble des arrangements de 3 éléments parmi 8. Avec la
probabilité uniforme sur Ω.
NB. Vous auriez peut-être envie d’écrire 68 · 57 · 46 , cela correspondrait à

utiliser la notion de probabilité conditionnelle. La première part a 6 chances
sur 8 de ne pas avoir de fèves ; sachant cela, la deuxième a 5 chances sur 7
de ne pas en avoir non plus ; etc.
Exemple : paradoxe des anniversaires
Dans un groupe de n étudiants, quelle est la probabilité que 2 (au moins)
aient leur anniversaire le même jour ?
On note N = 365, on suppose les dates équiprobables (et qu’il n’y a pas de
jumeaux, ni d’années bissextiles).
On considère ainsi l’ensemble des n-uplets dans {1, . . . ,N} :
Ω = {(j1 , . . . ,jn ) | j1 , . . . ,jn ∈ {1, . . . ,N}} = {1, . . . ,N}n
Ω = {(j1 , . . . ,jn ) | j1 , . . . ,jn ∈ {1, . . . ,N}} = {1, . . . ,N}n
avec P uniforme, et on cherche P(A) où
A = {2 étudiants sont nés le même jour} = {(j1 , . . . ,jn ) ∈ Ω | ∃k 6= l, jk = jl }.
Ω = {(j1 , . . . ,jn ) | j1 , . . . ,jn ∈ {1, . . . ,N}} = {1, . . . ,N}n
Alors
Ac = {les étudiants sont nés des jours 6=} = {(j1 , . . . ,jn ) ∈ Ω | ∀k 6= l,jk 6= jl }
Ω = {(j1 , . . . ,jn ) | j1 , . . . ,jn ∈ {1, . . . ,N}} = {1, . . . ,N}n
Alors
est l’ensemble des arrangements de n éléments parmi N, donc
Card(Ac ) An N(N − 1) · · · (N − n + 1)
P(A) = 1−P(Ac ) = 1− = 1− Nn = 1− .
Card(Ω) N Nn
Ω = {(j1 , . . . ,jn ) | j1 , . . . ,jn ∈ {1, . . . ,N}} = {1, . . . ,N}n
Alors
Card(Ac ) An N(N − 1) · · · (N − n + 1)
P(A) = 1−P(Ac ) = 1− = 1− Nn = 1− .
Card(Ω) N Nn
Exemple : Pour n = 23, P(A) ' 0,5. Pour n = 57, P(A) ' 0,99.
Ω = {(j1 , . . . ,jn ) | j1 , . . . ,jn ∈ {1, . . . ,N}} = {1, . . . ,N}n
Alors
Card(Ac ) An N(N − 1) · · · (N − n + 1)
P(A) = 1−P(Ac ) = 1− = 1− Nn = 1− .
Card(Ω) N Nn
Exemple : Pour n = 23, P(A) ' 0,5. Pour n = 57, P(A) ' 0,99.
+ difficile : Si n ≥ 88, P(3 étudiants ont leur anniversaire ensemble) ≥ 0,5.
Quelles probabilités pour le bus et la galette ?
Pour l’attente du bus qui passe toutes les T minutes, Ω = [0,T]
- le bus a autant de chances d’arriver dans [t,t + δ] que dans [t0 ,t0 + δ].
- le bus a 2 fois plus de chances d’arriver dans [t,t + 2δ] que dans [t,t + δ].
la probabilité que le temps d’attente soit dans un intervalle I est
proportionnelle à sa longueur : (« loi uniforme sur [0,T] »)
longueur(I)
P(I) = .
T
Pour la position d’une fève circulaire dans une galette, Ω = D(0,R)

Si la fève est mise “complètement au hasard”,
- la fève a autant de chance d’être dans A que dans B si A et B ont même aire.
- la fève a 2 fois plus de chances d’être dans A que dans B si l’aire est double.
la probabilité que la fève soit dans une partie A est proportionnelle à l’aire
de A : (« loi uniforme sur D(0,R) »)
aire(A) aire(A)
P(A) = = .
aire(D(0,R)) πR2
Définition
Soit B un événement tel que P(B) > 0. Pour A ⊂ Ω, on définit
P(A ∩ B)
P(A|B) = .
P(B)
P(A|B) est appelée la probabilité conditionnelle de A sachant B.
C’est la proportion de chance que A se réalise parmi les éventualités où B se

réalise.
C’est la probabilité de A si on dispose de l’information que B est réalisé.
Définition
Deux événements A et B sont indépendants si P(A ∩ B) = P(A)P(B).
Si P(B) 6= 0, cela revient à
P(A|B) = P(A)
Savoir que B est réalisé n’influence pas la probabilité de A.

Probabilités conditionnelles – Exemple
On divise une galette selon le nombre d’invités, et chacun prend une part.
Or le nombre d’invité n’est pas encore connu :
Nous serons 5, 6 ou 7 avec probabilités 50 %, 30 % et 20 %.
→ Quelle est la probabilité que j’aie la fève ?
On note F = {j’ai la fève} et A5 = {nous sommes 5}, A6 et A7 de même.

Alors :
P(A5 ) = 0,5 P(A5 ) = 0,3 P(A7 ) = 0,2
et
1 1 1
P(F|A5 ) = , P(F|A6 ) = , P(F|A7 ) = ,
5 6 7
d’où
P(F) = P(F ∩ A5 ) + P(F ∩ A6 ) + P(F ∩ A7 )
= P(F|A5 )P(A5 ) + P(F|A6 )P(A6 ) + P(F|A7 )P(A7 )
= 0,18.
Probabilités conditionnelles – Exemple
On divise une galette selon le nombre d’invités, et chacun prend une part.
Or le nombre d’invité n’est pas encore connu :
Nous serons 5, 6 ou 7 avec probabilités 50 %, 30 % et 20 %.
→ Quelle est la probabilité que j’aie la fève ?
On note F = {j’ai la fève} et A5 = {nous sommes 5}, A6 et A7 de même.

Alors :
P(A5 ) = 0,5 P(A5 ) = 0,3 P(A7 ) = 0,2
et
1 1 1
P(F|A5 ) = , P(F|A6 ) = , P(F|A7 ) = ,
5 6 7
d’où
P(F) = P(F ∩ A5 ) + P(F ∩ A6 ) + P(F ∩ A7 )
= P(F|A5 )P(A5 ) + P(F|A6 )P(A6 ) + P(F|A7 )P(A7 )
= 0,18.
Je vous dis que j’ai eu la fève. Quelle est la probabilité que nous étions 5 ?
P(A5 ∩ F) P(F|A5 )P(A5 )
P(A5 |F) = = = 0,56.
P(F) P(F)
On suppose que (An )n est une partition de Ω (= un “découpage” de Ω) :
[
pour tous i 6= j, Ai ∩ Aj = ∅, et Ω= An .
n
c
Par exemple, pour tout événement B, le couple (B,B ) est une partition de Ω.
Théorème (Théorème des probabilités totales)
X X
P(A) = P(A ∩ An ) = P(A|An )P(An ).
n n
En particulier, pour tous A et B, P(A) = P(A|B)P(B) + P(A|Bc )P(Bc ).

Théorème (Formule de Bayes)
P(Ai ∩ A) P(A|Ai )P(Ai ) P(A|Ai )P(Ai )
P(Ai |A) = = =P .
P(A) P(A) n P(A|An )P(An )
En particulier, pour tous A et B,

P(A|Bc )P(Bc )
P(Bc |A) = .
P(A|B)P(B) + P(A|Bc )P(Bc )
Événements indépendants : cas général
Rappel : Deux événements A et B sont indépendants si
P(A ∩ B) = P(A)P(B).
Définition
Une famille (Ai )i d’événements est indépendante si pour toute
sous-famille finie Ai1 , . . . ,Aik on a
P(Ai1 ∩ Ai2 · · · ∩ Aik ) = P(Ai1 )P(Ai2 ) · · · P(Aik ).
En particulier, des événements A, B et C sont indépendants si

P(A ∩ B) = P(A)P(B), P(B ∩ C) = P(B)P(C), P(A ∩ C) = P(A)P(C)
et P(A ∩ B ∩ C) = P(A)P(B)P(C).
alors, par exemple, A ∩ B et C sont indépendants
Événements indépendants : cas général
Rappel : Deux événements A et B sont indépendants si
P(A ∩ B) = P(A)P(B).
Définition
Une famille (Ai )i d’événements est indépendante si pour toute
sous-famille finie Ai1 , . . . ,Aik on a
P(Ai1 ∩ Ai2 · · · ∩ Aik ) = P(Ai1 )P(Ai2 ) · · · P(Aik ).
En particulier, des événements A, B et C sont indépendants si

P(A ∩ B) = P(A)P(B), P(B ∩ C) = P(B)P(C), P(A ∩ C) = P(A)P(C)
et P(A ∩ B ∩ C) = P(A)P(B)P(C).
alors, par exemple, A ∩ B et C sont indépendants
Exemple : on tire deux pièces à pile-ou-face. A = {la première est pile} et
B = {la deuxième est pile} sont indépendants, mais A, B et
C = {les deux sont du même côté} ne sont pas indépendants.
Par contre, A et C sont indépendants, et B et C aussi.
Indépendance et complémentaire
Proposition
Si deux événements A et B sont indépendants, alors Ac et Bc le sont
aussi, de même que A et Bc .
Preuve :
P(Ac ∩ Bc ) = P((A ∪ B)c ) = 1 − P(A ∪ B) = 1 − P(A) − P(B) + P(A ∩ B)
= 1 − P(A) − P(B) + P(A)P(B) = (1 − P(A))(1 − P(B)) = P(Ac )P(Bc )
Par récurrence, on peut obtenir :
Proposition
Si A1 , . . . ,An sont indépendants, et B1 , . . . ,Bn sont tels que, pour tout i,
Bi = Ai ou Bi = Aci , alors B1 , . . . ,Bn sont indépendants.
De là on pourrait déduire que, si A1 , . . . ,An sont indépendants, alors des

événements B1 , . . . ,Bk qui dépendent de paquets disjoints d’événements
parmi A1 , . . . ,An sont indépendants.
Exemple. Dans un jeu de pile-ou-face, si Ai = {le ième tirage est pile},
A1 ,A2 , . . . sont indépendants, et donc B1 ,B2 ,B3 sont indépendants, où
B1 = A1 ∩ Ac2 , B2 = A5 ∪ A6 , B3 = A4 .
Loi binomiale
Faisons n tirages à Pile-ou-Face avec la même pièce biaisée, qui tombe sur
Pile avec probabilité p (et sur Face avec probabilité 1 − p).
On note 1 pour Pile et 0 pour Face. Notons Ai = {le tirage i est pile}
→ chaque réalisation ω est une suite de 0 et de 1 de longueur n : Ω = {0,1}n .
A1 , . . . ,An sont indépendants, donc par exemple (ici, n = 4)
P({(1,0,1,1)}) = P(A1 ∩ Ac2 ∩ A3 ∩ A4 ) = p × (1 − p) × p × p = p3 (1 − p)
et, si la suite ω = (ε1 , . . . ,εn ) contient k fois 1 (et donc n − k fois 0),
P({ω}) = pk (1 − p)n−k .
Soit 0 ≤ k ≤ n. On définit l’événement
Bk = {Exactement k pièces tombent sur Pile}.
k n−k
On vient de voir que, pour toute suite ω ∈ Bk , P({ω}) = p (1 − p) . Par
n
ailleurs, le nombre de telles suites est Card Bk = k . On en déduit

n k
P(Bk ) = p (1 − p)n−k
k
Loi binomiale
Par le même calcul, si on a n événements indépendants A1 , . . . ,An ayant

tous la même probabilité P(Ai ) = p, pour k = 0, . . . ,n, on a

n k
P(exactement k événements parmi A1 , . . . ,An se réalisent) = p (1−p)n−k .
k
Loi binomiale
Par le même calcul, si on a n événements indépendants A1 , . . . ,An ayant

tous la même probabilité P(Ai ) = p, pour k = 0, . . . ,n, on a

n k
P(exactement k événements parmi A1 , . . . ,An se réalisent) = p (1−p)n−k .
k
En notant X le nombre de fois où Pile est apparu parmi les n lancers, X est
une variable aléatoire qui suit la loi binomiale B(n,p).
Plan du cours

Lois discrètes
Lois continues
Fonction de répartition
Espérance d’une variable aléatoire
Loi de Poisson
Variance d’une variable aléatoire
Variance d’une variable aléatoire
Indépendance de variables aléatoires
Théorème (« Loi ») des grands nombres

Variables aléatoires
Définition
Une variable aléatoire est une application X : Ω → R.
X
ω
R X(ω)
Ω
Variables aléatoires
Définition
La loi de X est la probabilité PX sur R définie par :
pour tout B ⊂ R, PX (B) = P({ω ∈ Ω | X(ω) ∈ B}) = P(X ∈ B).
X(Ω) (image de X) est le support de PX .

PX peut aussi être vue comme une probabilité sur X(Ω).
On note parfois X ∼ PX pour indiquer que X suit la loi PX .
X
{X∈B} ω
R X(ω)
Ω B
Variables aléatoires – Remarques
On précise parfois variable aléatoire réelle, ou à valeurs dans R.
S’il existe un réel c tel que P(X = c) = 1, alors X est constante égale à
c et n’est donc pas “aléatoire” au sens usuel (mais c’est un cas
particulier de variable aléatoire).
En général, la valeur de X(ω) dépend de la réalisation ω, et la
distribution de ces valeurs sur R est donnée par la loi de X.
Notation : On a noté {X ∈ B} l’événement formé des éventualités ω
pour lesquelles X(ω) ∈ B, et on abrège
P(X ∈ B) = P({X ∈ B}) = P({ω ∈ Ω | X(ω) ∈ B}).
Exemple le plus simple :
Définition
Si A est un événement, on introduit la variable aléatoire fonction
indicatrice de A, notée 1A , qui indique si l’événement A est réalisé :

1 si ω ∈ A
pour tout ω ∈ Ω, 1A (ω) =
0 si ω ∈
/ A.
Variables aléatoires – Exemples
Lancer de deux dés, Ω = {1, . . . ,6}2 = {(x1 ,x2 ) | x1 ,x2 ∈ {1, . . . ,6}}
Valeurs des dés : X1 ((x1 ,x2 )) = x1 et X2 ((x1 ,x2 )) = x2
(à valeurs dans {1, . . . ,6})
Somme des résultats : X = X1 + X2 , c.-à-d. X((x1 ,x2 )) = x1 + x2
(à valeurs dans {2, . . . ,12})
Placement d’une fève circulaire dans une galette, Ω = D(0,r) ⊂ R2
Coordonnées du point : X((x,y)) = x, Y((x,y)) = y
(à valeurs dans [−r,r]) √
Distance au centre : R = X 2 + Y 2
(à valeurs dans [0,r])
On prend successivement les parts d’une galette (coupée en 8)
Nombre de parts à prendre jusqu’à avoir la fève : NA
Chaque jour, on prend une part d’une galette différente (coupée en 8)
Nombre de parts à prendre jusqu’à avoir la fève : NB
(à valeurs dans {1,2, . . .} = N∗ )
Nombre de fèves obtenues en n jours : Sn
(à valeurs dans {0,1,2, . . . ,n})
Lois discrètes
Définition
Une variable aléatoire X est dite discrète si l’ensemble X(Ω) des
valeurs qu’elle prend est dénombrable.
(C’est-à-dire que l’on peut trouver une suite qui énumère tous les éléments
de X(Ω) : par ex., si X(Ω) est un ensemble fini, N, Z ou Q, mais pas
l’intervalle [0,1] ni R).
Si X est discrète, alors pour tout B ⊂ X(Ω), on a B = {bn | n = 1,2, . . . ,N}
ou B = {bn | n = 1,2, . . .} avec des bn distincts, et
[
{X ∈ B} = {X = bn }
n
or ces événements sont disjoints et forment une suite, d’où
X X
PX (B) = P(X ∈ B) = P(X = bn ) = P(X = x).
n x∈B
Pour caractériser une loi discrète, il suffit donc de se donner les

probabilités élémentaires pX (x) = P(X = x) pour tout x ∈ X(Ω). On a
X
pour tout x ∈ X(Ω), pX (x) ≥ 0, et pX (x) = 1.
x∈X(Ω)
Lois discrètes – Exemples
Si E ⊂ R est fini, une variable aléatoire X suit la loi uniforme sur E si

1
pour tout x ∈ E, P(X = x) = .
Card E
la loi du résultat d’un dé est la loi uniforme sur {1, . . . ,6}
Soit p ∈ [0,1]. Une variable aléatoire X suit la loi de Bernoulli de

paramètre p (notée B(p)) si X est à valeurs dans {0,1} et
P(X = 1) = p, P(X = 0) = 1 − p.
la loi de 1A est B(P(A)).
Soit n ∈ N et p ∈ [0,1]. Une variable aléatoire X suit la loi binomiale de

paramètres n et p (notée B(n,p)) si X est à valeurs
dans {0,1, . . . ,n} et
n k
pour k = 0, . . . ,n, P(X = k) = p (1 − p)n−k .
k
si A1 , . . . ,An sont indépendants et P(A1 ) = · · · = P(An ) = p, la loi de

Sn = 1A1 + · · · + 1An = « nombre d’événements réalisés » est B(n,p).
Retour sur la liste d’exemples :
Somme des résultats : X((x1 ,x2 )) = x1 + x2
(à valeurs dans {2, . . . ,12})
Retour sur la liste d’exemples :
Somme des résultats : X((x1 ,x2 )) = x1 + x2
(à valeurs dans {2, . . . ,12})
1
P(X = 2) = P({(1,1)}) = ,
36
2
P(X = 3) = P({(1,2),(2,1)}) = ,
36
...
5
P(X = 6) = P({(1,5),(2,4), . . . ,(5,1)}) =
36
6
P(X = 7) = P({(1,6),(2,5), . . . ,(6,1)}) =
36
5
P(X = 8) = P({(2,6),(3,5), . . . ,(6,2)}) =
36
...
2
P(X = 11) = P({(5,6),(6,5)}) =
36
1
P(X = 12) = P({(6,6)}) =
36


(à valeurs dans {1,2, . . .} = N∗ )

(à valeurs dans {0,1,2, . . . ,n})

NA suit la loi uniforme sur {1, . . . ,8}
(à valeurs dans {1,2, . . .} = N∗ )

(à valeurs dans {0,1,2, . . . ,n})

(à valeurs dans {1,2, . . .} = N∗ )
Pour tout n ∈ N∗ ,
P(NB = n) = P(n − 1 parts sans fève, puis une part avec fève)
n−1
1 1
= 1− . (par indépendance)
8 8
NB suit la loi géométrique de paramètre p = 18 .
(à valeurs dans {0,1,2, . . . ,n})

(à valeurs dans {1,2, . . .} = N∗ )
Pour tout n ∈ N∗ ,
P(NB = n) = P(n − 1 parts sans fève, puis une part avec fève)
n−1
1 1
= 1− . (par indépendance)
8 8
NB suit la loi géométrique de paramètre p = 18 .
(à valeurs dans {0,1,2, . . . ,n})
Sn suit la loi binomiale de paramètres (n, 18 ).
Cours 2
–
Mercredi 30 janvier 2019
Espace de probabilités – Rappel
ω
A
Ω
Espace de probabilités : (Ω,P)
Ω, ensemble des résultats possibles d’une expérience aléatoire
ω ∈ Ω, une réalisation de l’expérience
A ⊂ Ω, un événement relatif à l’expérience (peut être réalisé ou non)
P(A) ∈ [0,1], probabilité de l’événement A (d’où P : P(Ω) → [0,1])
Espace de probabilités – Rappel
B A
Ω
Espace de probabilités : (Ω,P)
Ω, ensemble des résultats possibles d’une expérience aléatoire
ω ∈ Ω, une réalisation de l’expérience
A ⊂ Ω, un événement relatif à l’expérience (peut être réalisé ou non)
P(A) ∈ [0,1], probabilité de l’événement A (d’où P : P(Ω) → [0,1])
telle que P(Ω) = 1 et, si A et B sont disjoints, P(A ∪ B) = P(A) + P(B).
S P
Et, si on a une suite (An )n d’événements disjoints, P( n An ) = n P(An ).
Variables aléatoires – Rappel
Définition
X
ω
R X(ω)
Ω
Variables aléatoires – Rappel
Définition
X(Ω) (image de X) est le support de PX . X est “à valeurs dans X(Ω)”

X
{X∈B} ω
R X(ω)
Ω B
Lois discrètes – Rappel
Définition
Une variable aléatoire X est dite discrète si on peut énumérer (lister)
l’ensemble X(Ω) des valeurs qu’elle prend.
Si X est discrète, alors pour tout B ⊂ X(Ω), on a

[
{X ∈ B} = {X = x},
x∈B
or ces événements sont disjoints et forment une suite, d’où

X
PX (B) = P(X ∈ B) = P(X = x).
x∈B
Pour caractériser une loi discrète, il suffit donc de se donner les

probabilités élémentaires pX (x) = P(X = x) pour tout x ∈ X(Ω) qui
vérifient :
X
pour tout x ∈ X(Ω), pX (x) ≥ 0, et pX (x) = 1.
x∈X(Ω)
Soit p ∈ [0,1]. Une variable aléatoire X suit la loi de Bernoulli de
paramètre p (notée B(p)) si X est à valeurs dans {0,1} et
P(X = 1) = p, P(X = 0) = 1 − p.
Soit n ∈ N et p ∈ [0,1]. Une variable aléatoire X suit la loi binomiale de

paramètres n et p (notée B(n,p)) si X est à valeurs
dans {0,1, . . . ,n} et
n k
pour k = 0, . . . ,n, P(X = k) = p (1 − p)n−k .
k
si A1 , . . . ,An sont indépendants et P(A1 ) = · · · = P(An ) = p, la loi de

Sn = 1A1 + · · · + 1An = « nombre d’événements réalisés » est B(n,p).
Soit p ∈]0,1]. Une variable aléatoire X suit la loi géométrique de

paramètre p (notée G(p)) si X est à valeurs dans N∗ = {1,2, . . .} et
pour n ≥ 1, P(X = n) = (1 − p)n−1 p.
si A1 ,A2 , . . . sont indépendants et P(An ) = p pour tout n, alors la loi de

X = inf{n ≥ 1 | 1An = 1} = « nombre de tentatives jusqu’à un succès » est
G(p).
Un exemple non discret

p
Distance au centre : R((x,y)) = x2 + y2
aire(A) aire(A)
Rappel : On munit Ω de la loi uniforme, P(A) = =
aire(D(0,r)) πr2

p
aire(A) aire(A)
aire(D(0,r)) πr2
• Pour 0 ≤ x ≤ r,
aire(cercle de rayon x)
P(R = x) = = 0.
πr2
⇒ l’approche précédente est inadaptée.

p
aire(A) aire(A)
aire(D(0,r)) πr2
• Pour 0 ≤ x ≤ r,
aire(cercle de rayon x)
P(R = x) = = 0.
πr2
⇒ l’approche précédente est inadaptée.
• Pour 0 ≤ a ≤ b ≤ r,
Z b
aire(couronne) πb2 − πa2 b2 − a2 2t
P(a ≤ R ≤ b) = 2
= 2
= = dt.
πr πr r2 a r2
2t
la fonction f (t) = 1[0,r] (t) représente la densité de probabilité de R.
r2
Lois continues
Définition
Une variable aléatoire X est dite continue ou à densité s’il existe une
fonction (intégrable) fX : R → [0, + ∞[ telle que, pour tout B ⊂ R,
Z
PX (B) = P(X ∈ B) = fX (x)dx.
B
La fonction fX est appelée la densité de X. Une fonction f est la densité

d’une variable aléatoire si, et seulement si
1 pour tout x ∈ R, f (x) ≥ 0
Z
2 f (x)dx = 1.
R
fX (x)
a b
Z b
Si X a pour densité fX , pour tous a ≤ b, P(a ≤ X ≤ b) = fX (x)dx
a
Lois continues
Définition
Une variable aléatoire X est dite continue ou à densité s’il existe une
fonction (intégrable) fX : R → [0, + ∞[ telle que, pour tout B ⊂ R,
Z
PX (B) = P(X ∈ B) = fX (x)dx.
B
La fonction fX est appelée la densité de X. Une fonction f est la densité

d’une variable aléatoire si, et seulement si
1 pour tout x ∈ R, f (x) ≥ 0
Z
2 f (x)dx = 1.
R
Remarques
R
Si X a une densité alors, pour tout x ∈ R, P(X = x) = {x} fX (t)dt = 0.
Z
Si fX (x) = 0 pour tout x ∈ B, alors P(X ∈ B) = fX (x)dx = 0.
B
⇒ les valeurs prises par X sont dans le support de fX :
Supp(fX ) = {x ∈ R | fX (x) > 0}.
Interprétation intuitive de la densité
fX (x) représente la probabilité que X est dans un (petit) voisinage de x,

rapportée à la longueur de ce voisinage (d’où le terme “densité”) :
Supposons que X a pour densité fX , continue au point x ∈ R. Alors
P(X ∈ [x − δ2 , x + δ2 ])
−→ fX (x).
δ δ→0+
Interprétation intuitive de la densité
fX (x) représente la probabilité que X est dans un (petit) voisinage de x,

rapportée à la longueur de ce voisinage (d’où le terme “densité”) :
Supposons que X a pour densité fX , continue au point x ∈ R. Alors
P(X ∈ [x − δ2 , x + δ2 ])
−→ fX (x).
δ δ→0+
Soit ε > 0. Pour un certain δ > 0, on a |fX (t) − fX (x)| < ε dès que
|t − x| < δ, d’où
δ δ Z x+ δ2

P X ∈ x − , x + − δfX (x) = fX (t)dt − δfX (x)
2 2 x− δ2
Z x+ δ2
Z x+ δ2

= fX (t) − fX (x) dt ≤ |fX (t) − fX (x)|dt ≤ δε.
x− δ2 x− δ2
Densités classiques
Soit a < b. La loi uniforme sur [a,b] (notée U([a,b])) est la loi de densité

1 (b − a)−1 si a ≤ x ≤ b
f (x) = 1[a,b] (x) =
b−a 0 si x ∈
/ [a,b].
Une variable aléatoire X de loi U([a,b]) est donc à valeurs dans [a,b].
Soit λ > 0. La loi exponentielle de paramètre λ (notée E(λ)) a pour densité
f (x) = λe−λx 1R+ (x).
Une variable aléatoire X de loi E(λ) est donc à valeurs dans R+ .
La loi exponentielle est une loi « sans mémoire ». En effet, pour tous s,t ≥ 0,
P({X ≥ s + t} ∩ {X ≥ s}) e−λ(s+t)

P(X ≥ s+t | X > s) = = = e−λt = P(X ≥ t).
P(X ≥ s) e−λs
Utilisée pour modéliser les durées de vie de machines sans vieillissement

Quelques exemples de calculs
Si X suit la loi uniforme sur [a,b], et si [c,d] ⊂ [a,b], on retrouve
Z
1 d−c longueur([c,d])
P(X ∈ [c,d]) = dt = = .
[c,d] b − a b−a longueur([a,b])
Supposons que X suit la loi exponentielle de paramètre 2 : densité

f : x 7→ 2e−2x 1[0,+∞[ (x).
R R∞
Par exemple P(X > 5) = ]5,+∞[ 2e−2x 1[0,+∞[ (x)dx = 5 2e−2x dx = e−10 .
Supposons que X suit la loi uniforme sur [0,1]. Posons Y = b5Xc (partie
entière). Quelle est la loi de Y ?
Y est à valeurs dans {0,1,2,3,4} : elle est donc discrète
pour k = 0,1,2,3,4, P(Y = k) = P(k ≤ 5X < k + 1)
Z k+1
k k+1 5 1
= P( ≤ X < )= 1[0,1] dx =
5 5 k
5
5
Donc Y suit la loi uniforme sur {0,1,2,3,4}.
Attention
De nombreuses variables aléatoires ne sont ni discrètes, ni à densité.
Exemple : soit X une variable aléatoire de loi U([0,1]). On définit

(
1 X si X < 12
Y = min(X, ) = 1
2 2 sinon.
(Pour tout ω ∈ Ω, on a Y(ω) = min(X(ω), 12 ))

Attention

(
1 X si X < 12
Y = min(X, ) = 1
2 2 sinon.

• Y est à valeurs dans [0, 12 ] car X est à valeurs dans [0,1].
Attention

(
1 X si X < 12
Y = min(X, ) = 1
2 2 sinon.

Z ∞ Z 1
1 1 1
• On a P Y = =P X≥ = 1[0,1] (x)dx = 1dx = > 0
2 2 1/2 1
2
2
⇒ Y n’a pas de densité
Attention

(
1 X si X < 12
Y = min(X, ) = 1
2 2 sinon.

Z ∞ Z 1
1 1 1
• On a P Y = =P X≥ = 1[0,1] (x)dx = 1dx = > 0
2 2 1/2 1
2
2
⇒ Y n’a pas de densité
• Pour tout 0 ≤ x < 12 , P(Y = x) = P(X = x) = 0
X
⇒ Y n’est pas discrète (si elle l’était, P(Y = y) = 1, mais cette
y∈Y(Ω)
1
somme vaut 2 ici)
But : avoir une façon de représenter et étudier n’importe quelle loi.
Définition
Soit X une variable aléatoire. La fonction de répartition de X est la
fonction FX : R → R définie par
pour tout x ∈ R, FX (x) = P(X ≤ x).

But : avoir une façon unifiée de représenter et étudier n’importe quelle loi.
Définition

But : avoir une façon unifiée de représenter et étudier n’importe quelle loi.
Définition
Proposition
a) La fonction de répartition FX est une fonction croissante,
lim FX (x) = 0 et lim FX (x) = 1.

x→−∞ x→+∞
b) Si X et Y sont deux variables aléatoires telles que FX (t) = FY (t)

pour tout t ∈ R, alors X et Y ont même loi.
Autrement dit, la fonction de répartition caractérise la loi d’une variable

aléatoire.
Fonction de répartition – Cas discret
Proposition
Si X est une variable aléatoire discrète, FX est une fonction constante
par morceaux, dont les sauts se situent aux points de X(Ω), et le saut
en x ∈ X(Ω) a pour hauteur P(X = x).
Fonction de répartition d’une v.a. de loi B(p)

1
1−p
0 1
Fonction de répartition – Cas discret
Proposition
Si X est une variable aléatoire discrète, FX est une fonction constante
par morceaux, dont les sauts se situent aux points de X(Ω), et le saut
en x ∈ X(Ω) a pour hauteur P(X = x).
Fonction de répartition d’une v.a. de loi unif. sur {1, 2, 3, 4}

1
3/4
1/2
1/4
0 1 2 3 4
Fonction de répartition – Cas à densité
Proposition
Si X est une variable aléatoire de densité fX , on a
Z x
pour tout x ∈ R, FX (x) = fX (t)dt
−∞
et on a la dérivée (FX )0 (x) = fX (x) (pour tout x où fX est continue).
Fonction de répartition d’une v.a. de loi E(λ)

1
0
Proposition
Z x
−∞
Fonction de répartition d’une v.a. de loi U([a, b])

1
a 0 b
Proposition
Z x
−∞
Inversement, si X est une v.a. telle que FX est

continue sur R
dérivable sauf peut-être en un nombre fini de points,
alors X a pour densité fX = FX0 . (Avec une valeur quelconque aux
points où il n’y a pas de dérivée)
Fonction de répartition – Autre exemple
Suite du premier (contre-)exemple : soit X une v.a. de loi U([0,1]). On définit
1
Y = min X, .
2
(
1 0 si y < 0
Y est à valeurs dans [0, 2 ], d’où FY (y) =
1 si y > 12
pour 0 ≤ y ≤ 12 , FY (y) = P(Y ≤ y) = P(X ≤ y) = y
(car si Y ≤ 21 alors Y = X)
Fonction de répartition – Autre exemple
Suite du premier (contre-)exemple : soit X une v.a. de loi U([0,1]). On définit
1
Y = min X, .
2
(
1 0 si y < 0
Y est à valeurs dans [0, 2 ], d’où FY (y) =
1 si y > 12
pour 0 ≤ y ≤ 12 , FY (y) = P(Y ≤ y) = P(X ≤ y) = y
(car si Y ≤ 21 alors Y = X)

Fonction de répartition de Y = min X, 12 où X ∼ U([0, 1])
1
1/2
0 1/2
Application : Calcul de la loi de Y = ϕ(X)
Soit X une variable aléatoire, de loi connue, et ϕ : X(Ω) → R une fonction.

On cherche la loi de la variable aléatoire Y = ϕ(X).
→ Déterminer les valeurs possibles de Y, puis


• Si Y est discrète (l’ensemble des valeurs possibles est dénombrable),

→ Calculer chacune de leurs probabilités en se ramenant à X.


• Si X a une densité fX , et ϕ est monotone (croissante ou décroissante),

→ Calculer la fonction de répartition de Y,
→ Si FY est continue sur R, et dérivable (sauf en quelques points), dériver
pour obtenir fY .


• Si X a une densité fX , et ϕ est monotone (croissante ou décroissante),

→ Calculer la fonction de répartition de Y,
→ Si FY est continue sur R, et dérivable (sauf en quelques points), dériver
pour obtenir fY .
La méthode s’étend aux fonctions non monotones, mais il faut alors être plus
vigilent, ou se ramener à des intervalles où ϕ est monotone.
Exemples de calculs de loi
Soit X une variable aléatoire de loi uniforme sur {−1,0,1}. On pose Y = |X|.
Alors Y est à valeurs dans {0,1}, et
P(Y = 1) = P(|X| = 1) = P(X = 1 ou X = −1) = P(X = 1) + P(X = −1)

1 1 2
= + = ,
3 3 3
et ainsi P(Y = 0) = 1 − P(Y = 1) = 13 , donc Y suit la loi B(2/3).
1
Soit X une variable aléatoire de loi E(λ). On pose Y = 1+X .
1
1
• On a Y = ϕ(X) où ϕ : x 7→ 1+x . Comme X ∼ E(λ), on a X > 0.
ϕ est strictement décroissante sur ]0, + ∞[, ϕ(0) = 1 et limx→+∞ ϕ(x) = 0
donc ϕ(]0, + ∞[) =]0,1[. Ainsi, Y est à valeurs dans ]0,1[.
1
1
donc ϕ(]0, + ∞[) =]0,1[. Ainsi,( Y est à valeurs dans ]0,1[.
0 si y ≤ 0
• Alors, pour y ∈ R, FY (y) = et, si 0 < y ≤ 1,
1 si y ≥ 1
1 1 1
P(Y ≤ y) = P ≤y =P 1+X ≥ =P X ≥ −1
1+X y y
1 1 1
= 1 − P X < − 1 = 1 − FX − 1 = e−λ( y −1) .
y y
NB. P(X < x) = P(X ≤ x) − P(X = x) = P(X ≤ x) car X a une densité.
1
1
donc ϕ(]0, + ∞[) =]0,1[. Ainsi, ( Y est à valeurs dans ]0,1[.
0 si y ≤ 0
• Alors, pour y ∈ R, FY (y) = et, si 0 < y ≤ 1,
1 si y ≥ 1
1 1 1
P(Y ≤ y) = P ≤y =P 1+X ≥ =P X ≥ −1
1+X y y
1 1 1
= 1 − P X < − 1 = 1 − FX − 1 = e−λ( y −1) .
y y
NB. P(X < x) = P(X ≤ x) − P(X = x) = P(X ≤ x) car X a une densité.
• FY est continue sur R (on vérifie FY (0+ ) = 0 et FY (1− ) = 1), et dérivable
sauf peut-être en 0 et 1. Donc Y a pour densité la dérivée
(
0 0 si y ∈
/ [0,1]
fY (y) = (FY ) (y) = λ −( 1 −1)
y2 e y si y ∈]0,1[
(avec valeurs quelconques en 0 et 1)

Bilan
Pour modéliser une expérience aléatoire, on a défini un espace de
probabilité (Ω,P). Les grandeurs (réelles) mesurées sur l’expérience
correspondent à des variables aléatoires X : Ω → R.
Différentes modélisations (choix de Ω,P et donc X) sont possibles pour
une même expérience.
En revanche, si X représente une certaine grandeur qui dépend de
l’expérience, la loi de X (c’est-à-dire toutes les probabilités P(X ∈ A))
ne dépend pas du choix de la modélisation.
Bilan
Pour modéliser une expérience aléatoire, on a défini un espace de
probabilité (Ω,P). Les grandeurs (réelles) mesurées sur l’expérience
correspondent à des variables aléatoires X : Ω → R.
Différentes modélisations (choix de Ω,P et donc X) sont possibles pour
une même expérience.
En revanche, si X représente une certaine grandeur qui dépend de
l’expérience, la loi de X (c’est-à-dire toutes les probabilités P(X ∈ A))
ne dépend pas du choix de la modélisation.
La loi de X est une probabilité sur R ; deux cas sont très fréquents :
le cas discret : X ne prend des valeurs que dans un ensemble
dénombrable {x1 ,x2 , . . .}. La loi de X équivaut alors à connaître
P(X = xi ) pour tout i (ce sont les probabilités élémentaires)
le cas continu/à densité : P(X = x) = 0 pour tout x ∈ R mais il y a une
densité de probabilité, c’est-à-dire que pour tous a < b,
Z b
P(a < X < b) = f (x)dx
a
pour une certaine fonction f . La loi de X équivaut alors à connaître f .
Espérance d’une variable aléatoire – Motivation
Dans un jeu de hasard A, on peut

Gagner 100 e, avec probabilité 0,1
Perdre 1 e, avec probabilité 0,9.
Dans un autre jeu de hasard B, on peut
À quel jeu devrait-on jouer ?
probabilités de gain

À quel jeu devrait-on jouer ? Évidemment B. Il suffit de comparer les
probabilités de gain.

À quel jeu devrait-on jouer ?
probabilités de gain

À quel jeu devrait-on jouer ? Moins clair... Ici il faut prendre en compte les
montants, pas seulement les probabilités.
• Si on joue un grand nombre de fois, la quantité importante est le gain

moyen, ou espérance de gain ⇒ on choisit A
• Si on ne joue qu’un petit nombre de fois, cela reste une bonne indication,
mais la décision dépend du risque que l’on est prêt à prendre.
(voir “Paradoxe de Saint-Petersbourg” sur Wikipedia)
Espérance
Définition
L’espérance d’une variable aléatoire X, notée E[X], est la moyenne
de ses valeurs, pondéréesXpar leurs probabilités.
Si X est discrète, E[X] = xP(X = x).
x∈X(Ω)
Z
Si X est continue, de densité fX , E[X] = xfX (x)dx.
R
Attention. L’espérance n’est pas toujours définie. Il faut pour cela
que la série ou l’intégrale ci-dessus converge absolument.
Intérêt, interprétation :
• E[X] donne une indication de l’ordre de grandeur typique de X.
• E[X] est souvent plus simple à calculer (et à interpréter) que la loi de X.
• E[X] correspond au “prix équitable” à faire payer pour jouer à un jeu de
hasard où le gain est X (dans l’idée que l’on joue un grand nombre de fois)
→ prix d’assurances, d’actifs financiers,...
• E[X] est la limite, quand n → ∞, de la moyenne 1n (X1 + · · · + Xn ) de n
réalisations de X obtenues en répétant l’expérience... On y reviendra.
Espérance
Définition
x∈X(Ω)
Z
R
Remarque : Dans ce cours, on se contentera des cas discret et à densité.

Si X n’est ni discrète ni à densité, on pourrait utiliser FX et définir
Z ∞ Z 0
E[X] = (1 − FX (x))dx − FX (x)dx
0 −∞
en vérifiant que dans les cas discret et à densité, cela redonne la définition.
Une meilleure approche R est en fait de définir
R une intégrale généralisée pour
pouvoir avoir E[X] = Ω X(ω)dP(ω) = R x dPX (x)
Espérance – Exemples discrets
Si X suit la loi de Bernoulli B(p),
X est à valeurs dans {0,1} et P(X = 1) = p, P(X = 0) = 1 − p, d’où
E[X] = 1 · p + 0 · (1 − p) = p.
Si X suit la loi uniforme sur {1,2, . . . ,n},
X est à valeurs dans {1, . . . ,n} et P(X = 1) = · · · = P(X = n) = 1n , d’où
1 1 1 1 + 2 + ··· + n n+1
E[X] = 1 · + 2 · + ··· + n · = = .
n n n n 2
Si X suit la loi géométrique G(p),
X est à valeurs dans N∗ = {1,2, . . .} et P(X = k) = (1 − p)k−1 p, d’où
∞
X 1 p 1
E[X] = k · (1 − p)k−1 p = p = 2 =
(1 − (1 − p))2 p p
k=1
d X k d 1
∞
X ∞
1
car kxk−1 = x = = pour −1 < x < 1.
dx dx 1 − x (1 − x)2
k=1 k=0
Espérance – Exemples à densité
Si X suit la loi uniforme sur [a,b], où a < b,

1
X a pour densité f (x) = b−a 1[a,b] (x), d’où
Z Z b2 2
1 1 b
2 − a2 a+b
E[X] = x· 1[a,b] (x)dx = xdx = = .
R b − a b − a a b−a 2
Si X suit la loi exponentielle E(λ), où λ > 0,

X a pour densité f (x) = λe−λx 1]0,+∞[ (x), d’où
Z Z ∞
E[X] = x · λe−λx 1]0,+∞[ (x)dx = xλe−λx dx
R 0
Z ∞
−λx ∞ 1
= [−xe ]x=0 + e−λx dx = .
0 λ
Espérance – Propriétés
Propriétés
(i) Si X est constante, égale à c ∈ R (pour tout ω ∈ Ω, X(ω) = c),
alors E[X] = E[c] = c.
(ii) Pour tout événement A ⊂ Ω, E[1A ] = P(A).
(iii) L’espérance est linéaire : pour toutes variables aléatoires X et Y,
et tout réel a,
E[aX] = aE[X] et E[X + Y] = E[X] + E[Y].
(iv) L’espérance est croissante : si X ≤ Y, alors E[X] ≤ E[Y].

Espérance – Propriétés
Propriétés
(i) Si X est constante, égale à c ∈ R (pour tout ω ∈ Ω, X(ω) = c),
alors E[X] = E[c] = c.
(ii) Pour tout événement A ⊂ Ω, E[1A ] = P(A).
(iii) L’espérance est linéaire : pour toutes variables aléatoires X et Y,
et tout réel a,
E[aX] = aE[X] et E[X + Y] = E[X] + E[Y].
(iv) L’espérance est croissante : si X ≤ Y, alors E[X] ≤ E[Y].
Si A1 ,. . . ,An sont des événements indépendants et P(A1 ) = · · · = P(An ) = p,

on a vu que Sn = 1A1 + · · · + 1An suit la loi binomiale B(n,p) :
pour k = 0, . . . ,n, P(Sn = k) = Cnk pk (1 − p)n−k .
Par linéarité, E[Sn ] = E[1A1 ] + · · · + E[1An ] = P(A1 ) + · · · + P(An ) = np.

Retour sur les anniversaires
On choisit n personnes au hasard. Combien en moyenne y a-t-il de jours

dans l’année où au moins 2 ont leur anniversaire ?

On note N = 365 et, pour j = 1, . . . ,N, on définit l’événement
Aj = {il y a ≥ 2 anniversaires le jour j}.

n n−1
1 N−1
Alors P(Aj ) = 1 − P(Acj ) = 1 − N−1N − n N N . Donc le nombre
de jours avec ≥ 2 anniversaires est
X = 1A1 + · · · + 1AN
et
E[X] = E[1A1 ] + · · · + E[1AN ] = P(A1 ) + · · · + P(AN )

N − 1 n N − 1 n−1
= NP(A1 ) = N − N −n .
N N
Application numérique : pour n = 100, E[X] ' 11,4.

On note N = 365 et, pour j = 1, . . . ,N, on définit l’événement
Aj = {il y a ≥ 2 anniversaires le jour j}.

n n−1
1 N−1
Alors P(Aj ) = 1 − P(Acj ) = 1 − N−1N − n N N . Donc le nombre
de jours avec ≥ 2 anniversaires est
X = 1A1 + · · · + 1AN
et
E[X] = E[1A1 ] + · · · + E[1AN ] = P(A1 ) + · · · + P(AN )

N − 1 n N − 1 n−1
= NP(A1 ) = N − N −n .
N N
Application numérique : pour n = 100, E[X] ' 11,4.
NB. A1 , . . . ,AN ne sont pas indépendants ! Et la loi de X n’est pas binomiale.
Espérance de ϕ(X)
Proposition
Soit X une variable aléatoire, et ϕ : R → R une fonction.
Si X est discrète, alors
X
E[ϕ(X)] = ϕ(x)P(X = x).
x∈X(Ω)
Si X est continue, alors

Z
E[ϕ(X)] = ϕ(x)fX (x)dx.
R
(À condition que la série et l’intégrale soient bien définies)
h i
X 1 1 2 1 3 1 23
Si X suit la loi uniforme sur {1,2,3}, E 1+X = 1+1 3 + 1+2 3 + 1+3 3 = 36
i la Rloi uniforme sur [0,1],

SihX suit
R1
1 1 1
E 1+X = R 1+x 1[0,1] (x)dx = 0 1+x dx = [ln(1 + x)]1x=0 = ln 2
Parenthèse : loi de Poisson P(λ)
Soit λ > 0. Une variable aléatoire X suit la loi de Poisson de paramètre λ

(notée P(λ)) si X est à valeurs dans N = {0,1,2, . . .} et
λk
pour tout k ∈ N, P(X = k) = e−k .
k!
On a
E[X] = λ
C’est la loi limite de la loi binomiale B(n,p), avec np ' λ et n → ∞ :
Proposition
Si, pour tout n, Sn suit la loi B(n,pn ), et npn −→ λ, alors
n→∞
λk
pour tout k ∈ N, P(Sn = k) −→ e−λ .
n→∞ k!
Dans la pratique, on peut approcher la loi B(n,p) par la loi P(np) lorsque
n ≥ 50 et p ≤ 0,1 (erreur inférieure à 5 % dans les calculs de probabilités).
Parenthèse : loi de Poisson P(λ)
Soit λ > 0. Une variable aléatoire X suit la loi de Poisson de paramètre λ
(notée P(λ)) si X est à valeurs dans N = {0,1,2, . . .} et
λk
pour tout k ∈ N, P(X = k) = e−k .
k!
Proposition
Si, pour tout n, Sn suit la loi B(n,pn ), et npn −→ λ, alors
n→∞
λk
pour tout k ∈ N, P(Sn = k) −→ e−λ .
n→∞ k!
Dans la pratique, on peut approcher la loi B(n,p) par la loi P(np) lorsque
n ≥ 50 et p ≤ 0,1 (erreur inférieure à 5 % dans les calculs de probabilités).
Ex. Une usine produit 500 pièces par jour, dont 1 % sont défaillantes. Le
nombre N de pièces défaillantes suit la loi B(n,p) avec n = 500, p = 0,01.
Le nombre moyen d’erreurs est λ = E[N] = np = 5.
P7 k
Alors, N suit approx. la loi P(5), donc P(N ≤ 7) ' e−5 k=0 5k! ' 0,866.
P7
En vérité, P(N ≤ 7) = k=0 500 k
k 0,01 · 0,99
500−k
' 0,868.
Variance
Question : l’espérance E[X] représente-t-elle bien les valeurs typiques de X ?

Comment les valeurs de X sont-elles dispersées autour de E[X] ?
Variance

Définition
Soit X une variable aléatoire. La variance de X est l’espérance des
carrés des écarts de X à sa moyenne :
h 2 i
Var(X) = E X − E[X] ≥ 0.
p
L’écart type de X est σ(X) = Var(X).
Attention. La variance n’est pas toujours définie. Il faut que
l’espérance E[X] soit définie et l’espérance ci-dessus aussi.
→ Ceci revient à demander à ce que E[X 2 ] soit définie.
NB. À la différence de la variance, l’écart type σ(X) est homogène à X : si

par exemple X est une distance, alors σ(X) est une distance aussi. Ceci
justifie l’intérêt de l’écart type.
Variance – Propriétés
Propriétés
Pour toutes variables aléatoires X et Y et toute constante a,
1 Var(X) = E[X 2 ] − E[X]2
2 Var(aX) = a2 Var(X)
3 Var(X + a) = Var(X)
4 Var(X + Y) = Var(X) + 2 Cov(X,Y) + Var(Y), où la covariance est
définie par
h i
Cov(X,Y) = E X − E[X] Y − E[Y] = E[XY] − E[X]E[Y].
Pour toute variable aléatoire X possédant une variance, la variable aléatoire

X − E[X]
Y= est centrée (E[Y] = 0) et réduite (Var(Y) = 1).
σ(X)
Cours 3
–
Mercredi 13 février 2019
Rappel – Variables aléatoires
Définition
X(Ω) (image de X) est le support de PX .

X
{X∈B} ω
R X(ω)
Ω B
Rappel – Espérance, variance
Définition
x∈X(Ω)
Z
R
• E[X] est la moyenne des valeurs de X observées en “répétant l’expérience”
un grand nombre de fois (loi des grands nombres)
bla
bla
Rappel – Espérance, variance
Définition
de ses valeurs, pondérées parXleurs probabilités. Pour ϕ : X(Ω) → R,
Si X est discrète, E[ϕ(X)] = ϕ(x)P(X = x).
x∈X(Ω)
Z
Si X est continue, de densité fX , E[ϕ(X)] = ϕ(x)fX (x)dx.
R
• E[X] est la moyenne des valeurs de X observées en “répétant l’expérience”
un grand nombre de fois (loi des grands nombres)
bla
bla
Variance

Variance

Définition
Soit X une variable aléatoire. La variance de X est l’espérance des
carrés des écarts de X à sa moyenne :
h 2 i
Var(X) = E X − E[X] ≥ 0.
p
L’écart type de X est σ(X) = Var(X).
Attention. La variance n’est pas toujours définie. Il faut que
l’espérance E[X] soit définie et l’espérance ci-dessus aussi.
→ Ceci revient à demander à ce que E[X 2 ] soit définie.
NB. À la différence de la variance, l’écart type σ(X) est homogène à X : si

par exemple X est une distance, alors σ(X) est une distance aussi. Ceci
justifie l’intérêt de l’écart type.
Variance – Propriétés
Propriétés
Pour toutes variables aléatoires X et Y et toute constante a,
1 Var(X) = E[X 2 ] − E[X]2
2 Var(aX) = a2 Var(X)
3 Var(X + a) = Var(X)
4 Var(X + Y) = Var(X) + 2 Cov(X,Y) + Var(Y), où la covariance est
définie par
h i
Cov(X,Y) = E X − E[X] Y − E[Y] = E[XY] − E[X]E[Y].
Var(X + Y) 6= Var(X) + Var(Y) en général ! Par exemple,

Var(X + X) = Var(2X) = 4 Var(X) mais Var(X) + Var(X) = 2 Var(X)...
Pour toute variable aléatoire X possédant une variance, la variable aléatoire

X − E[X]
Y= est centrée (E[Y] = 0) et réduite (Var(Y) = 1).
σ(X)
Variance – Exemples discrets
Si X suit la loi de Bernoulli B(p),

E[X 2 ] = 12 · p + 02 · (1 − p) = p, donc Var(X) = p − p2 = p(1 − p)
Si X suit la loi géométrique G(p),

1−p
Var(X) =
p2
∞
X 1
Indication : dériver deux fois xk = pour obtenir
1−x
k=0
∞
X 2
k(k − 1)xk−2 =
(1 − x)3
k=2
et en déduire le calcul de E[X(X − 1)] puis E[X 2 ] = E[X(X − 1) + X] = · · ·

Variance – Exemples à densité
Si X suit la loi uniforme sur [a,b],

Z b
1 1 b3 a3 a2 + ab + b2
E[X 2 ] = x2 dx = − = ,
a b−a b−a 3 3 3
d’où
a2 + ab + b2 a + b 2 (b − a)2
Var(X) = − = .
3 2 12
Si X suit la loi exponentielle E(λ),
Z ∞ Z ∞
−λx 2 2
2
E[X ] = 2
x λe dx = [x2 e−λx ]∞
x=0 + 2xe−λx dx = E[X] = 2
0 0 λ λ
d’où 1 2
2 1
Var(X) = 2
− = 2.
λ λ λ
Bilan
Étant donnée une variable aléatoire X, son espérance E[X] (si elle
existe) est la moyenne de ses valeurs, pondérées par leurs probabilités
d’apparition.
E[X] donne une idée de l’ordre de grandeur “typique” des réalisations
de X. C’est en particulier utile si on ne connaît pas la loi de X (on peut
en effet souvent calculer E[X] sans connaître la loi de X).
Afin de mesurer la dispersion des valeurs prises par X autour de E[X],
on peut calculer l’écart-type σ(X) de X.
L’espérance et la variance fournissent également des informations sur

certaines probabilités via les inégalités de Markov et Tchebychev...
Inégalités
Proposition (Inégalité de Markov)
Soit X une variable aléatoire. Pour tout a > 0,

E |X|
P(|X| ≥ a) ≤ .
a
Plus généralement, pour tout a > 0 et r > 0,

E |X|r
P(|X| ≥ a) ≤ .
ar
Preuve
Inégalités

E |X|
P(|X| ≥ a) ≤ .
a

E |X|r
P(|X| ≥ a) ≤ .
ar
Preuve
On définit une variable aléatoire Y par
(
a si |X| ≥ a,
Y=
0 sinon.
Alors on a toujours |X| ≥ Y.

Inégalités

E |X|
P(|X| ≥ a) ≤ .
a

E |X|r
P(|X| ≥ a) ≤ .
ar
Preuve
(
a si |X| ≥ a,
Y=
0 sinon.

Alors on a toujours |X| ≥ Y. Donc E |X| ≥ E[Y].
Inégalités

E |X|
P(|X| ≥ a) ≤ .
a

E |X|r
P(|X| ≥ a) ≤ .
ar
Preuve
(
a si |X| ≥ a,
Y=
0 sinon.

Alors on a toujours |X| ≥ Y. Donc E |X| ≥ E[Y]. D’où l’inégalité, car
E[Y] = aP(|X| ≥ a) + 0P(|X| < a) = aP(|X| ≥ a).

Inégalités

E |X|
P(|X| ≥ a) ≤ .
a

E |X|r
P(|X| ≥ a) ≤ .
ar
Preuve
(
a si |X| ≥ a,
Y=
0 sinon.

Alors on a toujours |X|r ≥ Y r . Donc E |X|r ≥ E[Y r ]. D’où l’inégalité, car
E[Y r ] = ar P(|X| ≥ a) + 0P(|X| < a) = ar P(|X| ≥ a).

Inégalités
Proposition (Inégalité de Bienaymé-Tchebychev)
Var(X)
P X − E[X] ≥ a ≤ .
a2
Preuve : Appliquer l’inégalité de Markov à r = 2 et à la v.a. X − E[X].
Autre écriture
Pour tout A > 0,
1
P E[X] − Aσ(X) ≤ X ≤ E[X] + Aσ(X) ≥ 1 − 2 .
A
→ avec probabilité ≥ 75 %, |X − E[X]| ≤ 2σ(X).
Inégalités
Proposition (Inégalité de Bienaymé-Tchebychev)
Var(X)
P X − E[X] ≥ a ≤ .
a2
Preuve : Appliquer l’inégalité de Markov à r = 2 et à la v.a. X − E[X].
Autre écriture
Pour tout A > 0,
1
P E[X] − Aσ(X) ≤ X ≤ E[X] + Aσ(X) ≥ 1 − 2 .
A
Ces inégalités sont intéressantes si on ne connaît pas la loi de X (ou si elle

est compliquée), mais que l’on connaît E[X] et σ(X). Cela arrive notamment
quand X est définie à partir de plusieurs variables aléatoires.
Désormais, on va s’intéresser à plusieurs variables aléatoires, et à la façon
dont elles sont liées.
Indépendance de variables aléatoires
Définition
Des variables aléatoires X1 , . . . ,Xn sont indépendantes si, pour tous
B1 , . . . ,Bn ⊂ R,
P(X1 ∈ B1 , . . . ,Xn ∈ Bn ) = P(X1 ∈ B1 ) · · · P(Xn ∈ Bn ).
où les virgules se lisent « et » :
P(X1 ∈ B1 , . . . ,Xn ∈ Bn ) = P({X1 ∈ B1 } ∩ · · · ∩ {Xn ∈ Bn })
Par exemple, deux variables aléatoires X et Y sont indépendantes si les

événements qui ne dépendent que de X sont indépendants des événements
qui ne dépendent que de Y : pour B,C ⊂ R,
P(X ∈ B, Y ∈ C) = P(X ∈ B)P(Y ∈ C).
Connaître X ne renseigne pas sur Y. Notion intuitive d’« indépendance ».

Exemple : tirages de dés,...
Indépendance – Retour sur un exemple
On considère deux tirages de dés : espace de probabilité Ω = {1, . . . ,6}2 ,

avec la probabilité P uniforme.
On note X1 , X2 les résultats des dés : pour tout tirage (k,l) ∈ Ω,
X1 ((k,l)) = k et X2 ((k,l)) = l.
Alors, pour A,B ⊂ {1, . . . ,6},
P(X1 ∈ A, X2 ∈ B) = P({(k,l) ∈ Ω | k ∈ A, l ∈ B})

Card(A × B)
= P(A × B) =
Card(Ω)
Card A Card B
= = P(X1 ∈ A)P(X2 ∈ B),
6 6
car X1 et X2 suivent la loi uniforme sur {1, . . . ,6}. Donc X1 et X2 sont
indépendantes.
On a ainsi déjà utilisé des v.a. indépendantes sans le dire.
(cf. aussi le choix de (Ω,P) dans le paradoxe des anniversaires)
Indépendance – Propriétés (admises)
Proposition
1 Si X1 , . . . ,Xn sont indépendantes, alors les variables aléatoires
f1 (X1 ), . . . ,fn (Xn ) sont indépendantes, quelles que soient les
fonctions f1 , . . . ,fn .
2 « Indépendance par paquets ». Si X1 , . . . ,Xn sont
indépendantes alors les fonctions de « paquets disjoints » de
variables sont indépendantes : par exemple, les variables
aléatoires f1,2 (X1 ,X2 ), f3 (X3 ), f4,5,6 (X4 ,X5 ,X6 ),. . . sont
indépendantes.
3 Si des événements A1 , . . . ,An sont indépendants alors leurs
fonctions indicatrices 1A1 , . . . ,1An sont des variables aléatoires
indépendantes ; et réciproquement.
Par 2), si X,Y,Z,T sont indépendantes,

p
X |Z|, Y 2 et T1 sont indépendantes ;
et de même,
X + Y 2 et Z(1 − TZ ) sont indépendantes.
Indépendance et espérance
Proposition
Si X1 , . . . ,Xn sont des variables aléatoires indépendantes, alors
1 si leurs espérances sont bien définies,
E[X1 · · · Xn ] = E[X1 ] · · · E[Xn ]
2 si leurs variances sont bien définies, alors on a Cov(Xi ,Xj ) = 0

pour tous i 6= j, d’où
Var(X1 + · · · + Xn ) = Var(X1 ) + · · · + Var(Xn ).
(le 1. est évident si Xi = 1Ai , et le cas général s’en déduit par approximation)
Par le 1) on déduit, si X1 , . . . ,Xn sont indépendantes,
E[f1 (X1 ) · · · fn (Xn )] = E[f1 (X1 )] · · · E[fn (Xn )].
Indépendance et espérance
Proposition
Si X1 , . . . ,Xn sont des variables aléatoires indépendantes, alors
1 si leurs espérances sont bien définies,
E[X1 · · · Xn ] = E[X1 ] · · · E[Xn ]
2 si leurs variances sont bien définies, alors on a Cov(Xi ,Xj ) = 0

pour tous i 6= j, d’où
Var(X1 + · · · + Xn ) = Var(X1 ) + · · · + Var(Xn ).
(le 1. est évident si Xi = 1Ai , et le cas général s’en déduit par approximation)
Par le 1) on déduit, si X1 , . . . ,Xn sont indépendantes,
E[f1 (X1 ) · · · fn (Xn )] = E[f1 (X1 )] · · · E[fn (Xn )].
Application : Variance de la loi binomiale. Si A1 , . . . ,An sont indépendants

et P(A1 ) = · · · = P(An ) = p, alors Sn = 1A1 + · · · + 1An suit la loi B(n,p) et
Var(Sn ) = Var(1A1 ) + · · · + Var(1An ) = n Var(1A1 ) = np(1 − p).

Inégalité de Tchebychev pour la loi B(n,p)

et P(A1 ) = · · · = P(An ) = p, alors Sn = 1A1 + · · · + 1An suit la loi B(n,p).
Et, comme 1A1 , . . . ,1An sont indépendantes,
Appliquons l’inégalité de Tchebychev à Sn : pour tout δ > 0,

np(1 − p)
P(|Sn − np| ≥ δ) ≤ .
δ2


np(1 − p)
P(|Sn − np| ≥ δ) ≤ .
δ2
Pour δ = nε,
np(1 − p) p(1 − p)
P(|Sn − np| ≥ nε) ≤ = −→ 0.
n2 ε2 nε2 n→∞


np(1 − p)
P(|Sn − np| ≥ δ) ≤ .
δ2
Pour δ = nε,
S np(1 − p) p(1 − p)
n
P − p ≥ ε = P(|Sn − np| ≥ nε) ≤ = −→ 0.
n n2 ε2 nε2 n→∞
1 +···+1
La proportion de “succès” Snn = A1 n An est proche de p avec grande
probabilité, si le nombre n est grand. C’est un cas particulier de la loi des
grands nombres.
Exemple : si n = 1000 et p = 12 , avec probab. ≥ 75%, Sn ∈ [0.468,0.531].
(On verra plus tard comment raffiner cet intervalle)
Théorème
Soit (Xn )n≥1 une suite de variables aléatoires indépendantes, et de
même loi, d’espérance m et de variance σ 2 . On définit la variable
aléatoires X n , appelée moyenne empirique, par
X1 + · · · + Xn
Xn = .
n
On a :

pour tout ε > 0, P m − ε ≤ X n ≤ m + ε −→ 1.
n→∞
Théorème
Soit (Xn )n≥1 une suite de variables aléatoires indépendantes, et de
même loi, d’espérance m et de variance σ 2 . On définit la variable
aléatoires X n , appelée moyenne empirique, par
X1 + · · · + Xn
Xn = .
n
On a :

pour tout ε > 0, P m − ε ≤ X n ≤ m + ε −→ 1.
n→∞
NB. Si (An )n≥1 est une suite d’événements indépendants et qui ont même
probabilité p (par exemple, dans une suite de tirages à Pile-ou-Face,
An = {le n-ième tirage est Pile}, et p = 12 ), alors en posant Xi = 1Ai , on a
1 A1 + · · · + 1 An nombre d’événements réalisés parmi A1 , . . . ,An
Xn = =
n n
donc X n est la fréquence de réalisation des événements A1 , . . . ,An .
Application : Simulation stochastique
Principe de la simulation aléatoire (ou “stochastique”)

La “fonction” rand() de Matlab renvoie une suite d’observations de
variables aléatoires indépendantes et de loi uniforme sur [0,1].
Il existe une suite U1 ,U2 , . . . de variables aléatoires indépendantes, toutes

de loi uniforme sur [0,1], et un élément ω ∈ Ω, tels que la fonction rand()
renvoie d’abord U1 (ω), puis U2 (ω), puis...
• On peut dire que la valeur de ω correspond à la graine du générateur
aléatoire : c’est une valeur (un entier) qui détermine la suite des tirages.
Dans Matlab, rng(n) donne à la graine la valeur n.
• En réalité, U1 ,U2 , . . . ne sont pas vraiment indépendantes et de loi
uniforme sur [0,1], mais se comportent “presque” comme si elles l’étaient.
On parle de nombres pseudo-aléatoires.
• Si on souhaite des variables qui suivent d’autres lois, il faut les construire à
partir de U1 ,U2 , . . .
• Par la loi des grands nombres, on peut calculer des valeurs approchées de
probabilités ou d’espérances : c’est la méthode de Monte-Carlo.
Calcul espérance/variance : collectionneur d’images
Dans chaque paquet de céréales, on trouve une image. Il existe en tout
N = 50 images différentes. Combien de paquets faut-il ouvrir pour en avoir
(au moins) une de chaque type ?
On note U1 ,U2 , . . . le numéro de l’image du paquet 1, du paquet 2,. . .

Alors U1 ,U2 , . . . sont des variables aléatoires indépendantes, et de loi
uniforme dans {1,2, . . . ,N}. Notons X le nombre de paquets à ouvrir.

On peut décomposer X = K1 + K2 + · · · + KN , où Ki est le nombre de
nouveaux paquets à ouvrir pour avoir i images différentes, quand on en a
déjà i − 1 différentes (avec K1 = 1). Quelle est la loi de Ki ?

K2 suit la loi géométrique de paramètre N−1 N .
···
KN suit la loi géométrique de paramètre N1 . Donc
N N N
E[X] = E[K1 ] + E[K2 ] + · · · + E[KN ] = 1 + + + ··· +
N−1 N−2 1
1 1 1
= N 1 + + + ··· + ' 225 (si N = 50)
2 3 N
N−2
K3 suit la loi géométrique de paramètre N .
···
KN suit la loi géométrique de paramètre N1 . Donc
N N N
E[X] = E[K1 ] + E[K2 ] + · · · + E[KN ] = 1 + + + ··· +
N−1 N−2 1
1 1 1
= N 1 + + + ··· + ' 225 (si N = 50)
2 3 N
et K1 , . . . ,Kn sont indépendants, donc
1 N−1
Var(X) = Var(K1 )+· · ·+Var(KN ) = 0+ N
+· · ·+ N
' 622
(1 − N1 ) 2 (1 − N−1
N )
2
(Par inég. de Tchebychev) Avec probabilité ≥ 75%, 101 ≤ X ≤ 349.

Parenthèse : Loi normale N (m,σ 2 )
La loi normale centrée (m = 0) réduite (σ = 1), notée N (0,1), est la loi de
densité
1 x2
f (x) = √ e− 2 .
2π
Si m ∈ R et σ ∈]0, + ∞[, la loi normale de moyenne m et de variance σ 2 ,
notée N (m,σ 2 ), est la loi de la variable aléatoire X = m + σZ, où Z suit la
loi N (0,1).
Si X suit une loi normale, on dit que X est une v.a. gaussienne.
Si Z ∼ N (0,1), sa fonction de répartition est

Z x
2 dt
Φ(x) = P(Z ≤ x) = e−t /2 √ .
−∞ 2π
Φ ne peut pas s’exprimer à l’aide des fonctions usuelles, donc on utilise
• une table (imprimée, ou dans un logiciel de calcul numérique)
x2
e− 2
• ou une approximation : P(Z > x) = 1 − Φ(x) ∼ √
x→∞ x 2π
(avec une erreur relative inférieure à 0,2 si x > 1,9)
Si X ∼ N (m,σ 2 ), on pose Z = X−mσ pour se ramener à N (0,1).
Courbe en cloche : densité de la loi N (m,σ 2 )
La densité de la loi N (m,σ 2 ) est
1 (x−m)2
f : x 7→ f (x) = √ e− 2σ2 .
σ 2π
Cette fonction est appelée une gaussienne ou “courbe en cloche”.
h = σ√12π point d’inflexion
σ σ
√1 h ' 0,6h aire : 2,5%

e
1,96σ
m
Loi normale N (m,σ 2 )
Proposition
“Toute combinaison linéaire de variables aléatoires gaussiennes
indépendantes est une variable aléatoire gaussienne.”
Plus précisément, si X1 , . . . ,Xn sont indépendantes et Xi ∼ N (mi ,σi2 )
alors, pour tous a1 , . . . ,an ∈ R,
X = a1 X1 + · · · + an Xn ∼ N (M,Σ2 ),
où
X
n X
n
M = E[X] = ai mi et Σ2 = Var(X) = a2i σi2 .
i=1 i=1
Les lois normales interviendront en statistique (pour étudier la marge

d’erreur dans la loi des grands nombres).
Plan du cours

Loi du couple, loi marginale
Loi du couple
Définition
Soit X,Y deux variables aléatoires. La loi du couple (X,Y) est la
probabilité P(X,Y) sur R2 qui vérifie :
pour tous A,B ⊂ R, P(X,Y) (A × B) = P(X ∈ A, Y ∈ B).
Les lois de X et Y se déduisent de P(X,Y) : pour A ⊂ R,
PX (A) = P(X ∈ A) = P(X ∈ A, Y ∈ R) = P(X,Y) (A × R).
Inversement, les lois de X et de Y sont les lois marginales de P(X,Y) .
Si X et Y sont indépendantes, la loi du couple est fournie par les lois de X et

de Y :
P(X,Y) (A × B) = PX (A)PY (B).
La loi du couple contient davantage d’information que PX et PY : elle
indique aussi la façon dont les variables dépendent l’une de l’autre
(connaître X peut renseigner sur Y).
Exemple
On choisit au hasard (uniformément) un étudiant entré à l’université en 2012.

On note
S ∈ {H,F} son sexe
D ∈ {bio-santé, droit, lettres, sciences, sport, sciences éco } la
discipline où il est inscrit.
Ce sont deux variables aléatoires.
Décrire la loi de (S,D) revient à se donner les proportions d’étudiants dans
chaque cas :
bio-santé droit lettres sciences sport sciences éco
H 6% 7 % 15 % 6 % 4% 5%
F 14 % 10 % 24 % 3 % 2% 4%
Exemple
On choisit au hasard (uniformément) un étudiant entré à l’université en 2012.

On note
S ∈ {H,F} son sexe
D ∈ {bio-santé, droit, lettres, sciences, sport, sciences éco } la
discipline où il est inscrit.
Ce sont deux variables aléatoires.
Décrire la loi de (S,D) revient à se donner les proportions d’étudiants dans
chaque cas :
bio-santé droit lettres sciences sport sciences éco Total
H 6% 7 % 15 % 6 % 4% 5% 43 %
F 14 % 10 % 24 % 3 % 2% 4% 57 %
Total 20 % 17 % 39 % 9 % 6% 9% 100 %
→ Le total de droite est la loi de S. Le total du bas est la loi de D.
D et S ne sont pas indépendantes : P(D = bio, S = H) = 0,06 et
P(D = bio)P(S = H) = 0,2 · 0,43 = 0,086 6= 0,06
Cas de deux variables discrètes
Si X et Y sont discrètes alors la loi de (X,Y) est donnée par les probabilités
élémentaires :
p(X,Y) (x,y) = P(X = x, Y = y) pour tous x ∈ X(Ω), y ∈ Y(Ω).
Elles vérifient p(X,Y) (x,y) ∈ [0,1] pour tous x,y, et

X X
p(X,Y) (x,y) = 1.
x∈X(Ω) y∈Y(Ω)
Inversement, les lois marginales se déduisent des (p(X,Y) (x,y)) : pour tout
x ∈ X(Ω),
X X
pX (x) = P(X = x) = P(X = x,Y = y) = p(X,Y) (x,y),
y∈Y(Ω) y∈Y(Ω)
pour tout y ∈ Y(Ω),

X X
pY (y) = P(Y = y) = P(X = x,Y = y) = p(X,Y) (x,y).
x∈X(Ω) x∈X(Ω)
NB. X et Y sont indépendantes ssi p(X,Y) (x,y) = pX (x)pY (y) pour tous x,y.
Autre exemple discret
On lance 2 dés à 4 faces, dont on note X et Y les résultats, entre 1 et 4.

X et Y sont indépendantes, de loi uniforme sur {1, . . . ,4}.
On définit Z = |X − Y|
Z est à valeurs dans {0,1,2,3} et la loi de (X,Z) est donnée par :
HH X
H
1 2 3 4
Z HH
0 1/16 1/16 1/16 1/16
1 1/16 1/8 1/8 1/16
2 1/16 1/16 1/16 1/16
3 1/16 0 0 1/16
Autre exemple discret
On lance 2 dés à 4 faces, dont on note X et Y les résultats, entre 1 et 4.

X et Y sont indépendantes, de loi uniforme sur {1, . . . ,4}.
On définit Z = |X − Y|
Z est à valeurs dans {0,1,2,3} et la loi de (X,Z) est donnée par :
HH X
HH 1 2 3 4 Total (loi de Z)
Z H
0 1/16 1/16 1/16 1/16 1/4
1 1/16 1/8 1/8 1/16 3/8
2 1/16 1/16 1/16 1/16 1/4
3 1/16 0 0 1/16 1/8
Total (loi de X) 1/4 1/4 1/4 1/4 1
Cours 4
–
Lundi 25 février 2019
Rappel – Bilan
On a vu jusque-là comment étudier une seule variable aléatoire X :
X est une fonction Ω → R
son ensemble de valeurs possibles (ou support) est son image X(Ω)
sa loi est la donnée de PX (A) = P(X ∈ A), pour tout A ⊂ R
cas discret : équivaut à P(X = x) pour tous les x ∈ X(Ω)
cas à densité fX : équivaut à fX (x) pour tous les x ∈ R
on peut aussi se donner sa loi par sa fonction de répartition
FX : x 7→ FX (x) = P(X ≤ x).
On peut calculer des espérances E[φ(X)] pour φ : R → R :

X
cas discret : E[φ(X)] = φ(x)P(X = x)
x
Z +∞
cas à densité fX : E[φ(X)] = φ(x)fX (x)dx.
−∞
(si la série/intégrale converge)
Rappel – Bilan
On a aussi vu comment étudier plusieurs variables aléatoires X,Y
indépendantes :
X et Y sont, chacunes, des fonctions Ω → R
(X,Y) peut prendre toute valeur dans X(Ω) × Y(Ω) (pas d’influence)
On sait calculer des probabilités du type
P(X ∈ A et Y ∈ B) = P(X ∈ A)P(Y ∈ B)
On sait calculer des espérances du type
E[φ(X)ψ(Y)] = E[φ(X)]E[ψ(Y)]
(si elles convergent), et en particulier Cov(X,Y) = 0.
Et pour calculer, disons P(XY > 0) ou E[(X + Y)2 ], on se ramène aux calculs
ci-dessus. Cela a permis aussi de démontrer la loi des grands nombres.
Rappel – Bilan
On a aussi vu comment étudier plusieurs variables aléatoires X,Y
indépendantes :
X et Y sont, chacunes, des fonctions Ω → R
(X,Y) peut prendre toute valeur dans X(Ω) × Y(Ω) (pas d’influence)
On sait calculer des probabilités du type
P(X ∈ A et Y ∈ B) = P(X ∈ A)P(Y ∈ B)
On sait calculer des espérances du type
E[φ(X)ψ(Y)] = E[φ(X)]E[ψ(Y)]
(si elles convergent), et en particulier Cov(X,Y) = 0.
Et pour calculer, disons P(XY > 0) ou E[(X + Y)2 ], on se ramène aux calculs
ci-dessus. Cela a permis aussi de démontrer la loi des grands nombres.
Mais en général, les variables dans une expérience ne sont pas indépendantes
(ni de simples fonctions Y = f (X))... Pour étudier ces corrélations, on a
besoin d’étudier le couple (X,Y) et en particulier sa loi.
Loi du couple : des exemples discrets
Pour décrire la loi de deux variables aléatoires X,Y à valeurs dans

{1,2,3,4,5,6}, il suffit de connaître P(X = i et Y = j), pour i,j entre 1 et 6.
HH X
HH 1 2 3 4 5 6 Total
Y H
1 1/36 1/36 1/36 1/36 1/36 1/36 1/6
2 1/36 1/36 1/36 1/36 1/36 1/36 1/6
3 1/36 1/36 1/36 1/36 1/36 1/36 1/6
4 1/36 1/36 1/36 1/36 1/36 1/36 1/6
5 1/36 1/36 1/36 1/36 1/36 1/36 1/6
6 1/36 1/36 1/36 1/36 1/36 1/36 1/6
Total 1/6 1/6 1/6 1/6 1/6 1/6 1

HH X
H 1 2 3 4 5 6 Total
Y HH
1 1/36 1/36 1/36 1/36 1/36 1/36 1/6
2 1/36 1/36 1/36 1/36 1/36 1/36 1/6
3 1/36 1/36 1/36 1/36 1/36 1/36 1/6
4 1/36 1/36 1/36 1/36 1/36 1/36 1/6
5 1/36 1/36 1/36 1/36 1/36 1/36 1/6
6 1/36 1/36 1/36 1/36 1/36 1/36 1/6
Total 1/6 1/6 1/6 1/6 1/6 1/6 1
X,Y indépendantes

HH X
HH 1 2 3 4 5 6 Total
Y H
1 1/6 0 0 0 0 0 1/6
2 0 1/6 0 0 0 0 1/6
3 0 0 1/6 0 0 0 1/6
4 0 0 0 1/6 0 0 1/6
5 0 0 0 0 1/6 0 1/6
6 0 0 0 0 0 1/6 1/6
Total 1/6 1/6 1/6 1/6 1/6 1/6 1

HH X
H 1 2 3 4 5 6 Total
Y HH
1 1/6 0 0 0 0 0 1/6
2 0 1/6 0 0 0 0 1/6
3 0 0 1/6 0 0 0 1/6
4 0 0 0 1/6 0 0 1/6
5 0 0 0 0 1/6 0 1/6
6 0 0 0 0 0 1/6 1/6
Total 1/6 1/6 1/6 1/6 1/6 1/6 1
Y=X

HH X
HH 1 2 3 4 5 6 Total
Y H
1 0 0 0 0 0 1/6 1/6
2 0 0 0 0 1/6 0 1/6
3 0 0 0 1/6 0 0 1/6
4 0 0 1/6 0 0 0 1/6
5 0 1/6 0 0 0 0 1/6
6 1/6 0 0 0 0 0 1/6
Total 1/6 1/6 1/6 1/6 1/6 1/6 1

HH X
H 1 2 3 4 5 6 Total
Y HH
1 0 0 0 0 0 1/6 1/6
2 0 0 0 0 1/6 0 1/6
3 0 0 0 1/6 0 0 1/6
4 0 0 1/6 0 0 0 1/6
5 0 1/6 0 0 0 0 1/6
6 1/6 0 0 0 0 0 1/6
Total 1/6 1/6 1/6 1/6 1/6 1/6 1
Y =7−X

HH X
HH 1 2 3 4 5 6 Total
Y H
1 1/12 1/12 0 0 0 0 1/6
2 1/12 1/12 0 0 0 0 1/6
3 0 0 1/6 0 0 0 1/6
4 0 0 0 1/6 0 0 1/6
5 0 0 0 0 1/6 0 1/6
6 0 0 0 0 0 1/6 1/6
Total 1/6 1/6 1/6 1/6 1/6 1/6 1

HH X
H 1 2 3 4 5 6 Total
Y HH
1 1/12 1/12 0 0 0 0 1/6
2 1/12 1/12 0 0 0 0 1/6
3 0 0 1/6 0 0 0 1/6
4 0 0 0 1/6 0 0 1/6
5 0 0 0 0 1/6 0 1/6
6 0 0 0 0 0 1/6 1/6
Total 1/6 1/6 1/6 1/6 1/6 1/6 1
(
X si X ≥ 3,
X dé, Z ∈ {1,2} pièce indépendante ; Y =
Z si X ∈ {1,2}

HH X
H 1 2 3 4 5 6 Total
Y HH
1 1/12 1/12 0 0 0 0 1/6
2 1/12 1/12 0 0 0 0 1/6
3 0 0 1/6 0 0 0 1/6
4 0 0 0 1/6 0 0 1/6
5 0 0 0 0 1/6 0 1/6
6 0 0 0 0 0 1/6 1/6
Total 1/6 1/6 1/6 1/61/6 1/6 1
(
X si X ≥ 3,
X dé, Z ∈ {1,2} pièce indépendante ; Y =
Z si X ∈ {1,2}
Etc. : si on connaît la loi de X et celle de Y, on ne connaît pas la loi de (X,Y),

celle-ci donne le lien entre les valeurs de X et de Y à un même tirage.
Loi du couple
Définition
Soit X,Y deux variables aléatoires. La loi du couple (X,Y) est la
probabilité P(X,Y) sur R2 qui vérifie :
pour tout C ⊂ R2 , P(X,Y) (C) = P((X,Y) ∈ C)
et donc pour tous A,B ⊂ R, P(X,Y) (A × B) = P(X ∈ A, Y ∈ B).

Les lois de X et Y se déduisent de P(X,Y) : pour A ⊂ R,
PX (A) = P(X ∈ A) = P(X ∈ A, Y ∈ R) = P(X,Y) (A × R).
Inversement, les lois de X et de Y sont les lois marginales de P(X,Y) .
Si X et Y sont indépendantes, la loi de (X,Y) est fournie par celles de X et Y :

P(X,Y) (A × B) = PX (A)PY (B).
La loi du couple contient davantage d’information que PX et PY : elle
indique aussi la façon dont les variables dépendent l’une de l’autre à un
même tirage (connaître X peut renseigner sur Y).
Cas de deux variables discrètes
Si X et Y sont discrètes alors la loi de (X,Y) est donnée par le tableau des
probabilités élémentaires :
p(X,Y) (x,y) = P(X = x, Y = y) pour tous x ∈ X(Ω), y ∈ Y(Ω).

X X
p(X,Y) (x,y) = 1.
Les lois marginales se déduisent des (p(X,Y) (x,y)) : pour tout x ∈ X(Ω),
X X
pX (x) = P(X = x) = P(X = x,Y = y) = p(X,Y) (x,y),
y∈Y(Ω) y∈Y(Ω)
pour tout y ∈ Y(Ω),

X X
pY (y) = P(Y = y) = P(X = x,Y = y) = p(X,Y) (x,y).
x∈X(Ω) x∈X(Ω)
NB. X et Y sont indépendantes ssi p(X,Y) (x,y) = pX (x)pY (y) pour tous x,y.
Cas où P(X,Y) a une densité
On dit que le couple (X,Y) a une densité s’il y a une fonction

f(X,Y) : R2 → R telle que
ZZ
pour tout D ⊂ R2 , P(X,Y) (D) = f(X,Y) (x,y)dx dy.
D
f(X,Y) est appelée la densité du couple (X,Y). Alors f(X,Y) (x,y) ≥ 0 pour tous
x,y ∈ R, et Z Z
f(X,Y) (x,y)dx dy = 1.
R R
NB. En pratique,
R R le calcul d’intégrale double se ramène à deux intégrales
simples ( f(X,Y) (x,y)dx)dy, où les bornes peuvent dépendre du point y
Presque sûrement, (X,Y) ∈ Supp(f(X,Y) ) où le support de la fonction f(X,Y)

est défini par
Supp(f(X,Y) ) = {(x,y) ∈ R2 | f(X,Y) (x,y) > 0}.

Interprétation de la densité
On rappelle que, si X a pour densité fX alors
P(X ∈ [x − δ,x + δ]) P(X ∈ [x − δ,x + δ])

fX (x) = lim = lim ,
δ→0 longueur([x − δ,x + δ]) δ→0 2δ
si fX est continue en x.
De façon similaire,
Si (X,Y) a pour densité f(X,Y) alors

P (X,Y) ∈ D((x,y),δ) P (X,Y) ∈ D((x,y),δ)
fX,Y (x,y) = lim = lim ,
δ→0 aire(D((x,y),δ)) δ→0 πδ 2
si f(X,Y) est continue en (x,y).

Cas où P(X,Y) a une densité
On déduit les lois marginales de la loi du couple et, dans le cas indépendant,
on déduit la loi du couple des lois marginales :
Proposition
1 Si (X,Y) a pour densité f(X,Y) , alors X et Y ont des densités fX et
fY données par
Z Z
fX (x) = f(X,Y) (x,y)dy et fY (y) = f(X,Y) (x,y)dx.
R R
2 Si X et Y ont des densités fX et fY et sont indépendantes, alors

(X,Y) a pour densité
f(X,Y) (x,y) = fX (x)fY (y).
Réciproquement, si f(X,Y) (x,y) = f (x)g(y) pour deux fonctions f et

g, alors X et Y sont indépendantes, et les densités de X et Y sont
proportionnelles à f et g.
Exemple à densité
Par définition, la loi uniforme sur le disque D(0,r) est la loi d’un couple
(X,Y) de densité
( p
1
1 πr 2 si x2 + y2 ≤ r
f(X,Y) (x,y) = 2 1D(0,r) (x,y) = .
πr 0 sinon.
D’où la loi de X : la variable aléatoire X a pour densité
 Z √2 2 √
Z  r −x
 1 r 2 − x2
= √ dy = 2 si −r < x < r
fX (x) = f(X,Y) (x,y)dy − r2 −x2 πr
2 πr2
R 
= 0 sinon.
Et Y a même loi que X.

NB : X,Y ne sont pas indépendantes car on sait que (X,Y) ∈ D(0,r).
(on peut aussi voir que f(X,Y) (x,y) 6= fX (x)fY (y))
Autre exemple
Soit (U,V) un couple de variables aléatoire de densité
f (u,v) = Ce−2(u+v) 1D (u,v),
où D = {(u,v) ∈ R2 | 0 ≤ u ≤ v}, et C est un réel à déterminer.

Autre exemple
f (u,v) = Ce−2(u+v) 1D (u,v),
où D = {(u,v) ∈ R2 | 0 ≤ u ≤ v},
Z et C est un réel à déterminer.
Alors U a pour densité fU (u) = f (u,v)dv donc fU (u) = 0 si u < 0 et, si
R
u > 0, Z ∞
C −4u
fU (u) = C e−2u−2v dv = e ,
u 2
donc U suit la loi E(4) et C = 8.
Autre exemple
f (u,v) = Ce−2(u+v) 1D (u,v),
où D = {(u,v) ∈ R2 | 0 ≤ u ≤ v},
R
u > 0, Z ∞
C −4u
fU (u) = C e−2u−2v dv = e ,
u 2
donc U suit la loi E(4) et C =
Z 8.
Et V a pour densité fV (v) = f (u,v)du donc fV (v) = 0 si v < 0 et, si v > 0,
R
Z v
fV (v) = 8 e−2u−2v du = 4(e−2v − e−4v ).
0
Autre exemple
f (u,v) = Ce−2(u+v) 1D (u,v),
où D = {(u,v) ∈ R2 | 0 ≤ u ≤ v},
R
u > 0, Z ∞
C −4u
fU (u) = C e−2u−2v dv = e ,
u 2
donc U suit la loi E(4) et C =
Z 8.
Et V a pour densité fV (v) = f (u,v)du donc fV (v) = 0 si v < 0 et, si v > 0,
R
Z v
fV (v) = 8 e−2u−2v du = 4(e−2v − e−4v ).
0
NB. U et V ne sont pas indépendantes. ((U,V) ∈ D, ou f (u,v) 6= fU (u)fV (v))

Loi d’un couple : Bilan
Si X et Y sont discrètes alors la loi de (X,Y) est donnée par les probabilités
élémentaires :
P(X = x, Y = y) pour tous x ∈ X(Ω), y ∈ Y(Ω).

X X
p(X,Y) (x,y) = 1.
On dit que le couple (X,Y) a une densité s’il existe f(X,Y) : R2 → R telle que
Z Z
P(X ∈ A, Y ∈ B) = f(X,Y) (x,y)dx dy pour tous A,B ⊂ R2 .
A B
f(X,Y) est la densité de (X,Y). Alors f(X,Y) (x,y) ≥ 0 pour tous x,y ∈ R, et
Z Z
f(X,Y) (x,y)dx dy = 1.
R R
Calculs d’espérances
Avec la loi du couple (X,Y), on calcule l’espérance de fonctions réelles de X
et Y :
Proposition
Soit ϕ : R2 → R une fonction.
Si X et Y sont discrètes, alors
X X
E[ϕ(X,Y)] = ϕ(x,y)P(X = x, Y = y).
Si (X,Y) a pour densité f(X,Y) , alors

Z Z
E[ϕ(X,Y)] = ϕ(x,y)f(X,Y) (x,y)dx dy.
R R
(À condition que les séries et les intégrales soient bien définies)
Rappel : si X,Y sont indépendantes,

E[f (X)g(Y)] = E[f (X)]E[g(Y)].
Exemple de calcul
Soit X,Y deux variables aléatoires indépendantes, de loi E(λ). On cherche

1
E .
X+Y
Z ∞ Z ∞
1 1
E = fX (x)fY (y)dx dy
X+Y x + y
Z0 ∞ Z0 ∞
1
= λe−λx λe−λy dx dy
x + y
Z0 ∞Z0 ∞
1
= λ2 e−λ(x+y) dx dy
0 0 x+y
Z ∞Z ∞
1 2 −λz
= λ e dz dy en posant x 7→ z = x + y
0 y z
Z ∞Z ∞
1 2 −λz
= 1(y≤z) λ e dz dy
0 0 z
Z ∞Z ∞
1 2 −λz
= 1(y≤z) λ e dy dz
0 0 z
Z ∞Z z Z ∞ Z ∞
1 2 −λz 1
= λ e dy dz = z λ2 e−λz dz = λ2 e−λz dz = λ
z z
Autre exemple de calcul (moins astucieux)
Pour le couple (U,V) précédent, calculer E[eU+V ].
ZZ

E eU+V = eu+v f (u,v)du dv
R2
ZZ
= eu+v 8e−2(u+v) du dv
D
Z Z ∞
∞
−u −v
= 8e e dv du
0 u
Z ∞ Z ∞
−u −v
=8 e e dv du
Z0 ∞ u
1
=8 e−u e−u du = 8 = 4.
0 2

Cours

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours

Transféré par

Droits d'auteur :

Formats disponibles

Cours Commun Scientifique

2 Variables aléatoires. Généralités

3 Couples de variables aléatoires

Ω correspond à l’ensemble des résultats d’une expérience aléatoire.

tirage à pile-ou-face, Ω = {P,F} ou {0,1}

Ω = {(i,j) | i,j ∈ {1, . . . ,8} et i 6= j}

ou, si l’ordre n’a pas d’importance,

Ω = {{i,j} | i,j ∈ {1, . . . ,8} et i 6= j}

attente d’un bus qui passe toutes les T minutes, Ω = [0,T] ⊂ R

Pour une même expérience, divers choix de Ω sont possibles. Souvent, on ne

Si un événement A vérifie P(A) = 0, on dit que A est négligeable ; et

Si un événement A vérifie P(A) = 0, on dit que A est négligeable ; et

Preuve de b) : A et Ac sont disjoints (A ∩ Ac = ∅), et Ω = A ∪ Ac donc

Preuve de b) : A et Ac sont disjoints (A ∩ Ac = ∅), et Ω = A ∪ Ac donc

Preuve de b) : A et Ac sont disjoints (A ∩ Ac = ∅), et Ω = A ∪ Ac donc

Preuve de e). On l’a vu pour 2 événements :

On commence par un résultat très simple :

Soit n ∈ N∗ . Soit E1 , . . . ,En des ensembles finis.

Card E1 × Card E2 × · · · × Card En .

On retient que, s’il y a

Un arrangement de k éléments de E est une suite de k éléments de E

Une combinaison de k éléments de E est une façon de choisir k éléments

NB. Vous auriez peut-être envie d’écrire 68 · 57 · 46 , cela correspondrait à

Pour la position d’une fève circulaire dans une galette, Ω = D(0,R)

P(A|B) est appelée la probabilité conditionnelle de A sachant B.

C’est la proportion de chance que A se réalise parmi les éventualités où B se

Si P(B) 6= 0, cela revient à

Savoir que B est réalisé n’influence pas la probabilité de A.

On note F = {j’ai la fève} et A5 = {nous sommes 5}, A6 et A7 de même.

On note F = {j’ai la fève} et A5 = {nous sommes 5}, A6 et A7 de même.

En particulier, pour tous A et B, P(A) = P(A|B)P(B) + P(A|Bc )P(Bc ).

En particulier, pour tous A et B,

P(Ai1 ∩ Ai2 · · · ∩ Aik ) = P(Ai1 )P(Ai2 ) · · · P(Aik ).

En particulier, des événements A, B et C sont indépendants si

P(Ai1 ∩ Ai2 · · · ∩ Aik ) = P(Ai1 )P(Ai2 ) · · · P(Aik ).

En particulier, des événements A, B et C sont indépendants si

De là on pourrait déduire que, si A1 , . . . ,An sont indépendants, alors des

Par le même calcul, si on a n événements indépendants A1 , . . . ,An ayant

Par le même calcul, si on a n événements indépendants A1 , . . . ,An ayant

2 Variables aléatoires. Généralités

3 Couples de variables aléatoires

pour tout B ⊂ R, PX (B) = P({ω ∈ Ω | X(ω) ∈ B}) = P(X ∈ B).

X(Ω) (image de X) est le support de PX .

Pour caractériser une loi discrète, il suffit donc de se donner les

Si E ⊂ R est fini, une variable aléatoire X suit la loi uniforme sur E si

Soit p ∈ [0,1]. Une variable aléatoire X suit la loi de Bernoulli de

la loi de 1A est B(P(A)).

Soit n ∈ N et p ∈ [0,1]. Une variable aléatoire X suit la loi binomiale de

si A1 , . . . ,An sont indépendants et P(A1 ) = · · · = P(An ) = p, la loi de

On prend successivement les parts d’une galette (coupée en 8)

Chaque jour, on prend une part d’une galette différente (coupée en 8)

Nombre de fèves obtenues en n jours : Sn

On prend successivement les parts d’une galette (coupée en 8)

Nombre de fèves obtenues en n jours : Sn

On prend successivement les parts d’une galette (coupée en 8)

On prend successivement les parts d’une galette (coupée en 8)

pour tout B ⊂ R, PX (B) = P({ω ∈ Ω | X(ω) ∈ B}) = P(X ∈ B).

X(Ω) (image de X) est le support de PX . X est “à valeurs dans X(Ω)”

Si X est discrète, alors pour tout B ⊂ X(Ω), on a

or ces événements sont disjoints et forment une suite, d’où

Pour caractériser une loi discrète, il suffit donc de se donner les

Soit n ∈ N et p ∈ [0,1]. Une variable aléatoire X suit la loi binomiale de

si A1 , . . . ,An sont indépendants et P(A1 ) = · · · = P(An ) = p, la loi de

Soit p ∈]0,1]. Une variable aléatoire X suit la loi géométrique de