Vous êtes sur la page 1sur 179

Cours Commun Scientifique

de
Probabilités & Statistiques

Laurent Tournier

Janvier 2019
Plan du cours

1 Espaces de probabilité.
Définitions
Équiprobabilité
Probabilités conditionnelles

2 Variables aléatoires. Généralités

3 Couples de variables aléatoires


Espaces de probabilités
Définition
Un espace de probabilité (Ω,P) est constitué de
Ω, un ensemble
P, une probabilité sur Ω. (qui reste à définir)

Ω correspond à l’ensemble des résultats d’une expérience aléatoire.


Un élément ω ∈ Ω est appelé une réalisation, c’est un résultat possible
d’une expérience aléatoire.
Un sous-ensemble A ⊂ Ω est appelé un événement. C’est un ensemble de
réalisations (celles qui vérifient une certaine condition).
Les opérations usuelles sur des événements A et B ont un sens logique :
Notation Sens mathématique Interprétation en probabilités
c
A (= Ω \ A) complémentaire de A contraire de A, « non A »
A∪B réunion de A et B « A ou B »
A∩B intersection de A et B « A et B »
A∩B=∅ A et B sont disjoints « A et B sont incompatibles »
A⊂B A est inclus dans B « A implique B ».
Espaces de probabilités ; exemples
Ω correspond aux résultats de l’expérience :

tirage à pile-ou-face, Ω = {P,F} ou {0,1}


lancer d’un dé, Ω = {1,2,3,4,5,6}
lancer de deux pièces, Ω = {P,F}2 = {(P,P),(P,F),(F,P),(F,F)}
choix de deux parts dans une galette coupée en 8 :

Ω = {(i,j) | i,j ∈ {1, . . . ,8} et i 6= j}

ou, si l’ordre n’a pas d’importance,

Ω = {{i,j} | i,j ∈ {1, . . . ,8} et i 6= j}

attente d’un bus qui passe toutes les T minutes, Ω = [0,T] ⊂ R


placement d’une fève circulaire dans une galette, Ω = D(0,R) ⊂ R2

Pour une même expérience, divers choix de Ω sont possibles. Souvent, on ne


décrira pas Ω et on fera des hypothèses sur des événements (et des variables
aléatoires) en sachant qu’il existe un espace de probabilité Ω convenable.
Une expérience aléatoire d’actualité : tirer les rois
Selon une tradition française (du XVe siècle), on
« tire les rois » à l’Épiphanie (1er dimanche de jan-
vier) : une fève est cachée dans une galette, qui est
un gâteau feuilleté fourré à la frangipane (pâte aux
amandes). On découpe cette galette, et la personne
qui obtient la fève devient le “roi”/la “reine” de la
journée.

La fève était à l’origine une fève (un haricot sec). On utilise maintenant
plutôt un petit objet, généralement en porcelaine, qui peut se collectionner.
Espaces de probabilités
Pour A ⊂ Ω, P(A) est la « proportion de chance » que A se réalise.
Intuition : si on répète l’expérience, P(A) est la proportion des fois où A se
réalise (cf. Loi des grands nombres).
Définition
Une probabilité sur Ω est une application P : P(Ω) → [0,1], définie
sur les événements, telle que
1 P(Ω) = 1
2 pour
 [toutesuite (An )n∈N d’événements disjoints deux à deux,
X
P An = P(An ).
n∈N n∈N

Si un événement A vérifie P(A) = 0, on dit que A est négligeable ; et


si P(A) = 1, on dit que A est presque sûr, ou que A a lieu presque
sûrement, abrégé « p.s. ».
Espaces de probabilités
Pour A ⊂ Ω, P(A) est la « proportion de chance » que A se réalise.
Intuition : si on répète l’expérience, P(A) est la proportion des fois où A se
réalise (cf. Loi des grands nombres).
Définition
Une probabilité sur Ω est une application P : P(Ω) → [0,1], définie
sur les événements, telle que
1 P(Ω) = 1
2 pour
 [toutesuite (An )n∈N d’événements disjoints deux à deux,
X
P An = P(An ).
n∈N n∈N

Si un événement A vérifie P(A) = 0, on dit que A est négligeable ; et


si P(A) = 1, on dit que A est presque sûr, ou que A a lieu presque
sûrement, abrégé « p.s. ».

Pour simplifier, on suppose ici que l’on peut définir la probabilité tous les
événements. En vérité, ce n’est pas possible dans certains cas, mais cela ne
posera pas de problème pratique.
Espaces de probabilités
Propriétés
a) P(∅) = 0
b) Pour tout événement A, P(Ac ) = 1 − P(A)
c) Si A ⊂ B, alors P(A) ≤ P(B)
d) Pour tous événements A et B, P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
Espaces de probabilités
Propriétés
a) P(∅) = 0
b) Pour tout événement A, P(Ac ) = 1 − P(A)
c) Si A ⊂ B, alors P(A) ≤ P(B)
d) Pour tous événements A et B, P(A ∪ B) = P(A) + P(B) − P(A ∩ B)

Preuve de b) : A et Ac sont disjoints (A ∩ Ac = ∅), et Ω = A ∪ Ac donc


1 = P(Ω) = P(A ∪ Ac ) = P(A) + P(Ac ),
d’où P(Ac ) = 1 − P(A). Et on obtient a) en prenant A = Ω.
Espaces de probabilités
Propriétés
a) P(∅) = 0
b) Pour tout événement A, P(Ac ) = 1 − P(A)
c) Si A ⊂ B, alors P(A) ≤ P(B)
d) Pour tous événements A et B, P(A ∪ B) = P(A) + P(B) − P(A ∩ B)

Preuve de b) : A et Ac sont disjoints (A ∩ Ac = ∅), et Ω = A ∪ Ac donc


1 = P(Ω) = P(A ∪ Ac ) = P(A) + P(Ac ),
d’où P(Ac ) = 1 − P(A). Et on obtient a) en prenant A = Ω.
Preuve de c) : A et B \ A sont disjoints, et A ∪ (B \ A) = B donc
P(B) = P(A ∪ (B \ A)) = P(A) + P(B \ A) ≥ P(A)
et P(B \ A) = P(B) − P(A).
Espaces de probabilités
Propriétés
a) P(∅) = 0
b) Pour tout événement A, P(Ac ) = 1 − P(A)
c) Si A ⊂ B, alors P(A) ≤ P(B)
d) Pour tous événements A et B, P(A ∪ B) = P(A) + P(B) − P(A ∩ B)

Preuve de b) : A et Ac sont disjoints (A ∩ Ac = ∅), et Ω = A ∪ Ac donc


1 = P(Ω) = P(A ∪ Ac ) = P(A) + P(Ac ),
d’où P(Ac ) = 1 − P(A). Et on obtient a) en prenant A = Ω.
Preuve de c) : A et B \ A sont disjoints, et A ∪ (B \ A) = B donc
P(B) = P(A ∪ (B \ A)) = P(A) + P(B \ A) ≥ P(A)
et P(B \ A) = P(B) − P(A).
Preuve de d) : A \ (A ∩ B), A ∩ B et B \ (A ∩ B) sont disjoints, d’union A ∪ B,
donc
P(A ∪ B) = P(A \ (A ∩ B)) + P(A ∩ B) + P(B \ (A ∩ B))
= P(A) − P(A ∩ B) + P(A ∩ B) + P(B) − P(A ∩ B)
Espaces de probabilités
Propriétés
S P
e) Pour toute suite (An )n finie ou infinie, P( n An ) ≤ n P(An ).
(on dit que P est sous-additive)

Preuve de e). On l’a vu pour 2 événements :


P(A ∪ B) = P(A) + P(B) − P(A ∩ B) ≤ P(A) + P(B).
On en déduit le cas d’une suite finie par récurrence.

(∗) Pour une suite infinie (An )n≥0 , on peut poser C0 = A0 puis
Cn = An \ (A1 ∪ · · · ∪ An−1 ), alorsSC0 ,C1 , . . .S
sont disjoints,
C0 ∪ · · · ∪ Cn = A0 ∪ · · · ∪ An et n≥0 Cn = n≥0 An . Alors

[ [ X X
N
P( An ) = P( Cn ) = P(Cn ) = lim P(Cn ) = lim P(A1 ∪ · · · ∪ An )
N N
n≥0 n≥0 n≥0 n=0

et X
P(A1 ∪ · · · ∪ An ) ≤ P(A1 ) + · · · + P(An ) −→ P(Ak )
n→∞
k≥0
Distribution uniforme de probabilité
On suppose que Ω est fini, avec Card Ω = n :
Ω = {ω1 ,ω2 , . . . ,ωn }.
Si ces résultats jouent des rôles symétriques, il est naturel de considérer la
probabilité uniforme sur Ω, telle que
1
P({ω1 }) = · · · = P({ωn }) = .
n

Définition
La probabilité uniforme sur Ω (ou distribution équiprobable) est la
probabilité P définie par : pour tout A = {ωi1 ,ωi2 , . . . ,ωik } ⊂ Ω,

k Card A
P(A) = = .
n Card Ω

Autrement dit,
nombre de cas favorables
P(événement) = .
nombre de cas possibles
Rappels de dénombrement :
Calculer des probabilités dans ce cas se ramène donc à dénombrer (compter)
les éléments d’un ensemble.

On commence par un résultat très simple :

Soit n ∈ N∗ . Soit E1 , . . . ,En des ensembles finis.

Un n-uplet (x1 , . . . ,xn ) est une suite de n éléments (l’ordre est important).
Le nombre de n-uplets (x1 , . . . ,xn ) tels que x1 ∈ E1 ,..., xn ∈ En , est

Card E1 × Card E2 × · · · × Card En .

On retient que, s’il y a


k1 choix pour la valeur de x1 , puis
k2 choix pour la valeur de x2 (quel que soit x1 ),
etc.,
alors il y a k1 k2 · · · kn façons de choisir le n-uplet (x1 , . . . ,xn ).
Rappels de dénombrement :
Soit E un ensemble fini.
Une permutation de E est une façon d’ordonner les éléments de E.
Le nombre de permutations d’un ensemble à n éléments est

n! = 1 × 2 × 3 × · · · × (n − 2) × (n − 1) × n.

Un arrangement de k éléments de E est une suite de k éléments de E


distincts 2 à 2. L’ordre est important.
Le nombre d’arrangements de k éléments parmi n éléments est

n!
Akn = n(n − 1) · · · (n − k + 1) = .
(n − k)!

Une combinaison de k éléments de E est une façon de choisir k éléments


de E, sans spécifier d’ordre : c’est un sous-ensemble de E à k éléments.
Le nombre de combinaisons de k éléments parmi n éléments est
 
n n(n − 1) · · · (n − k + 1) n!
= Cnk = = .
k k! k!(n − k)!
Un exemple très simple
Une galette comporte 8 parts, dont 2 contiennent une fève. On prend 3 parts
au hasard (sans les remettre...). Quelle est la probabilité de ne pas avoir de
fève ?
Un exemple très simple
Une galette comporte 8 parts, dont 2 contiennent une fève. On prend 3 parts
au hasard (sans les remettre...). Quelle est la probabilité de ne pas avoir de
fève ?
Il y a 6 parts sans fève, d’où
nb de choix de 3 parts sans fève
P(ne pas avoir de fève) =
nb de choix de 3 parts
C63 A36 6·5·4
= 3
= 3
= ' 36 %
C8 A8 8·7·6
Comme l’événement ne dépend pas de l’ordre, on peut choisir deux espaces
Ω différents (au moins) : l’ensemble des combinaisons de 3 éléments parmi
8, ou l’ensemble des arrangements de 3 éléments parmi 8. Avec la
probabilité uniforme sur Ω.
Un exemple très simple
Une galette comporte 8 parts, dont 2 contiennent une fève. On prend 3 parts
au hasard (sans les remettre...). Quelle est la probabilité de ne pas avoir de
fève ?
Il y a 6 parts sans fève, d’où
nb de choix de 3 parts sans fève
P(ne pas avoir de fève) =
nb de choix de 3 parts
C63 A36 6·5·4
= 3
= 3
= ' 36 %
C8 A8 8·7·6
Comme l’événement ne dépend pas de l’ordre, on peut choisir deux espaces
Ω différents (au moins) : l’ensemble des combinaisons de 3 éléments parmi
8, ou l’ensemble des arrangements de 3 éléments parmi 8. Avec la
probabilité uniforme sur Ω.

NB. Vous auriez peut-être envie d’écrire 68 · 57 · 46 , cela correspondrait à


utiliser la notion de probabilité conditionnelle. La première part a 6 chances
sur 8 de ne pas avoir de fèves ; sachant cela, la deuxième a 5 chances sur 7
de ne pas en avoir non plus ; etc.
Exemple : paradoxe des anniversaires
Dans un groupe de n étudiants, quelle est la probabilité que 2 (au moins)
aient leur anniversaire le même jour ?

On note N = 365, on suppose les dates équiprobables (et qu’il n’y a pas de
jumeaux, ni d’années bissextiles).
On considère ainsi l’ensemble des n-uplets dans {1, . . . ,N} :
Ω = {(j1 , . . . ,jn ) | j1 , . . . ,jn ∈ {1, . . . ,N}} = {1, . . . ,N}n
Exemple : paradoxe des anniversaires
Dans un groupe de n étudiants, quelle est la probabilité que 2 (au moins)
aient leur anniversaire le même jour ?

On note N = 365, on suppose les dates équiprobables (et qu’il n’y a pas de
jumeaux, ni d’années bissextiles).
On considère ainsi l’ensemble des n-uplets dans {1, . . . ,N} :
Ω = {(j1 , . . . ,jn ) | j1 , . . . ,jn ∈ {1, . . . ,N}} = {1, . . . ,N}n
avec P uniforme, et on cherche P(A) où
A = {2 étudiants sont nés le même jour} = {(j1 , . . . ,jn ) ∈ Ω | ∃k 6= l, jk = jl }.
Exemple : paradoxe des anniversaires
Dans un groupe de n étudiants, quelle est la probabilité que 2 (au moins)
aient leur anniversaire le même jour ?

On note N = 365, on suppose les dates équiprobables (et qu’il n’y a pas de
jumeaux, ni d’années bissextiles).
On considère ainsi l’ensemble des n-uplets dans {1, . . . ,N} :
Ω = {(j1 , . . . ,jn ) | j1 , . . . ,jn ∈ {1, . . . ,N}} = {1, . . . ,N}n
avec P uniforme, et on cherche P(A) où
A = {2 étudiants sont nés le même jour} = {(j1 , . . . ,jn ) ∈ Ω | ∃k 6= l, jk = jl }.
Alors
Ac = {les étudiants sont nés des jours 6=} = {(j1 , . . . ,jn ) ∈ Ω | ∀k 6= l,jk 6= jl }
Exemple : paradoxe des anniversaires
Dans un groupe de n étudiants, quelle est la probabilité que 2 (au moins)
aient leur anniversaire le même jour ?

On note N = 365, on suppose les dates équiprobables (et qu’il n’y a pas de
jumeaux, ni d’années bissextiles).
On considère ainsi l’ensemble des n-uplets dans {1, . . . ,N} :
Ω = {(j1 , . . . ,jn ) | j1 , . . . ,jn ∈ {1, . . . ,N}} = {1, . . . ,N}n
avec P uniforme, et on cherche P(A) où
A = {2 étudiants sont nés le même jour} = {(j1 , . . . ,jn ) ∈ Ω | ∃k 6= l, jk = jl }.
Alors
Ac = {les étudiants sont nés des jours 6=} = {(j1 , . . . ,jn ) ∈ Ω | ∀k 6= l,jk 6= jl }
est l’ensemble des arrangements de n éléments parmi N, donc
Card(Ac ) An N(N − 1) · · · (N − n + 1)
P(A) = 1−P(Ac ) = 1− = 1− Nn = 1− .
Card(Ω) N Nn
Exemple : paradoxe des anniversaires
Dans un groupe de n étudiants, quelle est la probabilité que 2 (au moins)
aient leur anniversaire le même jour ?

On note N = 365, on suppose les dates équiprobables (et qu’il n’y a pas de
jumeaux, ni d’années bissextiles).
On considère ainsi l’ensemble des n-uplets dans {1, . . . ,N} :
Ω = {(j1 , . . . ,jn ) | j1 , . . . ,jn ∈ {1, . . . ,N}} = {1, . . . ,N}n
avec P uniforme, et on cherche P(A) où
A = {2 étudiants sont nés le même jour} = {(j1 , . . . ,jn ) ∈ Ω | ∃k 6= l, jk = jl }.
Alors
Ac = {les étudiants sont nés des jours 6=} = {(j1 , . . . ,jn ) ∈ Ω | ∀k 6= l,jk 6= jl }
est l’ensemble des arrangements de n éléments parmi N, donc
Card(Ac ) An N(N − 1) · · · (N − n + 1)
P(A) = 1−P(Ac ) = 1− = 1− Nn = 1− .
Card(Ω) N Nn
Exemple : Pour n = 23, P(A) ' 0,5. Pour n = 57, P(A) ' 0,99.
Exemple : paradoxe des anniversaires
Dans un groupe de n étudiants, quelle est la probabilité que 2 (au moins)
aient leur anniversaire le même jour ?

On note N = 365, on suppose les dates équiprobables (et qu’il n’y a pas de
jumeaux, ni d’années bissextiles).
On considère ainsi l’ensemble des n-uplets dans {1, . . . ,N} :
Ω = {(j1 , . . . ,jn ) | j1 , . . . ,jn ∈ {1, . . . ,N}} = {1, . . . ,N}n
avec P uniforme, et on cherche P(A) où
A = {2 étudiants sont nés le même jour} = {(j1 , . . . ,jn ) ∈ Ω | ∃k 6= l, jk = jl }.
Alors
Ac = {les étudiants sont nés des jours 6=} = {(j1 , . . . ,jn ) ∈ Ω | ∀k 6= l,jk 6= jl }
est l’ensemble des arrangements de n éléments parmi N, donc
Card(Ac ) An N(N − 1) · · · (N − n + 1)
P(A) = 1−P(Ac ) = 1− = 1− Nn = 1− .
Card(Ω) N Nn
Exemple : Pour n = 23, P(A) ' 0,5. Pour n = 57, P(A) ' 0,99.
+ difficile : Si n ≥ 88, P(3 étudiants ont leur anniversaire ensemble) ≥ 0,5.
Quelles probabilités pour le bus et la galette ?
Pour l’attente du bus qui passe toutes les T minutes, Ω = [0,T]
- le bus a autant de chances d’arriver dans [t,t + δ] que dans [t0 ,t0 + δ].
- le bus a 2 fois plus de chances d’arriver dans [t,t + 2δ] que dans [t,t + δ].
la probabilité que le temps d’attente soit dans un intervalle I est
proportionnelle à sa longueur : (« loi uniforme sur [0,T] »)

longueur(I)
P(I) = .
T

Pour la position d’une fève circulaire dans une galette, Ω = D(0,R)


Si la fève est mise “complètement au hasard”,
- la fève a autant de chance d’être dans A que dans B si A et B ont même aire.
- la fève a 2 fois plus de chances d’être dans A que dans B si l’aire est double.
la probabilité que la fève soit dans une partie A est proportionnelle à l’aire
de A : (« loi uniforme sur D(0,R) »)

aire(A) aire(A)
P(A) = = .
aire(D(0,R)) πR2
Probabilités conditionnelles
Définition
Soit B un événement tel que P(B) > 0. Pour A ⊂ Ω, on définit

P(A ∩ B)
P(A|B) = .
P(B)

P(A|B) est appelée la probabilité conditionnelle de A sachant B.

C’est la proportion de chance que A se réalise parmi les éventualités où B se


réalise.
C’est la probabilité de A si on dispose de l’information que B est réalisé.
Définition
Deux événements A et B sont indépendants si P(A ∩ B) = P(A)P(B).

Si P(B) 6= 0, cela revient à

P(A|B) = P(A)

Savoir que B est réalisé n’influence pas la probabilité de A.


Probabilités conditionnelles – Exemple
On divise une galette selon le nombre d’invités, et chacun prend une part.
Or le nombre d’invité n’est pas encore connu :
Nous serons 5, 6 ou 7 avec probabilités 50 %, 30 % et 20 %.
→ Quelle est la probabilité que j’aie la fève ?

On note F = {j’ai la fève} et A5 = {nous sommes 5}, A6 et A7 de même.


Alors :
P(A5 ) = 0,5 P(A5 ) = 0,3 P(A7 ) = 0,2
et
1 1 1
P(F|A5 ) = , P(F|A6 ) = , P(F|A7 ) = ,
5 6 7
d’où
P(F) = P(F ∩ A5 ) + P(F ∩ A6 ) + P(F ∩ A7 )
= P(F|A5 )P(A5 ) + P(F|A6 )P(A6 ) + P(F|A7 )P(A7 )
= 0,18.
Probabilités conditionnelles – Exemple
On divise une galette selon le nombre d’invités, et chacun prend une part.
Or le nombre d’invité n’est pas encore connu :
Nous serons 5, 6 ou 7 avec probabilités 50 %, 30 % et 20 %.
→ Quelle est la probabilité que j’aie la fève ?

On note F = {j’ai la fève} et A5 = {nous sommes 5}, A6 et A7 de même.


Alors :
P(A5 ) = 0,5 P(A5 ) = 0,3 P(A7 ) = 0,2
et
1 1 1
P(F|A5 ) = , P(F|A6 ) = , P(F|A7 ) = ,
5 6 7
d’où
P(F) = P(F ∩ A5 ) + P(F ∩ A6 ) + P(F ∩ A7 )
= P(F|A5 )P(A5 ) + P(F|A6 )P(A6 ) + P(F|A7 )P(A7 )
= 0,18.
Je vous dis que j’ai eu la fève. Quelle est la probabilité que nous étions 5 ?
P(A5 ∩ F) P(F|A5 )P(A5 )
P(A5 |F) = = = 0,56.
P(F) P(F)
Probabilités conditionnelles
On suppose que (An )n est une partition de Ω (= un “découpage” de Ω) :
[
pour tous i 6= j, Ai ∩ Aj = ∅, et Ω= An .
n
c
Par exemple, pour tout événement B, le couple (B,B ) est une partition de Ω.
Théorème (Théorème des probabilités totales)
X X
P(A) = P(A ∩ An ) = P(A|An )P(An ).
n n

En particulier, pour tous A et B, P(A) = P(A|B)P(B) + P(A|Bc )P(Bc ).


Théorème (Formule de Bayes)
P(Ai ∩ A) P(A|Ai )P(Ai ) P(A|Ai )P(Ai )
P(Ai |A) = = =P .
P(A) P(A) n P(A|An )P(An )

En particulier, pour tous A et B,


P(A|Bc )P(Bc )
P(Bc |A) = .
P(A|B)P(B) + P(A|Bc )P(Bc )
Événements indépendants : cas général
Rappel : Deux événements A et B sont indépendants si
P(A ∩ B) = P(A)P(B).

Définition
Une famille (Ai )i d’événements est indépendante si pour toute
sous-famille finie Ai1 , . . . ,Aik on a

P(Ai1 ∩ Ai2 · · · ∩ Aik ) = P(Ai1 )P(Ai2 ) · · · P(Aik ).

En particulier, des événements A, B et C sont indépendants si


P(A ∩ B) = P(A)P(B), P(B ∩ C) = P(B)P(C), P(A ∩ C) = P(A)P(C)
et P(A ∩ B ∩ C) = P(A)P(B)P(C).
alors, par exemple, A ∩ B et C sont indépendants
Événements indépendants : cas général
Rappel : Deux événements A et B sont indépendants si
P(A ∩ B) = P(A)P(B).

Définition
Une famille (Ai )i d’événements est indépendante si pour toute
sous-famille finie Ai1 , . . . ,Aik on a

P(Ai1 ∩ Ai2 · · · ∩ Aik ) = P(Ai1 )P(Ai2 ) · · · P(Aik ).

En particulier, des événements A, B et C sont indépendants si


P(A ∩ B) = P(A)P(B), P(B ∩ C) = P(B)P(C), P(A ∩ C) = P(A)P(C)
et P(A ∩ B ∩ C) = P(A)P(B)P(C).
alors, par exemple, A ∩ B et C sont indépendants
Exemple : on tire deux pièces à pile-ou-face. A = {la première est pile} et
B = {la deuxième est pile} sont indépendants, mais A, B et
C = {les deux sont du même côté} ne sont pas indépendants.
Par contre, A et C sont indépendants, et B et C aussi.
Indépendance et complémentaire
Proposition
Si deux événements A et B sont indépendants, alors Ac et Bc le sont
aussi, de même que A et Bc .

Preuve :
P(Ac ∩ Bc ) = P((A ∪ B)c ) = 1 − P(A ∪ B) = 1 − P(A) − P(B) + P(A ∩ B)
= 1 − P(A) − P(B) + P(A)P(B) = (1 − P(A))(1 − P(B)) = P(Ac )P(Bc )
Par récurrence, on peut obtenir :
Proposition
Si A1 , . . . ,An sont indépendants, et B1 , . . . ,Bn sont tels que, pour tout i,
Bi = Ai ou Bi = Aci , alors B1 , . . . ,Bn sont indépendants.

De là on pourrait déduire que, si A1 , . . . ,An sont indépendants, alors des


événements B1 , . . . ,Bk qui dépendent de paquets disjoints d’événements
parmi A1 , . . . ,An sont indépendants.
Exemple. Dans un jeu de pile-ou-face, si Ai = {le ième tirage est pile},
A1 ,A2 , . . . sont indépendants, et donc B1 ,B2 ,B3 sont indépendants, où
B1 = A1 ∩ Ac2 , B2 = A5 ∪ A6 , B3 = A4 .
Loi binomiale
Faisons n tirages à Pile-ou-Face avec la même pièce biaisée, qui tombe sur
Pile avec probabilité p (et sur Face avec probabilité 1 − p).

On note 1 pour Pile et 0 pour Face. Notons Ai = {le tirage i est pile}
→ chaque réalisation ω est une suite de 0 et de 1 de longueur n : Ω = {0,1}n .
A1 , . . . ,An sont indépendants, donc par exemple (ici, n = 4)
P({(1,0,1,1)}) = P(A1 ∩ Ac2 ∩ A3 ∩ A4 ) = p × (1 − p) × p × p = p3 (1 − p)
et, si la suite ω = (ε1 , . . . ,εn ) contient k fois 1 (et donc n − k fois 0),
P({ω}) = pk (1 − p)n−k .
Soit 0 ≤ k ≤ n. On définit l’événement
Bk = {Exactement k pièces tombent sur Pile}.
k n−k
On vient de voir que, pour toute suite ω ∈ Bk , P({ω})  = p (1 − p) . Par
n
ailleurs, le nombre de telles suites est Card Bk = k . On en déduit
 
n k
P(Bk ) = p (1 − p)n−k
k
Loi binomiale

Par le même calcul, si on a n événements indépendants A1 , . . . ,An ayant


tous la même probabilité P(Ai ) = p, pour k = 0, . . . ,n, on a
 
n k
P(exactement k événements parmi A1 , . . . ,An se réalisent) = p (1−p)n−k .
k
Loi binomiale

Par le même calcul, si on a n événements indépendants A1 , . . . ,An ayant


tous la même probabilité P(Ai ) = p, pour k = 0, . . . ,n, on a
 
n k
P(exactement k événements parmi A1 , . . . ,An se réalisent) = p (1−p)n−k .
k

En notant X le nombre de fois où Pile est apparu parmi les n lancers, X est
une variable aléatoire qui suit la loi binomiale B(n,p).
Plan du cours

1 Espaces de probabilité.

2 Variables aléatoires. Généralités


Lois discrètes
Lois continues
Fonction de répartition
Espérance d’une variable aléatoire
Loi de Poisson
Variance d’une variable aléatoire
Variance d’une variable aléatoire
Indépendance de variables aléatoires
Théorème (« Loi ») des grands nombres

3 Couples de variables aléatoires


Variables aléatoires
Définition
Une variable aléatoire est une application X : Ω → R.

X
ω

R X(ω)


Variables aléatoires
Définition
Une variable aléatoire est une application X : Ω → R.
La loi de X est la probabilité PX sur R définie par :

pour tout B ⊂ R, PX (B) = P({ω ∈ Ω | X(ω) ∈ B}) = P(X ∈ B).

X(Ω) (image de X) est le support de PX .


PX peut aussi être vue comme une probabilité sur X(Ω).
On note parfois X ∼ PX pour indiquer que X suit la loi PX .

X
{X∈B} ω

R X(ω)

Ω B
Variables aléatoires – Remarques
On précise parfois variable aléatoire réelle, ou à valeurs dans R.
S’il existe un réel c tel que P(X = c) = 1, alors X est constante égale à
c et n’est donc pas “aléatoire” au sens usuel (mais c’est un cas
particulier de variable aléatoire).
En général, la valeur de X(ω) dépend de la réalisation ω, et la
distribution de ces valeurs sur R est donnée par la loi de X.
Notation : On a noté {X ∈ B} l’événement formé des éventualités ω
pour lesquelles X(ω) ∈ B, et on abrège
P(X ∈ B) = P({X ∈ B}) = P({ω ∈ Ω | X(ω) ∈ B}).
Exemple le plus simple :
Définition
Si A est un événement, on introduit la variable aléatoire fonction
indicatrice de A, notée 1A , qui indique si l’événement A est réalisé :

1 si ω ∈ A
pour tout ω ∈ Ω, 1A (ω) =
0 si ω ∈
/ A.
Variables aléatoires – Exemples
Lancer de deux dés, Ω = {1, . . . ,6}2 = {(x1 ,x2 ) | x1 ,x2 ∈ {1, . . . ,6}}
Valeurs des dés : X1 ((x1 ,x2 )) = x1 et X2 ((x1 ,x2 )) = x2
(à valeurs dans {1, . . . ,6})
Somme des résultats : X = X1 + X2 , c.-à-d. X((x1 ,x2 )) = x1 + x2
(à valeurs dans {2, . . . ,12})
Placement d’une fève circulaire dans une galette, Ω = D(0,r) ⊂ R2
Coordonnées du point : X((x,y)) = x, Y((x,y)) = y
(à valeurs dans [−r,r]) √
Distance au centre : R = X 2 + Y 2
(à valeurs dans [0,r])
On prend successivement les parts d’une galette (coupée en 8)
Nombre de parts à prendre jusqu’à avoir la fève : NA
(à valeurs dans {1, . . . ,8})
Chaque jour, on prend une part d’une galette différente (coupée en 8)
Nombre de parts à prendre jusqu’à avoir la fève : NB
(à valeurs dans {1,2, . . .} = N∗ )
Nombre de fèves obtenues en n jours : Sn
(à valeurs dans {0,1,2, . . . ,n})
Lois discrètes
Définition
Une variable aléatoire X est dite discrète si l’ensemble X(Ω) des
valeurs qu’elle prend est dénombrable.

(C’est-à-dire que l’on peut trouver une suite qui énumère tous les éléments
de X(Ω) : par ex., si X(Ω) est un ensemble fini, N, Z ou Q, mais pas
l’intervalle [0,1] ni R).
Si X est discrète, alors pour tout B ⊂ X(Ω), on a B = {bn | n = 1,2, . . . ,N}
ou B = {bn | n = 1,2, . . .} avec des bn distincts, et
[
{X ∈ B} = {X = bn }
n
or ces événements sont disjoints et forment une suite, d’où
X X
PX (B) = P(X ∈ B) = P(X = bn ) = P(X = x).
n x∈B

Pour caractériser une loi discrète, il suffit donc de se donner les


probabilités élémentaires pX (x) = P(X = x) pour tout x ∈ X(Ω). On a
X
pour tout x ∈ X(Ω), pX (x) ≥ 0, et pX (x) = 1.
x∈X(Ω)
Lois discrètes – Exemples

Si E ⊂ R est fini, une variable aléatoire X suit la loi uniforme sur E si


1
pour tout x ∈ E, P(X = x) = .
Card E
la loi du résultat d’un dé est la loi uniforme sur {1, . . . ,6}

Soit p ∈ [0,1]. Une variable aléatoire X suit la loi de Bernoulli de


paramètre p (notée B(p)) si X est à valeurs dans {0,1} et
P(X = 1) = p, P(X = 0) = 1 − p.

la loi de 1A est B(P(A)).

Soit n ∈ N et p ∈ [0,1]. Une variable aléatoire X suit la loi binomiale de


paramètres n et p (notée B(n,p)) si X est à valeurs
  dans {0,1, . . . ,n} et
n k
pour k = 0, . . . ,n, P(X = k) = p (1 − p)n−k .
k

si A1 , . . . ,An sont indépendants et P(A1 ) = · · · = P(An ) = p, la loi de


Sn = 1A1 + · · · + 1An = « nombre d’événements réalisés » est B(n,p).
Lois discrètes – Exemples
Retour sur la liste d’exemples :
Lancer de deux dés, Ω = {1, . . . ,6}2 = {(x1 ,x2 ) | x1 ,x2 ∈ {1, . . . ,6}}
Somme des résultats : X((x1 ,x2 )) = x1 + x2
(à valeurs dans {2, . . . ,12})
Lois discrètes – Exemples
Retour sur la liste d’exemples :
Lancer de deux dés, Ω = {1, . . . ,6}2 = {(x1 ,x2 ) | x1 ,x2 ∈ {1, . . . ,6}}
Somme des résultats : X((x1 ,x2 )) = x1 + x2
(à valeurs dans {2, . . . ,12})
1
P(X = 2) = P({(1,1)}) = ,
36
2
P(X = 3) = P({(1,2),(2,1)}) = ,
36
...
5
P(X = 6) = P({(1,5),(2,4), . . . ,(5,1)}) =
36
6
P(X = 7) = P({(1,6),(2,5), . . . ,(6,1)}) =
36
5
P(X = 8) = P({(2,6),(3,5), . . . ,(6,2)}) =
36
...
2
P(X = 11) = P({(5,6),(6,5)}) =
36
1
P(X = 12) = P({(6,6)}) =
36
Lois discrètes – Exemples

On prend successivement les parts d’une galette (coupée en 8)


Nombre de parts à prendre jusqu’à avoir la fève : NA
(à valeurs dans {1, . . . ,8})

Chaque jour, on prend une part d’une galette différente (coupée en 8)


Nombre de parts à prendre jusqu’à avoir la fève : NB
(à valeurs dans {1,2, . . .} = N∗ )

Nombre de fèves obtenues en n jours : Sn


(à valeurs dans {0,1,2, . . . ,n})
Lois discrètes – Exemples

On prend successivement les parts d’une galette (coupée en 8)


Nombre de parts à prendre jusqu’à avoir la fève : NA
(à valeurs dans {1, . . . ,8})
NA suit la loi uniforme sur {1, . . . ,8}
Chaque jour, on prend une part d’une galette différente (coupée en 8)
Nombre de parts à prendre jusqu’à avoir la fève : NB
(à valeurs dans {1,2, . . .} = N∗ )

Nombre de fèves obtenues en n jours : Sn


(à valeurs dans {0,1,2, . . . ,n})
Lois discrètes – Exemples

On prend successivement les parts d’une galette (coupée en 8)


Nombre de parts à prendre jusqu’à avoir la fève : NA
(à valeurs dans {1, . . . ,8})
NA suit la loi uniforme sur {1, . . . ,8}
Chaque jour, on prend une part d’une galette différente (coupée en 8)
Nombre de parts à prendre jusqu’à avoir la fève : NB
(à valeurs dans {1,2, . . .} = N∗ )
Pour tout n ∈ N∗ ,
P(NB = n) = P(n − 1 parts sans fève, puis une part avec fève)
 n−1
1 1
= 1− . (par indépendance)
8 8
NB suit la loi géométrique de paramètre p = 18 .
Nombre de fèves obtenues en n jours : Sn
(à valeurs dans {0,1,2, . . . ,n})
Lois discrètes – Exemples

On prend successivement les parts d’une galette (coupée en 8)


Nombre de parts à prendre jusqu’à avoir la fève : NA
(à valeurs dans {1, . . . ,8})
NA suit la loi uniforme sur {1, . . . ,8}
Chaque jour, on prend une part d’une galette différente (coupée en 8)
Nombre de parts à prendre jusqu’à avoir la fève : NB
(à valeurs dans {1,2, . . .} = N∗ )
Pour tout n ∈ N∗ ,
P(NB = n) = P(n − 1 parts sans fève, puis une part avec fève)
 n−1
1 1
= 1− . (par indépendance)
8 8
NB suit la loi géométrique de paramètre p = 18 .
Nombre de fèves obtenues en n jours : Sn
(à valeurs dans {0,1,2, . . . ,n})
Sn suit la loi binomiale de paramètres (n, 18 ).
Cours 2

Mercredi 30 janvier 2019
Espace de probabilités – Rappel

ω
A


Espace de probabilités : (Ω,P)
Ω, ensemble des résultats possibles d’une expérience aléatoire
ω ∈ Ω, une réalisation de l’expérience
A ⊂ Ω, un événement relatif à l’expérience (peut être réalisé ou non)
P(A) ∈ [0,1], probabilité de l’événement A (d’où P : P(Ω) → [0,1])
Espace de probabilités – Rappel

B A


Espace de probabilités : (Ω,P)
Ω, ensemble des résultats possibles d’une expérience aléatoire
ω ∈ Ω, une réalisation de l’expérience
A ⊂ Ω, un événement relatif à l’expérience (peut être réalisé ou non)
P(A) ∈ [0,1], probabilité de l’événement A (d’où P : P(Ω) → [0,1])
telle que P(Ω) = 1 et, si A et B sont disjoints, P(A ∪ B) = P(A) + P(B).
S P
Et, si on a une suite (An )n d’événements disjoints, P( n An ) = n P(An ).
Variables aléatoires – Rappel
Définition
Une variable aléatoire est une application X : Ω → R.

X
ω

R X(ω)


Variables aléatoires – Rappel
Définition
Une variable aléatoire est une application X : Ω → R.
La loi de X est la probabilité PX sur R définie par :

pour tout B ⊂ R, PX (B) = P({ω ∈ Ω | X(ω) ∈ B}) = P(X ∈ B).

X(Ω) (image de X) est le support de PX . X est “à valeurs dans X(Ω)”


PX peut aussi être vue comme une probabilité sur X(Ω).
On note parfois X ∼ PX pour indiquer que X suit la loi PX .

X
{X∈B} ω

R X(ω)

Ω B
Lois discrètes – Rappel
Définition
Une variable aléatoire X est dite discrète si on peut énumérer (lister)
l’ensemble X(Ω) des valeurs qu’elle prend.

Si X est discrète, alors pour tout B ⊂ X(Ω), on a


[
{X ∈ B} = {X = x},
x∈B

or ces événements sont disjoints et forment une suite, d’où


X
PX (B) = P(X ∈ B) = P(X = x).
x∈B

Pour caractériser une loi discrète, il suffit donc de se donner les


probabilités élémentaires pX (x) = P(X = x) pour tout x ∈ X(Ω) qui
vérifient :
X
pour tout x ∈ X(Ω), pX (x) ≥ 0, et pX (x) = 1.
x∈X(Ω)
Lois discrètes – Exemples
Soit p ∈ [0,1]. Une variable aléatoire X suit la loi de Bernoulli de
paramètre p (notée B(p)) si X est à valeurs dans {0,1} et
P(X = 1) = p, P(X = 0) = 1 − p.

Soit n ∈ N et p ∈ [0,1]. Une variable aléatoire X suit la loi binomiale de


paramètres n et p (notée B(n,p)) si X est à valeurs
  dans {0,1, . . . ,n} et
n k
pour k = 0, . . . ,n, P(X = k) = p (1 − p)n−k .
k

si A1 , . . . ,An sont indépendants et P(A1 ) = · · · = P(An ) = p, la loi de


Sn = 1A1 + · · · + 1An = « nombre d’événements réalisés » est B(n,p).

Soit p ∈]0,1]. Une variable aléatoire X suit la loi géométrique de


paramètre p (notée G(p)) si X est à valeurs dans N∗ = {1,2, . . .} et
pour n ≥ 1, P(X = n) = (1 − p)n−1 p.

si A1 ,A2 , . . . sont indépendants et P(An ) = p pour tout n, alors la loi de


X = inf{n ≥ 1 | 1An = 1} = « nombre de tentatives jusqu’à un succès » est
G(p).
Un exemple non discret

Placement d’une fève circulaire dans une galette, Ω = D(0,r) ⊂ R2


p
Distance au centre : R((x,y)) = x2 + y2
(à valeurs dans [0,r])
aire(A) aire(A)
Rappel : On munit Ω de la loi uniforme, P(A) = =
aire(D(0,r)) πr2
Un exemple non discret

Placement d’une fève circulaire dans une galette, Ω = D(0,r) ⊂ R2


p
Distance au centre : R((x,y)) = x2 + y2
(à valeurs dans [0,r])
aire(A) aire(A)
Rappel : On munit Ω de la loi uniforme, P(A) = =
aire(D(0,r)) πr2
• Pour 0 ≤ x ≤ r,
aire(cercle de rayon x)
P(R = x) = = 0.
πr2
⇒ l’approche précédente est inadaptée.
Un exemple non discret

Placement d’une fève circulaire dans une galette, Ω = D(0,r) ⊂ R2


p
Distance au centre : R((x,y)) = x2 + y2
(à valeurs dans [0,r])
aire(A) aire(A)
Rappel : On munit Ω de la loi uniforme, P(A) = =
aire(D(0,r)) πr2
• Pour 0 ≤ x ≤ r,
aire(cercle de rayon x)
P(R = x) = = 0.
πr2
⇒ l’approche précédente est inadaptée.
• Pour 0 ≤ a ≤ b ≤ r,
Z b
aire(couronne) πb2 − πa2 b2 − a2 2t
P(a ≤ R ≤ b) = 2
= 2
= = dt.
πr πr r2 a r2

2t
la fonction f (t) = 1[0,r] (t) représente la densité de probabilité de R.
r2
Lois continues
Définition
Une variable aléatoire X est dite continue ou à densité s’il existe une
fonction (intégrable) fX : R → [0, + ∞[ telle que, pour tout B ⊂ R,
Z
PX (B) = P(X ∈ B) = fX (x)dx.
B

La fonction fX est appelée la densité de X. Une fonction f est la densité


d’une variable aléatoire si, et seulement si
1 pour tout x ∈ R, f (x) ≥ 0
Z
2 f (x)dx = 1.
R
fX (x)

a b
Z b
Si X a pour densité fX , pour tous a ≤ b, P(a ≤ X ≤ b) = fX (x)dx
a
Lois continues
Définition
Une variable aléatoire X est dite continue ou à densité s’il existe une
fonction (intégrable) fX : R → [0, + ∞[ telle que, pour tout B ⊂ R,
Z
PX (B) = P(X ∈ B) = fX (x)dx.
B

La fonction fX est appelée la densité de X. Une fonction f est la densité


d’une variable aléatoire si, et seulement si
1 pour tout x ∈ R, f (x) ≥ 0
Z
2 f (x)dx = 1.
R
Remarques
R
Si X a une densité alors, pour tout x ∈ R, P(X = x) = {x} fX (t)dt = 0.
Z
Si fX (x) = 0 pour tout x ∈ B, alors P(X ∈ B) = fX (x)dx = 0.
B
⇒ les valeurs prises par X sont dans le support de fX :
Supp(fX ) = {x ∈ R | fX (x) > 0}.
Interprétation intuitive de la densité

fX (x) représente la probabilité que X est dans un (petit) voisinage de x,


rapportée à la longueur de ce voisinage (d’où le terme “densité”) :

Supposons que X a pour densité fX , continue au point x ∈ R. Alors

P(X ∈ [x − δ2 , x + δ2 ])
−→ fX (x).
δ δ→0+
Interprétation intuitive de la densité

fX (x) représente la probabilité que X est dans un (petit) voisinage de x,


rapportée à la longueur de ce voisinage (d’où le terme “densité”) :

Supposons que X a pour densité fX , continue au point x ∈ R. Alors

P(X ∈ [x − δ2 , x + δ2 ])
−→ fX (x).
δ δ→0+

Soit ε > 0. Pour un certain δ > 0, on a |fX (t) − fX (x)| < ε dès que
|t − x| < δ, d’où
  δ δ  Z x+ δ2

P X ∈ x − , x + − δfX (x) = fX (t)dt − δfX (x)
2 2 x− δ2

Z x+ δ2 
Z x+ δ2

= fX (t) − fX (x) dt ≤ |fX (t) − fX (x)|dt ≤ δε.
x− δ2 x− δ2
Densités classiques

Soit a < b. La loi uniforme sur [a,b] (notée U([a,b])) est la loi de densité

1 (b − a)−1 si a ≤ x ≤ b
f (x) = 1[a,b] (x) =
b−a 0 si x ∈
/ [a,b].

Une variable aléatoire X de loi U([a,b]) est donc à valeurs dans [a,b].

Soit λ > 0. La loi exponentielle de paramètre λ (notée E(λ)) a pour densité

f (x) = λe−λx 1R+ (x).

Une variable aléatoire X de loi E(λ) est donc à valeurs dans R+ .

La loi exponentielle est une loi « sans mémoire ». En effet, pour tous s,t ≥ 0,

P({X ≥ s + t} ∩ {X ≥ s}) e−λ(s+t)


P(X ≥ s+t | X > s) = = = e−λt = P(X ≥ t).
P(X ≥ s) e−λs

Utilisée pour modéliser les durées de vie de machines sans vieillissement


Quelques exemples de calculs
Si X suit la loi uniforme sur [a,b], et si [c,d] ⊂ [a,b], on retrouve
Z
1 d−c longueur([c,d])
P(X ∈ [c,d]) = dt = = .
[c,d] b − a b−a longueur([a,b])

Supposons que X suit la loi exponentielle de paramètre 2 : densité


f : x 7→ 2e−2x 1[0,+∞[ (x).
R R∞
Par exemple P(X > 5) = ]5,+∞[ 2e−2x 1[0,+∞[ (x)dx = 5 2e−2x dx = e−10 .

Supposons que X suit la loi uniforme sur [0,1]. Posons Y = b5Xc (partie
entière). Quelle est la loi de Y ?
Y est à valeurs dans {0,1,2,3,4} : elle est donc discrète
pour k = 0,1,2,3,4, P(Y = k) = P(k ≤ 5X < k + 1)
Z k+1
k k+1 5 1
= P( ≤ X < )= 1[0,1] dx =
5 5 k
5
5
Donc Y suit la loi uniforme sur {0,1,2,3,4}.
Attention

De nombreuses variables aléatoires ne sont ni discrètes, ni à densité.

Exemple : soit X une variable aléatoire de loi U([0,1]). On définit


(
1 X si X < 12
Y = min(X, ) = 1
2 2 sinon.

(Pour tout ω ∈ Ω, on a Y(ω) = min(X(ω), 12 ))


Attention

De nombreuses variables aléatoires ne sont ni discrètes, ni à densité.

Exemple : soit X une variable aléatoire de loi U([0,1]). On définit


(
1 X si X < 12
Y = min(X, ) = 1
2 2 sinon.

(Pour tout ω ∈ Ω, on a Y(ω) = min(X(ω), 12 ))


• Y est à valeurs dans [0, 12 ] car X est à valeurs dans [0,1].
Attention

De nombreuses variables aléatoires ne sont ni discrètes, ni à densité.

Exemple : soit X une variable aléatoire de loi U([0,1]). On définit


(
1 X si X < 12
Y = min(X, ) = 1
2 2 sinon.

(Pour tout ω ∈ Ω, on a Y(ω) = min(X(ω), 12 ))


• Y est à valeurs dans [0, 12 ] car X est à valeurs dans [0,1].
 Z ∞ Z 1
1  1 1
• On a P Y = =P X≥ = 1[0,1] (x)dx = 1dx = > 0
2 2 1/2 1
2
2
⇒ Y n’a pas de densité
Attention

De nombreuses variables aléatoires ne sont ni discrètes, ni à densité.

Exemple : soit X une variable aléatoire de loi U([0,1]). On définit


(
1 X si X < 12
Y = min(X, ) = 1
2 2 sinon.

(Pour tout ω ∈ Ω, on a Y(ω) = min(X(ω), 12 ))


• Y est à valeurs dans [0, 12 ] car X est à valeurs dans [0,1].
 Z ∞ Z 1
1  1 1
• On a P Y = =P X≥ = 1[0,1] (x)dx = 1dx = > 0
2 2 1/2 1
2
2
⇒ Y n’a pas de densité
• Pour tout 0 ≤ x < 12 , P(Y = x) = P(X = x) = 0
X
⇒ Y n’est pas discrète (si elle l’était, P(Y = y) = 1, mais cette
y∈Y(Ω)
1
somme vaut 2 ici)
Fonction de répartition

But : avoir une façon de représenter et étudier n’importe quelle loi.

Définition
Soit X une variable aléatoire. La fonction de répartition de X est la
fonction FX : R → R définie par

pour tout x ∈ R, FX (x) = P(X ≤ x).


Fonction de répartition
But : avoir une façon unifiée de représenter et étudier n’importe quelle loi.

Définition
Soit X une variable aléatoire. La fonction de répartition de X est la
fonction FX : R → R définie par

pour tout x ∈ R, FX (x) = P(X ≤ x).


Fonction de répartition
But : avoir une façon unifiée de représenter et étudier n’importe quelle loi.

Définition
Soit X une variable aléatoire. La fonction de répartition de X est la
fonction FX : R → R définie par

pour tout x ∈ R, FX (x) = P(X ≤ x).

Proposition
a) La fonction de répartition FX est une fonction croissante,

lim FX (x) = 0 et lim FX (x) = 1.


x→−∞ x→+∞

b) Si X et Y sont deux variables aléatoires telles que FX (t) = FY (t)


pour tout t ∈ R, alors X et Y ont même loi.

Autrement dit, la fonction de répartition caractérise la loi d’une variable


aléatoire.
Fonction de répartition – Cas discret

Proposition
Si X est une variable aléatoire discrète, FX est une fonction constante
par morceaux, dont les sauts se situent aux points de X(Ω), et le saut
en x ∈ X(Ω) a pour hauteur P(X = x).

Fonction de répartition d’une v.a. de loi B(p)


1
1−p

0 1
Fonction de répartition – Cas discret

Proposition
Si X est une variable aléatoire discrète, FX est une fonction constante
par morceaux, dont les sauts se situent aux points de X(Ω), et le saut
en x ∈ X(Ω) a pour hauteur P(X = x).

Fonction de répartition d’une v.a. de loi unif. sur {1, 2, 3, 4}


1
3/4
1/2
1/4

0 1 2 3 4
Fonction de répartition – Cas à densité

Proposition
Si X est une variable aléatoire de densité fX , on a
Z x
pour tout x ∈ R, FX (x) = fX (t)dt
−∞

et on a la dérivée (FX )0 (x) = fX (x) (pour tout x où fX est continue).

Fonction de répartition d’une v.a. de loi E(λ)


1

0
Fonction de répartition – Cas à densité

Proposition
Si X est une variable aléatoire de densité fX , on a
Z x
pour tout x ∈ R, FX (x) = fX (t)dt
−∞

et on a la dérivée (FX )0 (x) = fX (x) (pour tout x où fX est continue).

Fonction de répartition d’une v.a. de loi U([a, b])


1

a 0 b
Fonction de répartition – Cas à densité

Proposition
Si X est une variable aléatoire de densité fX , on a
Z x
pour tout x ∈ R, FX (x) = fX (t)dt
−∞

et on a la dérivée (FX )0 (x) = fX (x) (pour tout x où fX est continue).

Inversement, si X est une v.a. telle que FX est


continue sur R
dérivable sauf peut-être en un nombre fini de points,
alors X a pour densité fX = FX0 . (Avec une valeur quelconque aux
points où il n’y a pas de dérivée)
Fonction de répartition – Autre exemple
Suite du premier (contre-)exemple : soit X une v.a. de loi U([0,1]). On définit
 1
Y = min X, .
2
(
1 0 si y < 0
Y est à valeurs dans [0, 2 ], d’où FY (y) =
1 si y > 12
pour 0 ≤ y ≤ 12 , FY (y) = P(Y ≤ y) = P(X ≤ y) = y
(car si Y ≤ 21 alors Y = X)
Fonction de répartition – Autre exemple
Suite du premier (contre-)exemple : soit X une v.a. de loi U([0,1]). On définit
 1
Y = min X, .
2
(
1 0 si y < 0
Y est à valeurs dans [0, 2 ], d’où FY (y) =
1 si y > 12
pour 0 ≤ y ≤ 12 , FY (y) = P(Y ≤ y) = P(X ≤ y) = y
(car si Y ≤ 21 alors Y = X)
 
Fonction de répartition de Y = min X, 12 où X ∼ U([0, 1])
1

1/2

0 1/2
Application : Calcul de la loi de Y = ϕ(X)

Soit X une variable aléatoire, de loi connue, et ϕ : X(Ω) → R une fonction.


On cherche la loi de la variable aléatoire Y = ϕ(X).

→ Déterminer les valeurs possibles de Y, puis


Application : Calcul de la loi de Y = ϕ(X)

Soit X une variable aléatoire, de loi connue, et ϕ : X(Ω) → R une fonction.


On cherche la loi de la variable aléatoire Y = ϕ(X).

→ Déterminer les valeurs possibles de Y, puis

• Si Y est discrète (l’ensemble des valeurs possibles est dénombrable),


→ Calculer chacune de leurs probabilités en se ramenant à X.
Application : Calcul de la loi de Y = ϕ(X)

Soit X une variable aléatoire, de loi connue, et ϕ : X(Ω) → R une fonction.


On cherche la loi de la variable aléatoire Y = ϕ(X).

→ Déterminer les valeurs possibles de Y, puis

• Si Y est discrète (l’ensemble des valeurs possibles est dénombrable),


→ Calculer chacune de leurs probabilités en se ramenant à X.

• Si X a une densité fX , et ϕ est monotone (croissante ou décroissante),


→ Calculer la fonction de répartition de Y,
→ Si FY est continue sur R, et dérivable (sauf en quelques points), dériver
pour obtenir fY .
Application : Calcul de la loi de Y = ϕ(X)

Soit X une variable aléatoire, de loi connue, et ϕ : X(Ω) → R une fonction.


On cherche la loi de la variable aléatoire Y = ϕ(X).

→ Déterminer les valeurs possibles de Y, puis

• Si Y est discrète (l’ensemble des valeurs possibles est dénombrable),


→ Calculer chacune de leurs probabilités en se ramenant à X.

• Si X a une densité fX , et ϕ est monotone (croissante ou décroissante),


→ Calculer la fonction de répartition de Y,
→ Si FY est continue sur R, et dérivable (sauf en quelques points), dériver
pour obtenir fY .
La méthode s’étend aux fonctions non monotones, mais il faut alors être plus
vigilent, ou se ramener à des intervalles où ϕ est monotone.
Exemples de calculs de loi

Soit X une variable aléatoire de loi uniforme sur {−1,0,1}. On pose Y = |X|.

Alors Y est à valeurs dans {0,1}, et

P(Y = 1) = P(|X| = 1) = P(X = 1 ou X = −1) = P(X = 1) + P(X = −1)


1 1 2
= + = ,
3 3 3
et ainsi P(Y = 0) = 1 − P(Y = 1) = 13 , donc Y suit la loi B(2/3).
Exemples de calculs de loi
1
Soit X une variable aléatoire de loi E(λ). On pose Y = 1+X .
Exemples de calculs de loi
1
Soit X une variable aléatoire de loi E(λ). On pose Y = 1+X .
1
• On a Y = ϕ(X) où ϕ : x 7→ 1+x . Comme X ∼ E(λ), on a X > 0.
ϕ est strictement décroissante sur ]0, + ∞[, ϕ(0) = 1 et limx→+∞ ϕ(x) = 0
donc ϕ(]0, + ∞[) =]0,1[. Ainsi, Y est à valeurs dans ]0,1[.
Exemples de calculs de loi
1
Soit X une variable aléatoire de loi E(λ). On pose Y = 1+X .
1
• On a Y = ϕ(X) où ϕ : x 7→ 1+x . Comme X ∼ E(λ), on a X > 0.
ϕ est strictement décroissante sur ]0, + ∞[, ϕ(0) = 1 et limx→+∞ ϕ(x) = 0
donc ϕ(]0, + ∞[) =]0,1[. Ainsi,( Y est à valeurs dans ]0,1[.
0 si y ≤ 0
• Alors, pour y ∈ R, FY (y) = et, si 0 < y ≤ 1,
1 si y ≥ 1
 1   1  1 
P(Y ≤ y) = P ≤y =P 1+X ≥ =P X ≥ −1
1+X y y
 1  1  1
= 1 − P X < − 1 = 1 − FX − 1 = e−λ( y −1) .
y y
NB. P(X < x) = P(X ≤ x) − P(X = x) = P(X ≤ x) car X a une densité.
Exemples de calculs de loi
1
Soit X une variable aléatoire de loi E(λ). On pose Y = 1+X .
1
• On a Y = ϕ(X) où ϕ : x 7→ 1+x . Comme X ∼ E(λ), on a X > 0.
ϕ est strictement décroissante sur ]0, + ∞[, ϕ(0) = 1 et limx→+∞ ϕ(x) = 0
donc ϕ(]0, + ∞[) =]0,1[. Ainsi, ( Y est à valeurs dans ]0,1[.
0 si y ≤ 0
• Alors, pour y ∈ R, FY (y) = et, si 0 < y ≤ 1,
1 si y ≥ 1
 1   1  1 
P(Y ≤ y) = P ≤y =P 1+X ≥ =P X ≥ −1
1+X y y
 1  1  1
= 1 − P X < − 1 = 1 − FX − 1 = e−λ( y −1) .
y y
NB. P(X < x) = P(X ≤ x) − P(X = x) = P(X ≤ x) car X a une densité.
• FY est continue sur R (on vérifie FY (0+ ) = 0 et FY (1− ) = 1), et dérivable
sauf peut-être en 0 et 1. Donc Y a pour densité la dérivée
(
0 0 si y ∈
/ [0,1]
fY (y) = (FY ) (y) = λ −( 1 −1)
y2 e y si y ∈]0,1[

(avec valeurs quelconques en 0 et 1)


Bilan
Pour modéliser une expérience aléatoire, on a défini un espace de
probabilité (Ω,P). Les grandeurs (réelles) mesurées sur l’expérience
correspondent à des variables aléatoires X : Ω → R.
Différentes modélisations (choix de Ω,P et donc X) sont possibles pour
une même expérience.
En revanche, si X représente une certaine grandeur qui dépend de
l’expérience, la loi de X (c’est-à-dire toutes les probabilités P(X ∈ A))
ne dépend pas du choix de la modélisation.
Bilan
Pour modéliser une expérience aléatoire, on a défini un espace de
probabilité (Ω,P). Les grandeurs (réelles) mesurées sur l’expérience
correspondent à des variables aléatoires X : Ω → R.
Différentes modélisations (choix de Ω,P et donc X) sont possibles pour
une même expérience.
En revanche, si X représente une certaine grandeur qui dépend de
l’expérience, la loi de X (c’est-à-dire toutes les probabilités P(X ∈ A))
ne dépend pas du choix de la modélisation.
La loi de X est une probabilité sur R ; deux cas sont très fréquents :
le cas discret : X ne prend des valeurs que dans un ensemble
dénombrable {x1 ,x2 , . . .}. La loi de X équivaut alors à connaître
P(X = xi ) pour tout i (ce sont les probabilités élémentaires)
le cas continu/à densité : P(X = x) = 0 pour tout x ∈ R mais il y a une
densité de probabilité, c’est-à-dire que pour tous a < b,
Z b
P(a < X < b) = f (x)dx
a
pour une certaine fonction f . La loi de X équivaut alors à connaître f .
Espérance d’une variable aléatoire – Motivation

Dans un jeu de hasard A, on peut


Gagner 100 e, avec probabilité 0,1
Perdre 1 e, avec probabilité 0,9.
Dans un autre jeu de hasard B, on peut
Gagner 100 e, avec probabilité 0,2
Perdre 1 e, avec probabilité 0,8.
À quel jeu devrait-on jouer ?
probabilités de gain
Espérance d’une variable aléatoire – Motivation

Dans un jeu de hasard A, on peut


Gagner 100 e, avec probabilité 0,1
Perdre 1 e, avec probabilité 0,9.
Dans un autre jeu de hasard B, on peut
Gagner 100 e, avec probabilité 0,2
Perdre 1 e, avec probabilité 0,8.
À quel jeu devrait-on jouer ? Évidemment B. Il suffit de comparer les
probabilités de gain.
Espérance d’une variable aléatoire – Motivation

Dans un jeu de hasard A, on peut


Gagner 100 e, avec probabilité 0,1
Perdre 1 e, avec probabilité 0,9.
Dans un autre jeu de hasard B, on peut
Gagner 10 e, avec probabilité 0,5
Perdre 1 e, avec probabilité 0,5.
À quel jeu devrait-on jouer ?
probabilités de gain
Espérance d’une variable aléatoire – Motivation

Dans un jeu de hasard A, on peut


Gagner 100 e, avec probabilité 0,1
Perdre 1 e, avec probabilité 0,9.
Dans un autre jeu de hasard B, on peut
Gagner 10 e, avec probabilité 0,5
Perdre 1 e, avec probabilité 0,5.
À quel jeu devrait-on jouer ? Moins clair... Ici il faut prendre en compte les
montants, pas seulement les probabilités.

• Si on joue un grand nombre de fois, la quantité importante est le gain


moyen, ou espérance de gain ⇒ on choisit A
• Si on ne joue qu’un petit nombre de fois, cela reste une bonne indication,
mais la décision dépend du risque que l’on est prêt à prendre.
(voir “Paradoxe de Saint-Petersbourg” sur Wikipedia)
Espérance

Définition
L’espérance d’une variable aléatoire X, notée E[X], est la moyenne
de ses valeurs, pondéréesXpar leurs probabilités.
Si X est discrète, E[X] = xP(X = x).
x∈X(Ω)
Z
Si X est continue, de densité fX , E[X] = xfX (x)dx.
R
Attention. L’espérance n’est pas toujours définie. Il faut pour cela
que la série ou l’intégrale ci-dessus converge absolument.

Intérêt, interprétation :
• E[X] donne une indication de l’ordre de grandeur typique de X.
• E[X] est souvent plus simple à calculer (et à interpréter) que la loi de X.
• E[X] correspond au “prix équitable” à faire payer pour jouer à un jeu de
hasard où le gain est X (dans l’idée que l’on joue un grand nombre de fois)
→ prix d’assurances, d’actifs financiers,...
• E[X] est la limite, quand n → ∞, de la moyenne 1n (X1 + · · · + Xn ) de n
réalisations de X obtenues en répétant l’expérience... On y reviendra.
Espérance
Définition
L’espérance d’une variable aléatoire X, notée E[X], est la moyenne
de ses valeurs, pondéréesXpar leurs probabilités.
Si X est discrète, E[X] = xP(X = x).
x∈X(Ω)
Z
Si X est continue, de densité fX , E[X] = xfX (x)dx.
R
Attention. L’espérance n’est pas toujours définie. Il faut pour cela
que la série ou l’intégrale ci-dessus converge absolument.

Remarque : Dans ce cours, on se contentera des cas discret et à densité.


Si X n’est ni discrète ni à densité, on pourrait utiliser FX et définir
Z ∞ Z 0
E[X] = (1 − FX (x))dx − FX (x)dx
0 −∞

en vérifiant que dans les cas discret et à densité, cela redonne la définition.
Une meilleure approche R est en fait de définir
R une intégrale généralisée pour
pouvoir avoir E[X] = Ω X(ω)dP(ω) = R x dPX (x)
Espérance – Exemples discrets
Si X suit la loi de Bernoulli B(p),
X est à valeurs dans {0,1} et P(X = 1) = p, P(X = 0) = 1 − p, d’où

E[X] = 1 · p + 0 · (1 − p) = p.
Si X suit la loi uniforme sur {1,2, . . . ,n},
X est à valeurs dans {1, . . . ,n} et P(X = 1) = · · · = P(X = n) = 1n , d’où
1 1 1 1 + 2 + ··· + n n+1
E[X] = 1 · + 2 · + ··· + n · = = .
n n n n 2
Si X suit la loi géométrique G(p),
X est à valeurs dans N∗ = {1,2, . . .} et P(X = k) = (1 − p)k−1 p, d’où

X 1 p 1
E[X] = k · (1 − p)k−1 p = p = 2 =
(1 − (1 − p))2 p p
k=1

d  X k d 1 

X ∞
1
car kxk−1 = x = = pour −1 < x < 1.
dx dx 1 − x (1 − x)2
k=1 k=0
Espérance – Exemples à densité

Si X suit la loi uniforme sur [a,b], où a < b,


1
X a pour densité f (x) = b−a 1[a,b] (x), d’où
Z Z b2 2
1 1 b
2 − a2 a+b
E[X] = x· 1[a,b] (x)dx = xdx = = .
R b − a b − a a b−a 2

Si X suit la loi exponentielle E(λ), où λ > 0,


X a pour densité f (x) = λe−λx 1]0,+∞[ (x), d’où
Z Z ∞
E[X] = x · λe−λx 1]0,+∞[ (x)dx = xλe−λx dx
R 0
Z ∞
−λx ∞ 1
= [−xe ]x=0 + e−λx dx = .
0 λ
Espérance – Propriétés
Propriétés
(i) Si X est constante, égale à c ∈ R (pour tout ω ∈ Ω, X(ω) = c),
alors E[X] = E[c] = c.
(ii) Pour tout événement A ⊂ Ω, E[1A ] = P(A).
(iii) L’espérance est linéaire : pour toutes variables aléatoires X et Y,
et tout réel a,

E[aX] = aE[X] et E[X + Y] = E[X] + E[Y].

(iv) L’espérance est croissante : si X ≤ Y, alors E[X] ≤ E[Y].


Espérance – Propriétés
Propriétés
(i) Si X est constante, égale à c ∈ R (pour tout ω ∈ Ω, X(ω) = c),
alors E[X] = E[c] = c.
(ii) Pour tout événement A ⊂ Ω, E[1A ] = P(A).
(iii) L’espérance est linéaire : pour toutes variables aléatoires X et Y,
et tout réel a,

E[aX] = aE[X] et E[X + Y] = E[X] + E[Y].

(iv) L’espérance est croissante : si X ≤ Y, alors E[X] ≤ E[Y].

Si A1 ,. . . ,An sont des événements indépendants et P(A1 ) = · · · = P(An ) = p,


on a vu que Sn = 1A1 + · · · + 1An suit la loi binomiale B(n,p) :

pour k = 0, . . . ,n, P(Sn = k) = Cnk pk (1 − p)n−k .

Par linéarité, E[Sn ] = E[1A1 ] + · · · + E[1An ] = P(A1 ) + · · · + P(An ) = np.


Retour sur les anniversaires

On choisit n personnes au hasard. Combien en moyenne y a-t-il de jours


dans l’année où au moins 2 ont leur anniversaire ?
Retour sur les anniversaires

On choisit n personnes au hasard. Combien en moyenne y a-t-il de jours


dans l’année où au moins 2 ont leur anniversaire ?
On note N = 365 et, pour j = 1, . . . ,N, on définit l’événement

Aj = {il y a ≥ 2 anniversaires le jour j}.


 n  n−1
1 N−1
Alors P(Aj ) = 1 − P(Acj ) = 1 − N−1N − n N N . Donc le nombre
de jours avec ≥ 2 anniversaires est

X = 1A1 + · · · + 1AN

et

E[X] = E[1A1 ] + · · · + E[1AN ] = P(A1 ) + · · · + P(AN )


 N − 1 n  N − 1 n−1
= NP(A1 ) = N − N −n .
N N
Application numérique : pour n = 100, E[X] ' 11,4.
Retour sur les anniversaires

On choisit n personnes au hasard. Combien en moyenne y a-t-il de jours


dans l’année où au moins 2 ont leur anniversaire ?
On note N = 365 et, pour j = 1, . . . ,N, on définit l’événement

Aj = {il y a ≥ 2 anniversaires le jour j}.


 n  n−1
1 N−1
Alors P(Aj ) = 1 − P(Acj ) = 1 − N−1N − n N N . Donc le nombre
de jours avec ≥ 2 anniversaires est

X = 1A1 + · · · + 1AN

et

E[X] = E[1A1 ] + · · · + E[1AN ] = P(A1 ) + · · · + P(AN )


 N − 1 n  N − 1 n−1
= NP(A1 ) = N − N −n .
N N
Application numérique : pour n = 100, E[X] ' 11,4.
NB. A1 , . . . ,AN ne sont pas indépendants ! Et la loi de X n’est pas binomiale.
Espérance de ϕ(X)
Proposition
Soit X une variable aléatoire, et ϕ : R → R une fonction.
Si X est discrète, alors
X
E[ϕ(X)] = ϕ(x)P(X = x).
x∈X(Ω)

Si X est continue, alors


Z
E[ϕ(X)] = ϕ(x)fX (x)dx.
R

(À condition que la série et l’intégrale soient bien définies)

h i
X 1 1 2 1 3 1 23
Si X suit la loi uniforme sur {1,2,3}, E 1+X = 1+1 3 + 1+2 3 + 1+3 3 = 36

i la Rloi uniforme sur [0,1],


SihX suit
R1
1 1 1
E 1+X = R 1+x 1[0,1] (x)dx = 0 1+x dx = [ln(1 + x)]1x=0 = ln 2
Parenthèse : loi de Poisson P(λ)

Soit λ > 0. Une variable aléatoire X suit la loi de Poisson de paramètre λ


(notée P(λ)) si X est à valeurs dans N = {0,1,2, . . .} et
λk
pour tout k ∈ N, P(X = k) = e−k .
k!
On a
E[X] = λ
C’est la loi limite de la loi binomiale B(n,p), avec np ' λ et n → ∞ :

Proposition
Si, pour tout n, Sn suit la loi B(n,pn ), et npn −→ λ, alors
n→∞

λk
pour tout k ∈ N, P(Sn = k) −→ e−λ .
n→∞ k!
Dans la pratique, on peut approcher la loi B(n,p) par la loi P(np) lorsque
n ≥ 50 et p ≤ 0,1 (erreur inférieure à 5 % dans les calculs de probabilités).
Parenthèse : loi de Poisson P(λ)
Soit λ > 0. Une variable aléatoire X suit la loi de Poisson de paramètre λ
(notée P(λ)) si X est à valeurs dans N = {0,1,2, . . .} et
λk
pour tout k ∈ N, P(X = k) = e−k .
k!

Proposition
Si, pour tout n, Sn suit la loi B(n,pn ), et npn −→ λ, alors
n→∞

λk
pour tout k ∈ N, P(Sn = k) −→ e−λ .
n→∞ k!
Dans la pratique, on peut approcher la loi B(n,p) par la loi P(np) lorsque
n ≥ 50 et p ≤ 0,1 (erreur inférieure à 5 % dans les calculs de probabilités).
Ex. Une usine produit 500 pièces par jour, dont 1 % sont défaillantes. Le
nombre N de pièces défaillantes suit la loi B(n,p) avec n = 500, p = 0,01.
Le nombre moyen d’erreurs est λ = E[N] = np = 5.
P7 k
Alors, N suit approx. la loi P(5), donc P(N ≤ 7) ' e−5 k=0 5k! ' 0,866.
P7 
En vérité, P(N ≤ 7) = k=0 500 k
k 0,01 · 0,99
500−k
' 0,868.
Variance

Question : l’espérance E[X] représente-t-elle bien les valeurs typiques de X ?


Comment les valeurs de X sont-elles dispersées autour de E[X] ?
Variance

Question : l’espérance E[X] représente-t-elle bien les valeurs typiques de X ?


Comment les valeurs de X sont-elles dispersées autour de E[X] ?

Définition
Soit X une variable aléatoire. La variance de X est l’espérance des
carrés des écarts de X à sa moyenne :
h 2 i
Var(X) = E X − E[X] ≥ 0.
p
L’écart type de X est σ(X) = Var(X).
Attention. La variance n’est pas toujours définie. Il faut que
l’espérance E[X] soit définie et l’espérance ci-dessus aussi.
→ Ceci revient à demander à ce que E[X 2 ] soit définie.

NB. À la différence de la variance, l’écart type σ(X) est homogène à X : si


par exemple X est une distance, alors σ(X) est une distance aussi. Ceci
justifie l’intérêt de l’écart type.
Variance – Propriétés

Propriétés
Pour toutes variables aléatoires X et Y et toute constante a,
1 Var(X) = E[X 2 ] − E[X]2
2 Var(aX) = a2 Var(X)
3 Var(X + a) = Var(X)
4 Var(X + Y) = Var(X) + 2 Cov(X,Y) + Var(Y), où la covariance est
définie par
h  i
Cov(X,Y) = E X − E[X] Y − E[Y] = E[XY] − E[X]E[Y].

Pour toute variable aléatoire X possédant une variance, la variable aléatoire


X − E[X]
Y= est centrée (E[Y] = 0) et réduite (Var(Y) = 1).
σ(X)
Cours 3

Mercredi 13 février 2019
Rappel – Variables aléatoires
Définition
Une variable aléatoire est une application X : Ω → R.
La loi de X est la probabilité PX sur R définie par :

pour tout B ⊂ R, PX (B) = P({ω ∈ Ω | X(ω) ∈ B}) = P(X ∈ B).

X(Ω) (image de X) est le support de PX .


PX peut aussi être vue comme une probabilité sur X(Ω).
On note parfois X ∼ PX pour indiquer que X suit la loi PX .

X
{X∈B} ω

R X(ω)

Ω B
Rappel – Espérance, variance
Définition
L’espérance d’une variable aléatoire X, notée E[X], est la moyenne
de ses valeurs, pondéréesXpar leurs probabilités.
Si X est discrète, E[X] = xP(X = x).
x∈X(Ω)
Z
Si X est continue, de densité fX , E[X] = xfX (x)dx.
R
Attention. L’espérance n’est pas toujours définie. Il faut pour cela
que la série ou l’intégrale ci-dessus converge absolument.

Intérêt, interprétation :
• E[X] est la moyenne des valeurs de X observées en “répétant l’expérience”
un grand nombre de fois (loi des grands nombres)
• E[X] donne une indication de l’ordre de grandeur typique de X.
• E[X] est souvent plus simple à calculer (et à interpréter) que la loi de X.
• E[X] correspond au “prix équitable” à faire payer pour jouer à un jeu de
hasard où le gain est X (dans l’idée que l’on joue un grand nombre de fois)
→ prix d’assurances, d’actifs financiers,...
bla
bla
Rappel – Espérance, variance
Définition
L’espérance d’une variable aléatoire X, notée E[X], est la moyenne
de ses valeurs, pondérées parXleurs probabilités. Pour ϕ : X(Ω) → R,
Si X est discrète, E[ϕ(X)] = ϕ(x)P(X = x).
x∈X(Ω)
Z
Si X est continue, de densité fX , E[ϕ(X)] = ϕ(x)fX (x)dx.
R
Attention. L’espérance n’est pas toujours définie. Il faut pour cela
que la série ou l’intégrale ci-dessus converge absolument.

Intérêt, interprétation :
• E[X] est la moyenne des valeurs de X observées en “répétant l’expérience”
un grand nombre de fois (loi des grands nombres)
• E[X] donne une indication de l’ordre de grandeur typique de X.
• E[X] est souvent plus simple à calculer (et à interpréter) que la loi de X.
• E[X] correspond au “prix équitable” à faire payer pour jouer à un jeu de
hasard où le gain est X (dans l’idée que l’on joue un grand nombre de fois)
→ prix d’assurances, d’actifs financiers,...
bla
bla
Variance

Question : l’espérance E[X] représente-t-elle bien les valeurs typiques de X ?


Comment les valeurs de X sont-elles dispersées autour de E[X] ?
Variance

Question : l’espérance E[X] représente-t-elle bien les valeurs typiques de X ?


Comment les valeurs de X sont-elles dispersées autour de E[X] ?

Définition
Soit X une variable aléatoire. La variance de X est l’espérance des
carrés des écarts de X à sa moyenne :
h 2 i
Var(X) = E X − E[X] ≥ 0.
p
L’écart type de X est σ(X) = Var(X).
Attention. La variance n’est pas toujours définie. Il faut que
l’espérance E[X] soit définie et l’espérance ci-dessus aussi.
→ Ceci revient à demander à ce que E[X 2 ] soit définie.

NB. À la différence de la variance, l’écart type σ(X) est homogène à X : si


par exemple X est une distance, alors σ(X) est une distance aussi. Ceci
justifie l’intérêt de l’écart type.
Variance – Propriétés
Propriétés
Pour toutes variables aléatoires X et Y et toute constante a,
1 Var(X) = E[X 2 ] − E[X]2
2 Var(aX) = a2 Var(X)
3 Var(X + a) = Var(X)
4 Var(X + Y) = Var(X) + 2 Cov(X,Y) + Var(Y), où la covariance est
définie par
h  i
Cov(X,Y) = E X − E[X] Y − E[Y] = E[XY] − E[X]E[Y].

Var(X + Y) 6= Var(X) + Var(Y) en général ! Par exemple,


Var(X + X) = Var(2X) = 4 Var(X) mais Var(X) + Var(X) = 2 Var(X)...

Pour toute variable aléatoire X possédant une variance, la variable aléatoire


X − E[X]
Y= est centrée (E[Y] = 0) et réduite (Var(Y) = 1).
σ(X)
Variance – Exemples discrets

Si X suit la loi de Bernoulli B(p),


E[X 2 ] = 12 · p + 02 · (1 − p) = p, donc Var(X) = p − p2 = p(1 − p)

Si X suit la loi géométrique G(p),


1−p
Var(X) =
p2

X 1
Indication : dériver deux fois xk = pour obtenir
1−x
k=0


X 2
k(k − 1)xk−2 =
(1 − x)3
k=2

et en déduire le calcul de E[X(X − 1)] puis E[X 2 ] = E[X(X − 1) + X] = · · ·


Variance – Exemples à densité

Si X suit la loi uniforme sur [a,b],


Z b
1 1  b3 a3  a2 + ab + b2
E[X 2 ] = x2 dx = − = ,
a b−a b−a 3 3 3
d’où
a2 + ab + b2  a + b 2 (b − a)2
Var(X) = − = .
3 2 12

Si X suit la loi exponentielle E(λ),

Z ∞ Z ∞
−λx 2 2
2
E[X ] = 2
x λe dx = [x2 e−λx ]∞
x=0 + 2xe−λx dx = E[X] = 2
0 0 λ λ

d’où  1 2
2 1
Var(X) = 2
− = 2.
λ λ λ
Bilan

Étant donnée une variable aléatoire X, son espérance E[X] (si elle
existe) est la moyenne de ses valeurs, pondérées par leurs probabilités
d’apparition.
E[X] donne une idée de l’ordre de grandeur “typique” des réalisations
de X. C’est en particulier utile si on ne connaît pas la loi de X (on peut
en effet souvent calculer E[X] sans connaître la loi de X).
Afin de mesurer la dispersion des valeurs prises par X autour de E[X],
on peut calculer l’écart-type σ(X) de X.

L’espérance et la variance fournissent également des informations sur


certaines probabilités via les inégalités de Markov et Tchebychev...
Inégalités
Proposition (Inégalité de Markov)
Soit X une variable aléatoire. Pour tout a > 0,
 
E |X|
P(|X| ≥ a) ≤ .
a
Plus généralement, pour tout a > 0 et r > 0,
 
E |X|r
P(|X| ≥ a) ≤ .
ar

Preuve
Inégalités
Proposition (Inégalité de Markov)
Soit X une variable aléatoire. Pour tout a > 0,
 
E |X|
P(|X| ≥ a) ≤ .
a
Plus généralement, pour tout a > 0 et r > 0,
 
E |X|r
P(|X| ≥ a) ≤ .
ar

Preuve
On définit une variable aléatoire Y par
(
a si |X| ≥ a,
Y=
0 sinon.

Alors on a toujours |X| ≥ Y.


Inégalités
Proposition (Inégalité de Markov)
Soit X une variable aléatoire. Pour tout a > 0,
 
E |X|
P(|X| ≥ a) ≤ .
a
Plus généralement, pour tout a > 0 et r > 0,
 
E |X|r
P(|X| ≥ a) ≤ .
ar

Preuve
On définit une variable aléatoire Y par
(
a si |X| ≥ a,
Y=
0 sinon.
 
Alors on a toujours |X| ≥ Y. Donc E |X| ≥ E[Y].
Inégalités
Proposition (Inégalité de Markov)
Soit X une variable aléatoire. Pour tout a > 0,
 
E |X|
P(|X| ≥ a) ≤ .
a
Plus généralement, pour tout a > 0 et r > 0,
 
E |X|r
P(|X| ≥ a) ≤ .
ar

Preuve
On définit une variable aléatoire Y par
(
a si |X| ≥ a,
Y=
0 sinon.
 
Alors on a toujours |X| ≥ Y. Donc E |X| ≥ E[Y]. D’où l’inégalité, car

E[Y] = aP(|X| ≥ a) + 0P(|X| < a) = aP(|X| ≥ a).


Inégalités
Proposition (Inégalité de Markov)
Soit X une variable aléatoire. Pour tout a > 0,
 
E |X|
P(|X| ≥ a) ≤ .
a
Plus généralement, pour tout a > 0 et r > 0,
 
E |X|r
P(|X| ≥ a) ≤ .
ar

Preuve
On définit une variable aléatoire Y par
(
a si |X| ≥ a,
Y=
0 sinon.
 
Alors on a toujours |X|r ≥ Y r . Donc E |X|r ≥ E[Y r ]. D’où l’inégalité, car

E[Y r ] = ar P(|X| ≥ a) + 0P(|X| < a) = ar P(|X| ≥ a).


Inégalités
Proposition (Inégalité de Bienaymé-Tchebychev)
Soit X une variable aléatoire. Pour tout a > 0,
  Var(X)
P X − E[X] ≥ a ≤ .
a2
Preuve : Appliquer l’inégalité de Markov à r = 2 et à la v.a. X − E[X].
Autre écriture
Pour tout A > 0,
  1
P E[X] − Aσ(X) ≤ X ≤ E[X] + Aσ(X) ≥ 1 − 2 .
A
→ avec probabilité ≥ 75 %, |X − E[X]| ≤ 2σ(X).
→ avec probabilité ≥ 99 %, |X − E[X]| ≤ 10σ(X).
Inégalités
Proposition (Inégalité de Bienaymé-Tchebychev)
Soit X une variable aléatoire. Pour tout a > 0,
  Var(X)
P X − E[X] ≥ a ≤ .
a2
Preuve : Appliquer l’inégalité de Markov à r = 2 et à la v.a. X − E[X].
Autre écriture
Pour tout A > 0,
  1
P E[X] − Aσ(X) ≤ X ≤ E[X] + Aσ(X) ≥ 1 − 2 .
A
→ avec probabilité ≥ 75 %, |X − E[X]| ≤ 2σ(X).
→ avec probabilité ≥ 99 %, |X − E[X]| ≤ 10σ(X).

Ces inégalités sont intéressantes si on ne connaît pas la loi de X (ou si elle


est compliquée), mais que l’on connaît E[X] et σ(X). Cela arrive notamment
quand X est définie à partir de plusieurs variables aléatoires.
Désormais, on va s’intéresser à plusieurs variables aléatoires, et à la façon
dont elles sont liées.
Indépendance de variables aléatoires

Définition
Des variables aléatoires X1 , . . . ,Xn sont indépendantes si, pour tous
B1 , . . . ,Bn ⊂ R,

P(X1 ∈ B1 , . . . ,Xn ∈ Bn ) = P(X1 ∈ B1 ) · · · P(Xn ∈ Bn ).

où les virgules se lisent « et » :

P(X1 ∈ B1 , . . . ,Xn ∈ Bn ) = P({X1 ∈ B1 } ∩ · · · ∩ {Xn ∈ Bn })

Par exemple, deux variables aléatoires X et Y sont indépendantes si les


événements qui ne dépendent que de X sont indépendants des événements
qui ne dépendent que de Y : pour B,C ⊂ R,

P(X ∈ B, Y ∈ C) = P(X ∈ B)P(Y ∈ C).

Connaître X ne renseigne pas sur Y. Notion intuitive d’« indépendance ».


Exemple : tirages de dés,...
Indépendance – Retour sur un exemple

On considère deux tirages de dés : espace de probabilité Ω = {1, . . . ,6}2 ,


avec la probabilité P uniforme.
On note X1 , X2 les résultats des dés : pour tout tirage (k,l) ∈ Ω,

X1 ((k,l)) = k et X2 ((k,l)) = l.

Alors, pour A,B ⊂ {1, . . . ,6},

P(X1 ∈ A, X2 ∈ B) = P({(k,l) ∈ Ω | k ∈ A, l ∈ B})


Card(A × B)
= P(A × B) =
Card(Ω)
Card A Card B
= = P(X1 ∈ A)P(X2 ∈ B),
6 6
car X1 et X2 suivent la loi uniforme sur {1, . . . ,6}. Donc X1 et X2 sont
indépendantes.
On a ainsi déjà utilisé des v.a. indépendantes sans le dire.
(cf. aussi le choix de (Ω,P) dans le paradoxe des anniversaires)
Indépendance – Propriétés (admises)
Proposition
1 Si X1 , . . . ,Xn sont indépendantes, alors les variables aléatoires
f1 (X1 ), . . . ,fn (Xn ) sont indépendantes, quelles que soient les
fonctions f1 , . . . ,fn .
2 « Indépendance par paquets ». Si X1 , . . . ,Xn sont
indépendantes alors les fonctions de « paquets disjoints » de
variables sont indépendantes : par exemple, les variables
aléatoires f1,2 (X1 ,X2 ), f3 (X3 ), f4,5,6 (X4 ,X5 ,X6 ),. . . sont
indépendantes.
3 Si des événements A1 , . . . ,An sont indépendants alors leurs
fonctions indicatrices 1A1 , . . . ,1An sont des variables aléatoires
indépendantes ; et réciproquement.

Par 2), si X,Y,Z,T sont indépendantes,


p
X |Z|, Y 2 et T1 sont indépendantes ;
et de même,
X + Y 2 et Z(1 − TZ ) sont indépendantes.
Indépendance et espérance
Proposition
Si X1 , . . . ,Xn sont des variables aléatoires indépendantes, alors
1 si leurs espérances sont bien définies,

E[X1 · · · Xn ] = E[X1 ] · · · E[Xn ]

2 si leurs variances sont bien définies, alors on a Cov(Xi ,Xj ) = 0


pour tous i 6= j, d’où

Var(X1 + · · · + Xn ) = Var(X1 ) + · · · + Var(Xn ).

(le 1. est évident si Xi = 1Ai , et le cas général s’en déduit par approximation)
Par le 1) on déduit, si X1 , . . . ,Xn sont indépendantes,
E[f1 (X1 ) · · · fn (Xn )] = E[f1 (X1 )] · · · E[fn (Xn )].
Indépendance et espérance
Proposition
Si X1 , . . . ,Xn sont des variables aléatoires indépendantes, alors
1 si leurs espérances sont bien définies,

E[X1 · · · Xn ] = E[X1 ] · · · E[Xn ]

2 si leurs variances sont bien définies, alors on a Cov(Xi ,Xj ) = 0


pour tous i 6= j, d’où

Var(X1 + · · · + Xn ) = Var(X1 ) + · · · + Var(Xn ).

(le 1. est évident si Xi = 1Ai , et le cas général s’en déduit par approximation)
Par le 1) on déduit, si X1 , . . . ,Xn sont indépendantes,
E[f1 (X1 ) · · · fn (Xn )] = E[f1 (X1 )] · · · E[fn (Xn )].

Application : Variance de la loi binomiale. Si A1 , . . . ,An sont indépendants


et P(A1 ) = · · · = P(An ) = p, alors Sn = 1A1 + · · · + 1An suit la loi B(n,p) et

Var(Sn ) = Var(1A1 ) + · · · + Var(1An ) = n Var(1A1 ) = np(1 − p).


Inégalité de Tchebychev pour la loi B(n,p)

Application : Variance de la loi binomiale. Si A1 , . . . ,An sont indépendants


et P(A1 ) = · · · = P(An ) = p, alors Sn = 1A1 + · · · + 1An suit la loi B(n,p).
Et, comme 1A1 , . . . ,1An sont indépendantes,

Var(Sn ) = Var(1A1 ) + · · · + Var(1An ) = n Var(1A1 ) = np(1 − p).

Appliquons l’inégalité de Tchebychev à Sn : pour tout δ > 0,


np(1 − p)
P(|Sn − np| ≥ δ) ≤ .
δ2
Inégalité de Tchebychev pour la loi B(n,p)

Application : Variance de la loi binomiale. Si A1 , . . . ,An sont indépendants


et P(A1 ) = · · · = P(An ) = p, alors Sn = 1A1 + · · · + 1An suit la loi B(n,p).
Et, comme 1A1 , . . . ,1An sont indépendantes,

Var(Sn ) = Var(1A1 ) + · · · + Var(1An ) = n Var(1A1 ) = np(1 − p).

Appliquons l’inégalité de Tchebychev à Sn : pour tout δ > 0,


np(1 − p)
P(|Sn − np| ≥ δ) ≤ .
δ2
Pour δ = nε,
np(1 − p) p(1 − p)
P(|Sn − np| ≥ nε) ≤ = −→ 0.
n2 ε2 nε2 n→∞
Inégalité de Tchebychev pour la loi B(n,p)

Application : Variance de la loi binomiale. Si A1 , . . . ,An sont indépendants


et P(A1 ) = · · · = P(An ) = p, alors Sn = 1A1 + · · · + 1An suit la loi B(n,p).
Et, comme 1A1 , . . . ,1An sont indépendantes,

Var(Sn ) = Var(1A1 ) + · · · + Var(1An ) = n Var(1A1 ) = np(1 − p).

Appliquons l’inégalité de Tchebychev à Sn : pour tout δ > 0,


np(1 − p)
P(|Sn − np| ≥ δ) ≤ .
δ2
Pour δ = nε,
 S  np(1 − p) p(1 − p)
n
P − p ≥ ε = P(|Sn − np| ≥ nε) ≤ = −→ 0.
n n2 ε2 nε2 n→∞

1 +···+1
La proportion de “succès” Snn = A1 n An est proche de p avec grande
probabilité, si le nombre n est grand. C’est un cas particulier de la loi des
grands nombres.
Exemple : si n = 1000 et p = 12 , avec probab. ≥ 75%, Sn ∈ [0.468,0.531].
(On verra plus tard comment raffiner cet intervalle)
Théorème (« Loi ») des grands nombres
Théorème
Soit (Xn )n≥1 une suite de variables aléatoires indépendantes, et de
même loi, d’espérance m et de variance σ 2 . On définit la variable
aléatoires X n , appelée moyenne empirique, par
X1 + · · · + Xn
Xn = .
n
On a :
 
pour tout ε > 0, P m − ε ≤ X n ≤ m + ε −→ 1.
n→∞
Théorème (« Loi ») des grands nombres
Théorème
Soit (Xn )n≥1 une suite de variables aléatoires indépendantes, et de
même loi, d’espérance m et de variance σ 2 . On définit la variable
aléatoires X n , appelée moyenne empirique, par
X1 + · · · + Xn
Xn = .
n
On a :
 
pour tout ε > 0, P m − ε ≤ X n ≤ m + ε −→ 1.
n→∞

NB. Si (An )n≥1 est une suite d’événements indépendants et qui ont même
probabilité p (par exemple, dans une suite de tirages à Pile-ou-Face,
An = {le n-ième tirage est Pile}, et p = 12 ), alors en posant Xi = 1Ai , on a
1 A1 + · · · + 1 An nombre d’événements réalisés parmi A1 , . . . ,An
Xn = =
n n
donc X n est la fréquence de réalisation des événements A1 , . . . ,An .
Application : Simulation stochastique

Principe de la simulation aléatoire (ou “stochastique”)


La “fonction” rand() de Matlab renvoie une suite d’observations de
variables aléatoires indépendantes et de loi uniforme sur [0,1].

Il existe une suite U1 ,U2 , . . . de variables aléatoires indépendantes, toutes


de loi uniforme sur [0,1], et un élément ω ∈ Ω, tels que la fonction rand()
renvoie d’abord U1 (ω), puis U2 (ω), puis...
• On peut dire que la valeur de ω correspond à la graine du générateur
aléatoire : c’est une valeur (un entier) qui détermine la suite des tirages.
Dans Matlab, rng(n) donne à la graine la valeur n.
• En réalité, U1 ,U2 , . . . ne sont pas vraiment indépendantes et de loi
uniforme sur [0,1], mais se comportent “presque” comme si elles l’étaient.
On parle de nombres pseudo-aléatoires.
• Si on souhaite des variables qui suivent d’autres lois, il faut les construire à
partir de U1 ,U2 , . . .
• Par la loi des grands nombres, on peut calculer des valeurs approchées de
probabilités ou d’espérances : c’est la méthode de Monte-Carlo.
Calcul espérance/variance : collectionneur d’images
Dans chaque paquet de céréales, on trouve une image. Il existe en tout
N = 50 images différentes. Combien de paquets faut-il ouvrir pour en avoir
(au moins) une de chaque type ?
Calcul espérance/variance : collectionneur d’images
Dans chaque paquet de céréales, on trouve une image. Il existe en tout
N = 50 images différentes. Combien de paquets faut-il ouvrir pour en avoir
(au moins) une de chaque type ?

On note U1 ,U2 , . . . le numéro de l’image du paquet 1, du paquet 2,. . .


Alors U1 ,U2 , . . . sont des variables aléatoires indépendantes, et de loi
uniforme dans {1,2, . . . ,N}. Notons X le nombre de paquets à ouvrir.
Calcul espérance/variance : collectionneur d’images
Dans chaque paquet de céréales, on trouve une image. Il existe en tout
N = 50 images différentes. Combien de paquets faut-il ouvrir pour en avoir
(au moins) une de chaque type ?

On note U1 ,U2 , . . . le numéro de l’image du paquet 1, du paquet 2,. . .


Alors U1 ,U2 , . . . sont des variables aléatoires indépendantes, et de loi
uniforme dans {1,2, . . . ,N}. Notons X le nombre de paquets à ouvrir.
On peut décomposer X = K1 + K2 + · · · + KN , où Ki est le nombre de
nouveaux paquets à ouvrir pour avoir i images différentes, quand on en a
déjà i − 1 différentes (avec K1 = 1). Quelle est la loi de Ki ?
Calcul espérance/variance : collectionneur d’images
Dans chaque paquet de céréales, on trouve une image. Il existe en tout
N = 50 images différentes. Combien de paquets faut-il ouvrir pour en avoir
(au moins) une de chaque type ?

On note U1 ,U2 , . . . le numéro de l’image du paquet 1, du paquet 2,. . .


Alors U1 ,U2 , . . . sont des variables aléatoires indépendantes, et de loi
uniforme dans {1,2, . . . ,N}. Notons X le nombre de paquets à ouvrir.
On peut décomposer X = K1 + K2 + · · · + KN , où Ki est le nombre de
nouveaux paquets à ouvrir pour avoir i images différentes, quand on en a
déjà i − 1 différentes (avec K1 = 1). Quelle est la loi de Ki ?
K2 suit la loi géométrique de paramètre N−1 N .
K3 suit la loi géométrique de paramètre N−2 N .
···
KN suit la loi géométrique de paramètre N1 . Donc
N N N
E[X] = E[K1 ] + E[K2 ] + · · · + E[KN ] = 1 + + + ··· +
N−1 N−2 1
 1 1 1
= N 1 + + + ··· + ' 225 (si N = 50)
2 3 N
Calcul espérance/variance : collectionneur d’images
On note U1 ,U2 , . . . le numéro de l’image du paquet 1, du paquet 2,. . .
Alors U1 ,U2 , . . . sont des variables aléatoires indépendantes, et de loi
uniforme dans {1,2, . . . ,N}. Notons X le nombre de paquets à ouvrir.
On peut décomposer X = K1 + K2 + · · · + KN , où Ki est le nombre de
nouveaux paquets à ouvrir pour avoir i images différentes, quand on en a
déjà i − 1 différentes (avec K1 = 1). Quelle est la loi de Ki ?
K2 suit la loi géométrique de paramètre N−1 N .
N−2
K3 suit la loi géométrique de paramètre N .
···
KN suit la loi géométrique de paramètre N1 . Donc
N N N
E[X] = E[K1 ] + E[K2 ] + · · · + E[KN ] = 1 + + + ··· +
N−1 N−2 1
 1 1 1
= N 1 + + + ··· + ' 225 (si N = 50)
2 3 N
et K1 , . . . ,Kn sont indépendants, donc
1 N−1
Var(X) = Var(K1 )+· · ·+Var(KN ) = 0+ N
+· · ·+ N
' 622
(1 − N1 ) 2 (1 − N−1
N )
2

(Par inég. de Tchebychev) Avec probabilité ≥ 75%, 101 ≤ X ≤ 349.


Parenthèse : Loi normale N (m,σ 2 )
La loi normale centrée (m = 0) réduite (σ = 1), notée N (0,1), est la loi de
densité
1 x2
f (x) = √ e− 2 .

Si m ∈ R et σ ∈]0, + ∞[, la loi normale de moyenne m et de variance σ 2 ,
notée N (m,σ 2 ), est la loi de la variable aléatoire X = m + σZ, où Z suit la
loi N (0,1).
Si X suit une loi normale, on dit que X est une v.a. gaussienne.

Si Z ∼ N (0,1), sa fonction de répartition est


Z x
2 dt
Φ(x) = P(Z ≤ x) = e−t /2 √ .
−∞ 2π
Φ ne peut pas s’exprimer à l’aide des fonctions usuelles, donc on utilise
• une table (imprimée, ou dans un logiciel de calcul numérique)
x2
e− 2
• ou une approximation : P(Z > x) = 1 − Φ(x) ∼ √
x→∞ x 2π
(avec une erreur relative inférieure à 0,2 si x > 1,9)
Si X ∼ N (m,σ 2 ), on pose Z = X−mσ pour se ramener à N (0,1).
Courbe en cloche : densité de la loi N (m,σ 2 )

La densité de la loi N (m,σ 2 ) est

1 (x−m)2
f : x 7→ f (x) = √ e− 2σ2 .
σ 2π
Cette fonction est appelée une gaussienne ou “courbe en cloche”.

h = σ√12π point d’inflexion

σ σ

√1 h ' 0,6h aire : 2,5%


e
1,96σ

m
Loi normale N (m,σ 2 )

Proposition
“Toute combinaison linéaire de variables aléatoires gaussiennes
indépendantes est une variable aléatoire gaussienne.”
Plus précisément, si X1 , . . . ,Xn sont indépendantes et Xi ∼ N (mi ,σi2 )
alors, pour tous a1 , . . . ,an ∈ R,

X = a1 X1 + · · · + an Xn ∼ N (M,Σ2 ),

X
n X
n
M = E[X] = ai mi et Σ2 = Var(X) = a2i σi2 .
i=1 i=1

Les lois normales interviendront en statistique (pour étudier la marge


d’erreur dans la loi des grands nombres).
Plan du cours

1 Espaces de probabilité.

2 Variables aléatoires. Généralités

3 Couples de variables aléatoires


Loi du couple, loi marginale
Loi du couple

Définition
Soit X,Y deux variables aléatoires. La loi du couple (X,Y) est la
probabilité P(X,Y) sur R2 qui vérifie :

pour tous A,B ⊂ R, P(X,Y) (A × B) = P(X ∈ A, Y ∈ B).

Les lois de X et Y se déduisent de P(X,Y) : pour A ⊂ R,

PX (A) = P(X ∈ A) = P(X ∈ A, Y ∈ R) = P(X,Y) (A × R).

Inversement, les lois de X et de Y sont les lois marginales de P(X,Y) .

Si X et Y sont indépendantes, la loi du couple est fournie par les lois de X et


de Y :
P(X,Y) (A × B) = PX (A)PY (B).
La loi du couple contient davantage d’information que PX et PY : elle
indique aussi la façon dont les variables dépendent l’une de l’autre
(connaître X peut renseigner sur Y).
Exemple

On choisit au hasard (uniformément) un étudiant entré à l’université en 2012.


On note
S ∈ {H,F} son sexe
D ∈ {bio-santé, droit, lettres, sciences, sport, sciences éco } la
discipline où il est inscrit.
Ce sont deux variables aléatoires.
Décrire la loi de (S,D) revient à se donner les proportions d’étudiants dans
chaque cas :
bio-santé droit lettres sciences sport sciences éco
H 6% 7 % 15 % 6 % 4% 5%
F 14 % 10 % 24 % 3 % 2% 4%
Exemple

On choisit au hasard (uniformément) un étudiant entré à l’université en 2012.


On note
S ∈ {H,F} son sexe
D ∈ {bio-santé, droit, lettres, sciences, sport, sciences éco } la
discipline où il est inscrit.
Ce sont deux variables aléatoires.
Décrire la loi de (S,D) revient à se donner les proportions d’étudiants dans
chaque cas :
bio-santé droit lettres sciences sport sciences éco Total
H 6% 7 % 15 % 6 % 4% 5% 43 %
F 14 % 10 % 24 % 3 % 2% 4% 57 %
Total 20 % 17 % 39 % 9 % 6% 9% 100 %
→ Le total de droite est la loi de S. Le total du bas est la loi de D.
D et S ne sont pas indépendantes : P(D = bio, S = H) = 0,06 et
P(D = bio)P(S = H) = 0,2 · 0,43 = 0,086 6= 0,06
Cas de deux variables discrètes
Si X et Y sont discrètes alors la loi de (X,Y) est donnée par les probabilités
élémentaires :

p(X,Y) (x,y) = P(X = x, Y = y) pour tous x ∈ X(Ω), y ∈ Y(Ω).

Elles vérifient p(X,Y) (x,y) ∈ [0,1] pour tous x,y, et


X X
p(X,Y) (x,y) = 1.
x∈X(Ω) y∈Y(Ω)

Inversement, les lois marginales se déduisent des (p(X,Y) (x,y)) : pour tout
x ∈ X(Ω),
X X
pX (x) = P(X = x) = P(X = x,Y = y) = p(X,Y) (x,y),
y∈Y(Ω) y∈Y(Ω)

pour tout y ∈ Y(Ω),


X X
pY (y) = P(Y = y) = P(X = x,Y = y) = p(X,Y) (x,y).
x∈X(Ω) x∈X(Ω)

NB. X et Y sont indépendantes ssi p(X,Y) (x,y) = pX (x)pY (y) pour tous x,y.
Autre exemple discret

On lance 2 dés à 4 faces, dont on note X et Y les résultats, entre 1 et 4.


X et Y sont indépendantes, de loi uniforme sur {1, . . . ,4}.
On définit Z = |X − Y|
Z est à valeurs dans {0,1,2,3} et la loi de (X,Z) est donnée par :

HH X
H
1 2 3 4
Z HH
0 1/16 1/16 1/16 1/16
1 1/16 1/8 1/8 1/16
2 1/16 1/16 1/16 1/16
3 1/16 0 0 1/16
Autre exemple discret

On lance 2 dés à 4 faces, dont on note X et Y les résultats, entre 1 et 4.


X et Y sont indépendantes, de loi uniforme sur {1, . . . ,4}.
On définit Z = |X − Y|
Z est à valeurs dans {0,1,2,3} et la loi de (X,Z) est donnée par :

HH X
HH 1 2 3 4 Total (loi de Z)
Z H
0 1/16 1/16 1/16 1/16 1/4
1 1/16 1/8 1/8 1/16 3/8
2 1/16 1/16 1/16 1/16 1/4
3 1/16 0 0 1/16 1/8
Total (loi de X) 1/4 1/4 1/4 1/4 1
Cours 4

Lundi 25 février 2019
Rappel – Bilan
On a vu jusque-là comment étudier une seule variable aléatoire X :
X est une fonction Ω → R
son ensemble de valeurs possibles (ou support) est son image X(Ω)
sa loi est la donnée de PX (A) = P(X ∈ A), pour tout A ⊂ R
cas discret : équivaut à P(X = x) pour tous les x ∈ X(Ω)
cas à densité fX : équivaut à fX (x) pour tous les x ∈ R
on peut aussi se donner sa loi par sa fonction de répartition

FX : x 7→ FX (x) = P(X ≤ x).

On peut calculer des espérances E[φ(X)] pour φ : R → R :


X
cas discret : E[φ(X)] = φ(x)P(X = x)
x
Z +∞
cas à densité fX : E[φ(X)] = φ(x)fX (x)dx.
−∞
(si la série/intégrale converge)
Rappel – Bilan
On a aussi vu comment étudier plusieurs variables aléatoires X,Y
indépendantes :
X et Y sont, chacunes, des fonctions Ω → R
(X,Y) peut prendre toute valeur dans X(Ω) × Y(Ω) (pas d’influence)
On sait calculer des probabilités du type

P(X ∈ A et Y ∈ B) = P(X ∈ A)P(Y ∈ B)

On sait calculer des espérances du type

E[φ(X)ψ(Y)] = E[φ(X)]E[ψ(Y)]

(si elles convergent), et en particulier Cov(X,Y) = 0.

Et pour calculer, disons P(XY > 0) ou E[(X + Y)2 ], on se ramène aux calculs
ci-dessus. Cela a permis aussi de démontrer la loi des grands nombres.
Rappel – Bilan
On a aussi vu comment étudier plusieurs variables aléatoires X,Y
indépendantes :
X et Y sont, chacunes, des fonctions Ω → R
(X,Y) peut prendre toute valeur dans X(Ω) × Y(Ω) (pas d’influence)
On sait calculer des probabilités du type

P(X ∈ A et Y ∈ B) = P(X ∈ A)P(Y ∈ B)

On sait calculer des espérances du type

E[φ(X)ψ(Y)] = E[φ(X)]E[ψ(Y)]

(si elles convergent), et en particulier Cov(X,Y) = 0.

Et pour calculer, disons P(XY > 0) ou E[(X + Y)2 ], on se ramène aux calculs
ci-dessus. Cela a permis aussi de démontrer la loi des grands nombres.
Mais en général, les variables dans une expérience ne sont pas indépendantes
(ni de simples fonctions Y = f (X))... Pour étudier ces corrélations, on a
besoin d’étudier le couple (X,Y) et en particulier sa loi.
Loi du couple : des exemples discrets

Pour décrire la loi de deux variables aléatoires X,Y à valeurs dans


{1,2,3,4,5,6}, il suffit de connaître P(X = i et Y = j), pour i,j entre 1 et 6.

HH X
HH 1 2 3 4 5 6 Total
Y H
1 1/36 1/36 1/36 1/36 1/36 1/36 1/6
2 1/36 1/36 1/36 1/36 1/36 1/36 1/6
3 1/36 1/36 1/36 1/36 1/36 1/36 1/6
4 1/36 1/36 1/36 1/36 1/36 1/36 1/6
5 1/36 1/36 1/36 1/36 1/36 1/36 1/6
6 1/36 1/36 1/36 1/36 1/36 1/36 1/6
Total 1/6 1/6 1/6 1/6 1/6 1/6 1
Loi du couple : des exemples discrets

Pour décrire la loi de deux variables aléatoires X,Y à valeurs dans


{1,2,3,4,5,6}, il suffit de connaître P(X = i et Y = j), pour i,j entre 1 et 6.

HH X
H 1 2 3 4 5 6 Total
Y HH
1 1/36 1/36 1/36 1/36 1/36 1/36 1/6
2 1/36 1/36 1/36 1/36 1/36 1/36 1/6
3 1/36 1/36 1/36 1/36 1/36 1/36 1/6
4 1/36 1/36 1/36 1/36 1/36 1/36 1/6
5 1/36 1/36 1/36 1/36 1/36 1/36 1/6
6 1/36 1/36 1/36 1/36 1/36 1/36 1/6
Total 1/6 1/6 1/6 1/6 1/6 1/6 1
X,Y indépendantes
Loi du couple : des exemples discrets

Pour décrire la loi de deux variables aléatoires X,Y à valeurs dans


{1,2,3,4,5,6}, il suffit de connaître P(X = i et Y = j), pour i,j entre 1 et 6.

HH X
HH 1 2 3 4 5 6 Total
Y H
1 1/6 0 0 0 0 0 1/6
2 0 1/6 0 0 0 0 1/6
3 0 0 1/6 0 0 0 1/6
4 0 0 0 1/6 0 0 1/6
5 0 0 0 0 1/6 0 1/6
6 0 0 0 0 0 1/6 1/6
Total 1/6 1/6 1/6 1/6 1/6 1/6 1
Loi du couple : des exemples discrets

Pour décrire la loi de deux variables aléatoires X,Y à valeurs dans


{1,2,3,4,5,6}, il suffit de connaître P(X = i et Y = j), pour i,j entre 1 et 6.

HH X
H 1 2 3 4 5 6 Total
Y HH
1 1/6 0 0 0 0 0 1/6
2 0 1/6 0 0 0 0 1/6
3 0 0 1/6 0 0 0 1/6
4 0 0 0 1/6 0 0 1/6
5 0 0 0 0 1/6 0 1/6
6 0 0 0 0 0 1/6 1/6
Total 1/6 1/6 1/6 1/6 1/6 1/6 1
Y=X
Loi du couple : des exemples discrets

Pour décrire la loi de deux variables aléatoires X,Y à valeurs dans


{1,2,3,4,5,6}, il suffit de connaître P(X = i et Y = j), pour i,j entre 1 et 6.

HH X
HH 1 2 3 4 5 6 Total
Y H
1 0 0 0 0 0 1/6 1/6
2 0 0 0 0 1/6 0 1/6
3 0 0 0 1/6 0 0 1/6
4 0 0 1/6 0 0 0 1/6
5 0 1/6 0 0 0 0 1/6
6 1/6 0 0 0 0 0 1/6
Total 1/6 1/6 1/6 1/6 1/6 1/6 1
Loi du couple : des exemples discrets

Pour décrire la loi de deux variables aléatoires X,Y à valeurs dans


{1,2,3,4,5,6}, il suffit de connaître P(X = i et Y = j), pour i,j entre 1 et 6.

HH X
H 1 2 3 4 5 6 Total
Y HH
1 0 0 0 0 0 1/6 1/6
2 0 0 0 0 1/6 0 1/6
3 0 0 0 1/6 0 0 1/6
4 0 0 1/6 0 0 0 1/6
5 0 1/6 0 0 0 0 1/6
6 1/6 0 0 0 0 0 1/6
Total 1/6 1/6 1/6 1/6 1/6 1/6 1
Y =7−X
Loi du couple : des exemples discrets

Pour décrire la loi de deux variables aléatoires X,Y à valeurs dans


{1,2,3,4,5,6}, il suffit de connaître P(X = i et Y = j), pour i,j entre 1 et 6.

HH X
HH 1 2 3 4 5 6 Total
Y H
1 1/12 1/12 0 0 0 0 1/6
2 1/12 1/12 0 0 0 0 1/6
3 0 0 1/6 0 0 0 1/6
4 0 0 0 1/6 0 0 1/6
5 0 0 0 0 1/6 0 1/6
6 0 0 0 0 0 1/6 1/6
Total 1/6 1/6 1/6 1/6 1/6 1/6 1
Loi du couple : des exemples discrets

Pour décrire la loi de deux variables aléatoires X,Y à valeurs dans


{1,2,3,4,5,6}, il suffit de connaître P(X = i et Y = j), pour i,j entre 1 et 6.

HH X
H 1 2 3 4 5 6 Total
Y HH
1 1/12 1/12 0 0 0 0 1/6
2 1/12 1/12 0 0 0 0 1/6
3 0 0 1/6 0 0 0 1/6
4 0 0 0 1/6 0 0 1/6
5 0 0 0 0 1/6 0 1/6
6 0 0 0 0 0 1/6 1/6
Total 1/6 1/6 1/6 1/6 1/6 1/6 1
(
X si X ≥ 3,
X dé, Z ∈ {1,2} pièce indépendante ; Y =
Z si X ∈ {1,2}
Loi du couple : des exemples discrets

Pour décrire la loi de deux variables aléatoires X,Y à valeurs dans


{1,2,3,4,5,6}, il suffit de connaître P(X = i et Y = j), pour i,j entre 1 et 6.

HH X
H 1 2 3 4 5 6 Total
Y HH
1 1/12 1/12 0 0 0 0 1/6
2 1/12 1/12 0 0 0 0 1/6
3 0 0 1/6 0 0 0 1/6
4 0 0 0 1/6 0 0 1/6
5 0 0 0 0 1/6 0 1/6
6 0 0 0 0 0 1/6 1/6
Total 1/6 1/6 1/6 1/61/6 1/6 1
(
X si X ≥ 3,
X dé, Z ∈ {1,2} pièce indépendante ; Y =
Z si X ∈ {1,2}

Etc. : si on connaît la loi de X et celle de Y, on ne connaît pas la loi de (X,Y),


celle-ci donne le lien entre les valeurs de X et de Y à un même tirage.
Loi du couple
Définition
Soit X,Y deux variables aléatoires. La loi du couple (X,Y) est la
probabilité P(X,Y) sur R2 qui vérifie :

pour tout C ⊂ R2 , P(X,Y) (C) = P((X,Y) ∈ C)

et donc pour tous A,B ⊂ R, P(X,Y) (A × B) = P(X ∈ A, Y ∈ B).


Les lois de X et Y se déduisent de P(X,Y) : pour A ⊂ R,

PX (A) = P(X ∈ A) = P(X ∈ A, Y ∈ R) = P(X,Y) (A × R).

Inversement, les lois de X et de Y sont les lois marginales de P(X,Y) .

Si X et Y sont indépendantes, la loi de (X,Y) est fournie par celles de X et Y :


P(X,Y) (A × B) = PX (A)PY (B).
La loi du couple contient davantage d’information que PX et PY : elle
indique aussi la façon dont les variables dépendent l’une de l’autre à un
même tirage (connaître X peut renseigner sur Y).
Cas de deux variables discrètes
Si X et Y sont discrètes alors la loi de (X,Y) est donnée par le tableau des
probabilités élémentaires :

p(X,Y) (x,y) = P(X = x, Y = y) pour tous x ∈ X(Ω), y ∈ Y(Ω).

Elles vérifient p(X,Y) (x,y) ∈ [0,1] pour tous x,y, et


X X
p(X,Y) (x,y) = 1.
x∈X(Ω) y∈Y(Ω)

Les lois marginales se déduisent des (p(X,Y) (x,y)) : pour tout x ∈ X(Ω),
X X
pX (x) = P(X = x) = P(X = x,Y = y) = p(X,Y) (x,y),
y∈Y(Ω) y∈Y(Ω)

pour tout y ∈ Y(Ω),


X X
pY (y) = P(Y = y) = P(X = x,Y = y) = p(X,Y) (x,y).
x∈X(Ω) x∈X(Ω)

NB. X et Y sont indépendantes ssi p(X,Y) (x,y) = pX (x)pY (y) pour tous x,y.
Cas où P(X,Y) a une densité

On dit que le couple (X,Y) a une densité s’il y a une fonction


f(X,Y) : R2 → R telle que
ZZ
pour tout D ⊂ R2 , P(X,Y) (D) = f(X,Y) (x,y)dx dy.
D

f(X,Y) est appelée la densité du couple (X,Y). Alors f(X,Y) (x,y) ≥ 0 pour tous
x,y ∈ R, et Z Z
f(X,Y) (x,y)dx dy = 1.
R R

NB. En pratique,
R R le calcul d’intégrale double se ramène à deux intégrales
simples ( f(X,Y) (x,y)dx)dy, où les bornes peuvent dépendre du point y

Presque sûrement, (X,Y) ∈ Supp(f(X,Y) ) où le support de la fonction f(X,Y)


est défini par

Supp(f(X,Y) ) = {(x,y) ∈ R2 | f(X,Y) (x,y) > 0}.


Interprétation de la densité

On rappelle que, si X a pour densité fX alors

P(X ∈ [x − δ,x + δ]) P(X ∈ [x − δ,x + δ])


fX (x) = lim = lim ,
δ→0 longueur([x − δ,x + δ]) δ→0 2δ

si fX est continue en x.

De façon similaire,

Si (X,Y) a pour densité f(X,Y) alors


 
P (X,Y) ∈ D((x,y),δ) P (X,Y) ∈ D((x,y),δ)
fX,Y (x,y) = lim = lim ,
δ→0 aire(D((x,y),δ)) δ→0 πδ 2

si f(X,Y) est continue en (x,y).


Cas où P(X,Y) a une densité
On déduit les lois marginales de la loi du couple et, dans le cas indépendant,
on déduit la loi du couple des lois marginales :

Proposition
1 Si (X,Y) a pour densité f(X,Y) , alors X et Y ont des densités fX et
fY données par
Z Z
fX (x) = f(X,Y) (x,y)dy et fY (y) = f(X,Y) (x,y)dx.
R R

2 Si X et Y ont des densités fX et fY et sont indépendantes, alors


(X,Y) a pour densité

f(X,Y) (x,y) = fX (x)fY (y).

Réciproquement, si f(X,Y) (x,y) = f (x)g(y) pour deux fonctions f et


g, alors X et Y sont indépendantes, et les densités de X et Y sont
proportionnelles à f et g.
Exemple à densité

Par définition, la loi uniforme sur le disque D(0,r) est la loi d’un couple
(X,Y) de densité
( p
1
1 πr 2 si x2 + y2 ≤ r
f(X,Y) (x,y) = 2 1D(0,r) (x,y) = .
πr 0 sinon.
D’où la loi de X : la variable aléatoire X a pour densité
 Z √2 2 √
Z  r −x
 1 r 2 − x2
= √ dy = 2 si −r < x < r
fX (x) = f(X,Y) (x,y)dy − r2 −x2 πr
2 πr2
R 
= 0 sinon.

Et Y a même loi que X.


NB : X,Y ne sont pas indépendantes car on sait que (X,Y) ∈ D(0,r).
(on peut aussi voir que f(X,Y) (x,y) 6= fX (x)fY (y))
Autre exemple

Soit (U,V) un couple de variables aléatoire de densité

f (u,v) = Ce−2(u+v) 1D (u,v),

où D = {(u,v) ∈ R2 | 0 ≤ u ≤ v}, et C est un réel à déterminer.


Autre exemple

Soit (U,V) un couple de variables aléatoire de densité

f (u,v) = Ce−2(u+v) 1D (u,v),

où D = {(u,v) ∈ R2 | 0 ≤ u ≤ v},
Z et C est un réel à déterminer.
Alors U a pour densité fU (u) = f (u,v)dv donc fU (u) = 0 si u < 0 et, si
R
u > 0, Z ∞
C −4u
fU (u) = C e−2u−2v dv = e ,
u 2
donc U suit la loi E(4) et C = 8.
Autre exemple

Soit (U,V) un couple de variables aléatoire de densité

f (u,v) = Ce−2(u+v) 1D (u,v),

où D = {(u,v) ∈ R2 | 0 ≤ u ≤ v},
Z et C est un réel à déterminer.
Alors U a pour densité fU (u) = f (u,v)dv donc fU (u) = 0 si u < 0 et, si
R
u > 0, Z ∞
C −4u
fU (u) = C e−2u−2v dv = e ,
u 2
donc U suit la loi E(4) et C =
Z 8.
Et V a pour densité fV (v) = f (u,v)du donc fV (v) = 0 si v < 0 et, si v > 0,
R
Z v
fV (v) = 8 e−2u−2v du = 4(e−2v − e−4v ).
0
Autre exemple

Soit (U,V) un couple de variables aléatoire de densité

f (u,v) = Ce−2(u+v) 1D (u,v),

où D = {(u,v) ∈ R2 | 0 ≤ u ≤ v},
Z et C est un réel à déterminer.
Alors U a pour densité fU (u) = f (u,v)dv donc fU (u) = 0 si u < 0 et, si
R
u > 0, Z ∞
C −4u
fU (u) = C e−2u−2v dv = e ,
u 2
donc U suit la loi E(4) et C =
Z 8.
Et V a pour densité fV (v) = f (u,v)du donc fV (v) = 0 si v < 0 et, si v > 0,
R
Z v
fV (v) = 8 e−2u−2v du = 4(e−2v − e−4v ).
0

NB. U et V ne sont pas indépendantes. ((U,V) ∈ D, ou f (u,v) 6= fU (u)fV (v))


Loi d’un couple : Bilan
Si X et Y sont discrètes alors la loi de (X,Y) est donnée par les probabilités
élémentaires :

P(X = x, Y = y) pour tous x ∈ X(Ω), y ∈ Y(Ω).

Elles vérifient p(X,Y) (x,y) ∈ [0,1] pour tous x,y, et


X X
p(X,Y) (x,y) = 1.
x∈X(Ω) y∈Y(Ω)

On dit que le couple (X,Y) a une densité s’il existe f(X,Y) : R2 → R telle que
Z Z
P(X ∈ A, Y ∈ B) = f(X,Y) (x,y)dx dy pour tous A,B ⊂ R2 .
A B

f(X,Y) est la densité de (X,Y). Alors f(X,Y) (x,y) ≥ 0 pour tous x,y ∈ R, et
Z Z
f(X,Y) (x,y)dx dy = 1.
R R
Calculs d’espérances
Avec la loi du couple (X,Y), on calcule l’espérance de fonctions réelles de X
et Y :
Proposition
Soit ϕ : R2 → R une fonction.
Si X et Y sont discrètes, alors
X X
E[ϕ(X,Y)] = ϕ(x,y)P(X = x, Y = y).
x∈X(Ω) y∈Y(Ω)

Si (X,Y) a pour densité f(X,Y) , alors


Z Z
E[ϕ(X,Y)] = ϕ(x,y)f(X,Y) (x,y)dx dy.
R R

(À condition que les séries et les intégrales soient bien définies)

Rappel : si X,Y sont indépendantes,


E[f (X)g(Y)] = E[f (X)]E[g(Y)].
Exemple de calcul
Soit X,Y deux variables aléatoires indépendantes, de loi E(λ). On cherche
 
1
E .
X+Y
  Z ∞ Z ∞
1 1
E = fX (x)fY (y)dx dy
X+Y x + y
Z0 ∞ Z0 ∞
1
= λe−λx λe−λy dx dy
x + y
Z0 ∞Z0 ∞ 
1
= λ2 e−λ(x+y) dx dy
0 0 x+y
Z ∞Z ∞ 
1 2 −λz
= λ e dz dy en posant x 7→ z = x + y
0 y z
Z ∞Z ∞ 
1 2 −λz
= 1(y≤z) λ e dz dy
0 0 z
Z ∞Z ∞ 
1 2 −λz
= 1(y≤z) λ e dy dz
0 0 z
Z ∞Z z  Z ∞ Z ∞
1 2 −λz 1
= λ e dy dz = z λ2 e−λz dz = λ2 e−λz dz = λ
z z
Autre exemple de calcul (moins astucieux)

Pour le couple (U,V) précédent, calculer E[eU+V ].

ZZ
 
E eU+V = eu+v f (u,v)du dv
R2
ZZ
= eu+v 8e−2(u+v) du dv
D
Z Z ∞
∞ 
−u −v
= 8e e dv du
0 u
Z ∞ Z ∞ 
−u −v
=8 e e dv du
Z0 ∞ u
1
=8 e−u e−u du = 8 = 4.
0 2

Vous aimerez peut-être aussi