Vous êtes sur la page 1sur 111

Cours de Probabilités

Licence M.I.A.S.H.S. Première Année

Année 2022-2023

C
Licence MIASHS : un très bon choix !

Pourquoi ? Et pourquoi les mathématiques ?


Les maths formidable gymnastique de l'esprit : Jacobi "A quoi servent
les mathématiques ? : pour l'honneur de l'esprit humain"
Galilée : "Le livre de l'Univers est écrit en langue mathématique"
La numérisation n'a jamais été aussi présente
Les SHS mêlent complexité et humanités numériques
Les métiers fondés sur les maths appliquées parmi les plus demandés, en
particulier en sciences des données
Mais les mathématiques appliquées requièrent des mathématiques
"abstraites"
La Licence ne doit être qu'un premier pas !

C
Organisation du cours

1 Cours de 2h, TD de 2h

2 2 Contrôles Continus (CC1 et CC2) de 1h30 les 15 mars et 19 avril

3 Bonus de 0 pt à + 3pts en TD par participation, quizzs, DMs,...


Mais 0 pt à partir de 3 absences non justiées !

4 Examen nal en mai de 2h (Par)


5 Note nale = max Par , 12 (CC + Par ) où CC = max(CC 1 , CC 2) + Bonus


C
Plan du cours
1 Quelques rappels de statistiques descriptives unidimensionnelles
Statistique unidimensionnelle
Statistique bidimensionnelle
2 Espace de probabilité, mesure de probabilité et probabilité conditionnelle
Espace de probabilité
Mesure de probabilité d'un événement
Cas particulier de l'équiprobabilité
Probabilité conditionnelle et indépendance
3 Variables aléatoires
Dénitions et propriétés générales
Moments d'une variable aléatoire
Lois à connaître
Fonction d'une autre variable aléatoire
4 Suites de v.a.i.i.d., théorèmes limite et introduction à l'estimation
Variables aléatoires indépendantes (v.a.i.)
Théorèmes limite
Estimation paramètrique et un intervalle de conance
C
Statistique

Historique : "Status", l'état

Probabilités et statistique : a priori et a posteriori

Statistique et statistiques

• Statistique descriptive


• Statistique inférentielle




• Analyse des données


 • Apprentissage statistique
 • Intelligence articielle



• Big data

C
Plan du cours
1 Quelques rappels de statistiques descriptives unidimensionnelles
Statistique unidimensionnelle
Statistique bidimensionnelle
2 Espace de probabilité, mesure de probabilité et probabilité conditionnelle
Espace de probabilité
Mesure de probabilité d'un événement
Cas particulier de l'équiprobabilité
Probabilité conditionnelle et indépendance
3 Variables aléatoires
Dénitions et propriétés générales
Moments d'une variable aléatoire
Lois à connaître
Fonction d'une autre variable aléatoire
4 Suites de v.a.i.i.d., théorèmes limite et introduction à l'estimation
Variables aléatoires indépendantes (v.a.i.)
Théorèmes limite
Estimation paramètrique et un intervalle de conance
C
Statistique unidimensionnelle

Exemple de base de données : Avec le logiciel R (gratuit


https://cran.r-project.org/)

Dénition
Variable X : caractéristique d'individus pouvant prendre plusieurs
valeurs
=⇒ Xi pour l'individu i .

Variable quantitative : relation d'ordre entre les valeurs de X

Variable qualitative : valeurs de X numériques ou alphanumériques ou...


Mais pas de relation d'ordre entre les valeurs de X (même numériques !)
=⇒ Les diérentes valeurs prises par X sont des modalités.

C
Statistique unidimensionnelle (2)

Dénition
X variable et une population de n individus soit (X1 , . . . , Xn ) observé :

Répartition en k classes C1 , . . . , Ck :
une classe peut être une valeur alphanumérique, un intervalle de valeurs
numériques, un groupe de valeurs alphanumériques,...

Eectif nj d'une classe Cj : nj = Card Xi ∈ Cj , i = 1, . . . , n


 

Fréquence fj d'une classe Cj : fj = nj /n

Diagramme à bâtons : barre de taille proportionnelle à nj pour Cj

Diagramme circulaire ("camembert") : portion de fj ∗ 3600 d'un cercle


C
Statistique unidimensionnelle (3)

Dénition
Soit X une variable quantitative et (X1 , . . . , Xn ) observé.

Classes Cj de la forme [xj , xj+1 [ (X continue) ou {xj } (X discrète)


Mode de (X1 , . . . , Xn ) : 12 (xj0 + xj0 +1 ) ou xj0 , avec j0 = Arg max {nj }
1≤j≤k
Amplitude de la classe Cj : xj+1 − xj
Densité de fréquence de Cj : dj = xj+11−xj fj .
Histogramme : on trace la fonction en escalier f (x) =
Pk
j=1 dj IIx∈Cj

Remarque : Très souvent toutes les amplitudes des classes sont égales ! Les
eectifs peuvent remplacer les densité pour construire l'histogramme

C
Statistique unidimensionnelle (4)

Dénition
Soit X une variable quantitative et (X1 , . . . , Xn ) observé.

Si (X1 , . . . , Xn ) connu, la fonction de répartition empirique est :

1X
n
1
Card {Xi , Xi ≤ x}

F (x) = IIXi ≤x =
n n
i=1

Si répartition par classes [xj , xj+1 [ où j = 1, . . . , k , approximation par le


"polygône" des fréquences cumulées :
on relie les points (xj , f0 + · · · + fj−1 ) pour j = 1, . . . , k + 1 avec pour
convention f0 = 0.

C
Statistique unidimensionnelle (5)

Dénition
Soit X une variable quantitative et (X1 , . . . , Xn ) observé et on note
mini (Xi ) = X(1) ≤ X(2) ≤ · · · ≤ X(n) = maxi (Xi ) les Xi classés dans l'ordre.

1 Heuristiquement, la médiane empirique est "le nombre m tel qu'il y ait


autant de Xi plus petit que m que
(
de Xi plus grand que m"
X( n+21 ) si n impair
I Si (X1 , . . . , Xn ) connu, m= 1

2 X( 2 ) + X( n+2 2 ) si n pair
n

I Si répartition par classes [xj , xj+1 [, m /


antécédent de 1 2 par le polygône

2 Par extension, les quartiles, sont les antécédents de 1/4 et 3/4 par le
polygône, ou X([n/4]) et X([3n/4]) .
3 Par extension, les déciles, sont les antécédents de 1/10, 2/10,..., 9/10
par le polygône, ou X([n/10]) , X([2n/10]) ,...,X([9n/10]) .
4 Un quantile d'ordre p ∈]0, 1[ : antécédent de p par le polygône, ou X([pn])
C
Statistique unidimensionnelle (6)

Dénition
Soit X une variable quantitative et (X1 , . . . , Xn ) observé

Si (X1 , . . . , Xn ) connu, on dénit :


X = n1 X1 + · · · + Xn

• Moyenne empirique :
2 1
X12 + · · · + Xn2 − (X )2

• Variance empirique : σ X =
np
• Ecart-type empirique : σ X = σ 2X

Si répartition par classes [xj , xj+1 [


1 x1 +x2 xk +xk+1 
• Moyenne empirique : X ' n n1 2 + n2 x2 +x 3
2 + · · · + nk   2
x1 +x2 2 2
σ 2X ' n1 n1 + · · · + nk xk +x2 k+1 − (X )2

• Variance empirique :
2
σ 2X
p
• Ecart-type empirique : σ X '

C
Exercice
Exercice : Montrer que :
2 1 2 1
2
X1 + · · · + Xn − (X n )2 = (X1 − X n )2 + · · · + (Xn − X n )2

σX =
n n

Démonstration.
On a : 1 X
n
1 X
n
2
(Xi − X n )2 = Xi2 − 2 Xi X n + X n
n i=1
n i=1

1 X
n
1 X
n
1 X
n
2
= Xi2 − 2 Xi X n + Xn
n i=1
n i=1
n i=1

1 X
n
1 X
n
2 1 X
n
= Xi2 − 2 X n Xi + X n 1
n i=1
n i=1
n i=1

1 n
2 1 X
n
2
Xi2 − 2 X n X n + X n = Xi2 − X n
X
=
n i=1
n i=1

Remarque : Cette propriété serait fausse en remplaçant 1 par 1


n n−1 .
C
Plan du cours
1 Quelques rappels de statistiques descriptives unidimensionnelles
Statistique unidimensionnelle
Statistique bidimensionnelle
2 Espace de probabilité, mesure de probabilité et probabilité conditionnelle
Espace de probabilité
Mesure de probabilité d'un événement
Cas particulier de l'équiprobabilité
Probabilité conditionnelle et indépendance
3 Variables aléatoires
Dénitions et propriétés générales
Moments d'une variable aléatoire
Lois à connaître
Fonction d'une autre variable aléatoire
4 Suites de v.a.i.i.d., théorèmes limite et introduction à l'estimation
Variables aléatoires indépendantes (v.a.i.)
Théorèmes limite
Estimation paramètrique et un intervalle de conance
C
Statistique bidimensionnelle

Dénition
On observe 2 variables pour n individus : (X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn )


Si les Xi (resp. Yi ) dans des classes (CjX )1≤j≤kX (resp. (CjY )1≤j≤kY )

On dénit les eectifs joints nj,j 0 pour 1 ≤ j ≤ kX et 1 ≤ j 0 ≤ kY

Répartition des eectifs joints dans un tableau de contingence :

C1X C2X ··· CkXX


C1Y 3 7 ··· 6
C2Y 4 2 ··· 1
.. .. .. ..
. . . ··· .
CkYY 11 0 ··· 7
C
Statistique bidimensionnelle (2)

Dénition
On observe 2 variables pour n individus : (X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn )


Si (X1 , Y1 ), . . . , (Xn , Yn ) connu, nuage de points ((Xi , Yi ))1≤i≤n :




C
Statistique bidimensionnelle (3)

Dénition
(X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn ) connu


1X n
Covariance empirique : σ XY = (Xi − X n ) (Yi − Y n )
n
i=1
σ XY
Corrélation empirique : ρXY =
σX σY

Remarque : σ XX = σ 2X .

Propriété
Pour tout (X1 , Y1 ), (X2 , Y2 ), . . . , (Xn , Yn ) , on a ρXY ≤ 1


Remarque : Corrélation et causalité ?


C
Statistique bidimensionnelle (4)

Démonstration.
1 X
n
On note Xi0 = Xi − X et Yi0 = Yi − Y . Alors σ XY = Xi0 Yi0 . Alors pour tout λ ∈ IR,
n i=1

1 X
n
2 1 X
n
1 X
n
1 X
n
Xi0 + λ Yi0 = (Xi0 )2 + 2 λ Xi0 Yi0 + λ2 (Yi0 )2 = σ 2X + 2 λ σ XY + λ2 σ 2Y
n i=1
n i=1
n i=1
n i=1

Remarquons que l'on a toujours 1n ni=1 Xi0 + λ Yi0 2 ≥ 0. Donc le polynôme


P 

P(λ) = σ 2X + 2 λ σ XY + λ2 σ 2Y est un polynôme positif ou nul pour tout λ ∈ IR. Donc le


discriminant ∆ de ce polynôme est forcément négatif ou nul. Or ∆ = 2 σ XY 2 − 4 σ 2X σ 2Y ≤ 0.

2
D'où σ XY ≤ σ 2X σ 2Y , soit encore σ XY ≤ σ X σ Y , entraînant |ρXY | ≤ 1.

Remarque : On montre que si (Xi ) non tous nuls et (Yi ) non tous nuls,
ρXY = 1 ⇐⇒ ∃α > 0, Xi = α Yi et ρXY = −1 ⇐⇒ ∃α < 0, Xi = α Yi .

C
Regression linéaire simple par moindres carrés
Soit X et Y deux variables quantitatives, (X1 , Y1 ), . . . , (Xn , Yn ) observé

Example : Températures annuelles sur Terre de 1880 à 2015


14.6
14.2
Temp

13.8
13.4

1880 1920 1960 2000

Annee

C
Regression linéaire simple par moindres carrés (2)

=⇒ Une droite optimale pour l'évolution des températures

14.6
14.2
Temp

13.8
13.4

1880 1920 1960 2000

Annee

C
Regression linéaire simple par moindres carrés (3)

Dénition
On dénit une distance par moindres carrés entre (Xi , Yi )1≤i≤n et la droite
y = ax + b par
n
X 2
∆(a, b) = Yi − (aXi + b)
i=1

=⇒ (b b = Argmin ∆(a, b) estimateur par moindres carrés de a et b


a, b)
a,b∈IR
n
Remarque : Aussi possible Argmin Yi − (aXi + b) , estimateur par
X
a,b∈IR
i=1
moindres valeurs absolues
Propriété
σ XY
Si σ 2X > 0, on a ab = et Y n = ab X n + bb =⇒ bb = Y n − ab X n .
σ 2X
C
Preuve de l'expression des estimateurs par MC

Démonstration.
Pour tout a et b, et avec ab = σ XY
σ2
et bb = Y n − ab X n on a :
n X
n 
X 2 X  2
Yi − (aXi + b) = Yi − (b
aXi + b) b − (aXi + b)
b + abXi + b
i=1 i=1
n n
b 2+ b − b) 2
X  X 
= Yi − (b
aXi + b) a − a)Xi + (b
(b
i=1 i=1
n
+2
X  
(Yi − Y n ) − (b
a(Xi − X n )) (b b − b) .
a − a)Xi + (b
i=1

En développant ce dernier terme, on (bb − b) ni=1 (Yi − Y n ) − (b


a(Xi − X n )) = 0 car
P 

0. Par ailleurs,
Pn Pn
i=1 (Yi − Y n ) = i=1 a
b (X i − X n ) =
n
a − a) n σ XY − abn σ 2X ) = n (b
a − a) σ XY − abσ 2X ) = 0,
X 
a − a)
(b (Yi − Y n ) − (b
a(Xi − X n )) Xi = (b
i=1
n n
car (Xi − X n )(Yi − Y n ) = nσ XY et de la même manière
X X
Xi (Yi − Y n ) =
i=1 i=1
n n
(Xi − X n )(Xi − X n ) = nσ 2X .
X X
(Xi − X n )Xi =
i=1 i=1
C
Preuve de l'expression des estimateurs par MC (2)

Démonstration.
n n n
2 X
Ainsi : b 2+ b − b) 2 . Le premier
X  X 
Yi − (aXi + b) = Yi − (b
aXi + b) a − a)Xi + (b
(b
i=1 i=1 i=1
terme ne dépend pas de a et b, le second terme est ≥ 0, s'annule pour a = ab et b = bb et
seulement dans ce cas (car (b b − b) = 0 pour tout i ) dès que deux Xi sont distincts.
a − a)Xi + (b
Donc ab et bb est l'unique minimum de ∆(a, b).

C
Une mesure de l'adéquation

Dénition
Soit (Xi , Yi )1≤i≤n nuage observé, (Ybi )1≤i≤n valeurs prédites pour Yi , i.e.
Ybi = gi (X1 , . . . , Xn ). Le coecient de détermination R 2 de la modélisation
vaut 1 Pn (Y − Y bi )2
2 i=1
R =1− n i
2 .
σY
=⇒ R 2 → 1 excellente adéquation.
Proposition
Soit Ybi = ab Xi + bb, avec (b b MC estimateurs. Alors R 2 = ρ2 .
a, b) XY

Démonstration.
1 Pn (Y − Y 2
On a bi )2 = 1 Pn (Yi − ab Xi − b) b 2 = 1 Pn b(Xi − X n ) . Alors
n i=1 i n i=1 n i=1 (Yi − Y n ) − a
1 b 2 2 a)2 σ 2X = σ 2Y (1 − ρ2XY ).
i=1 (Yi − Yi ) = σ Y − 2a
Pn
n
b σ XY + (b

C
Prédiction et questions

Si Xn+1 est connu mais pas Yn+1 .

=⇒ Valeur prédite : Ybn+1 = ab Xn+1 + bb.

Questions :

Régression parabolique plutôt que linéaire ?


Régression polynomiale ou fonctionnelle plutôt que linéaire ?
Autres méthodes que les moindres carrés ?
Sélectionner parmi des modèles et les tester ?

C
Plan du cours
1 Quelques rappels de statistiques descriptives unidimensionnelles
Statistique unidimensionnelle
Statistique bidimensionnelle
2 Espace de probabilité, mesure de probabilité et probabilité conditionnelle
Espace de probabilité
Mesure de probabilité d'un événement
Cas particulier de l'équiprobabilité
Probabilité conditionnelle et indépendance
3 Variables aléatoires
Dénitions et propriétés générales
Moments d'une variable aléatoire
Lois à connaître
Fonction d'une autre variable aléatoire
4 Suites de v.a.i.i.d., théorèmes limite et introduction à l'estimation
Variables aléatoires indépendantes (v.a.i.)
Théorèmes limite
Estimation paramètrique et un intervalle de conance
C
Espace fondamental

Dénition
• Expérience aléatoire = expérience avec résultat exact imprédictible
• Evénement élémentaire {ωi } = résultat possible ωi pris comme singleton
• Ensemble fondamental (ouS univers) Ω = union de tous les événements
élémentaires, d'où Ω = i∈I {ωi }

Exemples :
 ω1 = (3, 5) ou ω2 = (1, 1) résultat possible

1 Lancer de deux dés : {(2, 6)} est un événement élémentaire
Ω = {(1, 1), (1, 2), . . . , (6, 6)} = {1, 2, . . . , 6}2

 ω1 = 1.23 ou ω2 = 0 résultat possible



2 Pluie (en h) un 5/01 à Paris : {3.7325} événement élémentaire
Ω = [0, 24]

3 touche RAND d'une calculatrice ou ordinateur ...


C
Tribu

Dénition
Ω un ensemble fondamental. On appelle tribu A associée à Ω un ensemble
de sous-ensembles de Ω contenant tous les événements ?

Un ensemble ∈ A est appelé un événement =⇒ A ensemble des


événements de l'expérience (dont l'événement impossible ∅).

C
Tribu (2)

Premier exemple :

On lance 2 fois une pièce :

=⇒ Un résultat ω = (P, P)

=⇒ Ω = (P, P), (P, F ), (F , P), (F , F )

=⇒ Exemple d'événement : A1 ="Au moins 1 P"= {(P, F ), (F , P), (P, P)}

=⇒ Tribu contient tous les événements possibles + ∅. D'où

A = P Ω : ensemble de toutes les parties de Ω




A= ∅, {(P, P)}, {(P, F )}, {(F , F )}, {(F , P)}, {(P, P), (P, F )}, {(P, P), (F , F )}, {(P, P), (F , P)}, {(P, F ), (F , P)}, {(P, F ),
{(F , P), (F , F )}, {(P, P), (F , P), (P, F )}, {(P, P), (F , P), (F , F )}, {(P, P), (F , F ), (P, F )}, {(P, F ), (F , P), (F , F )}, Ω

C
Tribu (3)
Exemples généraux :
1 Si Ω = ω1 , . . . , ωn famille nie d'événements élémentaires, P(Ω) sera


la tribu considérée sur Ω :


n o
P(Ω) = ∅, {ω1 }, . . . , {ωn }, {ω1 , ω2 }, {ω1 , ω3 }, . . . , {ω1 , ω2 , ω3 }, . . . , Ω
2 Si Ω = (ωi )i∈IN , P(Ω) sera la tribu considérée sur Ω


Exemples précédents :
1 Pour Ω = 1, . . . , 6
2
, on prendra


 n o
A = P Ω = ∅, {(1, 1)}, . . . , {(1, 1), (1, 2)}, . . . , Ω
2 Pour Ω = [0, 24], on peut prendre aussi P [0, 24] . Mais on préférera


une tribu plus "petite" (incluse) notée B [0, 24] et qui contient tous


les ensembles formés avec des intervalles de [0, 24]


=⇒ Si Ω intervalle de IR, on appelera B Ω la tribu associée


C
Evénements

Dénition
Pour A et B deux événements de A une tribu sur Ω alors :
On appelle A l'événement contraire de A.
On appelle l'événement "A et B " l'ensemble A ∩ B qui appartient à A.
On appelle l'événement "A ou B " l'ensemble A ∪ B qui appartient à A.
On dit que A et B sont incompatibles lorsque A ∩ B = ∅.

Exemple :
A ="Les 2 dés sont égaux"

1 Pour Ω = {1, . . . , 6}2 , considérons
B ="Un des dés marque 4"
=⇒ A = {(1, 1), . . . , (6, 6)} et B = {(4, 1), . . . , (4, 6), (1, 4), . . . , (6, 4)}
=⇒ "A et B"= {(4, 4)} et Card("A ou B") = 16
2 Pour Ω = [0, 24], on considère A ="Il a plu moins d'1h" et B ="Il a
plu entre 13 et 22h" =⇒ A et B incompatibles
C
Plan du cours
1 Quelques rappels de statistiques descriptives unidimensionnelles
Statistique unidimensionnelle
Statistique bidimensionnelle
2 Espace de probabilité, mesure de probabilité et probabilité conditionnelle
Espace de probabilité
Mesure de probabilité d'un événement
Cas particulier de l'équiprobabilité
Probabilité conditionnelle et indépendance
3 Variables aléatoires
Dénitions et propriétés générales
Moments d'une variable aléatoire
Lois à connaître
Fonction d'une autre variable aléatoire
4 Suites de v.a.i.i.d., théorèmes limite et introduction à l'estimation
Variables aléatoires indépendantes (v.a.i.)
Théorèmes limite
Estimation paramètrique et un intervalle de conance
C
Probabilité

Dénition
Une probabilité sur (Ω, A) est une application IP : A → [0, 1], qui à un
événement E ∈ A associe le réel IP(E ) ∈ [0, 1] et telle que :
IP(Ω) = 1.
[  X
Si (Ej )j∈J⊂IN événements incompatibles de A, IP

Ej = IP Ej
j∈J j∈J

Exemples génériques : 1. Pour Ω = ω1 , . . . , ωn et A = P(Ω),




probabilité uniforme dénie par IP(A) = Card(A)/n pour tout A ∈ A.

2. Pour Ω = IN∗ , A = P(Ω), IP A = k∈A pk pour tout A ∈ A et


 P

k=1 pk = 1 dénit une probabilité.


P ∞

3. Pour Ω = [0, 1], A = B([0, 1]), on peut associer la probabilité uniforme


dénie par IP([a0 , b0 ]) = b0 − a0 pour tout 0 ≤ a0 < b0 ≤ 1.
C
Probabilité (2)

Exemples concrets :

1. Lancer de 2 pièces équilibrées : A = P (P, P), (P, F ), (F , P), (F , F )


 

=⇒ IP(A) = Card(A)/4. Exemple IP("Au moins 1 P"') = 3/4

2. Au P/F, nombre d'essais avant P : A = P(IN∗ ), IP {k} = 2−k




=⇒ IP(”Nombre d'essais
 ≥ 4”) =  1 − IP(”Nombre d'essais ≤ 3”)
= 1 −IP {1} −IP {2} −IP {3} = 1 − 1/2 − 1/4 − 1/8 = 1/8

3. Choisir un réel "au hasard" entre 0 et 1 : Pour Ω = [0, 1], A = B([0, 1])
=⇒ IP(”Nombre = 5”) = 0 et IP(” ln 2 < Nombre < 0.7”) = 0.7 − ln 2

C
Quelques dénitions et propriétés

Dénition
Pour Ω un ensemble fondamental, A une tribu sur Ω,
(Ω, A) est un espace probabilisable ;
Si IP probabilité sur (Ω, A), (Ω, A, IP) est un espace de probabilité.

Propriété
Si (Ω, A, IP) est un espace de probabilité,
IP(A) = 1 − IP(A) pour A ∈ A.
IP(∅) = 0.
Si A, B ∈ A, A ⊂ B , 0 ≤ IP(A) ≤ IP(B) ≤ 1.
IP(A ∪ B) + IP(A ∩ B) = IP(A) + IP(B), pour A, B ∈ A.
Pour (Ai )i∈IN une suite
 S d'événements
 de A, telle que Ai ⊂ Ai+1 pour
tout i ∈ IN, alors IP i∈IN Ai = limn→∞ IP(An ).
C
Quelques dénitions et propriétés (2)

Démonstration.
A et A sont incompatibles (A ∩ A = ∅) et A ∪ A = Ω, donc IP(A) + IP(A) = IP(Ω) = 1
On prend A = ∅ et la propriété précédente
On a B = A ∪ B ∩ A et comme A et B ∩ A incompatibles, IP(B) = IP(A) + IP(B ∩ A),


d'où IP(B) ≥ IP(A) car IP(B ∩ A) ≥ 0


Considérons les ensembles A ∩ B = A \ A ∩ B et B ∩ A
 = B \ A ∩ B . Alors A ∩ B , A ∩ B et
B ∩ A sont trois événements incompatibles et A ∩ B ∪ A ∩ B ∪ B ∩ A = A ∪ B . D'où

(1)
   
IP A ∩ B + IP A ∩ B + IP B ∩ A = IP A ∪ B .

Mais A ∩ B et A ∩ B sont incompatibles et A ∩ B ∪ A ∩ B = A. D'où


   

IP A ∩ B = IP(A) − IP A ∩ B . De même, IP B ∩ A = IP(B) − IP A ∩ B . En reportant


   

dans (1), on obtient : IP A ∩ B + IP(A) − IP A ∩ B + IP(B) − IP A ∩ B = IP A ∪ B ,


   

d'où IP(A) + IP(B) = IP A ∪ B + IP A ∩ B .




Pour n ∈ IN∗ , on a ni=0 Ai = An car Ai ⊂ An pour i ≤ n. Donc IP ni=0 Ai = IP(An ). Or


S S 

la suite IP i=0 Ai n est une suite croissante majorée par 1. Elle est donc convergente.
Sn
SS 
Donc limn→∞ IP ni=0 Ai = limn→∞ IP(An ). Mais i∈IN Ai = A0
S  S
i∈IN Ai+1 \ Ai
tousSces événements étantPincompatibles. Donc
i=0 IP(Ai+1 ) − P(Ai ). Ceci est

IP Ai+1 \ Ai = IP(A0 ) + ∞
  P
IP i∈IN Ai = IP(A0 ) + i=0
une série télescopique qui vaut exactement limn→∞ IP(An ), puisque cette limite existe.
C
Quelques dénitions et propriétés (3)

Dénition
Soit Ω un ensemble et J ⊂ IN. On dit que (Ei )i∈J famille de A forme une
partition de Ω dans A si :
Les Ei sont incompatibles deux à deux soit Ei ∩ Ej = ∅ pour i 6= j .
L'ensemble des Ei couvre Ω soit Ei = Ω.
[

i∈J

Exemple : Si A ∈ A, alors A et A partition de Ω dans A.

Proposition
(Formule des probabilités totales) Soit (Ω, A, P) espace de probabilité et
(Ej )j∈J partition de Ω dans A. Alors, pour tout A ∈ A,
X
IP(A) = IP(A ∩ Ej ).
j∈J
C
Quelques dénitions et propriétés (4)

Démonstration.
Comme A ∩ Ei ⊂ Eiet A ∩ Ej ⊂ Ej et Ei ∩ Ej = ∅ pour i 6= j , alors on a A ∩ Ei ∩ A ∩ Ej = ∅
 

pour i 6= j . Ainsi IP j∈J A ∩ Ej = j∈J IP A ∩ Ej . De plus, par distributivité de


S  P 

l'intersection et l'union d'ensembles (à l'égal de celle dans IR, l'union jouant le rôle de + et
l'intersection de ×), on a :
\ [ 
(comme une factorisation !).
[ 
A ∩ Ej = A Ej
j∈J j∈J

Comme Ej = Ω (partition !), alors j∈J A ∩ Ej = A ∩ Ω = A. Par conséquent, on a bien


S S 
Pj∈J
IP(A) = j∈J IP A ∩ Ej .


Exemples d'utilisation :
On lance n fois une pièce équilibrée. IP "Nombre de P = k” ?


Ω = {P, F }n , A = P(Ω) et probabilité uniforme. Il y a Card(Ω) = 2n


tirages possibles, d'où Ω =P{ωi }1≤i≤2n . Mais ({ωi })1≤i≤2n partition de
Ω dans A. Donc IP(A) = ωi ∈A 2−n = Card(A)/2n = Cnk /2n
C
Quelques dénitions et propriétés (5)
Exemples d'utilisation de la formule des probabilités totales :
Pour (Ω, A, IP) un espace de probabilité et A et B deux événements de
A, on a toujours :
IP(A) = IP(A ∩ B) + IP(A ∩ B).
Soit Ω = ωi i∈I où I ⊂ IN et IP {ωk } = pk pour tout k ∈ I alors IP
 

est entièrement dénie par les pk car pour tout A ∈ A,


X  X
IP(A) = IP A ∩ {ωk } = pk .
k∈I k, {ωk }⊂A

Exemple concret : On jette une pièce. Quelle est la probabilité que le


nombre d'essais avant d'avoir un Pile soit pair ?
On a vu IP(”k”) = pk = 2−k pour tout k ∈ IN∗ . Alors :
∞ ∞  
1 k 1 1 1
IP(”Nombre d'essais pair”) =
X X
p2k = = = .
k=1 k=1
4 4 1 − 1 /4 3
C
Plan du cours
1 Quelques rappels de statistiques descriptives unidimensionnelles
Statistique unidimensionnelle
Statistique bidimensionnelle
2 Espace de probabilité, mesure de probabilité et probabilité conditionnelle
Espace de probabilité
Mesure de probabilité d'un événement
Cas particulier de l'équiprobabilité
Probabilité conditionnelle et indépendance
3 Variables aléatoires
Dénitions et propriétés générales
Moments d'une variable aléatoire
Lois à connaître
Fonction d'une autre variable aléatoire
4 Suites de v.a.i.i.d., théorèmes limite et introduction à l'estimation
Variables aléatoires indépendantes (v.a.i.)
Théorèmes limite
Estimation paramètrique et un intervalle de conance
C
Equiprobabilité

Dénition
Soit Ω un ensemble ni et la tribu A = P(Ω) associée. On dit que IP est la
mesure uniforme sur (Ω, A) si ∀ω, ω 0 ∈ Ω, IP({ω}) = IP({ω 0 }) :
Equiprobabilité.

Propriété
card(A)
Si Ω ni, IP probabilité uniforme sur (Ω, A), alors ∀A ∈ A, IP(A) = .
card(Ω)

Cas particulier : Pour tout ω ∈ Ω, IP({ω}) = 1/card(Ω).

Exemple : Dé équilibré avec Ω = {1, 2, 3, 4, 5, 6}

C
Equiprobabilité (2)

Remarque : Si équiprobabilité, alors :


(Calculer une probabilité) ⇐⇒ (Calculer le cardinal d'un ensemble)
=⇒ Résultats combinatoires : on tire k éléments dans un ensemble de n

S'il y a remise, et que l'ordre compte, un tirage est un k-uplet, et le


nombre total de k-uplets est : nk .
S'il n'y a pas remise, et que l'ordre compte, un tirage est un
arrangement, et le nombre total d'arrangements est :
Akn = n(n − 1) × · · · × (n − k + 1) = n!/(n − k)!
S'il n'y a pas remise, et que l'ordre ne compte pas, un tirage est une
combinaison, et le nombre total de combinaisons est :
Cnk = Akn /k! = n!/(k!(n − k)!)

C
Plan du cours
1 Quelques rappels de statistiques descriptives unidimensionnelles
Statistique unidimensionnelle
Statistique bidimensionnelle
2 Espace de probabilité, mesure de probabilité et probabilité conditionnelle
Espace de probabilité
Mesure de probabilité d'un événement
Cas particulier de l'équiprobabilité
Probabilité conditionnelle et indépendance
3 Variables aléatoires
Dénitions et propriétés générales
Moments d'une variable aléatoire
Lois à connaître
Fonction d'une autre variable aléatoire
4 Suites de v.a.i.i.d., théorèmes limite et introduction à l'estimation
Variables aléatoires indépendantes (v.a.i.)
Théorèmes limite
Estimation paramètrique et un intervalle de conance
C
Probabilité conditionnelle

Dénition
Soit (Ω, A, IP) un espace de probabilité. Si A, B ∈ A et IP(A) 6= 0, la
IP(A ∩ B)
probabilité conditionnelle de B sachant A est IP(B | A) =
IP(A)

Remarque : Calculer des probabilités sachant A =⇒ travailler avec A nouvel


espace fondamental, une tribu associée et une nouvelle probabilité

Exemple : Pile ou face 2 fois avec pièce équilibrée. Calculer la probabilité


d'avoir (P, P) sachant qu'on a obtenu au moins un P ?

Ω = (P, P), (P, F ), (F , P), (F , F ) et A = P(Ω), IP uniforme




=⇒ A ="Au moins 1 P"= {(P, F ), (F , P), (P, P)} et B = {(P, P)}


IP(A ∩ B) IP(B) 1
=⇒ IP(B | A) = = =
IP(A) IP(A) 3
C
Exercice

Un exercice revu :
On lance un dé équilibré, puis on lance le nombre du dé fois une pièce
équilibrée. On note le nombre de Piles. Calculer IP A avec
A = ”4 Piles” ?

On note Di l'événement : "le dé a montré i ", pour i = 1, . . . , 6.


Alors (Di )1≤i≤6 est une partition d'où :
6
X 6
X
=⇒ IP(A) = IP(A ∩ Di ) = IP(A ∩ Di )
i=1 i=4
Par dénition, on a IP(A ∩ Di ) = IP(Di ) IP(A | Di ).
Mais pour i ≥ 4, IP(A | Di ) = Ci4 2−i , d'où IP(A ∩ Di ) = 61 Ci4 2−i .
Ainsi IP(A) = 61 (2−4 + 5 · 2−5 + 15 · 2−6 ) = 16 (4 + 10 + 15) 2−6 ' 0.076.

C
Indépendance

Dénition
Soit (Ω, A, IP) un espace de probabilité. A, B ∈ A, avec IP(A) 6= 0 sont
indépendants si IP(B | A) = IP(B).

Conséquence : Soit (Ω, A, IP) un espace de probabilité, A, B ∈ A) :


A et B indépendants ⇐⇒
 
IP(A ∩ B) = IP(A)IP(B)

Remarque : Ne pas confondre indépendance et incompatibilité !

Exemple : P/F 2 fois pièce équilibrée A = {(P, F ), (F , F )},


B = {(F , P), (F , F )}

=⇒ IP(A ∩ B) = IP({(F , F )}) = 41 = IP(A) IP(B) : A et B indépendants


mais pas incompatibles !
C
Indépendance (2)

Dénition
(Ai )i∈I , I ⊂ IN, famille d'événements de (Ω, A, IP). (Ai )i∈I est une famille
d'événements (mutuellement) indépendants si et seulement si pour tout
k ∈ IN∗ , pour tout j1 , · · · , jk ∈ I k distincts,
IP Aj1 ∩ · · · ∩ Ajk = IP(Aj1 ) × · · · × IP(Ajk ).

Remarque : Etre mutuellement indépendant est plus contraignant que


d'être indépendant deux à deux !
 A : premier lancer P

Exemple : P/F 2 fois pièce équilibrée B : second lancer P .


C : deux lancers identiques

On a A et B indépendants, A et C également, de même que B et C , et
pourtant A, B et C ne sont pas mutuellement indépendants... car
IP(A ∩ B ∩ C ) = IP({(P, P)}) = 14 6= IP(A) IP(B) IP(C ) = 12 × 12 × 21 = 18
C
Formule de Bayes

Proposition
(Formule de Bayes) Soit (Ω, A, IP) espace de probabilité et (Ej )j∈J famille
d'événements de A et partition de (Ω, A). Pour tout A ∈ A, si on connaît
IP(Ej ) et IP(A | Ej ) pour tout j ∈ J , alors

IP(A | Ek ) IP(Ek )
IP(Ek | A) = P pour k ∈ J
j∈J IP(A | Ej ) IP(Ej )

Démonstration.
On a IP(Ek | A) = IP(E k ∩A) IP(A | Ek ) IP(Ek )
. Mais IP(A) = j∈J IP(Ej ∩ A) par la formule des
P
IP(A)
=
PIP(A)
probabilités totale, d'où IP(A) = j∈J IP(A | Ej ) IP(Ej ). D'où le résultat.

C
Formule de Bayes (2)

Exemple : Equipe de foot qui joue autant à domicile qu'à l'extérieur, gagne
1 fois sur 2 à domicile, 1 fois sur 3 à l'extérieur, fait nul 1 fois sur 4 à
domicile, 1 fois sur 3 à l'extérieur. Déterminer la probabilité qu'elle gagne,
puis la probabilité d'être à domicile sachant qu'elle a perdu.
Démonstration.
On note les événements :
"M" : jouer à domicile (maison), "E" : jouer à l'extérieur
"V" : victoire, "N" : nul, "D" : défaite
Alors : IP(M) = IP(E ) = 1/2, IP(V | M) = 1/2, IP(N | M) = 1/4, IP(V | E ) = 1/3 et
IP(N | E ) = 1/3. D'où IP(D | M) = 1/4 et IP(D | E ) = 1/3.

• IP(V ) = IP(V ∩ M) + IP(V ∩ E ) = IP(V | M) IP(M) + IP(V | E ) IP(E ) = (1/2 + 1/3)/2 = 5/12.
1
IP(M ∩ D) IP(D | M) IP(M) 3
• IP(M | D) = = = 1 4 1 =
IP(D) IP(D | M)IP(M) + IP(D | E )IP(E ) 4 + 3
7

C
Plan du cours
1 Quelques rappels de statistiques descriptives unidimensionnelles
Statistique unidimensionnelle
Statistique bidimensionnelle
2 Espace de probabilité, mesure de probabilité et probabilité conditionnelle
Espace de probabilité
Mesure de probabilité d'un événement
Cas particulier de l'équiprobabilité
Probabilité conditionnelle et indépendance
3 Variables aléatoires
Dénitions et propriétés générales
Moments d'une variable aléatoire
Lois à connaître
Fonction d'une autre variable aléatoire
4 Suites de v.a.i.i.d., théorèmes limite et introduction à l'estimation
Variables aléatoires indépendantes (v.a.i.)
Théorèmes limite
Estimation paramètrique et un intervalle de conance
C
Premières dénitions

Dénition
Soit (Ω, A) un espace probabilisable. X variable aléatoire à valeurs dans
I ⊂ IR, si X application de Ω → I telle que pour tout x ∈ IR, l'événement

{X ≤ x} = {ω ∈ Ω tel que X (ω) ≤ x} = X −1 (] − ∞, x])

soit un événement de A.
Exemple : Ω = (P, P), (P, F ), (F , F ), (F , P) , A = P(Ω), X nombre de P.


Pour chaque ω ∈ Ω, X (ω) ∈ {0, 1, 2} = I , par exemple X ({(P, F )}) = 1.


pour x < 0

 {X ≤ x} = ∅
pour 0 ≤ x < 1

{X ≤ x} = {(F , F )}

On a
 {X ≤ x} = {(F , F ), (P, F ), (F , P)} pour 1 ≤ x < 2
pour 2 ≤ x

{X ≤ x} = Ω

=⇒ X variable aléatoire.
C
Deux cas particuliers importants sont à distinguer :
Dénition
Si I = {xj }j∈J avec J ⊂ IN (par exemple I = {0, 1}, I = ZZ,...), X est
appelée variable aléatoire discrète.
Si I est une union dénombrable de "vrais" intervalles de IR (par exemple
I = [0, 1], I = IR+ ,...), X peut être une variable aléatoire continue.
Exemples :
Soit Ω = 1, . . . , 6}2 , A = P(Ω) et X (i, j) = i + j pour (i, j) ∈ Ω.
 

X est 
à valeurs dans I = {2, . . . , 12}.
 {X ≤ x} = ∅ pour x < 2
{X ≤ x} = (1, 1) pour 2 ≤ x < 3

 
On a

 {X ≤ x} = (1 , 1), ( 1, 2), ( 2, 1 ) pour 3 ≤ x < 4
········· ······

=⇒ X variable aléatoire.
Soit Ω = [0, 1], A = B([0, 1]) et X tel que X (ω) = 2ω − 1 pour ω ∈ Ω.
X est 
à valeurs dans I = [−1, 1].
 {X ≤ x} = ∅ pour x < −1
On a {X ≤ x} = [0, (x + 1)/2] pour − 1 ≤ x < 1
{X ≤ x} = [0, 1] pour 1 ≤ x

=⇒ X variable aléatoire.
C
Fonction de répartition
Remarque : Si A = P(Ω), {X ≤ x} ∈ A pour tout x ∈ IR : toute
application est une v.a.
Dénition
Soit (Ω, A, IP) un espace de probabilités et X une variable aléatoire sur
(Ω, A, IP) à valeurs dans I . On appelle fonction de répartition de X la
fonction FX : IR → [0, 1] telle que FX (x) = IP(X ≤ x), pour x ∈ IR.
Exemple : Tracés des fonctions de répartition pour 2 exemples précédents :
1.0

1.0
0.8

0.8
0.6

0.6
F

F
0.4

0.4
0.2

0.2
0.0

0.0

0 2 4 6 8 10 12 14 −2 −1 0 1 2

x x

C
Propriété
1 Fx est une fonction croissante sur IR.

2 lim FX (x) = 0 et lim FX (x) = 1.


x→−∞ x→+∞
3 IP(a < X ≤ b) = FX (b) − FX (a), pour tout −∞ ≤ a < b ≤ +∞.

Démonstration.
Si x ≤ y , {X ≤ x} ⊂ {X ≤ y }, d'où IP {X ≤ x} ≤ IP {X ≤ y }
 
1

=⇒ FX (x) ≤ FX (y ).
2 On a montré que si (An )n∈IN est une suite
 S d'événement
 de A tel que An ⊂ An+1 pour
tout n ∈ IN, alors limn→∞ IP(An ) = IP n∈IN An .
Soit (xn )n∈IN une suite croissante de réels quelconque telle que lim xn = ∞. Si
n→∞
An = {X ≤ xn }, lim IP(An ) = lim FX (xn ) = IP(Ω) = 1. D'où lim FX (x) = 1.
n→∞ n→∞ x→+∞

On a FX (x) = 1 − IP(X > x). Même preuve pour (xn ) suite décroissante tendant
vers −∞ et An = {X > xn } =⇒ limx→−∞ IP(X > x) = 1 =⇒ lim FX (x) = 0.
x→−∞
3 A = {X ≤ a}, B = {a < X ≤ b} et C = {X > b}. Alors A, B et C partition de Ω.
D'où IP(A) + IP(B) + IP(C ) = 1. Comme IP(A) = FX (a), 1 − IP(C ) = FX (b) on
obtient IP(B) = FX (b) − FX (a).
C
Fonction de répartition (suite)
Propriété
Si X : Ω → (xj )j∈J , J ⊂ IN∗ est une v.a. discrète, alors
FX est une fonction en escalier sur IR, avec sauts en les xj .
IP(X = xj ) = FX (xj ) − limx→x − FX (x) pour tout j ∈ J .
j

Démonstration.
pour tout x ∈ IR,
si inf j∈J xj > −∞ et x < inf j∈J xj =⇒ FX (x) = 0

ou





 X
∃j1 ∈ J, xj1 ≤ x < min(xj , xj > xj1 ) =⇒ FX (x) = IP(X = xj )

 xj ≤xj1
ou




si supj∈J xj < +∞ et x > supj∈J xj =⇒ FX (x) = 1

Ce sont les seules valeurs pouvant être prises par FX .


On a FX (xj ) = IP(X = xk ), limx→x − FX (x) = IP(X = xk )...
P P
xk ≤xj j
xk <xj

Remarque : Pour X v.a. discrète, F est discontinue. C


Dénition
Soit X une v.a. sur (Ω, A, IP) à valeurs dans un intervalle ou Zune union
x
d'intervalles. S'il existe fX : IR → [0, +∞[ telle que FX (x) = fX (t) dt
−∞
∀x ∈ IR, X est appelée v.a. continue et fX densité de probabilité de X .

Remarque : termes plus précis : v.a. absolument continue et fX densité par


rapport à la mesure de Lebesgue.

Important : [0, 1], B([0, 1]) X nombre pris uniformément dans [0, 1].


Par exemple X (ω) = ω pour tout ω ∈ [0, 1].


IP : même probabilité pour tout intervalle de même taille
=⇒ IP(X ∈ [a, b]) = b − a pour 0 ≤ a ≤ b ≤ 1
=⇒ FX (x) = x pour 0 ≤ x ≤ 1, 0 si x ≤ 0, 1 si x ≥ 1
=⇒ fX (x) = 1 pour 0 ≤ x ≤ 1, 0 si x ≤ 0, 0 si x ≥ 1

C
Propriété
Si X est une v.a. continue de densité de probabilité fX alors :
FX continue sur IR et FX0 (x) = fX (x) pour presque tout x ∈ IR.
IP(a < X ≤ b) = a fX (t) dt , pour tout −∞ ≤ a < b ≤ +∞.
Rb

IP(X = x) = 0 pour tout x ∈ IR.

Démonstration.
Si x telleR que fX continue en x on dénit G une primitive de fX alors
FX (x) = −∞ fX (t) dt = lim G (t) u = G (x) − lim G (u), d'où FX0 (x) = fX (x).
x x
u→−∞ u→−∞
Ra Rb Ra
IP(a < X ≤ b) = FX (b) − FX (a) = −∞ X
f (t) dt + a fX (t) dt − f (t) dt
−∞ X
relation de Chasles, donc IP(a < X .
Rb
≤ b) = a fX (t) dt
On a IP(X = x) = IP(X ≤ x) − IP(X < x). Si An = {X ≤ xn } avec (xn ) suite
croissante telle que xn < x ∀n ∈ IN et xS
n → x , alors
 An ⊂ An+1 et
limn→∞ FX (xn ) = limn→∞ IP(An ) = IP n∈IN An = IP(X < x). Donc
IP(X = x) = FX (x) − limn→∞ FX (xn ). Comme FX est continue,
limn→∞ FX (xn ) = FX (x) soit IP(X = x) = 0.

C
Propriété
Si X v.a. discrète à valeurs dans I = {xj }i∈J alors j∈J IP(X = xj ) = 1.
P

Si X v.a. continue alors = 1.


R +∞
−∞ fX (t) dt

Démonstration.
Formule des probabilités totales : Ω = = xj } et ({X = xj })i partition...
S
i∈J {X

limx→∞ FX (x) = 1 = limx→∞ f (t) dt d'où −∞ fX (t) dt = 1


Rx R +∞
−∞ X

Exemple : Pour fX (t) = λ e −λt pour t ≥ 0 et fX (t) = 0 si t < 0 : v.a. exponentielle

=⇒ FX (x) = 0 si x ≤ 0, FX (x) = λ e −λt dt = 1 − e −λx pour x ≥ 0.


Rx
0
1.0
0.8
0.6
F

0.4
0.2
0.0

−2 −1 0 1 2 3 4

C
Plan du cours
1 Quelques rappels de statistiques descriptives unidimensionnelles
Statistique unidimensionnelle
Statistique bidimensionnelle
2 Espace de probabilité, mesure de probabilité et probabilité conditionnelle
Espace de probabilité
Mesure de probabilité d'un événement
Cas particulier de l'équiprobabilité
Probabilité conditionnelle et indépendance
3 Variables aléatoires
Dénitions et propriétés générales
Moments d'une variable aléatoire
Lois à connaître
Fonction d'une autre variable aléatoire
4 Suites de v.a.i.i.d., théorèmes limite et introduction à l'estimation
Variables aléatoires indépendantes (v.a.i.)
Théorèmes limite
Estimation paramètrique et un intervalle de conance
C
Moments d'une variable aléatoire
Dénition
Si X une v.a. sur (Ω, A, IP) à valeurs dans I et h : I → IR continue par
morceaux,
Z Z
si
 
IE h(X ) = h(X (ω)) dIP(ω) h(X (ω)) dIP(ω) < ∞.
Ω Ω

Remarque : Cette formule nécessite des connaissances de L3...

Dénition
Si X v.a. discrète à valeurs dans I = {xj }i∈J , l'espérance de X est
IE[X ] = j∈J xj IP(X = xj ) si j∈J |xj | IP(X = xj ) < ∞.
P P

Si X est une v.a. continue de densité fX , l'espérance de X est


IE[X ] = −∞ t fX (t) dt si −∞ |t| fX (t) dt < ∞.
R +∞ R +∞

C
Exemples (v.a. discrètes) :
n IP(X = 1) = p ∈ [0, 1]
1 Loi de Bernoulli B(p) X : Ω → {0, 1},
IP(X = 0) = 1 − p
=⇒ IE[X ] = 0 ∗ (1 − p) + 1 ∗ p = p .

2 Loi Géométrique G(p) X : ΩP→ IN∗ , IP(X = k) = p(1 − p)k−1 k ∈ IN∗


k−1 .
=⇒ IE[X ] = ∞ k=1 k p(1 − p)
x k = (1 − x)−1 k−1 = (1 − x)−2
h i
|x| < 1, S 0 (x) = ∞
P∞ P
Si S(x) = k=0 et
k=1 kx

=⇒ IE[X ] = 0 −1
pS (1 − p) = p si p 6= 0.

1 1 1
3 Si X : Ω → IN∗ , IP(X = k) = − = , k ∈ IN∗
k k +1 k(k + 1)
n
hX 1 1 1 1 1 1 i
IP(X = k) = 1 − + − + − + ... = 1 − −→ 1
k=1
2 2 3 3 4 n+1 n→+∞

1
=⇒ IE[X ] = ∞ k=1 k+1 = +∞.
P
1 1
h
≥ ln 1 + k+ 1 = ln(k + 2) − ln(k + 1) car u ≥ ln(1 + u)

k+1
i
d'où IE[X ] ≥ (ln(2) − ln(1)) + (ln(3) − ln(2)) + (ln(4) − ln(3)) + . . . = +∞

C
Exemples (v.a. continues) :
n f (x) = 1 x ∈ [0, 1]
1 Loi Uniforme U([0, 1]) X : Ω → [0, 1], X
fX (x) = 0 sinon
Z ∞ Z 1 h 1 i1 1
=⇒ IE[X ] = t fX (t) dt = t dt = t2 = .
−∞ 0 2 0 2
n f (x) = λ e −λ x x ≥0
2 Loi Exponentielle E(λ) X : Ω → [0, ∞[, X

Z ∞ Z=0
fX (x)

sinon
=⇒ IE[X ] = t fX (t) dt = λ t e −λ t dt .
h −∞ i∞ Z ∞ 0
= −te −λ t
+ e −λ t dt (IPP)
0 0
h 1 i∞ 1
=0−0+ − e −λ t
= .
λ 0 λ
3 Loi de Cauchy C(1)Z X : Ω → IR, fX (x) = π1 1+x1 pour x ∈ IR
2
1 ∞
t
=⇒ IE[X ] = dt n'existe pas
π −∞ 1 + t 2
1 t  1 2 ∞
0 π 1+t 2 dt = 2π ln(1 + t ) 0 = ∞
R∞ 

C
Proposition
Soit h : I → IR une fonction continue par morceaux.
Si X v.a. discrète à valeurs dans I = {xj }i∈J , l'espérance de h(X ) est
h(xj )IP(X = xj ) si
X P
IE[h(X )] = j∈J |h(xj )| IPX (xj ) < ∞.
j∈J
Si X est une v.a. continue de densité fX , l'espérance de h(X ) est
Z +∞
si
R +∞
IE[h(X )] = h(t) fX (t) dt −∞ |h(t)| fX (t) dt < ∞.
−∞

Remarque : Si on pose Y = h(X ) avec h continueSpar morceaux, Y est


aussi une v.a. sur Ω, A, IP car h−1 (] − ∞, x]) = M
k=1 Ik avec Ik intervalle,
M
{X ∈ Ik } ∈ A et IE h(X ) = IE[Y ] existe si IE[|Y |] < ∞.
[  
{h(X ) ≤ x} =
k=1

C
Propriété
Si X et Y sont deux v.a. sur Ω, A, IP :


Si X = a, a ∈ IR une constante, IE[X ] = a.


Si h : IR2 → IR continue par morceaux, Z = h(X , Y ) v.a. sur Ω, A ;


Si X ≥ Y alors IE[X ] ≥ IE[Y ] quand IE[|X |] < ∞ et IE[|Y |] < ∞ ;


Si c ∈ IR, IE X + c Y = IE[X ] + c IE[Y ] si IE[|X |] < ∞ et IE[|Y |] < ∞.
 

Démonstration.
Variable discrète telle que IP(X = a) = 1 d'où IE[X ] = a × 1 = a.
Z est une application de Ω dans IR. On admet que {h(X , Y ) ≤ z} ∈ A.
Comme R IE[X ] = Ω X (ω) dIP(ω) et IE[Y ] = Ω Y (ω) dIP(ω) on utilise le fait que
R R

g ≥ f quand g ≥ f .
R

On a X +cY  v.a. sur Ω, A, IP . On a |X + c Y | ≤ |X | + |c| |Y |. Donc




R |] < ∞ et IE[X +R c Y ] existe. Soit IE X + c Y =


 
R |X + c Y | ≤ IE[|X |] + |c| IE[|Y
IE

(X (ω) + c Y (ω)) dIP(ω) = Ω X (ω) dIP(ω) + c Ω Y (ω) dIP(ω) = IE[X ] + c IE[Y ].

Conséquence : Si IE[X 2 ] < ∞ alors IE[|X |] < ∞ car |X | ≤ 21 (1 + X 2 ).


C
Proposition
Si X v.a. sur (Ω, A, IP) et IE[X 2 ] < ∞, on appelle variance de X le réel tel
que
var(X ) = IE (X − IE[X ])2 = IE[X 2 ] − IE[X ] 2 ∈ [0, ∞[.
  

Démonstration.
D'après ce qui précède, si IE[X 2 ] < ∞ alors IE[|X |] < ∞ donc IE[X ] existe. Soit
2
h(x) = x 2 − IE[X ] d'où IE |h(X )| < ∞. De plus IE (X − IE[X ])2 =
   
2
IE X 2 − 2 X IE[X ] + (IE[X ])2 = IE X 2 − 2 IE[X ] IE[X ] + (IE[X ])2 = IE X 2 − IE[X ] .
     

Dénition
Si IE[X 2 ] < ∞, on dénit l'écart-type de X , σX = var(X ) ∈ [0, ∞[.
p

Exemple : Si X = a, a ∈ IR une constante, var(X ) = σX = 0.


Propriété
Si IE[X 2 ] < ∞, (a, c) ∈ IR2 , var(a + c X ) = c 2 var(X ) ∈ [0, ∞[.
C
Plan du cours
1 Quelques rappels de statistiques descriptives unidimensionnelles
Statistique unidimensionnelle
Statistique bidimensionnelle
2 Espace de probabilité, mesure de probabilité et probabilité conditionnelle
Espace de probabilité
Mesure de probabilité d'un événement
Cas particulier de l'équiprobabilité
Probabilité conditionnelle et indépendance
3 Variables aléatoires
Dénitions et propriétés générales
Moments d'une variable aléatoire
Lois à connaître
Fonction d'une autre variable aléatoire
4 Suites de v.a.i.i.d., théorèmes limite et introduction à l'estimation
Variables aléatoires indépendantes (v.a.i.)
Théorèmes limite
Estimation paramètrique et un intervalle de conance
C
Les lois à connaître
Lois discrètes
n IP(X = 1) = p ∈ [0, 1]
1 Loi de Bernoulli B(p) X : Ω → {0, 1},
IP(X = 0) = 1 − p
=⇒ IE[X ] = 0 ∗ (1 − p) + 1 ∗ p = p .
=⇒ var(X ) = 0 ∗ (1 − p) + 12 ∗ p − p 2 = p(1-p) .

2 Loi Géométrique G(p) X : Ω → IN∗ , IP(X = k) = p(1 − p)k−1 k ∈ IN∗


=⇒ IE[X ] = 1/p si p 6= 0.
=⇒ var(X ) = (2 − p)p −2 − p −2 = (1 − p)/p 2 si p 6= 0.
IE[X 2 ] = p k 2 (1 − p)k−1 = p(1 − p) k(k − 1)(1 − p)k−2 + IE[X ]
h P∞ P∞
donc
k=1 k=2

IE[X 2 ] = p(1 − p)S 00 (1 − p) + p −1 = 2(1 − x)3 =⇒ IE[X 2 ] = 2(1 − p)p −2 + p −1


i
et S 00 (x)

3 Loi Binomiale B(n, p) X : Ω → {0, . . . , n}, IP(X = k) = Cnkp k(1 − p)n−k


h i
IP(X = k) = 1 a = p, b = 1 − p
Pn Pn
On a bien
k=0 car (a + b)n = k=0 Cnk ak b n−k avec

=⇒ IE[X ] = n p et var(X ) = n p(1 − p) (preuve plus loin)

C
4 Loi Uniforme sur {x1 , . . . , xn } X : Ω → {x1 , . . . , xn }, IP(X = xj ) = 1
n
=⇒ Situation d'équiprobabilité
1X n
1X n
=⇒ IE[X ] = xj et var(X ) = (xj − IE[X ])2 .
n n
j=1 j=1

Loi de Poisson P(θ) X : Ω → IN, IP(X = k) = e −θ θk! , k ∈ IN


k
5

=⇒ Mesure typiquement une le d'attente


θk xk
h i
=1
P∞ P∞ P∞
On a bien
k=0 IP(X = k) = e −θ k=0 k! car ex = k=0 k! pour tout x ∈ IR
P∞ θk P∞ θk−1
=⇒ IE[X ] = e −θ k=0 k k! = θ e
−θ
k=1 (k−1)! = θ
=⇒ var(X ) = e −θ ∞
P
k 2 θk − θ2 = θ .
k=0 k!
θ k−2
k2 θk θk θk 2 −θ P∞
h i
k=0 k(k − 1) k! + e
P∞
e −θ = e −θ ∞ −θ ∞
P P
k=0 k! k=0 k k! = θ e k=2 (k−2)!

C
Les lois à connaître
Lois "continues"
n f (x) = 1 x ∈ [a, b]
1 Loi Uniforme U([a, b]) X : Ω → [a, b], X b−a
fX (x) = 0 sinon
Z b
t dt a+b
=⇒ IE[X ] = = .
a b−a 2
Z b 2  a + b 2
t dt
=⇒ var(X ) = −
a b−a 2
1 b −a 3 3 (b − a)2
− 3(a + b)2 =
 
= 4 .
12 b−a 12
n f (x) = λ e −λ x x ≥ 0
2 Loi Exponentielle E(λ) X : Ω → [0, ∞[, X
fX (x) = 0 sinon
=⇒ IE[X ] = 1/λ .
1
Z ∞
=⇒ var(X ) = t 2 λe −λt dt − 2 = 1/λ2
0 λ
∞ 2
= − t 2 e −λt 0 + 2 0∞ t e −λt dt = 0 + 2IE[X ]/λ = 2/λ2 .
hR ∞ i
t λe −λt dt
 R
0

C
1 2
3 Loi Gaussienne N (0, 1) X : Ω → IR, fX (x) = √1 e − 2 x , x ∈ IR


h 1 2 i
e − 2 t dt = 2π =1
R∞ R∞
On utilise le résultat admis
−∞ d'où
−∞ fX (t)dt
1 ∞
Z
− 12 t 2
=⇒ IE[X ] = √te dt = 0 (parité).
2π −∞
1
Z ∞
1 2
=⇒ var(X ) = √ t 2 e − 2 t dt = 1 (IPP).
2
2π2 −∞  2 2 √
2 − 12 t 1
dt = 2 0∞ t 2 e − 2 t dt = 2 − te − 2 t
1 1
hR i

0 +2 0 e − 2 t dt = 0 + 2π
∞ R R ∞
−∞ t e

1 2
4 Loi Gaussienne N (m, σ 2 ) X : Ω → IR, fX (x) = 1
√ e − 2σ2 (x−m)
σ 2π
N (m, σ 2 )
L L
Si Z ∼ N (0, 1), X = m + σ Z ∼
=⇒ IE[X ] = m et var(X ) = σ 2
=⇒ fX (x) = FX0 (x) = σ1 fZ
h i
x−m x−m x−m
 
FX (x) = IP(m + σZ ≤ x) = IP Z ≤ σ
= FZ σ σ

Remarque : Si X ∼ N (m, σ 2 ) alors (X − m)/σ ∼ N (0, 1).


L L

C
Tracés de densités

0.25
2.0

0.20
1.5

0.15
1.0
fx

fx

0.10
0.5

0.05
0.00
0.0

−2 −1 0 1 2 3 4 5 −2 −1 0 1 2 3 4 5

x x

Densités des lois E(2) (à gauche) et U([−1, 3]) (à droite)

C
Tracés de densités gaussiennes
fx

0.8
0.6
0.4
0.2
0.0

−4 −2 0 2 4

Densités des lois N (0, 1) (en rouge) et N (2, 1/4) (en bleu)

C
Plan du cours
1 Quelques rappels de statistiques descriptives unidimensionnelles
Statistique unidimensionnelle
Statistique bidimensionnelle
2 Espace de probabilité, mesure de probabilité et probabilité conditionnelle
Espace de probabilité
Mesure de probabilité d'un événement
Cas particulier de l'équiprobabilité
Probabilité conditionnelle et indépendance
3 Variables aléatoires
Dénitions et propriétés générales
Moments d'une variable aléatoire
Lois à connaître
Fonction d'une autre variable aléatoire
4 Suites de v.a.i.i.d., théorèmes limite et introduction à l'estimation
Variables aléatoires indépendantes (v.a.i.)
Théorèmes limite
Estimation paramètrique et un intervalle de conance
C
Fonction d'une variable aléatoire
Pour X une v.a. et h : I → IR une fonction continue par morceaux,
loi de Y = h(X ) ?

Rappel
Si X est une v.a. sur Ω, A, IP à valeurs dans I ⊂ IR et h : I → IR une


fonction continue par morceaux


=⇒ Y = h(X ) v.a. sur Ω, A, IP


Exemples : Si X ∼
L
N (0, 1)

1 avec h(x) = m + σ x où (m, σ) ∈ IR2 , Y = h(X ) ∼


L
N (m, σ 2 )
L
2 avec h(x) = 1 si x ≥ 0 et 0 sinon, Y = h(X ) ∼ B(1/2)
C
Loi d'une fonction de v.a.

Pour déterminer la loi de Y = h(X ) :

1 On détermine l'ensemble IY des valeurs prises par Y ;

2 Si IY = {yk }k∈K avec K ⊂ IN, Y est une v.a. discrète


=⇒ On calcule directement IP(Y = yk )

3 Si IY est une union de vrais intervalles, on détermine FY (y ) en fonction


de FX pour y ∈ IY et fY = FY0 .

Remarque : Dans le dernier cas, on a FY (y ) = 0 pour y ≤ inf y {y ∈ IY } et


FY (y ) = 1 pour y ≥ supy {y ∈ IY } : ne pas chercher fY en dehors de IY !

C
Quatre exemples

L
1 Soit X ∼ B(n, p). Quelle est la loi de Y = n − X ?
=⇒ Y prend ses valeurs dans {0, . . . , n}
=⇒ IP(Y = k) = IP(X = n − k) = Cnn−k p n−k (1 − p)k = Cnk (1 − p)k p n−k
L
=⇒ Y ∼ B(n, 1 − p).

L
2 Soit X ∼ U([0, 1]). Quelle est la loi de Y = α + β X ? (α ∈ IR, β > 0)
=⇒ Y prend ses valeurs dans [α, α + β]
=⇒ pour y ∈ [α, α + β], FY (y ) = IP(Y ≤ y ) = IP(α + β X ≤ y )
donc FY (y ) = FX (y − α)/β et fY (y ) = β1 fX ((y − α)/β

L
=⇒ Y ∼ U [α, α + β] car fX ((y − α)/β = 1 pour y ∈ [α, α + β]
 

C
Quatre exemples

N ([0, 1]). Quelle est la loi de Y = X 2 ?


L
3 Soit X ∼
=⇒ Y prend ses valeurs dans [0, ∞[
√ √
=⇒ pour y ≥ 0, FY (y ) = IP(Y ≤ y ) = IP(− y ≤ X ≤ y )
√ √ √ √ 
donc FY (y ) = FX ( y )−FX (− y ) et fY (y ) = 2√1 y fX ( y )+fX ( y )
1
=⇒ fY (y ) = √ exp(−y /2) pour y > 0, 0 sinon
2π y
L
4 Soit X ∼ E(λ). Quelle est la loi de Y = [X + 1] ? (partie entière...)
=⇒ Y prend ses valeurs dans IN∗
=⇒ IP(Y = k) = IP(k ≤ X + 1 < k + 1) = FX (k) − FX (k − 1)
donc IP(Y = k) = (1 −e −λ k )−(1 −e −λ(k−1) ) = 1 −e −λ e −λ(k−1)
k−1 L
=⇒ IP(Y = k) = 1 − e −λ e −λ pour k ≥ 1 : Y ∼ G 1 − e −λ
 

C
Deux remarques importantes

Remarque : Avec h continue par morceaux,

Y = h(X ) ne peut qu'être une v.a. discrète quand X est discrète.

Si X est un v.a. continue, on a vu que Y peut être discrète ou continue.

Mais elle peut aussi n'être ni discrète, ni continue :


L
Par exemple, pour X ∼ U([−1, 1]) et h(x) = x si x ≥ 0 et 0 sinon
=⇒ Y prend ses valeurs dans [0, 1]
R0
=⇒ IP(Y = 0) = IP(X < 0) = −1 12 dt = 1/2 et pour y ∈ [0, 1],
FY (y ) = IP(Y = 0) + IP(0 < X ≤ y ) = 21 + 0 21 dt = 1+y
Ry
2

C
Suite de l'exemple

1.0
0.8
0.6
F

0.4
0.2
0.0

−1 0 1 2

Fonction de répartition de l'exemple : discontinue en 0 et dérivable sur ]0, 1[


=⇒ Y n'est ni une v.a. discrète ni une v.a. continue

C
Propriétés relatives à la fonction de répartition
Propriété
L
Si X est une v.a. sur (Ω, A, IP) telle que X ∼ − X , la loi de X est dite
symétrique alors :
pour x ≥ 0, IP(|X | > x) = 2 IP(X > x) = 2 (1 − FX (x))
si X v.a. continue, FX (−x) = 1 − FX (x) pour x ∈ IR et fX est paire.

Démonstration.
IP(|X | > x) = IP(X > x ∪X < −x) = IP(X > x)+IP(X < −x) = IP(X > x)+IP(−X > x) = 2IP(X > x)
car la loi X est la même que celle de −X
FX (−x) = IP(X ≤ −x) = IP(−X ≥ x) = IP(X ≥ x) car la loi X est la même que celle de −X . Et
IP(X ≥ x) + IP(X ≤ x) = IP(X > x) + IP(X ≤ x) = 1 car X continue, FX (x) + FX (−x) = 1.

Exemples de lois symétriques :


L
Loi de Rademacher : loi de 2X − 1 quand X ∼ B(1/2)

lois U([−β, β]), N (0, σ 2 )


C
Quantiles

Dénition
Si X est une v.a. sur (Ω, A, IP), pour p ∈]0, 1[, on appelle quantile d'ordre
p de la loi X l'unique q(p) ∈ IR tel que :

q(p) = inf x ∈ IR, FX (x) ≥ p

La médiane est q(1/2), les 1er et 3ème quartiles sont q(1/4) et q(3/4).
Cas particulier : Si X est v.a. continue FX (q(p)) = p ou q(p) = FX−1 (p).

Exemples de quantiles :
E(λ), FX (x) = 1 − e −λx pour x ≥ 0 =⇒ q(p) = − ln(1λ−p)
L
Si X ∼
L
Si X ∼ N (0, 1), q(0.95) ' 1.65, q(0.975) ' 1.96 et q(0.99) ' 2.32

C
Quantile et loi continue
1.0

0.95
0.8
0.6
F

0.5
0.4
0.2

q(0.5) q(0.95)
0.0

−1 0 1 2 3 4 5

Fonction de répartition de la loi E(1) et quantiles à 50% et 95%

C
Quantile et loi discrète
1.0

0.95
0.8
0.6
F

0.5
0.4
0.2

q(0.5) q(0.95)
0.0

−1 0 1 2 3 4 5

Fonction de répartition de la loi B(4, 2/3) et quantiles à 50% et 95%

C
Quantile et loi discrète (2)
1.0

0.95
0.8
0.6
F

0.5
0.4
0.2

q(0.5) q(0.95)
0.0

−1 0 1 2 3 4 5

Fonction de répartition de la loi B(4, 0.6142725..) et quantiles à 50% et 95%

C
Quantile et aire

Densité de la loi N (0, 1) et quantile à 95%

(la fonction de répartition en x est l'aire de la densité de −∞ à x )

C
Plan du cours
1 Quelques rappels de statistiques descriptives unidimensionnelles
Statistique unidimensionnelle
Statistique bidimensionnelle
2 Espace de probabilité, mesure de probabilité et probabilité conditionnelle
Espace de probabilité
Mesure de probabilité d'un événement
Cas particulier de l'équiprobabilité
Probabilité conditionnelle et indépendance
3 Variables aléatoires
Dénitions et propriétés générales
Moments d'une variable aléatoire
Lois à connaître
Fonction d'une autre variable aléatoire
4 Suites de v.a.i.i.d., théorèmes limite et introduction à l'estimation
Variables aléatoires indépendantes (v.a.i.)
Théorèmes limite
Estimation paramètrique et un intervalle de conance
C
Variables aléatoires indépendantes
Dénition
(Xi )i∈I famille de v.a. dénies sur le même espace de probabilités (Ω, A, IP).
(Xi )i∈I variables indépendantes ⇐⇒ ∀(Bi )i∈I boréliens de IR
\  Y 
IP Xi ∈ Bi = IP Xi ∈ Bi .
i∈I i∈I

Cas particuliers :
(X , Y ) deux v.a. indépendantes ⇐⇒  ,
 ∀A, B ∈ B(IR) 
IP X ∈ A ∩ Y ∈ B = IP X ∈ A IP(Y ∈ B
Avec Bi =] − ∞, xi ], (Xi)i∈I
\
v.a. indépendantes
 Y ⇐⇒ ∀xi ∈ IR,
IP Xi ≤ xi = FXi (xi )
i∈I i∈I
(Xi )i∈I v.a. indépendantes discrète
 \ à valeurs 
dans {xj }j∈J où J ⊂ IN
⇐⇒ ∀(yi )i∈I , yi ∈ {xj }j∈J , IP
Y 
Xi = yi = IP Xi = yi
i∈I i∈I
C
Autre caractérisation de l'indépendance
Propriété
(Xi )i∈I v.a. indépendantes dénies sur (Ω, A, IP)
⇐⇒ Pour toute famille de fonctions (gi )i∈I telles que les espérances existent
hY i Y  
IE gi (Xi ) = IE gi Xi .
i∈I i∈I

Démonstration.
n 1 si x ∈ Bi
Si pour Bi borélien de IR, on prend gi (x) = IIx∈Bi = , alors
0 si x∈
/ Bi
IE gi Xi = IP Xi ∈ Bi car gi (Xi ) suit une loi B IP Xi ∈ Bi . Et
  
hQ i T 
IE i∈I gi (Xi ) = IP i∈I Xi ∈ Bi : on retombe sur la première dénition.
Dans le cas général, on utilise gi (x) = j∈N ai,j IIx∈Bi,j et cela marche encore...
P

Exemple : Si X = C ∈ IR, v.a. constante, X et Y indépendantes pour


 toute
v.a. Y car IE g1 (X )g2 (Y ) = g1 (C )IE g2 (Y ) = IE g1 (C ) IE g2 (Y ) .
  

C
Covariance
Dénition
Pour X et Y deux v.a. dénies sur (Ω, A, IP), on dénit, si elle existe, la
covariance de X et Y par :
cov(X , Y ) = IE X Y − IE[X ] IE[Y ] = IE (X − IE[X ]) (Y − IE[Y ]) .
   

Démonstration.
On a IE (X − IE[X ]) (Y  IE[Y ]) = IE X Y − IE X IE[Y ] − IE Y IE[X ] + IE[X ] IE[Y ] et
       
 −
IE X IE[Y ] = IE[Y ] IE X car IE[Y ] est une constante.

Propriété
Si IE[X 2 ] < ∞, cov(X , X ) = var(X ) et si IE[Y 2 ] < ∞ alors cov(X , Y ) existe.

Démonstration.
IE[X ] IE[Y ] existe car IE[|X |] < ∞ et IE[|Y
 |] <1 ∞. Or x 2 − 2|x||y | + y 2 = (|x| − |y |)2 ≥ 0,
2 2 2 2 
d'où 2 X Y ≤ X + Y , donc IE |X Y | ≤ 2 IE[X ] + IE[Y ] < ∞.
C
Covariance (suite)

Propriété
Si X et Y sont 2 v.a. indépendantes dénies sur (Ω, A, IP), alors
cov(X , Y ) = 0. La réciproque est fausse en général (mais vraie dans le cas
de variables gaussiennes ou Bernoulli).

Démonstration.
Si g1 (x) = g2(x) = x et (X , Y ) indépendantes =⇒ IE g1 (X )g2 (Y ) = IE g1 (X ) IE g2 (Y )
     

donc IE X Y = IE[X ] IE[Y ] soit cov(X , Y ) = 0.

Exemple : Soit X ∼ N (0, 1) et Y = X 2 .


L

Alors cov(X , Y ) = IE X − IE[X ] IE[X 2 ] = 0 − 0 × 1 = 0


 3

(IE X 3 = −∞
  R +∞ 3
x fX (x)dx = 0 car x ∈ IR → x 3 fX (x) est impaire).
Mais IP(X > 1 ∩ Y < 1) = IP(∅) = 0 alors que IP(X > 1) 6= 0 et
IP(Y < 1) = IP(−1 < X < 1) 6= 0, donc X et Y non indépendantes.
C
Covariance (n)
Propriété
Si (Xi )1≤i≤n et (Yj )1≤j≤m sont des v.a. dénies sur (Ω, A, IP) telles que
IE[Xi2 ] < ∞ et IE[Yj2 ] < ∞, et (ai )0≤i≤n et (bj )0≤j≤m des réels, alors :
1 cov(X1 , Y1 ) = cov(Y1 , X1 ) et cov(a0 + a1 X1 , Y1 ) = a1 cov(X1 , Y1 ) ;
n m n X
m
cov a0 + ai bj cov(Xi , Yj ).
X X  X
2 ai Xi , b0 + bj Yj =
i=1 j=1 i=1 j=1

Démonstration.
cov
   
1 a1 X1 − IE a0 + a1 X1 Y1 − IE[Y1 ] =
 (a0 + a1 X1 , Y1 ) = IE a0 + 
IE a1 X1 − IE[X1 ] Y1 − IE[Y1 ] = a1 cov(X1 , Y1 ) ;
n n
Comme avant cov a0 + ai cov(Xi , Z ). Puis avec
X  X
2 ai Xi , Z =
i=1 i=1
n n m
X 
bj Yj on a cov a0 + bj cov(Xi , Yj )
Pm X  X
Z = b0 + j=1 ai Xi , Z = ai
i=1 i=1 j=1

C
Corrélation
Propriété
Si X et Y v.a. dénies sur (Ω, A, IP) telles que IE[X 2 ] < ∞ et IE[Y 2 ] < ∞,
2
cov(X , Y ) ≤ var(X ) var(Y ).

Démonstration.
Soit λ ∈ IR. Alors 0 ≤ var X + λ Y < ∞. Mais on peut écrire que


var X + λ Y = cov X + λ Y , X + λ Y = var(X ) + 2 λcov(X , Y ) + λ2 var(Y ). Polynôme



2
du 2nd degré en λ toujours positif : ∆ = 4 cov(X , Y ) − 4 var(X )var(Y ) ≤ 0.

Dénition
Si X et Y v.a. dénies sur (Ω, A, IP) telles que IE[X 2 ] < ∞ et IE[Y 2 ] < ∞,
on dénit la corrélation entre X et Y par :
cov(X , Y )
cor(X , Y ) = p et − 1 ≤ cor(X , Y ) ≤ 1.
var(X ) var(Y )
C
Somme de v.a.i.i.d.
Dénition
Soit (Xi )i∈IN suite de v.a. dénies sur (Ω, A, IP). On dit que (Xi )i∈IN est une
suite de v.a. indépendantes identiquement distribuées (v.a.i.i.d.)
lorsque (Xi )i∈IN indépendantes et les Xi ont la même loi que X1 .

Propriété
Si (Xi )i∈IN suite de v.a.i.i.d. dénies sur (Ω, A, IP) et Sn = X1 + · · · + Xn .
1 Si IE[|X1 |] < ∞, IE Sn = n × IE[X1 ].
 

2 Si IE[X 2 ] < ∞, var(Sn ) = n × var(X1 ).


1

Démonstration.
On
 a IE[|Sn|] ≤ IE |X1 | + ·· · + |Xn | ≤ n × IE[|X1 |] < ∞. Et
 
1
IE Sn = IE X1 + · · · + Xn = IE[X1 ] + · · · + IE[Xn ] = n × IE[X1 ].
On a IE[Sn2 ] = IE (Sn−1 + Xn )2 ≤ 2 IE[Sn− 2 2 
1 ] + IE[Xn ] < ∞ par récurrence.
 
2
n X
n n
var(Sn ) = cov(Sn , Sn ) = cov(Xi , Xj ) = var(Xi ) car cov(Xi , Xj ) = 0 si i 6= j .
X X

i=1 j=1 i=1


C
Exemples

Exemples :
L
1 Soit (Xi )i∈IN suite de v.a.i.i.d. telle que X1 ∼ B(p).

L
Alors Sn ∼ B(n, p) comme nombre de succès après n essais indep.

Alors IE[Sn ] = n IE[X1 ] = n p et var(Sn ) = n var(X1 ) = n p(1 − p).

N (m, σ 2 ).
L
2 Soit (Xi )i∈IN suite de v.a.i.i.d. telle que X1 ∼

N n m , n σ 2 car
L
Alors Sn ∼


"La somme de v.a. gaussiennes indépendantes est une v.a.


gaussienne"

C
Moyenne empirique
Dénition
Soit (Xi )i∈IN suite de v.a. dénies sur (Ω, A, IP). Pour tout n ∈ IN∗ , on
appelle moyenne empirique de (X1 , . . . , Xn ) la v.a.

1X
n
1 
Xn = Xi = X1 + · · · + Xn .
n n
i=1

Propriété
Si (Xi )i∈IN suite de v.a.i.i.d. dénies sur (Ω, A, IP). Alors :
si IE[|X1 |] < ∞
(  
IE Xn = IE[X1 ]
1
var Xn var(X1 ) si IE[X12 ] < ∞

=
n

Conséquence : Si IE[X12 ] < ∞, var Xn −→ 0



n→+∞
C
Plan du cours
1 Quelques rappels de statistiques descriptives unidimensionnelles
Statistique unidimensionnelle
Statistique bidimensionnelle
2 Espace de probabilité, mesure de probabilité et probabilité conditionnelle
Espace de probabilité
Mesure de probabilité d'un événement
Cas particulier de l'équiprobabilité
Probabilité conditionnelle et indépendance
3 Variables aléatoires
Dénitions et propriétés générales
Moments d'une variable aléatoire
Lois à connaître
Fonction d'une autre variable aléatoire
4 Suites de v.a.i.i.d., théorèmes limite et introduction à l'estimation
Variables aléatoires indépendantes (v.a.i.)
Théorèmes limite
Estimation paramètrique et un intervalle de conance
C
Théorèmes limite

Dénition
Soit (Xi )i∈IN suite de v.a. dénies sur (Ω, A, IP). On dit que (Xn ) converge
en probabilité vers une variable aléatoire Y , soit Xn −→ P
Y lorsque
n→+∞

∀ε > 0, −→ 0.

IP |Xn − Y | ≥ ε
n→+∞

Exemple : Si Xn ∼
L P
B(1/n) alors Xn −→ 0.
n→+∞
h
Si ε > 1, {|Xn − 0| ≥ ε} = ∅ car Xn ∈ {0, 1}, donc IP |Xn − 0| ≥ ε) = 0.

i
Si 0 < ε ≤ 1, {|Xn − 0| ≥ ε} = {Xn = 1} et IP Xn = 1 = 1/n 0

−→
n→+∞

C
Propriété
Soit (Xi )i∈IN suite de v.a. dénies sur (Ω, A, IP). On dit que (Xn ) converge
en loi vers une variable aléatoire Y , soit Xn −→ L
Y lorsque
n→∞
FXn (x) −→ FY (x) pour tout x ∈ IR tel que FY soit continue en x .
n→+∞

Corollaire
Si Xi v.a. discrètes sur {xj }j∈J , il sut de montrer que
IP(Xn = xj ) −→ pj = IP(Y = xj )
n→+∞
Si Xi v.a. continues de densités fi , il sut de montrer que
fn (x) −→ fY (x) pour presque tout x ∈ IR
n→+∞

Exemple : Si Xn ∼
L 1 L L
n, 1 alors Xn −→ Y ∼ N (0, 1).

N
n→∞
(x− 1 )2 x2
h
x ∈ IR, fn (x) = √1 e − x − 1n √1
n
i
Pour 2π
2 et −→ x donc fn (x) −→ f (x) =

e− 2
n→+∞ n→+∞

C
Inégalités

Théorème (Inégalité de Markov)


Soit X une v.a. positive dénie sur (Ω, A, IP) telle que IE[X ] < ∞. Alors
pour tout ε > 0, IE[X ]
IP(X ≥ ε) ≤ .
ε

Démonstration.
Soit Y = X IIX ≥ε (= X si X ≥ ε, = 0 sinon). Y est une v.a. (Y = h(X ) et h ∈ Cpm 0 ), Y ≤ X ,
IE[Y ] ≤ IE[X ] < ∞. Or IE[Y ] = IE[X IIX ≥ε ] ≥ IE[ε II X ≥ε ] et IE[ε IIX ≥ε ] = ε IE[IIX ≥ε ] = ε IP(X ≥ ε)
car IIX ≥ε v.a. de Bernoulli B IP(X ≥ ε) . Donc IE[X ] ≥ ε IP(X ≥ ε) d'où l'inégalité.


Exemple : Si (Xn ) suite de v.a. telle que IE[|Xn |] −→ 0 alors Xn −→


P
0
n→+∞ n→+∞

C
Inégalités (n)
Théorème (Inégalité de Bienaymé-Tchebitchev)
Soit X une v.a. dénie sur (Ω, A, IP) telle que IE[X 2 ] < ∞. Alors pour tout
ε > 0,  var(X )
IP X − IE[X ] ≥ ε ≤ .
ε2

Démonstration.
Inégalité de Markov pour Y = (X − IE[X ])2 , avec ε0 = ε2 . Y positive et IE[Y ] = var(X ). Alors
IP Y ≥ ε2 = IP X − IE[X ] ≥ ε ≤ ε2 , d'où l'inégalité
  IE[Y ]

Exemples :
var(X ) ≤ α.
q
Pour 0 < α < 1 et IE[X 2 ] < ∞, IP X − IE[X ] ≥
 
1
α
n IE[Xn ] = m
P
2 Si (Xn ) suite de v.a. telle que var(Xn ) −→ 0 alors Xn n→+∞
−→ m
n→+∞

C
Loi faible des Grands Nombres

Théorème (Loi faible des grands nombres)


Soit (Xi )i∈IN suite de v.a.i.i.d. dénies sur (Ω, A, IP) telles que IE[X12 < ∞.


Alors :
1  P
Xn = X1 + · · · + Xn −→ IE[X1 ]
n n→+∞

Démonstration.
On a IE Xn = IE[X1 ] et var Xn = var(X1 )/n 0 donc d'après l'Inégalité de BT,
  
−→
n→+∞
P
0 =⇒ Xn

IP Xn − IE[X1 ] ≥ ε −→ −→ IE[X1 ]
n→+∞ n→+∞

"La moyenne empirique tend vers la moyenne théorique (v.a.i.i.d.)"

Exemple : Pour (Xi ) suite de v.a.i.i.d. de loi B(p), alors Xn −→


P
p
n→+∞

C
Théorème de la limite centrale

Théorème (Théorème de la limite centrale)


Soit (Xi )i∈IN suite de v.a.i.i.d. dénies sur (Ω, A, IP) telles que IE[X12 < ∞.


Alors :

√ L √ Xn − IE[X1 ] L
n Xn −IE[X1 ] −→ N 0 , var(X1 ) ou −→ N 0, 1
  
n p
n→∞ var(X1 ) n→∞

Démonstration.
√ √
Preuve en L3. On vérie juste IE = 0 et var n Xn − IE[X1 ] = var(X1 )
 
n Xn − IE[X1 ]

Conséquence : Si n grand ( ?) , alors Xn ∼ N IE[X1 ] , n1 var(X1 )


L 

"Si n grand, la moyenne empirique suit une loi gaussienne (v.a.i.i.d.)"

C
Un exemple d'utilisation

Exemple : Si Xi ∼ B(p) alors Xn ∼ N p , n1 p(1 − p)


L L 

0.5 ' 0.95 pour n grand


=⇒ p = 0.5 : IP Xn − 0.5 ≤ 1.96 √

n

Xn − 0.5
h  i
√ L
Pour p = 0.5, = Zn ∼ N (0, 1). Or IP |Zn | ≤ 1.96 ' 0.95, d'où le résultat.

n
0.5

0.5 avec 95% de chance


0.5 , 0.5 + 1.96 √
h i
=⇒ Xn ∈ 0.5 − 1.96 √ n n

=⇒ On peut remplacer 0.95 par 1 − α et 1.96 par q1−α/2

=⇒ Intervalles de uctuations asymptotiques

C
Plan du cours
1 Quelques rappels de statistiques descriptives unidimensionnelles
Statistique unidimensionnelle
Statistique bidimensionnelle
2 Espace de probabilité, mesure de probabilité et probabilité conditionnelle
Espace de probabilité
Mesure de probabilité d'un événement
Cas particulier de l'équiprobabilité
Probabilité conditionnelle et indépendance
3 Variables aléatoires
Dénitions et propriétés générales
Moments d'une variable aléatoire
Lois à connaître
Fonction d'une autre variable aléatoire
4 Suites de v.a.i.i.d., théorèmes limite et introduction à l'estimation
Variables aléatoires indépendantes (v.a.i.)
Théorèmes limite
Estimation paramètrique et un intervalle de conance
C
Retour sur le TLC

Théorème (Théorème de la limite centrale)


Soit (Xi )i∈IN suite de v.a.i.i.d. dénies sur (Ω, A, IP) telles que IE[X12 < ∞.


Alors :

√ L √ Xn − IE[X1 ] L
n Xn −IE[X1 ] −→ N 0 , var(X1 ) ou −→ N 0, 1
  
n p
n→∞ var(X1 ) n→∞

Conséquence : Si n grand =⇒ Intervalles de uctuations asymptotiques


var(X1 ) var(X1 )
" p p #!
IP Xn ∈ IE[X1 ]−q1−α/2 √ , IE[X1 ]+q1−α/2 √ ' 1−α
n n

A retenir : q0.95 ' 1.645, q0.975 ' 1.96 et q0.995 ' 2.576.

C
Premiers pas vers l'estimation
En général, IE[X1 ] et var(X1 ) ne sont pas connus !

=⇒ On va les estimer à partir de (X1 , . . . , Xn )

Dénition
Soit (X1 , . . . , Xn ) famille de v.a. dénies sur (Ω, A, IP). Un estimateur θb
d'un vecteur θ ∈ IRd est une fonction continue par morceaux de (X1 , . . . , Xn )
ne dépendant pas de θ.

Conséquence : • Un estimateur est une v.a. sur (Ω, A, IP)

• Si θb = h(X1 , . . . , Xn ) et (X1 , . . . , Xn ) observé

=⇒ X1 (ω), . . . , Xn (ω) ∈ IRn connu et θ(ω) connu



b

Exemple : Si (Xi )i v.a.i.i.d. de loi B(p) alors X n = pb estimateur de p


C
Convergence d'un estimateur

En général, on désire qu'un estimateur ... estime !

=⇒ On veut que θb se "rapproche" de θ

Dénition
Soit (X1 , . . . , Xn ) famille de v.a. dénies sur (Ω, A, IP). La suite
d'estimateurs (θbn )n d'un vecteur θ ∈ IRd est convergente si θbn −→ P
θ.
n→+∞

Exemple : Si (Xi )i v.a.i.i.d. de loi B(p) alors X n estimateur convergent de p

Plus généralement, pour des v.a.i.i.d. X n estimateur convergent de IE[X1 ]


(lorsque var(X1 ) < ∞))

C
Intervalle de conance

On désire mesurer la précision avec laquelle un paramètre est estimé.

Comme il y a de l'aléa, pas de précision "déterministe" mais plutôt :

Dénition
Soit (X1 , . . . , Xn ) famille de v.a. dénies sur (Ω, A, IP) et θb estimateur de
θ ∈ IR. Pour α ∈]0, 1[, on appelle intervalle de conance de niveau 1 − α
soit I1−α = [A1−α , B1−α ] où A1−α et B1−α sont des v.a. fonctions de
(X1 , . . . , Xn ) et ne dépendant pas de θ, tel que :

IP θ ∈ I1−α = IP A1−α ≤ θ ≤ B1−α ≥ 1 − α


 

Typiquement α = 0.05 = 5% =⇒ intervalle de conance à 95%

C
Obtention d'intervalles de conance sur l'espérance
On suppose (X1 , . . . , Xn ) famille de v.a.i.i.d. Quel I1−α pour IE[X1 ] ?

1 Si θ = IE[X1 ] inconnue et var(X1 ) connue, avec l'Inégalité B-T,


var(X1 ) var (X1 )
et ε2 =
 
IP X n − IE[X1 ] ≤ ε ≥ 1 − 2
nrε n αr
h 1 var(X1 ) 1 var(X1 ) i
=⇒ I1−α = X n − √ , Xn + √
α n α n
2 Si θ = IE[X1 ] inconnue, var(X1 ) connue et n grand avec le TLC
√ X n − IE[X1 ] 
IP n ≤ q1−α/2 ' 1 − α
var(X1 )
p

var(X1 ) var(X1 ) i
r r
h
=⇒ I1−α ' X n − q1−α/2 , X n + q1−α/2
n n

C
Un exemple détaillé
On suppose (X1 , . . . , Xn ) famille de v.a.i.i.d. de loi E(1/θ)

=⇒ I1−α pour θ = IE[X1 ] mais var(X1 ) = θ2 inconnue !

1 Avec l'Inégalité B-T,


 θ θ 
IP − √ ≤ θ − Xn ≤ √ ≥1−α
nα nα
 X Xn 
≥1−α
n
=⇒ IP ≤ θ ≤
1 + √n1 α 1 − √n1 α
2 Avec le TLC, pour n grand
 θ θ 
IP − q1−α/2 √ ≤ θ − X n ≤ q1−α/2 √ '1−α
n n
 Xn Xn 
=⇒ IP q1−α/2 ≤ θ ≤ q1−α/2 ≥1−α
1 + √n 1 − √n
C
Cas général de variance inconnue

(X1 , . . . , Xn ) famille de v.a.i.i.d. avec θ = IE[X1 ] et var(X1 ) 6= g (θ) inconnues

Théorème (Théorème de la Limite Centrale 2)


Soit (Xi )i∈IN suite de v.a.i.i.d. dénies sur (Ω, A, IP) telles que IE[X12 < ∞.


Alors : 2 1X n
2 P
σn = Xi − X n −→ σ 2 = var(X1 )
n n→+∞
i=1
et

√ X n − IE[X1 ] L
−→ N 0 , 1

n
σn n→∞

h σn σn i
=⇒ Pour n grand, I1−α ' X n − q1−α/2 √ , X n + q1−α/2 √
n n

Vous aimerez peut-être aussi