Vous êtes sur la page 1sur 25

Abonnez-vous à DeepL Pro pour traduire des fichiers plus volumineux.

Visitez www.DeepL.com/pro pour en savoir plus.

ECONOMÉTRIE II DOCUMENT 2
:

GÁBOR NYÉKI

Ce polycopié traite des variables aléatoires (section 1) et des notions de convergence (section 2).

1. VARIABLES ALÉATOIRES
Dans le cadre de ce cours, nous ignorerons les détails des espaces d'échantillonnage, des σ-algèbres et
des espaces mesurables. Nous travaillerons cependant beaucoup avec les probabilités. Ainsi, les
définitions suivantes, qui conduisent à la définition d'une mesure de probabilité et d'une variable aléatoire,
sont présentées dans leur forme détaillée par souci d'exhaustivité.
Définition 1 (espace d'échantillonnage). L'espace d'échantillonnage Ω est l'ensemble des résultats possibles
d'une expérience.
Exemple 1. Le TP Mazembe et le Heartland FC joueront un match dimanche. Considérons l'expérience
dans laquelle nous voulons savoir si le TP Mazembe gagne le match, perd ou fait match nul contre
Heartland. L'espace d'échantillonnage correspondant est Ω := {Win, Tie, Lose}.
Définition 2 (événement). Un événement E ⊆ Ω est un ensemble de résultats possibles d'une expérience.
Exemple 2. Le cas où le TP Mazembe ne gagne pas est E1 := {Agir, Perdre} ⊂ Ω. Le cas où le TP
Mazembe fait match nul contre Heartland est E2 := {Mise à égalité} ⊂ Ω. Cependant, l'événement nul
E3 := ∅ ⊂ Ω est également un événement, tout comme l'événement certain E 4 := {Win, Tie, Lose} = Ω.
Définition 3 (σ-algèbre). Une σ-algèbre d'un
F espace d'échantillonnage Ω est une collection de sous-ensembles
de Ω qui satisfont aux trois propriétés suivantes :

Propriété 1. Ω ∈ F.
Propriété 2. Si un événement E ∈ F, alors l'événement complémentaire Ec := Ω \ E ∈ F également.
Propriété 3. Pour toute séquence d'événements (Ei )∞ qui satisfait Ei ∈ F pour chaque i, S∞ Ei ∈ F.
i=1 i=1
La propriété 2 signifie que F est fermé sous complémentation. La propriété 3 signifie que F est fermé
sous les unions dénombrables. Les propriétés 1 et 2 impliquent ensemble que l'événement nul ∅ est aussi
∈ F.
Définition 4 (espace mesurable). Un espace mesurable est une paire (Ω, F) où Ω est un espace échantillon
et F une σ - a l g è b r e correspondante. Un événement E ⊆ Ω est dit mesurable si et seulement si E � F.
Exemple 3. La plus petite σ-algèbre que nous pouvons définir sur Ω est F 1 := {:∅, {Win, Tie, Lose}}. On
l'appelle aussi
l'algèbre σ triviale. La plus grande σ-algèbre que nous pouvons définir est F2 = {�, {Win}, {Tie}, {Lose},
{Win, Tie},
{gagner, perdre}, {égalité, perdre}, {gagner, égalité, perdre}}. On l'appelle aussi l'algèbre σ totale. Les
algèbres σ intermédiaires sont les suivantes
également possible, par exemple F3 := {�, {Gagnant}, {Egalité, :=
ner Gag Gagner
Perdre Egaliserest
Perdant}, {Gagnant, Egalité, Perdant}}.
Cependant, tout ensemble de sous-ensembles de Ω n'est pas une σ-algèbre. Par exemple, A {�, { }, { ,
1
, }}
n'est pas une σ-algèbre car {Win} ∈ A mais Ω \N- {Win} = {Tie, Lose}A

/ donc A viole la propriété 2 de la
définition 3.
Définition 5 (mesure de probabilité). Soit (Ω, F) un espace mesurable où Ω est un espace d'échantillonnage
et F une σ-algèbre définie sur Ω. La mesure de probabilité Pr : F '→ R est une fonction qui permet de
représenter les événements de l'algèbre σ F dans R de telle sorte que les axiomes suivants soient satisfaits :
Date d'entrée en vigueur : 9 juillet 2021.

2
Axiome 1 : Probabilité non négative : Pr(E) ≥ 0 pour tout E ∈ F.
Axiome 2. Unité de mesure totale : Pr(Ω) = 1.
Axiome 3. σ- a d d i ti vi té : si i=1 est une collection d'événements disjoints par paire (c'est-à-dire que
(Ei )∞ Ei ∩ Ej = ∅ pour chaque
i /= j),
alors ! ∞
[∞ Σ
Pr Ei = Pr( Ei ).
i=1 i=1

Exemple 4. Prenons la plus petite σ-algèbre de l'exemple précédent,1 F:= �, {Win, { Tie, Lose . }}
L'espace
mesurable constitué par (Ω,1 ) donneFPr(∅) = 0 et Pr(Ω) = Pr(Win or Tie or Lose) = 1 par définition 5. Les
probabilités d'autres événements, par exemple Pr(Win) ou Pr(Tie), ne sont pas définies car ces événements
ne font pas partie de l'algèbre σ et ne sont donc pas mesurables.
Cependant, sous l'espace mesurable (Ω,2 )Fqui est défini avec la plus grande σ-algèbre,2F := ∅,{Win,
{ Tie,
}
Lose,
{ } { Win,} Tie,
{ Lose,} {Win, Tie, }Lose,
{ Pr(Win),
} { Pr(Tie), P r}} ( Win ou T i e ), etc. sont toutes des
quantités définies.
Sous l'espace mesurable (Ω,3 ) quiF utilise3 := ∅,F
Win, {T i {e , Lose,
} { Win, Tie,
} {Lose, Pr(Win)}}
et Pr(Egalité ou Perte) sont définis mais, par exemple, Pr(Egalité) ou Pr(Perte) ne le sont pas.
Définition 6 (probabilité conditionnelle). Soit (Ω, F, Pr) un espace de probabilité. Alors la probabilité
d'un événement A ∈ F conditionnellement à un autre événement B ∈ F est
Pr(A ∩ B)
Pr(A | B) := .
Pr(B)

Exemple 5. Prenons l'espace de probabilitéF(Ω,2 , Pr) où2Fest l'algèbre σ totale des exemples précédents. La
probabilité que le TP Mazembe fasse match nul, conditionnellement au fait de ne pas gagner, est de

Pr(Egalité | pas gagnant) = Pr({ Egalité} | Ω \N- {Gagnant}) =


Pr({Tie} ∩ {Tie, Lose}) Pr(Egalité)
= Pr({Tie} | {Tie, Lose}) = = .
Pr({égalité, Perte}) Pr(Egalité ou Perte)
Par exemple, si Pr(Egalité) = 1/5 et Pr(Victoire) = 2/5, alors Pr(Egalité ou Perte) =| 3/5, et donc Pr(Egalité
×
non Victoire) = 1/5 5/3 =
1/3.

Définition 7 (indépendance des événements). Soit (Ω, F, Pr) u n espace de probabilité. Alors deux
événements A ∈ F et
B ∈ F sont indépendantes si et seulement si Pr(A | B) = Pr(A).
Définition 8 (σ-algèbre de Borel). Soit B
(Rk ) le plus petit ensemble de tous les ensembles ouverts
B dans Rk . (Rk
) est appelée σ-algèbre de Borel sur R .
k

Notons qu'en vertu d'être une σ-algèbre, B(Rk ) inclut non seulement tous les ensembles ouverts
mais aussi tous les ensembles fermés dans Rk . Par exemple, pour k = 1, [0, 1] ∈ B(R) car (-∞, 0), (1,
∞), et (-∞, 0) ∪ (1, ∞) sont tous ∈ B(R), et donc leur complémentaire, [0, 1] est aussi ∈ B(R).
Définition 9 (variable aléatoire à valeurs réelles). Soit (Ω, F, Pr) un espace de probabilité où Ω est un
espace d'échantillonnage,
F est une σ-algèbre définie sur Ω, et Pr est une mesure de probabilité définie sur l'espace mesurable (Ω, F).
Alors une variable aléatoire à valeurs réelles est une fonction X : Ω '→ Rk telle que pour tout B ∈ B(Rk
), l'ensemble

3
{ω � Ω : X(ω) ∈ B} est mesurable, c ' est-à-dire que {ω ∈ Ω : X(ω) ∈ B} ∈ F.
Exemple 6. Prenons l'espace de probabilité (Ω, F1 , Pr) où F1 est l'algèbre σ triviale des exemples
précédents. Soit X : Ω '→ R une variable aléatoire à valeurs réelles qui prend la valeur 1 si TP Mazembe
gagne, est à égalité ou perd, c'est-à-dire X(ω) = 1 pour chaque ω ∈ Ω. Alors pour tout B ∈ B(R) qui
contient 1, {ω ∈ Ω :

4
X(ω) ∈ B} = {Win, Tie, Lose} = Ω ∈ F 1 , et pour tout B ∈ B(R) qui ne contient pas 1 , {ω ∈ Ω :
X(ω) ∈ B} = ∅ ∈ F1 . Corrélativement,

Pr(X = 1) = Pr(X(ω) = 1) = Pr({Vaincre, Egalité, Perdre}) = 1

et

Pr(X = 0) = Pr(X(ω) = 0) = Pr(∅) = 0.

On peut aussi prendre l'espace de probabilité


F (Ω,2 , Pr) '→ X : Ω
F où2 est l'algèbre σ totale, et laisser
R être une variable aléatoire à valeurs réelles qui prend la valeur 1 si TP Mazembe gagne, 1/2 s'il fait
match nul, et 0 s'il perd. C'est à dire,

��
1 si ω = Win,
X(ω) = 1/2 si ω = Tie, et
��0 autrement.

Alors si Pr(Tie) = 1/5,

Pr(X = 1/2) = Pr(X(ω) = 1/2) = Pr({Tie}) = 1/5

et

Pr(X /= 1/2) = Pr(X(ω) /= 1/2) = Pr({Gagner, Perdre})


= 4/5.

Dans la suite du cours, nous supprimerons l'algèbre σ et ferons référence


F à l'espace d'échantillonnage
Ω
occasionnellement lors de discussions sur les variables aléatoires.
Définition 10 (fonction de distribution cumulative). La fonction de distribution cumulative (FDC) d'une
variable aléatoire X : Ω '→ Rk est la fonction

F (x) := Pr(X ≤ x) =
= Pr(X1 ≤ x1 , X2 ≤ x2 , . . . et Xk ≤ xk ) =
= Pr({ω ∈ Ω : X1 (ω) ≤ x1 , X2 (ω) ≤ x2 , . . . et X k (ω) ≤ xk }).

Le CDF possède les propriétés importantes suivantes :


(a) non décroissante : F (a) ≤ F (b) pour tout a ≤ b,
(b) continue à droite : limε↓0 F (a + ε) = F (a) pour tout a, et
(c) limitées par 0 et 1 : lima→−∞ F (a) = 0 et lima→∞ F (a) = 1.
Une variable aléatoire peut être discrète, continue ou mixte. Une variable aléatoire discrète prend des
valeurs dans un sous-ensemble fini ou infini de Rk . Par exemple, si l'image'→ de X : Ω R{ k est l'ensemble
}
0 , 1, 2, . . . X est discret car son image est comptablement infinie. Si l'image de X est [0, 1], X n'est pas
discrète car [0, 1] est indénombrable.
Une variable aléatoire continue a une FCD qui est continue en tout x ∈ Rk .
Définition 11 (fonction de masse de probabilité). La fonction de masse de probabilité (PMF) d'une
variable aléatoire discrète X : Ω '→ Rk est la fonction

5
f (x) := Pr(X = x)

définie pour tout x ∈ Rk .

6
Définition 12 (fonction de densité de probabilité). La fonction de densité de probabilité (PDF) d'une variable
aléatoire continue X : Ω '→ Rk est la fonction f : Rk '→ [0, ∞)k qui satisfait aux conditions suivantes
x
F (x) f (a)da
(-∞,...,-∞)
=
pour tout x∈ Rk , où F est la CDF de X. Par le théorème fondamental du calcul, si f (x) est continue en
x, alors
∂F (x)
f (x) = .
∂x
Exemple 7 (rapport d'exponentielles). Soit X et Y indépendants et ∼ Exponentielle(λ). Alors X/(X +Y ) ∼
Uniforme(0, 1). La CDF et la PDF de Exponentielle(λ) sont F (a) = 1 - e−λa et f (a) = λe−λa , et
∫ ∫
X x
Pr ≤u= Pr ≤ u f (x)dx =
Pr (x ≤ (x + Y )u) f (x)dx =
X+ x x+ x
Y ∫ x Y ∫ x
(1 - u) (1 - u)
= Pr ≤ Y f (x)dx = 1-F f (x)dx =
x u x u
∫ e-λx(1-u) ∫ e-λx(1-u) ∫
= /uf (x)dx = /uλe-λxdx = λe-λx/udx =
x x x
i∞
= h-ue−λx/u = 0 + ue0 = u
0
qui est la FCD de la distribution uniforme sur l'intervalle (0, 1).
Il existe différentes définitions du soutien. Dans cette classe, nous utilisons les suivantes.
Définition 13 (support). Le support d'une variable aléatoire X est supp X{ := x : f (x) }> 0 où f est la
fonction de densité de probabilité si X est continue, et la fonction de masse de probabilité si X est
discrète.

Définition 14 (valeur attendue). La valeur attendue d'une variable aléatoire X est la moyenne pondérée
par les probabilités de ses valeurs possibles. En particulier, elle est
Σ
(a) E(X) := x∈supp X xf (x) si X est discret, et

(b) E(X) := x∈supp X xf (x)dx si X est continu.

Remarque 1 (espérance conditionnelle). L'espérance conditionnelle est analogue. Avec Z une autre

variable aléatoire, avec z ∈ supp Z, l'espérance conditionnelle de X à Z = z est E(X | Z = z) := x∈supp X xf
(x | z)dx où f (- | z) est la PDF conditionnelle de X à Z = z.
Remarque 2 (linéarité). L'opérateur d'espérance, E, est linéaire. Soit g : Rk '→ Rℓ soit une fonction
linéaire que l'on peut représenter par g(x) = Ax + B où A ∈ Rℓ×k et B ∈ Rℓ×1 sont des matrices. Alors

E(g(X)) = E(AX + B) = AE(X) + B = g(E(X)).

Cela découle de la définition 14.

Exemple 8 (l'uniforme a une moyenne).


∼ Soit X Uniforme(0, 1). La PDF de X est f (x) = 1. La valeur
attendue de X est
0
1 2
∫1 x
E(X) = xdx = 2 1 = 21 - 20 =
0 2
.
7
1 1 12 2

8
Exemple 9 (la normale standard a une moyenne). Soit X ∼ N (0, 1). La PDF de X est
1 -x /2 2

f (x) = e .
√2π
La valeur attendue de X existe et est nulle
:

1 ∫b
2
E(X) = lim lim x √ e −x/2 dx
a→-∞ b → ∞ a 2π
∫0 = ∫b
1
1 2
= lim
2
x √ e − x/ 2 dx + x √ e −x/2 dx
a→-∞ a 2π b→∞ 0 2π
lim 0 =
= lim 1 + lim -√1 ___e-x /2
b
=
-√ ___e-x /2
2 2

a→-∞ 2π a
b→∞ 2π 0 b
2

1 1 1 =
= lim -√ +√ e-a /2+ lim
2
-√ ___e-x /2
a→-∞ 2π 2π b b→∞ 2π 0
2
=
= -√1 + lim 1 -√ ___e-x /2
2π b→∞ 2π 0
1
1 1 -b /2
=
2

= -√ + lim -√ e +√
2π b→∞ 2π 2π
1 1
= + = 0.
-√2π √2π
Exemple 10 (Cauchy n'a pas de moyenne). ∼ Soit X Cauchy. Une variable aléatoire standard de
Cauchy est le rapport de deux variables aléatoires normales standard. La PDF de X est
1
f (x) = .
π(1 + x2)

La valeur attendue de X est

E(X) = lim lim ∫ b


x 2 dx =
a→−∞ b→∞ a π(1 + x )
∫ 0 ∫ b
= lim x x x x
a→-∞ π(1 + x2) + lim
b→∞ d=
da 0 π(1 + x2)
2 0 1
b
1
= lim ln(1 + x ) + lim ln(1 + x2) =
a→-∞ 2π a b→∞ 2π 00
1 1
= lim 0 - ln(1 + a2 ) + lim ln(1 + b2 ) -
a→−∞ 2π b→∞ 2π
` ` =˛∞¸ x
x
=

¸
-
˛

qui n'est pas définie. Le problème est que la double limite de cette intégrale dépend de la vitesse à laquelle a et
b vont à l'infini l'un par rapport à l'autre. Considérons
∫ αc αc
x 1 2 1 1 + α c22 1 c−2 + α2 ln α .
lim x = lim ln(1 + x ) = lim ln = lim ln c-2 =
c→∞ -c π(1 + x2) c→∞ 2π -c
c→∞ 2π 1 + c→∞ 2π +1 π
c2
d

Ainsi, si b se rapproche
∞ deux fois plus vite que a se rapproche
-∞ de (correspondant à α = 1/2), la limite
- ∞
9
∞ -∞
de l'intégrale est (ln 2)/π. En revanche, si b s'approche deux fois plus vite (correspondant à α = 2), la limite est
(ln 2)/π. Si b se rapproche à la même vitesse que a se rapproche (correspondant à α = 1), la limite de
l'intégrale est zéro.

10
Proposition 1 (inégalité de Jensen). Soit X : Ω'→ S ⊆ R soit une variable aléatoire à valeurs réelles et '→
que g
:S R
soit une fonction faiblement convexe. Dans ce cas
E(g(X)) ≥ g(E(X)).
Si X n'est pas une constante et si g est strictement convexe, alors "≥" est remplacé par ">". Si g est concave
au lieu d'être convexe, alors "≥" est remplacé par "≤".
La preuve. Voir Casella et Berger (2002, p. 190).
Exemple 11 (logarithme et espérance). Soit X une variable aléatoire distribuée Uniforme([1, 2]). Par la
proposition 1, E(ln X) /= ln E(X), et en particulier, E(ln X) < ln E(X). On peut aussi le montrer
directement.
E(X) = 3/2, donc ln E(X) ≈ .405. Cependant,
2

E(ln X) = ln(x)dx = [x(ln x - 1)]1 = 2(ln 2 - 1) - (ln 1 - 1) ≈


1
et E(ln X) ≈ .386 < .405 ≈ ln E(X).
.386,
Proposition 2 (loi des anticipations itérées). Soit X et Y des variables aléatoires. Alors E(E(Y | X)) = E(Y
). Preuve. La preuve concerne les variables X et Y continues. L'énoncé pour le cas discret peut être
démontré de manière analogue.
∫ E(Y | X = x)fX (x)dx = x ∫y y ∫
y f (x, y)dx dy = E(Y )
E(E(Y | X)) = ∫ yf Y|X (y | x)dyfX (x)dx = x XY
x

` x
=f˛Y¸(y)
par fXY (x, y) = f Y|X (y| x)fX (x) et la définition de la densité marginale fY comme l'intégrale de la
densité marginale conjointe.
densité fXY sur le support de X.
Definition 15 (variance). Let X be a real-valued scalar random variable. The variance of X is
Var(X) := E (X - E(X))2 = E X2 - E(X)2.
Example 12 (Bernoulli variance). Let X be a Bernoulli random variable with Pr(X = 1) = p. The
variance of X is Var(X ) = E X 2- E(X )2. Notice that X 2 = 1 if X = 1, and 0 if X = 0. Thus
E X2 = E(X) = Pr(X = 1), and the variance of X is

Var(X) = Pr(X = 1) - Pr(X = 1)2 = p(1 - p).


Définition 16 (covariance). Soit X et Y des variables aléatoires scalaires à valeurs réelles. La covariance
de X et
Y est
Cov(X, Y ) := E ((X - E(X))(Y - E(Y )) = E(XY ) - E(X)E(Y ).
Exemple 13 (covariance de Bernoulli). Soit A et X des variables aléatoires de Bernoulli indépendantes
avec Pr(A = 1) = a et Pr(X = 1) = p. Définissons Y comme Y := AX. Dans ce cas
E(Y ) = E(AX) = E(A)E(X) = ap
où la deuxième égalité découle de A ⊥⊥ X,
E(Y | X) = E(AX | X) = E(A | X)X = E(A)X = aX

11
where the third equality follows by A ⊥
⊥ X, and
E(XY ) = E(XE(Y | X)) = aE X2 = aPr(X = 1) = ap

où la première égalité découle de la loi des espérances itérées. Par conséquent, la covariance de X et Y est

Cov(X, Y ) = E(XY ) - E(X)E(Y ) = ap - ap2 = ap(1 - p).

12
2. NOTIONS DE CONVERGENCE
Les notions de convergence sont à la base de l'inférence sur de grands échantillons en statistique et en
économétrie. Nous commençons par discuter de la convergence algébrique, qui est utile pour étudier des
séquences de variables déterministes plutôt qu'aléatoires. Les notions de convergence stochastique seront
des adaptations de ces concepts plus simples pour le contexte des variables aléatoires.

2.1. Convergence déterministe.

Définition 17 (convergence algébrique). La suite (X )nn converge vers X si et seulement si �ε > 0, �Nε :
�n ≥ Nε , |Xn - X| ≤ ε. Ceci est noté limn→∞ Xn = X ou Xn → X.
La définition 17 est bien adaptée aux séquences déterministes mais n'est pas utile pour les séquences
de variables aléatoires.
Les exemples 14 et 15 opposent ces deux cas.
Exemple 14 (suite déterministe). Soit (X )nn une suite de variables non aléatoires avec Xn := 1/n, et soit
X := 0. La suite converge algébriquement vers X : limn→∞ Xn = limn→∞ 1/n = 0.
Exemple 15 (séquence de Bernoulli). Soit (X )nn une suite de variables aléatoires avec Xn ∼ Bernoulli (1/n)
de sorte que Pr(Xn = 1) = 1/n. Cette suite ne converge pas. Choisir un ε arbitraire ∈ (0, 1). Pour tout n,
|Xn - 0| = 1 > ε avec une probabilité 1/n > 0.
L'exemple 15 "s'effondre" parce que les variables de la séquence sont aléatoires et peuvent donc
prendre différentes valeurs, même si c'est avec une probabilité nulle. Mais il faut observer que si une
variable aléatoire est elle-même stochastique, sa valeur attendue ne l'est pas. La définition 17 peut être
utilement appliquée dans ce cas.
Exemple 16 (valeur attendue d'une séquence de Bernoulli). Soit (X )nn une suite de variables
aléatoires
∼ avec Xn Bernoulli (1/n) de sorte que Pr(Xn = 1) = 1/n. Lan séquence (E(Xn )) converge
algébriquement vers 0 : limn→∞ E(Xn ) = limn→∞ 1/n = 0.
Nous pouvons étendre la notion de convergence algébrique des variables aux fonctions. Nous
considérons la convergence ponctuelle, qui est une notion plus faible, et la convergence uniforme, qui est
plus forte. La convergence ponctuelle est plutôt intuitive, mais la convergence uniforme peut, à première
vue, donner à réfléchir. La différence entre la convergence ponctuelle et la convergence uniforme est que
la convergence uniforme exige que la fonction s'approche de la limite "sufficiently rapidement" en tout point
de son domaine.
Définition 18 (convergence algébrique ponctuelle). La suite (f )nn de fonctions fn : R '→ R converge
ponctuellement vers f : R '→ R si et seulement si limn→∞ |fn (x) - f (x)| = 0 pour tout x ∈ R.
Exemple 17 (deux fonctions). Examinons deux fonctions. Prenons fn (x) := x2 + 1/n. On a que fn
converge ponctuellement vers x2 : pour tout x ∈ R,
f (x) - x2 = x2 + 1 - x2 = = 1 1→0
n
n n n

lorsque n → ∞. Ensuite, prenons gn (x) := (x + 1/n)2. Nous avons aussi que gn converge ponctuellement
x2 : pour tout x ∈ R,

1
2 2 2x 1 2x 1
22
gn (x) - x = x+ 2
→ ∞. n -x=x
lorsque n

13
+ + - x= + n2 → 0
n n2 n
Définition 19 (convergence algébrique uniforme). La suite (f )nn de fonctions fn : R '→ R converge
uniformément vers f : R '→ R si et seulement si limn→∞ supx∈R |fn (x) - f (x)| = 0.

14
Exemple 18 (deux fonctions à nouveau). Reprenons les deux fonctions de l'exemple précédent. La
première fonction, fn (x) := x2 + 1/n, converge uniformément vers x2 : pour tout n ∈ N,
2 2 1 2 1 1
sup fn(x) - x = sup x + n -x = sup = n,
x∈R x∈R n
x∈R
et 1/n → 0 comme n → ∞. Cependant, la seconde fonction, gn (x) := (x + 1/n)2, ne converge pas
uniformément vers
x2 . Pour tout n ∈ N,

22x 1 2n 2 1 1
supgn x( ) - x = sup
+ > + n .
x∈R x∈R n n n2 = 2 + n2

n2
Cette borne inférieure diverge : 2n + 1/n2 → ∞ lorsque n → ∞.
Dans l'exemple ci-dessus, nous avons pris x = n2 dans l'étape où nous avons construit une borne
2 2 2
Lorsque noussur
inférieure avons introduit
la somme ce résultat, nous avons obtenu 2n /n + 1/n, ce qui s'est simplifié en 2n + 1/n .
supérieure.
Cette expression donne
à l'infini lorsque
→ ∞n .
Si nous prenions x = n , nous obtiendrions également une borne inférieure appropriée : en 2n3 /n + 1/n
3
2 2 2
branchant les données, nous obtiendrions
qui se simplifie en 2n + 1/n . Cette expression va également à l'infini.
But not every value for x works. For example, if we took x = 1/n, then plugging back we would get
2/n 2+ 1/n which
2
simplifies to 3/n . 2This expression goes to zero, so as a lower bound it would not
bound the supremum away from zero. Therefore it would not prove that the supremum diverges.

2.2. Convergence stochastique. La convergence stochastique constitue la base de notre réflexion sur
le comportement des estimateurs en grand échantillon. Lorsqu'un estimateur "converge en probabilité"
vers le nombre correct, nous disons qu'il est cohérent. Lorsqu'un estimateur "converge en
distribution" vers une distribution connue, nous utilisons cette distribution pour créer des
approximations en grand échantillon des intervalles de confiance pour les tests d'hypothèse. Nous
verrons que divers résultats nous permettent de connaître le comportement en grand échantillon des
transformations et des combinaisons d'estimateurs.
Définition 20 (convergence en probabilité). La séquence de variables aléatoires (X )nn converge vers X
en probabilité si et seulement si �ε > 0, limn→∞ Pr(|Xn - X| ≤ ε) = 1 ou, alternativement, limn→∞ Pr(|Xn
p.
- X| ≥
ε) = 0, ce qui est noté X n → X p.ou plim n→∞ Xn = X.
Notez que dans l'énoncé Xn → X, X peut également être une variable aléatoire.
L'inégalité de Chebyshev est un résultat utile pour établir la convergence en probabilité d'une séquence
aléatoire.
Proposition 3 (inégalité de Chebyshev). Soit X une variable aléatoire avec E(X) = µ ∈ R et Var(X) =
σ2 ∈ (0, ∞). Dans ce cas
1
Pr(|X - µ| ≥ t) ≤ t2 σ2

pour tout t > 0.


Preuve. Soit f le PDF de X. Alors

15
∫ ∞
σ2 = Var(X) (x - µ)2f (x)dx ≥
-∞
= ∫ ∫
µ-t ∞
≥ (x - µ)2f (x)dx + (x - µ)2f (x)dx ≥
-∞ ∫ µ+t
∫ µ-t ∞
≥ t2 f (x)dx t2 f (x)dx
-∞ µ+t
+

16
où la dernière inégalité découle du fait que, pour la première ≤ intégrale,
- x µ≤t implique
- t µ x qui
implique t x µ et donc t2 (x µ)2, et de même pour la deuxième intégrale, µ + t x implique t2 (x µ)2. Nous
≤|- | ≤ - ≤ ≤ -
pouvons alors éliminer t des signes de l'intégrale et exprimer les intégrales sous la forme d'une
probabilité :
∫ µ-t ∫∞
t2 f (x)dx + f (x)dx = t2Pr(X ≤ µ - t ou X ≥ µ + t) = t2 Pr(|X - µ| ≥
-∞ µ+t
t).
L'énoncé de la proposition s'ensuit en divisant par t2 .
La convergence en probabilité s'avère utile dans l'étude de la séquence aléatoire que nous avons vue
dans l'exemple 15, et nous revenons sur cette séquence dans l'exemple suivant.
Exemple 19 (séquence de Bernoulli). .Soit (X )nn une suite de variables aléatoires avec Xn ∼ Bernoulli(1/n)
de sorte que Pr(X = 1) = 1/n. Alors X p 0 s'ensuit par l'inégalité de Tchebychev.
n n →
1 2
Observez que E(Xn ) = /n et Var(Xn ) = (n - 1)/n , et donc pour tout t > 0,
1 1 - 1/n1n-1
Pr(|Xn - 1/n| ≥ t) ≤ t2
.
t2 n2
=
n
t étant fixé, la borne supérieure du côté droit de l'inégalité devient nulle lorsque n → ∞ : (1 -1/n)/n → 0
p. p.
car 1 - 1/n → 1 et le dénominateur va à l'infini. Alors Xn - 1/n → 0. Mais 1/n → 0, donc Xn → 0.
Appliquée spécifiquement à une séquence aléatoire de moyennes d'échantillons, la convergence des
probabilités nous donne la faible loi des grands nombres.
Proposition 4 (loi faible des grands nombres). Soit (Xi )n soit un échantillon de n variables aléatoires non
corrélées
i=1
avec E(X i) = µ ∈ R et Var( Xi ) = 2σ < ∞ pour i. Dans
chaque ce cas
n p.
1 Σ X → µ.

n
:= n i
i=1

Preuve. Nous avons


que Σ Σ
Xi ! =
E =E 1 n
1 n
X¯n E(Xi ) = µ
n n
i=1 i=1

et
1Σ Σ
Σn
1 1
Var ¯ = Var ! Var( )+ n )= 2

1Σ Cov( i j
Xn = n Xi n2 X,X nσ .
Xi n i=1 i=1 j/=i x
n i=1 2 =˛¸0
`
Par l'inégalité de 1
Tchebychev,
2
Pr X¯n - µ ≥ ε ≤ ε2nσ

pour tout ε > 0. Dans la limite, la borne supérieure de Pr X ¯ n µε devient nulle en fonction de n ,
-≥ → ∞
et la convergence des probabilités s'ensuit.
Remarque 3. Nous n'avons pas besoin d'une variance commune pour que la preuve soit faite. Il suffit que ∞
Var(Xi ) < S < pour chaque i N, c'est-à-dire que les variances aient une borne commune. A titre d'exercice,

on peut construire un exemple où chaque Var(Xi ) est finie mais où il n'y a pas de borne commune finie S.

17
Pour un tel exemple, la preuve échoue.
La convergence en probabilité n'est pas la notion la plus forte de convergence stochastique. La
convergence presque sûre est beaucoup plus forte. Alors que la convergence en probabilité garantit que
la séquence aléatoire finira par être arbitrairement proche de la limite, la convergence presque sûre
garantit que la séquence aléatoire finira par être exactement égale à la limite et ne s'en écartera qu'avec
une probabilité nulle.

18
Définition 21 (convergence presque sûrement). La suite de variables aléatoires (X )nn converge vers X
presque sûrement si et seulement si

Pr lim |Xn - X| = 0 = 1.
n→∞
a.s.
Elle est désignée n → X.
par l'abréviation X
Notez que si la convergence en termes de probabilité est une déclaration concernant la distribution
des éléments individuels de la séquence, la convergence est presque certainement une déclaration
concernant la distribution de la séquence entière.
Exemple 20 (p. mais pasa.s. ). Soit (X n n) est une suite de variables aléatoires indépendantes avec X n ∼
Bernoulli(1 ) de →= 1) = 1 1,
sorte→que Pr(
Pr( /n Xn /n. Cette suite converge vers zéro en probabilité. Pour tout ε ≥

|Xn - 0| ≤ ε) = 1. Pour tout ε ∈ (0, 1),


Pr(|Xn - 0| ≤ ε) = Pr(Xn ≤ ε) = Pr(Xn = 0) = 1 - 1/n → 1.
p.
Par conséquent, Xn → 0.
Cependant, la séquence ne converge pas presque sûrement. Ceci peut être démontré en utilisant la méthode
de Borel-Cantelli
lemme. Comme Σ ∞ Pr(Xn = 1) = Σ ∞ 1/n = ∞, l'événement {Xn = 1} se produit pour une infinité de n
∈ N en n=1 n=1
a.s.
la suite, et donc Xn → 0.
La convergence donne presque sûrement une forme plus forte de la loi des grands nombres.
Proposition 5 (loi forte des grands nombres). Soit (Xi )n soit un échantillon de n variables aléatoires
i.i.d. avec
i=1
E(Xi ) = µ ∈ R et Var(Xi ) = σ2 < ∞. Dans
ce cas
n
1 Σ X → µ.
X¯n a.s.
:= n i
i=1

Preuve. Fournie dans Billingsley (1995, section 22).


La convergence en probabilité et la convergence presque sûre font des déclarations sur la valeur d'une
séquence aléatoire dans la limite. La convergence en distribution considère plutôt la distribution de la
séquence.
Définition 22 (convergence de la distribution). Soit (X )nn une séquence de variables aléatoires à valeurs
réelles, où chaque Xn a une CDF Fn , et soit X une variable aléatoire à valeurs réelles avec une CDF F.
Alors Xn converge vers X en distribution si et seulement si limn→∞ Fn (x) = F (x) pour tout x ∈ supp
X où
d.
F est continue. Elle est notée X n → .
X
L'exemple suivant est adapté de Casella et Berger (2002, p. 235).
Exemple 21 (minimum d'uniformes). Soit (Ai )n est une séquence de variables aléatoires i.i.d. avec Ai

(Uniformes(0 1), et laissons) i=1 := min .Ensuite p.
0
, X nn est une suite de variables aléatoires avec Xn i∈{1,...,n} Ai Xn →
et nXn →Z où Z ∼ Exponentielle(1).
d.
p.
Xn → 0 suit : pour tout ε ∈ (0, 1),

19
Pr(|Xn - 0| ≥ ε) = Pr(Xn ≥ ε) + Pr(Xn ≤ -ε) =
n
Y
= Pr(Xn ≥ ε) + 0 = Pr(Xi ≥ ε∀i) = (1 - Pr(Xi < ε)) = (1 - ε)n
i=1

qui converge algébriquement vers zéro lorsque n → ∞.


d.
To show nXn → Z, observe that for t > 0,
t t n
Pr Xn ≥ =1- → e-t.
n n

20
Cela s'explique par le fait
n n
que t t
= exp ln lim 1 = exp ln lim (1
)1/u =
lim 1
n→∞ -n n→∞ -n u→0
- tu
ln(1 - tu) -t
= exp lim = exp lim = exp(-t).
u→0 u u→0 1 - tu

Alors 1 - Pr(Xn ≥ t/n) = Pr(Xn < t/n) → 1 −t


- e . Comme Xn est continue, nous pouvons affaiblir
l'inégalité sous l'opérateur de probabilité et réarranger les termes,
t
Pr Xn ≤ = Pr (nX n ≤ t) .
n

Par conséquent, Pr(nX


≤ n → t)- 1 e−t pour tout t > 0. Cette CDF limite est la CDF de la distribution
exponentielle avec le paramètre λ = 1.
p. ). Soit (X n)n
Exemple 22 (d.→ mais pas→ est une séquence de variables aléatoires avec ∼ N (1/n, 1), et laissez
Xn
X ∼ N (0, 1) est une variable aléatoire.
d.
Xn → X. Il est facile de le montrer. La PDF de Xn est
1 -(x-1/n) 2
/2
fn (x) = e
√2π
qui converge algébriquement vers la PDF de X,
1 -x2 /2
f (x) = e ,
√2π
pour tout x ∈ R.
p.
Cependant, Xn→X. Pour tout ε > 0,

Pr(|Xn - X| ≤ ε) = Pr(Xn - X ≤ ε et Xn - X ≥ -ε) = Pr(Xn - X ≤ ε) - Pr(Xn - X < -ε).


Xn et X sont des variables normales indépendantes et, en vertu des propriétés de la distribution
normale, Xn - X ∼ N (1/n, 2). Par conséquent, cette probabilité est égale à
∫ε ∫ε ∫ ∞
1 1 1
2√2 e-(x-1/n) /8dx →
2 2 2
√ e −x/8 dx √ e −x/8 dx =
-ε π -ε 2 2π -∞2 2π
< 1.
Par conséquent, limn→∞ Pr(|Xn - X| ≤ ε) /= 1.
De nombreuses preuves des propositions suivantes sont plus complexes et sont donc omises.
Proposition 6 (dispositif de Cramér-Wold). Soit (X )nn une suite de variables aléatoires de dimension J et
soit
d. d.
→Alors Xn
X est une variable aléatoire de dimension J. X ⇐⇒
→ λ X'n λ' X pour tout λ ∈ RJ .
Proposition 7 (théorème de la cartographie continue). Soit g : RJ '→ RK soit une fonction continue en
tout point de C ⊆ RJ , que (X )nn soit une séquence de variables aléatoires de dimension J, et que X soit
une variable aléatoire de dimension J avec Pr(X ∈ RJ \ C) = 0. Alors
p. p.
(a) Xn → X =⇒ g(Xn ) → g(X),
a.s.
(b) Xn → X =⇒ g(Xn → g(X), et

21
a.s.
)
d.
(c) Xn →X =⇒ g(X )nd. g(X).

22
Proposition 8 (propriétés supplémentaires). Soit (X )nn et (Y )nn des séquences de variables aléatoires de
dimension JX et JY , soit X et Y des variables aléatoires de dimension JX et JY , et soit C ∈ RJ Y . Alors
d. . d.
(a) X n → X et Y - nX p 0 =⇒ Y
n → n → X,
d. .
(b) X n → =⇒ (X
→ X et Y pn C n, Yn)d.→(X, C), et
. .
X et Y p Yn =⇒
(c) X pn → → (X n, Yn)p.→(X, Y ).
A.S.
→ avec
Ces résultats sont également valables
si nous r e m p l a ç o n s p.

Proposition 9 (théorème de Slutsky). Soit (X. )nn et (Y )nn des séquences de variables aléatoires, soit X
une variable aléatoire. d. p.
variable aléatoire, et que C soit une constante. Supposons que X X et Y C. Alors
n → n →
(a) si X et C ont le même nombre de dimensions, X + Y d. X + C,

n n →
d.
(b) si C et X peuvent être Xn → CX, et
multipliés, Yn d. -1

(c) si C−1 et X peuvent


p.
être multipliés,
n Y X−1n → C X.
d.
Preuve. X X et Y C impliquent que (X , Y )d. (X, C) par "propriétés supplémentaires".
n → n → n n →
Pour (a), on note F (a, b) := a + b. F est continue dans les deux arguments. Par le théorème de la
cartographie continue d.
(CMT), F (X , Y )d. F (X, C), donc X + Y X + C.
n n → n n →
d.
Pour (b), on note F (a, b) := ab. F est continue dans les deux arguments. Par CMT, F (Xn , Yn ) →
F (X, C), donc
d.
Y n → CX.
Xn
Pour (c), notons F (a, b) := a−1 b. F est continue si et seulement si a est inversible. Nous avons
supposé que C est X d. −1
inversible. Ainsi, par CMT, F (X , Y )d. F (X, C), et donc Y−1 C X.
n n → n n →

La preuve de la proposition suivante se fait de la même manière.


Proposition 10 (algèbre de convergence stochastique). Soit (X )nn et (Y )nn des séquences de données
aléatoires univariées. p. p.
et que X et Y soient des variables aléatoires univariées. Supposons que X X et Y Y . Dans ce cas
p. p. n → n →
(a) X + Y X + Y et X - Y X-Y,
n n → n n →
(b) X Y p. XY , et
nn →
p.
(c) Pr(Y /= 0) = 1 =⇒ Xn /Yn → X/Y .
A.S.
→ avec →
Ces résultats sont également valables
si nous r e m p l a ç o n s p. .

Proposition 11 (méthode delta). Soit (X )nn une suite de variables aléatoires de dimension J, Z un
modèle de la méthode delta.
Variable aléatoire de dimension J, et µ ∈ RJ sont tels que
23
√n(Xn - µ)d. Z.

Supposons que F : RJ '→ RK soit une fonction dont les dérivées premières sont continues dans un voisinage
de µ. Alors
√n(F (Xn ) - F (µ))d. (DF )(µ)Z

où (DF )(µ) est le gradient de la fonction F évaluée en µ, c'est-à-dire,
��∂F1 (µ)/∂X1 ∂F1 (µ)/∂X2 ∂F1 (µ)/∂XJ
---
∂F2 (µ)/∂X1 ∂F2 (µ)/∂X2 - - - ∂F2 (µ)/∂XJ � �
(DF )(µ) = � .. � .
� . . . . �
∂FK (µ)/∂X1 ∂FK (µ)/∂X2 - - - ∂FK (µ)/∂XJ

24
Le dernier résultat de convergence stochastique qu'il nous reste à aborder est le théorème central
limite (CLT). Il existe plusieurs CLT dans la littérature qui ont été énoncés et prouvés pour des contextes
spécifiques. La proposition 12 en énonce une forme simple pour un échantillon i.i.d. de variables
aléatoires scalaires.
L'essentiel de la CLT est le suivant : quelle que soit la distribution des observations dans notre
échantillon, au fur et à mesure que notre échantillon d'observations devient de plus en plus grand, nous
commettons une erreur de plus en plus petite en approximant la N distribution d'une moyenne
convenablement échelonnée de nos observations par (0, 1). En d'autres termes, l'approximation normale
que l'on retrouve dans de nombreux travaux statistiques et économétriques est fondée sur des résultats
analytiques solides pour des échantillons infiniment grands. Cela nous permet de calculer des intervalles
de confiance analytiques et d'effectuer des déductions sur de grands échantillons sans faire d'hypothèses
fortes sur la distribution sous-jacente de notre échantillon.
Proposition 12 (théorème de la limite centrale). Soit (Xi )n soit un échantillon de variables aléatoires
i.i.d. avec E(Xi ) = i=1

µ ∈ R et Var(Xi ) ∈ (0, ∞) pour chaque i. Soit X ¯ n := n−1 Σn Xi et que Gn (x) désigne la fonction
de X
√n(distribution cumulative de i=1
¯ n - µ)/σ. Alors pour tout x ∈

R, ∫x
1 √2π e-t /22
lim Gn x( ) = d t.
n→∞ -∞

En d'autres termes, la distribution de √n( X ¯ n - µ)/σ converge vers la distribution normale standard.
Les preuves des théorèmes centraux limites impliquent des fonctions génératrices de moments ou
des fonctions caractéristiques qui ne sont pas abordées dans ce cours. Une preuve avec des fonctions
génératrices de moments peut être trouvée dans Casella et Berger (2002, pp. 237-238), et des preuves
avec des fonctions caractéristiques peuvent être trouvées dans Billingsley (1995, section 27).

RÉFÉRENCES
BILLINGSLEY, P. (1995) : Probability and Measure, John Wiley & Sons, 3rd ed.
CASELLA, G. ET R. L. BERGER (2002) : Statistical Inference, Duxbury, 2 ed.

25

Vous aimerez peut-être aussi