Vous êtes sur la page 1sur 17

Table des matières

3 Loi des grands nombres 3


3.1 Loi du 0 − 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3.2 Convergence presque sure et en probabilité . . . . . . . . . . . . . . . . . . . . . 5
3.3 Convergence dans Lp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.4 Loi des grands nombres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.5 Application de la loi des grands nombres à l’estimation ponctuelle . . . . . . . . 13

1
2 TABLE DES MATIÈRES
Chapitre 3

Loi des grands nombres

Soit (Ω, F, P) un espace de probabilité sur lequel sont définies toutes les variables aléatoires.

3.1 Loi du 0 − 1
Proposition 3.1.1 Inégalité de Markov. Soit X une variable aléatoire réelle intégrable et
t > 0, alors
E[X + ] E[|X|]
P(X ≥ t) ≤ ≤ .
t t
Démonstration. On a 1[t,∞[ (X) ≤ (X/t)1[t,∞[ (X) ≤ X + /t ≤ |X|/t et on intègre par rapport à
P.

Exemple 3.1.1. Soit X une variable aléatoire de loi exponentielle de paramètre λ. Alors
l’inégalité de Markov donne e−λt = P(X ≥ t) ≤ E[X] 1
t ≤ λt .

Corollaire 3.1.1 Inégalité de Tchébychev. Si X p est intégrable, p > 0 alors

E[|X|p ]
P(|X| ≥ t) ≤ .
tp
Si X est de carré intégrable alors

Var(X)
P(|X − E[X]| ≥ t) ≤ .
t2
Démonstration. Utiliser l’inégalité de Markov pour |X|p car (X ≥ t) ⊂ (|X|p ≥ tp ) pour t > 0.
Puis utiliser le cas particulier p = 2 et reconnaître Var(X) = E[(X − E[X])2 ].

Exemple 3.1.2. Soit (Xn ) une suite de variables aléatoires indépendantes de même loi de
Bernoulli de paramètre p. On pose Sn = nk=1 Xk . Sn suit la loi binomiale de paramètres
P

(n, p). Alors, pour tout ε > 0 on a

Var(Sn /n) p(1 − p)


P(|Sn /n − p| ≥ ε) ≤ = .
ε2 nε2
Le ratio Sn /n correspond à la fréquence empirique des succès tandis que le paramètre p
correspond à la probabilité théorique d’apparition d’un succès. D’après l’inégalité précédente,
la probabilité que la fréquence empirique s’éloigne de la probabilité théorique tend vers 0.

3
4 CHAPITRE 3. LOI DES GRANDS NOMBRES

Remarquons que l’inégalité reste valable pour n’importe quelle loi de carré intégrable en
remplaçant p par son espérance et p(1 − p) par sa variance.

Définition 3.1.1. Soit (Fn )n∈N une famille indépendante de tribus sur (Ω, F, P). Soit F n la
tribu engendrée par (Fk , k ≥ n) et F ∞ = n∈N F n . La tribu F ∞ s’appelle tribu des événements
T

terminaux ou tribu terminale de la suite (Fn )n∈N .

Exemple 3.1.3. Par exemple, Fn = σ(Xn ) pour une suite (Xn ) de variables aléatoires indé-
pendantes. La tribu terminale correspond aux événement qu’on peut définir à partir de la
suite (Xn ) mais qui ne dépendent pas des premiers termes (la limite par exemple).

La tribu terminale vérifie la loi du tout ou rien ou loi du 0 − 1.


Proposition 3.1.2 Loi du 0 − 1. Si F ∞ est une tribu terminale, alors pour tout A ∈ F ∞ ,
P(A) = 0 ou P(A) = 1.

Démonstration. Soit A ∈ F ∞ fixé. On considère l’ensemble des événements indépendants de A

C = {B ∈ F; P(A ∩ B) = P(A)P(B)}.

On veut montrer que F ∞ ⊂ C. Alors A est indépendant de lui-même donc sa probabilité est 0 ou
1.
Soit les tribus F n = σ(Fk , k ≤ n). Les tribus F n et F n+1 sont indépendantes, donc tout élément
de F n est indépendant de A pour tout n car F ∞ ⊂ F n+1 . Ainsi, F ∞ = ∪F n ⊂ C. Or, Ω ∈ F ∞ ,
F ∞ est stable par complémentaire et union finie (car union croissante de tribus). Le théorème π-δ
implique σ(F ∞ ) ⊂ C. De plus, pour tout k, on a Fk ⊂ F k ⊂ F ∞ ⊂ σ(F ∞ ), donc F n ⊂ σ(F ∞ )
pour tout n et F ∞ ⊂ σ(F ∞ ) ⊂ C, ce qui prouve le résultat.

Exemple 3.1.4. On dispose d’une infinité de pièces qu’on lance à tour de rôle. La n-ème pièce
a une probabilité pn de donner Pile. On suppose que les lancers sont indépendants. Soit An
l’événement “le lancer de la n-ème pièce a donné pile”. Alors l’événement
\ [
A= Am = (An est réalisé pour une infinité de n) = lim sup An
n∈N m≥n

est un événement terminal pour la suite de tribus Fn = σ(An ), donc P(A) = 0 ou 1.


L’événement A s’appelle aussi “An a lieu infiniment souvent”, noté (An is). Ici il correspond
à “obtenir une infinité de pile” (d’où son nom). Dire que P(A) = 0 signifie que pour presque
tout ω ∈ Ω, il existe n(ω) fini tel que pour tout n ≥ n(ω), ω ∈/ An , i.e. An n’a pas lieu. Le
résultat suivant permet de savoir si on est dans le cas P(A) = 0 ou P(A) = 1.

Théorème 3.1.1 Lemme de Borel Cantelli. Soit (An )n∈N une suite d’événements.
— Si P(An ) < ∞ alors P(An is) = 0.
P

— Si les événements (An )n∈N sont indépendants et P(An ) = ∞ alors P(An is) = 1.
P

Démonstration. 1. Pour tout n, on a


\ [ [
A= Am = (An is) ⊂ Am ,
n∈N m≥n m≥n

donc P(An is) = P(A) ≤ m≥n P(Am ) car intersection décroissante, et ce terme tend vers
P

0 avec n quand la série converge.


3.2. CONVERGENCE PRESQUE SURE ET EN PROBABILITÉ 5

2. Par indépendance
N
[ N
\
P( Am ) = 1 − P( Acm )
m=n m=n
N
Y
=1− (1 − P(Am )).
m=n

Comme 1 − x ≤ exp(−x) pour tout x ≥ 0, on a


N
[ N
Y N
X
P( Am ) ≥ 1 − exp(−P(Am )) = 1 − exp(− P(Am )).
m=n m=n m=n
SN
Quand N tend vers l’infini, la série dans le terme de droite tend vers l’infini donc P( m=n Am )
tend vers 1, et on passe à la limite en n encore par intersection décroissante.

p < ∞ (par exemple, pn = 1/n2 ) alors


P
Exemple 3.1.5. On revient sur les pièces. Si
P n
P(A) = 0 on aura ps un nombre fini de Pile ; si pn = ∞ (par exemple, pn = 1/n, pn = p > 0
fixé,. . . ) alors P(A) = 1, on aura ps une infinité de Pile.

Exemple 3.1.6 Le singe dactylo. Un singe tape au hasard sur un clavier d’ordinateur pendant
un temps infini. Quelle est la probabilité que son texte contienne les oeuvres complètes de
Molière ?
La suite de lettres (et espaces, ponctuation...) tapées par le singe est une réalisation d’une
suite de variables aléatoires (Xn ) indépendantes et de même loi (uniforme sur le clavier).
Soit (a1 , · · · , aN ) la chaîne de caractères (finie) correspondent aux oeuvres complètes de
Molière. On pose Bk = (Xk = a1 , · · · , Xk+N −1 = aN ) pout k ≥ 0 et An = B(n−1)N +1 , n ≥ 1,
autrement dit A1 = B1 , A2 = BN +1 , A3 = B2N +1 ,. . . de sorte que les événements (An ) sont
indépendants. Chaque événement An est de probabilité nb touches−N > 0 donc P(An ) = ∞.
P

Le lemme de Borel Cantelli dit que P(An is) = 1 donc non seulement le singe tapera tout
Molière, mais en plus il le fera une infinité de fois avec probabilité 1.

3.2 Convergence presque sure et en probabilité


Il existe différentes notions de convergence pour les suites de variables aléatoires. On va en
définir quelques unes et explorer leur liens. Dans toute la suite du chapitre les variables aléatoires
(Xn )n∈N∗ sont définies de (Ω, F, P) dans R ou Rd .
Définition 3.2.1. On dit que la suite (Xn ) converge presque sûrement (ps) vers la variable
ps
aléatoire X, noté Xn −→ X, si
 
P ω ∈ Ω : lim Xn (ω) = X(ω) = 1.
n→∞

Autrement dit, il existe A ⊂ Ω de mesure pleine tel que pour tout ω ∈ A, pour tout ε > 0, il
existe n0 (ω) tel que pour tout n ≥ n0 , |Xn (ω) − X(ω)| ≤ ε.

Exemple 3.2.1. Soit Ω = [0, 1] muni de la tribu des boréliens et de la mesure de Lebesgue.
Pour n ≥ 1, on pose
Xn (ω) = 1[0,1/n] (ω).
6 CHAPITRE 3. LOI DES GRANDS NOMBRES

Alors la suite (Xn ) converge ps vers 0 (même si Xn (0) = 1 pour tout n).

Définition 3.2.2. On dit que la suite (Xn ) converge en probabilité vers la variable aléatoire
P
X, noté Xn −→ X, si pour tout ε > 0

lim P(|Xn − X| ≥ ε) = 0.
n→∞

Autrement dit, pour tout ε, η > 0, il existe n0 tel que pour tout n ≥ n0 , P(|Xn − X| ≥ ε) ≤ η.

Exemple 3.2.2. Soit (Xn ) une suite de variables aléatoires indépendantes de même loi de
Bernoulli de paramètre p. On pose Sn = nk=1 Xk qui suit donc une loi binomiale de paramètres
P

(n, p). Alors, pour tout ε > 0 on a, par l’inégalité de Tchébychev

Var(Sn /n) p(1 − p)


P(|Sn /n − p| ≥ ε) ≤ = −−−−−→ 0.
ε2 nε2 n→+∞

Donc la fréquence Sn /n des succès converge en probabilité vers la probabilité de succès p


lorsque n tend vers l’infini.

Proposition 3.2.1. Si la suite (Xn ) converge presque sûrement vers la variable aléatoire X
alors la (Xn ) converge en probabilité vers X.

Démonstration.

Contre-Exemple 3.2.1. La convergence ps entraîne la convergence en probabilité, mais la


réciproque est fausse en général. Soit Ω = [0, 1] muni de la tribu des boréliens et de la mesure de
Lebesgue. On définit une suite de variables aléatoires (Xi )i≥1 par Xi (ω) = 1](k−1)/2n ,k/2n ] (ω)
où n = n(i) = min{m; i + 1 ≤ 2m+1 } et k = k(i) = i + 1 − 2n (la numérotation est en fait
reliée au développement en base 2 de i). En particulier, on a
— i = 1, n = 0, k = 1 donc X1 (ω) = 1]0,1]
— i = 2, n = 1, k = 1 donc X2 (ω) = 1]0,1/2]
— i = 3, n = 1, k = 2 donc X3 (ω) = 1]1/2,1] , et ainsi de suite.

Rappel 1. La lim inf d’une suite réelle est définie par

lim inf xn = lim inf xn .


n→∞ m→∞ n≥m

C’est la plus petite limite d’une sous-suite convergente extraite de (xn ). De plus, une suite
réelle est convergente si et seulement si elle a une unique valeur d’adhérence donc si et
seulement si lim inf = lim sup.
Alors pour tout ω ∈]0, 1], lim inf Xi (ω) = 0 et lim sup Xi (ω) = 1, donc la suite (Xn ) ne
converge pas ps. Or pour tout 0 < ε < 1, P(|Xi | ≥ ε) = P(|Xi | = 1) = 2−n si i = 2n + k − 1
avec 1 ≤ k ≤ 2n . Donc la suite (Xi ) converge en probabilité vers 0.

Proposition 3.2.2. Soit (Xn ) une suite de variables aléatoires convergeant ps vers X et h une
fonction continue sur R. Alors h(Xn ) converge presque sûrement vers h(X). En particulier, si
(Xn ) et (Yn ) sont deux suites de variables aléatoires convergeant presque sûrement vers X et
Y respectivement, alors pour tous réels a et b la suite (aXn + bYn ) converge presque sûrement
vers aX + bY et la suite (Xn Yn ) converge presque sûrement vers XY .
3.3. CONVERGENCE DANS LP 7

Démonstration. La convergence presque sûre correspond à la convergence simple des fonctions


de Ω dans R (à un sous-ensemble de mesure nulle près). Les propriétés de la convergence simple
sont donc également vraies pour la convergence presque sûre (en remarquant que l’union de deux
ensembles de probabilité nulle est de probabilité nulle).

Proposition 3.2.3. Soit (Xn ) et (Yn ) deux suites de variables aléatoires convergeant en proba-
bilité vers X et Y respectivement, alors
1. pour toute fonction continue h, on a h(Xn ) converge en probabilité vers h(X),
2. tous réels a et b la suite (aXn + bYn ) converge en probabilité vers aX + bY ,
3. (Xn Yn ) converge en probabilité vers XY

Démonstration. Admis.

3.3 Convergence dans Lp


On rappelle la définition générale des espaces Lp vue en cours de théorie de la mesure.
Définition 3.3.1. Une variable aléatoire X est dans Lp (Ω, F, P), p > 0, si E[|X|p ] < ∞.
L’espace Lp (Ω, F, P) muni de la norme

kXkp = (E[|X|p ])1/p

est un espace complet.


On peut définir une notion de convergence associée à la norme Lp .
Définition 3.3.2. Soit 0 < p < ∞. On dit que (Xn ) converge vers X dans Lp si pour tout n,
Xn ∈ Lp (Ω, F, P), X ∈ Lp (Ω, F, P) et lim kXn − Xkp = 0.

Exemple 3.3.1. Soit Ω =]0, 1] muni de la tribu des boréliens et de la mesure de Lebesgue. Soit
α > 0 et pour n ≥ 1
Xn (ω) = ω −α 1]0,1/n] (ω).
On a que Xn ∈ Lp dès que αp < 1 puisque

ω 1−αp 1/n
Z 1/n
1
E[Xnp ] = ω −αp dω = [ ]0 = nαp−1 −−−→ 0,
0 1 − αp 1 − αp n→∞

Donc la suite (Xn ) converge vers 0 dans Lp dès que αp < 1.

Proposition 3.3.1. La convergence dans Lp implique la convergence en probabilité.


Démonstration. C’est une conséquence directe de l’inégalité de Markov
P(|Xn − X| ≥ ε) = P(|Xn − X|p ≥ εp ) ≤ E[|Xn − X|p ]/εp = kXn − Xkpp /εp → 0,
ce qui prouve le résultat.

Contre-Exemple 3.3.1. La réciproque est fausse : en général, ni la convergence ps, ni la


convergence en probabilité n’entrainent la convergence dans Lp .
Soit Ω =]0, 1] muni de la tribu des boréliens et de la mesure de Lebesgue. Soit α > 0 et pour
n≥1
Xn (ω) = ω −α 1]0,1/n] (ω).
8 CHAPITRE 3. LOI DES GRANDS NOMBRES

Pour tout ε ∈]0, 1[, P(|Xn | ≥ ε) = 1/n. Donc la suite (Xn ) converge en probabilité vers 0.
/ Lp dès que αp ≥ 1 puisque
Mais Xn ∈
Z 1/n
E[Xnp ] = ω −αp dω = +∞.
0

La suite n’étant pas dans Lp


ne peut pas converger dans Lp .
Soit maintenant Ω = R muni de la tribu des boréliens. Pour tout n ≥ 1, soit Xn une variable
aléatoire de loi (1 − n−p )δ0 + n−p δn , ie

P(Xn = n) = n−p = 1 − P(Xn = 0).

Soit ε > 0. Pour tout n ≥ 1, P(|Xn | ≥ ε) = n−p , donc (Xn ) converge en probabilité vers 0. De
plus, P(|Xn | ≥ ε) < +∞ si p > 1, donc par le lemme de Borel-Cantelli P(|Xn | ≥ ε is) = 1,
P

autrement dit en passant au complémentaire ps pour tout ε > 0, il existe N tel que pour tout
n ≥ N , |Xn | < ε donc on a aussi la convergence ps vers 0. Mais E[Xnp ] = n−1 n = 1. La suite
ne converge donc pas vers 0 dans Lp .
Pour passer de la convergence en probabilité à la convergence dans Lp , on introduit la notion
d’équi-intégrabilité, ou intégrabilité uniforme.
Définition 3.3.3. Une famille quelconque (Xi )i∈I de variables aléatoires intégrables est équi-
intégrable ou uniformément intégrable si
Z
lim sup |Xi |dP = 0.
c→+∞ i∈I (|Xi |>c)

Proposition 3.3.2. La famille (Xi )i∈I de variables aléatoires intégrables est équi-intégrable si
et seulement si les deux conditions suivantes sont réalisées R
1. pour tout ε > 0, il existe η > 0 tel que pour tout A ∈ F, P(A) ≤ η implique A |Xi |dP ≤ ε
pour tout i ∈ I,
2. supi∈I E[|Xi |] < ∞.

Démonstration. Supposons que la famille est équi-intégrable. Pour tout ε > 0, il existe c > 0 tel
que Z
sup |Xi |dP ≤ ε/2.
i∈I (|Xi |>c)

Soit A ∈ F. Alors, pour tout i on a


Z Z Z
|Xi |dP ≤ |Xi |dP + |Xi |dP ≤ ε/2 + cP(A).
A A∩(|Xi |>c) A∩(|Xi |≤c)

On a donc le premier point pour η = ε/2c et le deuxième en prenant A = Ω.


Réciproquement, si on a les deux points, soit M = supi∈I E[|Xi |], ε et η donnés par le premier
point. On pose c0 = M/η. Alors pour tout c ≥ c0 et pour tout i, l’inégalité de Markov implique
P(|Xi | > c) ≤ M/c
R
≤ η. On applique donc le premier point à A = (|Xi | > c) pour chaque i et on
obtient supi∈I (|Xi |>c) |Xi |dP ≤ ε. D’où la limite.

Théorème 3.3.1. Soit (Xn ) une suite de variables aléatoires intégrables et X une variable
aléatoire. Alors les deux assertions suivantes sont équivalentes
P
1. Xn − → X et la famille (Xn ) est équi-intégrable,
2. X est intégrable et (Xn ) converge vers X dans L1 .
3.4. LOI DES GRANDS NOMBRES 9

P
Démonstration. 1 ⇒ 2 Comme Xn −
→ X, on peut en extraire une sous-suite (Xnk ) qui converge
ps vers X.

Rappel 2. [Lemme de Fatou]


Soit (fn ) une suite de fonctions mesurables positives et µ une mesure. Alors
Z Z
lim inf fn dµ ≤ lim inf fn dµ.
n→∞ n→∞

Le lemme de Fatou et la propriété d’équi-intégrabilité donnent

E[|X|] = E[lim inf |Xnk |] ≤ lim inf E[|Xnk |] ≤ sup E[|Xn |] < ∞.

Donc X est intégrable. De plus, pour tout ε > 0, on a


Z Z
E[|Xn − X|] = |Xn − X|dP + |Xn − X|dP
(|Xn −X|<ε/3) (|Xn −X|≥ε/3)
Z Z
≤ ε/3 + |Xn |dP + |X|dP.
(|Xn −X|≥ε/3) (|Xn −X|≥ε/3)

Comme X est intégrable, la famille (Xn , X) est encore équi-intégrable. On applique la proposition
précédente. Soit η > 0. Pour n assez grand, on a P(|Xn − X| ≥ ε/3) ≤ η car la suite converge en
probabilité. Donc pour tout n assez grand, les deux intégrales ci-dessus sont inférieures à ε/3.
On obtient E[|Xn − X|] ≤ ε pour n assez grand, d’où la convergence de (Xn ) vers X dans L1 .
Réciproque 2 ⇒ 1. Soit ε > 0 et n0 tel que pour tout n ≥ n0 , kXn − Xk1 ≤ ε/2. Comme X et
les Xn sont dans L1 , la famille finie (X, Xn , n ≤ n0 ) est équi-intégrable. Donc il existe η tel que
si P(A) ≤ η alors Z Z
|Xn |dP ≤ ε/2, |X|dP ≤ ε/2
A A
pour n ≤ n0 . Pour n > n0 , on a par inégalité triangulaire
Z Z
|Xn |dP ≤ |X|dP + kXn − Xk1 ≤ ε.
A A

La suite (Xn ) vérifie donc les deux points de la proposition (pour le deuxième, E[|Xn |] ≤
E[|Xn − X|] + E[|X|]), elle est uniformément intégrable. Et on a déjà vu que convergence L1
implique convergence en proba.

3.4 Loi des grands nombres


Dans toute la suite du chapitre les variables aléatoires (Xn )n∈N∗ et X sont définies de (Ω, F, P)
dans R ou Rd . On suppose de plus que les variables Xn sont indépendantes et de même loi que X.
Pour tout n ≥ 1, on pose Sn = nk=1 Xk . On s’intéresse maintenant aux propriétés asymptotiques
P

de la suite (Sn ).
Théorème 3.4.1 Loi forte des grands nombres. Si E[|X|] < ∞, alors (Sn /n) converge ps et
dans L1 vers E[X] lorsque n tend vers l’infini.

Démonstration. Remarquons d’abord que la famille (Xn ) est équi-intégrable. En effet, elle est
dans L1 et

lim sup E[1(|Xn |>c) |Xn |] = lim sup E[1(|X1 |>c) |X1 |] = lim E[1(|X1 |>c) |X1 |] = 0
c→+∞ n c→+∞ n c→+∞
10 CHAPITRE 3. LOI DES GRANDS NOMBRES

puisque toutes les variables ont même loi. Donc pour tout ε > 0, il existe η > 0 tel que pour tout
A ∈ F et n ∈ N, on ait E[1A |Xn |] ≤ ε. On en déduit que
E[1A |Sn /n|] ≤ nE[1A |Xn |/n] = E[1A |Xn |] ≤ ε.
De plus, E[|Sn |/n] ≤ nE[|X1 |]/n ≤ E[|X1 |] est borné indépendamment de n. Donc la famille
Sn /n est également équi-intégrable. Ainsi, si on montre la convergence ps, on aura la convergence
en proba puis la convergence dans L1 par équi-intégrabilité.

Quitte à remplacer Xk par Xk − E[Xk ], on peut considérer que les Xk sont centrées. Quitte
également à regarder la convergence coordonnée par coordonnée (ce qui est équivalent à la
convergence du vecteur pour la convergence ps) on suppose qu’on est en dimension 1.

1. La première étape de la preuve consiste à prouver le résultat sous l’hypothèse plus forte
E[|X|4 ] < ∞. Dans ce cas, pour tout n ≥ 1 et δ > 0, l’inégalité de Markov donne
E[Sn4 ]
P(|Sn | ≥ nδ) ≤ .
δ 4 n4
On décompose maintenant E[Sn4 ]. On a
n
X 4
Sn4 = Xk
k=1
n
X n
X n
X n
X
= Xi Xj Xk X`
i=1 j=1 k=1 `=1
Xn X X
= Xi4 + 4 Xi3 Xj + 3 Xi2 Xj2
i=1 1≤i6=j≤n 1≤i6=j≤n
X X
+6 Xi Xj Xk2 + Xi Xj Xk X` .
1≤i,j,k distincts≤n 1≤i,j,k,` distincts≤n

En utilisant la linéarité de l’espérance, et le fait que les Xi sont indépendants, centrés et


de même loi, on obtient
n
X X X
E[Sn4 ] = E[Xi4 ] + 4 E[Xi3 ]E[Xj ] + 3 E[Xi2 ]E[Xj2 ]
i=1 1≤i6=j≤n 1≤i6=j≤n
X X
+6 E[Xi ]E[Xj ]E[Xk2 ] + E[Xi ]E[Xj ]E[Xk ]E[X` ]
1≤i,j,k distincts≤n 1≤i,j,k,` distincts≤n

= nE[X ] + 0 + 3n(n − 1)E[X 2 ]2 + 0 + 0.


4

On obtient donc
nE[X 4 ] + 3n(n − 1)E[X 2 ]2
P(|Sn | ≥ nδ) ≤ ,
δ 4 n4
qui est le terme générique d’une série convergente. Le lemme de Borel Cantelli donne donc
la convergence ps de (Sn /n) vers 0.

2. Deuxième étape : cas général. Soit ε > 0. Pour tout i ≥ 1, il existe des variables aléatoires
Yi étagées, centrées, indépendantes et de même loi telles que E[|Xi − Yi |] ≤ ε, par définition
de l’intégrale de Lebesgue. Soit Tn = nk=1 Yk . Alors on a
P

n
1 1X 1
|Sn | ≤ |Xi − Yi | + |Tn |.
n n i=1 n
3.4. LOI DES GRANDS NOMBRES 11

Les variables Yi sont étagées donc bornées, elles vérifient donc le premier point. On a ainsi
Tn /n qui tend vers 0. Il suffit donc de regarder la moyenne des différences |Xi − Yi |. Soit
Zi = |Xi − Yi |. On sait que le variables (Zi ) sont indépendantes, de même loi, intégrables,
positives et vérifient E[Zi ] ≤ ε pour tout i. On veut examiner lim sup nk=1 Zk /n. On utilise
P

un argument dit de bloc : on va découper selon les valeurs de n avec une partition en
puissances de 2 et minorer différemment sur chaque bloc. Soit k ≥ 0 et δ > 0. On a
n
1X
 
P max Zi ≥ 2E[1] + δ
2k <n≤2k+1 n
i=1
n
1X
≤ P(∃i ≤ 2k+1 , Zi > 2k ) + P( max Zi 1[0,2k ] (Zi ) ≥ 2E[Z1 ] + δ)
2k <n≤2k+1 n i=1
= Ak + B k ,

car soit tous les Zi sont inférieurs à 2k , soit il y en a au moins un qui est supérieur. D’une
part, en majorant l’union sur les i ≤ 2k+1 par la somme, on a

Ak = P(∃i ≤ 2k+1 , Zi > 2k ) ≤ 2k+1 P(Z1 > 2k )


= 4 × 2k−1 P(Z1 > 2k )
Z 2k
≤4 P(Z1 > t)dt.
2k−1

D’autre part, en utilisant 2k < n ≤ 2k+1 et la positivité des Zi , on obtient


k+1
 2X 
k+1 k
Bk ≤ P Zi 1[0,2k ] (Zi ) ≥ 2 E[Z1 ] + δ2
i=1
k+1
 2X 
≤P Zi 1[0,2k ] (Zi ) ≥ 2k+1 E[Z1 1[0,2k ] (Z1 )] + δ2k
i=1
k+1
 2X 
k
≤P Zi 1[0,2k ] (Zi ) − E[Zi 1[0,2k ] (Zi )] ≥ δ2
i=1
k+1
 2X 
Zi 1[0,2k ] (Zi ) − E[Zi 1[0,2k ] (Zi )] ≥ δ2k

≤P
i=1

puisque E[Z1 ] ≥ E[Z1 1[0,2k ] (Z1 )]. On utilise maintenant l’inégalité de Tchébychev
1 k+1
Bk ≤ 2 Var[Z12 1[0,2k ] (Z1 )]
δ 2 22k
1
≤ 2 k 2E[Z12 1[0,2k ] (Z1 )].
δ 2
On a ainsi obtenu
n Z 2k
1X 1
 
P max Zi ≥ 2E[1] + δ ≤ 4 P(Z1 > t)dt + 2E[Z 2 1[0,2k ] (Z1 )].
2k <n≤2k+1 n i=1 2k−1 δ 2 2k

On somme maintenant ces inégalités sur k. D’une part


X Z 2k Z ∞
P(Z1 > t)dt ≤ P(Z1 > t)dt = E[Z1 ],
k−1
k≥0 2 0
12 CHAPITRE 3. LOI DES GRANDS NOMBRES

d’autre part
   
2−k E Z12 1[0,2k ] (Z1 ) = E Z12 2−k 1[0,2k ] (Z1 )
X X

k≥0 k≥0
X
2−k 1[0,2k ] (Z1 ))1Z1 ∈]2` ,2`+1 ]
X
=E (Z12
`≥0 k≥0

−k
X
+ (Z12 2 1[0,2k ] (Z1 ))1Z1 ∈[0,1] .
k≥0

Pour le premier terme, on a

2−k 1[0,2k ] (Z1 ))1Z1 ∈]2` ,2`+1 ] ≤ 2−k 1[0,2k ] (Z1 ))


X X X X
(Z12 1Z1 ∈]2` ,2`+1 ] (22`+2
`≥0 k≥0 `≥0 k≥`+1

1Z1 ∈]2` ,2`+1 ] (22`+2 2−` )


X

`≥0
X
=4 1Z1 ∈]2` ,2`+1 ] (2` )
`≥0
X
≤ 4Z1 1Z1 ∈]2` ,2`+1 ]
`≥0

Pour le deuxième terme

2−k 1[0,2k ] (Z1 ))1Z1 ∈[0,1] = Z12 ( 2−k )1Z1 ∈[0,1]


X X
Z12
k≥0 k≥0
2
= 2Z1 1Z1 ∈[0,1]
≤ 2Z1 1Z1 ∈[0,1]
≤ 4Z1 1Z1 ∈[0,1] .

Donc en recollant les deux termes

2−k E[Z12 1[0,2k ] (Z1 )] ≤ 4E[Z1 ].


X

k≥0

Ainsi, on obtient
n
X  1X

P max Zi ≥ 2E[Z1 ] + δ ≤ 4(1 + 2δ −2 )E[Z].
k
2k <n≤2k+1 n i=I

La série converge, donc le lemme de Borel Cantelli donne presque sûrement pour k assez
grand
n
1X
max Zi < 2E[Z] + δ,
2k <n≤2k+1 n
i=I

et puisque δ est arbitraire, on en déduit la limite ps


n
1X
lim sup Zi ≤ 2E[Z].
n→∞ n i=I
3.5. APPLICATION DE LA LOI DES GRANDS NOMBRES À L’ESTIMATION PONCTUELLE13

Si on revient maintenant à notre démonstration, on a


n
1 1X 1
lim sup |Sn | ≤ lim sup |Xi − Yi | + lim sup |Tn |
n→∞ n n→∞ n n→∞ n
k=1
≤ 2E[|X − Y |] ≤ 2ε.

On a la conclusion voulue puisque ε est arbitraire.

Exemple 3.4.1. Soit (Xn ) une suite de variables aléatoires indépendantes de même loi de
Bernoulli de paramètre p. On pose Sn = nk=1 Xk . On a déjà vu que Sn /n converge en
P

probabilité vers p, on a maintenant la convergence presque sure puisque les variables de


Bernouilli sont intégrables. Une façon de trouver une valeur approchée du paramètre p est
donc de calculer Sn /n pour n assez grand.

3.5 Application de la loi des grands nombres à l’estimation ponctuelle


Pour étudier un certain caractère d’une population donnée (taille des Français, poids des plaques
de chocolat d’une usine, intentions de vote), on fait l’hypothèse que ce caractère suit une certaine
loi de probabilité PX .
Définition 3.5.1. On appelle échantillon aléatoire de taille n de la loi PX une suite (X1 , . . . , Xn )
de n variables aléatoires indépendantes identiquement distribuées de loi PX . On appelle échan-
tillon une réalisation particulière d’un échantillon aléatoire : (x1 , . . . , xn ) = (X1 (ω), . . . , Xn (ω)).

Le travail du statisticien ou de la statisticienne est de retrouver la loi PX ou certaines de ses


caractéristiques, à partir d’un ou plusieurs échantillons. En estimation paramétrique, étant donné
un paramètre inconnu θ (proportion, moyenne, variance, . . . ) de la loi PX , on cherche à donner
une valeur numérique pour θ à partir d’un échantillon.
Définition 3.5.2. Un estimateur Tn du paramètre θ associé à un échantillon aléatoire (X1 , . . . , Xn )
de taille n est une fonction du vecteur aléatoire (X1 , . . . , Xn )

Tn = h(X1 , . . . , Xn ).

L’erreur d’estimation est la différence entre l’estimateur Tn et le paramètre à estimer θ. C’est


la variable aléatoire Tn − θ. L’erreur quadratique moyenne est le moment d’ordre 2 de l’erreur
d’estimation : E[(Tn − θ)2 ].

Proposition 3.5.1. Si Tn est de carré intégrable, l’erreur quadratique se décompose en un


terme de biais et un terme de variance :

E[(Tn − θ)2 ] = (E[Tn ] − θ)2 + Var(Tn ).

Démonstration. On a

E[(Tn − θ)2 ] = E[(Tn − E[Tn ] + E[Tn ] − θ)2 ]


= E[(Tn − E[Tn ])2 ] + (E[Tn ] − θ)2 + 2(E[Tn ] − θ)E[Tn − E[Tn ]]
= Var(Tn ) + (E[Tn ] − θ)2 + 0,

d’où le résultat.

Plus l’erreur quadratique sera faible, plus l’estimateur sera considéré comme satisfaisant.
14 CHAPITRE 3. LOI DES GRANDS NOMBRES

Définition 3.5.3. Un estimateur est dit centré ou sans biais si E[Tn ] = θ. Un estimateur est
asymptotiquement sans biais si
lim E[Tn ] = θ.
n→∞

Un estimateur est dit convergent s’il converge en probabilité vers θ :

∀ε > 0, lim P(|Tn − θ| ≥ ε) = 0.


n→+∞

Exemple 3.5.1. Soit (X1 , . . . , Xn ) un échantillon aléatoire de taille n. La moyenne empirique

X1 + · · · + Xn
Xn =
n
est un estimateur sans biais de l’espérance car E[X n ] = E[X1 ]. C’est un estimateur convergent
d’après la loi des grands nombres.
La variance empirique
n
1X
Vn = (Xi − X n )2
n i=1
n
est un estimateur biaisé de la variance car E[V n ] = n−1 Var(X1 ). En effet, on a
n
1X
E[V n ] = E[(Xi − X n )2 ]
n i=1
n
1X
= E[(Xi − E[Xi ] + E[Xi ] − X n )2 ]
n i=1
n
1X
= E[(Xi − E[Xi ])2 ] + E[(E[Xi ] − X n )2 ] + 2E[(Xi − E[Xi ])(E[Xi ] − X n )]
n i=1
n
2X
= Var(X1 ) + Var(X n ) − Cov(Xi , X n ).
n i=1

Or on a par indépendance
X1 + · · · + Xn n
Var(X n ) = Var( ) = 2 Var(X1 ),
n n
et

Cov(Xi , X n ) = E[Xi X n ] − E[X1 ]2


n−1 1
= E[X1 ]2 + E[X12 ] − E[X1 ]2
n n
1
= Var(X1 ),
n
Donc finalement on a bien
n
2X
E[V n ] = Var(X1 ) + Var(X n ) − Cov(Xi , X n )
n i=1
1 2
= Var(X1 ) + Var(X1 ) − Var(X1 )
n n
3.5. APPLICATION DE LA LOI DES GRANDS NOMBRES À L’ESTIMATION PONCTUELLE15

n
= Var(X1 )
n−1
Cependant cet estimateur est asymptotiquement sans biais et convergent. On utilise plutôt sa
version sans biais n
2 1 X
Sn = (Xi − X n )2
n − 1 i=1

On va voir dans le chapitre suivant comment évaluer la précision de ces estimateurs.


16 CHAPITRE 3. LOI DES GRANDS NOMBRES
Bibliographie

[Bil99] Patrick Billingsley. Convergence of probability measures. Wiley Series in Probability


and Statistics : Probability and Statistics. John Wiley & Sons, Inc., New York, second
edition, 1999. A Wiley-Interscience Publication.
[Bil12] Patrick Billingsley. Probability and measure. Wiley Series in Probability and Statistics.
John Wiley & Sons, Inc., Hoboken, NJ, 2012. Anniversary edition [of MR1324786],
With a foreword by Steve Lalley and a brief biography of Billingsley by Steve Koppes.
[BL07] Philippe Barbe and Michel Ledoux. Probabilités. Collection enseignement sup, Mathé-
matiques. EDP Science, 2007.
[Chu01] Kai Lai Chung. A course in probability theory. Academic Press, Inc., San Diego, CA,
third edition, 2001.
[Fel68] William Feller. An introduction to probability theory and its applications. Vol. I. Third
edition. John Wiley & Sons Inc., New York, 1968.
[FF03] Dominique Foata and André Fuchs. Calcul des probabilités. Dunod, second edition,
2003.
[Ouv08] Jean-Yves Ouvrard. Probabilités,Tomes 1 et 2. Cassini, 2008.

17

Vous aimerez peut-être aussi