Académique Documents
Professionnel Documents
Culture Documents
Charles El Nouty
2021 - 2022
Le terme Statistique est utilisé dans deux sens. Dans le langage courant, il signifie
”données numériques systématiques” sur un sujet quelconque. Dans son second
sens, il désigne la méthode scientifique dont le but est ”l’étude des propriétés
numériques des ensembles de faits”, quelle que soit la nature des faits.
Ainsi, relever la taille de chacun d’entre vous constitue une statistique (premier
sens) tandis que faire de la statistique sur ces tailles consisterait, par exemple, à
faire des graphiques, calculer une taille moyenne ... (second sens).
Définition
Le mot Statistique désigne à la fois un ensemble de données d’observations et
l’activité qui consiste dans leur recueil, leur traitement et leur interprétation.
Toutes les questions posées par les modèles précédents sont relatives au
paramètre de la loi de Bernoulli ou au paramètre de la loi binômiale
1 Estimation (Licence 2)
2 Intervalles de confiance (Licence 2)
3 Tests (Licence 3)
Remarque
On ne peut pas choisir n’importe quoi, car ce que l’on veut obtenir doit être aussi
proche que possible de p.
Soit θ un paramètre réel (inconnu) d’intérêt. Le but du jeu est de construire une
variable aléatoire θ̂n telle qu’avec une grande probabilité, θ̂n soit proche de θ. Une
bonne manière d’évaluer cette proximité est de calculer la quantité suivante.
Définition
Le risque quadratique R(θ, θ̂n ) est le nombre réel défini par
2
R(θ, θ̂n ) = E θ − θ̂n .
Preuve
EX
R
= R x f (x) dx
≥ {x≥λ EX} x f (x) dx
≥ λ EX {x≥λ EX} f (x) dx
R
= λ EX P(X ≥ λ EX).
Remarque
L’hypothèse variable aléatoire positive est fondamentale.
Ainsi, dès que le risque quadratique est petit, θ − θ̂n est petit avec une grande
probabilité, i.e θ̂n est proche de θ.
Proposition
R(θ, θ̂n ) = b2n (θ̂n ) + Var θ̂n ,
où bn (θ̂n ) = E θ̂n − θ s’appelle le biais de l’estimateur θ̂n .
Remarque
Le biais d’un estimateur est un nombre réel.
Preuve
On a
θ̂n − θ = (θ̂n − Eθ̂n ) + (Eθ̂n − θ ).
Il suffit d’étudier l’espérance du double produit et d’utiliser les propriétés de
l’opérateur espérance. Comme
Eθ̂n − θ
est un nombre réel et
E(θ̂n − Eθ̂n ) = 0,
celle-ci est nulle.
Définition
Un estimateur θ̂n du paramètre θ est sans biais si et seulement si E θ̂n = θ, i.e.
bn (θ̂n ) = 0.
Remarque
Estimateur 6= estimation.
Remarque
En pratique, sous réserve d’existence, on va souvent privilégier les estimateurs
sans biais. Parmi ceux-ci, on choisira celui de variance minimale. Toutefois,
l’estimateur sans biais de variance minimale n’est pas nécessairement celui qui
minimise le risque quadratique. De nombreux exemples seront donnés dans la
suite du cours ou en travaux dirigés. Par conséquent, la comparaison
d’estimateurs induit le choix d’un critère.
Exemple
Considérons un modèle binômial B(n, p). Un estimateur naturel de p est
∑ni=1 Xi p(1−p)
p̂ = n , parce que Ep̂ = p et Varp̂ = n . Ainsi :
1 p̂ est sans biais
p(1−p) 1
2 Varp̂ = n ≤ 4n
3 p̂ converge en probabilité vers p (loi des grands nombres)
4 p̂ est asymptotiquement normal (théorème de la limite centrale)
Remarque
Fourchette dans les sondages
Exemple
Considérons un modèle binômial B(n, p). Un estimateur naturel de p est
∑ni=1 Xi
p̂ = n D’après l’inégalité de Bienaymé - Chebichev (EX̄n = p), on a
VarX̄n p (1 − p) 1
P | p − X̄n | > t ≤ = ≤ .
t2 n t2 4 n t2
Si l’on veut que cette probabilité soit inférieure ou égale à α (petit), on pose
1 1
t= √ ⇔α= .
2 nα 4 n t2
Définition
On appelle intervalle de confiance de niveau 1 − α pour un paramètre réel θ, un
intervalle aléatoire [θ, θ̄ ], où θ et θ̄ sont des variables aléatoires qui dépendent de
l’échantillon X1 , .., Xn et des paramètres connus (mais ni de θ ou d’autres
quantités inconnues) et tel que :
∀ θ P θ ≤ θ ≤ θ̄ ≥ 1 − α.
Remarque
1 R est toujours un intervalle de confiance trivial, mais sans intérêt.
2 θ est fixe (mais inconnu), θ et θ̄ sont connus mais aléatoires de sorte qu’il
faut bien avoir en tête
P θ ≤ θ ≤ θ̄ ≥ 1 − α i.e. P θ ≤ θ et θ̄ ≥ θ ≥ 1 − α.
Définition
Soit (Ω, F , P) un espace de probabilités et H un sous-ensemble de R.
L’application X : Ω → H, qui, à ω, associe X (ω ), est une variable aléatoire
réelle si
1 lorque H est dénombrable, on a {X = k} ∈ F pour tout k ∈ H;
2 lorque H n’est pas dénombrable, on a {X ≤ x} ∈ F pour tout x ∈ H.
Remarque
Variable aléatoire réelle discrète, variable aléatoire réelle continue.
Définition
On appelle fonction de répartition d’une variable aléatoire réelle continue X la
fonction F : R → [0, 1] définie par
Définition
La suite (Xn ) converge vers la variable aléatoire X en probabilité si ∀ ε > 0,
lim P (|Xn − X| ≥ ε) = 0.
n→+∞
Cela revient à montrer que la suite (Xn − X) converge vers la variable aléatoire 0
en probabilité.
Définition
La suite (Xn ) converge en loi vers la variable aléatoire X ssi en tout point (de
continuité) de F la suite (Fn ) converge vers F.
La convergence en loi est la plus utilisée en pratique car elle permet d’approximer
Fn par F.
Une suite de variables aléatoires discrètes peut converger en loi vers une variable
aléatoire continue.
Proposition
La convergence en probabilité entraine la convergence en loi.
Proposition
Si la suite (Xn ) converge en probabilité vers la variable aléatoire X et si g est une
application continue, alors la suite (g(Xn )) converge en probabilité vers la
variable aléatoire g(X).
Proposition
Si la suite (Xn ) converge en loi vers la variable aléatoire X et si g est une
application continue, alors la suite (g(Xn )) converge en loi vers la variable
aléatoire g(X).
Proposition
Soit un échantillon X1 , .., Xn d’espérance m inconnue. Alors X̄n est un estimateur
2
sans biais de m de variance σn , qui tend vers 0 quand n est grand. De plus,
quand n est grand, la loi des grands nombres et le théorème de la limite centrale
s’appliquent.
Proposition
Supposons
les variables aléatoires Xi soient Gaussiennes. Alors X̄n suit une
que
σ2
loi N m, n .
Proposition
Supposons que n ≥ 30. Alors, l’intervalle de m de niveau de confiance de 1 − α
est h σ σ i
X̄n − uα/2 √ , X̄n + uα/2 √ ,
n n
où P Y ≥ uα/2 = α2 , Y de loi N (0, 1).
Proposition
Supposons que n < 30 et que l’hypothèse Gaussienne soit vérifiée. Alors,
l’intervalle de m de niveau de confiance de 1 − α est
h σ σ i
X̄n − uα/2 √ , X̄n + uα/2 √ .
n n
Preuve
D’après le théorème de la limite centrale, on a :
√ X̄n − m
P(| n |≤ uα/2 ) ∼ P(| Y |≤ uα/2 ) = 1 − α,
σ
et par conséquent
σ σ
P(X̄n − uα/2 √ ≤ m ≤ X̄n + uα/2 √ ) = 1 − α.
n n
Remarque
Lorsque n < 30 et que l’hypothèse Gaussienne est vérifiée, la démonstration est
identique, mais il s’agit d’une égalité (et non d’une approximation)
Proposition
S’il existe une suite de réels λn → +∞, n → +∞ telle que la suite (λn (Xn − c))
converge en loi vers la variable aléatoire X, alors la suite (Xn ) converge vers la
variable aléatoire constante c en probabilité.
Théorème
Supposons que la suite (λn (θ̂n − θ0 )) converge en loi vers la variable aléatoire
Y(θ0 ) où λn → +∞, n → +∞. Soit g une fonction dérivable au point θ0 . Alors
la suite (λn (g(θ̂n ) − g(θ0 ))) converge en loi vers la variable aléatoire
0
g ( θ0 ) Y ( θ0 ).
avec rn → 0.
Dans le cadre
√ du modèle binomial, le théorème de la limite centrale implique que
la suite ( n (X¯n − p)) converge en loi vers la variable aléatoire X de loi
N (0, p(1 − p)). D’après ce qui précède, la suite (X¯n ) converge vers la variable
aléatoire constante p en probabilité. Ainsi la suite (X¯n × (1 − X¯n )) converge vers
la variable aléatoire constante p × (1 − p) en probabilité, et donc la suite
((X¯n × (1 − X¯n ))−1/2 ) converge vers la variable aléatoire constante
√ X¯n − p
(p × (1 − p))−1/2 en probabilité. En conclusion, la suite ( n p )
X¯n × (1 − X¯n )
converge en loi vers la variable aléatoire Y de loi N (0, 1). On peut maintenant
construire un intervalle de confiance de p.
Proposition
L’intervalle de p de niveau de confiance de 1 − α est
Preuve
D’après le théorème de la limite centrale, on a :
√ X¯n − p
P(| n p |≤ uα/2 ) ∼ P(| Y |≤ uα/2 ) = 1 − α,
X¯n × (1 − X¯n )
et par conséquent
Exemple
Soit un échantillon X1 , .., Xn de loi de Poisson P (λ). On s’intéresse à la quantité
e− λ = P (X = 0 ).
La loi des grands nombres et le théorème de √ la limite centrale
impliquent que
(X̄n ) converge en probabilité vers λ et que n (X̄n − λ) converge en loi
lorsque n → +∞ vers une variable aléatoire de loi N (0, λ).
Posons g (u) = e−u , u > 0. La fonction g est infiniment dérivable.
Ainsi, on en déduit que e−X̄n converge en probabilité vers e−λ , et que la suite
√
)) convergeen loi lorsque n → +∞ vers une variable
n (g (X̄n ) − g (λ
2
aléatoire de loi N 0, λ −e−λ .
On peut maintenant construire un intervalle de confiance de e−λ .
Exemple
En effet
√ e−X̄n − e−λ
P(| n× √ |≤ uα/2 ) ∼ P(| Y |≤ uα/2 ) = 1 − α,
λ × e− λ
et par conséquent
√ √
−X̄n λ × e− λ λ × e− λ
P(e − uα/2 √ ≤ e−λ ≤ e−X̄n + uα/2 √ ) = 1 − α.
n n
Exemple
Par application de la loi des grands nombres, on obtient l’intervalle de confiance
de e−λ de niveau 1 − α
p p
h
−X̄n X̄n × e−X̄n −X̄n X̄n × e−X̄n i
e − uα/2 √ ,e + uα/2 √
n n
1 Modèles discrets
2 Modèles continus
1 Modèle de Bernoulli
2 Modèle binômial
3 Modèle multinômial
4 Loi de Poisson
5 Loi géometrique
Définition
La variable aléatoire X suit une loi de Bernoulli de paramètre p si
P(X = 1) = p et P(X = 0) = 1 − p.
Proposition
EX = 0 · (1 − p) + 1 · p = p,
et
VarX = 02 · (1 − p) + 12 · p − p2 = p (1 − p.) .
Définition
La variable aléatoire X suit une loi binômiale de paramètres n et p, notée B(n, p),
si
∀ k ∈ {0, .., n}, P (X = k) = Ckn pk (1 − p)n−k .
n
On peut remarquer que X = ∑ Xi , où les variables aléatoires Xi sont
i=1
indépendantes de loi de Bernoulli de paramètre p.
Proposition
EX = p + p + ... + p = n p
et
Définition
Le vecteur aléatoire N = (N1 , .., Nm ) suit une loi multinômiale de paramètres
n, p1 , .., pm−1 et pm , si
n! n
P (n1 , .., nm ) = p 1 ... pnmm ,
n1 !...nm ! 1
avec pi > 0, ∑m m m
i=1 pi = 1, ∑j=1 Nj = n et ∑j=1 nj = n.
Proposition
1 Chaque variable aléatoire Nj suit une loi binômiale de paramètres n et pj
2 cov(Nj , Nl ) = −npj pl , j 6= l.
Définition
La variable aléatoire X suit une loi de Poisson de paramètre λ, notée P(λ), λ > 0,
si
λk
∀ k ∈ N, P (X = k) = e−λ .
k!
k 0 1 2 ...
P (X = k ) λ2 ...
e− λ λ e− λ 2 e− λ
On a :
n
EX = 0 · e−λ + λe−λ + ... + k λk! e−λ + ...
+∞ k
= ∑ k λk! e−λ
k =1
+∞
λ k −1
= λ e− λ ∑ (k −1) !
k =1
+∞
λk
= λ e− λ ∑ k! = λ e− λ eλ = λ
k =0
EX2 = λ2 + EX.
Ainsi, on obtient :
Définition
La variable aléatoire X suit une loi géométrique de paramètre 0 < p < 1, notée
LG(p), si
∀ n ∈ N∗ , P (X = n ) = p (1 − p )n−1 .
Proposition
On a
+∞
∑ P (X = n) = 1.
n=1
Indication.
+∞
1
∑ (1 − p )n−1 = p
n=1
Proposition
On a
P (X ≤ n) = 1 − (1 − p)n .
Indication.
n−1
1 − (1 − p)n
∑ (1 − p )i−1 = p
i=1
Proposition
On a
1
EX = .
p
Indication. On a
+∞ +∞
EX = ∑ n P (X = n) = p ∑ n (1 − p)n−1 := p S.
n=1 n=1
On remarque
+∞
1
S − (1 − p)S = ∑ (1 − p)n = .
p
n=0
et donc
1
S= .
p2
Proposition
On a
1−p
VarX = .
p2
Indication. On a
+∞ +∞
EX2 = ∑ n2 P (X = n) = p ∑ n2 (1 − p)n−1 := p T.
n=1 n=1
et donc
+∞
2(1 − p)
∑ n (n − 1 ) (1 − p )n−1 =
p3
.
n=1
On en déduit
+∞
2(1 − p) 2−p
T= ∑ n2 (1 − p)n−1 =
p3
+S = 3 .
p
n=1
1 Loi uniforme
2 Loi exponentielle
3 Loi normale
4 Paramètres d’échelle et de translation
5 Loi du Khi-deux
6 Loi de Student
Définition
La variable aléatoire X suit une loi uniforme sur [0, 1], notée U [0, 1], si sa densité
est égale à
f (x) = 1, 0 ≤ x ≤ 1.
Proposition
1 1
EX = et VarX = .
2 12
Définition
La variable aléatoire X suit une loi exponentielle de paramètre 1, si sa densité est
égale à
f (x) = e−x , x ≥ 0.
Proposition
EX = 1 et VarX = 1.
Proposition
P(X ≥ a + x | X ≥ a) = P(X ≥ x)
Définition
La variable aléatoire X suit une loi normale de paramètres m et σ2 (σ > 0),
notée N (m, σ2 ), si sa densité est égale à
!
1 (x − m)2
f (x) = √ exp − , x ∈ R.
σ 2π 2σ2
Proposition
EX = m et VarX = σ2 .
Proposition
Soit X une variable aléatoire de loi N (m, σ2 ). Alors la variable aléatoire
X−m
Z=
σ
suit une loi N (0, 1).
et donc la densité
g (z) = σ × f (m +
σz)
= √ exp − 21 z2 .
1
2π
Proposition
Soit Z une variable aléatoire de loi N (0, 1). Pour tout z ≥ 0, on a :
G (z) + G (−z) = 1.
Proposition
Soit Z une variable aléatoire de loi N (0, 1). Les valeurs remarquables sont
1
P(Z > 0) = , P(Z > 1.64) = 0.05, P(Z > 1.96) = 0.025
2
Exemple
Calculer P (Z ≤ −1.96) et P (−1.64 ≤ Z ≤ 0).
Exemple
Soit X une variable aléatoire de loi N (0, 1). Posons Y = 3X + 5. Calculons
P(−1 ≤ Y ≤ 8). La lecture de tables donne P (X ≤ 1) = 0.84 et
P (X ≤ 2) = 0.97 .
On a :
P(−1 ≤ Y ≤ 8) = P(−1 ≤ 3X + 5 ≤ 8)
= P (−6 ≤ 3X ≤ 3)
= P (−2 ≤ X ≤ 1) .
Ainsi, on obtient :
EX2n+1 = 0,
(2n)!
EX2n = 2n n! .
Soit X une variable aléatoire de loi N (0, 1). Posons Y = X2 . Les variables
aléatoires X et Y ne sont pas indépendantes par construction. Or,
Proposition
Soit X1 une variable aléatoire de loi N m1 , σ12 et X2 une variable aléatoire de loi
Exemple
1 Lois normales : N (m, σ2 ) et N (0, 1)
2 Lois uniformes : U [a, b] et U [0, 1]
Proposition
EY = aEX + b et VarY = a2 VarX.
Exemple
1
1 Lois de Laplace de densité : f (x) = 2 exp(− | x |) et
1 |x−b|
g(x) = 2a exp(− a )
1 1 1
2 Lois de Cauchy de densité : f (x) = π ( 1 + x2 )
et g(x) = aπ (x−b)2
1+
a2
Définition
On considère n variables aléatoires X1 , .., Xn indépendantes et de loi N (0, 1). La
variable aléatoire
n
Z= ∑ Xi2
i=1
La densité de Z est :
1 z
f (z) = z(n−2)/2 exp − ,z ≥ 0,
2n/2 Γ n
2
2
avec
+∞
Γ (x) = ∫ tx−1 exp (−t) dt,x > 0.
0
On en déduit :
Γ (1) = 1,
pour n ∈ N
Γ (n + 1) = n!,
et pour x > 0
Γ (x + 1) = x Γ (x) .
On a :
2k Γ k + n2
k
EZ = ,
Γ n2
En particulier,
EZ = n,
et
VarZ = 2 n
La loi du Khi-deux est tabulée. Lorsque n ≥ 50, elle s’approxime par la loi
N (0, 1).
Définition
Soit X de loi N (0, 1) et Y de loi χ2 (n). Supposons que les variables X et Y soient
indépendantes. Alors la variable aléatoire
X
T= √
Y/n
La densité de T est :
− n+ 1
Γ n+1
2
t2 2
f (t) = √ 1+ ,t ∈ R.
Γ n
πn 2
n
Lorsque n = 1, on retrouve la loi de Cauchy de densité
1
f (t) = .
π (1 + t2 )
La loi de Student est tabulée. Lorsque n ≥ 30, elle s’approxime par la loi N (0, 1).
Définition
On appelle fonction de répartition d’une variable aléatoire réelle X la fonction
F : R → [0, 1] définie par
Proposition
F est une fonction croissante de 0 à 1 et continue (à droite) en tout point.
Remarque
Une fonction de répartition n’est pas toujours bijective. Dans le cas bijectif, son
expression peut être fort compliquée, et donc celle de sa réciproque.
Remarque
Soit A un sous-ensemble de R. L’estimation de P(X ∈ A) est un problème
paramétrique car les variables aléatoires IA (Xi ) sont iid de loi de Bernoulli de
paramètre θ.
Remarque
IA désigne la fonction indicatrice. Celle-ci a de nombreuses propriétés.
Déterminer les fonctions indicatrices des ensembles Ā, A ∩ B, A ∪ B.