Vous êtes sur la page 1sur 91

Statistique Deux

Charles El Nouty

LAGA, Sorbonne Paris Nord

2021 - 2022

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 1 / 164


Table des matières
1 Introduction aux problèmes statistiques
Modélisation élémentaire
Les problèmes statistiques
Rappels de probabilités et applications statistiques
2 Modèles statistiques
Introduction
Modèles paramétriques classiques
3 Notion d’estimation non-paramétrique
Modèles et lois empiriques
Estimateurs empiriques
4 Méthodes d’estimation paramétriques
Méthodes empiriques
Le maximum de vraisemblance
5 Intervalles de confiance
Méthodes de construction des intervalles de confiance
Intervalle de confiance d’une moyenne
Intervalle de confiance d’un pourcentage
Intervalle de confiance d’une variance
Exemples
6 Révisions
Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 2 / 164
Définition

Le terme Statistique est utilisé dans deux sens. Dans le langage courant, il signifie
”données numériques systématiques” sur un sujet quelconque. Dans son second
sens, il désigne la méthode scientifique dont le but est ”l’étude des propriétés
numériques des ensembles de faits”, quelle que soit la nature des faits.
Ainsi, relever la taille de chacun d’entre vous constitue une statistique (premier
sens) tandis que faire de la statistique sur ces tailles consisterait, par exemple, à
faire des graphiques, calculer une taille moyenne ... (second sens).

Définition
Le mot Statistique désigne à la fois un ensemble de données d’observations et
l’activité qui consiste dans leur recueil, leur traitement et leur interprétation.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 3 / 164


Idée fausse

La Statistique est une discipline mathématique en plein essor et possède


d’innombrables applications. De ce fait, elle demande rigueur et minutie.
Toutefois, une fausse idée subsiste qu’il faut impérativement écarter : la
Statistique n’est pas une suite de manipulations de données plus ou moins
justifiées. Ainsi, appliquer une méthode statistique sans en vérifier les hypothèses
conduit généralement à des conclusions erronées.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 4 / 164


Classification

1 Statistique descriptive. Peu d’utilisation des probabilités. Il s’agit de mettre


en évidence les propriétés de l’échantillon et de suggérer des hypothèses.
Mais, on ne peut pas toujours se contenter de résultats qualitatifs ou visuels,
de graphiques et d’analyse des données.
2 Statistique mathématique. Valider ou infirmer des hypothèses. Rôle majeur
des probabilités. Théorie de l’estimation, intervalles de confiance, tests
statistiques, modélisation. La Statistique mathématique est un outil d’aide à
la décision.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 5 / 164


Probabilités et statistique

Les probabilités permettent de modéliser certains phénomènes et d’en faire l’étude


théorique. Trois liens principaux existent avec la statistique :
1 Les données observées sont souvent imprécises, entachées d’erreurs. Le
modèle probabiliste permet de représenter comme des variables aléatoires,
les déviations entre les vraies valeurs et les valeurs observées,
2 La répartition statistique d’une variable au sein d’une population est voisine
de modèles mathématiques proposés par le calcul des probabilités,
3 Surtout, transformer les caractéristiques observées sur l’échantillon en
variables aléatoires; le calcul des probabilités permet d’étudier leurs
répartitions.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 6 / 164


Le travail du statisticien : cinq étapes

1 Conception du travail (but, hypothèses, population, variables, questionnaire


ou expérience, méthodes de sondages,...)
2 Collecte des données (enquête, codage informatique, saisie,...)
3 Analyse descriptive (statistiques élémentaires, graphiques, corrélations,...)
4 Vérifier ou infirmer les hypothèses de départ (probabilités descriptives des
objets, théorie de estimation, intervalles de confiance, tests statistiques,
modélisation,...),
5 Conclusions (répondre à la question posée, limites du travail,
perspectives,...).

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 7 / 164


Vérifier ou infirmer les hypothèses de départ

1 Etape de modélisation par un modèle probabiliste : on va décrire une


expérience statistique au sens mathématique du terme. On dispose de
paramètres inconnus.
2 A partir d’observations disponibles, on essaie d’obtenir des renseignements
sur les paramètres inconnus afin de prendre des décisions.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 8 / 164


Quatre exemples

1 Jeu de pile ou face


2 Sondage électoral avec deux candidats
3 Contrôle de fabrication
4 Mise sur le marché d’un nouveau médicament

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 9 / 164


Conclusion

1 Quatre problèmes en apparence différents qui conduisent au même cadre


probabiliste : le modèle d’un échantillon de loi de Bernoulli. On a donc
construit une expérience statistique.
2 En pratique, le plus souvent, on ne dispose que de Sn = ∑ Xi et non des Xi .
On obtient alors un nouveau modèle probabiliste : une variable alétaoire de
loi binômiale. Il s’agit d’une seconde expérience statistique.
3 On verra plus tard que ces deux modèles sont équivalents.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 10 / 164


Questions

Toutes les questions posées par les modèles précédents sont relatives au
paramètre de la loi de Bernoulli ou au paramètre de la loi binômiale
1 Estimation (Licence 2)
2 Intervalles de confiance (Licence 2)
3 Tests (Licence 3)

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 11 / 164


Estimation

Dans le cas d’un sondage, on souhaite prédire p le pourcentage (inconnu) de voix


obtenues par un candidat. A cet effet, on ne connait qu’un échantillon X1 , .., Xn
et leurs réalisations x1 , .., xn . Le but est de construire une variable aléatoire p̂
définie par
p̂ = f (X1 , .., Xn )
qui permet de prédire, d’estimer p.

Remarque
On ne peut pas choisir n’importe quoi, car ce que l’on veut obtenir doit être aussi
proche que possible de p.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 12 / 164


Estimation : but du jeu

Soit θ un paramètre réel (inconnu) d’intérêt. Le but du jeu est de construire une
variable aléatoire θ̂n telle qu’avec une grande probabilité, θ̂n soit proche de θ. Une
bonne manière d’évaluer cette proximité est de calculer la quantité suivante.

Définition
Le risque quadratique R(θ, θ̂n ) est le nombre réel défini par
 2
R(θ, θ̂n ) = E θ − θ̂n .

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 13 / 164


Inégalité de Markov

Proposition (Inégalité de Markov)


Soit X une variable aléatoire positive telle que EX existe. Alors
1
∀λ>0 P(X ≥ λ EX) ≤ .
λ
Si 0 < λ < 1, l’inégalité de Markov ne sert à rien. Par contre, lorsque λ → ∞, la
limite de P(X ≥ λ EX) est zéro.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 14 / 164


Preuve (Cas continu)

Preuve
EX
R
= R x f (x) dx
≥ {x≥λ EX} x f (x) dx
≥ λ EX {x≥λ EX} f (x) dx
R

= λ EX P(X ≥ λ EX).

Remarque
L’hypothèse variable aléatoire positive est fondamentale.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 15 / 164


Intérêt du risque quadratique

On déduit de l’inégalité de Markov que


    R(θ, θ̂n )
P | θ − θ̂n |≥ t = P (θ − θ̂n )2 ≥ t2 ≤ .
t2

Ainsi, dès que le risque quadratique est petit, θ − θ̂n est petit avec une grande
probabilité, i.e θ̂n est proche de θ.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 16 / 164


Décomposition du risque quadratique

Proposition
R(θ, θ̂n ) = b2n (θ̂n ) + Var θ̂n ,
où bn (θ̂n ) = E θ̂n − θ s’appelle le biais de l’estimateur θ̂n .

Remarque
Le biais d’un estimateur est un nombre réel.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 17 / 164


Preuve

Preuve
On a
θ̂n − θ = (θ̂n − Eθ̂n ) + (Eθ̂n − θ ).
Il suffit d’étudier l’espérance du double produit et d’utiliser les propriétés de
l’opérateur espérance. Comme
Eθ̂n − θ
est un nombre réel et

E(θ̂n − Eθ̂n ) = 0,
celle-ci est nulle.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 18 / 164


Compromis

La décomposition du risque quadratique montre que celui-ci s’écrit comme la


somme de deux termes positifs. Pour le minimiser, il faudrait minimiser les deux
termes simultanément. Malheureusement, ces deux quantités varient
généralement en sens inverse. ll faut donc faire des compromis.

Définition
Un estimateur θ̂n du paramètre θ est sans biais si et seulement si E θ̂n = θ, i.e.
bn (θ̂n ) = 0.

Remarque
Estimateur 6= estimation.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 19 / 164


Choix 1/3

Comment choisir l’estimateur θ̂n de θ ?


Sans biais et faible variance
Sans biais et forte variance
Biaisé et faible variance
Biaisé et forte variance

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 20 / 164


Choix 2/3

Comment choisir l’estimateur θ̂n de θ ?


Sans biais et faible variance. Situation idéale qui n’existe pas en pratique
Sans biais et forte variance
Biaisé et faible variance
Biaisé et forte variance. Le plus mauvais choix.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 21 / 164


Choix 3/3

Comment choisir l’estimateur θ̂n de θ ?


Sans biais et forte variance
Biaisé et faible variance

Remarque
En pratique, sous réserve d’existence, on va souvent privilégier les estimateurs
sans biais. Parmi ceux-ci, on choisira celui de variance minimale. Toutefois,
l’estimateur sans biais de variance minimale n’est pas nécessairement celui qui
minimise le risque quadratique. De nombreux exemples seront donnés dans la
suite du cours ou en travaux dirigés. Par conséquent, la comparaison
d’estimateurs induit le choix d’un critère.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 22 / 164


Exemple

Exemple
Considérons un modèle binômial B(n, p). Un estimateur naturel de p est
∑ni=1 Xi p(1−p)
p̂ = n , parce que Ep̂ = p et Varp̂ = n . Ainsi :
1 p̂ est sans biais
p(1−p) 1
2 Varp̂ = n ≤ 4n
3 p̂ converge en probabilité vers p (loi des grands nombres)
4 p̂ est asymptotiquement normal (théorème de la limite centrale)

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 23 / 164


Intervalles de confiance

Le problème pratique d’estimation implique en général que l’on veut non


seulement une estimation de θ, mais une évaluation de la précision de cette
estimation. C’est l’objet de ce chapı̂tre.

Remarque
Fourchette dans les sondages

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 24 / 164


Exemple

Exemple
Considérons un modèle binômial B(n, p). Un estimateur naturel de p est
∑ni=1 Xi
p̂ = n D’après l’inégalité de Bienaymé - Chebichev (EX̄n = p), on a
  VarX̄n p (1 − p) 1
P | p − X̄n | > t ≤ = ≤ .
t2 n t2 4 n t2
Si l’on veut que cette probabilité soit inférieure ou égale à α (petit), on pose

1 1
t= √ ⇔α= .
2 nα 4 n t2

Ainsi, avec une probabilité supérieure ou égale à 1 − α, on a


1 1 1
| p − X̄n | ≤ √ ⇔ X̄n − √ ≤ p ≤ X̄n + √ .
2 nα 2 nα 2 nα

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 25 / 164


Définition

Définition
On appelle intervalle de confiance de niveau 1 − α pour un paramètre réel θ, un
intervalle aléatoire [θ, θ̄ ], où θ et θ̄ sont des variables aléatoires qui dépendent de
l’échantillon X1 , .., Xn et des paramètres connus (mais ni de θ ou d’autres
quantités inconnues) et tel que :
 
∀ θ P θ ≤ θ ≤ θ̄ ≥ 1 − α.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 26 / 164


Remarques

Remarque
1 R est toujours un intervalle de confiance trivial, mais sans intérêt.
2 θ est fixe (mais inconnu), θ et θ̄ sont connus mais aléatoires de sorte qu’il
faut bien avoir en tête
   
P θ ≤ θ ≤ θ̄ ≥ 1 − α i.e. P θ ≤ θ et θ̄ ≥ θ ≥ 1 − α.

3 Ne pas confondre θ (X1 , .., Xn ) et θ (x1 , .., xn ).


4 [θ (x1 , .., xn ), θ̄ (x1 , .., xn )] est un intervalle fixe.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 27 / 164


Définition

Définition
Soit (Ω, F , P) un espace de probabilités et H un sous-ensemble de R.
L’application X : Ω → H, qui, à ω, associe X (ω ), est une variable aléatoire
réelle si
1 lorque H est dénombrable, on a {X = k} ∈ F pour tout k ∈ H;
2 lorque H n’est pas dénombrable, on a {X ≤ x} ∈ F pour tout x ∈ H.

Remarque
Variable aléatoire réelle discrète, variable aléatoire réelle continue.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 28 / 164


Fonction de répartition

Définition
On appelle fonction de répartition d’une variable aléatoire réelle continue X la
fonction F : R → [0, 1] définie par

F (x) = P ({ω ∈ Ω : X (ω ) ≤ x})


= P (X ≤ x)

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 29 / 164


Définition

Définition
La suite (Xn ) converge vers la variable aléatoire X en probabilité si ∀ ε > 0,

lim P (|Xn − X| ≥ ε) = 0.
n→+∞

Cela revient à montrer que la suite (Xn − X) converge vers la variable aléatoire 0
en probabilité.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 30 / 164


Définition

Définition
La suite (Xn ) converge en loi vers la variable aléatoire X ssi en tout point (de
continuité) de F la suite (Fn ) converge vers F.

Lorque les variables aléatoires sont discrètes, la convergence en loi s’exprime


simplement par
lim P(Xn = k) = P(X = k)
n→+∞

La convergence en loi est la plus utilisée en pratique car elle permet d’approximer
Fn par F.
Une suite de variables aléatoires discrètes peut converger en loi vers une variable
aléatoire continue.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 31 / 164


Définition

Proposition
La convergence en probabilité entraine la convergence en loi.

Proposition
Si la suite (Xn ) converge en probabilité vers la variable aléatoire X et si g est une
application continue, alors la suite (g(Xn )) converge en probabilité vers la
variable aléatoire g(X).

Proposition
Si la suite (Xn ) converge en loi vers la variable aléatoire X et si g est une
application continue, alors la suite (g(Xn )) converge en loi vers la variable
aléatoire g(X).

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 32 / 164


Loi des grands nombres

Théorème (Loi des grands nombres)


Soit un échantillon X1 , .., Xn . Alors la suite (X̄n ) converge en probabilité vers la
variable aléatoire EX.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 33 / 164


Théorème de la limite centrale

Théorème (Théorème de la limite centrale)


Soit X1 , .., Xn une suite de variables aléatoires indépendantes et identiquement
distribuées d’espérance EX et de variance σX2 . Alors, lorsque n tend vers l’infini,
la suite
√ X̄n − EX
( n )
σX
converge en loi vers Y de loi N (0, 1).

L’indépendance joue un role capital dans la preuve.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 34 / 164


Estimateur de la moyenne

Proposition
Soit un échantillon X1 , .., Xn d’espérance m inconnue. Alors X̄n est un estimateur
2
sans biais de m de variance σn , qui tend vers 0 quand n est grand. De plus,
quand n est grand, la loi des grands nombres et le théorème de la limite centrale
s’appliquent.

Proposition
Supposons
  les variables aléatoires Xi soient Gaussiennes. Alors X̄n suit une
que
σ2
loi N m, n .

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 35 / 164


Intervalle de confiance de la moyenne : σ2 connue

Proposition
Supposons que n ≥ 30. Alors, l’intervalle de m de niveau de confiance de 1 − α
est h σ σ i
X̄n − uα/2 √ , X̄n + uα/2 √ ,
n n
 
où P Y ≥ uα/2 = α2 , Y de loi N (0, 1).

Proposition
Supposons que n < 30 et que l’hypothèse Gaussienne soit vérifiée. Alors,
l’intervalle de m de niveau de confiance de 1 − α est
h σ σ i
X̄n − uα/2 √ , X̄n + uα/2 √ .
n n

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 36 / 164


Preuve lorsque n ≥ 30

Preuve
D’après le théorème de la limite centrale, on a :
√ X̄n − m
P(| n |≤ uα/2 ) ∼ P(| Y |≤ uα/2 ) = 1 − α,
σ
et par conséquent
σ σ
P(X̄n − uα/2 √ ≤ m ≤ X̄n + uα/2 √ ) = 1 − α.
n n

Comme σ2 est connue, la proposition est démontrée.

Remarque
Lorsque n < 30 et que l’hypothèse Gaussienne est vérifiée, la démonstration est
identique, mais il s’agit d’une égalité (et non d’une approximation)

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 37 / 164


Opérations sur les limites

Théorème (Théorème de Slutsky)


Supposons que la suite (Xn ) converge en loi vers la variable aléatoire X et que la
suite (Yn ) converge vers la variable aléatoire constante c en probabilité. Alors la
suite (Xn + Yn ) converge en loi vers la variable aléatoire X + c et la suite
(Xn × Yn ) converge en loi vers la variable aléatoire cX.

Proposition
S’il existe une suite de réels λn → +∞, n → +∞ telle que la suite (λn (Xn − c))
converge en loi vers la variable aléatoire X, alors la suite (Xn ) converge vers la
variable aléatoire constante c en probabilité.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 38 / 164


Application statistique

Soit un échantillon X1 , .., Xn dont la loi dépend d’un paramètre θ0 . Considérons


les estimateurs θ̂n de θ0 . Le résultat suivant est fort utile en statistique.

Théorème
Supposons que la suite (λn (θ̂n − θ0 )) converge en loi vers la variable aléatoire
Y(θ0 ) où λn → +∞, n → +∞. Soit g une fonction dérivable au point θ0 . Alors
la suite (λn (g(θ̂n ) − g(θ0 ))) converge en loi vers la variable aléatoire
0
g ( θ0 ) Y ( θ0 ).

La formule de Taylor est le point clé de la preuve. En effet,

g θ̂n − g (θ0 ) = θ̂n − θ0 g0 (θ0 ) + rn


  

avec rn → 0.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 39 / 164


Application statistique

Dans le cadre
√ du modèle binomial, le théorème de la limite centrale implique que
la suite ( n (X¯n − p)) converge en loi vers la variable aléatoire X de loi
N (0, p(1 − p)). D’après ce qui précède, la suite (X¯n ) converge vers la variable
aléatoire constante p en probabilité. Ainsi la suite (X¯n × (1 − X¯n )) converge vers
la variable aléatoire constante p × (1 − p) en probabilité, et donc la suite
((X¯n × (1 − X¯n ))−1/2 ) converge vers la variable aléatoire constante
√ X¯n − p
(p × (1 − p))−1/2 en probabilité. En conclusion, la suite ( n p )
X¯n × (1 − X¯n )
converge en loi vers la variable aléatoire Y de loi N (0, 1). On peut maintenant
construire un intervalle de confiance de p.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 40 / 164


Intervalle de confiance de p

Proposition
L’intervalle de p de niveau de confiance de 1 − α est

X¯n × (1 − X¯n ) ¯ X¯n × (1 − X¯n ) i


h p p
¯
Xn − uα/2 √ , Xn + uα/2 √ ,
n n
 
où P Y ≥ uα/2 = α2 , Y de loi N (0, 1).

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 41 / 164


Preuve

Preuve
D’après le théorème de la limite centrale, on a :
√ X¯n − p
P(| n p |≤ uα/2 ) ∼ P(| Y |≤ uα/2 ) = 1 − α,
X¯n × (1 − X¯n )

et par conséquent

¯n × (1 − X¯n ) X¯n × (1 − X¯n )


p p
X
P(X¯n − uα/2 √ ≤ p ≤ X¯n + uα/2 √ ) = 1 − α.
n n

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 42 / 164


Exemple 1/3

Exemple
Soit un échantillon X1 , .., Xn de loi de Poisson P (λ). On s’intéresse à la quantité
e− λ = P (X = 0 ).
La loi des grands nombres et le théorème de √ la limite centrale
 impliquent que
(X̄n ) converge en probabilité vers λ et que n (X̄n − λ) converge en loi
lorsque n → +∞ vers une variable aléatoire de loi N (0, λ).
Posons g (u) = e−u , u >  0. La fonction g est infiniment dérivable.
Ainsi, on en déduit que e−X̄n converge en probabilité vers e−λ , et que la suite

)) convergeen loi lorsque n → +∞ vers une variable

n (g (X̄n ) − g (λ
2
aléatoire de loi N 0, λ −e−λ .
On peut maintenant construire un intervalle de confiance de e−λ .

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 43 / 164


Exemple 2/3

Exemple
En effet
√ e−X̄n − e−λ
P(| n× √ |≤ uα/2 ) ∼ P(| Y |≤ uα/2 ) = 1 − α,
λ × e− λ
et par conséquent
√ √
−X̄n λ × e− λ λ × e− λ
P(e − uα/2 √ ≤ e−λ ≤ e−X̄n + uα/2 √ ) = 1 − α.
n n

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 44 / 164


Exemple 3/3

Exemple
Par application de la loi des grands nombres, on obtient l’intervalle de confiance
de e−λ de niveau 1 − α
p p
h
−X̄n X̄n × e−X̄n −X̄n X̄n × e−X̄n i
e − uα/2 √ ,e + uα/2 √
n n

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 45 / 164


Table des matières
1 Introduction aux problèmes statistiques
Modélisation élémentaire
Les problèmes statistiques
Rappels de probabilités et applications statistiques
2 Modèles statistiques
Introduction
Modèles paramétriques classiques
3 Notion d’estimation non-paramétrique
Modèles et lois empiriques
Estimateurs empiriques
4 Méthodes d’estimation paramétriques
Méthodes empiriques
Le maximum de vraisemblance
5 Intervalles de confiance
Méthodes de construction des intervalles de confiance
Intervalle de confiance d’une moyenne
Intervalle de confiance d’un pourcentage
Intervalle de confiance d’une variance
Exemples
6 Révisions
Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 46 / 164
Généralités

Soit une suite de variables aléatoires X1 , .., Xn et leurs réalisations x1 , .., xn .


Construire un modèle statistique, c’est se donner une famille de lois Pθ ,
dépendant d’un paramètre θ telle que la loi jointe de (X1 , .., Xn ) soit dans la
famille Pθ . Cette étape est délicate. En général, il est difficile d’obtenir un
modèle exact et on se contentera de modèles approchés. L’expérience statistique
est la donnée de la famille de lois Pθ .
Lorsque les variables aléatoires X1 , .., Xn sont iid (échantillon), on parle de modèle
d’échantillonage.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 47 / 164


Types de modèles

1 Modèles paramétriques : les lois Pθ ne dépendent que du paramètre inconnu


θ. (voir prochain paragraphe)
2 Modèles non paramétriques : les lois Pθ sont mal connues et le paramètre
inconnu θ appartient à un espace de fonctions.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 48 / 164


Exemples de modèles non paramétriques

On se limite aux modèles d’échantillonage.


1 Lorsque les lois Pθ décrivent toutes les lois possibles, le paramètre inconnu θ
peut s’identifier à la fonction de répartition associée à l’échantillon.
2 On peut imposer des restrictions sur les densités possibles des lois Pθ . Par
exemple, on considère l’ensemble des densités unimodales sur [0, 1].

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 49 / 164


Types de modèles paramétriques

1 Modèles discrets
2 Modèles continus

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 50 / 164


Modèles discrets

1 Modèle de Bernoulli
2 Modèle binômial
3 Modèle multinômial
4 Loi de Poisson
5 Loi géometrique

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 51 / 164


Loi de Bernoulli

Définition
La variable aléatoire X suit une loi de Bernoulli de paramètre p si

P(X = 1) = p et P(X = 0) = 1 − p.

Proposition
EX = 0 · (1 − p) + 1 · p = p,
et
VarX = 02 · (1 − p) + 12 · p − p2 = p (1 − p.) .

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 52 / 164


Loi binômiale

Définition
La variable aléatoire X suit une loi binômiale de paramètres n et p, notée B(n, p),
si
∀ k ∈ {0, .., n}, P (X = k) = Ckn pk (1 − p)n−k .
n
On peut remarquer que X = ∑ Xi , où les variables aléatoires Xi sont
i=1
indépendantes de loi de Bernoulli de paramètre p.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 53 / 164


Propriétés

Proposition
EX = p + p + ... + p = n p
et

VarX = VarX1 + VarX2 + ... + VarXk + ... + VarXn = n p (1 − p).

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 54 / 164


Loi multinômiale

Définition
Le vecteur aléatoire N = (N1 , .., Nm ) suit une loi multinômiale de paramètres
n, p1 , .., pm−1 et pm , si

n! n
P (n1 , .., nm ) = p 1 ... pnmm ,
n1 !...nm ! 1

avec pi > 0, ∑m m m
i=1 pi = 1, ∑j=1 Nj = n et ∑j=1 nj = n.

Proposition
1 Chaque variable aléatoire Nj suit une loi binômiale de paramètres n et pj
2 cov(Nj , Nl ) = −npj pl , j 6= l.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 55 / 164


Loi de Poisson

Définition
La variable aléatoire X suit une loi de Poisson de paramètre λ, notée P(λ), λ > 0,
si
λk
∀ k ∈ N, P (X = k) = e−λ .
k!

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 56 / 164


Propriétés
On a
+∞
∑ P (X = k) = 1,
k =0
puisque
+∞
λk
∑ k!
= eλ
k =0

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 57 / 164


Exemple
Calculons l’espérance et la variance de la loi de Poisson.

k 0 1 2 ...
P (X = k ) λ2 ...
e− λ λ e− λ 2 e− λ

On a :

n
EX = 0 · e−λ + λe−λ + ... + k λk! e−λ + ...
+∞ k
= ∑ k λk! e−λ
k =1
+∞
λ k −1
= λ e− λ ∑ (k −1) !
k =1
+∞
λk
= λ e− λ ∑ k! = λ e− λ eλ = λ
k =0

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 58 / 164


Exemple
On a :
+∞
λk
E (X (X − 1)) = ∑ k (k − 1 ) e− λ k!
k =2
+∞
λk
= ∑ e− λ (k −2) !
k =2
= λ2 ,
et donc

EX2 = λ2 + EX.
Ainsi, on obtient :

VarX = EX2 − (EX)2


= λ2 + EX − (EX)2
= λ2 + λ − λ2 = λ.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 59 / 164


Loi géometrique

Définition
La variable aléatoire X suit une loi géométrique de paramètre 0 < p < 1, notée
LG(p), si
∀ n ∈ N∗ , P (X = n ) = p (1 − p )n−1 .

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 60 / 164


Propriétés 1/5

Proposition
On a
+∞
∑ P (X = n) = 1.
n=1

Indication.
+∞
1
∑ (1 − p )n−1 = p
n=1

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 61 / 164


Propriétés 2/5

Proposition
On a

P (X ≤ n) = 1 − (1 − p)n .

Indication.
n−1
1 − (1 − p)n
∑ (1 − p )i−1 = p
i=1

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 62 / 164


Propriétés 3/5

Proposition
On a
1
EX = .
p

Indication. On a
+∞ +∞
EX = ∑ n P (X = n) = p ∑ n (1 − p)n−1 := p S.
n=1 n=1

On remarque
+∞
1
S − (1 − p)S = ∑ (1 − p)n = .
p
n=0
et donc
1
S= .
p2

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 63 / 164


Propriétés 4/5

Proposition
On a
1−p
VarX = .
p2

Indication. On a
+∞ +∞
EX2 = ∑ n2 P (X = n) = p ∑ n2 (1 − p)n−1 := p T.
n=1 n=1

On vient de prouver que


+∞
1
S= ∑ n (1 − p )n−1 =
p2
.
n=1

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 64 / 164


Propriétés 5/5

En utilisant un résultat d’analyse sur les séries entières (hors programme), on


obtient en dérivant par rapport à p
+∞
0 −2
S =− ∑ n (n − 1 ) (1 − p )n−2 =
p3
,
n=1

et donc
+∞
2(1 − p)
∑ n (n − 1 ) (1 − p )n−1 =
p3
.
n=1
On en déduit
+∞
2(1 − p) 2−p
T= ∑ n2 (1 − p)n−1 =
p3
+S = 3 .
p
n=1

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 65 / 164


Modèles continues

1 Loi uniforme
2 Loi exponentielle
3 Loi normale
4 Paramètres d’échelle et de translation
5 Loi du Khi-deux
6 Loi de Student

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 66 / 164


Loi uniforme

Définition
La variable aléatoire X suit une loi uniforme sur [0, 1], notée U [0, 1], si sa densité
est égale à
f (x) = 1, 0 ≤ x ≤ 1.

Proposition
1 1
EX = et VarX = .
2 12

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 67 / 164


Loi exponentielle

Définition
La variable aléatoire X suit une loi exponentielle de paramètre 1, si sa densité est
égale à
f (x) = e−x , x ≥ 0.

Proposition
EX = 1 et VarX = 1.

Proposition
P(X ≥ a + x | X ≥ a) = P(X ≥ x)

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 68 / 164


Loi normale

Définition
La variable aléatoire X suit une loi normale de paramètres m et σ2 (σ > 0),
notée N (m, σ2 ), si sa densité est égale à
!
1 (x − m)2
f (x) = √ exp − , x ∈ R.
σ 2π 2σ2

Proposition
EX = m et VarX = σ2 .

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 69 / 164


Illustrations

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 70 / 164


Propriété fondamentale

Proposition
Soit X une variable aléatoire de loi N (m, σ2 ). Alors la variable aléatoire

X−m
Z=
σ
suit une loi N (0, 1).

Montrons ce résultat. Soit z ∈ R. On a :


G (z) = P (Z ≤ z)
= P (X ≤ m + σz) = FX (m + σz) ,

et donc la densité

g (z) = σ × f (m +
 σz) 
= √ exp − 21 z2 .
1

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 71 / 164


Fonction de répartition

La fonction de répartition d’une variable aléatoire de loi N (m, σ2 ) n’a pas


d’expression simple. On a :
!
1 x (t − m)2
FX ( x ) = √ ∫ exp − dt
σ 2π −∞ 2σ2

Proposition
Soit Z une variable aléatoire de loi N (0, 1). Pour tout z ≥ 0, on a :

G (z) + G (−z) = 1.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 72 / 164


Figure: Densité de la loi N (0, 1)

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 73 / 164


Valeurs remarquables

Proposition
Soit Z une variable aléatoire de loi N (0, 1). Les valeurs remarquables sont

1
P(Z > 0) = , P(Z > 1.64) = 0.05, P(Z > 1.96) = 0.025
2

Exemple
Calculer P (Z ≤ −1.96) et P (−1.64 ≤ Z ≤ 0).

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 74 / 164


Lecture de tables

Comment trouver P (Z ≤ 1.96) en consultant une table ?

Z 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08


0 0.50000 0.50399 0.50798 0.51197 0.51595 0.51994 0.52392 0.52790 0.5318
...
1.6 0.94520 0.94630 0.94738 0.94845 0.94950 0.95053 0.95154 0.95254 0.9535
...
1.9 0.97128 0.97193 0.97257 0.97320 0.97381 0.97441 0.97500 0.97558 0.9761
...

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 75 / 164


Exemple

Exemple
Soit X une variable aléatoire de loi N (0, 1). Posons Y = 3X + 5. Calculons
P(−1 ≤ Y ≤ 8). La lecture de tables donne P (X ≤ 1) = 0.84 et
P (X ≤ 2) = 0.97 .
On a :
P(−1 ≤ Y ≤ 8) = P(−1 ≤ 3X + 5 ≤ 8)
= P (−6 ≤ 3X ≤ 3)
= P (−2 ≤ X ≤ 1) .
Ainsi, on obtient :

P(−1 ≤ Y ≤ 8) = F (1) − F (−2)


= F (1) + F (2) − 1
= 0.97 + 0.84 − 1 = 0.81 .

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 76 / 164


Moments

Soit X une variable aléatoire de loi N (0, 1). On a pour n ≥ 0 :

EX2n+1 = 0,
(2n)!
EX2n = 2n n! .

Soit X une variable aléatoire de loi N (0, 1). Posons Y = X2 . Les variables
aléatoires X et Y ne sont pas indépendantes par construction. Or,

cov (X, Y) = E (XY) − EX EY


= E X3 − EX EX2
= 0 − 0 = 0.
Les variables aléatoires X et Y ne sont donc pas corrélées.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 77 / 164


Autre propriété

Proposition
Soit X1 une variable aléatoire de loi N m1 , σ12 et X2 une variable aléatoire de loi


N m2 , σ22 . Supposons que les variables aléatoires X1 et X2 soient




indépendantes. Alors la variable aléatoire X1 + X2 suit la loi


N m1 + m2 , σ12 + σ22 .

Ce résultat est faux sans l’hypothèse d’indépendance.


Ce résultat se généralise à une suite de variables aléatoires Gaussiennes
indépendantes.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 78 / 164


Exemple
Soit X une variable aléatoire de loi N (0, 1) et ε une variable aléatoire à valeurs
dans {−1, +1} telle que P (ε = −1) = P (ε = +1) = 12 . Supposons que les
variables aléatoires X et ε soient indépendantes. Posons Y = εX. On peut
montrer que Y suit la loi N (0, 1). Les variables aléatoires X et Y ne sont pas
indépendantes par construction. On peut montrer qu’elles ne sont pas corrélées.
On peut aussi montrer que X + Y ne suit pas une loi normale. En effet
P (X + Y = 0) = 21 . On peut aussi déterminer le loi de X + Y.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 79 / 164


Paramètres d’échelle et de translation

Soit X une variable aléatoire de fonction de répartition F et de densité f .


Considérons la nouvelle variable aléatoire Y = aX + b, a > 0. De suite
y−b
G(y) = P(Y ≤ y) = F( )
a
et
1 y−b
f(
g(y) = ).
a a
Dans ce cas, a s’appelle un paramètre d’échelle et b un paramètre de translation.

Exemple
1 Lois normales : N (m, σ2 ) et N (0, 1)
2 Lois uniformes : U [a, b] et U [0, 1]

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 80 / 164


Paramètres d’échelle et de translation : suite

Proposition
EY = aEX + b et VarY = a2 VarX.

Exemple
1
1 Lois de Laplace de densité : f (x) = 2 exp(− | x |) et
1 |x−b|
g(x) = 2a exp(− a )
1 1 1
2 Lois de Cauchy de densité : f (x) = π ( 1 + x2 )
et g(x) = aπ (x−b)2
1+
a2

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 81 / 164


Loi du Khi-deux

Définition
On considère n variables aléatoires X1 , .., Xn indépendantes et de loi N (0, 1). La
variable aléatoire
n
Z= ∑ Xi2
i=1

suit une loi du khi-deux à n degrés de liberté, notée χ2 (n).

La densité de Z est :
1  z
f (z) =  z(n−2)/2 exp − ,z ≥ 0,
2n/2 Γ n
2
2
avec
+∞
Γ (x) = ∫ tx−1 exp (−t) dt,x > 0.
0

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 82 / 164


Fonction Gamma

On en déduit :

Γ (1) = 1,
pour n ∈ N

Γ (n + 1) = n!,
et pour x > 0

Γ (x + 1) = x Γ (x) .

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 83 / 164


Moments de la loi du Khi-deux

On a :

2k Γ k + n2

k
EZ = ,
Γ n2


En particulier,

EZ = n,
et

VarZ = 2 n

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 84 / 164


Illustrations

La loi du Khi-deux est tabulée. Lorsque n ≥ 50, elle s’approxime par la loi
N (0, 1).

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 85 / 164


Loi de Student

Définition
Soit X de loi N (0, 1) et Y de loi χ2 (n). Supposons que les variables X et Y soient
indépendantes. Alors la variable aléatoire
X
T= √
Y/n

suit une loi de Student à n degrés de liberté, notée T (n).

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 86 / 164


Propriétés

La densité de T est :

 − n+ 1
 
Γ n+1
2

t2 2
f (t) = √ 1+ ,t ∈ R.
Γ n

πn 2
n
Lorsque n = 1, on retrouve la loi de Cauchy de densité
1
f (t) = .
π (1 + t2 )

La loi de Student est tabulée. Lorsque n ≥ 30, elle s’approxime par la loi N (0, 1).

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 87 / 164


Illustrations

Figure: Densités de la loi de Student pour différentes valeurs de n

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 88 / 164


Table des matières
1 Introduction aux problèmes statistiques
Modélisation élémentaire
Les problèmes statistiques
Rappels de probabilités et applications statistiques
2 Modèles statistiques
Introduction
Modèles paramétriques classiques
3 Notion d’estimation non-paramétrique
Modèles et lois empiriques
Estimateurs empiriques
4 Méthodes d’estimation paramétriques
Méthodes empiriques
Le maximum de vraisemblance
5 Intervalles de confiance
Méthodes de construction des intervalles de confiance
Intervalle de confiance d’une moyenne
Intervalle de confiance d’un pourcentage
Intervalle de confiance d’une variance
Exemples
6 Révisions
Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 89 / 164
Modèles et paramètres à estimer

On se limite aux modèles d’échantillonage.

Définition
On appelle fonction de répartition d’une variable aléatoire réelle X la fonction
F : R → [0, 1] définie par

F (x) = P ({ω ∈ Ω : X (ω ) ≤ x})


= P (X ≤ x)

Proposition
F est une fonction croissante de 0 à 1 et continue (à droite) en tout point.

Remarque
Une fonction de répartition n’est pas toujours bijective. Dans le cas bijectif, son
expression peut être fort compliquée, et donc celle de sa réciproque.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 90 / 164


Remarque

Remarque
Soit A un sous-ensemble de R. L’estimation de P(X ∈ A) est un problème
paramétrique car les variables aléatoires IA (Xi ) sont iid de loi de Bernoulli de
paramètre θ.

Remarque
IA désigne la fonction indicatrice. Celle-ci a de nombreuses propriétés.
Déterminer les fonctions indicatrices des ensembles Ā, A ∩ B, A ∪ B.

Charles El Nouty (LAGA) Statistique Deux 2021 - 2022 91 / 164

Vous aimerez peut-être aussi