Vous êtes sur la page 1sur 119

Cours de Statistique Mathématique

ENSEA-ITS 2 (2010-2011)

Dr Armel Fabrice Yodé


Laboratoire de Mathématiques Appliquées et Informatique (L.M.A.I.)
UFR Mathématique et Informatique
Université de Cocody-Abidjan, Côte d’Ivoire
yafevrard@yahoo.fr

26 septembre 2010
Nous avons confiance en Dieu ; que tous les autres apportent des
justificatifs. [Edwards Deming, Professeur de statistique américain,
1900-1993]
Table des matières

1 Introduction 7

2 Rappels et Compléments de probabilité 9


2.1 Espace probabilisé . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Probabilités conditionnelles, indépendance. . . . . . . . . . . . 11
2.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.2 Variables aléatoires réelles discrètes . . . . . . . . . . . 14
2.3.3 Variables aléatoires à densité . . . . . . . . . . . . . . . 14
2.4 Moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.5 Vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . 16
2.5.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.5.2 Indépendence . . . . . . . . . . . . . . . . . . . . . . . 17
2.5.3 Couple de variables aléatoires . . . . . . . . . . . . . . 17
2.5.4 Vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . 18
2.6 Fonction caractéristique . . . . . . . . . . . . . . . . . . . . . 20
2.7 Convergence et Théorèmes limites . . . . . . . . . . . . . . . . 21
2.7.1 Convergence . . . . . . . . . . . . . . . . . . . . . . . . 21
2.7.2 Théorèmes limites . . . . . . . . . . . . . . . . . . . . . 22
2.8 Lois usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.8.1 Lois discrètes . . . . . . . . . . . . . . . . . . . . . . . 23
2.8.2 Lois à densité . . . . . . . . . . . . . . . . . . . . . . . 26
2.9 Famille exponentielle . . . . . . . . . . . . . . . . . . . . . . . 27

3 Problèmes et outils statistiques 29


3.1 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2 Echantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.1 Population taille finie . . . . . . . . . . . . . . . . . . . 30
3.2.2 Expériences renouvelables . . . . . . . . . . . . . . . . 31
3.2.3 Echantillonnage aléatoire . . . . . . . . . . . . . . . . . 31
3.2.4 Modèles d’échantillonnage . . . . . . . . . . . . . . . . 34

3
4 TABLE DES MATIÈRES
3.3 Modélisation statistique . . . . . . . . . . . . . . . . . . . . . 37
3.4 Théorie de la décision . . . . . . . . . . . . . . . . . . . . . . . 38
3.5 Statistique exhaustive, libre, totale . . . . . . . . . . . . . . . 40
3.5.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.6 Familles exponentielles . . . . . . . . . . . . . . . . . . . . . . 42

4 Estimation ponctuelle 45
4.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.2 Propriétés des estimateurs . . . . . . . . . . . . . . . . . . . . 45
4.3 Information de Fisher . . . . . . . . . . . . . . . . . . . . . . . 46
4.3.1 Cas où θ est unidimensionnel . . . . . . . . . . . . . . 46
4.3.2 Généralisation au cas où θ est multidimensionnel . . . 48
4.4 Estimateur sans biais . . . . . . . . . . . . . . . . . . . . . . . 49
4.4.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.4.2 Amélioration d’un estimateur sans biais . . . . . . . . . 50
4.4.3 Cas des familles exponentielles . . . . . . . . . . . . . . 51
4.5 Methode du maximum de vraisemblance . . . . . . . . . . . . 52
4.5.1 Propriétés à distance finie . . . . . . . . . . . . . . . . 52
4.5.2 Propriétés asymptotiques . . . . . . . . . . . . . . . . . 52

5 Estimation par intervalle de confiance 55


5.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.2 Construction d’un intervalle de confiance . . . . . . . . . . . . 56
5.3 Intervalles de confiance classiques . . . . . . . . . . . . . . . . 56
5.3.1 Echantillon issu d’une loi normale N (µ, σ 2 ) . . . . . . . 56

6 Tests d’hypothèses 63
6.1 Principe des tests . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.1.2 p-valeur . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.1.3 Etapes d’un test d’hypothèses . . . . . . . . . . . . . . 66
6.2 Test de Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . 66
6.3 Tests entre hypothèses composites . . . . . . . . . . . . . . . . 71
6.3.1 Famille à rapport de vraisemblance monotone . . . . . 72
6.3.2 Tests U.P.P. . . . . . . . . . . . . . . . . . . . . . . . . 72
6.3.3 Tests U.P.P.S.B. . . . . . . . . . . . . . . . . . . . . . . 74
6.4 Tests du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.4.1 Test d’adéquation à une loi donnée . . . . . . . . . . . 76
6.4.2 Test d’adéquation à une famille de lois . . . . . . . . . 77
6.4.3 Test d’indépendance . . . . . . . . . . . . . . . . . . . 78
TABLE DES MATIÈRES 5
7 Régression linéaire 81
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
7.2 Régression simple : p = 1 . . . . . . . . . . . . . . . . . . . . . 82
7.2.1 Modélisation . . . . . . . . . . . . . . . . . . . . . . . 82
7.2.2 Estimateurs des moindres carrés . . . . . . . . . . . . . 82
7.2.3 Modèle linéaire Gaussien simple . . . . . . . . . . . . . 86
7.3 Regression linéaire multiple : p > 1 . . . . . . . . . . . . . . . 87
7.3.1 Modélisation . . . . . . . . . . . . . . . . . . . . . . . 87
7.3.2 Estimateurs des moindres carrés ordinaires . . . . . . . 88
7.3.3 Modèle gaussien . . . . . . . . . . . . . . . . . . . . . . 91

8 Travaux dirigés 2010-2011 95


8.1 TD 1 Problèmes et outils statistiques . . . . . . . . . . . . . . 95
8.2 TD 2 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . 97
8.3 TD 3 Estimation par intervalle . . . . . . . . . . . . . . . . . 99
8.4 TD 4 Test d’hypothèses . . . . . . . . . . . . . . . . . . . . . 100
8.5 TD 5 Modèles linéaires . . . . . . . . . . . . . . . . . . . . . . 102

9 Examens 103
6 TABLE DES MATIÈRES
Chapitre 1

Introduction

Le mot ”statistique” désigne à la fois un ensemble de données d’obser-


vations et l’activité qui consiste dans leur recueil, leur traitement et leur in-
terprétation.
Les méthodes statistiques sont utilisées dans plusieurs secteurs de l’activité
humaine. Parmi les nombreuses applications, citons
- dans le domaine industriel : la fiabilité des matériels, le contrôle de qua-
lité, l’analyse des résultats de mesure et leur planification, la prévision...
- domaine de l’économie et des sciences de l’homme : les modèles économétrique,
les sondages, les enquêtes d’opinion, les études quantitatives de marché...

Démarche statistique classique


La démarche statistique comporte usuellement trois phases :
1. Le recueil des données. Les deux grandes méthodologie de collecte de
données sont les sondages et les plans d’expériences.
2. L’exploration des données. La statistique exploratoire a pour but de
synthétiser, résumer, structurer l’information contenue dans les données.
Elle utilise pour cela des représentations des données sous forme de ta-
bleaux, de graphiques et d’indicateurs numériques.
Le rôle de la statistique exploratoire est de mettre en évidence des pro-
priétés de l’échantillon et de suggérer des hypothèses.
3. L’inférence statistique. Le but est d’étendre les propriétés constatées
sur l’échantillon à la population toute entière et de valider ou d’infirmer
des hypothèses a priori ou formulées après une phase exploratoire. Le
calcul des probabilités joue un rôle fondamental.

7
8 CHAPITRE 1. INTRODUCTION
Statistique et probabilités
La théorie des probabilités étudie les propriétés de certaines structures
modélisant des phénomènes où le hasard intervient. Les probabilités sont uti-
lisées en Statistique pour pouvoir extrapoler à la population les résultats
constatés sur l’échantillon.
Chapitre 2

Rappels et Compléments de
probabilité

2.1 Espace probabilisé


Définition 1. Une expérience E est qualifiée d’aléatoire si on ne peut pas
prévoir par avance son résultat et si, répétée dans des conditions identiques,
elle peut donner lieu à des résultats différents.

On notera Ω l’ensemble des résultats possibles de l’expérience aléatoire E ; Ω


est appelé univers ou espace fondamental.

Définition 2. Un événement est une proposition logique sur les résultats


possibles de l’expérience. Un événement est identifié à un sous-ensemble de
l’espace fondamental dont tous les éléments vérifient la proposition logique
associée.

Exemple 1. 1. Soit l’expérience aléatoire ”lancer une pièce” (non pipée si


l’on veut vraiment une expérience aléatoire). L’espace fondamental est
Ω = {pile, face}.
2. Soit l’expérience aléatoire ”lancer deux dés discernables” (et non pipés
si l’on veut vraiment une expérience aléatoire). L’espace fondamental
est Ω = {(i, j) : 1 ≤ i, j ≤ 6} et l’évènement A =”obtenir un total
des nombres > 10”. A se réalise pour les évènements élémentaires (6, 5),
(5, 6), (6, 6).

On notera P(Ω) l’ensemble des parties de Ω.

Définition 3. Tout ensemble A vérifiant


• A ⊂ P(Ω)
• ∅∈A

9
10 Armel Fabrice YODÉ

• A ∈ A =⇒ Ā = {x ∈ Ω et x 6∈ A} ∈ A
[
• pour toute famille finie ou dénombrable (Ai )i∈I ⊂ A =⇒ Ai ∈ A
i∈I

s’appelle une tribu sur Ω. Les éléments de A sont appelés événements.

Exemple 2. 1. Soit Ω, l’univers associé à une expérience aléatoire. Alors,


P(Ω) et A = {Ω, ∅} sont des tribus sur Ω.
2. Soit l’expérience aléatoire ”lancer une pièce” (non pipée si l’on veut vrai-
ment une expérience aléatoire). Supposons que pile≡ 1 et face≡ 0. Alors,
l’ensemble des parties de Ω = {0, 1} est défini par

P(Ω) = {{0}, {1}, {0, 1}, ∅} .

Remarque 1. • Le couple (Ω, A) est appelé espace probabilisable.


• Soit C ⊂ P(Ω). La tribu σ(C) engendrée par C est la plus petite tribu
contenant C ; c’est l’intersection de toutes les tribus contenant C.
• Si Ω est muni d’une topologie alors la tribu engendrée par la classe des
ouverts de Ω est appelée tribu borélienne. Dans la suite, si Ω = R on
notera A = B(R) la tribu borélienne sur R.

Définition 4. On appelle probabilité sur (Ω, A) une application P : A →


[0, 1] telle que :
(i) P(Ω) = 1
(ii) Si (Ai )i∈I est une famille dénombrable d’éléments de A deux à deux
disjoints ou incompatibles (i.e. ∀i 6= j, Ai ∩ Aj = ∅) alors
!
[ X
P Ai = P(Ai ).
i∈I i∈I

On appelle espace probabilisé le triplet (Ω, A, P).

Proposition 1. Soient (Ω, A, P) un espace probabilisé et A, B ∈ A. Alors


- P(∅) = 0
- P(Ā) = 1 − P(A)
- Si A ⊂ B alors P(A) ≤ P(B)
- P(A ∪ B) = P(A) + P(B) − P(A ∩ B)

Preuve. Exercice.

10
ENSEA-ITS2 11

2.2 Probabilités conditionnelles, indépendance.


Soit (Ω, A, P) un espace probabilisé. La notion de probabilité conditionnelle
permet de prendre en compte l’information dont on dispose (à savoir qu’un
événement B est réalisé) pour calculer la probabilité d’un événement A.

2.2.1 Définitions
Définition 5. Soient A et B deux évènements tels que P(B) > 0. On appelle
probabilité conditionnelle de A sachant que B s’est réalisé, le réel défini par

P(A ∩ B)
P(A/B) = .
P(B)

Proposition 2. P(·/B) est une probabilité sur (Ω, A).

Preuve. Exercice.

Définition 6. Soient A et B deux évènements tels que P(B) > 0. Alors A et


B sont indépendants si P(A/B) = P(A)

Remarque 2. 1. A et B sont indépendants si P(A ∩ B) = P(A)P(B).


2. Supposons que P(A) > 0 et P(B) > 0. Nous avons

P(A/B) = P(A) ⇔ P(B/A) = P(B) (à vérifier)

Définition 7. Les événements A1 , . . . , An sont dits mutuellement indépendants


si !
\ Y
∀I ⊂ {1, . . . , n}, P Ai = P(Ai ).
i∈I i∈I

Remarque 3. Attention ! ! !
• indépendance6=incompatibilité
• Pour que 3 événements soient mutuellement indépendants, il ne suffit pas
qu’ils soient 2 à 2 indépendants. La condition d’indépendance mutuelle
est beaucoup plus forte que l’indépendance deux à deux qui ne lui est
pas équivalente mais en est une simple conséquence.
Exemple 3. Jet de deux pièces à Pile ou Face : Ω = {P P, P F, F P, F F }
où par exemple ”PF” signifie que la première pièce donne Pile et la se-
conde Face. Cet espace est muni de la probabilité uniforme. On considère
les événements suivants
A=”la première pièce donne Pile”
B=”la seconde pièce donne Face”

ANNEE UNIVERSITAIRE 2010-2011


12 Armel Fabrice YODÉ

C=”les deux pièces donnent le même résultat”.


(a) Vérifier que A, B et C sont deux à deux indépendants.
(b) Calculer P(A)P(B)P(C) et P(A ∩ B ∩ C). Conclure.

Définition 8. Une famille finie d’événements (Ai )1≤i≤n deux à deux incom-
patibles tels que ∪ni=1 Ai = Ω est appelée système complet d’événements.

Théorème 1. des probabilités totales.


Soit {B1 , . . . , Bn } un système complet d’événements. Alors, nous avons
n
X
∀A P(A) = P(Bi )P(A/Bi ).
i=1

Preuve. Exercice.

Théorème 2. (Formule de Bayes)


Soit {B1 , . . . , Bn } un système complet d’événements et A un événement tel que
P(A) > 0. Alors, nous avons

P(Bi )P(A/Bi )
∀A P(Bi /A) = n .
X
P (Bk )P(A/Bk )
k=1

Preuve. Exercice.

2.3 Variables aléatoires


Soit (Ω, A, P) un espace probabilisé.

2.3.1 Définitions
Définition 9. Une variable aléatoire réelle X est une application de (Ω, A)
dans (R, B(R)) telle que

∀A ∈ B(R), X −1 (B) = {ω ∈ Ω : X(ω) ∈ B} ∈ B.

Exemple 4. Soit l’expérience aléatoire ”lancer deux dés discernables” (et non
pipés si l’on veut vraiment une expérience aléatoire). L’espace fondamental est
Ω = {(i, j) : 1 ≤ i, j ≤ 6}. Soit X la variable aléatoire qui à chaque ω ∈ Ω
associe la somme des numéros affichés. L’ensemble des valeurs possibles de la
variable X est
X(Ω) = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}.

12
ENSEA-ITS2 13
1 2 3 4 5 6
1 2 3 4 5 6 7
2 3 4 5 6 7 8
3 4 5 6 7 8 9
4 5 6 7 8 9 10
5 6 7 8 9 10 11
6 7 8 9 10 11 12

Définition 10. On définit la loi de probabilité de X sur (R, B(R)) par

PX (B) = P X −1 (B)

∀B ∈ B(R).

Exemple 5. Soit l’expérience aléatoire ”lancer deux dés discernables” (et


non pipés si l’on veut vraiment une expérience aléatoire). Soit X la variable
aléatoire qui à chaque ω ∈ Ω associe la somme des numéros affichés. Soit
B = {6}. Nous avons

X −1 (B) = {(5, 1), (1, 5), (2, 4), (4, 2), (3, 3)} .

L’équiprobabilité permet d’écrire


5
PX (B) = .
36
Définition 11. L’application FX : R → [0, 1] telle que

∀x ∈ R FX (x) = P(X ≤ x)

s’appelle fonction de répartition de X.


Exemple 6. Soit l’expérience aléatoire ”lancer deux dés discernables” (et
non pipés si l’on veut vraiment une expérience aléatoire). Soit X la variable
aléatoire qui à chaque ω ∈ Ω associe la somme des numéros affichés. Nous
avons
6
X
P(X ≤ 6) = P(X = k)
k=1
1 2 3 4 5
= + + + + .
36 36 36 36 36
Propriété 1. FX a les propriétés suivantes :
• FX est croissante, continue à droite et possède une limite à gauche (finie)
en chaque point.
• P(a < X ≤ b) = FX (b) − FX (a)
• lim FX (x) = 0 et lim FX (x) = 1.
x→−∞ x→+∞

ANNEE UNIVERSITAIRE 2010-2011


14 Armel Fabrice YODÉ

2.3.2 Variables aléatoires réelles discrètes


Définition 12. La variable aléatoire X est discrète si X(Ω) est un sous-
ensemble fini ou dénombrable de R. La loi de probabilité de X est déterminée
par
• X(Ω) = {x1 , x2 , . . .}
• pi = P(X = xi ).
X
Propriété 2. • pi = 1.
i
• La fonction de répartition FX est une fonction en escalier.

2.3.3 Variables aléatoires à densité


Définition 13. La variable aléatoire réelle X est à densité s’il existe une
fonction fX : R → R̄+ telle que
Z
∀B ∈ B(R), PX (B) = fX (x)dx.
B

fX est appelée densité de probabilité de X.


0
Propriété 3. • En tout point x où fX est continue, on a FX (x) = fX (x).
Z x
• ∀x ∈ R FX (x) = fX (t)dt
−∞
• ∀x ∈ R, fX (x) ≥ 0
Z +∞
• fX (x)dx = 1.
−∞

Définition 14. Soit X une variable aléatoire réelle. Supposons que la fonction
de répartition FX est continue et strictement croissante. Pour 0 ≤ α ≤ 1, on
note xα l’unique nombre réel vérifiant

FX (xα ) = P (X ≤ xα ) = α.

On dit Xα est le quantile d’ordre α.

2.4 Moments
Soit X une variable aléatoire réelle.

Définition 15. On appelle espérance mathématique de X, le nombre réel


(s’il existe)

14
ENSEA-ITS2 15
X
• E(X) = xP(X = x) si X est discrète
x∈X(Ω)
Z +∞
• E(X) = xfX (x)dx si X est à densité.
−∞

Propriété 4. • E(X + Y ) = E(X) + E(Y )


• E(λX) = λE(X), ∀λ ∈ R
• si X ≤ Y alors E(X) ≤ E(Y )
• |E(X)| ≤ E(|X|)
• E(|X|) = 0 ⇔ X = 0.
Proposition 3. Inégalité de Jensen
Si ϕ est une fonction convexe i.e ϕ(λx + (1 − λ)y) ≤ λϕ(x) + (1 − λ)ϕ(y), ∀x
∀y ∀λ ∈ [0, 1], si les espérances existent, nous avons
E(ϕ(X)) ≥ ϕ(E(X)).
Définition 16. - Soit X une variable aléatoire réelle discrète. On appelle
moment d’ordre k ≥ 1, la quantité
X
E(X k ) = xk P (X = x).
x∈X(Ω)

- Soit X une variable aléatoire réelle continue. On appelle moment d’ordre


k ≥ 1, la quantité Z +∞
E(X k ) = xk f (x)dx,
−∞
où f est la densité de probabilité de la v.a.r X.
- On appelle moment centré d’ordre k ≥ 1 le nombre E((X − E(X))k ).
- On appelle variance de la v.a.r X, le nombre positif
var(X) = E((X − E(X))2 ) = E(X 2 ) − (E(X))2 .
p
- La racine carrée de var(X) est appelée écart type de X : σX = var(X).
Proposition 4. Inégalité de Bienaymé-Tchebyshev.

var(X)
P (|X − E(X)| > ε) ≤ .
ε2
Soit ϕ : R → R et Y = ϕ(X). Pour calculer E(Y ), on peut utiliser le
Théorème suivant
Théorème 3. (de transfert).
Sous reserve d’existence, nous avons
Z +∞
E(ϕ(X)) = ϕ(x)dPX (x)
−∞

ANNEE UNIVERSITAIRE 2010-2011


16 Armel Fabrice YODÉ

2.5 Vecteurs aléatoires


2.5.1 Définition
Définition 17. Une vecteur aléatoire X = (X1 , . . . , Xd ) est une application
de (Ω, A) dans (Rd , B(Rd )) telle que

∀A ∈ B(Rd ), X −1 (B) = {ω ∈ Ω : X(ω) ∈ B} ∈ B.

Définition 18. La fonction de répartition du vecteur aléatoire X est définie


par
FX (x1 , . . . , xd ) = P (X1 ≤ x1 , . . . , Xn ≤ xd ).
Propriété 5.

lim FX (x1 , . . . , xd ) = 0, ∀i
xi →−∞

lim FX (x1 , . . . , xd ) = 1
x1 →+∞,...,xd →+∞

Définition 19. Fonction densité conjointe


- Cas discret

fX (x1 , . . . , xd ) = P (X1 = x1 , . . . , Xd = xd )

avec xi ∈ Xi (Ω), i = 1, . . . , d.
- Cas continu.
Si FX est différentiable, alors

∂ d FX (x1 , . . . , xd )
fX (x1 , . . . , xd ) =
∂x1 . . . ∂xd

Propriété 6. Soit X = (X1 , . . . , Xd ) un vecteur aléatoire de dimension d.


Alors les Xi sont des variables aléatoires réelles de fonction de répartition

FXi (xi ) = lim FX (x1 , . . . , xi , . . . , xd )


xj → +∞
j 6= i

et de densité Z Y
fXi (xi ) = fX (x1 , . . . , xd ) dxj .
Rd−1 j6=i

Les mesures de probabilités PXi déterminées à partir des FXi ou des fXi sont
appelées lois marginales de X.
Propriété 7. Soit (X1 , . . . , Xd ) un vecteur aléatoire de dimension d.

16
ENSEA-ITS2 17

• On définit l’espérance de X par


 
E(X1 )
E(X) =  ..
.
 
.
E(Xd )

• On définit la matrice de variance-covariance de la manière suivante


h 0
i
ΣX = E (X − E(X))(X − E(X))
 
var(X1 ) cov(X1 , X2 ) · · · cov(X1 , Xd )
 cov(X1 , X2 ) var(X2 ) · · · cov(X2 , Xd ) 
=
 
.. .. .. 
 . . ··· . 
cov(X1 , Xd ) cov(X2 , Xd ) · · · var(Xd )

où cov(Xi , Xj ) = E(Xi Xj ) − E(Xi )E(Xj ).


• Si Y = AX + B, A est une matrice à p lignes et d colonne, X est un
vecteur aléatoire, B est un vecteur de dimension p, alors

E(Y ) = AE(X) + B
ΣY = AΣX At

2.5.2 Indépendence
Définition 20. On dit que les variables aléatoires X1 , . . . , Xd sont indépendantes
si la densité conjointe vérifie
d
Y
f (x1 , . . . , xd ) = fXi (xi ),
i=1

où fXi est la densité de la variable aléatoire Xi .

Théorème 4. Si X1 , . . . , Xd sont indépendantes alors


1. E(X1 . . . Xd ) = E(X1 ) . . . E(Xd )
2. ΣX = diag(var(X1 ), . . . , var(Xd ))

2.5.3 Couple de variables aléatoires


Définition 21. Le coefficient de corrélation linéaire ρ est défini par

cov(X, Y )
ρ= p p .
var(X) var(Y )

ANNEE UNIVERSITAIRE 2010-2011


18 Armel Fabrice YODÉ

Nous avons −1 ≤ ρ ≤ 1. Pour deux variables indépendantes ρ = 0. La


recirpoque est en générale inexacte. Deux exceptions où ”non-corrélation”
et ”indépendance” sont équivalents sont les couples gaussiens (X, Y ) et les
couples de variables de Bernouilli. Les valeurs limites −1 et 1 sont atteintes si
et seulement si il existe une relation linéaire entre Y et X.
Définition 22. Soient X et Y deux variables aléatoires discrètes. La loi condi-
tionnelle de Y sachant X = x est définie par
P(X = x, Y = y)
P(Y = y/X = x) = .
P(X = x)
Définition 23. Soient X et Y deux variables aléatoires discrètes. On appelle
espérance de Y sachant que X = x la quantité définie par
X
E(Y /X = x) = yP(Y = y/X = x).
y

Définition 24. Si le couple (X, Y ) est à valeur dans R2 et possède une densité
f (x, y), les densités conditionnelles existent et sont données par
f (x, y) f (x, y)
fY /X=x (y) = fX/Y =y (x) = .
fX (x) fY (y)
Définition 25. L’espérance conditionnelle de Y sachant X = x est définie par
Z +∞
E(Y /X = x) = yfY /X=x (y)dy.
−∞

Remarque 4. Lorsque l’une des variables est discrète et l’autre possède une
densité il suffit de remplacer là où c’est nécessaire les intégrales par des sommes
finies et les densités par des probabilités ponctuelles.
Théorème 5. de l’expérance totale.

E(E(Y /X)) = E(Y ).


Propriété 8. Si X et Y sont indépendantes et g et h sont continues alors
g(X) et h(Y ) sont indépendantes.

2.5.4 Vecteurs gaussiens


Définition 26. Un vecteur aléatoire (X1 , . . . , Xn ) est appelé vecteur gaussien
si toute combinaison linéaire de ses coordonnées est gaussienne (ou normale).
Proposition 5. Si X1 , . . . , Xn sont des variables gaussiennes indépendantes,
alors le vecteur aléatoire (X1 , . . . , Xn ) est gaussien.

18
ENSEA-ITS2 19

Proposition 6. Si (X1 , X2 ) est un vecteur gaussien avec cov(X1 , X2 ) = 0,


alors X1 et X2 sont indépendantes.

Si les coordonnéees du vecteur aléatoire X = (X1 , . . . , Xd ) sont indépendantes


et de carré intégrable, alors sa matrice de covariance est diagonale car

∀i 6= j E(Xi Xj ) = E(Xi )E(Xj ) i.e. Cov(Xi , Xj ) = 0.

Dans le cas où X est un vecteur gaussien, le caractère diagonal de la matrice


de covariance s’avère une condition suffisante d’indépendance. Cela vient du
fait que la loi d’un vecteur gaussien ne dépend que de son espérance et de sa
matrice de covariance.

Proposition 7. Les coordonnées d’un vecteur gaussien X = (X1 , . . . , Xd )


sont indépendantes si et seulement si sa matrice de covariance V ar(X) est
diagonale.

Définition 27. Si det(ΣX ) = 0, on dit que X est dit dégénéré.


Si det(ΣX ) > 0, on dit que X est dit non-dégénéré.

Proposition 8. Si X ,→ N (m, ΣX ) est non-dégénéré alors


 
1 1 t −1
fX (x) = dp exp − (x − m) ΣX (x − m) 1IRd (x).
(2π) 2 det(ΣX ) 2

Définition 28. 1. Loi du Chi-deux à n dégrés de liberté χ2 (n), où



n∈N
Si X1 , . . . , Xn sont des variables aléatoires indépendantes identiquement
distribuées telle que Xi ,→ N (0, 1), alors
n
X
Y = Xi2 ,→ χ2 (n)
i=1

a pour densité

1 − x2 n
fY (y) = n/2 n e x 2 −1 1IR+ (x).
2 Γ( 2 )

2. Loi de Fisher-Snedecor Fn,m


Soient X et Y deux variable aléatoires indépendantes suivant respective-
ment les lois χ2 (n) et χ2 (m). La variable aléatoire Fn,m = YX/n
/m
suit une
loi de Fisher-Snedecor à n et m dégrés de liberté.

ANNEE UNIVERSITAIRE 2010-2011


20 Armel Fabrice YODÉ

3. Loi de Student
Soient X et Y deux variables aléatoires indépendantes suivant respecti-
vement N (0, 1) et χ2 (n).
On appelle loi de Student n dégrés de liberté la loi suivie par le rapport
X
Tn = q .
Y
n

Théorème 6. Si X est un vecteur gaussien de dimension n (N (m, Σ)), la


variable aléatoire Y = (X − m)t Σ−1 (X − m) ,→ χ2 (n)
Théorème 7. Soient X et Y deux variables aléatoires indépendante suivant
respectivement deux lois du χ2 (n) et χ2 (m). La variable aléatoire X + Y suit
une loi χ2 (n + m).
Théorème 8. (de Cochran).
Soit X1 , . . . , xn des variables aléatoires indépendantes identiquement distribuées
suivant la loi N (µ, σ 2 ) avec σ 2 > 0. Posons
n n
1X 1 X
Xn = Xi , Sn2 = (Xi − X n )2 .
n i=1 n − 1 i=1

Alors, nous avons


• X n et Sn2 sont indépendantes.
σ2
 
• X n ,→ N µ,
n
(n − 1)Sn2
• ,→ χ2 (n − 1).
σ2

n(X n − µ)
• ,→ T (n − 1).
σ

2.6 Fonction caractéristique


Définition 29. Si X est une variable aléatoires à valeurs dans Rd , sa fonction
caractéristique est φX : Rd −→ C défini par

φX (u) = E(ei<u,X> )

où < u, X > désigne le produit scalaire de X = (X1 , . . . , Xd )t et u = (u1 , . . . , ud )t :


d
X
< u, X >= ui Xi
i=1

20
ENSEA-ITS2 21

Propriété 9. 1. La fonction caracteristique caracterise la loi de X


2. φX est bornée : ∀u ∈ Rd , |φX (u)| ≤ 1, φX (0) = 1.
3. φX est continue
4. φX (−u) = φ̄X (u)
5. Si X1 , . . . , Xd sont indépendantes alors
d
Y
φPd Xi (u) = φXi (u).
i=1
i=1

Qd
6. X1 , . . . , Xd sont indépendantes ⇐⇒ φ(X1 ,...,Xd )t (u) = i=1 φXi (u).
7. X est une variable à valeurs dans Rd et A une matrice à p lignes et d
colonnes, B un vecteur de dimension d, alors

φAX+B (u) = ei<u,B> φX (At .u), ∀u ∈ Rd .

8. Si E(|X|k ) < ∞, φX est k fois continûment differentiable sur Rd et

∂ k φX (t)
= ik E(ei<t,X> Xi1 Xi2 . . . Xik ).
∂xi1 ∂xi2 . . . ∂xik

Remarque 5. (Cas d = 1)
Si X est une variable aléatoire réeele discrète,
X
φX (u) = eiux P (X = x).
x∈X(Ω)

Si X est une variable aléatoire réelle à densité,


Z ∞
φX (u) = eixu fX (x)dx.
−∞

2.7 Convergence et Théorèmes limites


2.7.1 Convergence
Soit (Xn )n∈N une suite de variables aléatoires sur (Ω, A, P).
Définition 30. On dit que (Xn ) converge en probabilité vers X et on note
P
Xn −→ X si

∀ > 0, P {|Xn − X| ≥ ε} −→ 0 quand n → +∞.


L
Définition 31. On dit que (Xn ) converge en loi vers X et on note Xn −→ X

ANNEE UNIVERSITAIRE 2010-2011


22 Armel Fabrice YODÉ

⇐⇒ pour toute fonction continue et bornée, nous avons E(g(Xn )) −→ E(g(X))


⇐⇒ FXn (x) −→ FX (x) ∀x ∈ CFX = {ensemble des points de continuité de FX }
Théorème 9. La suite (Xn ) de variables aléatoires à valeurs dans Rd converge
en loi vers la variable aléatoire X à valeurs dans Rd si et seulement si la
fonction caractéristique de Xn converge ponctuellement vers la fonction ca-
ractéristique de X i.e.
L
Xn → X ⇐⇒ ∀u ∈ Rd , φXn (u) → φX (u).

Proposition 9. Si la suite (Xn ) converge en probabilité vers X alors elle


converge en loi vers X.
Remarque 6. Les définitions de la convergence en loi et en probabilité se
généralisent facilement pour les vecteurs aléatoires de dimension d > 1. Pour
la convergence en probabilité par exemple, on remplacera

lim P(|Xn − X| > ε) = 0


n→+∞

par
lim P(kXn − Xk > ε) = 0
n→+∞

où k · k est une norme quelconque sur Rd puisque toutes les normes sont
équivalentes sur Rd .
Théorème 10. Soit g est une fonction continue. Alors
P P
- Xn −→ X =⇒ g(Xn ) −→ g(X).
L L
- Xn −→ X =⇒ g(Xn ) −→ g(X).

2.7.2 Théorèmes limites


Nous énoncerons deux théorèmes limites
• la loi forte des grands nombres qui énonce la convergence de la moyenne
empirique d’une suite de variables aléatoires indépendantes, identique-
ment distribuées et intégrables
• le théorème central limite qui indique à quelle vitesse cette convergence
a lieu sous l’hypothèse supplémentaire que les variables sont de carré
intégrables.
Théorème 11. (Loi des grands nombres)
X1 , . . . , Xn i.i.d. telles que E(X1 ) = µ < +∞. Alors, nous avons
P
X̄n −→ µ.

22
ENSEA-ITS2 23

Théorème 12. (Théorème Central limite)


X1 , . . . , Xn i.i.d. telles que E(X1 ) = µ < +∞ et σ 2 = var(X1 ) > 0. Alors,
nous avons
√ (X̄n − µ) L
n −→ N (0, 1).
σ
L
- Formellement, nous pouvons écrire X n ' µ + √σ Y où Y ,→ N (0, 1).
n
L 2
- On déduit alors que X n ' N (µ, σn ).

2.8 Lois usuelles


2.8.1 Lois discrètes
Loi uniforme sur {1, . . . , N }, N ∈ N∗ , UN
(
X(Ω) = {1, . . . , N }
X v UN ⇐⇒
P (X = k) = N1 , ∀k ∈ X(Ω)
n+1
E(X) =
2
et
n2 − 1
var(X) = .
12
Exemple 7. Soit X le résultat d’un lancer de dé non truqué : alors ∀i ∈
X(Ω) = {1, 2, 3, 4, 5, 6}, P (X = i) = 16 ; X suit la loi uniforme U6 .

Loi de Bernouilli B(1, p) p ∈]0, 1[


(
X(Ω) = {0, 1}
X v B(1, p) ⇐⇒
P (X = 1) = p, P (X = 0) = 1 − p
E(X) = p
var(X) = p(1 − p).
La fonction caractéristique est
φX (t) = (1 − p + peit ).

Cette variable modélise l’issue d’une expérience où l’on ne s’intéresse qu’au
”succès” ou à l’”echec” de l’expérience.
Exemple 8. Lancer d’une pièce de monnaie (pile ou face), qualité d’un produit
(bon ou defectueux), sondage elctoral (pour ou contre).

ANNEE UNIVERSITAIRE 2010-2011


24 Armel Fabrice YODÉ

Loi binomiale B(n, p) n ∈ N∗ p ∈]0, 1[


On réalise n fois successivement et d’une manière indépendante une expérience
aléatoire de Bernouilli. La variable aléatoire égale au nombre de succès obtenus
au cours des n épreuves suit la loi binomiale B(n, p).
(
X(Ω) = {0, . . . , n}
X v B(n, p) ⇐⇒
P (X = k) = Cnk pk (1 − p)n−k , ∀k ∈ X(Ω)

E(X) = np
var(X) = np(1 − p).
La fonction caractéristique est

φX (t) = (1 − p + peit )n .

Cette loi modélise une succession de ”succès” et d’”échecs”, p étant la proba-


bilité du succès.

Propriété 10. Si X1 v B(n1 , p) et X2 v B(n2 , p) avec X1 et X2 indépendantes


alors X1 + X2 v B(n1 + n2 , p).

Loi hypergéométrique H(N, n, p)


Soit une population de N individus parmi lesquels une proportion p (donc
N p individus) possède un caractère. Il s’agit par exemple de la proportion
des individus qui souffrent d’une maladie, ou de la proportion des pièces
défectueuses dans un grand lot de fabrication. On prélève un échantillon de
n individus parmi cette population (le tirage pouvant s’effectuer d’un seul
coup ou au fur et à mesure mais sans remise). On note X la variable aléatoire
égale au nombre d’individus de l’échantillon possédant le caractère envisagé.
La loi de X est appelée loi hypergéométrique de paramètre N , n, p et notée
H(N, n, p) :

X(Ω) = {max(0, n − (1 − p)N ), min(N p, n)}
X v H(N, n, p) ⇐⇒ k n−k .
P (X = k) = CN p C(1−p)N , ∀k ∈ X(Ω)
CnN

E(X) = np.

Propriété 11. Quand N → +∞ avec n et p fixés, alors H(N, n, p) converge


en loi vers B(n, p) (En pratique Nn < 1).

24
ENSEA-ITS2 25

Loi géométrique G(p), p ∈]0, 1[


C’est la loi du nombre d’essais (ou épreuves) nécessaires pour faire ap-
paraı̂tre un évènement de probabilité p. C’est le cas de nombre d’examens ne-
cessaires pour réussir une épreuve en supposant que la probabilité de réussir à
chaque passage de l’examen est de type p et que les résultats sont indépendants
d’un examen vers un autre. Soit la variable X égale le nombre d’essais avant
d’obtenir le premier succès :
(
X(Ω) = N∗
X v G(p) ⇐⇒ .
P (X = k) = p(1 − p)k−1 , ∀k ∈ X(Ω)
1
E(X) =
p
1−p
var(X) = .
p2
Exemple 9. On effectue des lancers indépendants d’une pièce, dont la proba-
bilité d’obtenir face est p, jusqu’à l’obtention d’un ”face”. On note X la v.a.r
égale au nombre de lancers nécessaires. On dit également que X est le temps
d’attente du premier ”face”.

Loi de Poisson P(λ) λ > 0


Pour modéliser des phénomènes rares (nombre d’accidents d’avion, nombre
d’appels téléphoniques pendant un certain temps, nombre de pièces défectueuses
dans une commande importante, nombre de suicides par an dans un pays
donné...), on utilise la loi de Poisson (de paramètre λ > 0) :
(
X(Ω) = N
X v P(λ) ⇐⇒ k e−λ
P (X = k) = λ k! , ∀k ∈ X(Ω)
E(X) = var(X) = λ.
La fonction caractéristique est
it −1)
φX (t) = eλ(e .
Propriété 12. Si X1 et X2 sont deux variables aléatoires de Poisson P(λ1 ),
P(λ2 ) respectivement, indépendantes, alors X1 + X2 v P(λ1 + λ2 ). (Ceci est
vrai pour une somme finie quelconque de v.a de Poisson indépendantes)
Propriété 13. Soit X une variable aléatoire suivant une loi de Poisson P(λ).
X −λ
Alors la variable aléatoire √ converge en loi vers la loi normale centrée
λ
réduite N (0, 1), lorsque λ tend vers l’infini.
Propriété 14. X v B(n, p). Quand n → +∞ et p → 0 tel que np → λ. Alors
X converge en loi vers P(λ).

ANNEE UNIVERSITAIRE 2010-2011


26 Armel Fabrice YODÉ

2.8.2 Lois à densité


Loi uniforme
On dit que la v.a.r continue suit une loi uniforme sur l’intervalle [a, b] si sa
fonction densité est (
1
si x ∈ [a, b]
fX (x) = b−a
0 sinon
b+a
E(X) =
2
(b − a)2
var(X) = .
2
Si a = −b, la fonction caractéristique est
sin at
φX (t) = .
at

Loi normale
On dit que X suit une loi normale de paramètre (m, σ 2 ) avec m ∈ R,
σ 2 ∈ +∗ si sa densité de probabilité est
1 1 x − m 2
fX (x) √ exp{− }, x ∈ R.
σ 2π 2 σ

La fonction caractéristique est

t2 σ 2
 
φX (t) = exp itm − .
2

Propriété 15. (i) X v N (m, σ 2 ) alors E(X) = m et var(X) = σ 2 .


X−m
(ii) X v N (m, σ 2 ) si et seulement si la v.a.r σ
v N (0, 1).

Loi gamma γ(a, ρ), a > 0, ρ > 0


X suit une loi gamma de paramètre a et ρ si sa densité
ρa −ρx a−1
f (x) = e x 1IR+ (x)
Γ(a)

où Z ∞
Γ(a) = e−x xa−1 dx.
0
a
E(X) =
ρ

26
ENSEA-ITS2 27
a
var(X) = 2 .
ρ
La fonction caractéristique est
1
φX (t) =
(1 − itρ )a

Proposition 10. Soient X et Y deux variables aléatoires indépendantes sui-


vant respectivement γ(a1 , ρ) et γ(a2 , ρ). Alors X + Y suit une loi γ(a1 + a2 , ρ).

Loi exponentielle
Si a = 1 la loi γ(1, ρ) = E(ρ) est appelé loi exponentielle de paramètre
ρ > 0 et a pour densité de probabilité

f (x) = ρe−ρx 1IR+ (x)

La fonction caractéristique est


λ
φX (t) = .
λ − it
Cette loi de probabilité est fortement utilisée pour décrire les durées de vie
(par exemple la durée de vie des transistors electroniques).

2.9 Famille exponentielle


Définition 32. Une famille de lois de probabilité {Pθ , θ ∈ Θ} est dite expo-
nentielle s’il existe des fonctions αj (θ), Tj (x) et h(x) > 0 telles que la densité
de probabilité vérifie
( k )
dPθ (x) X
f (x, θ) = = C(θ)h(x) exp αj (θ)Tj (x) .
dµ j=1

Exemple 10.
  
θ
Pθ ∼ B(θ, 1) ⇒ f (x, θ) = (1 − θ) exp x ln
1−θ

 
1 1 2
Pθ ∼ N (θ, 1) ⇒ f (x, θ) = √ exp − (x − θ)
2π 2

ANNEE UNIVERSITAIRE 2010-2011


28 Armel Fabrice YODÉ

28
Chapitre 3

Problèmes et outils statistiques

L’objectif de la statistique inférentielle est de fournir des résultats relatifs à une


population à partir de mesures statistiques réalisées sur des échantillons. On part
de l’échantillon pour en déduire une meilleure connaissance de la population.

3.1 Exemple
Nous supposons que l’interlocuteur du statisticien est un industriel, respon-
sable d’une machine qui produit des pièces classées soit ”bonnes”, codé par 0, soit
”défectueuses”, codé par 1. Le nombre de pièces fabriquées étant gigantesque et
l’examen de chaque pièce étant relativement coûteux, il ne peut évaluer la qualité
de sa production que sur un lot de taille n faible au regard de la production. On
observe alors ce lot de n pièces et on note (x1 , . . . , xn ) les observations. En se basant
sur ce lot, le statisticien cherche le renseignement le plus utile à l’industriel en vue
de prendre une décision (mettre en vente la production ou non, réparer ou non la
machine, etc).
• Modélisation : on suppose que xi est la réalisation d’une variable aléatoire
Xi de loi de Bernouilli B(1, p), p ∈]0, 1[ ; nous faisons les hypothèses suivantes :
- X1 , . . . , Xn sont indépendantes : on admet que des petites variations
aléatoires pouvant influer sur la qualité des pièces ne se repercutent pas
d’une pièce à une autre.
- X1 , . . . , Xn sont identiquement distribuées : on admet que la pro-
duction a été stable durant la période d’observation ; cette stabilité est
caractérisée par la constance de la probabilité p pour chaque pièce pro-
duite d’être défectueuse.
L’espace des observations est X n = {0, 1}n . Pour tout (x1 , . . . , xn ) ∈ X n ,
nous avons
n
Y Pn Pn
xi
P(X1 = x1 , . . . , Xn = xn ) = P(Xi = xi ) = p i=1 (1 − p)n− i=1 xi

i=1

29
30 Armel Fabrice YODÉ

où ni=1 xi est le nombre de pièces défectueuses.


P
Le modèle statistique est
({0, 1}n , P ({0, 1}n ) , {B(1, p), p ∈ [0, 1]}) .
• Une fois le modèle construit, il est temps de s’interroger sur ses possiblités :
quel type d’information le statisticien peut-il fournir à l’industriel ? Quelle
procédure de décision le statisticien peut-il envisager ? Nous examinerons les
problèmes suivants.
- Estimation ponctuelle : proposer une valeur pour p.
- Estimation par intervalle : proposer un intervalle [p− , p+ ] susceptible
de contenir la valeur inconnue p avec une certaine probabilité.
- Test d’hypothèses : soit un certain seuil p0 ; ce qui intéresse l’indus-
triel, au vu des données, c’est de savoir s’il doit considérer que p ≤ p0
(et continuer la production) ou que p > p0 (et se resoudre à arrêter pour
régler ou réparer la machine).

3.2 Echantillonnage
3.2.1 Population taille finie
Soit E un ensemble, que nous appelerons population mère, contenant un nombre
fini N d’éléments. Nous supposerons que l’on veut étudier une propriété X de cette
population. L’objectif serait donc de déterminer les principales caractéristiques de la
loi de X. S’il est possible d’effectuer un recensement, c’est-à-dire interroger ou ins-
pecter tous les éléments de E les caractéristiques de X seront parfaitement connues.
Une telle situation est très rare, et l’étude de X sera fréquemment réalisée à partir
d’observations partielles de X, ceci pour des considérations de coût, de rapidité de
collecte et d’exploitation. Soit En un échantillon de E de taille n. En est tout simple-
ment un sous-ensemble quelconque de E de n éléments. Il est clair qu’il existe dans
ce cas-là CN n différentes possibilités pour E . Nous supposons ici avoir procédé à la
n
selection de l’échantillon En de manière aleatoire. On est alors dans le cas d’un tirage
aléatoire. Tout calcul statistique sera effectué à partir des valeurs de la propriéte
X sur l’échantillon choisi aleatoirement En . On note X1 , . . . , Xn les valeurs de X
correspondant aux éléments de En . Ce sont des variables aléatoires car En a été tiré
aléatoirement.
De nombreuses méthodes de tirage aléatoire sont possibles. On étudie ici les
deux méthodes suivantes :
- Tirage avec remise : on tire au hasard l’échantillon unité par unité ; lorsqu’un
élément est tiré, il n’est pas éliminé. Au contraire, il est remis dans la popula-
tion et peut être tiré ultérieurement. De fait, le même élément peut participer
au tirage plusieurs fois. Ce mode de tirage est appelé tirage de Bernouilli
- Tirage sans remise : l’échantillon est obtenu par le tirage aléatoire des unités,
mais chacune d’entre elles ne peut être tirée qu’une seule fois. Cette méthode
d’échantillonnage porte aussi le nom de tirage exhaustif.

30
ENSEA-ITS2 31

3.2.2 Expériences renouvelables


Les modèles de population finie et de tirage aléatoire ne couvrent pas toutes les
situations donnant matière à la modélisation statistique. Prenons le cas par exemple
de la variable X égale au retard mesuré en minutes que fait le bus d’une ligne
quelconque pour arriver à un certain arrêt. Il est clair que X est une variable aléatoire
puisqu’on ne peut exactement prédire le retard (cela dépend de différents facteurs).
En revanche, il n’est pas du tout évident comment la notion de population finie et
d’échantillonnage aléatoire s’appliquerait ici. On parle plutôt d’expérience que l’on
peut renouveler théoriquement autant de fois que l’on veut. Dans le cas d’expériences
renouvelables nous supposerons que celles-ci sont réalisées de la même manière,
indépendamment les unes des autres. Dans le cas d’une expérience modélisée par la
variable X, alors X1 correspond à la propriété X mesurée sur la première expérience.
L’expérience est renouvelée n fois afin d’obtenir l’échantillon (X1 , . . . , Xn ) puis le
statisticien infère à partir de ces données pour déduire des caractéristiques sur X.
Ici la vraie loi de X reste inconnu pour toute taille de population. Plus n est grand
et plus l’inférence va être bonne.

3.2.3 Echantillonnage aléatoire


Définition 33. Un échantillonnage représentatif est un échantillon qui reproduit
les caractéristiques d’une population de manière à ce que les conclusions obtenues
avec cet échantillon se généralisent à la population.

Les méthodes d’échantillonnage se divisent généralement en deux types :


- l’échantillonnage aléatoire
- l’échantillonnage non aléatoire.
L’inférence statistique est basée sur un échantillonnage aléatoire. Les unités sta-
tistiques sont désignées par le hasard et ont toute la même chance d’être choisies
d’une liste connue à priori de la population appelée base de sondage. Les techniques
d’échantillonnage aléatoire ont aussi l’avantage de permettre de calculer la marge
d’erreur échantillonnale. Il sera donc possible de généraliser les résultats à l’ensemble
de la population tout en prenant un risque calculé.
Il existe 4 techniques d’échantillonnage aléatoire différentes.
1. L’échantillonnage aléatoire simple : tous les éléments de la population ont la
même probabilité d’être prélevés indépendamment l’un de l’autre.
Exemple 11. On a une liste d’élèves comprenant K = 36 élèves (21 filles et
15 garçons) et on désire en choisir k = 12 élèves de façon aléatoire simple.

(a) On numérote les élèves de 1 à 36


(b) On selectionne de façon aléatoire 12 numéros entre 1 et 36 par exemple
16, 22, 30, 12, 29, 20, 13, 18, 26, 17, 35 et 8.
(c) On constitue notre échantillon en retenant l’élève correspondant à chaque
numéro.

ANNEE UNIVERSITAIRE 2010-2011


32 Armel Fabrice YODÉ

2. L’échantillonnage aléatoire systématique est une technique où les unités sta-
tistiques sont choisis à intervalle régulier dans la base de sondage.
Exemple 12. On a une liste d’élèves comprenant K = 36 élèves (21 filles et
15 garçons) et on désire en choisir k = 12 élèves de façon aléatoire simple.
(a) On numérote les élèves de 1 à 36
(b) On détermine le pas de sondage, désigné par a, donné par :
K 36
a= =
k 12
ce qui amène à choisir comme pas de sondage l’entier a = 3.
(c) Le pas de sondage étant égal à 3, on détermine le point de départ, désigné
par d, en choisissant au hasard un nombre entre 1 et 36, ce qui donnerait
par exemple 5.
(d) On constitue notre échantillon en retenant l’élève correspondant à chaque
numéro désigné par :
5 8 11 14 17 20 23 26 29 32 35 2.

3. L’échantillonnage aléatoire stratifié suppose que la population peut être divisé


en groupes distincts tels que le sexe, l’âge, l’ethnie, etc... Ces différents groupes
sont appelés des strates.
Définition 34. (strate). sous-ensemble de la population ayant des caractéristiques
communes, donc des sous-ensembles homogènes. Par exemple, on peut classer
des individus par leur taille, regrouper des pommes par leur sorte ou regrouper
des élèves par programme.
La population généralement hétérogène est subdivisée en strate. De chaque
strate, on prélève un échantillon aléatoire simple. Cette méthode consiste à
prélever un échantillon ayant la même composition que la population ce qui
crée un échantillon représentatif, mais cette méthode est très coûteuse.
Exemple 13. On a une liste d’élèves comprenant K = 36 élèves (21 filles et
15 garçons) et on désire en choisir k = 12 élèves de façon aléatoire simple.
(a) La variable à prendre en considération est le sexe, d’où les strates : Filles
et Garçons.
(b) On numérote séparément les filles et les garçons. Pour pouvoir distinguer
les deux strates, on fait précéder du code F- le numéro associé à chacune
des filles et du code G- le numéro associé à chacun des garçons :
Filles : F1 F2 ··· F21
Garçons : G1 G2 ··· G15
(c) Le nombre d’élèves de chaque strate S, c’est-à-dire de chaque sexe qui
sera requis dans l’échantillon, est donné par :
KS
kS = ×k
K

32
ENSEA-ITS2 33

- kS est le nombre entier (arrondi au besoin) d’éléments de la strate


S requis dans l’échantillon ;
- k est la taille de l’échantillon désiré ;
- KS le nombre d’éléments constituant la strate S dans la base de
sondage
- K est la taille de la base de sondage
Puisque’on a KF = 21 filles dans la base de sondage sur K = 36 élèves
et qu’on désire un échantillon de k = 12 élèves, le nombre de filles requis
dans l’échantillon est donné par :
21
kF = × 12 = 7 filles.
36
On aura donc 12 élèves−7 filles=5 garçons dans l’échantillon, ce qui
correspond à
21
kG = × 12 = 5 garçons.
36
(d) On sélectionne de façon aléatoire 7 filles et 5 garçons ; on peut procéder
de façon simple ou systématique : (l’un ou l’autre des modes de sélection
est acceptable).
i. Sélection aléatoire simple
Filles : on choisit au hasard 7 numéros différents entre 1 et 21, ce
qui donne 1, 5, 15, 21, 11, 13 et 9.
Garçons : on choisit au hasard 5 numéros différents entre 1 et 15,
ce qui donne 11, 10, 2, 15 et 7.
Nous obtenons l’échantillon
F1 , F5 , F15 , F21 , F11 , F13 , F9 , G11 , G10 , G2 , G15 G7
ii. Sélection aléatoire systématique
Filles :
Le pas de sondage a est donné par
21
a= =3
7
On choisit au hasard le point de départ d entre 1 et 21, par exemple
1. On a donc :
1 4 7 10 13 16 19

Garçons :
Le pas de sondage a est donné par
15
a= =3
3
On choisit au hasard le point de départ entre 1 et 15, par exemple
3.
On a donc
3 6 9 12 15

ANNEE UNIVERSITAIRE 2010-2011


34 Armel Fabrice YODÉ

Nous obtenons l’échantillon

F1 F4 F7 F10 F13 F16 F19 G3 G6 G9 G12 G15

4. L’échantillonnage aléatoire par grappes consiste à choisir des groupes (toute


une grappe de raisin) plutôt que de choisir des unités statistiques isolées(un
seul raisin).
Définition 35. (grappe). Une grappe est un sous-ensemble non homogènes
de la population défini selon la proximité. Il est plus facile de faire une liste des
groupes et de choisir au hasard parmi ces dizaines de groupes et d’interroger
toutes les unités statistiques du groupe. Par exemple, un groupe d’élèves fai-
sant partie de la même classe, des habitants du même immeuble, des habitants
du même quartier ou même des équipes sportives d’une ligne amateur
Exemple 14. On a une liste de k = 9 équipes, c’est à dire 9 grappes de 4
élèves, et on désire constituer un échantillon de n = 12 élèves.
(a) On numérote de 1 à k, c’est à dire de 1 à 9 les différentes équipes consti-
tuant les grappes, ce qui donne :
g1 , g2 , g3 , g4 , g5 , g6 , g7 , g8 , g9 .
(b) Le nombre N de grappes requis est donné par
n
N=
nombre d’unités statistiques par grappes
d’où
12
N= =3 grappes.
4
(c) On selectionne de façon aléatoire 3 grappes parmi 12. on peut procéder
de façon simple ou systématique : (l’un ou l’autre des modes de sélection
est acceptable).
(d) On constitue l’échantillon en sélectionnant les élèves faisant partie des
grappes selectionnées.

3.2.4 Modèles d’échantillonnage


Afin de donner à l’échantillonnage un cadre probabiliste général, on utilise la
définition suivante.

Définition 36. Soit une propriété définie par la variable aléatoire X, application
de (Ω, A, P) −→ (X , B, PX ), B étant ici la tribu des boréliens, telle que

∀B ∈ B X −1 (B) ∈ A.

Le modèle d’échantillonnage de taille n est l’espace produit

(X , B, P)n = (X n , Bn , PnX )

où

34
ENSEA-ITS2 35

- Xn = |X × .{z
. . × X} est le produit cartésien de l’espace X
n fois
- Bn est la tribu produit des événements de X n
- PnX est la loi ou la distribution jointe des observations.
On notera Xi la ième observation, variable aléatoire de même loi que X et l’ensemble
des observations (X1 , . . . , Xn ) est l’échantillon aléatoire.
Définition 37. Soit (X1 , . . . , Xn ) des variables aléatoires indépendantes identique-
ment distribuées (i.i.d) de loi Pθ admettant la densité f (xi , θ) avec θ ∈ Θ. Alors le
modèle statistique associé à X n = (X1 , X2 , . . . , Xn ) admet comme densité
n
Y
f (x1 , . . . , xn , θ) = f (xi , θ).
i=1

Soit X une variable aléatoire de moyenne m et de variance σ 2 et X n = (X1 , . . . , Xn )


un échantillon de taille n issu de la loi de X.
- La moyenne empirique X̄n d’un échantillon de taille n est définie par
X1 + . . . + Xn
X̄n = .
n
2
E(X̄n ) = m et V ar(X̄n ) = σn .
- La variance empirique est définie par
n
1X
S02 = (Xi − X̄n )2 .
n
i=1

n−1 2
E(S02 ) =σ .
n
- La variance empirique modifiée est définie par
n
1 X
Sn2 = (Xi − X̄n )2 .
n−1
i=1

E(Sn2 ) = σ2.
Exercice 1. Montrer que :
n
Sn2 = S2
n−1 0
Resultats importants :
• Cas σ 2 est connue : Théorème central limite

n(X̄n − m)
−→ N (0, 1) (en loi) quand n −→ +∞.
σ
En pratique, nous avons

n(X̄n − m)
≈ N (0, 1) n ≥ 30.
σ
Pour n ≤ 30, le résultat reste vrai seulement si X suit une loi normale.

ANNEE UNIVERSITAIRE 2010-2011


36 Armel Fabrice YODÉ

• Cas σ 2 est inconnue :


- si X suit une loi normale N (m, σ 2 ) alors

n(X̄n − m)
,→ T (n−1) loi de Student à n − 1 dégrés de liberté
Sn
De plus,

T (n) −→ N (0, 1) en loi quand n → +∞

En pratique pour n ≥ 30, T (n) ≈ N (0, 1).



n(X̄n − m)
- si X ne suit pas une loi normale la loi suivie par n’est
Sn
pas connue.
• Convergence de la loi binomiale vers la loi normale :
a) de la loi binomiale vers la loi de Poisson :



 B(n, p)

n −→ ∞
Si X suit , alors la loi de X se rapproche de la loi de


 p −→ 0

np −→ λ
Poisson P(λ).
En pratique, si n > 50 et p < 0.1, on peut remplacer B(n, p) par
P(np).
b) de la loi binomiale vers la loi normale :
Si X suit B(n, p) quand n −→ ∞,
X − np
p −→ N (0, 1)
np(1 − p)

En pratique, si np > 18 et p assez proche de 0.5, on peut remplacer


la loi de X par N (np, np(1 − p)).
c) de la loi de Poisson vers la loi normale :
Si X suit une loi de Poisson P(λ),

X −λ
√ −→ N (0, 1) λ −→ ∞
λ
En pratique, si λ > 18, on peut remplacer la loi de X par N (λ, λ).
• Loi des grands nombres

X̄n −→ m en probabilité n −→ +∞.

c’est à dire que pour tout ε > 0,



lim P |X̄n − m| ≥ ε = 0.
n→+∞

36
ENSEA-ITS2 37

3.3 Modélisation statistique


En statistique, PX est inconnue. On suppose que PX appartient à une famille
connue P de lois de probabilité sur (E, B). Pour décrire P, il est pratique de définir
une paramétrisation P = {Pθ , θ ∈ Θ}.

Définition 38. On appelle modèle statistique la donnée du triplet (E, B, {Pθ , θ ∈


Θ}) où
- (E, B) est un espace probabilisable
- Θ est l’espace des paramètres
- Pθ , θ ∈ Θ sont des lois de probabilité sur (E, B).

Il existe trois principaux types de modèles statistiques :


- le modèle paramétrique : Θ ⊂ Rd ; la loi de probabilité à l’origine des
observations est entièrement déterminée à des paramètres inconnus près ;
- le modèle non paramétrique : Θ est un espace fonctionnel (d est infini).
Contrairement au cas précédent, nous n’avons aucune information sur la forme
de Pθ ;
- le modèle semi-paramétrique : la loi n’est pas spécifié (comme dans le cas
précédent), mais les problèmes portent sur un vecteur de dimension finie.

Exemple 15. 1. Modèle d’échantillonnage (voir section précédente).


2. Modèle linéaire simple : considérons le revenu X et les depenses Y d’un
menage. Au mois i, on observe (Yi , Xi ) où

Yi = Xi β + α + i

où α est le niveau minimum de dépenses (dépenses necessaires quelque soit


le revenu), Xi β sont les dépenses fonction du revenu ; les dépenses prevues
Xi β + α sont entachées d’un aléa εi représentant les dépenses imprévues. Xi
peut être aléatoire ou non. Si Xi est aléatoire, un modèle linéaire pour lequel
- E(Yi /Xi = xi ) = α + βxi
- var(Yi /Xi = xi ) = σ 2
- cov(Yi , Yj ) = 0 pour i 6= j
est appelé modèle linéaire conditionnel.

On suppose que ∀θ ∈ Θ, Pθ admet une densité de probabilité f (x, θ). L’intérêt


consiste à travailler sur la densité des lois plutôt que sur les lois elles-mêmes.
Remarque 7. - Si X est une variable discrète alors

f (x, θ) = Pθ (X = x) ∀x ∈ X(Ω)

- Si X est une variable aléatoire continue alors f (x, θ) est la densité de proba-
bilité de X.

ANNEE UNIVERSITAIRE 2010-2011


38 Armel Fabrice YODÉ

Définition 39. Le support de Pθ est l’ensemble

supp(Pθ ) = {x : f (x, θ) > 0} .

Définition 40. Si toutes les lois Pθ , θ ∈ Θ ont un support commun alors le modèle
est dit homogène. Cela signifie que pour chaque θ ∈ Θ, {x : f (x, θ) > 0} ne dépend
pas de θ.

Définition 41. Le modèle statistique (E, B, {Pθ , θ ∈ Θ}) est identifiable lorsque
l’application θ −→ Pθ définie dans Θ à valeurs dans P est injective.i.e
0 0
∀θ, θ ∈ Θ, Pθ = Pθ0 =⇒ θ = θ .

ou
0 0 0
∀θ, θ ∈ Θ, f (x, θ) = f (x, θ ) =⇒ θ = θ .

Définition 42. On appelle statistique définie sur (E, B, {Pθ , θ ∈ Θ}) une applica-
tion
S : (E, B, {Pθ , θ ∈ Θ}) −→ (V, V)
où (V, V) est un espace probabilisable.

Remarque 8. S ne dépend pas du paramètre θ.


Etant donné le modèle statistique (E, B, {Pθ , θ ∈ Θ}), nous considérerons trois
types de problèmes :
- Estimation ponctuelle : il s’agit de deviner la valeur de θ en se basant sur
l’observation X ∼ Pθ . On cherche donc une bonne adéquation de θ par une
fonction de l’observation X (indépendante de θ).
- Intervalle de confiance : ici, on veut connaı̂tre avec une certaine assurance
un endroit où se trouve la ”vraie” valeur du paramètre inconnu θ en se basant
sur l’observation X.
- Test d’hypothèses : l’objectif est de décider si θ appartient à une partie
Θ0 ⊂ Θ ou à Θ1 ⊂ Θ̄0 = Θ/Θ0 = {θ ∈ Θ/θ ∈ / Θ0 }.

3.4 Théorie de la décision


L’objectif général des études inférentielles est de fournir une décision : on observe
un phénomène dont la loi dépend d’un paramètre θ ∈ Θ, inconnu, afin de prendre
une décision d. On dispose du modèle paramétrique (E, B, {Pθ , θ ∈ Θ}).

Définition 43. On appelle espace des décisions, l’ensemble des décisions que
l’on souhaite effectuer. Soit D l’espace des décisions.

Définition 44. Toute fonction

l : D × Θ −→ R+

est appelée fonction de perte.

38
ENSEA-ITS2 39

Remarque 9. l(d, θ) est la perte correspondant au choix de la décision d alors que


le paramètre inconnu a la valeur θ. Cette perte est nulle lorsque d est la décision la
meilleure qui soit pour la valeur θ du paramètre.

Définition 45. On appelle règle de décision pure ou procédure, une applica-


tion
δ : (E, B) −→ D
qui à toute observation X = x associe une décision δ(x) = d.

Utiliser la procédure δ signifie que si X = x, δ(x) est la décision prise. La décision


est prise au vu du résultat x de l’expérience aléatoire représentée par le modèle sta-
tistique (E, B, {Pθ , θ ∈ Θ}). La perte subie l(δ(X), θ) est alors une variable aléatoire.

Définition 46. La fonction de risque est définie comme la moyenne des pertes
Z
R(δ, θ) = Eθ l(δ(X), θ) = l(δ(x), θ)dPθ (x)
V

Eθ désigne l’espérance mathématique lorsque la probabilité est Pθ ; R(δ, θ) est considérée


comme la mesure de la performance de la procédure δ(X).

Exemple 16. Estimation ponctuelle : risque quadratique


La perte subie est égale à

l(δ(X), θ) = (δ(X) − θ)2

La fonction de risque :

E(l(δ(X), θ)) = V arθ (δ(X)) + (θ − Eθ (δ(X))2 .

Définition 47. On dit que δ1 est préférable à δ2 si R(δ1 , θ) ≤ R(δ2 , θ), pour toute
valeur de θ ∈ Θ, l’inégalité étant stricte pour au moins une valeur de θ.

Définition 48. Une décision est optimal si elle est aussi bonne que toutes les autres.

Le but est de choisir la règle de décision optimale i.e celle qui est préférable à
toutes les autres. Cependant, deux procédures δ1 et δ2 telles que

R(δ1 , θ1 ) < R(δ2 , θ1 )

R(δ1 , θ2 ) < R(δ2 , θ2 )


ne sont pas comparables. En général, il n’existe pas de procedure optimale. Mais
toutes les procédures ne présentent pas le même intétrêt. Il sera alors intéressant
d’étudier une classe particulière de procédures (possédant une ou plusieurs propriétés
intéressantes), et de chercher dans cette classe si elle existe une procédure qui soit
optimale.

ANNEE UNIVERSITAIRE 2010-2011


40 Armel Fabrice YODÉ

3.5 Statistique exhaustive, libre, totale


3.5.1 Définitions
Une des premières choses à faire quand on étudie les données est de réduire le
nombre des données sans pour autant perdre de l’information utile. Ainsi, on veut
savoir s’il est possible de remplacer l’observation X par une fonction T = T (X) plus
simple mais qui contient suffisamment d’informations.

Définition 49. Soit (E, B, {Pθ , θ ∈ Θ}) un modèle statistique engendré par une
observation X et T = T (X) une statistique. T est dite exhaustive par rapport à la
famille {Pθ , θ ∈ Θ} si Pθ (X/T (X) = t) ne dépend pas de θ.
En d’autres termes, la loi conditonnelle de X sachant T (X) ne dépend pas de θ.

Remarque 10. Cela signifie que sachant T , la connaissance de X n’apporte pas d’in-
formation supplémentaire sur le paramètre inconnu θ. Toute l’information relative
à θ est contenue dans T (X).

Exemple 17. Soit X n = (X1 , . . . , Xn ) un échantillon de taille n d’une loi de Poisson


Xn
n
P(θ). Montrons que la statistique T (X ) = Xi est une statistique exhaustive.
i=1

P(X1 = x1 , . . . , Xn = xn , ni=1 Xi = t)
P
n
P(X1 = x1 , . . . , Xn = xn /T (X ) = t) =
P( ni=1 Xi = t)
P

P(X1 = x1 , . . . , Xn−1 = xn−1 , Xn = t − n−1


P
i=1 xi )
= Pn
P( i=1 Xi = t)
Qn−1
xi )P(Xn = t − n−1
P
i=1 P(Xi = P i=1 xi )
= n
P( i=1 Xi = t)
Q   −θ t−Pn−1 x 
n−1 e−θ θxi e θ i=1 i
i=1 Pn−1
xi ! (t− xi )!
i=1
= e−nθ (nθ)t
t!
t!
= Pn−1
t
n x1 ! . . . xn−1 !(t − i=1 xi )!

Comme XP 1 , . . . , Xn sont indépendantes, identiquement distribuées de loi P(θ) alors


T (X ) = ni=1 Xi suit une loi de Poisson P(nθ). La probabilité conditionnelle est
n

indépendante de θ, donc T (X n ) est une statistique exhaustive pour θ.

Théorème 13. (Critère de factorisation)


Soit (E, B, {Pθ , θ ∈ Θ}) un modèle statistique statistique. Supposons que pour chaque
probabilité Pθ , il existe une densité f (x, θ). Une statistique T à valeurs dans (E, E)
est dite exhaustive par rapport à la famille {Pθ , θ ∈ Θ} si et seulement si on peut
écrire
f (x, θ) = g(T (x), θ)h(x)
pour des fonctions g : E × Θ → R+ et h : V → R+ .

40
ENSEA-ITS2 41

Preuve : admise
Exemple 18. Soit X n = (X1 , . . . , Xn ) un échantillon de taille n d’une loi de Poisson
P(θ).
n Pn
Y e−nθ θ i=1 xi
f (x1 , . . . , xn , θ) = f (xi , θ) =
x1 ! . . . xn !
i=1
On pose :
1
h(x1 , . . . , xn ) =
x 1 ! . . . xn !
g(T (x1 , . . . , xn ), θ) = e−nθ θT (x1 ,...,xn )
n
X
T (x1 , . . . , xn ) = xi
i=1

Exercice 2. Soit X n = (X1 , . . . , Xn ) un échantillon de taille n d’une loi normale


n
X
N (m, σ 2 ). Montrer que (X̄n , Xi2 ) est une statistique exhaustive pour θ = (m, σ 2 ).
i=1

Théorème 14. Soit T une statistique exhaustive pour θ. Alors φ(T ) est une statis-
tique exhaustive pour θ si φ est une apllication bijective.
Preuve : On va montrer que Pθ (X/φ(T (X)) = t) est indépendante de θ. En effet

Pθ (X/φ(T (X)) = t) = Pθ (X/T (X) = φ−1 (t))

Or T (X) est une statistique exhaustive pour θ ; d’où la conclusion.


Définition 50. La statistique T ∗ est exhaustive minimale si , pour toute statistique
exhaustive T , il existe une fonction mesurable h telle que T ∗ = h(T ).
Remarque 11. Une statistique exhaustive minimale est une statistique qui a sup-
primé le maximum d’information ne concernant pas θ (conservé toute l’information
sur θ). Une réduction supplémentaire engendrerait alors une perte d’information sur
θ.
Définition 51. La statistique T est libre si la loi de T (X) ne dépend pas de θ (sous
Pθ ).
Remarque 12. Cela signifie que T n’apporte pas d’informations sur θ alors qu’une
statistique exhaustive conserve toute l’information.
Remarque 13. Une statistique libre est à l’opposée d’une statistique exhaustive : elle
ne contient aucune information sur le paramètre θ. Une statistique libre contient
donc de l’information parasite par rapport à une décision sur le paramètre. Une
bonne décision statistique ne doit pas dépendre, même en partie de statistique libre.
Exemple 19. Soit X n = (X1 , . . . , Xn ) un échantillon de taille n d’une loi normale
Xn
N (θ, 1). Montrer que la statistique (Xi − X̄n )2 est libre.
i=1

ANNEE UNIVERSITAIRE 2010-2011


42 Armel Fabrice YODÉ

Définition 52. La statistique T est totale (ou complète) si pour toute fonction
numérique bornée g :

{∀ θ ∈ Θ, Eθ g(T ) = 0} =⇒ g(T ) = 0 Pθ − ps ∀θ ∈ Θ.

Exemple 20. MontronsPn que pour le modèle de Bernouilli P = {B(1, θ); θ ∈]0, 1[},
la statistique S = i=1 Xi est totale. Soit g une fonction numérique mesurable et
bornée telle que pour tout θ ∈]0, 1[,
n  k  
n
X θ θ
0 = Eθ (g(S)) = (1 − θ) Cnk g(k) n
= (1 − θ) Q .
1−θ 1−θ
k=0

La fonction x → Q(x) est un polynôme de dégré n, nul pour x ∈]0, ∞[. Les co-
efficients de ce polynôme sont donc nuls. Cela implique que g(k) = 0 pour tout
k ∈ {0, . . . , n}. On en déduit que g(S) = 0 Pθ -p.s pour tout θ ∈]0, 1[. La statistique
S est donc totale.

Proposition 11. Toute statistique exhaustive et totale T est une statistique exhaus-
tive minimale.

Une statistique exhaustive complète est une statistique qui s’est débarassée de
toute statistique libre : c’est le Théorème de Basu.

Théorème 15. Théorème de Basu.


Soient S et T sont deux statistiques avec S exhaustive et totale. Si T est libre, alors
S et T sont Pθ -indépendantes pour tout θ ∈ Θ.

Preuve : La liberté de T est équivalente à :


pour toute fonction h, positive, Eθ (h(T )) = E(h(T )). On a aussi

Eθ (h(T )) = Eθ (Eθ (h(T )/S)), ∀θ


= Eθ (E(h(T )/S)), ∀θ

Eθ (h(T )/S) ne dépend pas de θ puisque S est exhaustive.


Par suite, nous obtenons

Eθ [E(h(T )/S) − E(h(T ))] = 0 =⇒ E(h(T )/S) = E(h(T ))

pour toute fonction h, positive. Ainsi, T et S sont indépendantes.

3.6 Familles exponentielles


Les familles exponentielles jouent un rôle fondamental en statistique. De nom-
breux modèles utilisés correspondent à des familles exponentielles.

42
ENSEA-ITS2 43

Définition 53. On dit qu’une famille {Pθ , θ ∈ Θ} est une famille exponentielle si
la densité f (x, θ) est de la forme
 
k
X
f (x, θ) = C(θ)h(x) exp  gj (θ)Tj (x)
j=1

où les fonctions h, gj , j = 1, . . . , k, C sont finies avec h(x) > 0.

Remarque 14. Si X n = (X1 , . . . , Xn ) un échantillon de taille n de même loi que X,


on parle de modèle d’échantillonnage exponentiel et nous avons
 
k
X
f (x1 , . . . , xn , θ) = C n (θ)hn (x1 , . . . , xn ) exp  gj (θ)Tn,j (x) ,
j=1

n
Y n
X
où hn (x1 , . . . , xn ) = h(xi ), Tn,j (x1 , . . . , xn ) = Tj (xj ).
i=1 i=1
Remarque 15. Ce modèle est appelé modèle canonique lorsque gj (θ) = θj .

Exemple 21. • Modèle gaussien :


 
21 1 2
f (x, m, σ ) = √ exp − 2 (x − m)
2πσ 2σ
m2 x2
   
1 mx
=√ exp − 2 exp − 2 + 2 .
2πσ 2σ 2σ σ

Nous obtenons donc

h(x) = 1
−1
g1 (m, σ 2 ) = 2

2 m
g2 (m, σ ) = 2
σ
T1 (x) = x2
T2 (x) = x.

• Modèle uniforme : f (x, θ) = 1θ 1I[0,θ] (x) ne se met sous la forme exponentielle.

Théorème 16. La statistique canonique du modèle d’échantillonnage est exhaustive.

Théorème 17. La statistique canonique du modèle d’échantillonnage est totale

Théorème 18. La statistique canonique du modèle d’échantillonnage est minimale.

ANNEE UNIVERSITAIRE 2010-2011


44 Armel Fabrice YODÉ

44
Chapitre 4

Estimation ponctuelle

En se basant sur un échanillon (X1 , . . . , Xn ) issu d’une loi de probabilité Pθ ,


θ ∈ Θ ⊂ Rd , on cherche à estimer g(θ).

4.1 Définitions
Définition 54. On appelle estimateur de g(θ) toute fonction Tn qui ne dépend
uniquement que des observations (X1 , . . . , Xn ) à valeurs dans un domaine acceptable
pour g(θ).
Remarque 16. Tn (X1 , . . . , Xn ) ne dépend pas de θ .
Définition 55. Une estimation est la réalisation d’un estimateur sur les données
x1 , . . . , xn . Autrement dit, l’estimation est la valeur que l’on peut calculer en rem-
plaçant les Xi par les xi dans la définition de l’estimateur correspondant.

4.2 Propriétés des estimateurs


La première qualité d’un estimateur est d’être convergent.
Définition 56. (Convergence)
Tn est un estimateur convergent (ou consistant) de g(θ) si
P
Tn −→ g(θ) n → +∞.
Interprétation : On a la garantie qu’à un rang n assez grand et avec grande
probabilité, Tn soit proche du paramètre de g(θ).
Remarque 17. La consistance est évidemment une vue de l’esprit, un outil d’évaluation
théorique. En pratique, la taille d’échantillon n peut être prise suffisamment grande.
Définition 57. (Normalité asymptotique)
Un estimateur Tn de g(θ) est dit asymptotiquement normal si
√ L
n (Tn − g(θ)) −→ N (0, σθ ) n → +∞

45
46 Armel Fabrice YODÉ

où σθ est à déterminer.

Interprétation : La normalité asymptotique entraı̂ne la consistance. C’est une


propriété plus précise qui indique que la fluctuation de l’estimateur autour de g(θ)
est approximativement normale :

σ2
 
L
Tn ≈ N g(θ), θ .
n

4.3 Information de Fisher


4.3.1 Cas où θ est unidimensionnel
L’information de Fisher est une notion de statistique introduite par Ronald Ayl-
mer Fisher (1890-1962) qui quantifie l’information relative à un paramètre contenue
dans un échantillon.
Considérons la famille des densités

{f (x, θ); θ ∈ Θ ⊂ R}

et les hypothèses suivantes :


(H0 ) Le modèle est identifiable
(H1 ) f (x, θ) > 0, ∀θ ∈ Θ ∀x
(H2 ) Pour tout x, la fonction θ −→ f (x, θ) est dérivable
R
(H3 ) On peut dériver la fonction θ −→ A f (x, θ)dx sous le signe intégral pour tout
A ∈ A i.e Z Z
∂ ∂f (x, θ)
f (x, θ)dx = .
∂θ A A ∂θ
Ceci est équivalent à dire que les opérateurs de différenciation et d’intégration
sont interchangeables. Cette condition est satisfaite si le support de f (x, θ)
est indépendant de θ (modèle homogène).
R
(H4 ) On peut dériver la fonction θ −→ A f (x, θ)dx deux fois sous le signe intégral
i.e.
∂2
Z Z 2
∂ f (x, θ)
2
f (x, θ)dx = .
∂θ A A ∂θ2

Définition 58. On appelle score la quantité :

∂ log f (X, θ)
S(X, θ) = .
∂θ
Définition 59. On appelle information de Fisher apportée par X sur le paramètre
θ la quantité suivante positive ou nulle (si elle existe) :

I(θ) = Eθ (S 2 (X, θ)).

46
ENSEA-ITS2 47

Théorème 19. Sous les hypothèses (H1 ), (H4 ) nous avons


 2 
∂ log f (X, θ)
I(θ) = −Eθ
∂θ2

si cette quantité existe.


Z
Preuve. Puisque f (x, θ) est une densité, nous avons f (x, θ)dx = 1. En dérivant
les deux membres par rapport à θ et en utilisant l’hypothèse (H4 ), nous obtenons

∂2 ∂ 2 ln f (x, θ)
Z Z Z
1 ∂f (x, θ) ∂ ln(f (x, θ))
f (x, θ)dx = f (x, θ)dx + f (x, θ) dx
∂θ2 f (x, θ) ∂θ ∂θ ∂θ2
= 0.

D’après ce qui précède, nous avons


2 !
∂ 2 ln f (X, θ)
  
∂ ln(f (X, θ))
Eθ + Eθ = 0.
∂θ ∂θ2

D’où le résultat.

Proposition 12. Propriétés de I(θ)


1. I(θ) ≥ 0. En effet, I(θ) est la variance du score.
2. Additivité. Si X et Y sont deux variables aléatoires indépendantes de loi Pθ
et Qθ vérifiant les hypothèses H1 , H2 et H3 , on a, en notant IX (θ), IY (θ) et
I(θ) les informations fournies par X, Y et le couple (X, Y ) respectivement :

I(θ) = IX (θ) + IY (θ)

Ainsi, nous avons pour un échantillon (X1 , X2 , . . . , Xn )

In (θ) = I(X1 ,...,Xn ) (θ) = nIX1 (θ)

3. Dégradation de l’information. L’information portée par une statistique


est inferieure ou égale à celle apportée par l’échantillon :

ITn (θ) ≤ In (θ).

Exemple 22. 1. Echantillon X n = (X1 , . . . , Xn ) extrait d’une loi de Bernouilli


B(1, θ). Les hypothèses (H1 ), (H4 ) et (H5 ) sont vérifiées.

f (X, θ) = θX (1 − θ)1−X X ∈ {0, 1}


log f (X, θ) = X log(θ) + (1 − X) log(1 − θ) X ∈ {0, 1}
∂ 2 log f (X, θ) −X 1−X
= −
∂θ2 θ 2 (1 − θ)2

ANNEE UNIVERSITAIRE 2010-2011


48 Armel Fabrice YODÉ

Ainsi, nous avons :


∂ 2 log f (X, θ)
 
1
I(θ) = −Eθ =
∂θ2 θ(1 − θ)
Soit In (θ) l’information de Fisher de X n = (X1 , . . . , Xn ), nous avons donc
n
In (θ) =
θ(1 − θ)

2. Echantillon X n = (X1 , . . . , Xn ) extrait de N (θ, σ 2 ) θ inconnu et σ 2 connue.


−(X − θ)2
 
1
f (X, θ) = √ exp
2πσ 2σ 2
(X − θ)2
 
1
log f (X, θ) = log √ −
2πσ 2σ 2
∂ 2 log f (X, θ) −1
= 2
∂θ2 σ
Ainsi, nous avons :
∂ 2 log f (X, θ)
 
1
I(θ) = −Eθ =
∂θ2 σ2
Soit In (θ) l’information de Fisher de X n = (X1 , . . . , Xn ), nous avons donc
n
In (θ) =
σ2

4.3.2 Généralisation au cas où θ est multidimensionnel


On suppose ici que θ ∈ Θ ⊂ Rd avec d > 1. Nous avons les hypothèses suivantes.
0
(H2 ) gradθ (f (x, θ)) existe ∀x ∀θ ∈ Θ
0 R
(H3 ) On peut dériver la fonction θ −→ A f (x, θ)dx sous le signe intégrale pour
tout A ∈ A i.e
Z Z
∂ ∂f (x, θ)
f (x, θ)dx = , i = 1, . . . , d.
∂θi A A ∂θi
Cette condition est satisfaite si le support de f (x, θ) est indépendant de θ
(modèle homogène).
0 R
(H4 ) On peut dériver la fonction θ −→ A f (x, θ)dx deux fois sous le signe intégrale

∂2
Z Z 2
∂ f (x, θ)
f (x, θ)dx = i, j = 1, . . . , d.
∂θi ∂θj A A ∂θi ∂θj
0 0
Définition 60. Sous les hypothèses (H1 ), (H2 ) et (H3 ), on appelle information de
Fisher la matrice (si elle existe)
 
∂ ln(f (X, θ)) ∂ ln(f (X, θ))
I(θ) = Eθ
∂θi ∂θi i,j=1,...,d

48
ENSEA-ITS2 49
0
Proposition 13. Sous l’hypothèse (H3 ), on a
  2 
∂ ln(f (X, θ))
I(θ) = − E .
∂θi θj i,j=1,...,d

Preuve (Exercice)

4.4 Estimateur sans biais


La convergence est une propriété asymptotique : définir la convergence demande
de considérer des échantillons de taille arbitrairement grande. Dans la réalité, la
taille des échantillons est limitée pour des raisons de délais ou de budget. Il est
donc naturel de se demander quelle qualité est attendue d’un estimateur limité à
des échantillons de taille donnée n.

4.4.1 Définitions
Définition 61. On appelle biais d’un estimateur θn∗ la quantité
bn (θ) = Enθ (θn∗ ) − g(θ).
Un estimateur est dit sans biais si bn (θ) = 0, c’est à dire, Enθ (θn∗ ) = g(θ).
Interprétation :
Remarque 18. Un estimateur est sans biais si sa valeur espérée qui est Enθ (θn∗ ) est
égale au paramètre à estimer g(θ). Le biais nous indique la valeur moyenne de l’erreur
d’estimation θn∗ − g(θ). Trois cas sont possibles :
• Eθ (θn∗ ) = g(θ) pour toutes les valeurs possibles du paramètre. L’estimateur
est sans biais ;
• Eθ (θn∗ ) = g(θ) + b où b est indépendent de θ. Dans ce cas l’estimateur a un
biais constant et connu, qui peut toujours être eliminé ;
• Eθ (θn∗ ) = g(θ) + b(θ) c’est-à-dire, on a un biais qui dépend de θ (qui est
inconnu).
Définition 62. Un estimateur est dit asymptotiquement sans biais si bn (θ) −→ 0
quand n → +∞.
On désire en général avoir des estimateurs qui soient sans biais. Cependant, un
estimateur peut être sans biais et être de mauvaise qualité, s’il produit, avec une
grande probabilité, des estimations qui sont très différentes de la vraie valeur.
Pour un estimateur θn∗ donné de g(θ), le risque quadratique moyen est défini par
R(θn∗ , θ) = Enθ (θn∗ − g(θ))2
= Enθ (θn∗ − Enθ (θn∗ ))2 + (Enθ (θn∗ ) − g(θ))2
= varθ (θn∗ ) + bn (θ)2
Le but est de trouver un estimateur avec un plus petit risque pour tout θ ∈ Θ.

ANNEE UNIVERSITAIRE 2010-2011


50 Armel Fabrice YODÉ

Remarque 19. Il n’exsite pas d’estimateur θn∗ tel que

R(θn∗ , θ) = min R(θ̃n , θ) ∀θ ∈ Θ


θ̃n

Pour resoudre ce dilemme, il existe une façon de proceder raisonnable consistant


à restreindre la classe des estimateurs et à chercher des estimateurs à erreur qua-
dratique moyenne minimale dans cette classe restreinte. Nous pourrions prendre en
considération la classe des estimateurs sans biais. Dans ce cas, le risque quadratique
moyen est défini par
R(θn∗ , θ) = varθ (θn∗ )
Définition 63. L’estimateur θ1∗ est meilleur que θ2∗ si

varθ (θ1∗ ) ≤ varθ (θ2∗ ) ∀θ ∈ Θ.

4.4.2 Amélioration d’un estimateur sans biais


Le théorème de Rao-Blackwell fournit une méthode pour améliorer un estimateur
sans biais donné.
Théorème 20. (Théorème de Rao-Blackwell)
On considère une statistique exhaustive Sn pour θ et un estimateur θn∗ sans biais
de g(θ), alors la variable aléatoire θS∗ n = Enθ (θn∗ /Sn ) vérifie les propriétés suivantes :
i) θS∗ n est un estimateur sans biais de g(θ).
ii) varθ (θS∗ n ) ≤ varθ (θn∗ ) ∀θ ∈ Θ.
Preuve
- θS∗ n est bien un estimateur car, comme Sn est exhaustive, l’espérance condi-
tionnelle qui définit θS∗ n ne dépend pas de θ.
- θS∗ n est bien sans biais car

Eθ θS∗ n = Eθ (Enθ (θn∗ /Sn )) = Eθ (θn∗ ) = g(θ)




Le théorème de Lehman-Scheffé a une importance particulière en statistiques puis-


qu’il permet d’obtenir l’estimateur uniformément meilleur parmi l’ensemble des es-
timateurs sans biais. Il donne une condition d’existence et d’unicité d’un tel estima-
teur.
Théorème 21. (Théorème de Lehman-Scheffé)
Soient Sn une statistique exhaustive et totale, et θ̂n un estimateur sans biais de
g(θ). Alors θS∗ n = Enθ (θn∗ /Sn ) est optimale pour g(θ) dans la classe des estimateurs
sans biais, de variance finie. De plus, θS∗ n est unique.
Preuve.
En conclusion, si l’on dispose d’un estimateur sans biais fonction d’une statis-
tique exhaustive et totale, c’est le meilleur estimateur possible.
Le résultat suivant indique que la variance d’un estimateur ne peut être inférieure
à une certaine borne, qui dépend de l’information de Fisher.

50
ENSEA-ITS2 51

Théorème 22. (Borne de Frechet-Darmos-Cramer-Rao (FDCR))


Supposons les hypothèses (H1 ), (H4 ), (H5 ) sont vérifiées et que In (θ) > 0 pour
tout θ ∈ Θ. Soit Sn un estimateur sans biais de g(θ), nous avons
0
(g (θ))2
varθ (Sn ) ≥
In (θ)

où In (θ) est l’information de Fisher.

Remarque 20. Si g(θ) = θ alors nous avons


1
varθ (Sn ) ≥
In (θ)

Version multidimensionnelle : varθ (Sn ) − In−1 (θ) est positive.

Définition 64. On appelle estimateur efficace un estimateur sans biais dont la


variance est égale à la borne FDCR.

Remarque 21. Un estimateur efficace est optimal parmi les estimateurs sans biais.
Mais il peut exister un estimateur optimal parmi les estimateurs sans biais qui ne soit
pas efficace i.e. dont la variance reste strictement supérieure à la borne de FDCR.
En particulier, il n’existe pas toujours un estimateur efficace.

Exemple 23. 1. X n = (X1 , . . . , Xn ) un échantillon de taille n issu de la loi


2
normale N (θ, σ 2 ) avec σ 2 connue ; Eθ (X̄n ) = θ, varθ (X̄n ) = σn , In (θ) = σn2 .
Par suite, nous avons :
1
varθ (X̄n ) =
In (θ)
X̄n est un estimateur efficace.
2. X n = (X1 , . . . , Xn ) un échantillon de taille n issu de la loi normale N (m, σ 2 )
2σ 2 4 1 Pn
In (σ 2 ) = 2σn4 ; varθ (Sn2 ) = n−1 6= 2σn . Par suite Sn2 = n−1 i=1 (Xi − X̄n )
2

n’est pas un estimateur efficace.

4.4.3 Cas des familles exponentielles


Ce théorème lie étroitement l’efficacité au modèle exponentiel.

Théorème 23. Sous les conditions pour l’inégalité de FDCR, pour que la borne
inférieure soit atteinte dans cette inégalité, il est necessaire et suffisant que θn∗ soit
exhaustif et que la fonction g(θn∗ , θ) du théorème de factorisation soit de la forme

f (x, θ) = h(x) exp(α(θ)θn∗ (x) + β(θ)).

avec α(θ) et β(θ) dérivable en θ.

Remarque 22. θn∗ est un estimateur efficace de θ si et seulement si le modèle est


exponentiel.

ANNEE UNIVERSITAIRE 2010-2011


52 Armel Fabrice YODÉ

4.5 Methode du maximum de vraisemblance


Etant donné un échantillon X n = (X1 , . . . , Xn ) issu de Pθ de densité f (x, θ), la
méthode du maximum de vraisemblance consiste à prendre comme estimateur de θ
la valeur de θ qui rend maximale la vraisemblance
n
Y
fn (x1 , . . . , xn , θ) = f (xi , θ).
i=1

Définition 65. L’estimateur du maximum de vraisemblance (EMV) θ̂n est défini


par
fn (x1 , . . . , xn , θ̂n ) = max fn (x1 , . . . , xn , θ)
θ∈Θ

c’est à dire
fn (x1 , . . . , xn , θ̂n ) ≥ fn (x1 , . . . , xn , θ), ∀θ ∈ Θ

Remarque 23. Puisque la fonction log est croissante

log fn (x1 , . . . , xn , θ̂n ) = max log fn (x1 , . . . , xn , θ)


θ∈Θ

Remarque 24. Supposons que les hypothèses H0 et H1 vérifiées. De plus, on suppose


que la vraisemblance est de classe C 2 par rapport à θ. Alors l’EMV est solution du
système :
∂fn ∂ log fn
 

 = 0 
 =0
 ∂θ  ∂θ

 

 
ou
 2 
 ∂ 2 log fn
  
 ∂ fn
 
<0 <0

 

∂θ2 θ=θ̂n ∂θ2
 
θ=θ̂n

4.5.1 Propriétés à distance finie


Soit θ̂n l’EMV de θ :
1. Soit Sn une statistique exhaustive pour θ. Tout EMV est nécessairement fonc-
tion de Sn
2. Invariance fonctionnelle Si θ̂n est un EMV de θ alors g(θ̂n ) est un EMV
de g(θ).
La preuve est élémentaire si g est bijective et plus délicate dans le cas général.
3. Si θ̂n est un estimateur efficace de θ alors θ̂n est aussi l’EMV de θ

4.5.2 Propriétés asymptotiques


Soit θ̂n l’EMV de θ. Sous les conditions suivantes :
- (H0 ), (H1 ), (H4 ), (H5 ),
∂ 2 fn
- θ −→ existe et est continue
∂θ2

52
ENSEA-ITS2 53

- 0 < In (θ) < ∞, pour tout θΘ.


1. θ̂n est un estimateur consistant
2. θ̂n est asypmtotiquement efficace, c’est à dire,

 
1
n(θ̂n − θ) −→ N 0, ; n → +∞
In (θ)
.

ANNEE UNIVERSITAIRE 2010-2011


54 Armel Fabrice YODÉ

54
Chapitre 5

Estimation par intervalle de


confiance

5.1 Définitions
Définition 66. Soit α ∈]0, 1[ ; on appelle intervalle de confiance pour le paramètre
θ de niveau de confiance 1 − α, l’intervalle [T1 (X n ), T2 (X n )] tel que

Pθ ([T1 (X n ), T2 (X n )] 3 θ) = 1 − α

où T1 (X n ) et T2 (X n ) désignent deux statistiques à valeurs dans Θ.

Définition 67. On dira que [T1 (X n ), T2 (X n )] est un intervalle de confiance pour le


paramètre θ de niveau de confiance asymptotique 1 − α si Pθ ([T1 (X n ), T2 (X n )] 3 θ)
tend vers 1 − α quand la taille de l’échantillon n tend vers l’infini.

Remarque 25. .

1. L’interprétation du fait que [T1 (X n ), T2 (X n )] est un intervalle de confiance


est la suivante : on observe X n = x et on construit ainsi [T1 (x), T2 (x] et
on annonce que θ ∈ [T1 (x), T2 (x]. Si on repète cela N fois d’une manière
indépendante , quand N est très grand, on devrait avoir raison dans (1 − α)N
fois parmi les N répétitions.
2. l = T2 (X n ) − T1 (X n ) s’appelle la longueur de l’intervalle de confiance. A α
fixé, l’intervalle de confiance est d’autant meilleur que l est petit.

Définition 68. Soit X une variable aléatoire réelle. Supposons que la fonction de
répartition FX soit continue et strictement croissante. Pour 0 ≤ α ≤ 1 ; on note xα
l’unique nombre réel vérifiant

FX (xα ) = P(X ≤ xα ) = α.

On dit xα est le quantile d’ordre α.

55
56 Armel Fabrice YODÉ

5.2 Construction d’un intervalle de confiance


On commence d’abord par introduire la notion de fonction pivotale qui est par-
ticulièrement utile pour la construction d’un intervalle de confiance.

Définition 69. On appelle fonction pivotale pour θ toute fonction de l’échantillon


et de θ dont la loi ne dépend pas de θ.
Elle est dite asymptotiquement pivotale si c’est la loi limite qui ne dépend pas de θ.

Méthode de construction
- Soit h(X1 , . . . , Xn , θ) une fonction pivotale pour θ.
- Supposons que l’on puisse déterminer numériquement u1 et u2 tel que

Pθ (u1 ≤ h(X1 , . . . , Xn , θ) ≤ u2 ) = 1 − α

u1 et u2 sont indépendants de θ.
- Résoudre en θ la double inéquation

u1 ≤ h(X1 , . . . , Xn , θ) ≤ u2 (5.2.1)

de telle sorte que (5.2.1) soit équivalent à :

g1 (X1 , . . . , Xn ) ≤ θ ≤ g2 (X1 , . . . , Xn ),

on en déduit immédiatement un intervalle de confiance θ.

5.3 Intervalles de confiance classiques


Dans un premier temps, nous construirons des intervalles de confiance pour
la moyenne et la variance de la loi normale. Puis, dans un second temps, nous
indiquerons comment obtenir des intervalles de confiance pour des lois quelconques
quand la taille de l’échantillon n est ”grande”.

5.3.1 Echantillon issu d’une loi normale N (µ, σ 2 )


Intervalle de confiance pour la moyenne µ quand σ 2 est connue
2
F Fonction pivotale : X̄n est un estimateur de µ. De plus X̄n N (µ, σn ). La
X̄n − µ
fonction h(X1 , . . . , Xn , µ) = σ est pivotale pour µ puisque

n

X̄n − µ
N (0, 1).
√σ
n

56
ENSEA-ITS2 57
X̄n − µ
F Partant de N (0, 1) on a :
√σ
n
" #
X̄n − µ
P a≤ ≤ b = 1 − α. (5.3.1)
√σ
n

Ce qui implique
" # " #
X̄n − µ X̄n − µ
P ≤a +P ≥ b = α.
√σ √σ
n n

Posons :
" #
X̄n − µ
P ≤ a = α1
√σ
n
" #
X̄n − µ
P ≥ b = α2 .
√σ
n

Ainsi a et b désignent respectivement les quantiles d’ordre α1 et 1 − α2 de la


loi N (0, 1) tels que α = α1 + α2 . A noter que pour des raisons de symétrie,
nous avons
" #
X̄n − µ
α1 = P σ ≤a

n
Z a
1 x2
=√ e− 2 dx
2π −∞
Z +∞
1 x2
=√ e− 2 dx
2π −a
" #
X̄n − µ
=P σ ≥ −a

n

ainsi : " # " #


X̄n − µ X̄n − µ
P ≤a =P ≥ −a
√σ √σ
n n

Il est clair que de (5.3.1), nous avons :


X̄n − µ σ σ
a≤ ≤ b ⇐⇒ X̄n − √ b ≤ µ ≤ X̄n − √ a.
√σ n n
n

F Donc  
bσ aσ
I = X̄n − √ , X̄n − √
n n
est un intervalle de confiance de niveau de confiance de 1 − α pour µ. Sa
longueur est
σ
√ (b − a).
n

ANNEE UNIVERSITAIRE 2010-2011


58 Armel Fabrice YODÉ

Pamis tous ces intervalles de confiance, peut-on en exhiber un qui soit meilleur
que tous les autres (au sens où sa longueur serait minimale). La réponse est
fournie par le résultat suivant :
Théorème 24. Soit X une variable aléatoire réelle de densité f (x) symétrique
par rapport à zero et unimodale. Soit I la classe des intervalles réels de type
[a, b] tels que a < 0 < b et vérifiant P(a ≤ X ≤ b) = 1 − α où α ∈]0, 1[.
L’intervalle de longueur minimale est celui qui est symétrique par rapport à
zéro, c’est à dire du type [−t, t] où t est alors le quantile d’ordre 1 − α2 de f (x).
Comme la densité de la loi normale N (0, 1) est symétrique par rapport à zero
et unimodale, on peut utiliser ce résultat. Ce qui conduit à a = −b et
" # " #
X̄n − µ X̄n − µ
P σ ≤ −b + P σ ≥ b = α.
√ √
n n

Comme
" # " #
X̄n − µ X̄n − µ α
P ≤ −b = P ≥ b ⇒ α1 = α2 =
√σ √σ 2
n n

nous avons " #


X̄n − µ α
P ≥b =
√σ 2
n

Ainsi, nous obtenons :


" #
X̄n − µ α
P ≤b =1−
√σ 2
n

b = t1− α2 est donc le quantile d’ordre 1 − α2 de la loi normale centrée reduite.


Remarque 26. b = t1− α2 est fourni par les tables statistiques.
Par conséquent : l’intervalle de confiance de niveau de confiance 1 − α est
t1− α2 σ t1− α2 σ
 
X̄n − √ , X̄n + √
n n

Intervalle de confiance pour la moyenne µ quand σ 2 est inconnue


Définition 70. Soient Z N (0, 1) et Y χ(n). Alors, si Z et Y sont indépendantes
alors
Z
T =q T (n − 1) (loi de Student à n dégrés de liberté).
Y
n

F Fonction pivotale : comme

X̄n − µ
Z= N (0, 1)
√σ
n

58
ENSEA-ITS2 59

et que
Sn2
Y = (n − 1) χ(n − 1)
σ2
où
n
1 X
Sn2 = (Xi − X̄n )2
n−1
i=1
on en deduit que :

Z n(X̄n − µ)
h(X1 , . . . , Xn , µ) = q = T (n − 1)
Y Sn
n

est une fonction pivotale pour µ.



n(X̄n − µ)
F Partant de T (n − 1), on a
Sn
 √ 
n(X̄n − µ)
P a≤ ≤ b = 1 − α. (5.3.2)
Sn
il est clair que de (5.3.2), nous avons :

n(X̄n − µ) Sn Sn
a≤ ≤ b ⇐⇒ X̄n − √ b ≤ µ ≤ X̄n − √ a.
Sn n n
F Donc  
bSn aSn
I = X̄n − √ , X̄n − √
n n
est un intervalle de confiance de niveau de confiance de 1 − α pour µ. Sa
longueur est
S
√n (b − a).
n
Comme la densité de la loi de Student T (n − 1) est symétrique par rapport
à zero et unimodale, on peut utiliser le Théorème 24. D’où l’intervalle de
confiance de niveau de confiance 1 − α pour µ est
t1− α2 Sn t1− α2 Sn
 
I = X̄n − √ , X̄n + √
n n
α
où t1− α2 désigne le quantile d’ordre 1 − 2 d’une loi de Student à n − 1 dégrés
de liberté.

Intervalle de confiance pour la moyenne σ 2 quand µ est connue


Définition 71. Soient n variables aléatoires Z1 , . . . , Zn indépendantes identique-
ment distribuées de loi normale centrée réduite N (0, 1). Alors
n
X
Zi2 χ2 (n)
i=1

ANNEE UNIVERSITAIRE 2010-2011


60 Armel Fabrice YODÉ

F Fonction pivotale : comme

X̄n − µ
N (0, 1)
√σ
n

on en déduit que la fonction

n
!2
S̃ 2 X X̄n − µ
n n2 = χ2 (n)
σ √σ
i=1 n

où
n
1X
S̃n2 = (Xi − µ)2
n
i=1

est pivotale pour σ 2 .


S̃n2
F Partant de n χ2 (n), on a :
σ2
" #
S̃n2
P a ≤ n 2 ≤ b = 1 − α. (5.3.3)
σ

il est clair de (5.3.3), on a

S̃n2 nS̃n2 2 nS̃n2


a≤n ≤ b ⇐⇒ ≤ σ ≤
σ2 b a

F Donc
" #
nS̃n2 nS̃n2
I= ,
b a

est un intervalle de confiance de niveau de confiance de 1 − α pour σ 2 . Sa


longueur est
 
2 1 1
nS̃n − .
a b

La densité de la loi χ2 (n) ne vérifie pas les conditions du Théorème 24.


De ce fait l’intervalle de confiance de niveau de confiance 1 − α est
" #
nS̃n2 nS̃n2
I= ,
b a

où a et b sont respectivement le quantile d’ordre α1 et 1 − α2 d’une loi χ2 (n)


tels que α1 + α2 = α. En pratique, on prend α1 = α2 = α2 .

60
ENSEA-ITS2 61

Intervalle de confiance pour la moyenne σ 2 quand µ est inconnue


Théorème 25.
Sn2
(n − 1) χ2 (n − 1)
σ2
avec
n
1X
Sn = (Xi − X̄n )2
n
i=1

F Fonction pivotale : la fonction

Sn2
(n − 1)
σ2
est pivotale pour σ 2
F En procédant comme précédemment, on montre que l’intervalle de confiance
de niveau 1 − α pour σ 2 est
" #
nS̃n2 nS̃n2
,
b a

où a et b sont respectivement le quantile d’ordre α1 et 1−α2 d’une loi χ2 (n−1)


tels que α1 + α2 = α. En pratique, on prend α1 = α2 = α2 .

ANNEE UNIVERSITAIRE 2010-2011


62 Armel Fabrice YODÉ

62
Chapitre 6

Tests d’hypothèses

6.1 Principe des tests


6.1.1 Définitions
Un test est un mécanisme qui permet de trancher entre deux hypothèses au vu
des résultats d’un échantillon. Soit X n = (X1 , . . . , Xn ) un échantillon de taille n
issu d’une loi de probabilité Pθ , θ ∈ Θ ⊂ Rk . Soient Θ0 , Θ1 ⊂ Θ tels que Θ1 ⊂ Θc0 .
En se basant sur l’échantillon X n , nous voulons tester l’hypothèse H0 : θ ∈ Θ0
contre H1 : θ ∈ Θ1 i.e. décider si H0 ou H1 est vraie. Les hypothèses H0 et H1 sont
telles que une et une seule est vraie. Nous appelerons H0 l’hypothèse nulle et H1
alternative l’alternative de H0 . L’hypothèse Hi (i = 0, 1) est dite simple si Θi n’a
qu’un seul élément. Sinon, elle est dite composite.
Dans un problème de test, l’on peut commettre deux types d’erreur :
• Erreur de première espèce : rejeter H0 alors que H0 est vraie
• Erreur de deuxième espèce : rejeter H1 alors que H1 est vraie.

Définition 72. On appelle risque de première espèce la probabilité de rejeter H0


alors que H0 est vraie.

Définition 73. On appelle risque de deuxième espèce la probabilité de rejeter H1


alors que H1 est vraie.

Définition 74. Un test aléatoire est une application ϕ dépendant de X n à valeurs


dans [0, 1] telle que l’on rejette H0 avec la probabilité ϕ(X n ) et l’on accepte H0 avec
la probabilité 1 − ϕ(X n ).

Définition 75. Un test pur est une application ϕ dépendant de X n à valeurs dans
{0, 1} telle que l’on accepte H1 si ϕ(X n ) = 1 et l’on accepte H0 si ϕ(X n ) = 0.
Un test pur est déterminé par sa région critique définie

Rn = {X n : ϕ(X n ) = 1} .

63
64 Armel Fabrice YODÉ

Définition 76. La fonction

αϕ (θ) = Enθ (ϕ(X n )), θ ∈ Θ0

est appelée le risque de première espèce du test ϕ.

Définition 77. La fonction

βϕ (θ) = Enθ (1 − ϕ(X n )), θ ∈ Θ1

est appelée le risque de deuxième espèce du test ϕ.

Définition 78. La fonction

γϕ (θ) = 1 − βϕ (θ), θ ∈ Θ1

est appelée puissance du test ϕ.

H0 est vraie H1 est vraie


H0 est décidée 1−α β
H1 est décidée α 1−β

Remarque 27. Soit ϕ un test pur. Dans ce cas, nous avons


• αϕ (θ) = Pnθ (X n ∈ Rn ), θ ∈ Θ0 .
• βϕ (θ) = Pnθ (X n ∈ Rnc ), θ ∈ Θ1 .
• γϕ (θ) = Pnθ (X n ∈ Rn ), θ ∈ Θ1 .
Le test ϕ est bon si les erreurs sont petites. On ne peut pas les rendre simul-
tanément aussi petites que l’on veut parce que en augmentant par exemple Rn , l’er-
reur de deuxième espèce diminue mais l’erreur de première espèce devient grande et
vice versa.

Définition 79. Le nombre


α = sup αϕ (θ)
θ∈Θ0

est appelé le niveau ou le seuil de signification du test ϕ, ce qui signifie que la


probabilité de rejeter H0 à tort ne doit pas dépasser α.

Définition 80. Le test ϕ de niveau α est dit sans biais si sa puissance est supérieure
ou égale à α i.e. si
γϕ (θ) ≥ α, ∀θ ∈ Θ1 .

Définition 81. Le test ϕ est dit Uniformément le Plus Puissant (U.P.P.) de seuil
α si pour tout autre test ψ, on a

αϕ (θ) ≤ αψ (θ) ≤ α, ∀θ ∈ Θ0

γϕ (θ) ≥ γψ (θ), ∀θ ∈ Θ1

64
ENSEA-ITS2 65

La construction des tests est souvent falicitée quand on regarde le comporte-


ment asymptotique des statistiques de test lorsque la taille de l’échantillon tend
vers l’infini. si (Rn , n ≥ 1) est une suite de région critiques où Rn correspond aux
échantilollons de taille n, on dit que le test Rn est de niveau asymptotique α si

lim sup Pnθ (Rn ) = α.


n→+∞ θ∈Θ0

Le test est dit convergent si pour tout θ ∈ Θ1 , on a

lim Pnθ (Rn ) = 1.


n→+∞

6.1.2 p-valeur
On désire tester l’hypothèse nulle H0 contre une alternative H1 . Soit T la statis-
tique de test que l’on suppose à valeurs réelles. On désigne par P0 est la loi de T sous
H0 . A partir des données recueillies, on a une valeur observée t pour la statistique
de test T .

Définition 82. 1. Pour un test unilatéral droit

p = P0 ({T > t}) .

2. Pour un test unilatéral gauche

p = P0 ({T < t}) .

3. Pour un test bilatéral avec T de loi centrée symétrique sous H0

p = P0 ({|T | > |t|}) .

Rappelons que α le niveau du test est par définition :

α = P ({rejet de H0 }) .

Règle : si la p-value est plus petite que le niveau α alors l’hypothèse H0


est rejetée

Notons F0 la fonction de répartition T sous H0 et examinons le lien entre région


critique d’un test, règle de décision et p-valeur.
• Test unilatéral droit. La région critique du test est de la forme ]cα , +∞[
avec F0 (cα ) = 1 − α.

p < α ⇐⇒ F0 (cα ) < F0 (t) ⇐⇒ cα < t.

• Test unilatéral gauche. La région critique du test est de la forme ] − ∞, cα [


avec F0 (cα ) = α.

p < α ⇐⇒ F0 (t) < F0 (cα ) ⇐⇒ t < cα .

ANNEE UNIVERSITAIRE 2010-2011


66 Armel Fabrice YODÉ

• Test bilatéral. La région critique du test est ] − ∞, −cα [∪]cα , ∞[ avec cα > 0
et F0 (cα ) = 1 − α2 . La p-valeur est

p = P0 (|T | > |t|) = 1 − F0 (|t|) + F0 (−|t|) = 2(1 − F0 (|t|))

puisque P0 est symétrique.


α
p < α ⇐⇒ 2(1−F0 (|t|)) < α ⇐⇒ 1− < F0 (|t|) ⇐⇒ F0 (cα ) < F0 (|t|) ⇐⇒ cα < |t|.
2
Pour un test de niveau α, l’hypothèse H0 est rejetée dès lors que la p-valeur est
strictement inférieure à α. La règle de décision consiste simplement à comparer p à
α au lieu de comparer t à des valeurs seuils fournies par des tables statistiques. Les
logiciels statistiques calculent et présentent les p-valeurs qui sont difficiles à obtenir
sans moyen de calcul approprié.

6.1.3 Etapes d’un test d’hypothèses


1. Choix d’un modèle
2. Choix des hypothèses
3. Choix de la statistique de test
4. Loi ou comportement de la statistique de test (en général asymptotique) sous
H0
5. Loi ou comportement de la statistique de test (en général asymptotique) sous
H1
6. Région critique du test
7. Niveau (exact ou asymptotique) du test : α
8. Puissance ou convergence du test
9. Calcul de la p-valeur du test
A l’issu de ce travail, il faut conclure. Si la p−valeur est faible, on rejette H0 , sinon
on accepte H0

6.2 Test de Neyman-Pearson


Un test entre deux hypothèses simples se traduit par

H0 : θ = θ0
H1 : θ = θ1

avec θ0 6= θ1 . La densité de probabilité de X n = (X1 , . . . , Xn ) est définie par


n
Y
fn (X n , θ) = f (Xi , θ).
i=1

66
ENSEA-ITS2 67

Lemme 1. de Neyman-Pearson
Pour tout α ∈]0, 1[, il existe des constantes c > 0 et γ ∈ [0, 1] telles que le test basé
sur la statistique

1
 si f (X n , θ1 ) > cf (X n , θ0 )
φ(X n ) = γ si f (X n , θ1 ) = cf (X n , θ0 )

0 si f (X n , θ1 ) < cf (X n , θ0 )

a le niveau α et est le plus puissant parmi tous les tests ψ tels que Enθ0 ψ(X n ) ≤ α.
Preuve :
1. On cherche les constantes c et γ telle que
f (X n , θ1 ) f (X n , θ1 )
   
n n n n
Eθ (φ(X )) = Pθ0 > c + γPθ0 = c = α.
f (X n , θ0 ) f (X n , θ0 )
Pour tout t ∈ R, posons
f (X n , θ1 )
 
F (t) = Pnθ0 ≤t
f (X n , θ0 )
et
f (X n , θ1 )
 
G(t) = 1 − F (t) = Pnθ0 > t .
f (X n , θ0 )
La fonction G(t) est décroissante, continue à droite. Ainsi, nous avons
f (X n , θ1 )
 
n
Pθ0 = c = G(c− ) − G(c),
f (X n , θ0 )
avec
G(c− ) = lim G(t).
t→c,t<c

De plus, pour tout α ∈]0, 1[, il existe c0 ≥ 0 telle que G(c0 ) ≤ α ≤ G(c− 0 ). En
effet,
• ou bien G(c0 ) = G(c− 0 ), c’est à dire que c0 est un point de continuité de
G, et alors G(c0 ) = α et on prend c = c0 , γ = 0 et nous avons
(
n 1 si f (X n , θ1 ) > cf (X n , θ0 )
φ(X ) =
0 si f (X n , θ1 ) < cf (X n , θ0 );

le test est de niveau α car

Enθ0 (φ(X n )) = G(c0 ) + 0 = α;

• ou bien c0 est un point de discontinuité de G et on prend c = c0 et on


pose
α − G(c0 )
γ= ∈ [0, 1];
G(c−0 ) − G(c0 )
a nouveau, le test est de niveau α.

ANNEE UNIVERSITAIRE 2010-2011


68 Armel Fabrice YODÉ

2. On montre que le test φ est le plus puissant. Supposons que ψ est un autre
test tel que Enθ0 ψ(X n ) ≤ α. Alors

Enθ0 (φ(X n ) − ψ(X n )) ≥ 0.

De la définition de φ, on tire :
- si f (X n , θ1 )−cf (X n , θ0 ) > 0 alors φ(X n ) = 1 ≥ ψ(X n ) et donc φ(X n )−
ψ(X n ) ≥ 0
- si f (X n , θ1 )−cf (X n , θ0 ) < 0 alors φ(X n ) = 0 ≤ ψ(X n ) et donc φ(X n )−
ψ(X n ) ≤ 0
C’est pourquoi

(φ(t) − ψ(t))(f (t, θ1 ) − cf (t, θ0 ) ≥ 0, ∀t ∈ Rn


Z
(φ(t) − ψ(t))(f (t, θ1 ) − cf (t, θ0 ))µ(dt) ≥ 0
Z Z
(φ(t) − ψ(t))f (t, θ1 )dt ≥ c (φ(t) − ψ(t))f (t, θ0 )dt.

La dernière inégalité s’écrit :

Enθ1 (φ(X n )) − Enθ1 (ψ(X n )) ≥ cα Enθ0 (φ(X n )) − Enθ0 (ψ(X n )) .




Ainsi Enθ1 (φ(X n )) ≥ Enθ1 (ψ(X n )) et le test φ est plus puissant que ψ.

Exemple 24. 1. Test de la moyenne d’une loi normale de variance connue :


On considère un échantillon X n = (X1 , . . . , Xn ) issu d’une loi normale N (m, σ 2 ),
m ∈ R, σ 2 > 0. Soit m0 , m1 ∈ R tels que m0 6= m1 . considère le problème de
test (
H0 : m = m0
H1 : m = m1
La vraisemblance de l’échantillon X n est
n
 n ( )
n 1 1 X 2
f (X , m) = √ exp − 2 (Xi − m) .
2πσ 2σ
i=1

D’après le Lemme de Neyman-Pearson, le test P.P. est de la forme :

f (X n , m1 )

1 si >k


f (X n , m0 )
φ(X n ) = n
f (X , m1 )
0 si <k


f (X n , m0 )
avec
f (X n , m1 )
 
Pnm0 >k = α.
f (X n , m0 )

68
ENSEA-ITS2 69

Le rapport de vraisemblance est :


n
( )
f (X n , m1 ) 1 X 2 2

= exp − 2 (Xi − m1 ) − (Xi − m0 ) .
f (X n , m0 ) 2σ
i=1

en passant au logarithme et en développant, nous obtenons la région critique


suivante :
−σ 2 ln(k)
  
m0 + m1
Rn = X̄n − (m0 − m1 ) ≤ .
2 n
Si m0 < m1 , on aboutit à 
Rn = X̄n ≥ λ
où
m1 + m0 σ 2 ln(k)
λ= − .
2 n(m0 − m1 )
Sous l’hypothèse H0 ,

σ2
 
n(X̄n − m0 )
X̄n ,→ N m0 , ⇔ ,→ N (0, 1).
n σ
Par suite, nous avons :
 
X̄n − m0 λ − m0
α= Pnm0 √ ≥ √ .
σ/ n σ/ n
En utilisant la table statistique, nous obtenons
λ − m0
√ = u1−α (quantile d’ordre 1 − α de N (0, 1))
σ/ n
soit
σu1−α
λ = m0 + √ .
n
Erreur de deuxième espèce :
√ √ 
n(X̄n − m1 ) n(λ − m1 )
Pnm1

βn = X̄n < λ = P <
σ σ
√ 
n(λ − m1 )
= FN (0,1) .
σ
La puissance du test est :
√ 
n(λ − m1 )
γn = 1 − FN (0,1) .
σ
Comme, √ √
n(λ − m1 ) n(m0 − m1 )
= + u1−α −→ −∞,
σ σ
la puissance γn −→ 1.

ANNEE UNIVERSITAIRE 2010-2011


70 Armel Fabrice YODÉ

2. Test d’une proportion : On considère un échantillon X n = (X1 , . . . , Xn )


issu d’une loi de Bernouilli B(1, p), p ∈]0, 1[. Soient p0 , p1 ∈]0, 1[ tels que
p0 6= p1 . On considère le problème
(
H0 : p = p0
H1 : p = p1

La vraisemblance de l’échantillon est


 Pni=1 Xi
p
f (X n , p) = (1 − p)n .
1−p
D’après le Lemme de Neyman-Pearson, le test P.P. est de la forme :

f (X n , p1 )

1 si ≥k


f (X n , p0 )



n

 f (X , p1 )
φ(X n ) = γ si =k
 f (X n , p0 )
f (X n , p1 )



0 si <k


f (X n , p0 )
avec
f (X n , p1 ) f (X n , p1 )
   
Pnp0 n
> k + γPp0 = k = α.
f (X n , p0 ) f (X n , p0 )
En passant au logarithme et en développant, nous obtenons
 n
 X
1 si Xi > c





 i=1
n


 X
n γ si Xi = c
φ(X ) =

 i=1
n



 X
0 si Xi < c



i=1

• Si la taille de l’échantillon est suffisamment grand (n > 30), nous pou-


vons utiliser le Théorème Central Limite qui stipule que :
√ 
n X̄n − p
p −→ N (0, 1).
p(1 − p)

Par suite, pour n suffisamment grand, nous avons


 
p(1 − p)
X̄n ,→ N p, .
n
Le test P.P. est alors de la forme
(
1 si X̄n ≥ c
φ(X1 , . . . , Xn ) =
0 si X̄n < c.

70
ENSEA-ITS2 71

Nous avons
√ √ !
n(X̄n − p0 ) n(c − p0 )
α = Pnp0 X̄n ≥ c = Pnp0

p ≥p .
p0 (1 − p0 ) p0 (1 − p0 )

en lisant dans une table statistique de la loi normale, nous obtenons


r
p0 (1 − p0 )
c = p0 + u1−α
n
où u1−α est le quantile d’ordre 1 − α de la loi N (0, 1).
L’erreur de deuxième espèce est donnée par
√ √ !
n(X̄ n − p1 ) n(c − p 1 )
β = Pnp1 p <p .
p1 (1 − p1 ) p1 (1 − p1 )

• Si n ≤ 30, nous procédons comme suit. Considérons le cas n = 10,


α = 0.05, p0 = 1/2, p1 = 1/4. En utilisant la table statistique de la loi
binomiale B(10, 1/2), nous obtenons :

P(B(10, 1/2) ≤ 6) = 0.943 ≤ α ≤ 0.9893 = P(B(10, 1/2) ≤ 7).

Alors c0 = 7 et 0.05 = 0.0147 + γ(0.0547 − 0.0147) soit


0.05 − 0.0147
γ= = 0.8825.
0.0547 − 0.0147
Le test de Neyman-Pearson est donc :
10

 X



1 si Xi > 7
i=1




 X10
φ(X1 , . . . , Xn ) = 0.8825 si Xi = 7


 i=1


 X10



0 si Xi < 7.
i=1

6.3 Tests entre hypothèses composites


On suppose que Θ ⊂ R. Les problèmes de tests sont de cinq types :
1. H0 : θ ≤ θ0 contre H1 : θ > θ0
2. H0 : θ ≥ θ0 contre H1 : θ < θ0
3. H0 : θ ≤ θ1 ou θ ≥ θ2 contre H1 : θ1 < θ < θ2
4. H0 : θ1 ≤ θ ≤ θ2 contre H1 : θ < θ1 ou θ > θ2
5. H0 : θ = θ0 contre H1 : θ 6= θ0 .
Sous certaines conditions, il existe des tests U.P.P. pour les problèmes 1, 2 et 3. La
situation est moins favorable pour les problèmes 4 et 5.

ANNEE UNIVERSITAIRE 2010-2011


72 Armel Fabrice YODÉ

6.3.1 Famille à rapport de vraisemblance monotone


Définition 83. Soit (X1 , . . . , Xn ) un échantillon de densité f (x1 , . . . , xn , θ), θ ∈
Θ ⊂ R. Cette famille de lois est dite ”à rapport de vraisemblance monotone” en S
si l’ensemble D = {(x1 , . . . , xn ) ∈ Rn : f (x1 , . . . , xn , θ) > 0} ne dépend pas de θ et
0
il existe une statistique S(X1 , . . . , Xn ) telle que lorsque θ < θ” on a
0
f (x1 , . . . , xn , θ ) 6= f (x1 , . . . , xn , θ” )
et
f (x1 , . . . , xn , θ” )
0
R(x1 , . . . , xn , θ , θ” ) = = F (S(x1 , . . . , xn ))
f (x1 , . . . , xn , θ0 )
est une fonction monotone de S(x1 , . . . , xn ).
Proposition 14. Soit la famille de lois de densité de type exponentiel
f (x, θ) = h(x) exp{a(θ)U (x) + V (θ)}
et supposons que a(·) est croissante. Alors la famille est à rapport de vraisemblance
Xn
monotone croissant en S, où S(X n ) = U (Xi ). Si a(·) est décroissante alors le
i=1
rapport de vraisemblance est décroissant en S.
Preuve : On a
f (x1 , . . . , xn , θ) = H(x1 , . . . , xn ) exp{a(θ)S(x1 , . . . , xn ) + nV (θ)}
avec H(x1 , . . . , xn ) = h(x1 ) . . . h(xn ). Sur l’ensemble de points (x1 , . . . , xn ) où H(x1 , . . . , xn ) >
0, on a
0 f (x1 , . . . , xn , θ” )
R(x1 , . . . , xn , θ , θ” ) =
f (x1 , . . . , xn , θ0 )
n 0 0
o
= exp (a(θ” ) − a(θ ))S(x1 , . . . , xn ) + n(V (θ” ) − V (θ )) .

6.3.2 Tests U.P.P.


Théorème 26. Soit X n = (X1 , . . . , Xn ) de densité f (·, θ), θ ∈ Θ ⊂ R. Soit θ0 ∈ Θ
fixé. On considère le problème de test suivant
H0 : θ ≤ θ0 contre H1 : θ > θ0
au seuil α ∈]0, 1[.
1. Supposons qu’il s’agit d’une famille à rapport de vraisemblance croissant en
S. Il existe un test U.P.P. dans la classe des tests de seuil α donné par

n
1 si S(X ) > C

φ(X n ) = γ si S(X n ) = C (6.3.1)

 n
0 si S(X ) < C
où les constantes γ et C > 0 sont déterminées par
Enθ0 (φ(X n )) = Pnθ0 (S(X n ) > C) + γPnθ0 (S(X n ) = C) = α.

72
ENSEA-ITS2 73

2. Supposons qu’il s’agit d’une famille à rapport de vraisemblance décroissant


en S. Il existe un test U.P.P. dans la classe des tests de seuil α donné par

n
1 si S(X ) < C

φ(X n ) = γ si S(X n ) = C (6.3.2)

0 si S(X n ) > C

où les constantes γ et C > 0 sont déterminées par


Enθ0 (φ(X n )) = Pnθ0 (S(X n ) < C) + γPnθ0 (S(X n ) = C) = α.

Exemple 25.
Théorème 27. Soit X n = (X1 , . . . , Xn ) de densité f (·, θ), θ ∈ Θ ⊂ R. Soit θ0 ∈ Θ
fixé. On considère le problème de test suivant
H0 : θ ≥ θ0 contre H1 : θ < θ0
au seuil α ∈]0, 1[.
1. Supposons qu’il s’agit d’une famille à rapport de vraisemblance décroissant
en S. Il existe un test U.P.P. dans la classe des tests de seuil α donné par

n
1 si S(X ) > C

φ(X n ) = γ si S(X n ) = C (6.3.3)

 n
0 si S(X ) < C
où les constantes γ et C > 0 sont déterminées par
Enθ0 (φ(X n )) = Pnθ0 (S(X n ) > C) + γPnθ0 (S(X n ) = C) = α.

2. Supposons qu’il s’agit d’une famille à rapport de vraisemblance croissant en


S. Il existe un test U.P.P. dans la classe des tests de seuil α donné par

n
1 si S(X ) < C

n
φ(X ) = γ si S(X n ) = C (6.3.4)

 n
0 si S(X ) > C
où les constantes γ et C > 0 sont déterminées par
Enθ0 (φ(X n )) = Pnθ0 (S(X n ) < C) + γPnθ0 (S(X n ) = C) = α.

Exemple 26.
Théorème 28. Soit X n = (X1 , . . . , Xn ) un échantillon issu d’une loi de probabilité
Pθ , θ ∈ Θ ⊂ R de densité de type exponentiel
f (x, θ) = h(x) exp {a(θ)U (x) + V (θ)} .
Soient θ1 , θ2 ⊂ Θ fixés et θ1 < θ2 . On considère le problème de test suivant
H0 : θ ≤ θ1 ou θ ≥ θ2 contre H1 : θ1 < θ < θ2
au seuil α ∈]0, 1[.

ANNEE UNIVERSITAIRE 2010-2011


74 Armel Fabrice YODÉ

1. Si la famille de lois est à rapport de vraisemblance monotone croissant en S


alors le test U.P.P. dans la famille des tests de seuil α est donné par



 1 si C1 < S(X n ) < C2
γ si S(X n ) = C

1 1
φ(X n ) = n


 γ2 si S(X ) = C2
0 si S(X n ) < C ou S(X n ) > C

1 2

où les constantes γ1 , γ2 , C1 et C2 sont déterminées par les équations


Pnθ1 (C1 < S(X n ) < C2 ) + γ1 Pnθ1 (S(X n ) = C1 ) + γ2 Pnθ1 (S(X n ) = C2 ) = α
Pnθ2 (C1 < S(X n ) < C2 ) + γ1 Pnθ2 (S(X n ) = C1 ) + γ2 Pnθ2 (S(X n ) = C2 ) = α

2. Si la famille de lois est à rapport de vraisemblance monotone décroissant en


S alors le test U.P.P. dans la famille des tests de seuil α est donné par



 1 si S(X n ) < C1 ou S(X n ) > C2
γ si S(X n ) = C

1 1
φ(X n ) = n


 γ2 si S(X ) = C2
0 si C < S(X n ) < C

1 2

où les constantes γ1 , γ2 , C1 et C2 sont déterminées par les équations


Pnθ1 (S(X n ) < C1 ou S(X n ) > C2 ) + γ1 Pnθ1 (S(X n ) = C1 ) + γ2 Pnθ1 (S(X n ) = C2 ) = α
Pnθ1 (S(X n ) < C1 ou S(X n ) > C2 ) + γ1 Pnθ1 (S(X n ) = C1 ) + γ2 Pnθ1 (S(X n ) = C2 ) = α

6.3.3 Tests U.P.P.S.B.


Théorème 29. Soit X n = (X1 , . . . , Xn ) un échantillon issu d’une loi de probabilité
Pθ , θ ∈ Θ ⊂ R de densité de type exponentiel
f (x, θ) = h(x) exp {θU (x) + V (θ)} .
Soient θ0 , θ1 , θ2 ∈ Θ fixés avec θ1 < θ2 . On considère les problèmes de test suivant
H0 : θ1 ≤ θ ≤ θ2 contre H1 : θ < θ1 ou θ > θ2 (6.3.5)

H0 : θ = θ0 contre H1 : θ 6= θ0 (6.3.6)
au seuil α ∈]0, 1[.
Il existe un test U.P.P.S.B.



1 si S(X n ) < C1 ou S(X n ) > C2
γ si S(X n ) = C

1 1
φ(X n ) = n) = C


γ 2 si S(X 2
0 si C < S(X n ) < C

1 2

où les constantes γ1 , γ2 , C1 et C2 sont déterminées par les équations

74
ENSEA-ITS2 75

• pour (6.3.5), Enθ1 (φ(X n )) = α et Enθ2 (φ(X n )) = α


• pour (6.3.6), Enθ0 (φ(X n )) = α et Enθ0 (S(X n )φ(X n )) = αEnθ0 (S(X n )).
n
X
n
On rappelle que S(X ) = U (Xi ).
i=1

6.4 Tests du χ2
• Test d’adéquation à une loi P ∗ : on donne un échantillon de taille n issu
d’une loi inconnue P et on désire vérifier si cette loi est une loi connue P ∗ . Le
problème de test d’hypothèses est formulé comme suit :

H0 : P = P ∗
H1 : P 6= P ∗

Les paramètres de P ∗ seront soit connues, soit estimées.


Résolution : Les observations sont regroupées en k classes et on note respec-
tivement (Oj )1≤j≤k et (Ej )1≤j≤k l’effectif observé et l’effectif théorique (sous
H0 ) de chaque classe. Pour mésurer l’adéquation de l’échantillon au modèle
théorique, on utilise la quantité suivante :

k
X (Oj − Ej )2
T = .
Ej
j=1

• Test d’indépendance : On observe un couple (Y, Z) où Y et Z sont respec-


tivement à r et s modalités ; on veut tester si Y et Z sont indépendantes.
Résolution : comparer les effectifs observés Ojl des classes (j, l), avec les
effets théoriques Ejl qu’on devrait obtenir sous l’hypothèse d’indépendance à
l’aide de la quantité
r X s
X (Ojl − Ejl )2
T = .
Ejl
j=1 l=1

• Test d’homogénéité : les observations d’une variable qualitative à k mo-


dalités sur p échantillons permettent-elles de conclure que les échantillons
proviennent d’une même population.
Résolution : comparer les effectifs observés Ojl de chacune des k modalités
sur les p échantillons, avec les effectifs théoriques Ejl qu’on devrait obtenir
dans le cas où ils seraient issus d’une même population à l’aide de la quantité

p X
k
X (Ojl − Eij )2
T = .
Ejl
j=1 l=1

ANNEE UNIVERSITAIRE 2010-2011


76 Armel Fabrice YODÉ

6.4.1 Test d’adéquation à une loi donnée


On observe une variable aléatoire discrète susceptible de prendre k valeurs
a1 , . . . , ak . On note P = (p1 , . . . , pk ) le vecteur des probabilités définies par
pj = P(X1 = aj ), j ∈ {1, . . . , k}.
On veut tester si cette loi de probabilité inconnue P = (p1 , . . . , pk ) sur {a1 , . . . , ak }
est égale à une loi P ∗ = (p∗1 , . . . , p∗k ) définie sur le même ensemble. Ainsi, on veut
resoudre le problème de test suivant :
H0 : P = P ∗ contre H1 : P 6= P ∗ .
Pour j = 1, . . . , k, on note
n
1X Nj
p̂j = 1I{Xi =aj } =
n n
i=1

la fréquence empirique de aj . Le vecteur des fréquences empiriques est p̂ = (p̂1 , . . . , P̂k ).


Exercice 3. Montrer que p̂ est l’estimateur du maximum de vraisemblance de p.
L’idée qui est à la base du test est que le vecteur p̂ est proche de p∗ sous H0 que
sous H1 . Afin de quantifier la ”proximité”, Pearson a introduit la pseudo distance
k
X (p̂j − p∗j )2
ρn (p̂, π) = .
p∗j
j=1

En multipliant cette distance par n, on obtient le comportement asymptotique sui-


vant :
Théorème 30. Soit
k k
X (p̂j − p∗j )2 X (Nj − np∗j )2
Tn = nρn (p̂, p∗ ) = n = .
p∗j np∗j
j=1 j=1

Sous H0 , Tn converge en loi vers χ2 (k − 1). Sous H1 , Tn converge presque surement


vers +∞.
Il est donc naturel de proposer une région critique de la forme
Rn {Tn > c} où c = χ21−α,k−1 ,
car alors on arrive à un test qui est asymptotiquement de niveau α. En effet, sous
H0 :
lim P(Rn ) = lim P(Tn > c) = P(χ2k−1 > c) = α
n→+∞ n→+∞

Sous H1 nous avons


lim P(Rn ) = lim P(Tn > c) = 1,
n→+∞ n→+∞

c’est-à-dire la puissance du test tend vers 1 quand n tend vers l’infini. On dit que le
test est convergent. En pratique, ce test marche bien si n ≥ 30 et np∗j ≥ 5 (Nj ≥ 5)
pour tout j.

76
ENSEA-ITS2 77

Remarque 28. On observe X1 , . . . , Xn i.i.d. de même loi issue d’une loi P inconnue,
absolument continue par rapport à la mesure de Lebesgue sur R. Soit P ∗ une loi
absolument continue donnée. On considère le problème de test d’hypothèses suivant

H0 : P = P ∗ contre H1 : P 6= P ∗ .

Dans cette situation, on doit partitionner R en k classes Aj , j = 1, . . . , k. Pour


appliquer les mêmes idées que plus haut, d’une part, k doit être assez grand pour
que les lois discrètes, c’est-à-dire {pj = P (Aj )} et {p∗j = P ∗ (Aj )}, soient assez
proches des lois continues P et P ∗ . D’autre part, les probabilités P (Aj ) doivent être
suffisamment grandes, pour que l’approximation asymptotique soit valable.

Exemple 27.

6.4.2 Test d’adéquation à une famille de lois


On veut tester si la loi de probabilité inconnue P = (p1 , . . . , pk ) sur {a1 , . . . , ak }
est égale à une loi P ∗ (θ) = (p∗1 (θ), . . . , p∗k (θ)), θ ∈ Θ ⊂ Rs définie sur le même
ensemble avec θ inconnu. On considère donc le problème de test suivant

H0 : P = P ∗ (θ), θ ∈ Θ0 contre H1 : P 6= P ∗ (θ).

1. Comme précédemment, nous avons

k
X (Nj − np∗j (θ))2
Tn (θ) =
np∗j (θ)
j=1

mais la quantité Tn (θ) n’est plus une statistique car θ est inconnu.
2. On estime θ par l’estimateur du maximum de vraisemblance θ̂.
On a le résultat suivant

Théorème 31. Supposons que Θ0 est un ouvert de Rs , s < k, que pj : Θ0 → [0, 1]


 ∗ 
2
∂pj (θ)
est de classe C , pj (θ) 6= 0, ∀θ ∈ Θ, que ∀θ ∈ Θ la matrice est de rang
∂θl j,l
maximal s. Supposons que l’estimateur de maximum de vraisemblance θ̂n existe pour
tout n, et que pour tout n et j, p∗j (θ̂n ) > 0. Alors sous (H0 ),

Tn (θ̂n ) −→ χ2 (k − s − 1) en loi

quand n −→ +∞.

Exemple 28.

ANNEE UNIVERSITAIRE 2010-2011


78 Armel Fabrice YODÉ

6.4.3 Test d’indépendance


On observe un couple X = (Y, Z) à valeurs dans {c1 , . . . , cr } × {d1 , . . . , ds } et
on veut tester si Y et Z sont indépendantes. On considère un échantillon de taille
((Y1 , Z1 ), . . . , (Yn , Zn )) de même loi que (Y, Z). On note

pjl = P(Y = cj , Z = dl ) (j, l) ∈ {1, . . . , r} × {1, . . . , s}.

Y et Z sont indépendantes ⇐⇒ pjl = pj• p•l ∀(j, l) ∈ {1, . . . , r} × {1, . . . , s}


où
s
X r
X
pj• = pjl p•l = pjl .
l=1 j=1

Nij Nj• N•l


On estime pjl par p̂jl = , pj• par p̂j• = et p•l par p̂•l = . Sous l’hypothèse
n n n
d’indépendance, on estime pjl par

Nj• N•l
p̂jl = p̂j• p̂•l = .
n2
La statistique de test est définie par
 2
Nj• N•l
r X
X s Njl − n
Tn = Nj• N•l
.
j=1 l=1 n

La statistique Tn converge vers un khi-deux à rs − (r + s − 2) − 1 = (r − 1)(s − 1)


dégrés de liberté lorsque n → +∞.
La région critique du test est
n o
Rn = Tn > χ2(r−1)(s−1),1−α

où χ2(r−1)(s−1),1−α est le quantile d’ordre 1 − α de la loi χ2 ((r − 1)(s − 1)). On rejette
l’hypothèse H0 si Tn dépasse χ2(r−1)(s−1),1−α et on l’accepte sinon.

Exemple 29. Nous faisons le test d’indépendance suivant :


H0 : la couleur des yeux est indépendante du sexe
H1 : la couleur des yeux dépend du sexe.
La région critique du test est

Rn = Tn > χ24,0.95 ,


 2
N N
2 X
X 5 Nij − i•n •j
Tn = Ni• N•j
i=1 j=1 n

et χ24,0.95 est le quantile d’ordre 0.95 de la loi du Khi-deux χ2 (4) car 4=(2-1)(5-1).

78
ENSEA-ITS2 79
Blond Roux Chatin Brun Noir de jais
Garçons 592 119 849 504 36 N1• =2100
Filles 544 97 677 451 14 N2• =1783
N•1 =1136 N•2 =216 N•3 =1526 N•4 = 955 N•5 =50 n=3883

Après calcul (si je ne me suis pas trompé), on obtient T=10.47. Il faut ensuite
déterminer le quantile d’ordre 0.95 de χ2 (4) : χ24,0.95 =9.49.
On remarque que 10.47 > 9.49, on rejette donc H0 c’est à dire qu’au seuil 0.05, la
couleur des yeux dépend du sexe.

ANNEE UNIVERSITAIRE 2010-2011


80 Armel Fabrice YODÉ

80
Chapitre 7

Régression linéaire

7.1 Introduction
La régression est une technique statistique permettant de modéliser la relation
entre une variable à expliquer Y et des variables explicatives X1 , . . . , Xp dans le
but :
- de mesurer l’impact ou l’effet de X1 , . . . , Xp sur Y
- de prédire Y connaissant X1 , . . . , Xp .
La modélisation permet d’exprimer sous la forme d’une relation mathématique la
relation supposée :
Y = f (X1 , . . . , Xp ) + ε
où ε est une variable appelée erreur ou bruit. Ce terme d’erreur rassemble tous
les autres facteurs affectant le phénomène en dehors de X1 , . . . , Xp ainsi que les
possibles erreurs de mesure sur la variable Y .

Exemple 30. 1. Consommation des ménages


- Y est le budget consacré à la consommation des ménages
- X1 est le Revenu du foyer
- X2 est la taille du foyer (nombre de personnes).
Le modèle devient
Y = f (X1 , X2 ) + ε.

2. Y est le salaire d’un employé dans une entreprise


- X1 est l’âge de l’employé
- X2 est le nombre d’années d’étude
- X3 est le nombre d’années d’expérience
Le modèle est
Y = β0 + β1 X1 + β2 X2 + ε.

81
82 Armel Fabrice YODÉ

Exemple 31. En économie, on applique la transformation logarithmique à la fonc-


tion de production Cobb-Douglas, qui se définit comme

P = AK B T C

où
- P est la quantité produite
- K est la quantité de capital utilisée
- T est la quantité de main-d’oeuvre utilisée A, B et C sont des paramètres.
Quand on applique la transformation logarithmique, en posant Y = log P , X1 =
log K, X2 = log T , le modèle devient linéaire :

Y = log A + BX1 + CX2 + ε.

7.2 Régression simple : p = 1


7.2.1 Modélisation
Définition 84. Le modèle de régression linéaire simple est défini par une équation
de la forme
Yi = β0 + β1 Xi + εi ∀i ∈ {1, . . . , n.}
Nous faisons les hypothèses suivantes :
(
(H1 ) : E(εi ) = 0 ∀i ∈ {1, . . . , n}
(H2 ) : Cov(εi , εj ) = δij σ 2 pour tout couple (i, j)

Les erreurs sont supposées centrées, de même variance (homoscédasticité) et non


corrélées i.e. Cov(εi , εj ) = 0 pour i 6= j.

Démarche de la régression :
1. Vérifier la possibilté d’une liaison linéaire entre Y et X : nuage de points,
coefficient de corrélation.
2. Estimation des paramètres β0 , β1 et σ 2 .
3. Validation du modèle : indice de qualité R2 , validité globale de Fisher, vadilité
marginale de Student, étude des résidus, détection des points atypiques.

7.2.2 Estimateurs des moindres carrés


Définition 85. On appelle estimateurs des moindres carrés de β0 et β1 , les estima-
teurs β̂0 et β̂1 obtenus par minimisation de la quantité
n
X
S(β0 , β1 ) = (Yi − β0 − β1 Xi )2 .
i=1

82
ENSEA-ITS2 83

Calcul des estimateurs de β0 et β1 :

n n n
 
 ∂S(β0 , β1 ) X  X X
= −2 (Yi − β0 − β1 Xi ) = 0 nβ0 + β Xi = Yi

 

∂β0

 
i=1 i=1 i=1
n ⇒ n
! n n
 ∂S(β0 , β1 ) X  X X
2
X

 = −2 Xi (Yi − β0 − β1 Xi ) = 0 
 Xi β0 + β1 Xi = Xi Yi
∂β0

 

i=1 i=1 i= i=1

Pn
i=1 Xi Yi − nX̄n Ȳn
β̂1 = P n 2 2
i=1 Xi − nX̄n
β̂0 = Ȳn − β1 X̄n

Définition 86. La droite de regression est déterminée par la formule

Ŷ = β̂0 + β̂1 X.

Remarque 29. - Si nous évaluons la droite aux points Xi ayant servi à estimer
les paramètres, nous obtenons des Ŷi appelées valeurs ajustées.
- si nous évoluons la droite en des points n’ayant pas servi à l’estimation
des paramètres, les valeurs obtenues seront appelées valeurs prévues ou
prévisions
- La droite de régression passe par le centre de gravité (X̄n , Ȳn ).

Propriétés des estimateurs


Proposition 15. β̂0 et βˆ1 sont des estimateurs sans biais de β0 et β1 respectivement
i.e. E(β̂0 ) = β0 et E(β̂1 = β1 .

Preuves en exercice.

Proposition 16. Nous avons :

X̄n2
 
2
var(β̂0 ) = σ 1 + Pn 2
i=1 (Xi − X̄n )
σ2
var(β̂1 ) = Pn 2
i=1 (Xi − X̄n )
σ 2 X̄n
Cov(β̂0 , β̂1 ) = Pn 2
.
i=1 (Xi − X̄n )

Preuves en exercice.
Remarque 30. Plus la variance est faible, plus l’estimateur sera précis. Pour avoir
des variances petites, il faut avoir un numerateur petit et (ou) un dénominateur
grand. Les estimateurs seront donc de faibles variances lorsque

ANNEE UNIVERSITAIRE 2010-2011


84 Armel Fabrice YODÉ

• σ 2 est faible i.e. que la variance de Y est faible et donc les mesures sont proches
de la droite à estimer.
X n
• La quantité (Xi − X̄n )2 est grande, les Xi doivent être dispersées autour
i=1
de leur moyenne.

Théorème 32. (Gauss-Markov)


Parmi les estimateurs sans biais linéaires en Y , les estimateurs β̂0 et β̂1 sont de
variance minimale.

Résiuds et variance résiduelle


Les résidus sont les estimateurs des erreurs inconnus εi .

Définition 87. (Résidus)


Les résidus sont définis par :
ε̂i = Yi − Ŷi
où Ŷi est la valeur ajustée de Yi par le modèle i.e Ŷi = β̂0 + β̂1 Xi .

Proposition 17. Dans un modèle de regression linéaire simple, nous avons :


n
X
ε̂i = 0.
i=1

n
1 X 2
2
Proposition 18. La statistique σ̂ = ε̂i est un estimateur sans biais de
n−2
i=1
σ2.

Validation du modèle
Un modèle est bon si Ŷi sont proches des vraies valeurs Yi .
Xn
• SCT = (Yi − Ȳ )2 (Somme des carrés totale)
i=1
Xn
• SCE = (Ŷi − Ȳ )2 (Somme des carrés expliquée)
i=1
n
X
• SCR = (Ŷi − Yi )2 (Somme des carrés résiduelle)
i=1
Equation de l’analyse de la variance : SCT = SCE + SCR.

Définition 88. Le coefficient de détermination R2 est définie par :

SCE
R2 = .
SCT

84
ENSEA-ITS2 85

Remarque 31. • 0 ≤ R2 ≤ 1
• Si R2 = 1, le modèle explique tout i.e. Yi = β0 + β1 Xi .
n
X
• Si R2 = 0 i.e (Ŷi − Ȳ )2 = 0 et donc que Ŷi = Ȳ , le modèle de regression
i=1
linéaire est inadapté (absence de liaison linéaire).

Prévision
La valeur pour laquelle nous effectuons la précision n’a pas servi dans le calcul
des estimateurs. Soit Xn+1 cette valeur. Nous voulons prédire Yn+1 . Le modèle
indique que Yn+1 = β0 + β1 Xn+1 + εn+1 avec E(εn+1 ) = 0, var(εn+1 ) = σ 2 et
Cov(εn+1 , εi ) = 0 pour i = 1, . . . , n. Nous pouvons prédire Yn+1 grâce au modèle
estimé :
p
Ŷn+1 = β̂0 + β̂1 Xn+1 .

Deux types d’erreurs entachent notre prévision :


- l’une due à la non connaissance de εn+1
- l’autre due à l’estimation des paramètres.

p
Proposition 19. (Variance de la prévision Yn+1 )

(Xn+1 − X̄)2
 
p 2 1
var(Yn+1 ) =σ + Pn 2
.
n i=1 (Xi − X̄)

p
var(Yn+1 ) nous donne une idée de la stabilité de l’estimation. En prévision, on
s’interesse généralement à l’erreur que l’on commet entre la vraie valeur à prévoir
p
Yn+1 et celle que l’on prévoit Yn+1 . l’erreur peut être simplement résumée par la
différence entre les deux valeurs : erreur de prévision. Cette erreur de prévision
permet de quantifier la capacité du modèle à prévoir.

Proposition 20. (Erreur de prévision)


L’erreur de prévision définie par εpn+1 = Yn+1 − Yn+1
p
satisfait les propriétés sui-
vantes :

E(εpn+1 ) = 0
(Xn+1 − X̄)2
 
1
var(εpn+1 ) = σ 2 1 + + Pn 2
.
n i=1 (Xi − X̄)

Remarque 32. La variance augmente lorque Xn+1 s’éloigne du centre de gravité du


nuage de points. Effectuer une prévision lorsque Xn+1 est ”loin” de X̄ est donc
périleux, la variance de l’erreur de prévision peut être alors très grande.

ANNEE UNIVERSITAIRE 2010-2011


86 Armel Fabrice YODÉ

7.2.3 Modèle linéaire Gaussien simple

(H3 ) : ε1 , . . . , εn sont indépendantes et εi ,→ N (0, σ 2 ) pour tout i ∈ {1, . . . , n}.

Proposition 21. (Lois des estimateurs : σ 2 connue)


σ2 n X 2
 P 
• β̂0 ,→ N β0 , Pn i=1 i 2
n i=1 (Xi − X̄)
σ2
 
• β̂1 ,→ N β1 , Pn 2
i=1 (Xi − X̄)
     1 Pn 2

β̂0 β0 1 n i=1 Xi −X̄n
• β̂ = ,→ N (β, σV ) où β = et V = Pn
β̂1 β1 i=1 (Xi − X̄)
2 −X̄n 1
(n − 2)σ̂ 2
• ,→ χ2 (n − 2)
σ2
• (β̂0 , β̂1 ) et σ̂ 2 sont indépendants.

Proposition 22. (Lois des estimateurs : σ 2 inconnue)


Lorsque σ 2 est estimée par σ̂ 2 ,
β̂0 − β0
•  Pn 1/2 ,→ T (n − 2)
σ̂ 2 Xi2
i=1
n n X̄)2
P
i=1 (Xi −

β̂1 − β1
•  1/2 ,→ T (n − 2)
2
Pn σ̂ 2
i=1 (X i −X̄)

1
• (β̂ − β)V −1 (β̂ − β) ,→ F2,n−2 (loi de Fisher à 2 dégrés de liberté au numérateur
2σ̂ 2
et n − 2 dégrés de liberté au dénominateur.

Les propositions ci-dessus nous permettent de donner des intervalles de confiance


ou des régions de confiance des paramètres inconnus. En effet, la valeur ponctuelle
d’un estimateur est en général insuffisante et il est nécessaire de lui adjoindre un
intervalle de confiance.

Proposition 23. • Un intervalle de confiance de βi , i ∈ {0, 1} est donné par :

[β̂i − tn−2,1−α/2 σ̂β̂i , β̂i + tn−2,1−α/2 σ̂β̂i ]

où tn−2 (1 − α/2) est le quantile d’ordre 1 − α/2 de T (n − 2).


• Une région de confiance simultané de β est donnée par l’équation
n
" #
1 X
n(β̂0 − β0 )2 + 2nX̄n (β̂0 − β0 )n(β̂1 − β1 ) + Xi2 n(β̂1 − β1 )2 ≤ f(2,n−2),1−α
2σ̂ 2
i=1

où f(2,n−2),1−α représente le quantile de niveau 1 − α d’une loi de Fisher à


(2, n − 2) dégrés de liberté.

86
ENSEA-ITS2 87

• Un intervalle de confiance de σ 2 est donné par

(n − 2)σ̂ 2 (n − 2)σ̂ 2
 
,
cn−2,1−α/2 cn−2,α/2

où cn,γ représente le quantile d’ordre γ de la loi de χ2 (n − 2)

Proposition 24. Un intervalle de confiance pour E(Yi ) = β0 + βXi est donné par
" s #
+ 1 (Xj − X̄n )2
Ŷj − tn−2,1−α/2 σ̂ + Pn 2
.
n i=1 (Xi − X̄n )

Proposition 25. Un intervalle de confiance pour Yn+1 est donné par


" s #
+ 1 (X − X̄ ) 2
p n+1 n
Yn+1 − tn−2,1−α/2 σ̂ 1 + + Pn 2
.
n i=1 (Xi − X̄n )

Cette formule exprime que plus le point à prévoir est éloigné de X̄, plus la
variance de la prévision et donc de l’intervalle de confiance seront grandes.

7.3 Regression linéaire multiple : p > 1


7.3.1 Modélisation
Nous supposons que les données collectées suivent le modèle suivant :

Yi = β1 + β2 Xi2 + · · · + βp Xip + εi , i = 1, . . . , n

où les Xij son connus et non aléatoires, les βj sont des paramètres inconnus et les
variables εi sont aléatoires.

Définition 89. Un modèle de regression linéaire multiple est défini par l’équation

Y = Xβ + ε

où Y est un vecteur aléatoire de dimension n, X est une matrice n × p connue, β


est le vecteur de dimension p des paramètres inconnus et ε est le vecteur centré de
dimension n des erreurs.

Définition 90. (Identification du modèle)


On dira que le modèle est identifiable si n ≥ p et les colonnes de X sont linéairement
indépendantes i.e. qu’aucune colonne de X ne s’écrit comme une combinaison linéaire
des autres :
∀β0 , β1 Xβ0 = Xβ1 ⇒ β0 = β1 .

Proposition 26. (Condition d’identification)


0
Le modèle est identifiable si seulement si X X est non singulière i.e. inversible.

ANNEE UNIVERSITAIRE 2010-2011


88 Armel Fabrice YODÉ

Nous faisons les hypothèses suivantes


- (H1 ) : rang(X) = p
i.e que les colonnes de X sont linéairement indépendantes ; ainsi
pour tout z ∈ Rp , nous avons
0 0
z (X X)z = kXzk2 ≥ 0

et
kXzk = 0 ⇒ z = 0;
0
ce qui implique que la matrice X X est symétrique définie positive
donc inversible ; le modèle est donc identifiable.
- (H2 ) : E(ε) = 0, Σε = σ 2 In , σ 2 > 0 (matrice de variance-covariance de ε)
i.e que les composantes de ε sont centrées, de même variance (ho-
moscédasticité) et non correlées entre elles.

7.3.2 Estimateurs des moindres carrés ordinaires


Définition 91. On appelle EMC β̂ de β la valeur suivante
n p
0
X X
β̂ = arg min (Yi − βj Xij )2 = arg minp (Y − Xβ) (Y − Xβ).
β1 ,...,βp β∈R
i=1 j=1

Calcul de β̂
Théorème 33. Si (H1 ) est vérifiée alors l’estimateur des MC de β̂ de β vaut
0 0
β̂ = (X X)−1 X Y.

Preuve :
0
S(β) = (Y − Xβ) (Y − Xβ)
0 0 0 0 0 0
= Y Y + β X Xβ − Y Xβ − β X Y
0 0 0 0
= Y Y + β X Xβ − 2Y Xβ

∂S(β) 0 0 0 0 ∂ 2 S(β) 0
Nous avons : = 0 ⇔ −2X Y + 2X β̂ = 0 ⇔ β̂ = (X X)−1 X Y. Puisque 2
= 2X X
∂β ∂β
est une matrice définie positive, alors β̂ est un minimum strict. (H1 ) garantit l’uni-
cité de β̂

Propriétés des estimateurs


Proposition 27. Sous (H2 ), l’estimateur β̂ est un estimateur sans biais de β et sa
0
variance vaut var(β̂) = σ 2 (X X)−1 .
Proposition 28. (Gauss-Markov)
L’estimateur β̂ des MC est optimal parmi les estimateurs linéaires sans biais de β.

88
ENSEA-ITS2 89

Résidus et variance résiduelle


Les résidus sont définis par la relation suivante ε̂ = Y − Ŷ = Y −X β̂ = (1−PX )Y
0 0
où PX = X(X X)−1 X .

Proposition 29. Sous les hypothèses (H1 ) et (H2 ), nous avons :

E(ε̂) = 0
var(ε̂) = σ 2 (1 − PX )
E(Ŷ ) = Xβ
var(Ŷ ) = σ 2 PX
cov(ε̂, Ŷ ) = 0

Remarque 33. Les résidus estimés ε̂ de ε possède la même espérance que ε. En


revanche, les composantes de ε̂ sont généralement corrélés.
Afin d’éliminer la non-homogeneı̈té des variances des résidus estimés, nous préférons
utiliser les résidus normalisés
ε̂i
ri = p .
σ 1 − (PX )ii

Comme σ 2 est inconnue, il est nécessaire de le remplacer par son estimateur. Les
résidus
ε̂i
ti = p
σ̂ 1 − (PX )ii
sont appelés résidus studentisés.
Un estimateur naturel de la variance résiduelle est donné par
n
1X 2 1
ε̂i = kε̂k.
n n
i=1

Comme,
0
E(kε̂k2 ) = E(tr(ε̂ ε̂))
0
= E(tr(ε̂ε̂ ))
0
= tr(E(ε̂ε̂ )
= tr(σ 2 (1 − PX ))
= σ 2 (n − p)

alors cet estimateur naturel est biaisé. Afin, d’obtenir un estimateur sans biais de
σ 2 , nous définissons donc
n
1 X 2
σ̂ 2 = ε̂i .
n−p
i=1

ANNEE UNIVERSITAIRE 2010-2011


90 Armel Fabrice YODÉ

Proposition 30. La statistique σ̂ 2 est un estimateur sans biais de σ 2 .


A partir de σ̂ 2 , nous obtenons un estimateur de la variance de β̂ en remplaçant
σ 2 par son estimateur
0
σ̂β̂2 = σ̂ 2 (X X)−1 .

Nous avons donc un estimateur de l’écart-type de l’estimateur β̂j de chaque coeffi-


cient de la régression βj q
σ̂β̂j = σ̂ 2 [(X 0 X)−1 ]jj .

Validation du modèle
Définition 92. Le coefficient de détermination multiple R2 est défini par
kŶ − Ȳ 1Ik2 kε̂k2
R2 = = 1 − .
kY − Ȳ 1Ik2 kY − Ȳ 1Ik2
Définition 93. Le coefficient de détermination ajusté Ra2 est défini par
n−1 kε̂k2
Ra2 = 1 − .
n − p kY − Ȳ 1Ik2
L’ajustement correspond à la division des normes au carré par leur dégré de
liberté (ou dimension du sous-espace auquel le vecteur appartient) respectif.

Prévision
Soit une nouvelle valeur Xn+1 et nous voulons prédire Yn+1 . Or
0
Yn+1 = Xn+1 β + εn+1
avec E(εn+1 ) = 0, var(εn+1 ) = σ 2 et cov(εn+1 , εi ) = 0 pour i = 1, . . . , n. Nous
pouvons donc prédire la valeur correspondante grâce au modèle ajusté
p 0
Yn+1 = Xn+1 β̂.
Deux types d’erreurs vont entacher la prévision, lapremière due à l’incertitude sur
εn+1 et l’autre à l’incertitude due à l’estimation. Calculons la variance de l’erreur
de prévision
p 0 0
var(Yn+1 − Yn+1 ) = σ 2 (1 + Xn+1 (X X)−1 Xn+1 ).
Nous retrouvons bien l’incertitude due aux erreurs σ 2 sur laquelle vient s’ajouter
l’incertitude de l’estimation.
Remarque 34. Puisque l’estimateur β̂ est un estimateur sans biais de β et l’espérance
p
de ε vaut zéro, les espérances de Yn+1 et Yn+1 sont identiques. La variance de l’erreur
de prévision s’écrit :
p p
var(Yn+1 − Yn+1 ) = E(Yn+1 − Yn+1 )2 .
Nous voyons donc ici que la variance de l’erreur de prévision est mesurée par l’erreur
quadratique moyenne de prévision. Nous retrouverons cette quantité qui joue un rôle
central dans l’évaluation de la qualité des modèles

90
ENSEA-ITS2 91

7.3.3 Modèle gaussien


Nous allons désormais supposer que les erreurs suivent une loi normale :

(H3 ) : ε ,→ N (0, σ 2 In ).

Dans le cas gaussien, cov(εi , εj ) = σ 2 δij implique que les εi sont indépendantes.
L’hypothèse (H3 ) s’écrit ε1 , . . . , εn sont i.i.d. et de loi N (0, σ 2 ). L’hypothèse gaus-
sienne va nous permettres de calculer la vraisemblance et donc les estimateurs du
maximum de vraisemblance. Cette hypothèse va nous permettre également de cal-
culer des régions de confiance et de proposer des tests.

Estimateur du maximum de vraisemblance


La vraisemblance de l’échantillon est défini par
  2 
 n/2 n p
1 1 X X
L(Y, β, σ 2 ) = exp − 2 Yi − βj Xij  
2πσ 2 2σ
i=1 j=1
 n/2  
1 1 2
= exp − 2 kY − Xβk .
2πσ 2 2σ

2 kY − X β̂M V k2 n−p 2
Nous obtenons βM V = β̂ et σ̂M V = = σ̂ . L’estimateur du
n n
maximum de vraisemblance est donc biaisé par opposition à l’estimateur σ̂ 2 obtenu
par les moindres carrés.

Propriétés statistiques
Grâce à l’hypothèse gaussienne, nous pouvons améliorer le théorème de Gauss-
Markov. L’optimalité des estimateurs est élargie et nous ne considérons non plus
les estimateurs linéaires sans biais, mais la classe plus grande des estimateurs sans
biais. De plus, le théorème intègre l’estimateur de σ 2 .

Proposition 31. (β̂, σ̂ 2 ) est une statistique complète et de variance minimum dans
la classe des estimateurs sans biais.

Proposition 32. (Lois des estimateurs : variance connue)


Sous les hypothèses (H1 ) et (H3 ), nous avons
0
• β̂ est un vecteur gaussien de moyenne β et de variance σ 2 (X X)−1
(n − p)σ̂ 2
• ,→ χ2 (n − p)
σ2
• β̂ et σ̂ 2 sont indépendantes

Proposition 33. (Lois des estimateurs : variance estimée)


Sous les hypothèses (H1 ) et (H3 ), nous avons

ANNEE UNIVERSITAIRE 2010-2011


92 Armel Fabrice YODÉ
β̂j
q
• Pour j = 1, . . . , p Tj = βj σ̂ [(X 0 X)−1 ]jj ,→ T (n − p)

• Soit R une matrice de taille q × p de ran q alors la variable aléatoire

1 0 0 0
2
(R(β̂ − β)) [R(X X)−1 R ]−1 R(β̂ − β) ,→ Fq,n−p .
qσ̂

(n − p)σ̂ 2
,→ χ2 (n − p)
σ2
• β̂ et σ̂ 2 sont indépendantes

Intervalles et régions de confiance


Les logiciels et certains ouvrages donnent des IC pour les paramètres séparement.
Cependant, ces IC ne tiennent pas compte de la dépendance des estimations.

Proposition 34. • Un IC de niveau 1 − α pour un βj , j = 1, . . . , p est donné


par
 q q 
0 −1 0 −1
β̂j − tn−p,1−α/2 σ̂ [(X X) ]jj , β̂j − tn−p,1+α/2 σ̂ [(X X) ]jj

• Un IC de niveau 1 − α pour σ 2 est donné par

(n − p)σ̂ 2 (n − p)σ̂ 2
 
, où P(c1 ≤ χ2 (n − p) ≤ c2 ) = 1 − α
c2 c1

• Une RC pour q(q ≤ p) paramètres βj notés (βj1 , . . . , βjq ) de niveau 1 − alpha


est donnée
- lorsque σ est connue par
 
1
q 0 0 −1 0 −1
Rβ ∈ R , 2 [R(β̂ − β)] [R(X X) R ] [R(β̂ − β)] ≤ χq,1−α .
σ

- σ est inconnue par


 
1
q 0 0 −1 0 −1
Rβ ∈ R , 2 [R(β̂ − β)] [R(X X) R ] [R(β̂ − β)] ≤ fq,n−p,1−α .
σ

où R est la matrice de taille q×p dont tous les éléments sont nuls sauf les [R]iji
qui valent 1. Les valeurs c1 et c2 sont les quantiles d’un χ2 (q) et fq,n−p,1−α
est le quantile d’ordre 1 − α d’une loi de fisher admettant (q, n − p) degrés de
liberté.

92
ENSEA-ITS2 93

Prévision
0
Soit Xn+1 = (Xn+1,1 , . . . , Xn+1,p ) une nouvelle valeur et nous voulone prédire
Yn+1 Le modèle indique
0
Yn+1 = Xn+1 β + εn+1 ,
avec les εi i.i.d et qui suivent une N (0, σ 2 ). Apartir des n observations, nous avons
estimé β̂ et nous prévoyons Yn+1 par
p 0
Yn+1 = Xn+1 β̂.
p
Nous calculons l’espérance et la variance de l’erreur de prévision ε̂n+1 = Yn+1 −Yn+1 :
p
E(Yn+1 − Yn+1 )=0
h 0 0
i
p 2 −1
var(Yn+1 − Yn+1 ) = σ Xn+1 (X X) Xn+1 + 1 .

Proposition 35. (IC de prévision)


Un IC de niveau 1 − α pour Yn+1 est donné
 
+
q
0 0 0 −1
Xn+1 − tn−p,α/2 σ̂ Xn+1 (X X) Xn+1 + 1 .

Tests d’hypothèses
Test de Student de signification d’un coefficient βj
Nous voulons tester H0 : βj = 0 contre H1 : βj 6= 0. La statistique de test est

kŶ − Ŷ0 k2
F = .
σ̂
Nous rejetons H0 si l’observation de la statistique F notée f est telle que

f > f1,n−p,1−α .

La statistique de test est un Fisher à (1,n-p) dégrés de liberté.


Ce test est équivalent ay test de Student à n − p dégrés de liberté qui permet de
tester H0 : βj = 0 contre H1 : βj 6= 0 avec la statistique de test

β̂j
T =
σ̂ 2
β̂j

qui suit sous H0 une loi de Student à n − p dégrés de liberté. Nous rejetons H0 si
l’observation t de la statistique est telle que

t > tn−p,1−α/2 .

ANNEE UNIVERSITAIRE 2010-2011


94 Armel Fabrice YODÉ

94
Chapitre 8

Travaux dirigés 2010-2011

8.1 TD 1 Problèmes et outils statistiques


Exercice 1.
1. Soit (X1 , . . . , Xn ) un échantillon issu de la loi U([a, b]) avec a < b. Montrer
que (X(1) , X(n) ) est une statistique exhaustive pour (a, b).
2. On considère une variable aléatoire X discrète à valeurs dans {−1, 0, 1} dont
la loi de probabilité est telle que P(X = −1) = b, P(X = 0) = 1 − 2b et
P(X = 1) = b. Indiquer les conditions que doit vérifier le paramètre b pour
que le support de cette loi soit égal à S = {−1, 0, 1}. On suppose que ces
conditions sont vérifiées. Cette loi appartient-elle à la famille exponentielle ?

Exercice 2.
1. Soit X1 , . . . , Xn un échantillon de taille n issu d’une loi de densité

f (x, θ) = (1 + θ)xθ 1I[0,1] (x).

Quelles sont les valeurs possibles de θ ? Trouver une statistique exhaustive


pour le paramètre θ.
2. Soit X1 , . . . , Xn un échantillon de taille n issu d’une loi de Bernouilli B(1, p).
n
X
Montrer que Xi est une statistique exhaustive pour le paramètre p en
i=1
n
X
calculant la loi conditionnelle de (X1 , . . . , Xn ) sachant Xi .
i=1

Exercice 3. Soit un échantillon X n = (X1 , . . . , Xn ) issu de la loi de densité :


1
f (x, θ) = x−1+1/θ exp(−x1/θ )1I]0,1[ (x)
θ
où θ ∈]0, ∞[ est un paramètre inconnu. Déterminer une statistique exhaustive mini-
male et complète pour ce modèle et déterminer son information de Fisher. Montrer

95
96 Armel Fabrice YODÉ
Qn
log X2 i=2 log(Xi )
que la statistique T2 = est libre. En déduire que Tn = l’est
log(X1 ) log(X1 )
également.

Exercice 4. Soit X une variable aléatoire suivant une loi N (θ, 1) et soit (X1 , . . . , Xn )
un échantillon de X.
1. Montrer que la variance empirique Sn2 et l’étendue X(n) − X(1) sont des sta-
tistiques libres pour le paramètre θ.
2. Donner la loi de la moyenne empirique X̄n et montrer que cette statistque est
exhaus- tive complète pour θ.
3. Retrouver l’indépendance de X̄n et Sn2 .

Notations
n
1X
X̄n = Xi
n
i=1
n
1X
Sn2 = (Xi − X̄n )2
n
i=1

X(n) = max(X1 , . . . , Xn )
X(1) = min(X1 , . . . , Xn )

96
ENSEA-ITS2 97

8.2 TD 2 Estimation ponctuelle


Exercice 1. On considère le modèle d’échantillonnage X1 , . . . , Xn de taille n associé
à la famille de lois de poissons P = {P(θ), θ > 0}. On cherche à estimer Pθ (Xi = 0).
1. Montrer que le modèle est exponentiel. Déterminer la statistique canonique
S. Est-elle exhaustive et totale ? Donner sa loi.
2. Calculer Pθ (Xi = 0) et montrer que 1I{Xi =0} en est un estimateur sans biais.
3. Montrer que la loi conditionnelle de X1 sachant S est une binomiale de pa-
ramètres (S, n1 ).
S
4. En deduire que δS = 1 − n1 est l’estimateur optimal de Pθ (Xi = 0). Est-il
convergent ?
5. Calculer l’information de Fisher.
6. En déduire la borne FDCR pour l’estimation de Pθ (Xi = 0). Est-elle atteinte
par δS ?

Exercice 2. Soit (X1 , . . . , Xn ) un échantillon de taille n issu de la loi uniforme sur


l’intervalle [0, θ]
1. Quel est l’estimateur de vraisemblance θ̂ de θ ?
2. Calculer le biais de θ̂. En déduire un estimateur T sans biais de θ.
3. On considère commme trosième estimateur de θ, U = n+2 n+1 max(X1 , . . . , Xn ).
Calculer le biais, la variance et l’erreur quadratique moyenne de U , T et θ̂.
Commentaires.

Exercice 3. Une machine produit N pièces par jour, N connu. Chacune d’entre elles
a un défaut avec la même probabilité θ inconnue. On cherche à estimer la probabilité
d’avoir au plus k défauts sur un jour. A ce propos, on teste toutes les pièces pendant
une période de n jours et on retient chaque jour le nombre de défauts.
1. Choisir un modèle. Est-ce un modèle exponentiel ?
2. Déterminer une statistique exhaustive et totale. Calculer sa loi.
3. Construire un estimateur δ sans biais qui ne fait intervenir que les données
du premier jour.
4. En déduire un estimateur optimal δS .

Exercice 4. On considère un échantillon (X1 , . . . , Xn ) issu de la loi exponentielle


1
de paramètre où θ > 0.
θ
1. Estimation de θ
(a) Déterminer l’estimateur du maximum de vraisemblance θ̂ de θ. Préciser
ses propriétés : biais, efficacité.
(b) Etablir la loi limite de θ̂

ANNEE UNIVERSITAIRE 2010-2011


98 Armel Fabrice YODÉ
 
2
2. Estimation de α = exp −
θ
(a) déterminer l’estimateur du maximum de vraisemblance α̂ de α. Calculer
l’information de fisher concernant α apportée par l’échantillon et la borne
de Frechet-Darmois-Cramer-Rao.
(b) Préciser les propriétés (biais, efficacité) et établir la loi limite de α̂.
(c) Soit T l’estimateur de α defini par
(
1 si X1 > 2
T =
0 sinon.

Montrer que T est un estimateur sans biais de α


(d) En déduire un estimateur sans biais optimal de α.

98
ENSEA-ITS2 99

8.3 TD 3 Estimation par intervalle


Exercice 1. Deux candidats, Ségolène et Nicolas, sont en présence lors du deuxième
tour d’une élection présidentielle au cours de laquelle 40 millions électeurs sont
amenés à s’exprimer. n personnes sont tirées au hasard parmi ces électeurs et inter-
rogées sur leurs intentions de vote (on suppose qu’à ce moment tous les électeurs
ont fixé leur choix et n’en changeront pas au moment du vote). 52% des électeurs
intérrogés annoncent qu’ils sont partisans de Ségolène.
1. Calculer, pour n = 100, une borne inférieure de confiance 95% pour le pour-
centage d’électeurs favorables à Ségolène dans la population totale.
2. Que devient cette borne inférieure de confiance 95% pour les valeurs de n :
(a) n = 1000 ?
(b) n = 2000 ?
3. A partir de quelle taille n du sondage effectué, le pourcentage observé de 52%
d’électeurs favorables à Ségolène conduirait-il celui-ci à accorder une confiance
de 95% au fait d’être élu (c’est à dire que la borne inférieure de confiance 95%
serait supérieure ou égale à 0.50)

Exercice 2. Soient X1 , . . . , Xn une suite de variables aléatoires indépendantes et


identiquement distribuées de loi de Bernouilli p ∈ [0, 1]. On pose p̂ = n1 ni=1 Xi .
P
1
1. Montrer l’inégalité varp (p̂) ≤ 4n .
2. Un institut de sondage souhaite estimer avec une précision de 3 points (à
droite et à gauche) la probabilité qu’un individu vote pour le maire actuel
aux prochaines élections. Combien de personnes est-il nécessaire de sonder ?

Exercice 3. On a fait un sondage auprès de 900 personnes sur une possible modifica-
tion de la Constitution. Les opinions favorables représentaient 40, 1% des réponses.
1. Déterminer un intervalle de confiance asymptotique de niveau de confiance
95% pour la probabilité d’une réponse favorable.
2. A la suite d’une intense campagne d’explication en faveur de cette modification
on va de nouveau faire un sondage, mais avec pour objectif l’´evaluation de
l’efficacité de la campagne et non l’estimation de la proportion de personnes
favorables. La campagne aura été vraiment efficace si l’opinion favorable est
devenue majoritaire. Combien de personnes devra-t-on interroger si on veut
différencier avec des risques de 5% les situations : ”la campagne n’a eu aucune
efficacit´e” contre ”la campagne a été vraiment efficace” ?

ANNEE UNIVERSITAIRE 2010-2011


100 Armel Fabrice YODÉ

8.4 TD 4 Test d’hypothèses


Exercice 1. Une variable aléatoire suit une loi normale N (µ, σ 2 ) d’écart type connu
σ = 2. Au vu de l’échantillon i.i.d. X1 , . . . , Xn d’échantillon parente de X, on veut
tester l’hypothèse H0 : µ = 2 contre l’hypothèse H0 : µ = 3.
Soit L(µ, x1 , . . . , xn ) la fonction de vraisemblance.
1. Donner l’expression du rapport

L(3, x1 , . . . , xn )
λ= .
L(2, x1 , . . . , xn )

2. En déduire la region critique du test de Neyman-Pearson en fonction du niveau


de signification α∗ .
3. Calculer la puissance de ce test dans le cas où n = 100 et α∗ = 0.05.
4. Quelle doit être la taille de l’échantillon pour que la puissance soit supérieure
à 0.95 en supposant toujours α∗ = 0.05.
5. On a observé x̄ = 2.5 avec n = 36. Quel est le plus niveau α∗ pour lequel H0
est rejetée.

Exercice 2.On considère un échantillon X n = (X1 , . . . , Xn ) issu de la loi exponen-


tielle de paramètre θ. Trouver
1. le test UPP pour l’hypothèse H0 : θ = θ0 contre l’alternative H1 : θ > θ0
2. le test UPP pour l’hypothèse H0 : θ = θ0 contre l’alternative H2 : θ < θ0 ;
3. le test UPP pour l’hypothèse H0 : θ = θ0 contre l’alternative H3 : θ 6= θ0 .
Exercice 3. Nous considérons une variable aléatoire X dont la densité de probabilité
est égale à la fonction f (·, θ) suivante :
 √ 
1 − x
f (x, θ) = √ exp 1IR∗+
2θ x θ

où θ est un paramètre inconnu strictement positif.


Nous disposons d’un échantillon (X1 , . . . , Xn ) de taille n de la loi précédente.

1. Montrer que la variable aléatoire Z = 2θ X suit une loi du Khi-deux à 2
degrés de liberté. En déduire la loi suivie par la variable aléatoire
n
2 Xp
W = Xi .
θ
i=1

2. Déterminer le test U.P.P. de risque de première espèce α ∈]0, 1[ de H0 : θ = θ0


contre H1 : θ = θ1 avec θ1 > θ0 > 0.
3. Donner la puissance du test précédent.

100
ENSEA-ITS2 101

Exercice 4. On désire étudier la prédominance visuelle de l’oeil et l’habilité de la


main. Un expérimentateur établit la table suivante :

Mobilité manuelle/Vue Gauche Deux yeux Droit Total


Gauche 9 15 7 31
Deux mains 8 7 4 19
Droite 15 26 9 50
Total 32 48 20 100

A l’aide du test du χ2 , dire s’il existe une relation entre la prédominance visuelle et
l’habilité des mains (avec un seuil de 0.25) ?

ANNEE UNIVERSITAIRE 2010-2011


102 Armel Fabrice YODÉ

8.5 TD 5 Modèles linéaires


Exercice 1
1. On considère le modèle de regression suivant :

Yi = β1 + β2 xi,2 + β3 xi,3 + εi , 1 ≤ i ≤ n.

où les xi,j , j = 2, 3, sont des variables exogènes, et les εi sont des variables
aléatoires indépendantes de même loi normale centrée de variance σ 2 . En
posant
   
1 x1,2 x1,3 Y1
X =  ... .. ..  Y =  ... 
  
. . 
1 xn,2 xn,3 Yn
On a observé :
   
30 20 0 15
0 0 0
X X =  20 20 0  , X Y =  20  Y Y = 59.5
0 0 10 10
0 0
où X , Y sont les transposées des matrices X et Y respectivement.
1. Donner la valeur de :
(a) n
n n n
! !
1X 1X 1X
(b) xi,2 xi,3 − xi,2 xi,3
n n n
i=1 i=1 i=1
2. Estimer les paramètres β1 , β2 , β3 , σ2.
3. Calculer un intervalle de confiance pour β2 au niveau de 95%.
4. Faire le test β2 = 0 contre β2 6= 0 au seuil de 5%.

102
Chapitre 9

Examens

Devoir 2
Durée : 3 heures
12 janvier 2007

La qualité de la présentation sera prise en compte dans la notation. Les seuls docu-
ments autorisés sont les tables statistiques

Exercice 1 (Cours) : (7 points)


Nous allons estimer les paramètres du modèle structurel

Y = b + aX + u

au vu des observations (X1 , Y1 ), . . . , (Xn , Yn ). La variable aléatoire u est telle que


E(u) = 0 et V ar(u) = σ 2 . La variable X n’est pas aléatoire. Nous supposons que les
paramètres a et b peuvent prendre des valeurs réelles à priori quelconques.
1. Décrire le principe de la méthode des moindres carrés.
Nous supposerons dans la suite que u suit la loi normale N (0, σ 2 ).
2. Donner la densité de probabilité du vecteur aléatoire (Y1 , . . . , Yn ).
3. Calculer l’estimateur du maximum de vraisemblance (â, b̂) du couple (a, b).
4. Montrer que â et b̂ sont des estimateurs sans biais respectivement pour a et
b.
5. Ecrire â comme fonction des variables aléatoires u1 , . . . , un . Déduire la loi de
β̂.
6. Construire un intervalle de confiance pour a au seuil α dans les cas suivants :
- σ est connue
- σ est inconnue
Exercice 2 : (5 points)
On considère que le nombre d’accidents par semaine sur une route nationale est
une variable aléatoire X. A partir des observations suivantes

103
104 Armel Fabrice YODÉ
Nombre d’accidents 0 1 2 3 4 5 et plus
Nombre de semaines 2 17 6 11 7 7

Peut-on admettre au niveau α∗ = 0.10 que X suit une loi de Poisson de pa-
ramètre λ = 2 ?
Exercice 3 : (5 points)
Une agence de voyage souhaite cibler sa clientèle. Elle sait que les coordonnées
du lieu de vie d’un client (X, Y ) rapportées au lieu de naissance (0, 0) sont une
information significative pour connaı̂tre le goût de ce client. Elle distingue :
- La population 1 (Hypothèse H0 ) dont la loi de répartition a pour densité

1 x2 +y 2
p1 (x, y) = √ e− 2 1IR2 (x, y)
4π 2

- La population 2 (Hypothèse H1 ) dont la loi de répartition a pour densité


1
p2 (x, y) = 1I (x)1I[−2,2] (y)
16 [−2,2]

L’agence souhaite tester l’Hypothèse qu’un nouveau client vivant en (x, y) appartient
à la population 1 plutôt qu’à la population 2.
1. Proposer un test de niveau inférieur à α = 5% et de puissance maximale
construit à partir du rapport de vraisemblance.
2. Donner une statistique de test et caractériser garphiquement la région critique
dans R2 .
Exercice 4 : (3 points)
Parmi 900 poissons pêchés dans un lac, on a observé 180 porteurs de parasites.
Entre quelles limites situez-vous la proportion des individus parasités dans la popu-
lation des poissons des lacs.

Courage ! ! !

104
ENSEA-ITS2 105

Devoir 3
Durée : 3 heures
9 février 2007

La qualité de la présentation sera prise en compte dans la notation. Les résultats


doivent être justifiés. Les seuls documents autorisés sont les tables statistiques.
La longueur intentionnellement excessive de l’énoncé est compensée par
un barême portant sur plus de 20 points. Bon courage

Exercice 1 (10 points)


Soit X une variable aléatoire à valeurs dans N∗ définie comme l’instant de pre-
mier succès dans un schéma de Bernouilli de paramètre q ∈]0, 1[.
1) Vérifier que la loi de X est une loi géométrique dont on précisera le paramètre.
2) Vérifier qu’il s’agit d’un modèle exponentiel. Donner une statistique exhaus-
tive.
3) Donner I(q), l’information de Fisher sur q d’un échantillon de taille 1.
Soit X1 , . . . , Xn un échantillon de taille n de même loi que X.
4) Déterminer q̂n , l’estimateur du maximum de vraisemblance de q.
5) Montrer que l’estimateur du maximum de vraisemblance est asymptotique-
ment normal.
6) Donner un intervalle de confiance pour q de niveau 1 − α.
Une société de transport en commun par bus veut estimer le nombre de passagers
ne validant pas leur titre de transport sur une ligne de bus déterminée. Elle dispose
pour cela, pour un jour de semaine moyen, du nombre n0 de tickets compostés sur
la ligne et des résultats de l’enquête suivante : à chacun des arrêts de bus de la ligne,
des contrôleurs comptent le nombre de passagers sortant des bus et ayant validé leur
ticket jusqu’à la sortie du premier fraudeur.
Celui-ci étant inclus on a les données suivantes :

44 09 11 59 81 44 19 89 10 24
07 21 90 38 01 15 22 29 19 37
26 219 02 57 11 34 69 12 21 28
34 05 07 15 06 129 14 18 02 156

7) Estimer la probabilité de fraude. Donner un intervalle de confiance de niveau


95%. Estimer le nombre de fraudeurs nf si n0 = 20000.

ANNEE UNIVERSITAIRE 2010-2011


106 Armel Fabrice YODÉ

Exercice 2 : (10 points)


Dans l’outillage de votre usine vous utilisez une grande quantité de pièces d’un
certain modèle. Dans les conditions usuelles d’emploi, vous avez observé que la
durée de vie de ces pièces est une variable aléatoire normale dont l’expérance est
µ0 = 120 heures, et l’écart-type est σ = 19.4 heures.
Le représentant d’un fournisseur vous propose un nouveau modèle, promettant
un gain de performance en moyenne de 5%, pour une dispersion identique σ.
Vous decidez de tester le nouveau modèle sur un échantillon de n = 64 unités.
On note (Xi , i ∈ {1, . . . , 64}) la durée de vie des pièces testées. On suppose que les
variables sont indépendantes .
1. Soit µ l’expérance mathématique du nouveau modèle. Vous ne voulez pas
changer le modèle si le nouveau n’est pas plus performant que l’ancien (hy-
pothèse H0 ). Plus précisement, vous voulez que la probabilité d’adopter à tort
le nouveau modèle ne dépasse pas le seuil de 0.05. Quelle est alors la procédure
de décision ?
2. Evaluez le risque que cette procédure vous fasse rejeter le nouveau modèle si
l’annonce du représentant est exacte. Que concluez-vous ?
Les 64 pièces testées ont eu une durée de vie moyenne égale à 123.5
heures.
Le représentant conteste cette procédure, prétextant qu’il vaut mieux partir de l’hy-
0
pothèse H0 , selon laquelle le gain de performance moyen est réellement de 5%. Il
souhaite que la probabilité de rejeter à tort le nouveau modèle ne dépasse pas le
seuil de 0.05
3. Quelle est la procedure de décision ? Quel est le risque de l’acheteur ? Quel
est le résultat de cette procédure au vu des observations faites. Commentez.
4. Quelle procédure peut-on proposer pour égaliser les risques de l’acheteur et
du vendeur ? quel est alors ce risque ?
Un représentant d’une autre société se présente et déclare avoir un produit moins
cher et équivalent à celui des questions précédentes. L’acheteur le teste sur un
échantillon de m pièces. Le résultat obtenu est une moyenne de 124.8. On veut
tester si les deux modèles sont de performances équivalentes.
On note p(x, y, µ, ν) la densité du modèle.
5. Expliciter l’estimateur θ̂ du maximum de vraisemblance sachant que ν = µ.
Expliciter µ̂ et ν̂ les estimateurs de vraisemblance dans le cas général.
6. Expliciter la forme de la région critique. Que peut-on dire des performances
relatives des deux types de pièces si m = 64 ?
Exercice 3 : (3 points)
Soit (X1 , . . . , Xn ) un échantillon de taille n issu de la loi N (θ, 1) et soient θ0 > θ1 .
Construire un test de Neyman-Pearson pour tester H0 : θ = θ0 contre H1 : θ = θ1 .
Indiquer le test de niveau α ∈]0, 1[ pour θ = θ0 . Application : θ0 = 10, n = 25 et
α = 0.05. Que vaut la puissance du test pour θ1 = 9 ?

106
ENSEA-ITS2 107

Devoir de rattrapage 2006-2007


Durée : 3 heures

La qualité de la présentation sera prise en compte dans la notation. Les résultats


doivent être justifiés. Les seuls documents autorisés sont les tables statistiques. Bon
courage

Exercice 1 (5 points)
Soit X une variable aléatoire à valeurs dans N∗ définie comme l’instant de pre-
mier succès dans un schéma de Bernouilli de paramètre q ∈]0, 1[.
1) Vérifier que la loi de X est une loi géométrique dont on précisera le paramètre.
2) Vérifier qu’il s’agit d’un modèle exponentiel. Donner une statistique exhaus-
tive.
Soit X1 , . . . , Xn un échantillon de taille n de même loi que X.
3) Déterminer q̂n , l’estimateur du maximum de vraisemblance de q.
4) Montrer que l’estimateur du maximum de vraisemblance est asymptotique-
ment normal.

Exercice 2 : (5 points)

On a lancé un dé 90 fois et on a obtenu les résultats suivants


Issue 1 2 3 4 5 6
effectif 12 16 20 11 13 18

Doit-on considérer, au seuil de risque 5%, que le dé est truqué ?


Exercice 3 : (5 points)

L’étude statistique ci-dessous porte sur les poids (kg) respectifs des pères pi et
ceux de leurs fils aı̂nés fi , pour i ∈ {1, . . . , 12}

Père 65 63 67 68 62 70 66 68 67 69 71 64
Fils 68 66 68 69 66 68 65 71 67 68 70 65

Voici les résultats numériques que nous avons obtenus :


12
X 12
X 12
X 12
X 12
X
pi = 800 p2i = 53418 pi fi = 54107 fi = 811 fi2 = 54849
i=1 i=1 i=1 i=1 i=1

1) Calculez la droite des moindres carrés du poids des fils en fonction du poids
des pères.
2) Calculez la droite des moindres carrés du poids des pères en fonction du poids
des fils.
3) En quel point se coupent ces 2 droites ? Que vaut le produit des pentes des
deux droites ?

ANNEE UNIVERSITAIRE 2010-2011


108 Armel Fabrice YODÉ

Exercice 4 : (5 points)

Deux candidats, Ségolène et Nicolas, sont en présence lors du deuxième tour


d’une élection présidentielle au cours de laquelle 40 millions électeurs sont amenés
à s’exprimer.
n personnes sont tirées au hasard parmi ces électeurs et interrogées sur leurs inten-
tions de vote (on suppose qu’à ce moment tous les électeurs ont fixé leur choix et
n’en changeront pas au moment du vote). 52% des électeurs intérrogés annoncent
qu’ils sont partisans de Ségolène.
1. Calculer, pour n = 100, une borne inférieure de confiance 95% pour le pour-
centage d’électeurs favorables à Ségolène dans la population totale.
2. Que devient cette borne inférieure de confiance 95% pour les valeurs de n :
(a) n = 1000 ?
(b) n = 2000 ?
3. A partir de quelle taille n du sondage effectué, le pourcentage observé de 52%
d’électeurs favorables à Ségolène conduirait-il celui-ci à accorder une confiance
de 95% au fait d’être élu (c’est à dire que la borne inférieure de confiance 95%
serait supérieure ou égale à 0.50)

108
ENSEA-ITS2 109

Devoir 1
Durée : 3 heures
14 Novembre 2007

La qualité de la présentation sera prise en compte dans la notation. Les résultats


doivent être justifiés. Documents non autorisés.

Exercice 1 (4 points) :
Soient Y1 , . . . , Yn des variables aléatoires indépendantes et distribuées selon des lois
de Poisson Yi P(αxi ), où x1 , . . . , xn sont des constantes positives connues.
1. Calculer l’estimateur du maximum de vraisemblance α̂n de α.
2. Etudier ses propriétés à l’horizon fini

Exercice 2 (5 points) :

Soient Y1 , . . . , Yn des variables aléatoires indépendantes et identiquement dis-


tribuées selon une loi normale N (µ, 1), où µ est une constante positive inconnue.
1. Trouvez l’estimateur du maximum de vraisemblance θ̂n de θ = µ2 .
2. Calculez le biais de cet estimateur et déduisez-en un estimateur sans biais de
θ.
3. Calculez la borne de Frechet-Darmos-Cramer-Rao pour la variance d’un esti-
mateur sans biais de θ.

Exercice 3 (6 points) :
Soient Y1 , . . . , Yn des variables aléatoires indépendantes et identiquement distribuées
selon une loi de Bernouilli B(1, p), où p ∈]0, 1[ est inconnue.
Xn
On admet que Tn = Yi est une statistique exhaustive et complète pour le pa-
i=1
ramètre p.
1. Montrer que l’on peut choisir α > 0 tel que α(Y1 − Y2 )2 soit un estimateur
sans biais de p(1 − p) .
2. Montrer que
Zn = Ep [α(Y1 − Y2 )2 /Tn ]
est l’unique estimateur de variance minimale dans la classe des estimateurs
sans biais de p(1 − p).
3. L’estimateur Zn est-il efficace ?
Exercice 4 (5 points) :
La hauteur maximale H de la crue annuelle d’un fleuve est observée car une crue

ANNEE UNIVERSITAIRE 2010-2011


110 Armel Fabrice YODÉ

supérieure à 6 mètres serait catastrophique. On a modélisé H comme une variable


de Rayleigh, i.e H a une densité donnée par
 2
x x
fH (x) = exp − 1IR+ (x),
a 2a

où a > 0 est un paramètre inconnu. Durant une période de 8 ans, on a observé les
hauteurs de crue suivantes en mètres :

n 1 2 3 4 5 6 7 8
Hn 2.5 1.8 2.9 0.9 2.1 1.7 2.2 2.8

1. Donner l’estimateur du maximum de vraisemblance ân de a.


2. Quelles propriétés possède-t-il parmi les suivantes ?
(a) Sans biais
(b) Optimal
(c) Efficace
(d) Asymptotiquement
3. Une compagnie d’assurance estime qu’une catastrophe n’arrive qu’au plus une
fois tous les mille ans. Ceci peut-il être justifié par les observations ?

Courage ! ! !

110
ENSEA-ITS2 111

Devoir 2
Durée : 3 heures
9 Janvier 2008

La qualité de la présentation sera prise en compte dans la notation. Les résultats


doivent être justifiés. Documents non autorisés.

Exercice 1 (6 points)
1. On considère le modèle de regression suivant :

Yi = β1 + β2 xi,2 + β3 xi,3 + εi , 1 ≤ i ≤ n.

où les xi,j , j = 2, 3, sont des variables exogènes, et les εi sont des variables
aléatoires indépendantes de même loi normale centrée de variance σ 2 . En
posant
   
1 x1,2 x1,3 Y1
X =  ... .. ..  Y =  ... 
  
. . 
1 xn,2 xn,3 Yn
On a observé :
   
30 20 0 15
0 0 0
X X =  20 20 0  , X Y =  20  Y Y = 59.5
0 0 10 10
0 0
où X , Y sont les transposées des matrices X et Y respectivement.
1. Donner la valeur de :
• n
n n n
! !
1X 1X 1X
• xi,2 xi,3 − xi,2 xi,3
n n n
i=1 i=1 i=1
2. Estimer les paramètres β1 , β2 , β3 , σ2.
3. Calculer un intervalle de confiance pour β2 au niveau de 95%.
4. Faire le test β2 = 0 contre β2 6= 0 au seuil de 5%.

Exercice 2 (5 points)
Soit X = (X1 , . . . , Xn ) un échantillon de taille n de loi normale N (0, , 1θ ).
1. Calculer θ̂ l’estimateur du maximum de vraisemblance de θ. Construire un
estimateur sans biais de θ. Cet estimateur est-il efficace, asymptotiquement
efficace ?
2. Construire le test le plus puissant de θ = 1 contre θ > 1. Si n = 15 et si
15
X
x2i = 6.8, effectuer le test au niveau 5%
i=1

ANNEE UNIVERSITAIRE 2010-2011


112 Armel Fabrice YODÉ

3. Construire le test le plus puissant de θ = 1 contre θ 6= 1. Effectuer le test au


niveau 5% pour les mêmes données qu’au point précédent.

Exercice 3 (4 points)
On désire étudier la prédominance visuelle de l’oeil et l’habilité de la main. Un
expérimentateur établit la table suivante :

Mobilité manuelle/Vue Gauche Deux yeux Droit Total


Gauche 9 15 7 31
Deux mains 8 7 4 19
Droite 15 26 9 50
Total 32 48 20 100

A l’aide du test du χ2 , dire s’il existe une relation entre la prédominance visuelle et
l’habilité des mains (avec un seuil de 0.25) ?

Exercice 4 (5 points)
Deux candidats, Ségolène et Nicolas, sont en présence du deuxième tour d’une
élection présidentielle au cours de laquelle 40 millions d’électeurs sont amenés à
s’exprimer. n personnes sont tirées au hasard parmi ces électeurs et interrogées sur
leurs intentions de vote (on suppose qu’à ce moment tous les électeurs ont fixé leur
choix et n’en changeront pas au moment du vote). 52% des électeurs annoncent
qu’ils sont partisans de Ségolène.
1. Calculer, pour n = 100 une borne inférieure de confiance 95% pour le pour-
centage d’électeurs favorables à Ségolène dans la population totale.
2. Que devient cette borne inférieure de confiance 95% pour les valeurs suivantes
de n :
(a) n = 1000?
(b) n = 2000?
3. A partir de quelle taille n du sondage effectué, le pourcentage observé de 52%
d’électeurs favorables à Ségolène conduirait-il celui-ci à accorder une confiance
de 95% au fait d’être élu (c’est à dire la borne inférieure de confiance 95%
serait supérieure à 0.50) ?

112
ENSEA-ITS2 113

Devoir de rattrapage 2007-2008


Durée : 3 heures

La qualité de la présentation sera prise en compte dans la notation. Les seuls docu-
ments autorisés sont les tables statistiques

Exercice 1 (Cours) :
Nous allons estimer les paramètres du modèle structurel
Y = b + aX + u
au vu des observations (X1 , Y1 ), . . . , (Xn , Yn ). La variable aléatoire u est telle que
E(u) = 0 et V ar(u) = σ 2 . La variable X n’est pas aléatoire. Nous supposons que les
paramètres a et b peuvent prendre des valeurs réelles à priori quelconques.
1. Décrire le principe de la méthode des moindres carrés.
Nous supposerons dans la suite que u suit la loi normale N (0, σ 2 ).
2. Donner la densité de probabilité du vecteur aléatoire (Y1 , . . . , Yn ).
3. Calculer l’estimateur du maximum de vraisemblance (â, b̂) du couple (a, b).
4. Montrer que â et b̂ sont des estimateurs sans biais respectivement pour a et
b.
5. Ecrire â comme fonction des variables aléatoires u1 , . . . , un . Déduire la loi de
β̂.
6. Construire un intervalle de confiance pour a au seuil α dans les cas suivants :
- σ est connue
- σ est inconnue

Exercice 2

On souhaite vérifier la qualité du générateur de nombre aléatoires d’une calcu-


latrice scientifique. Pour cela, on procède à 250 tirages dans l’ensemble {0, . . . , 9} et
on obtient les résultats suivants :

x 0 1 2 3 4 5 6 7 8 9
N (x) 28 32 23 26 23 31 18 19 19 31
A l’aide du test du χ2 , vérifier si le générateur produit des entiers indépendants
et uniformément répartis sur {0, . . . , 9} avec α = 5%.

Exercice 3 :
Une variable aléatoire suit une loi normale N (µ, σ 2 ) d’écart type connu σ = 2.
Au vu de l’échantillon i.i.d. X1 , . . . , Xn d’échantillon parente de X, on veut tester
l’hypothèse H0 : µ = 2 contre l’hypothèse H0 : µ = 3.
Soit L(µ, x1 , . . . , xn ) la fonction de vraisemblance.

ANNEE UNIVERSITAIRE 2010-2011


114 Armel Fabrice YODÉ

1 Donner l’expression du rapport

L(3, x1 , . . . , xn )
λ= .
L(2, x1 , . . . , xn )

2 En déduire la region critique du test de Neyman-Pearson en fonction du niveau


de signification α∗ .
3 Calculer la puissance de ce test dans le cas où n = 100 et α∗ = 0.05.
4 Quelle doit être la taille de l’échantillon pour que la puissance soit supérieure
à 0.95 en supposant toujours α∗ = 0.05.
5. On a observé x̄ = 2.5 avec n = 36. Quel est le plus niveau α∗ pour lequel H0
est rejetée.

114
ENSEA-ITS2 115

ITS2
Devoir de Statistique Mathématique
11 décembre 2009
Durée : 3 heures

Questions de cours (2 points)

1. Enoncer le théorème de Lehmann-Scheffé. Quelle est son utilité ?


2. Donner les définitions d’estimateur asymptotiquement normal et d’estimateur
asymptotiquement efficace.

Exercice 1 (10 points)

En 1897, V. Pareto, économiste suisse, propose de modéliser la loi des revenus en


postulant que le nombre de personnes dont le revenu dépasse une valeur x est inver-
sement proportionnel à une puissance de x. Ce modèle a été contesté ultérieurement,
mais la loi de Pareto suscite un regain d’intérêt depuis quelques années pour son
utilisation dans l’analyse de performance des réseaux à haut débit. Le problème a
pour objet l’étude de cette loi, sur le plan statistique.
Une variable aléatoire absolument continue X est distribuée suivant une loi de
Pareto de paramètres α > 1 et θ > 0, si sa densité est donnée par :

f (x) = (α − 1)θα−1 x−α 1Ix≥θ .

1. Estimation de α
Soit (X1 , . . . , Xn ) un échantillon issu d’une loi de Pareto de paramètres α > 1
et θ > 0, où θ est connu.
(a) Trouver une statistique exhaustive pour le paramètre α.
(b) Déterminer l’estimateur du maximum de vraisemblance α̂.
(c) Calculer E[α̂] et en déduire le biais de l’estimateur du maximum de
vraisemblance α̂.
n  
X Xi
Indication : exprimer α̂ en fonction de Vn = ln et utiliser
θ
i=1
sans démontrer l’hypothèse Vn est une variable aléatoire qui suit une
Gamma Γ(α − 1, n). On rappelle qu’une loi Gamma de paramètre a > 0
et λ > 0, notée Γ(a, λ), admet comme densité

aλ λ−1 −ax
f (x) = x e 1Ix≥0
Γ(λ)
où Γ(λ) est la fonction gamma définie par
Z ∞
Γ(λ) = uλ−1 e−u du.
0

(d) Trouver un estimateur α̂1 de α, fonction linéaire à une constante près


de α̂, et sans biais. Quel est le meilleur estimateur de α entre α̂ et αˆ1 ?

ANNEE UNIVERSITAIRE 2010-2011


116 Armel Fabrice YODÉ

2. Estimation de θ
Soit (X1 , . . . , Xn ) un échantillon issu d’une loi de Pareto de paramètres α > 1
et θ > 0, mais on suppose cette fois ci que le paramètre α est connu.
(a) Préciser le support de la densité de l’échantillon (X1 , . . . , Xn ). Exprimer
celle-ci à l’aide d’une fonction indicatrice. En déduire une statistique
exhaustive pour le paramètre θ.
(b) Déterminer l’estimateur du maximum de vraisemblance θ̂ de θ.

(c) Calculer ln(f (X1 , . . . , Xn , θ)) pour θ dans l’intervalle [0, min Xi ], et
∂θ
en déduire l’information de Fisher de l’échantillon (X1 , . . . , Xn ). De la
même façon, calculer l’information de Fisher de la variable aléatoire X1 .
Que peut-on en conclure sur l’additivité de l’information de Fisher ?
Expliquer.

Exercice 2 (8 points)

On considère un échantillon (X1 , . . . , Xn ) issu de la loi exponentielle de pa-


1
ramètre où θ > 0.
θ
1. Estimation de θ
(a) Déterminer l’estimateur du maximum de vraisemblance θ̂ de θ. Préciser
ses propriétés : biais, efficacité.
(b) Etablir la loi limite de θ̂
 
2
2. Estimation de α = exp −
θ
(a) déterminer l’estimateur du maximum de vraisemblance α̂ de α. Calculer
l’information de fisher concernant α apportée par l’échantillon et la borne
de Frechet-Darmois-Cramer-Rao.
(b) Préciser les propriétés (biais, efficacité) et établir la loi limite de α̂.
(c) Soit T l’estimateur de α defini par
(
1 si X1 > 2
T =
0 sinon.

Montrer que T est un estimateur sans biais de α


(d) En déduire un estimateur sans biais optimal de α.

116
ENSEA-ITS2 117

Devoir 3
Durée : 3 heures
3 avril 2009

La qualité de la présentation sera prise en compte dans la notation. Les seuls docu-
ments autorisés sont les tables statistiques

Exercice 1 (Cours) : (7 points) La différence de potentiel mesurée aux bornes


d’un conducteur ohmique traversé par un courant d’intensité xi , (i = 1, . . . , n) est
modélisée par une variable aléatoire

Ui = rxi + εi , ∀i = 1, . . . , n

où
• r est un paramètre inconnu qui représente la résistance du conducteur oh-
mique.
• (εi )1≤i≤n est une suite de variables aléatoires indépendantes et de même loi
gaussienne de moyenne zéro et de variance σ 2 .
• les intensités (xi )1≤i≤n ne sont pas aléatoires.
On cherche à estimer les deux paramètres (r, σ 2 ).
On considère n mesures indépendantes U1 , . . . , Un réalisées pour les intensités
x1 , . . . , x n
1. Donner une statistique exhaustive.
2. Calculer les estimateurs du maximum de vraisemblance des paramètres r et
σ 2 . On note r̂nM V et σ̂ 2M V et
Exercice 2 : (5 points)
On considère que le nombre d’accidents par semaine sur une route nationale est
une variable aléatoire X. A partir des observations suivantes
Nombre d’accidents 0 1 2 3 4 5 et plus
Nombre de semaines 2 17 6 11 7 7

Peut-on admettre au niveau α∗ = 0.10 que X suit une loi de Poisson de pa-
ramètre λ = 2 ?
Exercice 3 : (5 points)
Une agence de voyage souhaite cibler sa clientèle. Elle sait que les coordonnées
du lieu de vie d’un client (X, Y ) rapportées au lieu de naissance (0, 0) sont une
information significative pour connaı̂tre le goût de ce client. Elle distingue :
- La population 1 (Hypothèse H0 ) dont la loi de répartition a pour densité
1 x2 +y 2
p1 (x, y) = √ e− 2 1IR2 (x, y)
4π 2
- La population 2 (Hypothèse H1 ) dont la loi de répartition a pour densité
1
p2 (x, y) = 1I (x)1I[−2,2] (y)
16 [−2,2]

ANNEE UNIVERSITAIRE 2010-2011


118 Armel Fabrice YODÉ

L’agence souhaite tester l’Hypothèse qu’un nouveau client vivant en (x, y) appartient
à la population 1 plutôt qu’à la population 2.
1. Proposer un test de niveau inférieur à α = 5% et de puissance maximale
construit à partir du rapport de vraisemblance.
2. Donner une statistique de test et caractériser garphiquement la région critique
dans R2 .
Exercice 4 : (3 points)
Parmi 900 poissons pêchés dans un lac, on a observé 180 porteurs de parasites.
Entre quelles limites situez-vous la proportion des individus parasités dans la popu-
lation des poissons des lacs.

Courage ! ! !

118
Bibliographie

[1] P. A. Cornillon, A. Matzner-Lober, Régression, Théorie et applications, Collec-


tion Statistique et probabilités appliquées, Springer-Verlag France, Paris, 2007.
[2] R. Ramanathan, Statistical methods in econometrics, Academic Press, Inc.,
1993.
[3] G. Saporta, Probabilités, analyse des données et statistique, Editions TECH-
NIP, Paris, 2006.
[4] P. Tassi, Méthodes statistiques, Edition Economica, Paris, 1989.

119

Vous aimerez peut-être aussi