(ENSEA-ITS2) Armel Fabrice Yodé, Cours Statistique Mathématique

Cours de Statistique Mathématique
ENSEA-ITS 2 (2010-2011)
Dr Armel Fabrice Yodé

Laboratoire de Mathématiques Appliquées et Informatique (L.M.A.I.)
UFR Mathématique et Informatique
Université de Cocody-Abidjan, Côte d’Ivoire
yafevrard@yahoo.fr
26 septembre 2010
Nous avons confiance en Dieu ; que tous les autres apportent des
justificatifs. [Edwards Deming, Professeur de statistique américain,
1900-1993]
Table des matières
1 Introduction 7
2 Rappels et Compléments de probabilité 9

2.1 Espace probabilisé . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Probabilités conditionnelles, indépendance. . . . . . . . . . . . 11
2.2.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.2 Variables aléatoires réelles discrètes . . . . . . . . . . . 14
2.3.3 Variables aléatoires à densité . . . . . . . . . . . . . . . 14
2.4 Moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.5 Vecteurs aléatoires . . . . . . . . . . . . . . . . . . . . . . . . 16
2.5.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.5.2 Indépendence . . . . . . . . . . . . . . . . . . . . . . . 17
2.5.3 Couple de variables aléatoires . . . . . . . . . . . . . . 17
2.5.4 Vecteurs gaussiens . . . . . . . . . . . . . . . . . . . . 18
2.6 Fonction caractéristique . . . . . . . . . . . . . . . . . . . . . 20
2.7 Convergence et Théorèmes limites . . . . . . . . . . . . . . . . 21
2.7.1 Convergence . . . . . . . . . . . . . . . . . . . . . . . . 21
2.7.2 Théorèmes limites . . . . . . . . . . . . . . . . . . . . . 22
2.8 Lois usuelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.8.1 Lois discrètes . . . . . . . . . . . . . . . . . . . . . . . 23
2.8.2 Lois à densité . . . . . . . . . . . . . . . . . . . . . . . 26
2.9 Famille exponentielle . . . . . . . . . . . . . . . . . . . . . . . 27
3 Problèmes et outils statistiques 29

3.1 Exemple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.2 Echantillonnage . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2.1 Population taille finie . . . . . . . . . . . . . . . . . . . 30
3.2.2 Expériences renouvelables . . . . . . . . . . . . . . . . 31
3.2.3 Echantillonnage aléatoire . . . . . . . . . . . . . . . . . 31
3.2.4 Modèles d’échantillonnage . . . . . . . . . . . . . . . . 34
3
4 TABLE DES MATIÈRES
3.3 Modélisation statistique . . . . . . . . . . . . . . . . . . . . . 37
3.4 Théorie de la décision . . . . . . . . . . . . . . . . . . . . . . . 38
3.5 Statistique exhaustive, libre, totale . . . . . . . . . . . . . . . 40
3.5.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.6 Familles exponentielles . . . . . . . . . . . . . . . . . . . . . . 42
4 Estimation ponctuelle 45
4.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.2 Propriétés des estimateurs . . . . . . . . . . . . . . . . . . . . 45
4.3 Information de Fisher . . . . . . . . . . . . . . . . . . . . . . . 46
4.3.1 Cas où θ est unidimensionnel . . . . . . . . . . . . . . 46
4.3.2 Généralisation au cas où θ est multidimensionnel . . . 48
4.4 Estimateur sans biais . . . . . . . . . . . . . . . . . . . . . . . 49
4.4.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.4.2 Amélioration d’un estimateur sans biais . . . . . . . . . 50
4.4.3 Cas des familles exponentielles . . . . . . . . . . . . . . 51
4.5 Methode du maximum de vraisemblance . . . . . . . . . . . . 52
4.5.1 Propriétés à distance finie . . . . . . . . . . . . . . . . 52
4.5.2 Propriétés asymptotiques . . . . . . . . . . . . . . . . . 52
5 Estimation par intervalle de confiance 55

5.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.2 Construction d’un intervalle de confiance . . . . . . . . . . . . 56
5.3 Intervalles de confiance classiques . . . . . . . . . . . . . . . . 56
5.3.1 Echantillon issu d’une loi normale N (µ, σ 2 ) . . . . . . . 56
6 Tests d’hypothèses 63
6.1 Principe des tests . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.1.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . 63
6.1.2 p-valeur . . . . . . . . . . . . . . . . . . . . . . . . . . 65
6.1.3 Etapes d’un test d’hypothèses . . . . . . . . . . . . . . 66
6.2 Test de Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . 66
6.3 Tests entre hypothèses composites . . . . . . . . . . . . . . . . 71
6.3.1 Famille à rapport de vraisemblance monotone . . . . . 72
6.3.2 Tests U.P.P. . . . . . . . . . . . . . . . . . . . . . . . . 72
6.3.3 Tests U.P.P.S.B. . . . . . . . . . . . . . . . . . . . . . . 74
6.4 Tests du χ2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
6.4.1 Test d’adéquation à une loi donnée . . . . . . . . . . . 76
6.4.2 Test d’adéquation à une famille de lois . . . . . . . . . 77
6.4.3 Test d’indépendance . . . . . . . . . . . . . . . . . . . 78
TABLE DES MATIÈRES 5
7 Régression linéaire 81
7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
7.2 Régression simple : p = 1 . . . . . . . . . . . . . . . . . . . . . 82
7.2.1 Modélisation . . . . . . . . . . . . . . . . . . . . . . . 82
7.2.2 Estimateurs des moindres carrés . . . . . . . . . . . . . 82
7.2.3 Modèle linéaire Gaussien simple . . . . . . . . . . . . . 86
7.3 Regression linéaire multiple : p > 1 . . . . . . . . . . . . . . . 87
7.3.1 Modélisation . . . . . . . . . . . . . . . . . . . . . . . 87
7.3.2 Estimateurs des moindres carrés ordinaires . . . . . . . 88
7.3.3 Modèle gaussien . . . . . . . . . . . . . . . . . . . . . . 91
8 Travaux dirigés 2010-2011 95

8.1 TD 1 Problèmes et outils statistiques . . . . . . . . . . . . . . 95
8.2 TD 2 Estimation ponctuelle . . . . . . . . . . . . . . . . . . . 97
8.3 TD 3 Estimation par intervalle . . . . . . . . . . . . . . . . . 99
8.4 TD 4 Test d’hypothèses . . . . . . . . . . . . . . . . . . . . . 100
8.5 TD 5 Modèles linéaires . . . . . . . . . . . . . . . . . . . . . . 102
9 Examens 103
6 TABLE DES MATIÈRES
Chapitre 1
Introduction
Le mot ”statistique” désigne à la fois un ensemble de données d’obser-

vations et l’activité qui consiste dans leur recueil, leur traitement et leur in-
terprétation.
Les méthodes statistiques sont utilisées dans plusieurs secteurs de l’activité
humaine. Parmi les nombreuses applications, citons
- dans le domaine industriel : la fiabilité des matériels, le contrôle de qua-
lité, l’analyse des résultats de mesure et leur planification, la prévision...
- domaine de l’économie et des sciences de l’homme : les modèles économétrique,
les sondages, les enquêtes d’opinion, les études quantitatives de marché...
Démarche statistique classique

La démarche statistique comporte usuellement trois phases :
1. Le recueil des données. Les deux grandes méthodologie de collecte de
données sont les sondages et les plans d’expériences.
2. L’exploration des données. La statistique exploratoire a pour but de
synthétiser, résumer, structurer l’information contenue dans les données.
Elle utilise pour cela des représentations des données sous forme de ta-
bleaux, de graphiques et d’indicateurs numériques.
Le rôle de la statistique exploratoire est de mettre en évidence des pro-
priétés de l’échantillon et de suggérer des hypothèses.
3. L’inférence statistique. Le but est d’étendre les propriétés constatées
sur l’échantillon à la population toute entière et de valider ou d’infirmer
des hypothèses a priori ou formulées après une phase exploratoire. Le
calcul des probabilités joue un rôle fondamental.
7
8 CHAPITRE 1. INTRODUCTION
Statistique et probabilités
La théorie des probabilités étudie les propriétés de certaines structures
modélisant des phénomènes où le hasard intervient. Les probabilités sont uti-
lisées en Statistique pour pouvoir extrapoler à la population les résultats
constatés sur l’échantillon.
Chapitre 2
Rappels et Compléments de
probabilité
2.1 Espace probabilisé

Définition 1. Une expérience E est qualifiée d’aléatoire si on ne peut pas
prévoir par avance son résultat et si, répétée dans des conditions identiques,
elle peut donner lieu à des résultats différents.
On notera Ω l’ensemble des résultats possibles de l’expérience aléatoire E ; Ω

est appelé univers ou espace fondamental.
Définition 2. Un événement est une proposition logique sur les résultats

possibles de l’expérience. Un événement est identifié à un sous-ensemble de
l’espace fondamental dont tous les éléments vérifient la proposition logique
associée.
Exemple 1. 1. Soit l’expérience aléatoire ”lancer une pièce” (non pipée si

l’on veut vraiment une expérience aléatoire). L’espace fondamental est
Ω = {pile, face}.
2. Soit l’expérience aléatoire ”lancer deux dés discernables” (et non pipés
si l’on veut vraiment une expérience aléatoire). L’espace fondamental
est Ω = {(i, j) : 1 ≤ i, j ≤ 6} et l’évènement A =”obtenir un total
des nombres > 10”. A se réalise pour les évènements élémentaires (6, 5),
(5, 6), (6, 6).
On notera P(Ω) l’ensemble des parties de Ω.
Définition 3. Tout ensemble A vérifiant

• A ⊂ P(Ω)
• ∅∈A
9
10 Armel Fabrice YODÉ
• A ∈ A =⇒ Ā = {x ∈ Ω et x 6∈ A} ∈ A
[
• pour toute famille finie ou dénombrable (Ai )i∈I ⊂ A =⇒ Ai ∈ A
i∈I
s’appelle une tribu sur Ω. Les éléments de A sont appelés événements.
Exemple 2. 1. Soit Ω, l’univers associé à une expérience aléatoire. Alors,

P(Ω) et A = {Ω, ∅} sont des tribus sur Ω.
2. Soit l’expérience aléatoire ”lancer une pièce” (non pipée si l’on veut vrai-
ment une expérience aléatoire). Supposons que pile≡ 1 et face≡ 0. Alors,
l’ensemble des parties de Ω = {0, 1} est défini par
P(Ω) = {{0}, {1}, {0, 1}, ∅} .
Remarque 1. • Le couple (Ω, A) est appelé espace probabilisable.

• Soit C ⊂ P(Ω). La tribu σ(C) engendrée par C est la plus petite tribu
contenant C ; c’est l’intersection de toutes les tribus contenant C.
• Si Ω est muni d’une topologie alors la tribu engendrée par la classe des
ouverts de Ω est appelée tribu borélienne. Dans la suite, si Ω = R on
notera A = B(R) la tribu borélienne sur R.
Définition 4. On appelle probabilité sur (Ω, A) une application P : A →

[0, 1] telle que :
(i) P(Ω) = 1
(ii) Si (Ai )i∈I est une famille dénombrable d’éléments de A deux à deux
disjoints ou incompatibles (i.e. ∀i 6= j, Ai ∩ Aj = ∅) alors
!
[ X
P Ai = P(Ai ).
i∈I i∈I
On appelle espace probabilisé le triplet (Ω, A, P).
Proposition 1. Soient (Ω, A, P) un espace probabilisé et A, B ∈ A. Alors

- P(∅) = 0
- P(Ā) = 1 − P(A)
- Si A ⊂ B alors P(A) ≤ P(B)
- P(A ∪ B) = P(A) + P(B) − P(A ∩ B)
Preuve. Exercice.
10
ENSEA-ITS2 11
2.2 Probabilités conditionnelles, indépendance.

Soit (Ω, A, P) un espace probabilisé. La notion de probabilité conditionnelle
permet de prendre en compte l’information dont on dispose (à savoir qu’un
événement B est réalisé) pour calculer la probabilité d’un événement A.
2.2.1 Définitions
Définition 5. Soient A et B deux évènements tels que P(B) > 0. On appelle
probabilité conditionnelle de A sachant que B s’est réalisé, le réel défini par
P(A ∩ B)
P(A/B) = .
P(B)
Proposition 2. P(·/B) est une probabilité sur (Ω, A).
Preuve. Exercice.
Définition 6. Soient A et B deux évènements tels que P(B) > 0. Alors A et

B sont indépendants si P(A/B) = P(A)
Remarque 2. 1. A et B sont indépendants si P(A ∩ B) = P(A)P(B).

2. Supposons que P(A) > 0 et P(B) > 0. Nous avons
P(A/B) = P(A) ⇔ P(B/A) = P(B) (à vérifier)
Définition 7. Les événements A1 , . . . , An sont dits mutuellement indépendants

si !
\ Y
∀I ⊂ {1, . . . , n}, P Ai = P(Ai ).
i∈I i∈I
Remarque 3. Attention ! ! !
• indépendance6=incompatibilité
• Pour que 3 événements soient mutuellement indépendants, il ne suffit pas
qu’ils soient 2 à 2 indépendants. La condition d’indépendance mutuelle
est beaucoup plus forte que l’indépendance deux à deux qui ne lui est
pas équivalente mais en est une simple conséquence.
Exemple 3. Jet de deux pièces à Pile ou Face : Ω = {P P, P F, F P, F F }
où par exemple ”PF” signifie que la première pièce donne Pile et la se-
conde Face. Cet espace est muni de la probabilité uniforme. On considère
les événements suivants
A=”la première pièce donne Pile”
B=”la seconde pièce donne Face”
ANNEE UNIVERSITAIRE 2010-2011

C=”les deux pièces donnent le même résultat”.

(a) Vérifier que A, B et C sont deux à deux indépendants.
(b) Calculer P(A)P(B)P(C) et P(A ∩ B ∩ C). Conclure.
Définition 8. Une famille finie d’événements (Ai )1≤i≤n deux à deux incom-
patibles tels que ∪ni=1 Ai = Ω est appelée système complet d’événements.
Théorème 1. des probabilités totales.

Soit {B1 , . . . , Bn } un système complet d’événements. Alors, nous avons
n
X
∀A P(A) = P(Bi )P(A/Bi ).
i=1
Preuve. Exercice.
Théorème 2. (Formule de Bayes)

Soit {B1 , . . . , Bn } un système complet d’événements et A un événement tel que
P(A) > 0. Alors, nous avons
P(Bi )P(A/Bi )
∀A P(Bi /A) = n .
X
P (Bk )P(A/Bk )
k=1
Preuve. Exercice.
2.3 Variables aléatoires

Soit (Ω, A, P) un espace probabilisé.
2.3.1 Définitions
Définition 9. Une variable aléatoire réelle X est une application de (Ω, A)
dans (R, B(R)) telle que
∀A ∈ B(R), X −1 (B) = {ω ∈ Ω : X(ω) ∈ B} ∈ B.
Exemple 4. Soit l’expérience aléatoire ”lancer deux dés discernables” (et non
pipés si l’on veut vraiment une expérience aléatoire). L’espace fondamental est
Ω = {(i, j) : 1 ≤ i, j ≤ 6}. Soit X la variable aléatoire qui à chaque ω ∈ Ω
associe la somme des numéros affichés. L’ensemble des valeurs possibles de la
variable X est
X(Ω) = {2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12}.
12
ENSEA-ITS2 13
1 2 3 4 5 6
1 2 3 4 5 6 7
2 3 4 5 6 7 8
3 4 5 6 7 8 9
4 5 6 7 8 9 10
5 6 7 8 9 10 11
6 7 8 9 10 11 12
Définition 10. On définit la loi de probabilité de X sur (R, B(R)) par
PX (B) = P X −1 (B)

∀B ∈ B(R).
Exemple 5. Soit l’expérience aléatoire ”lancer deux dés discernables” (et

non pipés si l’on veut vraiment une expérience aléatoire). Soit X la variable
aléatoire qui à chaque ω ∈ Ω associe la somme des numéros affichés. Soit
B = {6}. Nous avons
X −1 (B) = {(5, 1), (1, 5), (2, 4), (4, 2), (3, 3)} .
L’équiprobabilité permet d’écrire

5
PX (B) = .
36
Définition 11. L’application FX : R → [0, 1] telle que
∀x ∈ R FX (x) = P(X ≤ x)
s’appelle fonction de répartition de X.

Exemple 6. Soit l’expérience aléatoire ”lancer deux dés discernables” (et
non pipés si l’on veut vraiment une expérience aléatoire). Soit X la variable
aléatoire qui à chaque ω ∈ Ω associe la somme des numéros affichés. Nous
avons
6
X
P(X ≤ 6) = P(X = k)
k=1
1 2 3 4 5
= + + + + .
36 36 36 36 36
Propriété 1. FX a les propriétés suivantes :
• FX est croissante, continue à droite et possède une limite à gauche (finie)
en chaque point.
• P(a < X ≤ b) = FX (b) − FX (a)
• lim FX (x) = 0 et lim FX (x) = 1.
x→−∞ x→+∞

2.3.2 Variables aléatoires réelles discrètes

Définition 12. La variable aléatoire X est discrète si X(Ω) est un sous-
ensemble fini ou dénombrable de R. La loi de probabilité de X est déterminée
par
• X(Ω) = {x1 , x2 , . . .}
• pi = P(X = xi ).
X
Propriété 2. • pi = 1.
i
• La fonction de répartition FX est une fonction en escalier.
2.3.3 Variables aléatoires à densité

Définition 13. La variable aléatoire réelle X est à densité s’il existe une
fonction fX : R → R̄+ telle que
Z
∀B ∈ B(R), PX (B) = fX (x)dx.
B
fX est appelée densité de probabilité de X.

0
Propriété 3. • En tout point x où fX est continue, on a FX (x) = fX (x).
Z x
• ∀x ∈ R FX (x) = fX (t)dt
−∞
• ∀x ∈ R, fX (x) ≥ 0
Z +∞
• fX (x)dx = 1.
−∞
Définition 14. Soit X une variable aléatoire réelle. Supposons que la fonction
de répartition FX est continue et strictement croissante. Pour 0 ≤ α ≤ 1, on
note xα l’unique nombre réel vérifiant
FX (xα ) = P (X ≤ xα ) = α.
On dit Xα est le quantile d’ordre α.
2.4 Moments
Soit X une variable aléatoire réelle.
Définition 15. On appelle espérance mathématique de X, le nombre réel

(s’il existe)
14
ENSEA-ITS2 15
X
• E(X) = xP(X = x) si X est discrète
x∈X(Ω)
Z +∞
• E(X) = xfX (x)dx si X est à densité.
−∞
Propriété 4. • E(X + Y ) = E(X) + E(Y )

• E(λX) = λE(X), ∀λ ∈ R
• si X ≤ Y alors E(X) ≤ E(Y )
• |E(X)| ≤ E(|X|)
• E(|X|) = 0 ⇔ X = 0.
Proposition 3. Inégalité de Jensen
Si ϕ est une fonction convexe i.e ϕ(λx + (1 − λ)y) ≤ λϕ(x) + (1 − λ)ϕ(y), ∀x
∀y ∀λ ∈ [0, 1], si les espérances existent, nous avons
E(ϕ(X)) ≥ ϕ(E(X)).
Définition 16. - Soit X une variable aléatoire réelle discrète. On appelle
moment d’ordre k ≥ 1, la quantité
X
E(X k ) = xk P (X = x).
x∈X(Ω)
- Soit X une variable aléatoire réelle continue. On appelle moment d’ordre

k ≥ 1, la quantité Z +∞
E(X k ) = xk f (x)dx,
−∞
où f est la densité de probabilité de la v.a.r X.
- On appelle moment centré d’ordre k ≥ 1 le nombre E((X − E(X))k ).
- On appelle variance de la v.a.r X, le nombre positif
var(X) = E((X − E(X))2 ) = E(X 2 ) − (E(X))2 .
p
- La racine carrée de var(X) est appelée écart type de X : σX = var(X).
Proposition 4. Inégalité de Bienaymé-Tchebyshev.
var(X)
P (|X − E(X)| > ε) ≤ .
ε2
Soit ϕ : R → R et Y = ϕ(X). Pour calculer E(Y ), on peut utiliser le
Théorème suivant
Théorème 3. (de transfert).
Sous reserve d’existence, nous avons
Z +∞
E(ϕ(X)) = ϕ(x)dPX (x)
−∞

2.5 Vecteurs aléatoires

2.5.1 Définition
Définition 17. Une vecteur aléatoire X = (X1 , . . . , Xd ) est une application
de (Ω, A) dans (Rd , B(Rd )) telle que
∀A ∈ B(Rd ), X −1 (B) = {ω ∈ Ω : X(ω) ∈ B} ∈ B.
Définition 18. La fonction de répartition du vecteur aléatoire X est définie

par
FX (x1 , . . . , xd ) = P (X1 ≤ x1 , . . . , Xn ≤ xd ).
Propriété 5.
lim FX (x1 , . . . , xd ) = 0, ∀i
xi →−∞
lim FX (x1 , . . . , xd ) = 1
x1 →+∞,...,xd →+∞
Définition 19. Fonction densité conjointe

- Cas discret
fX (x1 , . . . , xd ) = P (X1 = x1 , . . . , Xd = xd )
avec xi ∈ Xi (Ω), i = 1, . . . , d.
- Cas continu.
Si FX est différentiable, alors
∂ d FX (x1 , . . . , xd )
fX (x1 , . . . , xd ) =
∂x1 . . . ∂xd
Propriété 6. Soit X = (X1 , . . . , Xd ) un vecteur aléatoire de dimension d.

Alors les Xi sont des variables aléatoires réelles de fonction de répartition
FXi (xi ) = lim FX (x1 , . . . , xi , . . . , xd )

xj → +∞
j 6= i
et de densité Z Y
fXi (xi ) = fX (x1 , . . . , xd ) dxj .
Rd−1 j6=i
Les mesures de probabilités PXi déterminées à partir des FXi ou des fXi sont
appelées lois marginales de X.
Propriété 7. Soit (X1 , . . . , Xd ) un vecteur aléatoire de dimension d.
16
ENSEA-ITS2 17
• On définit l’espérance de X par

 
E(X1 )
E(X) =  ..
.
 
.
E(Xd )
• On définit la matrice de variance-covariance de la manière suivante

h 0
i
ΣX = E (X − E(X))(X − E(X))
 
var(X1 ) cov(X1 , X2 ) · · · cov(X1 , Xd )
 cov(X1 , X2 ) var(X2 ) · · · cov(X2 , Xd ) 
=
 
.. .. .. 
 . . ··· . 
cov(X1 , Xd ) cov(X2 , Xd ) · · · var(Xd )
où cov(Xi , Xj ) = E(Xi Xj ) − E(Xi )E(Xj ).

• Si Y = AX + B, A est une matrice à p lignes et d colonne, X est un
vecteur aléatoire, B est un vecteur de dimension p, alors
E(Y ) = AE(X) + B
ΣY = AΣX At
2.5.2 Indépendence
Définition 20. On dit que les variables aléatoires X1 , . . . , Xd sont indépendantes
si la densité conjointe vérifie
d
Y
f (x1 , . . . , xd ) = fXi (xi ),
i=1
où fXi est la densité de la variable aléatoire Xi .
Théorème 4. Si X1 , . . . , Xd sont indépendantes alors

1. E(X1 . . . Xd ) = E(X1 ) . . . E(Xd )
2. ΣX = diag(var(X1 ), . . . , var(Xd ))
2.5.3 Couple de variables aléatoires

Définition 21. Le coefficient de corrélation linéaire ρ est défini par
cov(X, Y )
ρ= p p .
var(X) var(Y )

Nous avons −1 ≤ ρ ≤ 1. Pour deux variables indépendantes ρ = 0. La

recirpoque est en générale inexacte. Deux exceptions où ”non-corrélation”
et ”indépendance” sont équivalents sont les couples gaussiens (X, Y ) et les
couples de variables de Bernouilli. Les valeurs limites −1 et 1 sont atteintes si
et seulement si il existe une relation linéaire entre Y et X.
Définition 22. Soient X et Y deux variables aléatoires discrètes. La loi condi-
tionnelle de Y sachant X = x est définie par
P(X = x, Y = y)
P(Y = y/X = x) = .
P(X = x)
Définition 23. Soient X et Y deux variables aléatoires discrètes. On appelle
espérance de Y sachant que X = x la quantité définie par
X
E(Y /X = x) = yP(Y = y/X = x).
y
Définition 24. Si le couple (X, Y ) est à valeur dans R2 et possède une densité
f (x, y), les densités conditionnelles existent et sont données par
f (x, y) f (x, y)
fY /X=x (y) = fX/Y =y (x) = .
fX (x) fY (y)
Définition 25. L’espérance conditionnelle de Y sachant X = x est définie par
Z +∞
E(Y /X = x) = yfY /X=x (y)dy.
−∞
Remarque 4. Lorsque l’une des variables est discrète et l’autre possède une
densité il suffit de remplacer là où c’est nécessaire les intégrales par des sommes
finies et les densités par des probabilités ponctuelles.
Théorème 5. de l’expérance totale.
E(E(Y /X)) = E(Y ).

Propriété 8. Si X et Y sont indépendantes et g et h sont continues alors
g(X) et h(Y ) sont indépendantes.
2.5.4 Vecteurs gaussiens

Définition 26. Un vecteur aléatoire (X1 , . . . , Xn ) est appelé vecteur gaussien
si toute combinaison linéaire de ses coordonnées est gaussienne (ou normale).
Proposition 5. Si X1 , . . . , Xn sont des variables gaussiennes indépendantes,
alors le vecteur aléatoire (X1 , . . . , Xn ) est gaussien.
18
ENSEA-ITS2 19
Proposition 6. Si (X1 , X2 ) est un vecteur gaussien avec cov(X1 , X2 ) = 0,

alors X1 et X2 sont indépendantes.
Si les coordonnéees du vecteur aléatoire X = (X1 , . . . , Xd ) sont indépendantes

et de carré intégrable, alors sa matrice de covariance est diagonale car
∀i 6= j E(Xi Xj ) = E(Xi )E(Xj ) i.e. Cov(Xi , Xj ) = 0.
Dans le cas où X est un vecteur gaussien, le caractère diagonal de la matrice

de covariance s’avère une condition suffisante d’indépendance. Cela vient du
fait que la loi d’un vecteur gaussien ne dépend que de son espérance et de sa
matrice de covariance.
Proposition 7. Les coordonnées d’un vecteur gaussien X = (X1 , . . . , Xd )

sont indépendantes si et seulement si sa matrice de covariance V ar(X) est
diagonale.
Définition 27. Si det(ΣX ) = 0, on dit que X est dit dégénéré.

Si det(ΣX ) > 0, on dit que X est dit non-dégénéré.
Proposition 8. Si X ,→ N (m, ΣX ) est non-dégénéré alors

1 1 t −1
fX (x) = dp exp − (x − m) ΣX (x − m) 1IRd (x).
(2π) 2 det(ΣX ) 2
Définition 28. 1. Loi du Chi-deux à n dégrés de liberté χ2 (n), où

∗
n∈N
Si X1 , . . . , Xn sont des variables aléatoires indépendantes identiquement
distribuées telle que Xi ,→ N (0, 1), alors
n
X
Y = Xi2 ,→ χ2 (n)
i=1
a pour densité
1 − x2 n
fY (y) = n/2 n e x 2 −1 1IR+ (x).
2 Γ( 2 )
2. Loi de Fisher-Snedecor Fn,m

Soient X et Y deux variable aléatoires indépendantes suivant respective-
ment les lois χ2 (n) et χ2 (m). La variable aléatoire Fn,m = YX/n
/m
suit une
loi de Fisher-Snedecor à n et m dégrés de liberté.

3. Loi de Student
Soient X et Y deux variables aléatoires indépendantes suivant respecti-
vement N (0, 1) et χ2 (n).
On appelle loi de Student n dégrés de liberté la loi suivie par le rapport
X
Tn = q .
Y
n
Théorème 6. Si X est un vecteur gaussien de dimension n (N (m, Σ)), la

variable aléatoire Y = (X − m)t Σ−1 (X − m) ,→ χ2 (n)
Théorème 7. Soient X et Y deux variables aléatoires indépendante suivant
respectivement deux lois du χ2 (n) et χ2 (m). La variable aléatoire X + Y suit
une loi χ2 (n + m).
Théorème 8. (de Cochran).
Soit X1 , . . . , xn des variables aléatoires indépendantes identiquement distribuées
suivant la loi N (µ, σ 2 ) avec σ 2 > 0. Posons
n n
1X 1 X
Xn = Xi , Sn2 = (Xi − X n )2 .
n i=1 n − 1 i=1
Alors, nous avons

• X n et Sn2 sont indépendantes.
σ2

• X n ,→ N µ,
n
(n − 1)Sn2
• ,→ χ2 (n − 1).
σ2
√
n(X n − µ)
• ,→ T (n − 1).
σ
2.6 Fonction caractéristique

Définition 29. Si X est une variable aléatoires à valeurs dans Rd , sa fonction
caractéristique est φX : Rd −→ C défini par
φX (u) = E(ei<u,X> )
où < u, X > désigne le produit scalaire de X = (X1 , . . . , Xd )t et u = (u1 , . . . , ud )t :

d
X
< u, X >= ui Xi
i=1
20
ENSEA-ITS2 21
Propriété 9. 1. La fonction caracteristique caracterise la loi de X

2. φX est bornée : ∀u ∈ Rd , |φX (u)| ≤ 1, φX (0) = 1.
3. φX est continue
4. φX (−u) = φ̄X (u)
5. Si X1 , . . . , Xd sont indépendantes alors
d
Y
φPd Xi (u) = φXi (u).
i=1
i=1
Qd
6. X1 , . . . , Xd sont indépendantes ⇐⇒ φ(X1 ,...,Xd )t (u) = i=1 φXi (u).
7. X est une variable à valeurs dans Rd et A une matrice à p lignes et d
colonnes, B un vecteur de dimension d, alors
φAX+B (u) = ei<u,B> φX (At .u), ∀u ∈ Rd .
8. Si E(|X|k ) < ∞, φX est k fois continûment differentiable sur Rd et
∂ k φX (t)
= ik E(ei<t,X> Xi1 Xi2 . . . Xik ).
∂xi1 ∂xi2 . . . ∂xik
Remarque 5. (Cas d = 1)
Si X est une variable aléatoire réeele discrète,
X
φX (u) = eiux P (X = x).
x∈X(Ω)
Si X est une variable aléatoire réelle à densité,

Z ∞
φX (u) = eixu fX (x)dx.
−∞
2.7 Convergence et Théorèmes limites

2.7.1 Convergence
Soit (Xn )n∈N une suite de variables aléatoires sur (Ω, A, P).
Définition 30. On dit que (Xn ) converge en probabilité vers X et on note
P
Xn −→ X si
∀ > 0, P {|Xn − X| ≥ ε} −→ 0 quand n → +∞.

L
Définition 31. On dit que (Xn ) converge en loi vers X et on note Xn −→ X

⇐⇒ pour toute fonction continue et bornée, nous avons E(g(Xn )) −→ E(g(X))

⇐⇒ FXn (x) −→ FX (x) ∀x ∈ CFX = {ensemble des points de continuité de FX }
Théorème 9. La suite (Xn ) de variables aléatoires à valeurs dans Rd converge
en loi vers la variable aléatoire X à valeurs dans Rd si et seulement si la
fonction caractéristique de Xn converge ponctuellement vers la fonction ca-
ractéristique de X i.e.
L
Xn → X ⇐⇒ ∀u ∈ Rd , φXn (u) → φX (u).
Proposition 9. Si la suite (Xn ) converge en probabilité vers X alors elle

converge en loi vers X.
Remarque 6. Les définitions de la convergence en loi et en probabilité se
généralisent facilement pour les vecteurs aléatoires de dimension d > 1. Pour
la convergence en probabilité par exemple, on remplacera
lim P(|Xn − X| > ε) = 0

n→+∞
par
lim P(kXn − Xk > ε) = 0
n→+∞
où k · k est une norme quelconque sur Rd puisque toutes les normes sont
équivalentes sur Rd .
Théorème 10. Soit g est une fonction continue. Alors
P P
- Xn −→ X =⇒ g(Xn ) −→ g(X).
L L
- Xn −→ X =⇒ g(Xn ) −→ g(X).
2.7.2 Théorèmes limites

Nous énoncerons deux théorèmes limites
• la loi forte des grands nombres qui énonce la convergence de la moyenne
empirique d’une suite de variables aléatoires indépendantes, identique-
ment distribuées et intégrables
• le théorème central limite qui indique à quelle vitesse cette convergence
a lieu sous l’hypothèse supplémentaire que les variables sont de carré
intégrables.
Théorème 11. (Loi des grands nombres)
X1 , . . . , Xn i.i.d. telles que E(X1 ) = µ < +∞. Alors, nous avons
P
X̄n −→ µ.
22
ENSEA-ITS2 23
Théorème 12. (Théorème Central limite)

X1 , . . . , Xn i.i.d. telles que E(X1 ) = µ < +∞ et σ 2 = var(X1 ) > 0. Alors,
nous avons
√ (X̄n − µ) L
n −→ N (0, 1).
σ
L
- Formellement, nous pouvons écrire X n ' µ + √σ Y où Y ,→ N (0, 1).
n
L 2
- On déduit alors que X n ' N (µ, σn ).
2.8 Lois usuelles

2.8.1 Lois discrètes
Loi uniforme sur {1, . . . , N }, N ∈ N∗ , UN
(
X(Ω) = {1, . . . , N }
X v UN ⇐⇒
P (X = k) = N1 , ∀k ∈ X(Ω)
n+1
E(X) =
2
et
n2 − 1
var(X) = .
12
Exemple 7. Soit X le résultat d’un lancer de dé non truqué : alors ∀i ∈
X(Ω) = {1, 2, 3, 4, 5, 6}, P (X = i) = 16 ; X suit la loi uniforme U6 .
Loi de Bernouilli B(1, p) p ∈]0, 1[

(
X(Ω) = {0, 1}
X v B(1, p) ⇐⇒
P (X = 1) = p, P (X = 0) = 1 − p
E(X) = p
var(X) = p(1 − p).
La fonction caractéristique est
φX (t) = (1 − p + peit ).
Cette variable modélise l’issue d’une expérience où l’on ne s’intéresse qu’au
”succès” ou à l’”echec” de l’expérience.
Exemple 8. Lancer d’une pièce de monnaie (pile ou face), qualité d’un produit
(bon ou defectueux), sondage elctoral (pour ou contre).

Loi binomiale B(n, p) n ∈ N∗ p ∈]0, 1[

On réalise n fois successivement et d’une manière indépendante une expérience
aléatoire de Bernouilli. La variable aléatoire égale au nombre de succès obtenus
au cours des n épreuves suit la loi binomiale B(n, p).
(
X(Ω) = {0, . . . , n}
X v B(n, p) ⇐⇒
P (X = k) = Cnk pk (1 − p)n−k , ∀k ∈ X(Ω)
E(X) = np
var(X) = np(1 − p).
φX (t) = (1 − p + peit )n .
Cette loi modélise une succession de ”succès” et d’”échecs”, p étant la proba-

bilité du succès.
Propriété 10. Si X1 v B(n1 , p) et X2 v B(n2 , p) avec X1 et X2 indépendantes

alors X1 + X2 v B(n1 + n2 , p).
Loi hypergéométrique H(N, n, p)

Soit une population de N individus parmi lesquels une proportion p (donc
N p individus) possède un caractère. Il s’agit par exemple de la proportion
des individus qui souffrent d’une maladie, ou de la proportion des pièces
défectueuses dans un grand lot de fabrication. On prélève un échantillon de
n individus parmi cette population (le tirage pouvant s’effectuer d’un seul
coup ou au fur et à mesure mais sans remise). On note X la variable aléatoire
égale au nombre d’individus de l’échantillon possédant le caractère envisagé.
La loi de X est appelée loi hypergéométrique de paramètre N , n, p et notée
H(N, n, p) :

X(Ω) = {max(0, n − (1 − p)N ), min(N p, n)}
X v H(N, n, p) ⇐⇒ k n−k .
P (X = k) = CN p C(1−p)N , ∀k ∈ X(Ω)
CnN
E(X) = np.
Propriété 11. Quand N → +∞ avec n et p fixés, alors H(N, n, p) converge

en loi vers B(n, p) (En pratique Nn < 1).
24
ENSEA-ITS2 25
Loi géométrique G(p), p ∈]0, 1[

C’est la loi du nombre d’essais (ou épreuves) nécessaires pour faire ap-
paraı̂tre un évènement de probabilité p. C’est le cas de nombre d’examens ne-
cessaires pour réussir une épreuve en supposant que la probabilité de réussir à
chaque passage de l’examen est de type p et que les résultats sont indépendants
d’un examen vers un autre. Soit la variable X égale le nombre d’essais avant
d’obtenir le premier succès :
(
X(Ω) = N∗
X v G(p) ⇐⇒ .
P (X = k) = p(1 − p)k−1 , ∀k ∈ X(Ω)
1
E(X) =
p
1−p
var(X) = .
p2
Exemple 9. On effectue des lancers indépendants d’une pièce, dont la proba-
bilité d’obtenir face est p, jusqu’à l’obtention d’un ”face”. On note X la v.a.r
égale au nombre de lancers nécessaires. On dit également que X est le temps
d’attente du premier ”face”.
Loi de Poisson P(λ) λ > 0

Pour modéliser des phénomènes rares (nombre d’accidents d’avion, nombre
d’appels téléphoniques pendant un certain temps, nombre de pièces défectueuses
dans une commande importante, nombre de suicides par an dans un pays
donné...), on utilise la loi de Poisson (de paramètre λ > 0) :
(
X(Ω) = N
X v P(λ) ⇐⇒ k e−λ
P (X = k) = λ k! , ∀k ∈ X(Ω)
E(X) = var(X) = λ.
it −1)
φX (t) = eλ(e .
Propriété 12. Si X1 et X2 sont deux variables aléatoires de Poisson P(λ1 ),
P(λ2 ) respectivement, indépendantes, alors X1 + X2 v P(λ1 + λ2 ). (Ceci est
vrai pour une somme finie quelconque de v.a de Poisson indépendantes)
Propriété 13. Soit X une variable aléatoire suivant une loi de Poisson P(λ).
X −λ
Alors la variable aléatoire √ converge en loi vers la loi normale centrée
λ
réduite N (0, 1), lorsque λ tend vers l’infini.
Propriété 14. X v B(n, p). Quand n → +∞ et p → 0 tel que np → λ. Alors
X converge en loi vers P(λ).

2.8.2 Lois à densité

Loi uniforme
On dit que la v.a.r continue suit une loi uniforme sur l’intervalle [a, b] si sa
fonction densité est (
1
si x ∈ [a, b]
fX (x) = b−a
0 sinon
b+a
E(X) =
2
(b − a)2
var(X) = .
2
Si a = −b, la fonction caractéristique est
sin at
φX (t) = .
at
Loi normale
On dit que X suit une loi normale de paramètre (m, σ 2 ) avec m ∈ R,
σ 2 ∈ +∗ si sa densité de probabilité est
1 1 x − m 2
fX (x) √ exp{− }, x ∈ R.
σ 2π 2 σ
t2 σ 2

φX (t) = exp itm − .
2
Propriété 15. (i) X v N (m, σ 2 ) alors E(X) = m et var(X) = σ 2 .

X−m
(ii) X v N (m, σ 2 ) si et seulement si la v.a.r σ
v N (0, 1).
Loi gamma γ(a, ρ), a > 0, ρ > 0

X suit une loi gamma de paramètre a et ρ si sa densité
ρa −ρx a−1
f (x) = e x 1IR+ (x)
Γ(a)
où Z ∞
Γ(a) = e−x xa−1 dx.
0
a
E(X) =
ρ
26
ENSEA-ITS2 27
a
var(X) = 2 .
ρ
1
φX (t) =
(1 − itρ )a
Proposition 10. Soient X et Y deux variables aléatoires indépendantes sui-

vant respectivement γ(a1 , ρ) et γ(a2 , ρ). Alors X + Y suit une loi γ(a1 + a2 , ρ).
Loi exponentielle
Si a = 1 la loi γ(1, ρ) = E(ρ) est appelé loi exponentielle de paramètre
ρ > 0 et a pour densité de probabilité
f (x) = ρe−ρx 1IR+ (x)

λ
φX (t) = .
λ − it
Cette loi de probabilité est fortement utilisée pour décrire les durées de vie
(par exemple la durée de vie des transistors electroniques).
2.9 Famille exponentielle

Définition 32. Une famille de lois de probabilité {Pθ , θ ∈ Θ} est dite expo-
nentielle s’il existe des fonctions αj (θ), Tj (x) et h(x) > 0 telles que la densité
de probabilité vérifie
( k )
dPθ (x) X
f (x, θ) = = C(θ)h(x) exp αj (θ)Tj (x) .
dµ j=1
Exemple 10.

θ
Pθ ∼ B(θ, 1) ⇒ f (x, θ) = (1 − θ) exp x ln
1−θ

1 1 2
Pθ ∼ N (θ, 1) ⇒ f (x, θ) = √ exp − (x − θ)
2π 2

28
Chapitre 3
Problèmes et outils statistiques
L’objectif de la statistique inférentielle est de fournir des résultats relatifs à une

population à partir de mesures statistiques réalisées sur des échantillons. On part
de l’échantillon pour en déduire une meilleure connaissance de la population.
3.1 Exemple
Nous supposons que l’interlocuteur du statisticien est un industriel, respon-
sable d’une machine qui produit des pièces classées soit ”bonnes”, codé par 0, soit
”défectueuses”, codé par 1. Le nombre de pièces fabriquées étant gigantesque et
l’examen de chaque pièce étant relativement coûteux, il ne peut évaluer la qualité
de sa production que sur un lot de taille n faible au regard de la production. On
observe alors ce lot de n pièces et on note (x1 , . . . , xn ) les observations. En se basant
sur ce lot, le statisticien cherche le renseignement le plus utile à l’industriel en vue
de prendre une décision (mettre en vente la production ou non, réparer ou non la
machine, etc).
• Modélisation : on suppose que xi est la réalisation d’une variable aléatoire
Xi de loi de Bernouilli B(1, p), p ∈]0, 1[ ; nous faisons les hypothèses suivantes :
- X1 , . . . , Xn sont indépendantes : on admet que des petites variations
aléatoires pouvant influer sur la qualité des pièces ne se repercutent pas
d’une pièce à une autre.
- X1 , . . . , Xn sont identiquement distribuées : on admet que la pro-
duction a été stable durant la période d’observation ; cette stabilité est
caractérisée par la constance de la probabilité p pour chaque pièce pro-
duite d’être défectueuse.
L’espace des observations est X n = {0, 1}n . Pour tout (x1 , . . . , xn ) ∈ X n ,
nous avons
n
Y Pn Pn
xi
P(X1 = x1 , . . . , Xn = xn ) = P(Xi = xi ) = p i=1 (1 − p)n− i=1 xi
i=1
29
où ni=1 xi est le nombre de pièces défectueuses.

P
Le modèle statistique est
({0, 1}n , P ({0, 1}n ) , {B(1, p), p ∈ [0, 1]}) .
• Une fois le modèle construit, il est temps de s’interroger sur ses possiblités :
quel type d’information le statisticien peut-il fournir à l’industriel ? Quelle
procédure de décision le statisticien peut-il envisager ? Nous examinerons les
problèmes suivants.
- Estimation ponctuelle : proposer une valeur pour p.
- Estimation par intervalle : proposer un intervalle [p− , p+ ] susceptible
de contenir la valeur inconnue p avec une certaine probabilité.
- Test d’hypothèses : soit un certain seuil p0 ; ce qui intéresse l’indus-
triel, au vu des données, c’est de savoir s’il doit considérer que p ≤ p0
(et continuer la production) ou que p > p0 (et se resoudre à arrêter pour
régler ou réparer la machine).
3.2 Echantillonnage
3.2.1 Population taille finie
Soit E un ensemble, que nous appelerons population mère, contenant un nombre
fini N d’éléments. Nous supposerons que l’on veut étudier une propriété X de cette
population. L’objectif serait donc de déterminer les principales caractéristiques de la
loi de X. S’il est possible d’effectuer un recensement, c’est-à-dire interroger ou ins-
pecter tous les éléments de E les caractéristiques de X seront parfaitement connues.
Une telle situation est très rare, et l’étude de X sera fréquemment réalisée à partir
d’observations partielles de X, ceci pour des considérations de coût, de rapidité de
collecte et d’exploitation. Soit En un échantillon de E de taille n. En est tout simple-
ment un sous-ensemble quelconque de E de n éléments. Il est clair qu’il existe dans
ce cas-là CN n différentes possibilités pour E . Nous supposons ici avoir procédé à la
n
selection de l’échantillon En de manière aleatoire. On est alors dans le cas d’un tirage
aléatoire. Tout calcul statistique sera effectué à partir des valeurs de la propriéte
X sur l’échantillon choisi aleatoirement En . On note X1 , . . . , Xn les valeurs de X
correspondant aux éléments de En . Ce sont des variables aléatoires car En a été tiré
aléatoirement.
De nombreuses méthodes de tirage aléatoire sont possibles. On étudie ici les
deux méthodes suivantes :
- Tirage avec remise : on tire au hasard l’échantillon unité par unité ; lorsqu’un
élément est tiré, il n’est pas éliminé. Au contraire, il est remis dans la popula-
tion et peut être tiré ultérieurement. De fait, le même élément peut participer
au tirage plusieurs fois. Ce mode de tirage est appelé tirage de Bernouilli
- Tirage sans remise : l’échantillon est obtenu par le tirage aléatoire des unités,
mais chacune d’entre elles ne peut être tirée qu’une seule fois. Cette méthode
d’échantillonnage porte aussi le nom de tirage exhaustif.
30
ENSEA-ITS2 31
3.2.2 Expériences renouvelables

Les modèles de population finie et de tirage aléatoire ne couvrent pas toutes les
situations donnant matière à la modélisation statistique. Prenons le cas par exemple
de la variable X égale au retard mesuré en minutes que fait le bus d’une ligne
quelconque pour arriver à un certain arrêt. Il est clair que X est une variable aléatoire
puisqu’on ne peut exactement prédire le retard (cela dépend de différents facteurs).
En revanche, il n’est pas du tout évident comment la notion de population finie et
d’échantillonnage aléatoire s’appliquerait ici. On parle plutôt d’expérience que l’on
peut renouveler théoriquement autant de fois que l’on veut. Dans le cas d’expériences
renouvelables nous supposerons que celles-ci sont réalisées de la même manière,
indépendamment les unes des autres. Dans le cas d’une expérience modélisée par la
variable X, alors X1 correspond à la propriété X mesurée sur la première expérience.
L’expérience est renouvelée n fois afin d’obtenir l’échantillon (X1 , . . . , Xn ) puis le
statisticien infère à partir de ces données pour déduire des caractéristiques sur X.
Ici la vraie loi de X reste inconnu pour toute taille de population. Plus n est grand
et plus l’inférence va être bonne.
3.2.3 Echantillonnage aléatoire

Définition 33. Un échantillonnage représentatif est un échantillon qui reproduit
les caractéristiques d’une population de manière à ce que les conclusions obtenues
avec cet échantillon se généralisent à la population.
Les méthodes d’échantillonnage se divisent généralement en deux types :

- l’échantillonnage aléatoire
- l’échantillonnage non aléatoire.
L’inférence statistique est basée sur un échantillonnage aléatoire. Les unités sta-
tistiques sont désignées par le hasard et ont toute la même chance d’être choisies
d’une liste connue à priori de la population appelée base de sondage. Les techniques
d’échantillonnage aléatoire ont aussi l’avantage de permettre de calculer la marge
d’erreur échantillonnale. Il sera donc possible de généraliser les résultats à l’ensemble
de la population tout en prenant un risque calculé.
Il existe 4 techniques d’échantillonnage aléatoire différentes.
1. L’échantillonnage aléatoire simple : tous les éléments de la population ont la
même probabilité d’être prélevés indépendamment l’un de l’autre.
Exemple 11. On a une liste d’élèves comprenant K = 36 élèves (21 filles et
15 garçons) et on désire en choisir k = 12 élèves de façon aléatoire simple.
(a) On numérote les élèves de 1 à 36

(b) On selectionne de façon aléatoire 12 numéros entre 1 et 36 par exemple
16, 22, 30, 12, 29, 20, 13, 18, 26, 17, 35 et 8.
(c) On constitue notre échantillon en retenant l’élève correspondant à chaque
numéro.

2. L’échantillonnage aléatoire systématique est une technique où les unités sta-
tistiques sont choisis à intervalle régulier dans la base de sondage.
(a) On numérote les élèves de 1 à 36
(b) On détermine le pas de sondage, désigné par a, donné par :
K 36
a= =
k 12
ce qui amène à choisir comme pas de sondage l’entier a = 3.
(c) Le pas de sondage étant égal à 3, on détermine le point de départ, désigné
par d, en choisissant au hasard un nombre entre 1 et 36, ce qui donnerait
par exemple 5.
(d) On constitue notre échantillon en retenant l’élève correspondant à chaque
numéro désigné par :
5 8 11 14 17 20 23 26 29 32 35 2.
3. L’échantillonnage aléatoire stratifié suppose que la population peut être divisé

en groupes distincts tels que le sexe, l’âge, l’ethnie, etc... Ces différents groupes
sont appelés des strates.
Définition 34. (strate). sous-ensemble de la population ayant des caractéristiques
communes, donc des sous-ensembles homogènes. Par exemple, on peut classer
des individus par leur taille, regrouper des pommes par leur sorte ou regrouper
des élèves par programme.
La population généralement hétérogène est subdivisée en strate. De chaque
strate, on prélève un échantillon aléatoire simple. Cette méthode consiste à
prélever un échantillon ayant la même composition que la population ce qui
crée un échantillon représentatif, mais cette méthode est très coûteuse.
(a) La variable à prendre en considération est le sexe, d’où les strates : Filles
et Garçons.
(b) On numérote séparément les filles et les garçons. Pour pouvoir distinguer
les deux strates, on fait précéder du code F- le numéro associé à chacune
des filles et du code G- le numéro associé à chacun des garçons :
Filles : F1 F2 ··· F21
Garçons : G1 G2 ··· G15
(c) Le nombre d’élèves de chaque strate S, c’est-à-dire de chaque sexe qui
sera requis dans l’échantillon, est donné par :
KS
kS = ×k
K
32
ENSEA-ITS2 33
- kS est le nombre entier (arrondi au besoin) d’éléments de la strate

S requis dans l’échantillon ;
- k est la taille de l’échantillon désiré ;
- KS le nombre d’éléments constituant la strate S dans la base de
sondage
- K est la taille de la base de sondage
Puisque’on a KF = 21 filles dans la base de sondage sur K = 36 élèves
et qu’on désire un échantillon de k = 12 élèves, le nombre de filles requis
dans l’échantillon est donné par :
21
kF = × 12 = 7 filles.
36
On aura donc 12 élèves−7 filles=5 garçons dans l’échantillon, ce qui
correspond à
21
kG = × 12 = 5 garçons.
36
(d) On sélectionne de façon aléatoire 7 filles et 5 garçons ; on peut procéder
de façon simple ou systématique : (l’un ou l’autre des modes de sélection
est acceptable).
i. Sélection aléatoire simple
Filles : on choisit au hasard 7 numéros différents entre 1 et 21, ce
qui donne 1, 5, 15, 21, 11, 13 et 9.
Garçons : on choisit au hasard 5 numéros différents entre 1 et 15,
ce qui donne 11, 10, 2, 15 et 7.
Nous obtenons l’échantillon
F1 , F5 , F15 , F21 , F11 , F13 , F9 , G11 , G10 , G2 , G15 G7
ii. Sélection aléatoire systématique
Filles :
Le pas de sondage a est donné par
21
a= =3
7
On choisit au hasard le point de départ d entre 1 et 21, par exemple
1. On a donc :
1 4 7 10 13 16 19
Garçons :
Le pas de sondage a est donné par
15
a= =3
3
On choisit au hasard le point de départ entre 1 et 15, par exemple
3.
On a donc
3 6 9 12 15

Nous obtenons l’échantillon
F1 F4 F7 F10 F13 F16 F19 G3 G6 G9 G12 G15
4. L’échantillonnage aléatoire par grappes consiste à choisir des groupes (toute

une grappe de raisin) plutôt que de choisir des unités statistiques isolées(un
seul raisin).
Définition 35. (grappe). Une grappe est un sous-ensemble non homogènes
de la population défini selon la proximité. Il est plus facile de faire une liste des
groupes et de choisir au hasard parmi ces dizaines de groupes et d’interroger
toutes les unités statistiques du groupe. Par exemple, un groupe d’élèves fai-
sant partie de la même classe, des habitants du même immeuble, des habitants
du même quartier ou même des équipes sportives d’une ligne amateur
Exemple 14. On a une liste de k = 9 équipes, c’est à dire 9 grappes de 4
élèves, et on désire constituer un échantillon de n = 12 élèves.
(a) On numérote de 1 à k, c’est à dire de 1 à 9 les différentes équipes consti-
tuant les grappes, ce qui donne :
g1 , g2 , g3 , g4 , g5 , g6 , g7 , g8 , g9 .
(b) Le nombre N de grappes requis est donné par
n
N=
nombre d’unités statistiques par grappes
d’où
12
N= =3 grappes.
4
(c) On selectionne de façon aléatoire 3 grappes parmi 12. on peut procéder
de façon simple ou systématique : (l’un ou l’autre des modes de sélection
est acceptable).
(d) On constitue l’échantillon en sélectionnant les élèves faisant partie des
grappes selectionnées.
3.2.4 Modèles d’échantillonnage

Afin de donner à l’échantillonnage un cadre probabiliste général, on utilise la
définition suivante.
Définition 36. Soit une propriété définie par la variable aléatoire X, application
de (Ω, A, P) −→ (X , B, PX ), B étant ici la tribu des boréliens, telle que
∀B ∈ B X −1 (B) ∈ A.
Le modèle d’échantillonnage de taille n est l’espace produit
(X , B, P)n = (X n , Bn , PnX )
où
34
ENSEA-ITS2 35
- Xn = |X × .{z
. . × X} est le produit cartésien de l’espace X
n fois
- Bn est la tribu produit des événements de X n
- PnX est la loi ou la distribution jointe des observations.
On notera Xi la ième observation, variable aléatoire de même loi que X et l’ensemble
des observations (X1 , . . . , Xn ) est l’échantillon aléatoire.
Définition 37. Soit (X1 , . . . , Xn ) des variables aléatoires indépendantes identique-
ment distribuées (i.i.d) de loi Pθ admettant la densité f (xi , θ) avec θ ∈ Θ. Alors le
modèle statistique associé à X n = (X1 , X2 , . . . , Xn ) admet comme densité
n
Y
f (x1 , . . . , xn , θ) = f (xi , θ).
i=1
Soit X une variable aléatoire de moyenne m et de variance σ 2 et X n = (X1 , . . . , Xn )

un échantillon de taille n issu de la loi de X.
- La moyenne empirique X̄n d’un échantillon de taille n est définie par
X1 + . . . + Xn
X̄n = .
n
2
E(X̄n ) = m et V ar(X̄n ) = σn .
- La variance empirique est définie par
n
1X
S02 = (Xi − X̄n )2 .
n
i=1
n−1 2
E(S02 ) =σ .
n
- La variance empirique modifiée est définie par
n
1 X
Sn2 = (Xi − X̄n )2 .
n−1
i=1
E(Sn2 ) = σ2.
Exercice 1. Montrer que :
n
Sn2 = S2
n−1 0
Resultats importants :
• Cas σ 2 est connue : Théorème central limite
√
n(X̄n − m)
−→ N (0, 1) (en loi) quand n −→ +∞.
σ
En pratique, nous avons
√
n(X̄n − m)
≈ N (0, 1) n ≥ 30.
σ
Pour n ≤ 30, le résultat reste vrai seulement si X suit une loi normale.

• Cas σ 2 est inconnue :

- si X suit une loi normale N (m, σ 2 ) alors
√
n(X̄n − m)
,→ T (n−1) loi de Student à n − 1 dégrés de liberté
Sn
De plus,
T (n) −→ N (0, 1) en loi quand n → +∞
En pratique pour n ≥ 30, T (n) ≈ N (0, 1).

√
n(X̄n − m)
- si X ne suit pas une loi normale la loi suivie par n’est
Sn
pas connue.
• Convergence de la loi binomiale vers la loi normale :
a) de la loi binomiale vers la loi de Poisson :



 B(n, p)

n −→ ∞
Si X suit , alors la loi de X se rapproche de la loi de


 p −→ 0

np −→ λ
Poisson P(λ).
En pratique, si n > 50 et p < 0.1, on peut remplacer B(n, p) par
P(np).
b) de la loi binomiale vers la loi normale :
Si X suit B(n, p) quand n −→ ∞,
X − np
p −→ N (0, 1)
np(1 − p)
En pratique, si np > 18 et p assez proche de 0.5, on peut remplacer

la loi de X par N (np, np(1 − p)).
c) de la loi de Poisson vers la loi normale :
Si X suit une loi de Poisson P(λ),
X −λ
√ −→ N (0, 1) λ −→ ∞
λ
En pratique, si λ > 18, on peut remplacer la loi de X par N (λ, λ).
• Loi des grands nombres
X̄n −→ m en probabilité n −→ +∞.
c’est à dire que pour tout ε > 0,

lim P |X̄n − m| ≥ ε = 0.
n→+∞
36
ENSEA-ITS2 37
3.3 Modélisation statistique

En statistique, PX est inconnue. On suppose que PX appartient à une famille
connue P de lois de probabilité sur (E, B). Pour décrire P, il est pratique de définir
une paramétrisation P = {Pθ , θ ∈ Θ}.
Définition 38. On appelle modèle statistique la donnée du triplet (E, B, {Pθ , θ ∈

Θ}) où
- (E, B) est un espace probabilisable
- Θ est l’espace des paramètres
- Pθ , θ ∈ Θ sont des lois de probabilité sur (E, B).
Il existe trois principaux types de modèles statistiques :

- le modèle paramétrique : Θ ⊂ Rd ; la loi de probabilité à l’origine des
observations est entièrement déterminée à des paramètres inconnus près ;
- le modèle non paramétrique : Θ est un espace fonctionnel (d est infini).
Contrairement au cas précédent, nous n’avons aucune information sur la forme
de Pθ ;
- le modèle semi-paramétrique : la loi n’est pas spécifié (comme dans le cas
précédent), mais les problèmes portent sur un vecteur de dimension finie.
Exemple 15. 1. Modèle d’échantillonnage (voir section précédente).

2. Modèle linéaire simple : considérons le revenu X et les depenses Y d’un
menage. Au mois i, on observe (Yi , Xi ) où
Yi = Xi β + α + i
où α est le niveau minimum de dépenses (dépenses necessaires quelque soit

le revenu), Xi β sont les dépenses fonction du revenu ; les dépenses prevues
Xi β + α sont entachées d’un aléa εi représentant les dépenses imprévues. Xi
peut être aléatoire ou non. Si Xi est aléatoire, un modèle linéaire pour lequel
- E(Yi /Xi = xi ) = α + βxi
- var(Yi /Xi = xi ) = σ 2
- cov(Yi , Yj ) = 0 pour i 6= j
est appelé modèle linéaire conditionnel.
On suppose que ∀θ ∈ Θ, Pθ admet une densité de probabilité f (x, θ). L’intérêt

consiste à travailler sur la densité des lois plutôt que sur les lois elles-mêmes.
Remarque 7. - Si X est une variable discrète alors
f (x, θ) = Pθ (X = x) ∀x ∈ X(Ω)
- Si X est une variable aléatoire continue alors f (x, θ) est la densité de proba-
bilité de X.

Définition 39. Le support de Pθ est l’ensemble
supp(Pθ ) = {x : f (x, θ) > 0} .
Définition 40. Si toutes les lois Pθ , θ ∈ Θ ont un support commun alors le modèle
est dit homogène. Cela signifie que pour chaque θ ∈ Θ, {x : f (x, θ) > 0} ne dépend
pas de θ.
Définition 41. Le modèle statistique (E, B, {Pθ , θ ∈ Θ}) est identifiable lorsque
l’application θ −→ Pθ définie dans Θ à valeurs dans P est injective.i.e
0 0
∀θ, θ ∈ Θ, Pθ = Pθ0 =⇒ θ = θ .
ou
0 0 0
∀θ, θ ∈ Θ, f (x, θ) = f (x, θ ) =⇒ θ = θ .
Définition 42. On appelle statistique définie sur (E, B, {Pθ , θ ∈ Θ}) une applica-
tion
S : (E, B, {Pθ , θ ∈ Θ}) −→ (V, V)
où (V, V) est un espace probabilisable.
Remarque 8. S ne dépend pas du paramètre θ.

Etant donné le modèle statistique (E, B, {Pθ , θ ∈ Θ}), nous considérerons trois
types de problèmes :
- Estimation ponctuelle : il s’agit de deviner la valeur de θ en se basant sur
l’observation X ∼ Pθ . On cherche donc une bonne adéquation de θ par une
fonction de l’observation X (indépendante de θ).
- Intervalle de confiance : ici, on veut connaı̂tre avec une certaine assurance
un endroit où se trouve la ”vraie” valeur du paramètre inconnu θ en se basant
sur l’observation X.
- Test d’hypothèses : l’objectif est de décider si θ appartient à une partie
Θ0 ⊂ Θ ou à Θ1 ⊂ Θ̄0 = Θ/Θ0 = {θ ∈ Θ/θ ∈ / Θ0 }.
3.4 Théorie de la décision

L’objectif général des études inférentielles est de fournir une décision : on observe
un phénomène dont la loi dépend d’un paramètre θ ∈ Θ, inconnu, afin de prendre
une décision d. On dispose du modèle paramétrique (E, B, {Pθ , θ ∈ Θ}).
Définition 43. On appelle espace des décisions, l’ensemble des décisions que
l’on souhaite effectuer. Soit D l’espace des décisions.
Définition 44. Toute fonction
l : D × Θ −→ R+
est appelée fonction de perte.
38
ENSEA-ITS2 39
Remarque 9. l(d, θ) est la perte correspondant au choix de la décision d alors que

le paramètre inconnu a la valeur θ. Cette perte est nulle lorsque d est la décision la
meilleure qui soit pour la valeur θ du paramètre.
Définition 45. On appelle règle de décision pure ou procédure, une applica-

tion
δ : (E, B) −→ D
qui à toute observation X = x associe une décision δ(x) = d.
Utiliser la procédure δ signifie que si X = x, δ(x) est la décision prise. La décision

est prise au vu du résultat x de l’expérience aléatoire représentée par le modèle sta-
tistique (E, B, {Pθ , θ ∈ Θ}). La perte subie l(δ(X), θ) est alors une variable aléatoire.
Définition 46. La fonction de risque est définie comme la moyenne des pertes
Z
R(δ, θ) = Eθ l(δ(X), θ) = l(δ(x), θ)dPθ (x)
V
Eθ désigne l’espérance mathématique lorsque la probabilité est Pθ ; R(δ, θ) est considérée

comme la mesure de la performance de la procédure δ(X).
Exemple 16. Estimation ponctuelle : risque quadratique

La perte subie est égale à
l(δ(X), θ) = (δ(X) − θ)2
La fonction de risque :
E(l(δ(X), θ)) = V arθ (δ(X)) + (θ − Eθ (δ(X))2 .
Définition 47. On dit que δ1 est préférable à δ2 si R(δ1 , θ) ≤ R(δ2 , θ), pour toute
valeur de θ ∈ Θ, l’inégalité étant stricte pour au moins une valeur de θ.
Définition 48. Une décision est optimal si elle est aussi bonne que toutes les autres.
Le but est de choisir la règle de décision optimale i.e celle qui est préférable à
toutes les autres. Cependant, deux procédures δ1 et δ2 telles que
R(δ1 , θ1 ) < R(δ2 , θ1 )
R(δ1 , θ2 ) < R(δ2 , θ2 )

ne sont pas comparables. En général, il n’existe pas de procedure optimale. Mais
toutes les procédures ne présentent pas le même intétrêt. Il sera alors intéressant
d’étudier une classe particulière de procédures (possédant une ou plusieurs propriétés
intéressantes), et de chercher dans cette classe si elle existe une procédure qui soit
optimale.

3.5 Statistique exhaustive, libre, totale

3.5.1 Définitions
Une des premières choses à faire quand on étudie les données est de réduire le
nombre des données sans pour autant perdre de l’information utile. Ainsi, on veut
savoir s’il est possible de remplacer l’observation X par une fonction T = T (X) plus
simple mais qui contient suffisamment d’informations.
Définition 49. Soit (E, B, {Pθ , θ ∈ Θ}) un modèle statistique engendré par une
observation X et T = T (X) une statistique. T est dite exhaustive par rapport à la
famille {Pθ , θ ∈ Θ} si Pθ (X/T (X) = t) ne dépend pas de θ.
En d’autres termes, la loi conditonnelle de X sachant T (X) ne dépend pas de θ.
Remarque 10. Cela signifie que sachant T , la connaissance de X n’apporte pas d’in-
formation supplémentaire sur le paramètre inconnu θ. Toute l’information relative
à θ est contenue dans T (X).
Exemple 17. Soit X n = (X1 , . . . , Xn ) un échantillon de taille n d’une loi de Poisson

Xn
n
P(θ). Montrons que la statistique T (X ) = Xi est une statistique exhaustive.
i=1
P(X1 = x1 , . . . , Xn = xn , ni=1 Xi = t)
P
n
P(X1 = x1 , . . . , Xn = xn /T (X ) = t) =
P( ni=1 Xi = t)
P
P(X1 = x1 , . . . , Xn−1 = xn−1 , Xn = t − n−1

P
i=1 xi )
= Pn
P( i=1 Xi = t)
Qn−1
xi )P(Xn = t − n−1
P
i=1 P(Xi = P i=1 xi )
= n
P( i=1 Xi = t)
Q −θ t−Pn−1 x
n−1 e−θ θxi e θ i=1 i
i=1 Pn−1
xi ! (t− xi )!
i=1
= e−nθ (nθ)t
t!
t!
= Pn−1
t
n x1 ! . . . xn−1 !(t − i=1 xi )!
Comme XP 1 , . . . , Xn sont indépendantes, identiquement distribuées de loi P(θ) alors

T (X ) = ni=1 Xi suit une loi de Poisson P(nθ). La probabilité conditionnelle est
n
indépendante de θ, donc T (X n ) est une statistique exhaustive pour θ.
Théorème 13. (Critère de factorisation)

Soit (E, B, {Pθ , θ ∈ Θ}) un modèle statistique statistique. Supposons que pour chaque
probabilité Pθ , il existe une densité f (x, θ). Une statistique T à valeurs dans (E, E)
est dite exhaustive par rapport à la famille {Pθ , θ ∈ Θ} si et seulement si on peut
écrire
f (x, θ) = g(T (x), θ)h(x)
pour des fonctions g : E × Θ → R+ et h : V → R+ .
40
ENSEA-ITS2 41
Preuve : admise
Exemple 18. Soit X n = (X1 , . . . , Xn ) un échantillon de taille n d’une loi de Poisson
P(θ).
n Pn
Y e−nθ θ i=1 xi
f (x1 , . . . , xn , θ) = f (xi , θ) =
x1 ! . . . xn !
i=1
On pose :
1
h(x1 , . . . , xn ) =
x 1 ! . . . xn !
g(T (x1 , . . . , xn ), θ) = e−nθ θT (x1 ,...,xn )
n
X
T (x1 , . . . , xn ) = xi
i=1
Exercice 2. Soit X n = (X1 , . . . , Xn ) un échantillon de taille n d’une loi normale

n
X
N (m, σ 2 ). Montrer que (X̄n , Xi2 ) est une statistique exhaustive pour θ = (m, σ 2 ).
i=1
Théorème 14. Soit T une statistique exhaustive pour θ. Alors φ(T ) est une statis-
tique exhaustive pour θ si φ est une apllication bijective.
Preuve : On va montrer que Pθ (X/φ(T (X)) = t) est indépendante de θ. En effet
Pθ (X/φ(T (X)) = t) = Pθ (X/T (X) = φ−1 (t))
Or T (X) est une statistique exhaustive pour θ ; d’où la conclusion.

Définition 50. La statistique T ∗ est exhaustive minimale si , pour toute statistique
exhaustive T , il existe une fonction mesurable h telle que T ∗ = h(T ).
Remarque 11. Une statistique exhaustive minimale est une statistique qui a sup-
primé le maximum d’information ne concernant pas θ (conservé toute l’information
sur θ). Une réduction supplémentaire engendrerait alors une perte d’information sur
θ.
Définition 51. La statistique T est libre si la loi de T (X) ne dépend pas de θ (sous
Pθ ).
Remarque 12. Cela signifie que T n’apporte pas d’informations sur θ alors qu’une
statistique exhaustive conserve toute l’information.
Remarque 13. Une statistique libre est à l’opposée d’une statistique exhaustive : elle
ne contient aucune information sur le paramètre θ. Une statistique libre contient
donc de l’information parasite par rapport à une décision sur le paramètre. Une
bonne décision statistique ne doit pas dépendre, même en partie de statistique libre.
Exemple 19. Soit X n = (X1 , . . . , Xn ) un échantillon de taille n d’une loi normale
Xn
N (θ, 1). Montrer que la statistique (Xi − X̄n )2 est libre.
i=1

Définition 52. La statistique T est totale (ou complète) si pour toute fonction
numérique bornée g :
{∀ θ ∈ Θ, Eθ g(T ) = 0} =⇒ g(T ) = 0 Pθ − ps ∀θ ∈ Θ.
Exemple 20. MontronsPn que pour le modèle de Bernouilli P = {B(1, θ); θ ∈]0, 1[},
la statistique S = i=1 Xi est totale. Soit g une fonction numérique mesurable et
bornée telle que pour tout θ ∈]0, 1[,
n k
n
X θ θ
0 = Eθ (g(S)) = (1 − θ) Cnk g(k) n
= (1 − θ) Q .
1−θ 1−θ
k=0
La fonction x → Q(x) est un polynôme de dégré n, nul pour x ∈]0, ∞[. Les co-
efficients de ce polynôme sont donc nuls. Cela implique que g(k) = 0 pour tout
k ∈ {0, . . . , n}. On en déduit que g(S) = 0 Pθ -p.s pour tout θ ∈]0, 1[. La statistique
S est donc totale.
Proposition 11. Toute statistique exhaustive et totale T est une statistique exhaus-
tive minimale.
Une statistique exhaustive complète est une statistique qui s’est débarassée de
toute statistique libre : c’est le Théorème de Basu.
Théorème 15. Théorème de Basu.

Soient S et T sont deux statistiques avec S exhaustive et totale. Si T est libre, alors
S et T sont Pθ -indépendantes pour tout θ ∈ Θ.
Preuve : La liberté de T est équivalente à :

pour toute fonction h, positive, Eθ (h(T )) = E(h(T )). On a aussi
Eθ (h(T )) = Eθ (Eθ (h(T )/S)), ∀θ

= Eθ (E(h(T )/S)), ∀θ
Eθ (h(T )/S) ne dépend pas de θ puisque S est exhaustive.

Par suite, nous obtenons
Eθ [E(h(T )/S) − E(h(T ))] = 0 =⇒ E(h(T )/S) = E(h(T ))
pour toute fonction h, positive. Ainsi, T et S sont indépendantes.
3.6 Familles exponentielles

Les familles exponentielles jouent un rôle fondamental en statistique. De nom-
breux modèles utilisés correspondent à des familles exponentielles.
42
ENSEA-ITS2 43
Définition 53. On dit qu’une famille {Pθ , θ ∈ Θ} est une famille exponentielle si
la densité f (x, θ) est de la forme
 
k
X
f (x, θ) = C(θ)h(x) exp  gj (θ)Tj (x)
j=1
où les fonctions h, gj , j = 1, . . . , k, C sont finies avec h(x) > 0.
Remarque 14. Si X n = (X1 , . . . , Xn ) un échantillon de taille n de même loi que X,

on parle de modèle d’échantillonnage exponentiel et nous avons
 
k
X
f (x1 , . . . , xn , θ) = C n (θ)hn (x1 , . . . , xn ) exp  gj (θ)Tn,j (x) ,
j=1
n
Y n
X
où hn (x1 , . . . , xn ) = h(xi ), Tn,j (x1 , . . . , xn ) = Tj (xj ).
i=1 i=1
Remarque 15. Ce modèle est appelé modèle canonique lorsque gj (θ) = θj .
Exemple 21. • Modèle gaussien :

21 1 2
f (x, m, σ ) = √ exp − 2 (x − m)
2πσ 2σ
m2 x2

1 mx
=√ exp − 2 exp − 2 + 2 .
2πσ 2σ 2σ σ
Nous obtenons donc
h(x) = 1
−1
g1 (m, σ 2 ) = 2
2σ
2 m
g2 (m, σ ) = 2
σ
T1 (x) = x2
T2 (x) = x.
• Modèle uniforme : f (x, θ) = 1θ 1I[0,θ] (x) ne se met sous la forme exponentielle.
Théorème 16. La statistique canonique du modèle d’échantillonnage est exhaustive.
Théorème 17. La statistique canonique du modèle d’échantillonnage est totale
Théorème 18. La statistique canonique du modèle d’échantillonnage est minimale.

44
Chapitre 4
Estimation ponctuelle
En se basant sur un échanillon (X1 , . . . , Xn ) issu d’une loi de probabilité Pθ ,

θ ∈ Θ ⊂ Rd , on cherche à estimer g(θ).
4.1 Définitions
Définition 54. On appelle estimateur de g(θ) toute fonction Tn qui ne dépend
uniquement que des observations (X1 , . . . , Xn ) à valeurs dans un domaine acceptable
pour g(θ).
Remarque 16. Tn (X1 , . . . , Xn ) ne dépend pas de θ .
Définition 55. Une estimation est la réalisation d’un estimateur sur les données
x1 , . . . , xn . Autrement dit, l’estimation est la valeur que l’on peut calculer en rem-
plaçant les Xi par les xi dans la définition de l’estimateur correspondant.
4.2 Propriétés des estimateurs

La première qualité d’un estimateur est d’être convergent.
Définition 56. (Convergence)
Tn est un estimateur convergent (ou consistant) de g(θ) si
P
Tn −→ g(θ) n → +∞.
Interprétation : On a la garantie qu’à un rang n assez grand et avec grande
probabilité, Tn soit proche du paramètre de g(θ).
Remarque 17. La consistance est évidemment une vue de l’esprit, un outil d’évaluation
théorique. En pratique, la taille d’échantillon n peut être prise suffisamment grande.
Définition 57. (Normalité asymptotique)
Un estimateur Tn de g(θ) est dit asymptotiquement normal si
√ L
n (Tn − g(θ)) −→ N (0, σθ ) n → +∞
45
où σθ est à déterminer.
Interprétation : La normalité asymptotique entraı̂ne la consistance. C’est une

propriété plus précise qui indique que la fluctuation de l’estimateur autour de g(θ)
est approximativement normale :
σ2

L
Tn ≈ N g(θ), θ .
n
4.3 Information de Fisher

4.3.1 Cas où θ est unidimensionnel
L’information de Fisher est une notion de statistique introduite par Ronald Ayl-
mer Fisher (1890-1962) qui quantifie l’information relative à un paramètre contenue
dans un échantillon.
Considérons la famille des densités
{f (x, θ); θ ∈ Θ ⊂ R}
et les hypothèses suivantes :

(H0 ) Le modèle est identifiable
(H1 ) f (x, θ) > 0, ∀θ ∈ Θ ∀x
(H2 ) Pour tout x, la fonction θ −→ f (x, θ) est dérivable
R
(H3 ) On peut dériver la fonction θ −→ A f (x, θ)dx sous le signe intégral pour tout
A ∈ A i.e Z Z
∂ ∂f (x, θ)
f (x, θ)dx = .
∂θ A A ∂θ
Ceci est équivalent à dire que les opérateurs de différenciation et d’intégration
sont interchangeables. Cette condition est satisfaite si le support de f (x, θ)
est indépendant de θ (modèle homogène).
R
(H4 ) On peut dériver la fonction θ −→ A f (x, θ)dx deux fois sous le signe intégral
i.e.
∂2
Z Z 2
∂ f (x, θ)
2
f (x, θ)dx = .
∂θ A A ∂θ2
Définition 58. On appelle score la quantité :
∂ log f (X, θ)
S(X, θ) = .
∂θ
Définition 59. On appelle information de Fisher apportée par X sur le paramètre
θ la quantité suivante positive ou nulle (si elle existe) :
I(θ) = Eθ (S 2 (X, θ)).
46
ENSEA-ITS2 47
Théorème 19. Sous les hypothèses (H1 ), (H4 ) nous avons

2
∂ log f (X, θ)
I(θ) = −Eθ
∂θ2
si cette quantité existe.

Z
Preuve. Puisque f (x, θ) est une densité, nous avons f (x, θ)dx = 1. En dérivant
les deux membres par rapport à θ et en utilisant l’hypothèse (H4 ), nous obtenons
∂2 ∂ 2 ln f (x, θ)
Z Z Z
1 ∂f (x, θ) ∂ ln(f (x, θ))
f (x, θ)dx = f (x, θ)dx + f (x, θ) dx
∂θ2 f (x, θ) ∂θ ∂θ ∂θ2
= 0.
D’après ce qui précède, nous avons

2 !
∂ 2 ln f (X, θ)

∂ ln(f (X, θ))
Eθ + Eθ = 0.
∂θ ∂θ2
D’où le résultat.
Proposition 12. Propriétés de I(θ)

1. I(θ) ≥ 0. En effet, I(θ) est la variance du score.
2. Additivité. Si X et Y sont deux variables aléatoires indépendantes de loi Pθ
et Qθ vérifiant les hypothèses H1 , H2 et H3 , on a, en notant IX (θ), IY (θ) et
I(θ) les informations fournies par X, Y et le couple (X, Y ) respectivement :
I(θ) = IX (θ) + IY (θ)
Ainsi, nous avons pour un échantillon (X1 , X2 , . . . , Xn )
In (θ) = I(X1 ,...,Xn ) (θ) = nIX1 (θ)
3. Dégradation de l’information. L’information portée par une statistique

est inferieure ou égale à celle apportée par l’échantillon :
ITn (θ) ≤ In (θ).
Exemple 22. 1. Echantillon X n = (X1 , . . . , Xn ) extrait d’une loi de Bernouilli

B(1, θ). Les hypothèses (H1 ), (H4 ) et (H5 ) sont vérifiées.
f (X, θ) = θX (1 − θ)1−X X ∈ {0, 1}

log f (X, θ) = X log(θ) + (1 − X) log(1 − θ) X ∈ {0, 1}
∂ 2 log f (X, θ) −X 1−X
= −
∂θ2 θ 2 (1 − θ)2

Ainsi, nous avons :

∂ 2 log f (X, θ)

1
I(θ) = −Eθ =
∂θ2 θ(1 − θ)
Soit In (θ) l’information de Fisher de X n = (X1 , . . . , Xn ), nous avons donc
n
In (θ) =
θ(1 − θ)
2. Echantillon X n = (X1 , . . . , Xn ) extrait de N (θ, σ 2 ) θ inconnu et σ 2 connue.

−(X − θ)2

1
f (X, θ) = √ exp
2πσ 2σ 2
(X − θ)2

1
log f (X, θ) = log √ −
2πσ 2σ 2
∂ 2 log f (X, θ) −1
= 2
∂θ2 σ
Ainsi, nous avons :
∂ 2 log f (X, θ)

1
I(θ) = −Eθ =
∂θ2 σ2
Soit In (θ) l’information de Fisher de X n = (X1 , . . . , Xn ), nous avons donc
n
In (θ) =
σ2
4.3.2 Généralisation au cas où θ est multidimensionnel

On suppose ici que θ ∈ Θ ⊂ Rd avec d > 1. Nous avons les hypothèses suivantes.
0
(H2 ) gradθ (f (x, θ)) existe ∀x ∀θ ∈ Θ
0 R
(H3 ) On peut dériver la fonction θ −→ A f (x, θ)dx sous le signe intégrale pour
tout A ∈ A i.e
Z Z
∂ ∂f (x, θ)
f (x, θ)dx = , i = 1, . . . , d.
∂θi A A ∂θi
Cette condition est satisfaite si le support de f (x, θ) est indépendant de θ
(modèle homogène).
0 R
(H4 ) On peut dériver la fonction θ −→ A f (x, θ)dx deux fois sous le signe intégrale
∂2
Z Z 2
∂ f (x, θ)
f (x, θ)dx = i, j = 1, . . . , d.
∂θi ∂θj A A ∂θi ∂θj
0 0
Définition 60. Sous les hypothèses (H1 ), (H2 ) et (H3 ), on appelle information de
Fisher la matrice (si elle existe)

∂ ln(f (X, θ)) ∂ ln(f (X, θ))
I(θ) = Eθ
∂θi ∂θi i,j=1,...,d
48
ENSEA-ITS2 49
0
Proposition 13. Sous l’hypothèse (H3 ), on a
2
∂ ln(f (X, θ))
I(θ) = − E .
∂θi θj i,j=1,...,d
Preuve (Exercice)
4.4 Estimateur sans biais

La convergence est une propriété asymptotique : définir la convergence demande
de considérer des échantillons de taille arbitrairement grande. Dans la réalité, la
taille des échantillons est limitée pour des raisons de délais ou de budget. Il est
donc naturel de se demander quelle qualité est attendue d’un estimateur limité à
des échantillons de taille donnée n.
4.4.1 Définitions
Définition 61. On appelle biais d’un estimateur θn∗ la quantité
bn (θ) = Enθ (θn∗ ) − g(θ).
Un estimateur est dit sans biais si bn (θ) = 0, c’est à dire, Enθ (θn∗ ) = g(θ).
Interprétation :
Remarque 18. Un estimateur est sans biais si sa valeur espérée qui est Enθ (θn∗ ) est
égale au paramètre à estimer g(θ). Le biais nous indique la valeur moyenne de l’erreur
d’estimation θn∗ − g(θ). Trois cas sont possibles :
• Eθ (θn∗ ) = g(θ) pour toutes les valeurs possibles du paramètre. L’estimateur
est sans biais ;
• Eθ (θn∗ ) = g(θ) + b où b est indépendent de θ. Dans ce cas l’estimateur a un
biais constant et connu, qui peut toujours être eliminé ;
• Eθ (θn∗ ) = g(θ) + b(θ) c’est-à-dire, on a un biais qui dépend de θ (qui est
inconnu).
Définition 62. Un estimateur est dit asymptotiquement sans biais si bn (θ) −→ 0
quand n → +∞.
On désire en général avoir des estimateurs qui soient sans biais. Cependant, un
estimateur peut être sans biais et être de mauvaise qualité, s’il produit, avec une
grande probabilité, des estimations qui sont très différentes de la vraie valeur.
Pour un estimateur θn∗ donné de g(θ), le risque quadratique moyen est défini par
R(θn∗ , θ) = Enθ (θn∗ − g(θ))2
= Enθ (θn∗ − Enθ (θn∗ ))2 + (Enθ (θn∗ ) − g(θ))2
= varθ (θn∗ ) + bn (θ)2
Le but est de trouver un estimateur avec un plus petit risque pour tout θ ∈ Θ.

Remarque 19. Il n’exsite pas d’estimateur θn∗ tel que
R(θn∗ , θ) = min R(θ̃n , θ) ∀θ ∈ Θ

θ̃n
Pour resoudre ce dilemme, il existe une façon de proceder raisonnable consistant

à restreindre la classe des estimateurs et à chercher des estimateurs à erreur qua-
dratique moyenne minimale dans cette classe restreinte. Nous pourrions prendre en
considération la classe des estimateurs sans biais. Dans ce cas, le risque quadratique
moyen est défini par
R(θn∗ , θ) = varθ (θn∗ )
Définition 63. L’estimateur θ1∗ est meilleur que θ2∗ si
varθ (θ1∗ ) ≤ varθ (θ2∗ ) ∀θ ∈ Θ.
4.4.2 Amélioration d’un estimateur sans biais

Le théorème de Rao-Blackwell fournit une méthode pour améliorer un estimateur
sans biais donné.
Théorème 20. (Théorème de Rao-Blackwell)
On considère une statistique exhaustive Sn pour θ et un estimateur θn∗ sans biais
de g(θ), alors la variable aléatoire θS∗ n = Enθ (θn∗ /Sn ) vérifie les propriétés suivantes :
i) θS∗ n est un estimateur sans biais de g(θ).
ii) varθ (θS∗ n ) ≤ varθ (θn∗ ) ∀θ ∈ Θ.
Preuve
- θS∗ n est bien un estimateur car, comme Sn est exhaustive, l’espérance condi-
tionnelle qui définit θS∗ n ne dépend pas de θ.
- θS∗ n est bien sans biais car
Eθ θS∗ n = Eθ (Enθ (θn∗ /Sn )) = Eθ (θn∗ ) = g(θ)

Le théorème de Lehman-Scheffé a une importance particulière en statistiques puis-

qu’il permet d’obtenir l’estimateur uniformément meilleur parmi l’ensemble des es-
timateurs sans biais. Il donne une condition d’existence et d’unicité d’un tel estima-
teur.
Théorème 21. (Théorème de Lehman-Scheffé)
Soient Sn une statistique exhaustive et totale, et θ̂n un estimateur sans biais de
g(θ). Alors θS∗ n = Enθ (θn∗ /Sn ) est optimale pour g(θ) dans la classe des estimateurs
sans biais, de variance finie. De plus, θS∗ n est unique.
Preuve.
En conclusion, si l’on dispose d’un estimateur sans biais fonction d’une statis-
tique exhaustive et totale, c’est le meilleur estimateur possible.
Le résultat suivant indique que la variance d’un estimateur ne peut être inférieure
à une certaine borne, qui dépend de l’information de Fisher.
50
ENSEA-ITS2 51
Théorème 22. (Borne de Frechet-Darmos-Cramer-Rao (FDCR))

Supposons les hypothèses (H1 ), (H4 ), (H5 ) sont vérifiées et que In (θ) > 0 pour
tout θ ∈ Θ. Soit Sn un estimateur sans biais de g(θ), nous avons
0
(g (θ))2
varθ (Sn ) ≥
In (θ)
où In (θ) est l’information de Fisher.
Remarque 20. Si g(θ) = θ alors nous avons

1
varθ (Sn ) ≥
In (θ)
Version multidimensionnelle : varθ (Sn ) − In−1 (θ) est positive.
Définition 64. On appelle estimateur efficace un estimateur sans biais dont la

variance est égale à la borne FDCR.
Remarque 21. Un estimateur efficace est optimal parmi les estimateurs sans biais.
Mais il peut exister un estimateur optimal parmi les estimateurs sans biais qui ne soit
pas efficace i.e. dont la variance reste strictement supérieure à la borne de FDCR.
En particulier, il n’existe pas toujours un estimateur efficace.
Exemple 23. 1. X n = (X1 , . . . , Xn ) un échantillon de taille n issu de la loi

2
normale N (θ, σ 2 ) avec σ 2 connue ; Eθ (X̄n ) = θ, varθ (X̄n ) = σn , In (θ) = σn2 .
Par suite, nous avons :
1
varθ (X̄n ) =
In (θ)
X̄n est un estimateur efficace.
2. X n = (X1 , . . . , Xn ) un échantillon de taille n issu de la loi normale N (m, σ 2 )
2σ 2 4 1 Pn
In (σ 2 ) = 2σn4 ; varθ (Sn2 ) = n−1 6= 2σn . Par suite Sn2 = n−1 i=1 (Xi − X̄n )
2
n’est pas un estimateur efficace.
4.4.3 Cas des familles exponentielles

Ce théorème lie étroitement l’efficacité au modèle exponentiel.
Théorème 23. Sous les conditions pour l’inégalité de FDCR, pour que la borne
inférieure soit atteinte dans cette inégalité, il est necessaire et suffisant que θn∗ soit
exhaustif et que la fonction g(θn∗ , θ) du théorème de factorisation soit de la forme
f (x, θ) = h(x) exp(α(θ)θn∗ (x) + β(θ)).
avec α(θ) et β(θ) dérivable en θ.
Remarque 22. θn∗ est un estimateur efficace de θ si et seulement si le modèle est

exponentiel.

4.5 Methode du maximum de vraisemblance

Etant donné un échantillon X n = (X1 , . . . , Xn ) issu de Pθ de densité f (x, θ), la
méthode du maximum de vraisemblance consiste à prendre comme estimateur de θ
la valeur de θ qui rend maximale la vraisemblance
n
Y
fn (x1 , . . . , xn , θ) = f (xi , θ).
i=1
Définition 65. L’estimateur du maximum de vraisemblance (EMV) θ̂n est défini

par
fn (x1 , . . . , xn , θ̂n ) = max fn (x1 , . . . , xn , θ)
θ∈Θ
c’est à dire
fn (x1 , . . . , xn , θ̂n ) ≥ fn (x1 , . . . , xn , θ), ∀θ ∈ Θ
Remarque 23. Puisque la fonction log est croissante
log fn (x1 , . . . , xn , θ̂n ) = max log fn (x1 , . . . , xn , θ)

θ∈Θ
Remarque 24. Supposons que les hypothèses H0 et H1 vérifiées. De plus, on suppose

que la vraisemblance est de classe C 2 par rapport à θ. Alors l’EMV est solution du
système :
∂fn ∂ log fn
 

 = 0 
 =0
 ∂θ  ∂θ

 

 
ou
2
 ∂ 2 log fn
 
 ∂ fn
 
<0 <0

 

∂θ2 θ=θ̂n ∂θ2
 
θ=θ̂n
4.5.1 Propriétés à distance finie

Soit θ̂n l’EMV de θ :
1. Soit Sn une statistique exhaustive pour θ. Tout EMV est nécessairement fonc-
tion de Sn
2. Invariance fonctionnelle Si θ̂n est un EMV de θ alors g(θ̂n ) est un EMV
de g(θ).
La preuve est élémentaire si g est bijective et plus délicate dans le cas général.
3. Si θ̂n est un estimateur efficace de θ alors θ̂n est aussi l’EMV de θ
4.5.2 Propriétés asymptotiques

Soit θ̂n l’EMV de θ. Sous les conditions suivantes :
- (H0 ), (H1 ), (H4 ), (H5 ),
∂ 2 fn
- θ −→ existe et est continue
∂θ2
52
ENSEA-ITS2 53
- 0 < In (θ) < ∞, pour tout θΘ.

1. θ̂n est un estimateur consistant
2. θ̂n est asypmtotiquement efficace, c’est à dire,
√

1
n(θ̂n − θ) −→ N 0, ; n → +∞
In (θ)
.

54
Chapitre 5
Estimation par intervalle de

confiance
5.1 Définitions
Définition 66. Soit α ∈]0, 1[ ; on appelle intervalle de confiance pour le paramètre
θ de niveau de confiance 1 − α, l’intervalle [T1 (X n ), T2 (X n )] tel que
Pθ ([T1 (X n ), T2 (X n )] 3 θ) = 1 − α
où T1 (X n ) et T2 (X n ) désignent deux statistiques à valeurs dans Θ.
Définition 67. On dira que [T1 (X n ), T2 (X n )] est un intervalle de confiance pour le

paramètre θ de niveau de confiance asymptotique 1 − α si Pθ ([T1 (X n ), T2 (X n )] 3 θ)
tend vers 1 − α quand la taille de l’échantillon n tend vers l’infini.
Remarque 25. .
1. L’interprétation du fait que [T1 (X n ), T2 (X n )] est un intervalle de confiance

est la suivante : on observe X n = x et on construit ainsi [T1 (x), T2 (x] et
on annonce que θ ∈ [T1 (x), T2 (x]. Si on repète cela N fois d’une manière
indépendante , quand N est très grand, on devrait avoir raison dans (1 − α)N
fois parmi les N répétitions.
2. l = T2 (X n ) − T1 (X n ) s’appelle la longueur de l’intervalle de confiance. A α
fixé, l’intervalle de confiance est d’autant meilleur que l est petit.
Définition 68. Soit X une variable aléatoire réelle. Supposons que la fonction de
répartition FX soit continue et strictement croissante. Pour 0 ≤ α ≤ 1 ; on note xα
l’unique nombre réel vérifiant
FX (xα ) = P(X ≤ xα ) = α.
On dit xα est le quantile d’ordre α.
55
5.2 Construction d’un intervalle de confiance

On commence d’abord par introduire la notion de fonction pivotale qui est par-
ticulièrement utile pour la construction d’un intervalle de confiance.
Définition 69. On appelle fonction pivotale pour θ toute fonction de l’échantillon

et de θ dont la loi ne dépend pas de θ.
Elle est dite asymptotiquement pivotale si c’est la loi limite qui ne dépend pas de θ.
Méthode de construction
- Soit h(X1 , . . . , Xn , θ) une fonction pivotale pour θ.
- Supposons que l’on puisse déterminer numériquement u1 et u2 tel que
Pθ (u1 ≤ h(X1 , . . . , Xn , θ) ≤ u2 ) = 1 − α
u1 et u2 sont indépendants de θ.
- Résoudre en θ la double inéquation
u1 ≤ h(X1 , . . . , Xn , θ) ≤ u2 (5.2.1)
de telle sorte que (5.2.1) soit équivalent à :
g1 (X1 , . . . , Xn ) ≤ θ ≤ g2 (X1 , . . . , Xn ),
on en déduit immédiatement un intervalle de confiance θ.
5.3 Intervalles de confiance classiques

Dans un premier temps, nous construirons des intervalles de confiance pour
la moyenne et la variance de la loi normale. Puis, dans un second temps, nous
indiquerons comment obtenir des intervalles de confiance pour des lois quelconques
quand la taille de l’échantillon n est ”grande”.
5.3.1 Echantillon issu d’une loi normale N (µ, σ 2 )

Intervalle de confiance pour la moyenne µ quand σ 2 est connue
2
F Fonction pivotale : X̄n est un estimateur de µ. De plus X̄n N (µ, σn ). La
X̄n − µ
fonction h(X1 , . . . , Xn , µ) = σ est pivotale pour µ puisque
√
n
X̄n − µ
N (0, 1).
√σ
n
56
ENSEA-ITS2 57
X̄n − µ
F Partant de N (0, 1) on a :
√σ
n
" #
X̄n − µ
P a≤ ≤ b = 1 − α. (5.3.1)
√σ
n
Ce qui implique
" # " #
X̄n − µ X̄n − µ
P ≤a +P ≥ b = α.
√σ √σ
n n
Posons :
" #
X̄n − µ
P ≤ a = α1
√σ
n
" #
X̄n − µ
P ≥ b = α2 .
√σ
n
Ainsi a et b désignent respectivement les quantiles d’ordre α1 et 1 − α2 de la

loi N (0, 1) tels que α = α1 + α2 . A noter que pour des raisons de symétrie,
nous avons
" #
X̄n − µ
α1 = P σ ≤a
√
n
Z a
1 x2
=√ e− 2 dx
2π −∞
Z +∞
1 x2
=√ e− 2 dx
2π −a
" #
X̄n − µ
=P σ ≥ −a
√
n
ainsi : " # " #

P ≤a =P ≥ −a
√σ √σ
n n
Il est clair que de (5.3.1), nous avons :

X̄n − µ σ σ
a≤ ≤ b ⇐⇒ X̄n − √ b ≤ µ ≤ X̄n − √ a.
√σ n n
n
F Donc
bσ aσ
I = X̄n − √ , X̄n − √
n n
est un intervalle de confiance de niveau de confiance de 1 − α pour µ. Sa
longueur est
σ
√ (b − a).
n

Pamis tous ces intervalles de confiance, peut-on en exhiber un qui soit meilleur
que tous les autres (au sens où sa longueur serait minimale). La réponse est
fournie par le résultat suivant :
Théorème 24. Soit X une variable aléatoire réelle de densité f (x) symétrique
par rapport à zero et unimodale. Soit I la classe des intervalles réels de type
[a, b] tels que a < 0 < b et vérifiant P(a ≤ X ≤ b) = 1 − α où α ∈]0, 1[.
L’intervalle de longueur minimale est celui qui est symétrique par rapport à
zéro, c’est à dire du type [−t, t] où t est alors le quantile d’ordre 1 − α2 de f (x).
Comme la densité de la loi normale N (0, 1) est symétrique par rapport à zero
et unimodale, on peut utiliser ce résultat. Ce qui conduit à a = −b et
" # " #
P σ ≤ −b + P σ ≥ b = α.
√ √
n n
Comme
" # " #
X̄n − µ X̄n − µ α
P ≤ −b = P ≥ b ⇒ α1 = α2 =
√σ √σ 2
n n
nous avons " #

X̄n − µ α
P ≥b =
√σ 2
n
Ainsi, nous obtenons :

" #
X̄n − µ α
P ≤b =1−
√σ 2
n
b = t1− α2 est donc le quantile d’ordre 1 − α2 de la loi normale centrée reduite.

Remarque 26. b = t1− α2 est fourni par les tables statistiques.
Par conséquent : l’intervalle de confiance de niveau de confiance 1 − α est
t1− α2 σ t1− α2 σ

X̄n − √ , X̄n + √
n n
Intervalle de confiance pour la moyenne µ quand σ 2 est inconnue

Définition 70. Soient Z N (0, 1) et Y χ(n). Alors, si Z et Y sont indépendantes
alors
Z
T =q T (n − 1) (loi de Student à n dégrés de liberté).
Y
n
F Fonction pivotale : comme
X̄n − µ
Z= N (0, 1)
√σ
n
58
ENSEA-ITS2 59
et que
Sn2
Y = (n − 1) χ(n − 1)
σ2
où
n
1 X
Sn2 = (Xi − X̄n )2
n−1
i=1
on en deduit que :
√
Z n(X̄n − µ)
h(X1 , . . . , Xn , µ) = q = T (n − 1)
Y Sn
n
est une fonction pivotale pour µ.

√
n(X̄n − µ)
F Partant de T (n − 1), on a
Sn
√
n(X̄n − µ)
P a≤ ≤ b = 1 − α. (5.3.2)
Sn
il est clair que de (5.3.2), nous avons :
√
n(X̄n − µ) Sn Sn
a≤ ≤ b ⇐⇒ X̄n − √ b ≤ µ ≤ X̄n − √ a.
Sn n n
F Donc
bSn aSn
I = X̄n − √ , X̄n − √
n n
est un intervalle de confiance de niveau de confiance de 1 − α pour µ. Sa
longueur est
S
√n (b − a).
n
Comme la densité de la loi de Student T (n − 1) est symétrique par rapport
à zero et unimodale, on peut utiliser le Théorème 24. D’où l’intervalle de
confiance de niveau de confiance 1 − α pour µ est
t1− α2 Sn t1− α2 Sn

I = X̄n − √ , X̄n + √
n n
α
où t1− α2 désigne le quantile d’ordre 1 − 2 d’une loi de Student à n − 1 dégrés
de liberté.
Intervalle de confiance pour la moyenne σ 2 quand µ est connue

Définition 71. Soient n variables aléatoires Z1 , . . . , Zn indépendantes identique-
ment distribuées de loi normale centrée réduite N (0, 1). Alors
n
X
Zi2 χ2 (n)
i=1

F Fonction pivotale : comme
X̄n − µ
N (0, 1)
√σ
n
on en déduit que la fonction
n
!2
S̃ 2 X X̄n − µ
n n2 = χ2 (n)
σ √σ
i=1 n
où
n
1X
S̃n2 = (Xi − µ)2
n
i=1
est pivotale pour σ 2 .

S̃n2
F Partant de n χ2 (n), on a :
σ2
" #
S̃n2
P a ≤ n 2 ≤ b = 1 − α. (5.3.3)
σ
il est clair de (5.3.3), on a
S̃n2 nS̃n2 2 nS̃n2

a≤n ≤ b ⇐⇒ ≤ σ ≤
σ2 b a
F Donc
" #
nS̃n2 nS̃n2
I= ,
b a
est un intervalle de confiance de niveau de confiance de 1 − α pour σ 2 . Sa

longueur est

2 1 1
nS̃n − .
a b
La densité de la loi χ2 (n) ne vérifie pas les conditions du Théorème 24.

De ce fait l’intervalle de confiance de niveau de confiance 1 − α est
" #
nS̃n2 nS̃n2
I= ,
b a
où a et b sont respectivement le quantile d’ordre α1 et 1 − α2 d’une loi χ2 (n)

tels que α1 + α2 = α. En pratique, on prend α1 = α2 = α2 .
60
ENSEA-ITS2 61
Intervalle de confiance pour la moyenne σ 2 quand µ est inconnue

Théorème 25.
Sn2
(n − 1) χ2 (n − 1)
σ2
avec
n
1X
Sn = (Xi − X̄n )2
n
i=1
F Fonction pivotale : la fonction
Sn2
(n − 1)
σ2
est pivotale pour σ 2
F En procédant comme précédemment, on montre que l’intervalle de confiance
de niveau 1 − α pour σ 2 est
" #
nS̃n2 nS̃n2
,
b a
où a et b sont respectivement le quantile d’ordre α1 et 1−α2 d’une loi χ2 (n−1)

tels que α1 + α2 = α. En pratique, on prend α1 = α2 = α2 .

62
Chapitre 6
Tests d’hypothèses
6.1 Principe des tests

6.1.1 Définitions
Un test est un mécanisme qui permet de trancher entre deux hypothèses au vu
des résultats d’un échantillon. Soit X n = (X1 , . . . , Xn ) un échantillon de taille n
issu d’une loi de probabilité Pθ , θ ∈ Θ ⊂ Rk . Soient Θ0 , Θ1 ⊂ Θ tels que Θ1 ⊂ Θc0 .
En se basant sur l’échantillon X n , nous voulons tester l’hypothèse H0 : θ ∈ Θ0
contre H1 : θ ∈ Θ1 i.e. décider si H0 ou H1 est vraie. Les hypothèses H0 et H1 sont
telles que une et une seule est vraie. Nous appelerons H0 l’hypothèse nulle et H1
alternative l’alternative de H0 . L’hypothèse Hi (i = 0, 1) est dite simple si Θi n’a
qu’un seul élément. Sinon, elle est dite composite.
Dans un problème de test, l’on peut commettre deux types d’erreur :
• Erreur de première espèce : rejeter H0 alors que H0 est vraie
• Erreur de deuxième espèce : rejeter H1 alors que H1 est vraie.
Définition 72. On appelle risque de première espèce la probabilité de rejeter H0

alors que H0 est vraie.
Définition 73. On appelle risque de deuxième espèce la probabilité de rejeter H1

alors que H1 est vraie.
Définition 74. Un test aléatoire est une application ϕ dépendant de X n à valeurs

dans [0, 1] telle que l’on rejette H0 avec la probabilité ϕ(X n ) et l’on accepte H0 avec
la probabilité 1 − ϕ(X n ).
Définition 75. Un test pur est une application ϕ dépendant de X n à valeurs dans
{0, 1} telle que l’on accepte H1 si ϕ(X n ) = 1 et l’on accepte H0 si ϕ(X n ) = 0.
Un test pur est déterminé par sa région critique définie
Rn = {X n : ϕ(X n ) = 1} .
63
Définition 76. La fonction
αϕ (θ) = Enθ (ϕ(X n )), θ ∈ Θ0
est appelée le risque de première espèce du test ϕ.
βϕ (θ) = Enθ (1 − ϕ(X n )), θ ∈ Θ1
est appelée le risque de deuxième espèce du test ϕ.
γϕ (θ) = 1 − βϕ (θ), θ ∈ Θ1
est appelée puissance du test ϕ.
H0 est vraie H1 est vraie

H0 est décidée 1−α β
H1 est décidée α 1−β
Remarque 27. Soit ϕ un test pur. Dans ce cas, nous avons

• αϕ (θ) = Pnθ (X n ∈ Rn ), θ ∈ Θ0 .
• βϕ (θ) = Pnθ (X n ∈ Rnc ), θ ∈ Θ1 .
• γϕ (θ) = Pnθ (X n ∈ Rn ), θ ∈ Θ1 .
Le test ϕ est bon si les erreurs sont petites. On ne peut pas les rendre simul-
tanément aussi petites que l’on veut parce que en augmentant par exemple Rn , l’er-
reur de deuxième espèce diminue mais l’erreur de première espèce devient grande et
vice versa.
Définition 79. Le nombre

α = sup αϕ (θ)
θ∈Θ0
est appelé le niveau ou le seuil de signification du test ϕ, ce qui signifie que la

probabilité de rejeter H0 à tort ne doit pas dépasser α.
Définition 80. Le test ϕ de niveau α est dit sans biais si sa puissance est supérieure
ou égale à α i.e. si
γϕ (θ) ≥ α, ∀θ ∈ Θ1 .
Définition 81. Le test ϕ est dit Uniformément le Plus Puissant (U.P.P.) de seuil
α si pour tout autre test ψ, on a
αϕ (θ) ≤ αψ (θ) ≤ α, ∀θ ∈ Θ0
γϕ (θ) ≥ γψ (θ), ∀θ ∈ Θ1
64
ENSEA-ITS2 65
La construction des tests est souvent falicitée quand on regarde le comporte-

ment asymptotique des statistiques de test lorsque la taille de l’échantillon tend
vers l’infini. si (Rn , n ≥ 1) est une suite de région critiques où Rn correspond aux
échantilollons de taille n, on dit que le test Rn est de niveau asymptotique α si
lim sup Pnθ (Rn ) = α.

n→+∞ θ∈Θ0
Le test est dit convergent si pour tout θ ∈ Θ1 , on a
lim Pnθ (Rn ) = 1.

n→+∞
6.1.2 p-valeur
On désire tester l’hypothèse nulle H0 contre une alternative H1 . Soit T la statis-
tique de test que l’on suppose à valeurs réelles. On désigne par P0 est la loi de T sous
H0 . A partir des données recueillies, on a une valeur observée t pour la statistique
de test T .
Définition 82. 1. Pour un test unilatéral droit
p = P0 ({T > t}) .
2. Pour un test unilatéral gauche
p = P0 ({T < t}) .
3. Pour un test bilatéral avec T de loi centrée symétrique sous H0
p = P0 ({|T | > |t|}) .
Rappelons que α le niveau du test est par définition :
α = P ({rejet de H0 }) .
Règle : si la p-value est plus petite que le niveau α alors l’hypothèse H0

est rejetée
Notons F0 la fonction de répartition T sous H0 et examinons le lien entre région

critique d’un test, règle de décision et p-valeur.
• Test unilatéral droit. La région critique du test est de la forme ]cα , +∞[
avec F0 (cα ) = 1 − α.
p < α ⇐⇒ F0 (cα ) < F0 (t) ⇐⇒ cα < t.
• Test unilatéral gauche. La région critique du test est de la forme ] − ∞, cα [

avec F0 (cα ) = α.
p < α ⇐⇒ F0 (t) < F0 (cα ) ⇐⇒ t < cα .

• Test bilatéral. La région critique du test est ] − ∞, −cα [∪]cα , ∞[ avec cα > 0
et F0 (cα ) = 1 − α2 . La p-valeur est
p = P0 (|T | > |t|) = 1 − F0 (|t|) + F0 (−|t|) = 2(1 − F0 (|t|))
puisque P0 est symétrique.

α
p < α ⇐⇒ 2(1−F0 (|t|)) < α ⇐⇒ 1− < F0 (|t|) ⇐⇒ F0 (cα ) < F0 (|t|) ⇐⇒ cα < |t|.
2
Pour un test de niveau α, l’hypothèse H0 est rejetée dès lors que la p-valeur est
strictement inférieure à α. La règle de décision consiste simplement à comparer p à
α au lieu de comparer t à des valeurs seuils fournies par des tables statistiques. Les
logiciels statistiques calculent et présentent les p-valeurs qui sont difficiles à obtenir
sans moyen de calcul approprié.
6.1.3 Etapes d’un test d’hypothèses

1. Choix d’un modèle
2. Choix des hypothèses
3. Choix de la statistique de test
4. Loi ou comportement de la statistique de test (en général asymptotique) sous
H0
5. Loi ou comportement de la statistique de test (en général asymptotique) sous
H1
6. Région critique du test
7. Niveau (exact ou asymptotique) du test : α
8. Puissance ou convergence du test
9. Calcul de la p-valeur du test
A l’issu de ce travail, il faut conclure. Si la p−valeur est faible, on rejette H0 , sinon
on accepte H0
6.2 Test de Neyman-Pearson

Un test entre deux hypothèses simples se traduit par
H0 : θ = θ0
H1 : θ = θ1
avec θ0 6= θ1 . La densité de probabilité de X n = (X1 , . . . , Xn ) est définie par

n
Y
fn (X n , θ) = f (Xi , θ).
i=1
66
ENSEA-ITS2 67
Lemme 1. de Neyman-Pearson
Pour tout α ∈]0, 1[, il existe des constantes c > 0 et γ ∈ [0, 1] telles que le test basé
sur la statistique

1
 si f (X n , θ1 ) > cf (X n , θ0 )
φ(X n ) = γ si f (X n , θ1 ) = cf (X n , θ0 )

0 si f (X n , θ1 ) < cf (X n , θ0 )

a le niveau α et est le plus puissant parmi tous les tests ψ tels que Enθ0 ψ(X n ) ≤ α.
Preuve :
1. On cherche les constantes c et γ telle que
f (X n , θ1 ) f (X n , θ1 )

n n n n
Eθ (φ(X )) = Pθ0 > c + γPθ0 = c = α.
f (X n , θ0 ) f (X n , θ0 )
Pour tout t ∈ R, posons
f (X n , θ1 )

F (t) = Pnθ0 ≤t
f (X n , θ0 )
et
f (X n , θ1 )

G(t) = 1 − F (t) = Pnθ0 > t .
f (X n , θ0 )
La fonction G(t) est décroissante, continue à droite. Ainsi, nous avons
f (X n , θ1 )

n
Pθ0 = c = G(c− ) − G(c),
f (X n , θ0 )
avec
G(c− ) = lim G(t).
t→c,t<c
De plus, pour tout α ∈]0, 1[, il existe c0 ≥ 0 telle que G(c0 ) ≤ α ≤ G(c− 0 ). En
effet,
• ou bien G(c0 ) = G(c− 0 ), c’est à dire que c0 est un point de continuité de
G, et alors G(c0 ) = α et on prend c = c0 , γ = 0 et nous avons
(
n 1 si f (X n , θ1 ) > cf (X n , θ0 )
φ(X ) =
0 si f (X n , θ1 ) < cf (X n , θ0 );
le test est de niveau α car
Enθ0 (φ(X n )) = G(c0 ) + 0 = α;
• ou bien c0 est un point de discontinuité de G et on prend c = c0 et on

pose
α − G(c0 )
γ= ∈ [0, 1];
G(c−0 ) − G(c0 )
a nouveau, le test est de niveau α.

2. On montre que le test φ est le plus puissant. Supposons que ψ est un autre
test tel que Enθ0 ψ(X n ) ≤ α. Alors
Enθ0 (φ(X n ) − ψ(X n )) ≥ 0.
De la définition de φ, on tire :
- si f (X n , θ1 )−cf (X n , θ0 ) > 0 alors φ(X n ) = 1 ≥ ψ(X n ) et donc φ(X n )−
ψ(X n ) ≥ 0
- si f (X n , θ1 )−cf (X n , θ0 ) < 0 alors φ(X n ) = 0 ≤ ψ(X n ) et donc φ(X n )−
ψ(X n ) ≤ 0
C’est pourquoi
(φ(t) − ψ(t))(f (t, θ1 ) − cf (t, θ0 ) ≥ 0, ∀t ∈ Rn

Z
(φ(t) − ψ(t))(f (t, θ1 ) − cf (t, θ0 ))µ(dt) ≥ 0
Z Z
(φ(t) − ψ(t))f (t, θ1 )dt ≥ c (φ(t) − ψ(t))f (t, θ0 )dt.
La dernière inégalité s’écrit :
Enθ1 (φ(X n )) − Enθ1 (ψ(X n )) ≥ cα Enθ0 (φ(X n )) − Enθ0 (ψ(X n )) .

Ainsi Enθ1 (φ(X n )) ≥ Enθ1 (ψ(X n )) et le test φ est plus puissant que ψ.
Exemple 24. 1. Test de la moyenne d’une loi normale de variance connue :

On considère un échantillon X n = (X1 , . . . , Xn ) issu d’une loi normale N (m, σ 2 ),
m ∈ R, σ 2 > 0. Soit m0 , m1 ∈ R tels que m0 6= m1 . considère le problème de
test (
H0 : m = m0
H1 : m = m1
La vraisemblance de l’échantillon X n est
n
n ( )
n 1 1 X 2
f (X , m) = √ exp − 2 (Xi − m) .
2πσ 2σ
i=1
D’après le Lemme de Neyman-Pearson, le test P.P. est de la forme :
f (X n , m1 )

1 si >k


f (X n , m0 )
φ(X n ) = n
f (X , m1 )
0 si <k


f (X n , m0 )
avec
f (X n , m1 )

Pnm0 >k = α.
f (X n , m0 )
68
ENSEA-ITS2 69
Le rapport de vraisemblance est :

n
( )
f (X n , m1 ) 1 X 2 2

= exp − 2 (Xi − m1 ) − (Xi − m0 ) .
f (X n , m0 ) 2σ
i=1
en passant au logarithme et en développant, nous obtenons la région critique

suivante :
−σ 2 ln(k)

m0 + m1
Rn = X̄n − (m0 − m1 ) ≤ .
2 n
Si m0 < m1 , on aboutit à
Rn = X̄n ≥ λ
où
m1 + m0 σ 2 ln(k)
λ= − .
2 n(m0 − m1 )
Sous l’hypothèse H0 ,
√
σ2

n(X̄n − m0 )
X̄n ,→ N m0 , ⇔ ,→ N (0, 1).
n σ
Par suite, nous avons :

X̄n − m0 λ − m0
α= Pnm0 √ ≥ √ .
σ/ n σ/ n
En utilisant la table statistique, nous obtenons
λ − m0
√ = u1−α (quantile d’ordre 1 − α de N (0, 1))
σ/ n
soit
σu1−α
λ = m0 + √ .
n
Erreur de deuxième espèce :
√ √
n(X̄n − m1 ) n(λ − m1 )
Pnm1

βn = X̄n < λ = P <
σ σ
√
n(λ − m1 )
= FN (0,1) .
σ
La puissance du test est :
√
n(λ − m1 )
γn = 1 − FN (0,1) .
σ
Comme, √ √
n(λ − m1 ) n(m0 − m1 )
= + u1−α −→ −∞,
σ σ
la puissance γn −→ 1.

2. Test d’une proportion : On considère un échantillon X n = (X1 , . . . , Xn )

issu d’une loi de Bernouilli B(1, p), p ∈]0, 1[. Soient p0 , p1 ∈]0, 1[ tels que
p0 6= p1 . On considère le problème
(
H0 : p = p0
H1 : p = p1
La vraisemblance de l’échantillon est

Pni=1 Xi
p
f (X n , p) = (1 − p)n .
1−p
D’après le Lemme de Neyman-Pearson, le test P.P. est de la forme :
f (X n , p1 )

1 si ≥k


f (X n , p0 )



n

 f (X , p1 )
φ(X n ) = γ si =k
 f (X n , p0 )
f (X n , p1 )



0 si <k


f (X n , p0 )
avec
f (X n , p1 ) f (X n , p1 )

Pnp0 n
> k + γPp0 = k = α.
f (X n , p0 ) f (X n , p0 )
En passant au logarithme et en développant, nous obtenons
 n
 X
1 si Xi > c





 i=1
n


 X
n γ si Xi = c
φ(X ) =

 i=1
n



 X
0 si Xi < c



i=1
• Si la taille de l’échantillon est suffisamment grand (n > 30), nous pou-

vons utiliser le Théorème Central Limite qui stipule que :
√
n X̄n − p
p −→ N (0, 1).
p(1 − p)
Par suite, pour n suffisamment grand, nous avons

p(1 − p)
X̄n ,→ N p, .
n
Le test P.P. est alors de la forme
(
1 si X̄n ≥ c
φ(X1 , . . . , Xn ) =
0 si X̄n < c.
70
ENSEA-ITS2 71
Nous avons
√ √ !
n(X̄n − p0 ) n(c − p0 )
α = Pnp0 X̄n ≥ c = Pnp0

p ≥p .
p0 (1 − p0 ) p0 (1 − p0 )
en lisant dans une table statistique de la loi normale, nous obtenons

r
p0 (1 − p0 )
c = p0 + u1−α
n
où u1−α est le quantile d’ordre 1 − α de la loi N (0, 1).
L’erreur de deuxième espèce est donnée par
√ √ !
n(X̄ n − p1 ) n(c − p 1 )
β = Pnp1 p <p .
p1 (1 − p1 ) p1 (1 − p1 )
• Si n ≤ 30, nous procédons comme suit. Considérons le cas n = 10,

α = 0.05, p0 = 1/2, p1 = 1/4. En utilisant la table statistique de la loi
binomiale B(10, 1/2), nous obtenons :
P(B(10, 1/2) ≤ 6) = 0.943 ≤ α ≤ 0.9893 = P(B(10, 1/2) ≤ 7).
Alors c0 = 7 et 0.05 = 0.0147 + γ(0.0547 − 0.0147) soit

0.05 − 0.0147
γ= = 0.8825.
0.0547 − 0.0147
Le test de Neyman-Pearson est donc :
10

 X



1 si Xi > 7
i=1




 X10
φ(X1 , . . . , Xn ) = 0.8825 si Xi = 7


 i=1


 X10



0 si Xi < 7.
i=1
6.3 Tests entre hypothèses composites

On suppose que Θ ⊂ R. Les problèmes de tests sont de cinq types :
1. H0 : θ ≤ θ0 contre H1 : θ > θ0
2. H0 : θ ≥ θ0 contre H1 : θ < θ0
3. H0 : θ ≤ θ1 ou θ ≥ θ2 contre H1 : θ1 < θ < θ2
4. H0 : θ1 ≤ θ ≤ θ2 contre H1 : θ < θ1 ou θ > θ2
5. H0 : θ = θ0 contre H1 : θ 6= θ0 .
Sous certaines conditions, il existe des tests U.P.P. pour les problèmes 1, 2 et 3. La
situation est moins favorable pour les problèmes 4 et 5.

6.3.1 Famille à rapport de vraisemblance monotone

Définition 83. Soit (X1 , . . . , Xn ) un échantillon de densité f (x1 , . . . , xn , θ), θ ∈
Θ ⊂ R. Cette famille de lois est dite ”à rapport de vraisemblance monotone” en S
si l’ensemble D = {(x1 , . . . , xn ) ∈ Rn : f (x1 , . . . , xn , θ) > 0} ne dépend pas de θ et
0
il existe une statistique S(X1 , . . . , Xn ) telle que lorsque θ < θ” on a
0
f (x1 , . . . , xn , θ ) 6= f (x1 , . . . , xn , θ” )
et
f (x1 , . . . , xn , θ” )
0
R(x1 , . . . , xn , θ , θ” ) = = F (S(x1 , . . . , xn ))
f (x1 , . . . , xn , θ0 )
est une fonction monotone de S(x1 , . . . , xn ).
Proposition 14. Soit la famille de lois de densité de type exponentiel
f (x, θ) = h(x) exp{a(θ)U (x) + V (θ)}
et supposons que a(·) est croissante. Alors la famille est à rapport de vraisemblance
Xn
monotone croissant en S, où S(X n ) = U (Xi ). Si a(·) est décroissante alors le
i=1
rapport de vraisemblance est décroissant en S.
Preuve : On a
f (x1 , . . . , xn , θ) = H(x1 , . . . , xn ) exp{a(θ)S(x1 , . . . , xn ) + nV (θ)}
avec H(x1 , . . . , xn ) = h(x1 ) . . . h(xn ). Sur l’ensemble de points (x1 , . . . , xn ) où H(x1 , . . . , xn ) >
0, on a
0 f (x1 , . . . , xn , θ” )
R(x1 , . . . , xn , θ , θ” ) =
f (x1 , . . . , xn , θ0 )
n 0 0
o
= exp (a(θ” ) − a(θ ))S(x1 , . . . , xn ) + n(V (θ” ) − V (θ )) .
6.3.2 Tests U.P.P.

Théorème 26. Soit X n = (X1 , . . . , Xn ) de densité f (·, θ), θ ∈ Θ ⊂ R. Soit θ0 ∈ Θ
fixé. On considère le problème de test suivant
H0 : θ ≤ θ0 contre H1 : θ > θ0
au seuil α ∈]0, 1[.
1. Supposons qu’il s’agit d’une famille à rapport de vraisemblance croissant en
S. Il existe un test U.P.P. dans la classe des tests de seuil α donné par

n
1 si S(X ) > C

φ(X n ) = γ si S(X n ) = C (6.3.1)

 n
0 si S(X ) < C
où les constantes γ et C > 0 sont déterminées par
Enθ0 (φ(X n )) = Pnθ0 (S(X n ) > C) + γPnθ0 (S(X n ) = C) = α.
72
ENSEA-ITS2 73
2. Supposons qu’il s’agit d’une famille à rapport de vraisemblance décroissant

en S. Il existe un test U.P.P. dans la classe des tests de seuil α donné par

n
1 si S(X ) < C

φ(X n ) = γ si S(X n ) = C (6.3.2)

0 si S(X n ) > C


Enθ0 (φ(X n )) = Pnθ0 (S(X n ) < C) + γPnθ0 (S(X n ) = C) = α.
Exemple 25.
Théorème 27. Soit X n = (X1 , . . . , Xn ) de densité f (·, θ), θ ∈ Θ ⊂ R. Soit θ0 ∈ Θ
fixé. On considère le problème de test suivant
H0 : θ ≥ θ0 contre H1 : θ < θ0
1. Supposons qu’il s’agit d’une famille à rapport de vraisemblance décroissant
en S. Il existe un test U.P.P. dans la classe des tests de seuil α donné par

n
1 si S(X ) > C

φ(X n ) = γ si S(X n ) = C (6.3.3)

 n
0 si S(X ) < C
Enθ0 (φ(X n )) = Pnθ0 (S(X n ) > C) + γPnθ0 (S(X n ) = C) = α.
2. Supposons qu’il s’agit d’une famille à rapport de vraisemblance croissant en

S. Il existe un test U.P.P. dans la classe des tests de seuil α donné par

n
1 si S(X ) < C

n
φ(X ) = γ si S(X n ) = C (6.3.4)

 n
0 si S(X ) > C
Enθ0 (φ(X n )) = Pnθ0 (S(X n ) < C) + γPnθ0 (S(X n ) = C) = α.
Exemple 26.
Théorème 28. Soit X n = (X1 , . . . , Xn ) un échantillon issu d’une loi de probabilité
Pθ , θ ∈ Θ ⊂ R de densité de type exponentiel
f (x, θ) = h(x) exp {a(θ)U (x) + V (θ)} .
Soient θ1 , θ2 ⊂ Θ fixés et θ1 < θ2 . On considère le problème de test suivant
H0 : θ ≤ θ1 ou θ ≥ θ2 contre H1 : θ1 < θ < θ2

1. Si la famille de lois est à rapport de vraisemblance monotone croissant en S

alors le test U.P.P. dans la famille des tests de seuil α est donné par



 1 si C1 < S(X n ) < C2
γ si S(X n ) = C

1 1
φ(X n ) = n


 γ2 si S(X ) = C2
0 si S(X n ) < C ou S(X n ) > C

1 2
où les constantes γ1 , γ2 , C1 et C2 sont déterminées par les équations

Pnθ1 (C1 < S(X n ) < C2 ) + γ1 Pnθ1 (S(X n ) = C1 ) + γ2 Pnθ1 (S(X n ) = C2 ) = α
Pnθ2 (C1 < S(X n ) < C2 ) + γ1 Pnθ2 (S(X n ) = C1 ) + γ2 Pnθ2 (S(X n ) = C2 ) = α
2. Si la famille de lois est à rapport de vraisemblance monotone décroissant en

S alors le test U.P.P. dans la famille des tests de seuil α est donné par



 1 si S(X n ) < C1 ou S(X n ) > C2

1 1
φ(X n ) = n


 γ2 si S(X ) = C2
0 si C < S(X n ) < C

1 2

Pnθ1 (S(X n ) < C1 ou S(X n ) > C2 ) + γ1 Pnθ1 (S(X n ) = C1 ) + γ2 Pnθ1 (S(X n ) = C2 ) = α
Pnθ1 (S(X n ) < C1 ou S(X n ) > C2 ) + γ1 Pnθ1 (S(X n ) = C1 ) + γ2 Pnθ1 (S(X n ) = C2 ) = α
6.3.3 Tests U.P.P.S.B.

Théorème 29. Soit X n = (X1 , . . . , Xn ) un échantillon issu d’une loi de probabilité
Pθ , θ ∈ Θ ⊂ R de densité de type exponentiel
f (x, θ) = h(x) exp {θU (x) + V (θ)} .
Soient θ0 , θ1 , θ2 ∈ Θ fixés avec θ1 < θ2 . On considère les problèmes de test suivant
H0 : θ1 ≤ θ ≤ θ2 contre H1 : θ < θ1 ou θ > θ2 (6.3.5)
H0 : θ = θ0 contre H1 : θ 6= θ0 (6.3.6)
Il existe un test U.P.P.S.B.



1 si S(X n ) < C1 ou S(X n ) > C2

1 1
φ(X n ) = n) = C


γ 2 si S(X 2
0 si C < S(X n ) < C

1 2
74
ENSEA-ITS2 75
• pour (6.3.5), Enθ1 (φ(X n )) = α et Enθ2 (φ(X n )) = α

• pour (6.3.6), Enθ0 (φ(X n )) = α et Enθ0 (S(X n )φ(X n )) = αEnθ0 (S(X n )).
n
X
n
On rappelle que S(X ) = U (Xi ).
i=1
6.4 Tests du χ2
• Test d’adéquation à une loi P ∗ : on donne un échantillon de taille n issu
d’une loi inconnue P et on désire vérifier si cette loi est une loi connue P ∗ . Le
problème de test d’hypothèses est formulé comme suit :
H0 : P = P ∗
H1 : P 6= P ∗
Les paramètres de P ∗ seront soit connues, soit estimées.

Résolution : Les observations sont regroupées en k classes et on note respec-
tivement (Oj )1≤j≤k et (Ej )1≤j≤k l’effectif observé et l’effectif théorique (sous
H0 ) de chaque classe. Pour mésurer l’adéquation de l’échantillon au modèle
théorique, on utilise la quantité suivante :
k
X (Oj − Ej )2
T = .
Ej
j=1
• Test d’indépendance : On observe un couple (Y, Z) où Y et Z sont respec-

tivement à r et s modalités ; on veut tester si Y et Z sont indépendantes.
Résolution : comparer les effectifs observés Ojl des classes (j, l), avec les
effets théoriques Ejl qu’on devrait obtenir sous l’hypothèse d’indépendance à
l’aide de la quantité
r X s
X (Ojl − Ejl )2
T = .
Ejl
j=1 l=1
• Test d’homogénéité : les observations d’une variable qualitative à k mo-

dalités sur p échantillons permettent-elles de conclure que les échantillons
proviennent d’une même population.
Résolution : comparer les effectifs observés Ojl de chacune des k modalités
sur les p échantillons, avec les effectifs théoriques Ejl qu’on devrait obtenir
dans le cas où ils seraient issus d’une même population à l’aide de la quantité
p X
k
X (Ojl − Eij )2
T = .
Ejl
j=1 l=1

6.4.1 Test d’adéquation à une loi donnée

On observe une variable aléatoire discrète susceptible de prendre k valeurs
a1 , . . . , ak . On note P = (p1 , . . . , pk ) le vecteur des probabilités définies par
pj = P(X1 = aj ), j ∈ {1, . . . , k}.
On veut tester si cette loi de probabilité inconnue P = (p1 , . . . , pk ) sur {a1 , . . . , ak }
est égale à une loi P ∗ = (p∗1 , . . . , p∗k ) définie sur le même ensemble. Ainsi, on veut
resoudre le problème de test suivant :
H0 : P = P ∗ contre H1 : P 6= P ∗ .
Pour j = 1, . . . , k, on note
n
1X Nj
p̂j = 1I{Xi =aj } =
n n
i=1
la fréquence empirique de aj . Le vecteur des fréquences empiriques est p̂ = (p̂1 , . . . , P̂k ).

Exercice 3. Montrer que p̂ est l’estimateur du maximum de vraisemblance de p.
L’idée qui est à la base du test est que le vecteur p̂ est proche de p∗ sous H0 que
sous H1 . Afin de quantifier la ”proximité”, Pearson a introduit la pseudo distance
k
X (p̂j − p∗j )2
ρn (p̂, π) = .
p∗j
j=1
En multipliant cette distance par n, on obtient le comportement asymptotique sui-

vant :
Théorème 30. Soit
k k
X (p̂j − p∗j )2 X (Nj − np∗j )2
Tn = nρn (p̂, p∗ ) = n = .
p∗j np∗j
j=1 j=1
Sous H0 , Tn converge en loi vers χ2 (k − 1). Sous H1 , Tn converge presque surement

vers +∞.
Il est donc naturel de proposer une région critique de la forme
Rn {Tn > c} où c = χ21−α,k−1 ,
car alors on arrive à un test qui est asymptotiquement de niveau α. En effet, sous
H0 :
lim P(Rn ) = lim P(Tn > c) = P(χ2k−1 > c) = α
n→+∞ n→+∞
Sous H1 nous avons

lim P(Rn ) = lim P(Tn > c) = 1,
n→+∞ n→+∞
c’est-à-dire la puissance du test tend vers 1 quand n tend vers l’infini. On dit que le
test est convergent. En pratique, ce test marche bien si n ≥ 30 et np∗j ≥ 5 (Nj ≥ 5)
pour tout j.
76
ENSEA-ITS2 77
Remarque 28. On observe X1 , . . . , Xn i.i.d. de même loi issue d’une loi P inconnue,
absolument continue par rapport à la mesure de Lebesgue sur R. Soit P ∗ une loi
absolument continue donnée. On considère le problème de test d’hypothèses suivant
H0 : P = P ∗ contre H1 : P 6= P ∗ .
Dans cette situation, on doit partitionner R en k classes Aj , j = 1, . . . , k. Pour

appliquer les mêmes idées que plus haut, d’une part, k doit être assez grand pour
que les lois discrètes, c’est-à-dire {pj = P (Aj )} et {p∗j = P ∗ (Aj )}, soient assez
proches des lois continues P et P ∗ . D’autre part, les probabilités P (Aj ) doivent être
suffisamment grandes, pour que l’approximation asymptotique soit valable.
Exemple 27.
6.4.2 Test d’adéquation à une famille de lois

On veut tester si la loi de probabilité inconnue P = (p1 , . . . , pk ) sur {a1 , . . . , ak }
est égale à une loi P ∗ (θ) = (p∗1 (θ), . . . , p∗k (θ)), θ ∈ Θ ⊂ Rs définie sur le même
ensemble avec θ inconnu. On considère donc le problème de test suivant
H0 : P = P ∗ (θ), θ ∈ Θ0 contre H1 : P 6= P ∗ (θ).
1. Comme précédemment, nous avons
k
X (Nj − np∗j (θ))2
Tn (θ) =
np∗j (θ)
j=1
mais la quantité Tn (θ) n’est plus une statistique car θ est inconnu.
2. On estime θ par l’estimateur du maximum de vraisemblance θ̂.
On a le résultat suivant
Théorème 31. Supposons que Θ0 est un ouvert de Rs , s < k, que pj : Θ0 → [0, 1]

∗
2
∂pj (θ)
est de classe C , pj (θ) 6= 0, ∀θ ∈ Θ, que ∀θ ∈ Θ la matrice est de rang
∂θl j,l
maximal s. Supposons que l’estimateur de maximum de vraisemblance θ̂n existe pour
tout n, et que pour tout n et j, p∗j (θ̂n ) > 0. Alors sous (H0 ),
Tn (θ̂n ) −→ χ2 (k − s − 1) en loi
quand n −→ +∞.
Exemple 28.

6.4.3 Test d’indépendance

On observe un couple X = (Y, Z) à valeurs dans {c1 , . . . , cr } × {d1 , . . . , ds } et
on veut tester si Y et Z sont indépendantes. On considère un échantillon de taille
((Y1 , Z1 ), . . . , (Yn , Zn )) de même loi que (Y, Z). On note
pjl = P(Y = cj , Z = dl ) (j, l) ∈ {1, . . . , r} × {1, . . . , s}.
Y et Z sont indépendantes ⇐⇒ pjl = pj• p•l ∀(j, l) ∈ {1, . . . , r} × {1, . . . , s}

où
s
X r
X
pj• = pjl p•l = pjl .
l=1 j=1
Nij Nj• N•l

On estime pjl par p̂jl = , pj• par p̂j• = et p•l par p̂•l = . Sous l’hypothèse
n n n
d’indépendance, on estime pjl par
Nj• N•l
p̂jl = p̂j• p̂•l = .
n2
La statistique de test est définie par
2
Nj• N•l
r X
X s Njl − n
Tn = Nj• N•l
.
j=1 l=1 n
La statistique Tn converge vers un khi-deux à rs − (r + s − 2) − 1 = (r − 1)(s − 1)

dégrés de liberté lorsque n → +∞.
La région critique du test est
n o
Rn = Tn > χ2(r−1)(s−1),1−α
où χ2(r−1)(s−1),1−α est le quantile d’ordre 1 − α de la loi χ2 ((r − 1)(s − 1)). On rejette
l’hypothèse H0 si Tn dépasse χ2(r−1)(s−1),1−α et on l’accepte sinon.
Exemple 29. Nous faisons le test d’indépendance suivant :

H0 : la couleur des yeux est indépendante du sexe
H1 : la couleur des yeux dépend du sexe.
La région critique du test est
Rn = Tn > χ24,0.95 ,

2
N N
2 X
X 5 Nij − i•n •j
Tn = Ni• N•j
i=1 j=1 n
et χ24,0.95 est le quantile d’ordre 0.95 de la loi du Khi-deux χ2 (4) car 4=(2-1)(5-1).
78
ENSEA-ITS2 79
Blond Roux Chatin Brun Noir de jais
Garçons 592 119 849 504 36 N1• =2100
Filles 544 97 677 451 14 N2• =1783
N•1 =1136 N•2 =216 N•3 =1526 N•4 = 955 N•5 =50 n=3883
Après calcul (si je ne me suis pas trompé), on obtient T=10.47. Il faut ensuite
déterminer le quantile d’ordre 0.95 de χ2 (4) : χ24,0.95 =9.49.
On remarque que 10.47 > 9.49, on rejette donc H0 c’est à dire qu’au seuil 0.05, la
couleur des yeux dépend du sexe.

80
Chapitre 7
Régression linéaire
7.1 Introduction
La régression est une technique statistique permettant de modéliser la relation
entre une variable à expliquer Y et des variables explicatives X1 , . . . , Xp dans le
but :
- de mesurer l’impact ou l’effet de X1 , . . . , Xp sur Y
- de prédire Y connaissant X1 , . . . , Xp .
La modélisation permet d’exprimer sous la forme d’une relation mathématique la
relation supposée :
Y = f (X1 , . . . , Xp ) + ε
où ε est une variable appelée erreur ou bruit. Ce terme d’erreur rassemble tous
les autres facteurs affectant le phénomène en dehors de X1 , . . . , Xp ainsi que les
possibles erreurs de mesure sur la variable Y .
Exemple 30. 1. Consommation des ménages

- Y est le budget consacré à la consommation des ménages
- X1 est le Revenu du foyer
- X2 est la taille du foyer (nombre de personnes).
Le modèle devient
Y = f (X1 , X2 ) + ε.
2. Y est le salaire d’un employé dans une entreprise

- X1 est l’âge de l’employé
- X2 est le nombre d’années d’étude
- X3 est le nombre d’années d’expérience
Le modèle est
Y = β0 + β1 X1 + β2 X2 + ε.
81
Exemple 31. En économie, on applique la transformation logarithmique à la fonc-

tion de production Cobb-Douglas, qui se définit comme
P = AK B T C
où
- P est la quantité produite
- K est la quantité de capital utilisée
- T est la quantité de main-d’oeuvre utilisée A, B et C sont des paramètres.
Quand on applique la transformation logarithmique, en posant Y = log P , X1 =
log K, X2 = log T , le modèle devient linéaire :
Y = log A + BX1 + CX2 + ε.
7.2 Régression simple : p = 1

7.2.1 Modélisation
Définition 84. Le modèle de régression linéaire simple est défini par une équation
de la forme
Yi = β0 + β1 Xi + εi ∀i ∈ {1, . . . , n.}
Nous faisons les hypothèses suivantes :
(
(H1 ) : E(εi ) = 0 ∀i ∈ {1, . . . , n}
(H2 ) : Cov(εi , εj ) = δij σ 2 pour tout couple (i, j)
Les erreurs sont supposées centrées, de même variance (homoscédasticité) et non

corrélées i.e. Cov(εi , εj ) = 0 pour i 6= j.
Démarche de la régression :
1. Vérifier la possibilté d’une liaison linéaire entre Y et X : nuage de points,
coefficient de corrélation.
2. Estimation des paramètres β0 , β1 et σ 2 .
3. Validation du modèle : indice de qualité R2 , validité globale de Fisher, vadilité
marginale de Student, étude des résidus, détection des points atypiques.
7.2.2 Estimateurs des moindres carrés

Définition 85. On appelle estimateurs des moindres carrés de β0 et β1 , les estima-
teurs β̂0 et β̂1 obtenus par minimisation de la quantité
n
X
S(β0 , β1 ) = (Yi − β0 − β1 Xi )2 .
i=1
82
ENSEA-ITS2 83
Calcul des estimateurs de β0 et β1 :
n n n
 
 ∂S(β0 , β1 ) X  X X
= −2 (Yi − β0 − β1 Xi ) = 0 nβ0 + β Xi = Yi

 

∂β0

 
i=1 i=1 i=1
n ⇒ n
! n n
 ∂S(β0 , β1 ) X  X X
2
X

 = −2 Xi (Yi − β0 − β1 Xi ) = 0 
 Xi β0 + β1 Xi = Xi Yi
∂β0

 

i=1 i=1 i= i=1
Pn
i=1 Xi Yi − nX̄n Ȳn
β̂1 = P n 2 2
i=1 Xi − nX̄n
β̂0 = Ȳn − β1 X̄n
Définition 86. La droite de regression est déterminée par la formule
Ŷ = β̂0 + β̂1 X.
Remarque 29. - Si nous évaluons la droite aux points Xi ayant servi à estimer
les paramètres, nous obtenons des Ŷi appelées valeurs ajustées.
- si nous évoluons la droite en des points n’ayant pas servi à l’estimation
des paramètres, les valeurs obtenues seront appelées valeurs prévues ou
prévisions
- La droite de régression passe par le centre de gravité (X̄n , Ȳn ).
Propriétés des estimateurs

Proposition 15. β̂0 et βˆ1 sont des estimateurs sans biais de β0 et β1 respectivement
i.e. E(β̂0 ) = β0 et E(β̂1 = β1 .
Preuves en exercice.
Proposition 16. Nous avons :
X̄n2

2
var(β̂0 ) = σ 1 + Pn 2
i=1 (Xi − X̄n )
σ2
var(β̂1 ) = Pn 2
i=1 (Xi − X̄n )
σ 2 X̄n
Cov(β̂0 , β̂1 ) = Pn 2
.
i=1 (Xi − X̄n )
Preuves en exercice.
Remarque 30. Plus la variance est faible, plus l’estimateur sera précis. Pour avoir
des variances petites, il faut avoir un numerateur petit et (ou) un dénominateur
grand. Les estimateurs seront donc de faibles variances lorsque

• σ 2 est faible i.e. que la variance de Y est faible et donc les mesures sont proches
de la droite à estimer.
X n
• La quantité (Xi − X̄n )2 est grande, les Xi doivent être dispersées autour
i=1
de leur moyenne.
Théorème 32. (Gauss-Markov)

Parmi les estimateurs sans biais linéaires en Y , les estimateurs β̂0 et β̂1 sont de
variance minimale.
Résiuds et variance résiduelle

Les résidus sont les estimateurs des erreurs inconnus εi .
Définition 87. (Résidus)

Les résidus sont définis par :
ε̂i = Yi − Ŷi
où Ŷi est la valeur ajustée de Yi par le modèle i.e Ŷi = β̂0 + β̂1 Xi .
Proposition 17. Dans un modèle de regression linéaire simple, nous avons :

n
X
ε̂i = 0.
i=1
n
1 X 2
2
Proposition 18. La statistique σ̂ = ε̂i est un estimateur sans biais de
n−2
i=1
σ2.
Validation du modèle
Un modèle est bon si Ŷi sont proches des vraies valeurs Yi .
Xn
• SCT = (Yi − Ȳ )2 (Somme des carrés totale)
i=1
Xn
• SCE = (Ŷi − Ȳ )2 (Somme des carrés expliquée)
i=1
n
X
• SCR = (Ŷi − Yi )2 (Somme des carrés résiduelle)
i=1
Equation de l’analyse de la variance : SCT = SCE + SCR.
Définition 88. Le coefficient de détermination R2 est définie par :
SCE
R2 = .
SCT
84
ENSEA-ITS2 85
Remarque 31. • 0 ≤ R2 ≤ 1
• Si R2 = 1, le modèle explique tout i.e. Yi = β0 + β1 Xi .
n
X
• Si R2 = 0 i.e (Ŷi − Ȳ )2 = 0 et donc que Ŷi = Ȳ , le modèle de regression
i=1
linéaire est inadapté (absence de liaison linéaire).
Prévision
La valeur pour laquelle nous effectuons la précision n’a pas servi dans le calcul
des estimateurs. Soit Xn+1 cette valeur. Nous voulons prédire Yn+1 . Le modèle
indique que Yn+1 = β0 + β1 Xn+1 + εn+1 avec E(εn+1 ) = 0, var(εn+1 ) = σ 2 et
Cov(εn+1 , εi ) = 0 pour i = 1, . . . , n. Nous pouvons prédire Yn+1 grâce au modèle
estimé :
p
Ŷn+1 = β̂0 + β̂1 Xn+1 .
Deux types d’erreurs entachent notre prévision :

- l’une due à la non connaissance de εn+1
- l’autre due à l’estimation des paramètres.
p
Proposition 19. (Variance de la prévision Yn+1 )
(Xn+1 − X̄)2

p 2 1
var(Yn+1 ) =σ + Pn 2
.
n i=1 (Xi − X̄)
p
var(Yn+1 ) nous donne une idée de la stabilité de l’estimation. En prévision, on
s’interesse généralement à l’erreur que l’on commet entre la vraie valeur à prévoir
p
Yn+1 et celle que l’on prévoit Yn+1 . l’erreur peut être simplement résumée par la
différence entre les deux valeurs : erreur de prévision. Cette erreur de prévision
permet de quantifier la capacité du modèle à prévoir.
Proposition 20. (Erreur de prévision)

L’erreur de prévision définie par εpn+1 = Yn+1 − Yn+1
p
satisfait les propriétés sui-
vantes :
E(εpn+1 ) = 0
(Xn+1 − X̄)2

1
var(εpn+1 ) = σ 2 1 + + Pn 2
.
n i=1 (Xi − X̄)
Remarque 32. La variance augmente lorque Xn+1 s’éloigne du centre de gravité du

nuage de points. Effectuer une prévision lorsque Xn+1 est ”loin” de X̄ est donc
périleux, la variance de l’erreur de prévision peut être alors très grande.

7.2.3 Modèle linéaire Gaussien simple
(H3 ) : ε1 , . . . , εn sont indépendantes et εi ,→ N (0, σ 2 ) pour tout i ∈ {1, . . . , n}.
Proposition 21. (Lois des estimateurs : σ 2 connue)

σ2 n X 2
P
• β̂0 ,→ N β0 , Pn i=1 i 2
n i=1 (Xi − X̄)
σ2

• β̂1 ,→ N β1 , Pn 2
i=1 (Xi − X̄)
1 Pn 2

β̂0 β0 1 n i=1 Xi −X̄n
• β̂ = ,→ N (β, σV ) où β = et V = Pn
β̂1 β1 i=1 (Xi − X̄)
2 −X̄n 1
(n − 2)σ̂ 2
• ,→ χ2 (n − 2)
σ2
• (β̂0 , β̂1 ) et σ̂ 2 sont indépendants.
Proposition 22. (Lois des estimateurs : σ 2 inconnue)

Lorsque σ 2 est estimée par σ̂ 2 ,
β̂0 − β0
• Pn 1/2 ,→ T (n − 2)
σ̂ 2 Xi2
i=1
n n X̄)2
P
i=1 (Xi −
β̂1 − β1
• 1/2 ,→ T (n − 2)
2
Pn σ̂ 2
i=1 (X i −X̄)
1
• (β̂ − β)V −1 (β̂ − β) ,→ F2,n−2 (loi de Fisher à 2 dégrés de liberté au numérateur
2σ̂ 2
et n − 2 dégrés de liberté au dénominateur.
Les propositions ci-dessus nous permettent de donner des intervalles de confiance

ou des régions de confiance des paramètres inconnus. En effet, la valeur ponctuelle
d’un estimateur est en général insuffisante et il est nécessaire de lui adjoindre un
intervalle de confiance.
Proposition 23. • Un intervalle de confiance de βi , i ∈ {0, 1} est donné par :
[β̂i − tn−2,1−α/2 σ̂β̂i , β̂i + tn−2,1−α/2 σ̂β̂i ]
où tn−2 (1 − α/2) est le quantile d’ordre 1 − α/2 de T (n − 2).

• Une région de confiance simultané de β est donnée par l’équation
n
" #
1 X
n(β̂0 − β0 )2 + 2nX̄n (β̂0 − β0 )n(β̂1 − β1 ) + Xi2 n(β̂1 − β1 )2 ≤ f(2,n−2),1−α
2σ̂ 2
i=1
où f(2,n−2),1−α représente le quantile de niveau 1 − α d’une loi de Fisher à

(2, n − 2) dégrés de liberté.
86
ENSEA-ITS2 87
• Un intervalle de confiance de σ 2 est donné par
(n − 2)σ̂ 2 (n − 2)σ̂ 2

,
cn−2,1−α/2 cn−2,α/2
où cn,γ représente le quantile d’ordre γ de la loi de χ2 (n − 2)
Proposition 24. Un intervalle de confiance pour E(Yi ) = β0 + βXi est donné par
" s #
+ 1 (Xj − X̄n )2
Ŷj − tn−2,1−α/2 σ̂ + Pn 2
.
n i=1 (Xi − X̄n )
Proposition 25. Un intervalle de confiance pour Yn+1 est donné par

" s #
+ 1 (X − X̄ ) 2
p n+1 n
Yn+1 − tn−2,1−α/2 σ̂ 1 + + Pn 2
.
n i=1 (Xi − X̄n )
Cette formule exprime que plus le point à prévoir est éloigné de X̄, plus la
variance de la prévision et donc de l’intervalle de confiance seront grandes.
7.3 Regression linéaire multiple : p > 1

7.3.1 Modélisation
Nous supposons que les données collectées suivent le modèle suivant :
Yi = β1 + β2 Xi2 + · · · + βp Xip + εi , i = 1, . . . , n
où les Xij son connus et non aléatoires, les βj sont des paramètres inconnus et les
variables εi sont aléatoires.
Définition 89. Un modèle de regression linéaire multiple est défini par l’équation
Y = Xβ + ε
où Y est un vecteur aléatoire de dimension n, X est une matrice n × p connue, β

est le vecteur de dimension p des paramètres inconnus et ε est le vecteur centré de
dimension n des erreurs.
Définition 90. (Identification du modèle)

On dira que le modèle est identifiable si n ≥ p et les colonnes de X sont linéairement
indépendantes i.e. qu’aucune colonne de X ne s’écrit comme une combinaison linéaire
des autres :
∀β0 , β1 Xβ0 = Xβ1 ⇒ β0 = β1 .
Proposition 26. (Condition d’identification)

0
Le modèle est identifiable si seulement si X X est non singulière i.e. inversible.

Nous faisons les hypothèses suivantes

- (H1 ) : rang(X) = p
i.e que les colonnes de X sont linéairement indépendantes ; ainsi
pour tout z ∈ Rp , nous avons
0 0
z (X X)z = kXzk2 ≥ 0
et
kXzk = 0 ⇒ z = 0;
0
ce qui implique que la matrice X X est symétrique définie positive
donc inversible ; le modèle est donc identifiable.
- (H2 ) : E(ε) = 0, Σε = σ 2 In , σ 2 > 0 (matrice de variance-covariance de ε)
i.e que les composantes de ε sont centrées, de même variance (ho-
moscédasticité) et non correlées entre elles.
7.3.2 Estimateurs des moindres carrés ordinaires

Définition 91. On appelle EMC β̂ de β la valeur suivante
n p
0
X X
β̂ = arg min (Yi − βj Xij )2 = arg minp (Y − Xβ) (Y − Xβ).
β1 ,...,βp β∈R
i=1 j=1
Calcul de β̂
Théorème 33. Si (H1 ) est vérifiée alors l’estimateur des MC de β̂ de β vaut
0 0
β̂ = (X X)−1 X Y.
Preuve :
0
S(β) = (Y − Xβ) (Y − Xβ)
0 0 0 0 0 0
= Y Y + β X Xβ − Y Xβ − β X Y
0 0 0 0
= Y Y + β X Xβ − 2Y Xβ
∂S(β) 0 0 0 0 ∂ 2 S(β) 0
Nous avons : = 0 ⇔ −2X Y + 2X β̂ = 0 ⇔ β̂ = (X X)−1 X Y. Puisque 2
= 2X X
∂β ∂β
est une matrice définie positive, alors β̂ est un minimum strict. (H1 ) garantit l’uni-
cité de β̂
Propriétés des estimateurs

Proposition 27. Sous (H2 ), l’estimateur β̂ est un estimateur sans biais de β et sa
0
variance vaut var(β̂) = σ 2 (X X)−1 .
Proposition 28. (Gauss-Markov)
L’estimateur β̂ des MC est optimal parmi les estimateurs linéaires sans biais de β.
88
ENSEA-ITS2 89
Résidus et variance résiduelle

Les résidus sont définis par la relation suivante ε̂ = Y − Ŷ = Y −X β̂ = (1−PX )Y
0 0
où PX = X(X X)−1 X .
Proposition 29. Sous les hypothèses (H1 ) et (H2 ), nous avons :
E(ε̂) = 0
var(ε̂) = σ 2 (1 − PX )
E(Ŷ ) = Xβ
var(Ŷ ) = σ 2 PX
cov(ε̂, Ŷ ) = 0
Remarque 33. Les résidus estimés ε̂ de ε possède la même espérance que ε. En

revanche, les composantes de ε̂ sont généralement corrélés.
Afin d’éliminer la non-homogeneı̈té des variances des résidus estimés, nous préférons
utiliser les résidus normalisés
ε̂i
ri = p .
σ 1 − (PX )ii
Comme σ 2 est inconnue, il est nécessaire de le remplacer par son estimateur. Les
résidus
ε̂i
ti = p
σ̂ 1 − (PX )ii
sont appelés résidus studentisés.
Un estimateur naturel de la variance résiduelle est donné par
n
1X 2 1
ε̂i = kε̂k.
n n
i=1
Comme,
0
E(kε̂k2 ) = E(tr(ε̂ ε̂))
0
= E(tr(ε̂ε̂ ))
0
= tr(E(ε̂ε̂ )
= tr(σ 2 (1 − PX ))
= σ 2 (n − p)
alors cet estimateur naturel est biaisé. Afin, d’obtenir un estimateur sans biais de
σ 2 , nous définissons donc
n
1 X 2
σ̂ 2 = ε̂i .
n−p
i=1

Proposition 30. La statistique σ̂ 2 est un estimateur sans biais de σ 2 .

A partir de σ̂ 2 , nous obtenons un estimateur de la variance de β̂ en remplaçant
σ 2 par son estimateur
0
σ̂β̂2 = σ̂ 2 (X X)−1 .
Nous avons donc un estimateur de l’écart-type de l’estimateur β̂j de chaque coeffi-

cient de la régression βj q
σ̂β̂j = σ̂ 2 [(X 0 X)−1 ]jj .
Validation du modèle
Définition 92. Le coefficient de détermination multiple R2 est défini par
kŶ − Ȳ 1Ik2 kε̂k2
R2 = = 1 − .
kY − Ȳ 1Ik2 kY − Ȳ 1Ik2
Définition 93. Le coefficient de détermination ajusté Ra2 est défini par
n−1 kε̂k2
Ra2 = 1 − .
n − p kY − Ȳ 1Ik2
L’ajustement correspond à la division des normes au carré par leur dégré de
liberté (ou dimension du sous-espace auquel le vecteur appartient) respectif.
Prévision
Soit une nouvelle valeur Xn+1 et nous voulons prédire Yn+1 . Or
0
Yn+1 = Xn+1 β + εn+1
avec E(εn+1 ) = 0, var(εn+1 ) = σ 2 et cov(εn+1 , εi ) = 0 pour i = 1, . . . , n. Nous
pouvons donc prédire la valeur correspondante grâce au modèle ajusté
p 0
Yn+1 = Xn+1 β̂.
Deux types d’erreurs vont entacher la prévision, lapremière due à l’incertitude sur
εn+1 et l’autre à l’incertitude due à l’estimation. Calculons la variance de l’erreur
de prévision
p 0 0
var(Yn+1 − Yn+1 ) = σ 2 (1 + Xn+1 (X X)−1 Xn+1 ).
Nous retrouvons bien l’incertitude due aux erreurs σ 2 sur laquelle vient s’ajouter
l’incertitude de l’estimation.
Remarque 34. Puisque l’estimateur β̂ est un estimateur sans biais de β et l’espérance
p
de ε vaut zéro, les espérances de Yn+1 et Yn+1 sont identiques. La variance de l’erreur
de prévision s’écrit :
p p
var(Yn+1 − Yn+1 ) = E(Yn+1 − Yn+1 )2 .
Nous voyons donc ici que la variance de l’erreur de prévision est mesurée par l’erreur
quadratique moyenne de prévision. Nous retrouverons cette quantité qui joue un rôle
central dans l’évaluation de la qualité des modèles
90
ENSEA-ITS2 91
7.3.3 Modèle gaussien

Nous allons désormais supposer que les erreurs suivent une loi normale :
(H3 ) : ε ,→ N (0, σ 2 In ).
Dans le cas gaussien, cov(εi , εj ) = σ 2 δij implique que les εi sont indépendantes.
L’hypothèse (H3 ) s’écrit ε1 , . . . , εn sont i.i.d. et de loi N (0, σ 2 ). L’hypothèse gaus-
sienne va nous permettres de calculer la vraisemblance et donc les estimateurs du
maximum de vraisemblance. Cette hypothèse va nous permettre également de cal-
culer des régions de confiance et de proposer des tests.
Estimateur du maximum de vraisemblance

La vraisemblance de l’échantillon est défini par
  2 
n/2 n p
1 1 X X
L(Y, β, σ 2 ) = exp − 2 Yi − βj Xij  
2πσ 2 2σ
i=1 j=1
n/2
1 1 2
= exp − 2 kY − Xβk .
2πσ 2 2σ
2 kY − X β̂M V k2 n−p 2
Nous obtenons βM V = β̂ et σ̂M V = = σ̂ . L’estimateur du
n n
maximum de vraisemblance est donc biaisé par opposition à l’estimateur σ̂ 2 obtenu
par les moindres carrés.
Propriétés statistiques
Grâce à l’hypothèse gaussienne, nous pouvons améliorer le théorème de Gauss-
Markov. L’optimalité des estimateurs est élargie et nous ne considérons non plus
les estimateurs linéaires sans biais, mais la classe plus grande des estimateurs sans
biais. De plus, le théorème intègre l’estimateur de σ 2 .
Proposition 31. (β̂, σ̂ 2 ) est une statistique complète et de variance minimum dans
la classe des estimateurs sans biais.
Proposition 32. (Lois des estimateurs : variance connue)

Sous les hypothèses (H1 ) et (H3 ), nous avons
0
• β̂ est un vecteur gaussien de moyenne β et de variance σ 2 (X X)−1
(n − p)σ̂ 2
• ,→ χ2 (n − p)
σ2
• β̂ et σ̂ 2 sont indépendantes
Proposition 33. (Lois des estimateurs : variance estimée)

Sous les hypothèses (H1 ) et (H3 ), nous avons

β̂j
q
• Pour j = 1, . . . , p Tj = βj σ̂ [(X 0 X)−1 ]jj ,→ T (n − p)
−
• Soit R une matrice de taille q × p de ran q alors la variable aléatoire
1 0 0 0
2
(R(β̂ − β)) [R(X X)−1 R ]−1 R(β̂ − β) ,→ Fq,n−p .
qσ̂
(n − p)σ̂ 2
,→ χ2 (n − p)
σ2
• β̂ et σ̂ 2 sont indépendantes
Intervalles et régions de confiance

Les logiciels et certains ouvrages donnent des IC pour les paramètres séparement.
Cependant, ces IC ne tiennent pas compte de la dépendance des estimations.
Proposition 34. • Un IC de niveau 1 − α pour un βj , j = 1, . . . , p est donné

par
q q
0 −1 0 −1
β̂j − tn−p,1−α/2 σ̂ [(X X) ]jj , β̂j − tn−p,1+α/2 σ̂ [(X X) ]jj
• Un IC de niveau 1 − α pour σ 2 est donné par
(n − p)σ̂ 2 (n − p)σ̂ 2

, où P(c1 ≤ χ2 (n − p) ≤ c2 ) = 1 − α
c2 c1
• Une RC pour q(q ≤ p) paramètres βj notés (βj1 , . . . , βjq ) de niveau 1 − alpha

est donnée
- lorsque σ est connue par

1
q 0 0 −1 0 −1
Rβ ∈ R , 2 [R(β̂ − β)] [R(X X) R ] [R(β̂ − β)] ≤ χq,1−α .
σ
- σ est inconnue par

1
q 0 0 −1 0 −1
Rβ ∈ R , 2 [R(β̂ − β)] [R(X X) R ] [R(β̂ − β)] ≤ fq,n−p,1−α .
σ
où R est la matrice de taille q×p dont tous les éléments sont nuls sauf les [R]iji
qui valent 1. Les valeurs c1 et c2 sont les quantiles d’un χ2 (q) et fq,n−p,1−α
est le quantile d’ordre 1 − α d’une loi de fisher admettant (q, n − p) degrés de
liberté.
92
ENSEA-ITS2 93
Prévision
0
Soit Xn+1 = (Xn+1,1 , . . . , Xn+1,p ) une nouvelle valeur et nous voulone prédire
Yn+1 Le modèle indique
0
Yn+1 = Xn+1 β + εn+1 ,
avec les εi i.i.d et qui suivent une N (0, σ 2 ). Apartir des n observations, nous avons
estimé β̂ et nous prévoyons Yn+1 par
p 0
Yn+1 = Xn+1 β̂.
p
Nous calculons l’espérance et la variance de l’erreur de prévision ε̂n+1 = Yn+1 −Yn+1 :
p
E(Yn+1 − Yn+1 )=0
h 0 0
i
p 2 −1
var(Yn+1 − Yn+1 ) = σ Xn+1 (X X) Xn+1 + 1 .
Proposition 35. (IC de prévision)

Un IC de niveau 1 − α pour Yn+1 est donné

+
q
0 0 0 −1
Xn+1 − tn−p,α/2 σ̂ Xn+1 (X X) Xn+1 + 1 .
Tests d’hypothèses
Test de Student de signification d’un coefficient βj
Nous voulons tester H0 : βj = 0 contre H1 : βj 6= 0. La statistique de test est
kŶ − Ŷ0 k2
F = .
σ̂
Nous rejetons H0 si l’observation de la statistique F notée f est telle que
f > f1,n−p,1−α .
La statistique de test est un Fisher à (1,n-p) dégrés de liberté.

Ce test est équivalent ay test de Student à n − p dégrés de liberté qui permet de
tester H0 : βj = 0 contre H1 : βj 6= 0 avec la statistique de test
β̂j
T =
σ̂ 2
β̂j
qui suit sous H0 une loi de Student à n − p dégrés de liberté. Nous rejetons H0 si
l’observation t de la statistique est telle que
t > tn−p,1−α/2 .

94
Chapitre 8
Travaux dirigés 2010-2011
8.1 TD 1 Problèmes et outils statistiques

Exercice 1.
1. Soit (X1 , . . . , Xn ) un échantillon issu de la loi U([a, b]) avec a < b. Montrer
que (X(1) , X(n) ) est une statistique exhaustive pour (a, b).
2. On considère une variable aléatoire X discrète à valeurs dans {−1, 0, 1} dont
la loi de probabilité est telle que P(X = −1) = b, P(X = 0) = 1 − 2b et
P(X = 1) = b. Indiquer les conditions que doit vérifier le paramètre b pour
que le support de cette loi soit égal à S = {−1, 0, 1}. On suppose que ces
conditions sont vérifiées. Cette loi appartient-elle à la famille exponentielle ?
Exercice 2.
1. Soit X1 , . . . , Xn un échantillon de taille n issu d’une loi de densité
f (x, θ) = (1 + θ)xθ 1I[0,1] (x).
Quelles sont les valeurs possibles de θ ? Trouver une statistique exhaustive

pour le paramètre θ.
2. Soit X1 , . . . , Xn un échantillon de taille n issu d’une loi de Bernouilli B(1, p).
n
X
Montrer que Xi est une statistique exhaustive pour le paramètre p en
i=1
n
X
calculant la loi conditionnelle de (X1 , . . . , Xn ) sachant Xi .
i=1
Exercice 3. Soit un échantillon X n = (X1 , . . . , Xn ) issu de la loi de densité :

1
f (x, θ) = x−1+1/θ exp(−x1/θ )1I]0,1[ (x)
θ
où θ ∈]0, ∞[ est un paramètre inconnu. Déterminer une statistique exhaustive mini-
male et complète pour ce modèle et déterminer son information de Fisher. Montrer
95
Qn
log X2 i=2 log(Xi )
que la statistique T2 = est libre. En déduire que Tn = l’est
log(X1 ) log(X1 )
également.
Exercice 4. Soit X une variable aléatoire suivant une loi N (θ, 1) et soit (X1 , . . . , Xn )
un échantillon de X.
1. Montrer que la variance empirique Sn2 et l’étendue X(n) − X(1) sont des sta-
tistiques libres pour le paramètre θ.
2. Donner la loi de la moyenne empirique X̄n et montrer que cette statistque est
exhaustive complète pour θ.
3. Retrouver l’indépendance de X̄n et Sn2 .
Notations
n
1X
X̄n = Xi
n
i=1
n
1X
Sn2 = (Xi − X̄n )2
n
i=1
X(n) = max(X1 , . . . , Xn )
X(1) = min(X1 , . . . , Xn )
96
ENSEA-ITS2 97
8.2 TD 2 Estimation ponctuelle

Exercice 1. On considère le modèle d’échantillonnage X1 , . . . , Xn de taille n associé
à la famille de lois de poissons P = {P(θ), θ > 0}. On cherche à estimer Pθ (Xi = 0).
1. Montrer que le modèle est exponentiel. Déterminer la statistique canonique
S. Est-elle exhaustive et totale ? Donner sa loi.
2. Calculer Pθ (Xi = 0) et montrer que 1I{Xi =0} en est un estimateur sans biais.
3. Montrer que la loi conditionnelle de X1 sachant S est une binomiale de pa-
ramètres (S, n1 ).
S
4. En deduire que δS = 1 − n1 est l’estimateur optimal de Pθ (Xi = 0). Est-il
convergent ?
5. Calculer l’information de Fisher.
6. En déduire la borne FDCR pour l’estimation de Pθ (Xi = 0). Est-elle atteinte
par δS ?
Exercice 2. Soit (X1 , . . . , Xn ) un échantillon de taille n issu de la loi uniforme sur

l’intervalle [0, θ]
1. Quel est l’estimateur de vraisemblance θ̂ de θ ?
2. Calculer le biais de θ̂. En déduire un estimateur T sans biais de θ.
3. On considère commme trosième estimateur de θ, U = n+2 n+1 max(X1 , . . . , Xn ).
Calculer le biais, la variance et l’erreur quadratique moyenne de U , T et θ̂.
Commentaires.
Exercice 3. Une machine produit N pièces par jour, N connu. Chacune d’entre elles
a un défaut avec la même probabilité θ inconnue. On cherche à estimer la probabilité
d’avoir au plus k défauts sur un jour. A ce propos, on teste toutes les pièces pendant
une période de n jours et on retient chaque jour le nombre de défauts.
1. Choisir un modèle. Est-ce un modèle exponentiel ?
2. Déterminer une statistique exhaustive et totale. Calculer sa loi.
3. Construire un estimateur δ sans biais qui ne fait intervenir que les données
du premier jour.
4. En déduire un estimateur optimal δS .
Exercice 4. On considère un échantillon (X1 , . . . , Xn ) issu de la loi exponentielle

1
de paramètre où θ > 0.
θ
1. Estimation de θ
(a) Déterminer l’estimateur du maximum de vraisemblance θ̂ de θ. Préciser
ses propriétés : biais, efficacité.
(b) Etablir la loi limite de θ̂


2
2. Estimation de α = exp −
θ
(a) déterminer l’estimateur du maximum de vraisemblance α̂ de α. Calculer
l’information de fisher concernant α apportée par l’échantillon et la borne
de Frechet-Darmois-Cramer-Rao.
(b) Préciser les propriétés (biais, efficacité) et établir la loi limite de α̂.
(c) Soit T l’estimateur de α defini par
(
1 si X1 > 2
T =
0 sinon.
Montrer que T est un estimateur sans biais de α

(d) En déduire un estimateur sans biais optimal de α.
98
ENSEA-ITS2 99
8.3 TD 3 Estimation par intervalle

Exercice 1. Deux candidats, Ségolène et Nicolas, sont en présence lors du deuxième
tour d’une élection présidentielle au cours de laquelle 40 millions électeurs sont
amenés à s’exprimer. n personnes sont tirées au hasard parmi ces électeurs et inter-
rogées sur leurs intentions de vote (on suppose qu’à ce moment tous les électeurs
ont fixé leur choix et n’en changeront pas au moment du vote). 52% des électeurs
intérrogés annoncent qu’ils sont partisans de Ségolène.
1. Calculer, pour n = 100, une borne inférieure de confiance 95% pour le pour-
centage d’électeurs favorables à Ségolène dans la population totale.
2. Que devient cette borne inférieure de confiance 95% pour les valeurs de n :
(a) n = 1000 ?
(b) n = 2000 ?
3. A partir de quelle taille n du sondage effectué, le pourcentage observé de 52%
d’électeurs favorables à Ségolène conduirait-il celui-ci à accorder une confiance
de 95% au fait d’être élu (c’est à dire que la borne inférieure de confiance 95%
serait supérieure ou égale à 0.50)
Exercice 2. Soient X1 , . . . , Xn une suite de variables aléatoires indépendantes et

identiquement distribuées de loi de Bernouilli p ∈ [0, 1]. On pose p̂ = n1 ni=1 Xi .
P
1
1. Montrer l’inégalité varp (p̂) ≤ 4n .
2. Un institut de sondage souhaite estimer avec une précision de 3 points (à
droite et à gauche) la probabilité qu’un individu vote pour le maire actuel
aux prochaines élections. Combien de personnes est-il nécessaire de sonder ?
Exercice 3. On a fait un sondage auprès de 900 personnes sur une possible modifica-
tion de la Constitution. Les opinions favorables représentaient 40, 1% des réponses.
1. Déterminer un intervalle de confiance asymptotique de niveau de confiance
95% pour la probabilité d’une réponse favorable.
2. A la suite d’une intense campagne d’explication en faveur de cette modification
on va de nouveau faire un sondage, mais avec pour objectif l’´evaluation de
l’efficacité de la campagne et non l’estimation de la proportion de personnes
favorables. La campagne aura été vraiment efficace si l’opinion favorable est
devenue majoritaire. Combien de personnes devra-t-on interroger si on veut
différencier avec des risques de 5% les situations : ”la campagne n’a eu aucune
efficacit´e” contre ”la campagne a été vraiment efficace” ?

8.4 TD 4 Test d’hypothèses

Exercice 1. Une variable aléatoire suit une loi normale N (µ, σ 2 ) d’écart type connu
σ = 2. Au vu de l’échantillon i.i.d. X1 , . . . , Xn d’échantillon parente de X, on veut
tester l’hypothèse H0 : µ = 2 contre l’hypothèse H0 : µ = 3.
Soit L(µ, x1 , . . . , xn ) la fonction de vraisemblance.
1. Donner l’expression du rapport
L(3, x1 , . . . , xn )
λ= .
L(2, x1 , . . . , xn )
2. En déduire la region critique du test de Neyman-Pearson en fonction du niveau

de signification α∗ .
3. Calculer la puissance de ce test dans le cas où n = 100 et α∗ = 0.05.
4. Quelle doit être la taille de l’échantillon pour que la puissance soit supérieure
à 0.95 en supposant toujours α∗ = 0.05.
5. On a observé x̄ = 2.5 avec n = 36. Quel est le plus niveau α∗ pour lequel H0
est rejetée.
Exercice 2.On considère un échantillon X n = (X1 , . . . , Xn ) issu de la loi exponen-

tielle de paramètre θ. Trouver
1. le test UPP pour l’hypothèse H0 : θ = θ0 contre l’alternative H1 : θ > θ0
2. le test UPP pour l’hypothèse H0 : θ = θ0 contre l’alternative H2 : θ < θ0 ;
3. le test UPP pour l’hypothèse H0 : θ = θ0 contre l’alternative H3 : θ 6= θ0 .
Exercice 3. Nous considérons une variable aléatoire X dont la densité de probabilité
est égale à la fonction f (·, θ) suivante :
√
1 − x
f (x, θ) = √ exp 1IR∗+
2θ x θ
où θ est un paramètre inconnu strictement positif.

Nous disposons d’un échantillon (X1 , . . . , Xn ) de taille n de la loi précédente.
√
1. Montrer que la variable aléatoire Z = 2θ X suit une loi du Khi-deux à 2
degrés de liberté. En déduire la loi suivie par la variable aléatoire
n
2 Xp
W = Xi .
θ
i=1
2. Déterminer le test U.P.P. de risque de première espèce α ∈]0, 1[ de H0 : θ = θ0

contre H1 : θ = θ1 avec θ1 > θ0 > 0.
3. Donner la puissance du test précédent.
100
ENSEA-ITS2 101
Exercice 4. On désire étudier la prédominance visuelle de l’oeil et l’habilité de la

main. Un expérimentateur établit la table suivante :
Mobilité manuelle/Vue Gauche Deux yeux Droit Total

Gauche 9 15 7 31
Deux mains 8 7 4 19
Droite 15 26 9 50
Total 32 48 20 100
A l’aide du test du χ2 , dire s’il existe une relation entre la prédominance visuelle et
l’habilité des mains (avec un seuil de 0.25) ?

8.5 TD 5 Modèles linéaires

Exercice 1
1. On considère le modèle de regression suivant :
Yi = β1 + β2 xi,2 + β3 xi,3 + εi , 1 ≤ i ≤ n.
où les xi,j , j = 2, 3, sont des variables exogènes, et les εi sont des variables
aléatoires indépendantes de même loi normale centrée de variance σ 2 . En
posant
   
1 x1,2 x1,3 Y1
X =  ... .. ..  Y =  ... 
  
. . 
1 xn,2 xn,3 Yn
On a observé :
   
30 20 0 15
0 0 0
X X =  20 20 0  , X Y =  20  Y Y = 59.5
0 0 10 10
0 0
où X , Y sont les transposées des matrices X et Y respectivement.
1. Donner la valeur de :
(a) n
n n n
! !
1X 1X 1X
(b) xi,2 xi,3 − xi,2 xi,3
n n n
i=1 i=1 i=1
2. Estimer les paramètres β1 , β2 , β3 , σ2.
3. Calculer un intervalle de confiance pour β2 au niveau de 95%.
4. Faire le test β2 = 0 contre β2 6= 0 au seuil de 5%.
102
Chapitre 9
Examens
Devoir 2
Durée : 3 heures
12 janvier 2007
La qualité de la présentation sera prise en compte dans la notation. Les seuls docu-
ments autorisés sont les tables statistiques
Exercice 1 (Cours) : (7 points)

Nous allons estimer les paramètres du modèle structurel
Y = b + aX + u
au vu des observations (X1 , Y1 ), . . . , (Xn , Yn ). La variable aléatoire u est telle que

E(u) = 0 et V ar(u) = σ 2 . La variable X n’est pas aléatoire. Nous supposons que les
paramètres a et b peuvent prendre des valeurs réelles à priori quelconques.
1. Décrire le principe de la méthode des moindres carrés.
Nous supposerons dans la suite que u suit la loi normale N (0, σ 2 ).
2. Donner la densité de probabilité du vecteur aléatoire (Y1 , . . . , Yn ).
3. Calculer l’estimateur du maximum de vraisemblance (â, b̂) du couple (a, b).
4. Montrer que â et b̂ sont des estimateurs sans biais respectivement pour a et
b.
5. Ecrire â comme fonction des variables aléatoires u1 , . . . , un . Déduire la loi de
β̂.
6. Construire un intervalle de confiance pour a au seuil α dans les cas suivants :
- σ est connue
- σ est inconnue
Exercice 2 : (5 points)
On considère que le nombre d’accidents par semaine sur une route nationale est
une variable aléatoire X. A partir des observations suivantes
103
Nombre d’accidents 0 1 2 3 4 5 et plus
Nombre de semaines 2 17 6 11 7 7
Peut-on admettre au niveau α∗ = 0.10 que X suit une loi de Poisson de pa-
ramètre λ = 2 ?
Une agence de voyage souhaite cibler sa clientèle. Elle sait que les coordonnées
du lieu de vie d’un client (X, Y ) rapportées au lieu de naissance (0, 0) sont une
information significative pour connaı̂tre le goût de ce client. Elle distingue :
- La population 1 (Hypothèse H0 ) dont la loi de répartition a pour densité
1 x2 +y 2
p1 (x, y) = √ e− 2 1IR2 (x, y)
4π 2

1
p2 (x, y) = 1I (x)1I[−2,2] (y)
16 [−2,2]
L’agence souhaite tester l’Hypothèse qu’un nouveau client vivant en (x, y) appartient
à la population 1 plutôt qu’à la population 2.
1. Proposer un test de niveau inférieur à α = 5% et de puissance maximale
construit à partir du rapport de vraisemblance.
2. Donner une statistique de test et caractériser garphiquement la région critique
dans R2 .
Parmi 900 poissons pêchés dans un lac, on a observé 180 porteurs de parasites.
Entre quelles limites situez-vous la proportion des individus parasités dans la popu-
lation des poissons des lacs.
Courage ! ! !
104
ENSEA-ITS2 105
Devoir 3
Durée : 3 heures
9 février 2007
La qualité de la présentation sera prise en compte dans la notation. Les résultats

doivent être justifiés. Les seuls documents autorisés sont les tables statistiques.
La longueur intentionnellement excessive de l’énoncé est compensée par
un barême portant sur plus de 20 points. Bon courage
Exercice 1 (10 points)

Soit X une variable aléatoire à valeurs dans N∗ définie comme l’instant de pre-
mier succès dans un schéma de Bernouilli de paramètre q ∈]0, 1[.
1) Vérifier que la loi de X est une loi géométrique dont on précisera le paramètre.
2) Vérifier qu’il s’agit d’un modèle exponentiel. Donner une statistique exhaus-
tive.
3) Donner I(q), l’information de Fisher sur q d’un échantillon de taille 1.
Soit X1 , . . . , Xn un échantillon de taille n de même loi que X.
4) Déterminer q̂n , l’estimateur du maximum de vraisemblance de q.
5) Montrer que l’estimateur du maximum de vraisemblance est asymptotique-
ment normal.
6) Donner un intervalle de confiance pour q de niveau 1 − α.
Une société de transport en commun par bus veut estimer le nombre de passagers
ne validant pas leur titre de transport sur une ligne de bus déterminée. Elle dispose
pour cela, pour un jour de semaine moyen, du nombre n0 de tickets compostés sur
la ligne et des résultats de l’enquête suivante : à chacun des arrêts de bus de la ligne,
des contrôleurs comptent le nombre de passagers sortant des bus et ayant validé leur
ticket jusqu’à la sortie du premier fraudeur.
Celui-ci étant inclus on a les données suivantes :
44 09 11 59 81 44 19 89 10 24
07 21 90 38 01 15 22 29 19 37
26 219 02 57 11 34 69 12 21 28
34 05 07 15 06 129 14 18 02 156
7) Estimer la probabilité de fraude. Donner un intervalle de confiance de niveau

95%. Estimer le nombre de fraudeurs nf si n0 = 20000.


Dans l’outillage de votre usine vous utilisez une grande quantité de pièces d’un
certain modèle. Dans les conditions usuelles d’emploi, vous avez observé que la
durée de vie de ces pièces est une variable aléatoire normale dont l’expérance est
µ0 = 120 heures, et l’écart-type est σ = 19.4 heures.
Le représentant d’un fournisseur vous propose un nouveau modèle, promettant
un gain de performance en moyenne de 5%, pour une dispersion identique σ.
Vous decidez de tester le nouveau modèle sur un échantillon de n = 64 unités.
On note (Xi , i ∈ {1, . . . , 64}) la durée de vie des pièces testées. On suppose que les
variables sont indépendantes .
1. Soit µ l’expérance mathématique du nouveau modèle. Vous ne voulez pas
changer le modèle si le nouveau n’est pas plus performant que l’ancien (hy-
pothèse H0 ). Plus précisement, vous voulez que la probabilité d’adopter à tort
le nouveau modèle ne dépasse pas le seuil de 0.05. Quelle est alors la procédure
de décision ?
2. Evaluez le risque que cette procédure vous fasse rejeter le nouveau modèle si
l’annonce du représentant est exacte. Que concluez-vous ?
Les 64 pièces testées ont eu une durée de vie moyenne égale à 123.5
heures.
Le représentant conteste cette procédure, prétextant qu’il vaut mieux partir de l’hy-
0
pothèse H0 , selon laquelle le gain de performance moyen est réellement de 5%. Il
souhaite que la probabilité de rejeter à tort le nouveau modèle ne dépasse pas le
seuil de 0.05
3. Quelle est la procedure de décision ? Quel est le risque de l’acheteur ? Quel
est le résultat de cette procédure au vu des observations faites. Commentez.
4. Quelle procédure peut-on proposer pour égaliser les risques de l’acheteur et
du vendeur ? quel est alors ce risque ?
Un représentant d’une autre société se présente et déclare avoir un produit moins
cher et équivalent à celui des questions précédentes. L’acheteur le teste sur un
échantillon de m pièces. Le résultat obtenu est une moyenne de 124.8. On veut
tester si les deux modèles sont de performances équivalentes.
On note p(x, y, µ, ν) la densité du modèle.
5. Expliciter l’estimateur θ̂ du maximum de vraisemblance sachant que ν = µ.
Expliciter µ̂ et ν̂ les estimateurs de vraisemblance dans le cas général.
6. Expliciter la forme de la région critique. Que peut-on dire des performances
relatives des deux types de pièces si m = 64 ?
Soit (X1 , . . . , Xn ) un échantillon de taille n issu de la loi N (θ, 1) et soient θ0 > θ1 .
Construire un test de Neyman-Pearson pour tester H0 : θ = θ0 contre H1 : θ = θ1 .
Indiquer le test de niveau α ∈]0, 1[ pour θ = θ0 . Application : θ0 = 10, n = 25 et
α = 0.05. Que vaut la puissance du test pour θ1 = 9 ?
106
ENSEA-ITS2 107
Devoir de rattrapage 2006-2007

Durée : 3 heures

doivent être justifiés. Les seuls documents autorisés sont les tables statistiques. Bon
courage
Soit X une variable aléatoire à valeurs dans N∗ définie comme l’instant de pre-
mier succès dans un schéma de Bernouilli de paramètre q ∈]0, 1[.
1) Vérifier que la loi de X est une loi géométrique dont on précisera le paramètre.
2) Vérifier qu’il s’agit d’un modèle exponentiel. Donner une statistique exhaus-
tive.
Soit X1 , . . . , Xn un échantillon de taille n de même loi que X.
3) Déterminer q̂n , l’estimateur du maximum de vraisemblance de q.
4) Montrer que l’estimateur du maximum de vraisemblance est asymptotique-
ment normal.
On a lancé un dé 90 fois et on a obtenu les résultats suivants

Issue 1 2 3 4 5 6
effectif 12 16 20 11 13 18
Doit-on considérer, au seuil de risque 5%, que le dé est truqué ?

L’étude statistique ci-dessous porte sur les poids (kg) respectifs des pères pi et
ceux de leurs fils aı̂nés fi , pour i ∈ {1, . . . , 12}
Père 65 63 67 68 62 70 66 68 67 69 71 64
Fils 68 66 68 69 66 68 65 71 67 68 70 65
Voici les résultats numériques que nous avons obtenus :

12
X 12
X 12
X 12
X 12
X
pi = 800 p2i = 53418 pi fi = 54107 fi = 811 fi2 = 54849
i=1 i=1 i=1 i=1 i=1
1) Calculez la droite des moindres carrés du poids des fils en fonction du poids
des pères.
2) Calculez la droite des moindres carrés du poids des pères en fonction du poids
des fils.
3) En quel point se coupent ces 2 droites ? Que vaut le produit des pentes des
deux droites ?

Deux candidats, Ségolène et Nicolas, sont en présence lors du deuxième tour

d’une élection présidentielle au cours de laquelle 40 millions électeurs sont amenés
à s’exprimer.
n personnes sont tirées au hasard parmi ces électeurs et interrogées sur leurs inten-
tions de vote (on suppose qu’à ce moment tous les électeurs ont fixé leur choix et
n’en changeront pas au moment du vote). 52% des électeurs intérrogés annoncent
qu’ils sont partisans de Ségolène.
1. Calculer, pour n = 100, une borne inférieure de confiance 95% pour le pour-
2. Que devient cette borne inférieure de confiance 95% pour les valeurs de n :
(a) n = 1000 ?
(b) n = 2000 ?
de 95% au fait d’être élu (c’est à dire que la borne inférieure de confiance 95%
serait supérieure ou égale à 0.50)
108
ENSEA-ITS2 109
Devoir 1
Durée : 3 heures
14 Novembre 2007

doivent être justifiés. Documents non autorisés.
Exercice 1 (4 points) :
Soient Y1 , . . . , Yn des variables aléatoires indépendantes et distribuées selon des lois
de Poisson Yi P(αxi ), où x1 , . . . , xn sont des constantes positives connues.
1. Calculer l’estimateur du maximum de vraisemblance α̂n de α.
2. Etudier ses propriétés à l’horizon fini
Soient Y1 , . . . , Yn des variables aléatoires indépendantes et identiquement dis-

tribuées selon une loi normale N (µ, 1), où µ est une constante positive inconnue.
1. Trouvez l’estimateur du maximum de vraisemblance θ̂n de θ = µ2 .
2. Calculez le biais de cet estimateur et déduisez-en un estimateur sans biais de
θ.
3. Calculez la borne de Frechet-Darmos-Cramer-Rao pour la variance d’un esti-
mateur sans biais de θ.
Soient Y1 , . . . , Yn des variables aléatoires indépendantes et identiquement distribuées
selon une loi de Bernouilli B(1, p), où p ∈]0, 1[ est inconnue.
Xn
On admet que Tn = Yi est une statistique exhaustive et complète pour le pa-
i=1
ramètre p.
1. Montrer que l’on peut choisir α > 0 tel que α(Y1 − Y2 )2 soit un estimateur
sans biais de p(1 − p) .
2. Montrer que
Zn = Ep [α(Y1 − Y2 )2 /Tn ]
est l’unique estimateur de variance minimale dans la classe des estimateurs
sans biais de p(1 − p).
3. L’estimateur Zn est-il efficace ?
La hauteur maximale H de la crue annuelle d’un fleuve est observée car une crue

supérieure à 6 mètres serait catastrophique. On a modélisé H comme une variable

de Rayleigh, i.e H a une densité donnée par
2
x x
fH (x) = exp − 1IR+ (x),
a 2a
où a > 0 est un paramètre inconnu. Durant une période de 8 ans, on a observé les
hauteurs de crue suivantes en mètres :
n 1 2 3 4 5 6 7 8
Hn 2.5 1.8 2.9 0.9 2.1 1.7 2.2 2.8
1. Donner l’estimateur du maximum de vraisemblance ân de a.

2. Quelles propriétés possède-t-il parmi les suivantes ?
(a) Sans biais
(b) Optimal
(c) Efficace
(d) Asymptotiquement
3. Une compagnie d’assurance estime qu’une catastrophe n’arrive qu’au plus une
fois tous les mille ans. Ceci peut-il être justifié par les observations ?
Courage ! ! !
110
ENSEA-ITS2 111
Devoir 2
Durée : 3 heures
9 Janvier 2008

doivent être justifiés. Documents non autorisés.
1. On considère le modèle de regression suivant :
Yi = β1 + β2 xi,2 + β3 xi,3 + εi , 1 ≤ i ≤ n.
où les xi,j , j = 2, 3, sont des variables exogènes, et les εi sont des variables
aléatoires indépendantes de même loi normale centrée de variance σ 2 . En
posant
   
1 x1,2 x1,3 Y1
X =  ... .. ..  Y =  ... 
  
. . 
1 xn,2 xn,3 Yn
On a observé :
   
30 20 0 15
0 0 0
X X =  20 20 0  , X Y =  20  Y Y = 59.5
0 0 10 10
0 0
où X , Y sont les transposées des matrices X et Y respectivement.
1. Donner la valeur de :
• n
n n n
! !
1X 1X 1X
• xi,2 xi,3 − xi,2 xi,3
n n n
i=1 i=1 i=1
2. Estimer les paramètres β1 , β2 , β3 , σ2.
3. Calculer un intervalle de confiance pour β2 au niveau de 95%.
4. Faire le test β2 = 0 contre β2 6= 0 au seuil de 5%.
Soit X = (X1 , . . . , Xn ) un échantillon de taille n de loi normale N (0, , 1θ ).
1. Calculer θ̂ l’estimateur du maximum de vraisemblance de θ. Construire un
estimateur sans biais de θ. Cet estimateur est-il efficace, asymptotiquement
efficace ?
2. Construire le test le plus puissant de θ = 1 contre θ > 1. Si n = 15 et si
15
X
x2i = 6.8, effectuer le test au niveau 5%
i=1

3. Construire le test le plus puissant de θ = 1 contre θ 6= 1. Effectuer le test au

niveau 5% pour les mêmes données qu’au point précédent.
On désire étudier la prédominance visuelle de l’oeil et l’habilité de la main. Un
expérimentateur établit la table suivante :
Mobilité manuelle/Vue Gauche Deux yeux Droit Total

Gauche 9 15 7 31
Deux mains 8 7 4 19
Droite 15 26 9 50
Total 32 48 20 100
A l’aide du test du χ2 , dire s’il existe une relation entre la prédominance visuelle et
l’habilité des mains (avec un seuil de 0.25) ?
Deux candidats, Ségolène et Nicolas, sont en présence du deuxième tour d’une
élection présidentielle au cours de laquelle 40 millions d’électeurs sont amenés à
s’exprimer. n personnes sont tirées au hasard parmi ces électeurs et interrogées sur
leurs intentions de vote (on suppose qu’à ce moment tous les électeurs ont fixé leur
choix et n’en changeront pas au moment du vote). 52% des électeurs annoncent
qu’ils sont partisans de Ségolène.
1. Calculer, pour n = 100 une borne inférieure de confiance 95% pour le pour-
2. Que devient cette borne inférieure de confiance 95% pour les valeurs suivantes
de n :
(a) n = 1000?
(b) n = 2000?
de 95% au fait d’être élu (c’est à dire la borne inférieure de confiance 95%
serait supérieure à 0.50) ?
112
ENSEA-ITS2 113
Devoir de rattrapage 2007-2008

Durée : 3 heures
Exercice 1 (Cours) :
Nous allons estimer les paramètres du modèle structurel
Y = b + aX + u
au vu des observations (X1 , Y1 ), . . . , (Xn , Yn ). La variable aléatoire u est telle que
E(u) = 0 et V ar(u) = σ 2 . La variable X n’est pas aléatoire. Nous supposons que les
paramètres a et b peuvent prendre des valeurs réelles à priori quelconques.
1. Décrire le principe de la méthode des moindres carrés.
Nous supposerons dans la suite que u suit la loi normale N (0, σ 2 ).
2. Donner la densité de probabilité du vecteur aléatoire (Y1 , . . . , Yn ).
3. Calculer l’estimateur du maximum de vraisemblance (â, b̂) du couple (a, b).
4. Montrer que â et b̂ sont des estimateurs sans biais respectivement pour a et
b.
5. Ecrire â comme fonction des variables aléatoires u1 , . . . , un . Déduire la loi de
β̂.
6. Construire un intervalle de confiance pour a au seuil α dans les cas suivants :
- σ est connue
- σ est inconnue
Exercice 2
On souhaite vérifier la qualité du générateur de nombre aléatoires d’une calcu-

latrice scientifique. Pour cela, on procède à 250 tirages dans l’ensemble {0, . . . , 9} et
on obtient les résultats suivants :
x 0 1 2 3 4 5 6 7 8 9
N (x) 28 32 23 26 23 31 18 19 19 31
A l’aide du test du χ2 , vérifier si le générateur produit des entiers indépendants
et uniformément répartis sur {0, . . . , 9} avec α = 5%.
Exercice 3 :
Une variable aléatoire suit une loi normale N (µ, σ 2 ) d’écart type connu σ = 2.
Au vu de l’échantillon i.i.d. X1 , . . . , Xn d’échantillon parente de X, on veut tester
l’hypothèse H0 : µ = 2 contre l’hypothèse H0 : µ = 3.
Soit L(µ, x1 , . . . , xn ) la fonction de vraisemblance.

1 Donner l’expression du rapport
L(3, x1 , . . . , xn )
λ= .
L(2, x1 , . . . , xn )
2 En déduire la region critique du test de Neyman-Pearson en fonction du niveau

de signification α∗ .
3 Calculer la puissance de ce test dans le cas où n = 100 et α∗ = 0.05.
4 Quelle doit être la taille de l’échantillon pour que la puissance soit supérieure
à 0.95 en supposant toujours α∗ = 0.05.
5. On a observé x̄ = 2.5 avec n = 36. Quel est le plus niveau α∗ pour lequel H0
est rejetée.
114
ENSEA-ITS2 115
ITS2
Devoir de Statistique Mathématique
11 décembre 2009
Durée : 3 heures
Questions de cours (2 points)
1. Enoncer le théorème de Lehmann-Scheffé. Quelle est son utilité ?

2. Donner les définitions d’estimateur asymptotiquement normal et d’estimateur
asymptotiquement efficace.
En 1897, V. Pareto, économiste suisse, propose de modéliser la loi des revenus en

postulant que le nombre de personnes dont le revenu dépasse une valeur x est inver-
sement proportionnel à une puissance de x. Ce modèle a été contesté ultérieurement,
mais la loi de Pareto suscite un regain d’intérêt depuis quelques années pour son
utilisation dans l’analyse de performance des réseaux à haut débit. Le problème a
pour objet l’étude de cette loi, sur le plan statistique.
Une variable aléatoire absolument continue X est distribuée suivant une loi de
Pareto de paramètres α > 1 et θ > 0, si sa densité est donnée par :
f (x) = (α − 1)θα−1 x−α 1Ix≥θ .
1. Estimation de α
Soit (X1 , . . . , Xn ) un échantillon issu d’une loi de Pareto de paramètres α > 1
et θ > 0, où θ est connu.
(a) Trouver une statistique exhaustive pour le paramètre α.
(b) Déterminer l’estimateur du maximum de vraisemblance α̂.
(c) Calculer E[α̂] et en déduire le biais de l’estimateur du maximum de
vraisemblance α̂.
n
X Xi
Indication : exprimer α̂ en fonction de Vn = ln et utiliser
θ
i=1
sans démontrer l’hypothèse Vn est une variable aléatoire qui suit une
Gamma Γ(α − 1, n). On rappelle qu’une loi Gamma de paramètre a > 0
et λ > 0, notée Γ(a, λ), admet comme densité
aλ λ−1 −ax
f (x) = x e 1Ix≥0
Γ(λ)
où Γ(λ) est la fonction gamma définie par
Z ∞
Γ(λ) = uλ−1 e−u du.
0
(d) Trouver un estimateur α̂1 de α, fonction linéaire à une constante près

de α̂, et sans biais. Quel est le meilleur estimateur de α entre α̂ et αˆ1 ?

2. Estimation de θ
Soit (X1 , . . . , Xn ) un échantillon issu d’une loi de Pareto de paramètres α > 1
et θ > 0, mais on suppose cette fois ci que le paramètre α est connu.
(a) Préciser le support de la densité de l’échantillon (X1 , . . . , Xn ). Exprimer
celle-ci à l’aide d’une fonction indicatrice. En déduire une statistique
exhaustive pour le paramètre θ.
(b) Déterminer l’estimateur du maximum de vraisemblance θ̂ de θ.
∂
(c) Calculer ln(f (X1 , . . . , Xn , θ)) pour θ dans l’intervalle [0, min Xi ], et
∂θ
en déduire l’information de Fisher de l’échantillon (X1 , . . . , Xn ). De la
même façon, calculer l’information de Fisher de la variable aléatoire X1 .
Que peut-on en conclure sur l’additivité de l’information de Fisher ?
Expliquer.
On considère un échantillon (X1 , . . . , Xn ) issu de la loi exponentielle de pa-

1
ramètre où θ > 0.
θ
1. Estimation de θ
(a) Déterminer l’estimateur du maximum de vraisemblance θ̂ de θ. Préciser
ses propriétés : biais, efficacité.
(b) Etablir la loi limite de θ̂

2
2. Estimation de α = exp −
θ
(a) déterminer l’estimateur du maximum de vraisemblance α̂ de α. Calculer
l’information de fisher concernant α apportée par l’échantillon et la borne
de Frechet-Darmois-Cramer-Rao.
(b) Préciser les propriétés (biais, efficacité) et établir la loi limite de α̂.
(c) Soit T l’estimateur de α defini par
(
1 si X1 > 2
T =
0 sinon.
Montrer que T est un estimateur sans biais de α

(d) En déduire un estimateur sans biais optimal de α.
116
ENSEA-ITS2 117
Devoir 3
Durée : 3 heures
3 avril 2009
Exercice 1 (Cours) : (7 points) La différence de potentiel mesurée aux bornes

d’un conducteur ohmique traversé par un courant d’intensité xi , (i = 1, . . . , n) est
modélisée par une variable aléatoire
Ui = rxi + εi , ∀i = 1, . . . , n
où
• r est un paramètre inconnu qui représente la résistance du conducteur oh-
mique.
• (εi )1≤i≤n est une suite de variables aléatoires indépendantes et de même loi
gaussienne de moyenne zéro et de variance σ 2 .
• les intensités (xi )1≤i≤n ne sont pas aléatoires.
On cherche à estimer les deux paramètres (r, σ 2 ).
On considère n mesures indépendantes U1 , . . . , Un réalisées pour les intensités
x1 , . . . , x n
1. Donner une statistique exhaustive.
2. Calculer les estimateurs du maximum de vraisemblance des paramètres r et
σ 2 . On note r̂nM V et σ̂ 2M V et
On considère que le nombre d’accidents par semaine sur une route nationale est
une variable aléatoire X. A partir des observations suivantes
Nombre d’accidents 0 1 2 3 4 5 et plus
Nombre de semaines 2 17 6 11 7 7
Peut-on admettre au niveau α∗ = 0.10 que X suit une loi de Poisson de pa-
ramètre λ = 2 ?
Une agence de voyage souhaite cibler sa clientèle. Elle sait que les coordonnées
du lieu de vie d’un client (X, Y ) rapportées au lieu de naissance (0, 0) sont une
information significative pour connaı̂tre le goût de ce client. Elle distingue :
1 x2 +y 2
p1 (x, y) = √ e− 2 1IR2 (x, y)
4π 2
1
p2 (x, y) = 1I (x)1I[−2,2] (y)
16 [−2,2]

L’agence souhaite tester l’Hypothèse qu’un nouveau client vivant en (x, y) appartient
à la population 1 plutôt qu’à la population 2.
1. Proposer un test de niveau inférieur à α = 5% et de puissance maximale
construit à partir du rapport de vraisemblance.
2. Donner une statistique de test et caractériser garphiquement la région critique
dans R2 .
Parmi 900 poissons pêchés dans un lac, on a observé 180 porteurs de parasites.
Entre quelles limites situez-vous la proportion des individus parasités dans la popu-
lation des poissons des lacs.
Courage ! ! !
118
Bibliographie
[1] P. A. Cornillon, A. Matzner-Lober, Régression, Théorie et applications, Collec-

tion Statistique et probabilités appliquées, Springer-Verlag France, Paris, 2007.
[2] R. Ramanathan, Statistical methods in econometrics, Academic Press, Inc.,
1993.
[3] G. Saporta, Probabilités, analyse des données et statistique, Editions TECH-
NIP, Paris, 2006.
[4] P. Tassi, Méthodes statistiques, Edition Economica, Paris, 1989.
119

(ENSEA-ITS2) Armel Fabrice Yodé, Cours Statistique Mathématique

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

(ENSEA-ITS2) Armel Fabrice Yodé, Cours Statistique Mathématique

Transféré par

Droits d'auteur :

Formats disponibles

Cours de Statistique Mathématique

Dr Armel Fabrice Yodé

2 Rappels et Compléments de probabilité 9

3 Problèmes et outils statistiques 29

5 Estimation par intervalle de confiance 55

8 Travaux dirigés 2010-2011 95

Le mot ”statistique” désigne à la fois un ensemble de données d’obser-

Démarche statistique classique

2.1 Espace probabilisé

On notera Ω l’ensemble des résultats possibles de l’expérience aléatoire E ; Ω

Définition 2. Un événement est une proposition logique sur les résultats

Exemple 1. 1. Soit l’expérience aléatoire ”lancer une pièce” (non pipée si

On notera P(Ω) l’ensemble des parties de Ω.

Définition 3. Tout ensemble A vérifiant

s’appelle une tribu sur Ω. Les éléments de A sont appelés événements.

Exemple 2. 1. Soit Ω, l’univers associé à une expérience aléatoire. Alors,

P(Ω) = {{0}, {1}, {0, 1}, ∅} .

Remarque 1. • Le couple (Ω, A) est appelé espace probabilisable.

Définition 4. On appelle probabilité sur (Ω, A) une application P : A →

On appelle espace probabilisé le triplet (Ω, A, P).

Proposition 1. Soient (Ω, A, P) un espace probabilisé et A, B ∈ A. Alors

2.2 Probabilités conditionnelles, indépendance.

Proposition 2. P(·/B) est une probabilité sur (Ω, A).

Définition 6. Soient A et B deux évènements tels que P(B) > 0. Alors A et

Remarque 2. 1. A et B sont indépendants si P(A ∩ B) = P(A)P(B).

P(A/B) = P(A) ⇔ P(B/A) = P(B) (à vérifier)

Définition 7. Les événements A1 , . . . , An sont dits mutuellement indépendants

ANNEE UNIVERSITAIRE 2010-2011

C=”les deux pièces donnent le même résultat”.

Théorème 1. des probabilités totales.

Théorème 2. (Formule de Bayes)

2.3 Variables aléatoires

∀A ∈ B(R), X −1 (B) = {ω ∈ Ω : X(ω) ∈ B} ∈ B.

Définition 10. On définit la loi de probabilité de X sur (R, B(R)) par

Exemple 5. Soit l’expérience aléatoire ”lancer deux dés discernables” (et

L’équiprobabilité permet d’écrire

s’appelle fonction de répartition de X.

ANNEE UNIVERSITAIRE 2010-2011

2.3.2 Variables aléatoires réelles discrètes

2.3.3 Variables aléatoires à densité

fX est appelée densité de probabilité de X.

On dit Xα est le quantile d’ordre α.

Définition 15. On appelle espérance mathématique de X, le nombre réel

Propriété 4. • E(X + Y ) = E(X) + E(Y )

- Soit X une variable aléatoire réelle continue. On appelle moment d’ordre

ANNEE UNIVERSITAIRE 2010-2011

2.5 Vecteurs aléatoires

∀A ∈ B(Rd ), X −1 (B) = {ω ∈ Ω : X(ω) ∈ B} ∈ B.

Définition 18. La fonction de répartition du vecteur aléatoire X est définie

Définition 19. Fonction densité conjointe

Propriété 6. Soit X = (X1 , . . . , Xd ) un vecteur aléatoire de dimension d.

FXi (xi ) = lim FX (x1 , . . . , xi , . . . , xd )

• On définit l’espérance de X par

• On définit la matrice de variance-covariance de la manière suivante

où cov(Xi , Xj ) = E(Xi Xj ) − E(Xi )E(Xj ).

où fXi est la densité de la variable aléatoire Xi .

Théorème 4. Si X1 , . . . , Xd sont indépendantes alors

2.5.3 Couple de variables aléatoires

ANNEE UNIVERSITAIRE 2010-2011

Nous avons −1 ≤ ρ ≤ 1. Pour deux variables indépendantes ρ = 0. La

E(E(Y /X)) = E(Y ).

2.5.4 Vecteurs gaussiens

Proposition 6. Si (X1 , X2 ) est un vecteur gaussien avec cov(X1 , X2 ) = 0,

∀ > 0, P {|Xn − X| ≥ ε} −→ 0 quand n → +∞.