INSEA Cours Inférences Statistique2021

Inférences Statistique
Introduction.
La statistique :
Ensemble des méthodes et outils mathématiques visant à, collecter, décrire et analyser des
données afin d’obtenir de l’information permettant de prendre des décisions malgré la
présence d’incertitude (erreur).
Données Statistiques :
Les données statistiques sont collectées lors de l’étude d’un phénomène, à travers une ou
plusieurs caractéristiques (caractères, variables,…) qui sont observées ou mesurées ou
référées ou inspectés sur des unités statistiques (u.s) ou individus.
Population :
L’ensemble des u.s qui sont soumises à l’étude ne sont pas nécessairement toutes observées.
Une fois bien définies (sans ambiguïté) l’ensemble de ces u.s forme une population Ƥ.
Remarques.
a) Si l’étude statistique consiste à observer toutes les u.s de la population, il s’agit alors
d’un recensement.
b) Si pour des raisons diverses, l’observation ne peut être faite que sur une partie de la
population, il s’agit alors d’une étude par sondage.
Echantillon.
La partie extraite de la population pour faire l’objet de l’observation est un échantillon (c’est
un sous ensemble de la population).
But du cours.
L’un des travaux statistiques (du staticien) consiste à faire une analyse descriptive des
données collectées (soit au niveau de la population, soit au niveau de l’échantillon) c’est
l’objet de la Statistique Descriptive.
Cela consiste à faire :
- Des graphiques,
- Calcul des mesures de tendances centrales, de dispersion, de forme, etc…
(paramètres)
1
- Calcul d’indicateurs,
- Causalité,
- Essais de modélisation
- etc …
Mais lorsque, l’observation est mesurée sur un échantillon et non sur toute la population, la
statistique descriptive ne constitue qu’une première étape de description.
Dans le cas où l’échantillon est sélectionné selon une procédure adéquate, le staticien pourra
recourir à un ensemble de méthodes lui permettant de tirer des conclusions (c’est-à-dire
prendre des décisions) sur toute la population et ce, à partir de l’échantillon.
Cet ensemble de méthodes constitue « l’Inférence Statistique ».
Parmi les problèmes à résoudre par l’utilisation de l’Inférence Statistique, on peut citer :
1) Estimation d’une grandeur
On peut vouloir chercher (calculer) une valeur approximative de la dépense mensuelle des
marocains dans les loisirs alors on procède par une estimation sur la base d’un échantillon
choisi.
On peut être intéressé par :
a) Une valeur approximative c’est l’estimation ponctuelle ;
b) Ordre de grandeur c’est l’estimation par intervalle.
2) Test de conformité
Lors de la réception par revendeur de pièces mécaniques, vérifier si le taux de déchets par
rapport à une norme fixée est conforme :
Décider de refuser ou d’accepter tout le lot sur la base de l’observation d’un échantillon :
-Formuler les hypothèses
. Élaborer une règle de décision (méthode inférentielles) ;
. Observer un échantillon dans le lot ;
. Décider.
3) Test de comparaison
- Comparer le rendement (/ha) en utilisant 2 types d’engrais ;
2
- Comparer la durée de vie de deux piles,
-….
4) Test d’ajustement
Voir si une Caractéristique de la population X suit une loi de probabilité particulière.
- ….
5) Test d’indépendance de deux caractères quantitatifs
6) etc…
3
Chapitre 1
Distribution d'échantillonnage
I- Echantillonnage : Définition et notations

Le but est de déduire des informations sur la population à partir d'un échantillon qui en est
extrait.
Comment choisir alors cette partie de la population qui reproduit le plus fidèlement possible
les caractéristiques de la population. C'est l'objet de toute une discipline en Statistique :
Théorie des Sondages.
1) raisonné
Il y a deux types d'échantillonnage :{
2) aléatoire.
1) Sondage raisonné : micro trottoir au pif (respect de la composition de la population).
2) Sondage aléatoire : Proba. De sélectionner un individu quelconque de la population est
connue à l'avance.
L'inférence statistique se base sur l'échantillonnage aléatoire car il permet de juger de la
qualité des méthodes (utilisation de la théorie des probabilités).
On distingue plusieurs types d'échantillonnage aléatoire.
- Echantillonnage aléatoire simple (EAS):
Chaque individu de la population a la même probabilité d'être sélectionné dans
l'échantillon.
a) Sondage Stratifié :
- Subdiviser la population en strate homogènes
- Sélectionner de chaque strate un EAS.
b) Sondage par grappes :
- Subdiviser la population en sous-groupes hétérogènes,
- Tirer au hasard un nombre de chaque sous-groupe.
Dans le cadre de cours, on ne traitera que le cas de l'EAS:
ça consiste à effectuer une sélection d'un échantillon de taille n par des tirages aléatoire,
équiprobables et indépendants.
Soit X la v.a. qui mesure le caractère qu'on veut étudier au niveau de la population.
4
𝑋𝑖 : Le résultat aléatoire du ième tirage. 𝑋𝑖 est une v.a. de même loi que X,
𝑥𝑖 : La valeur observée au ième tirage. C'est une réalisation de la v.a. 𝑋𝑖 , 𝑥𝑖 ∈ 𝐼𝑅.
(𝑋1 , … , 𝑋𝑛 ) est l'échantillon aléatoire (e.a) de taille n issue de la v.a. X. C'est un vecteur
aléatoire.
(𝑥1 , … , 𝑥𝑛 ) est l'échantillon observé: C'est une réalisation de de l'échantillon
Les v.a. 𝑋𝑖 , 𝑖 = 1, … , 𝑛 sont des v.a. indépendantes et identiquement distribuées (i.i.d).
La famille de distribution de la v.a. X est supposée identifiée à un paramètre 𝜃 prés (ce
paramètre peut être un scalaire ou un vecteur):
𝑃𝜃 , 𝜃 ∈ Ѳ ⊂ 𝐼𝑅𝑘 , 𝑘 ≥ 1.
Exemples :
a) Famille de lois normales 𝑁(𝜇, 𝜎 2 ), ici 𝜃 = (𝜇, 𝜎 2 ) ∈ 𝐼𝑅2 .
b) Famille de lois de Poisson (𝜆) où 𝜃 = 𝜆.
c) Famille de lois de Bernouilli ℬ(𝑝), 𝜃 = 𝑝.
d) etc…
II- Distributions des statistiques usuelles et leurs propriétés
1- Introduction
Pour faire de "l'inférence sur 𝜃 " (ou sur une fonction de 𝜃) on est tout le temps amené à
utiliser des quantités statistiques basées sur les observations faites. Ce sont, en fait, des
fonctions de l'échantillon prélevé.
Définition.
On appelle statistique, toute fonction (mesurable) des observations.
𝜉𝑛 → 𝐼𝑅
𝐸𝑛 = (𝑋1 , … , 𝑋𝑛 ) → 𝑇(𝑋1 , … , 𝑋𝑛 ) = 𝑇(𝐸𝑛 )
𝜉𝑛 : ensemble de tous les échantillons de taille n.
2. Exemples de statistique et quelques statistiques usuelles.
Si 𝑋 ↝ 𝑃𝜃 , 𝜃 scalaire:
𝑛
1
𝑇(𝑋1 , … , 𝑋𝑛 ) = ∑ 𝑋𝑖 ≔ 𝑋 −
𝑛
𝑖=1
moyenne de l′échantillon est une statistique,
5
𝑛
1
𝑇(𝑋1 , … , 𝑋𝑛 ) = ∑(𝑋𝑖 − 5)2 est une statistique,
𝑛
𝑖=1
𝑛
1
𝑇(𝑋1 , … , 𝑋𝑛 ) = ∑(𝑋𝑖 − 10)2 est une statistique,
𝑛
𝑖=1
𝑇(𝑋1 , … , 𝑋𝑛 ) = 𝑋(1) = min 𝑋𝑖 est une statistique,

𝑇(𝑋1 , … , 𝑋𝑛 ) = 𝑋(𝑛) = max 𝑋𝑖 est une statistique,
𝑇(𝑋1 , … , 𝑋𝑛 ) = 𝑋(𝑟) ≔ r ème statistique d′ordre,
𝑇(𝑋1 , … , 𝑋𝑛 ) = (𝑋(1) , … , 𝑋(𝑛) ) e. a. s ordonné est une statistique,
𝑛
1
𝑇(𝑋1 , … , 𝑋𝑛 ) = 𝑆 2 = ∑(𝑋𝑖 − 𝑋 − )2
𝑛
𝑖=1
Variance empirique de l'échantillon est une statistique,

𝑛
1
𝑇(𝑋1 , … , 𝑋𝑛 ) = 𝑆 ′2 = ∑(𝑋𝑖 − 𝑋 − )2
𝑛−1
𝑖=1
quasi-variance empirique ou variance de l'echantillon est une statistique,

𝑛
1
𝑇(𝑋1 , … , 𝑋𝑛 ) = ∑ 𝑋𝑖 𝑘 ≔ 𝑀𝑘
𝑛
𝑖=1
Moment empirique d'ordre k de l'échantillon,

𝑇(𝑋1 , … , 𝑋𝑛 ) = (𝑋 − , 𝑆 2 ) est une statistique.
𝑛
1
Mais 𝑇(𝑋1 , … , 𝑋𝑛 ) = ∑(𝑋𝑖 − 𝜃)2 n′ est pas une statistique
𝑛
𝑖=1
car ce n′ est pas une fonction mesurable. En effet pour chaque valeur de θ,
𝑇 prend une valeur différente.
𝑒𝑡𝑐….
Remarque.
Une statistique est une fonction des v.a. 𝑋1 , … , 𝑋𝑛 qui sont i.i.d. C'est une v.a. (ou un vecteur
de v.a.) avec sa propre distribution.
6
3) Distributions échantillonnage : propriétés des statistiques usuelles
Proposition.
a) 𝐸(𝑋 − ) = 𝜇, où 𝑋 − est la moyenne de l'échantillon et 𝜇 la moyenne de la population ;
𝜎2
b) 𝜎𝑋2− = 𝑉𝑎𝑟(𝑋 − ) = où 𝜎 2 est la variance de la population ;
𝑛
c) 𝐸(𝑆 ′2 ) = 𝜎 2 .
Exercice.
Montrer c).
Définition.
La distribution de proba. de n'importe quelle statistique est dite distribution
d'échantillonnage.
A- La distribution normale comme distribution d'échantillonnage
La distribution de 𝑋 −
Cas 1 : population normale
𝜎2
Si 𝑋 ↝ 𝑁(𝜇, 𝜎 2 ), alors 𝑋 − ↝ 𝑁 (𝜇, ).
𝑛
Cas 2 : population non normale, n grand (i.e. 𝑛 ≥ 30)

Si n est grand (quelle que soit la distribution de X), alors on a approximativement :
−
𝜎2
𝑋 ↝ 𝑁 (𝜇, ).
𝑛
Exercice.
Dans une usine, on utilise une machine automatique pour couper des tiges metalliques.
Lorsque la machine est correctement ajustée, la longueur des tiges coupées est en
moyenne de 30 cm avec un écart type de 0,5 cm. Pour contrôler la longueur des tiges
produites, on tire dans la population d'une journée un échantillon aléatoire de 100 tiges.
a) Si l'on suppose que la longueur X des tiges produites est distribuée normalement,
calculer la probabilité que la moyenne 𝑋 − de cet échantillon soit au plus égale à 29,9
cm.
b) Calculer de nouveau la probabilité demandée en a) sans faire l'hypothèse que X est
normale.
7
Solution.
a) Comme la moyenne de la population est 𝜇 = 30 𝑐𝑚 et que son écart type est 0,5 cm
0,5
alors 𝐸(𝑋 − ) = 30 𝑐𝑚 et son 𝜎 = = 0,05 𝑐𝑚 et puisque 𝑋 étant normale, on a
√100
donc 𝑋 − ↝ 𝑁(30, (0,05)2 ).
−
𝑋 − − 𝜇 29,9 − 30
𝑃(𝑋 ≤ 29,9) = 𝑃 ( 𝜎 ≤ ) = 𝑃(𝑍 ≤ −2)
⁄ 𝑛 0,05
√
= 𝑃(𝑍 ≥ 2) = 0,023 où Z ↝ N(0,1).
b) Puisque 𝑛 = 100 ≥ 30 on a d'après le Thm central limite,
𝑋 − ↝ 𝑁(30, (0,05)2 ), on a donc,
𝑃(𝑋 − ≤ 29,9) = 𝑃(𝑍 ≥ 2) = 0,023.
Cas particulier du cas 2 : X v.a. de Bernoulli
Résultat.
Si 𝑋 ↝ 𝐵𝑖(1, 𝑝), et si 𝑛 est grand (𝑛 ≥ 30), alors on a approximativement,
𝑝𝑞
𝑋 − ↝ 𝑁 (𝑝, ) où q = 1 − p.
𝑛
Exercice.
Supposons que 40% environ des marocains sont en faveur des mariages des filles mineures.
Si l'on choisit au hasard 100 citoyens. Quelle est la proba. qu'au moins 50 d'entre eux soient
en faveurs des mariages des filles mineures ?
Solution.
Définissons la variable de Bernoulli :
1, si le citoyen choisi est en faveur
𝑋={
0, si le citoyen choisi est contre.
On a 𝑋 ↝ 𝐵𝑖(1, 𝑝) où 𝑝 = 0,40. Si l'on tire un e.a de 100 individus, la proportion des
individus en faveur du mariage des mineures dans cet échantillon sera donnée par la
moyenne de 𝑋 − de l'échantillon avec,
8
𝑝𝑞⁄
𝑋 − ↝ 𝑁(𝑝, 𝑛) car 𝑛 est grand.
On cherche,
−
𝑋− − 𝑝 0,5 − 0,4
𝑃(𝑋 ≥ 0,5) = 𝑃 ≥ = 𝑃(𝑍 ≥ 2,04) = 0,021,
𝑝𝑞
√ √0,4(0,6)
( 𝑛 100 )
où 𝑍 ↝ 𝑁(0,1).
B- La distribution de (𝑋1 − − 𝑋1 − ) (2 populations)
Pour pouvoir comparer deux populations relativement à une certaine caractéristique X, noté
𝑋1 si elle est considérée dans la 1ère population et 𝑋2 pour la 2ème population.
On suppose que 𝑋1 a 𝜇1 , 𝜎12 et 𝑋2 a 𝜇2 , 𝜎22 ; pour comparer ces deux populations, on tire deux
échantillons indépendamment de taille 𝑛1 et 𝑛2 et on considère la loi de (𝑋1− , 𝑋2− ) entre les 2
moyennes échantillonnales.
Cas 1 : populations normales de variances connues
Si 𝑋1 ↝ 𝑁(𝜇1 , 𝜎12 ) et 𝑋2 ↝ 𝑁(𝜇2 , 𝜎22 ), alors
𝜎12 𝜎22
(𝑋1− − 𝑋2− ) ↝ 𝑁 (𝜇1 − 𝜇2 , + ).
𝑛1 𝑛2
Cas 2 : si 𝑛1 et 𝑛2 sont grandes alors, on a (∀ la distribution de 𝑋1 , 𝑋2 ):
𝜎12 𝜎22
(𝑋1− − 𝑋2− ) ↝ 𝑁 (𝜇1 − 𝜇2 , + ).
𝑛1 𝑛2
Cas particulier du cas 2:
si 𝑋1 ↝ 𝐵𝑒𝑟(1, 𝑝1 ) et 𝑋2 ↝ 𝐵𝑒𝑟(1, 𝑝2 ); 𝑛1 et 𝑛2 grandes (𝑛𝑖 ≥ 30, 𝑖 = 1,2),
alors, on a
𝑝1 𝑞1 𝑝2 𝑞2
(𝑋1− − 𝑋2− ) ↝ 𝑁 (𝑝1 − 𝑝2 , + ).
𝑛1 𝑛2
Exercice.
Deux usines produisent des pneus de marques 𝑀1 et 𝑀2 . Les pneus 𝑀1 ont une durée de vie
moyenne de 50 000 km, avec un écart type de 8 000 km et les pneus 𝑀2 , une durée de vie
moyenne de 40 000 km, avec un écart type de 5 000 km km. Quelle est la probabilité que la
durée de vie moyenne d'un échantillon aléatoire simple de 50 pneus 𝑀1 soit d'au moins 12
9
000 km de plus que la durée de vie moyenne d'un échantillon aléatoire simple de 75 pneus
𝑀2 .
Solution.
Soit 𝑋1 :=la durée de vie des pneus 𝑀1 de 𝜇1 = 50 000 𝑘𝑚 et 𝜎1 = 8 000 𝑘𝑚
𝑋2 := la durée de vie des pneus 𝑀2 de 𝜇2 = 40 000 𝑘𝑚 et 𝜎1 = 5 000 𝑘𝑚.
On ne connait pas les lois de 𝑋1 , 𝑋2 ; comme 𝑛𝑖 ≥ 30, 𝑖 = 1,2 alors on a :
(8000)2 (5 000)2
(𝑋1− − 𝑋2− ) ↝ 𝑁 (50 000 − 40 000, + )
50 75
alors,
(𝑋1− − 𝑋2− ) − 𝜇(𝑋1−−𝑋2−) 12 000 − 10 000
𝑃(𝑋1− − 𝑋2− ≥ 12 000) = 𝑃( ≥ )
𝜎(𝑋1−−𝑋2−) 1270,17
≅ 𝑃(𝑍 ≥ 1,57), où Z ↝ N(0,1)

≅ 0,058.
C- La distribution de 𝒳 2
X est une v.a. continue de densité :
2 𝑥2
−
𝑓(𝑥) = 𝑘(𝑚)𝑥 𝑒 2
𝑚 pour x ≥ 0,
où m est un entier et k(m) est un fonction de m et on dit que 𝑋 ↝ 𝒳 2 (𝑚) à m degrés de
liberté.
Résultats.
a) 𝐸(𝒳 2 ) = 𝑚, 𝑉𝑎𝑟(𝒳 2 ) = 2𝑚.
b) si 𝑚 → ∞ 𝒳 2 (𝑚) → 𝑁(𝑚, 2𝑚).
c) La v.a est tabulée : 𝑃 (𝒳 2 ≥ 𝒳 2 ∝,𝑚 ) =∝.
d) Soient 𝑋𝑖 ↝ 𝑁(0,1), 𝑖 = 1, … , 𝑚, indépendants. Alors,
𝑌 = 𝑋12 + ⋯ + 𝑋𝑚 2
↝ 𝒳 2 (𝑚).
c) Si 𝑋𝑖 ↝ 𝒳 2 (𝑚𝑖 ) i = 1,2 . 𝐴𝑙𝑜𝑟𝑠,
𝑋1 + 𝑋2 ↝ 𝒳 2 (𝑚1 + 𝑚2 ).
d) La loi est tabulée :
𝒳 2 (𝛼, 𝑚)? tq 𝑃(𝒳 2 ≥ 𝒳 2 (𝛼, 𝑚)) = 𝛼
10
Utilisation comme distribution d'échantillonnage.
Soit (𝑋1 , … , 𝑋𝑛 ) un n-échantillon, la variance de l'échantillon :
𝑛
1
𝑆′2 = ∑(𝑋𝑖 − 𝑋 − )2 .
𝑛−1
𝑖=1
Résultat.
2
𝐸(𝑆 ′ ) = 𝜎 2 ; 𝑆′2 est un estimateur sans biais de la variance théorique.
En effet,
(𝑛 − 1)𝑆 ′ 2 = ∑𝑛𝑖=1(𝑋𝑖 − 𝜇)2 − 𝑛(𝑋 − − 𝜇)2 , alors,

𝑛
′2
(𝑛 − 1)𝐸(𝑆 ) = ∑ 𝐸(𝑋𝑖 − 𝜇)2 − 𝑛𝐸(𝑋 − − 𝜇)2
𝑖=1
𝜎2
= ∑𝑛𝑖=1 𝜎 2 − 𝑛 = (𝑛 − 1)𝜎 2
𝑛
2
alors E(𝑆 ′ ) =𝜎 2 .
Il est important de connaître la distribution de 𝑆′2 .
Théorème de Fisher.
Soit (𝑋1 , … , 𝑋𝑛 ) un n-échantillon d'une population 𝑁(𝜇, 𝜎 2 ),
2
soit 𝑆 ′ la variance de l′ échantillon, alors,
2
(𝑛−1)𝑆 ′
↝ 𝒳 2 (𝑛 − 1).
𝜎2
Exercice.
Dans une usine, une machine sous contrôle fabrique des bonbons avec un diamètre
↝𝑁(𝜇 = 30𝑚𝑚, 𝜎 = 0,5 𝑚𝑚). Si l'on tire un e.a. de 25 bonbons dans la production de
cette machine, quelle est la proba. que la variance de l'échantillon soit ≥ 0,38?.
Solution.
2
On cherche 𝑃(𝑆 ′ ≥ 0,38)?
11
′2
(𝑛 − 1)𝑆 ′ 2 24(0,38)
𝑃(𝑆 ≥ 0,38) = 𝑃 ( ≥ ) = 𝑃(𝒳 2 ≥ 36,48)
𝜎2 (0,5)2
Comme le degré de la loi est 24, d'après la table, on a :

𝑃(𝒳 2 ≥ 36,48) ≅ 0,05.
D- La distribution de student
Une v.a. de Student à m degré est une v.a. continue de densité :
(𝑚+1)
2 − 2
𝑡
𝑡 ∈ 𝐼𝑅, 𝑓(𝑡) = 𝐾(𝑚) (1 + ) ,
𝑚
où 𝑚 ∈ 𝐼𝑁, 𝐾(𝑚) est une fonction de m, notée t ↝ t(m).
Résultat.
𝑚
a) 𝐸(𝑡) = 0, si 𝑚 > 1 et 𝑉𝑎𝑟(𝑡) = 𝑚−2 si 𝑚 > 2.
b) 𝐶𝑡 ≔La courbe de t est en forme de cloche (symétrique/ à t=0) et si m augmente 𝑡 ↝ 𝑁(0,1).
c) Soient X, Y v.a. indépendantes tel que,
𝑋 ↝ 𝑁(0,1) et 𝑌 ↝ 𝒳 2 (𝑚), alors,
𝑋
𝑍= ↝ 𝑡(𝑚).
√ 𝑌
𝑚
Utilisation comme distribution d'échantillonnage

Soit (𝑋1 , … , 𝑋𝑛 ) un n-échantillon d'une population 𝑁(𝜇, 𝜎 2 ), on sait que 𝑋 − ≔
𝜎2
moyenne de l′ échantillon ↝ N (μ, ). Le plus souvent 𝜎 2 est inconnue, alors, on estime 𝜎 2 par 𝑆′2 ≔
𝑛
la variance de l′ e. a. pour cela, on utilise la statistique :
(𝑋 − − 𝜇)
.
𝑆′⁄
√𝑛
Résultat.
Soit (𝑋1 , … , 𝑋𝑛 ) un n-échantillon d'une population 𝑁(𝜇, 𝜎 2 ).
Alors,
(𝑋 − −𝜇)
𝑆′⁄ ↝t(n-1).
√𝑛
12
En effet, on sait que :
(𝑋 − − 𝜇) (𝑛 − 1)𝑆 ′ 2
↝ N(0,1) et 2
↝ 𝒳 2 (𝑛 − 1), alors,
(𝜎⁄ ) 𝜎
√𝑛
(𝑋 − − 𝜇)
(𝑋 − − 𝜇) (𝜎⁄ )
√𝑛
= ↝ 𝑡(𝑛 − 1).
𝑆′⁄ (𝑛 − 1)𝑆 ′ 2
√𝑛 √ 𝜎2 ⁄
(𝑛 − 1)
Remarque.
(𝑋 − −𝜇)
Comme la distribution t(m) tend vers N(0,1) lorsque m grand alors t(n-1) comme distribution de 𝑆′⁄ que
√𝑛
si n est petite (𝑛 < 30).
Exercice.
Pour estimer le montant hebdomadaire moyen dépensé par les familles de 4 personnes, on tire un
échantillon de 25 personnes (chaque personne représentant une famille). On suppose que les montants
dépensés sont distribués normalement avec une moyenne 𝜇 = 120 𝑑ℎ et une variance inconnue. Si la
variance de l'échantillon 𝑠′2 = 36 𝑑ℎ, calculer la probabilité que la moyenne 𝑋 − de l'échantillon soit ≥
123𝑑ℎ.
Solution.
(𝑋 − −𝜇) 123−120
𝑃(𝑋 − ≥ 123) =P( 𝑆 ′⁄
≥ )
6√25
√𝑛
= 𝑃(𝑡(24) ≥ 2,5) ≅ 0,01.
E- La distribution de (𝑋1− − 𝑋2− ) pour des populations normales de variances inconnues

mais égale.
Soient 𝑋1 ↝ 𝑁(𝜇1 , 𝜎12 ) et 𝑋2 ↝ 𝑁(𝜇2 , 𝜎22 ) avec 𝜎1 = 𝜎2 et on tire indépendamment :
Un e.a. de taille 𝑛1 de la 1ère population et un e.a. de taille 𝑛2 de la 2ème population.
En estimant 𝜎12 𝑒𝑡 𝜎22 par les variances des deux échantillons 𝑆′12 et 𝑆′22 ; La statistique
considérée
est la suivante :
Résultat.
(𝑋1− − 𝑋2− ) − (𝜇1 − 𝜇2 )
[ ] ↝ 𝑡(𝑛1 + 𝑛2 − 2)
√( 1 + 1 ) ((𝑛1 − 1)𝑆 ′12
+ (𝑛2 − 1)𝑆 ′ 22 )
𝑛1 𝑛2 𝑛1 + 𝑛2 − 2
13
Remarque.
On utilise cette statistique que si 𝑛1 + 𝑛2 − 2 < 30.
Exercice.
On va de nouveau comparer les durées de vie des pneus 𝑀1 𝑒𝑡 𝑀2 . Supposons que la
durée de vie 𝑀1 ↝ 𝑁(𝜇1 = 50000 𝑘𝑚, 𝜎1 inconnu) et 𝑀2 ↝ 𝑁(𝜇2 =
40000 𝑘𝑚, 𝜎2 inconnu) avec 𝜎1 = 𝜎2 .
Pour comparer ces pneus on a tiré un échantillon de 10 pneus de 𝑀1 et on a obtenu 𝑆′12 =
6000𝑘𝑚, et on a tiré un échantillon de 15 pneus de 𝑀1 et on obtenu 𝑆′12 = 4000 𝑘𝑚.
Quelle est la proba. que la durée moyenne de ces 10 pneus de 𝑀1 soit d'au moins 15 000 km
de plus que la durée de vie moyenne de ces 15 pneus 𝑀2 ?
Solution.
(𝑋1− − 𝑋2− ) − (𝜇1 − 𝜇2 )
𝑃((𝑋1− − 𝑋2− ) ≥ 15000) = 𝑃(
′2 ′2
√( 1 + 1 ) ((𝑛1 − 1)𝑆 1 + (𝑛2 − 1)𝑆 2 )
𝑛1 𝑛2 𝑛1 + 𝑛2 − 2
15000−1000
≥ = 𝑃(𝑡(23) ≥ 2,5) ≅ 0,01.
1 1 9(6000)2 +14(4000)2
√( + )( )
10 15 23
F- La distribution de Fisher
La distribution de Fisher à 𝑚1 𝑒𝑡 𝑚2 degrés de liberté est une v.a. continue de densité :
𝑚1 +𝑚2
𝑚 −1
( 1 ) 𝑚1 −( 2
)
𝑓(𝑥) = 𝑘(𝑚1 , 𝑚2 )𝑥 2 (1 + ) , 𝑥 ≥ 0,
𝑚2
où 𝑚1 𝑒𝑡 𝑚2 ∈ 𝐼𝑁 ∗ .
Résultats.
a) La v.a. est tabulée.
𝑚2 2𝑚2 (𝑚1 +𝑚2 −2)
b) 𝐸(𝑋) = 𝑚 𝑠𝑖 𝑚2 > 2 𝑒𝑡 𝑉𝑎𝑟 (𝑋) = 𝑚 2
, 𝑠𝑖 𝑚2 > 4.
2 −2 1 (𝑚2 −2) (𝑚2 −4)
c) Soit 𝑋𝑖 , 𝑖 = 1,2 deux v. a. ↝ 𝒳 2 (𝑚𝑖 ), 𝑖 = 1,2. Alors,
𝑋
( 1⁄𝑚1 )
𝑌= ↝ 𝐹(𝑚1 , 𝑚2 ).
𝑋2⁄
( 𝑚2 )
14
Utilisation comme distribution d'échantillonnage
Pour deux population données, on peut vouloir comparer leurs variances; pour cela, on tire
indépendamment un échantillon de taille 𝑛𝑖 , 𝑖 = 1,2 de chaque population i. Pour comparer les variances
𝑆′2
de ces deux populations, on se sert du 𝑆′12 . Si on suppose en plus que les deux populations sont normales,
2
alors, on a :
𝑆′12
⁄ 2
𝜎1
2 ↝ 𝐹(𝑛1 − 1, 𝑛2 − 1).
𝑆′2
⁄ 2
𝜎2
Exercice.
On désire maintenant comparer les variances des durées de vies des pneus 𝑀1 𝑒𝑡 𝑀2 . Supposons que la
durée de vie de 𝑀1 soit normale/ 𝜎12 = 30152 , et que celle de 𝑀2 est 𝜎12 = 40002 . Si on tire un e.a de 10
pneus 𝑀1 et un autre de 20 pneus de 𝑀2 , calculer la probabilité que la variance 𝑆′12 soit au moins 2 fois plus
grande que la variance 𝑆′22 du 2ème échantillon.
Solution.
𝑆′12
𝑆′12 ⁄ 2 2(4000)2
𝜎1
𝑃 ( ′2 ≥ 2) = 𝑃 2 ≥ = 𝑃(𝐹 ≥ 3,52) ≅ 0,01.
𝑆2 ′
𝑆2 (3015)2
⁄ 2
( 𝜎2 )
Où la valeur 𝐹𝛼 = 3,52 a été lue dans la table du 𝐹(𝑚1 = 9, 𝑚2 = 19).
Remarque.
1
Si 𝐹 ↝ 𝐹(𝑚1 , 𝑚2 ) alors ↝ 𝐹(𝑚2 , 𝑚1 ),
𝐹
(la fractile d′ ordre 𝛼 de 𝐹(𝑚1 , 𝑚2 ) est l′ inverse du fractile d′ ordre 1 − 𝛼 de 𝐹(𝑚2 , 𝑚1 ), en effet:
1 1
𝑃(𝐹((𝑚1 , 𝑚2 ) ≤ ℎ𝛼 ) = 𝛼 ⇔ 𝐹 ( ≥ )=𝛼
𝐹(𝑚1 , 𝑚2 ) ℎ𝛼
1
⇔ 𝑃 (𝐹(𝑚2 , 𝑚1 ) ≤ ) = 1 − 𝛼.
ℎ𝛼
II- Fonction de vraisemblance

Pour un modèle d'échantillon discret, l'élément aléatoire observé est 𝑋 = (𝑋1 , … , 𝑋𝑛 ), 𝑋𝑖 sont i.i.d, la
fonction de vraisemblance est :
𝐿(𝑥1 , … , 𝑥𝑛 ; 𝜃) = 𝑃(𝑋1 = 𝑥1 , … , 𝑋𝑛 = 𝑥𝑛 ; 𝜃) = ∏𝑛𝑖=1 𝑃(𝑋𝑖 = 𝑥𝑖 ; 𝜃).
15
Pour un modèle continue, on a:
𝐿(𝑥1 , … , 𝑥𝑛 ; 𝜃) = ∏𝑛𝑖=1 𝑓(𝑥𝑖 , 𝜃).
Exemple 1. (Echantillon gaussien)
Le modèle (𝐼𝑅, {𝑁(𝜃, 1), 𝜃 ∈ 𝐼𝑅})𝑛 est le modèle gaussien. Sa vraisemblance est :
1 (𝑥𝑖 − 𝜃)2
𝐿(𝑥1 , … , 𝑥𝑛 ; 𝜃) = ∏𝑛𝑖=1 𝑓(𝑥𝑖 , 𝜃) = ∏𝑛𝑖=1 exp(− )
√2𝜋 2
1 1
= 𝑛 exp(− 2 ∑𝑛𝑖=1(𝑥𝑖 − 𝜃)2 ).
(2𝜋) 2
Exemple 2. (Echantillon de Bernoulli)

Le modèle d'd'échantillonnage est ({0,1}, (𝐵(1, 𝑝), 𝑝 ∈ [0,1])𝑛 où
𝑝 𝑠𝑖 𝑥 = 1,
∀𝑝 ∈ [0,1], ∀𝑥 ∈ {0,1} 𝑃(𝑋 = 𝑥; 𝑝) = { = 𝑝 𝑥 (1 − 𝑝)1−𝑥 .
1 − 𝑝 𝑠𝑖 𝑥 = 0.
Ce modèle admet pour fonction de vraisemblance :
𝐿(𝑥1 , … , 𝑥𝑛 ; 𝜃) = ∏𝑛𝑖=1 𝑃(𝑋𝑖 = 𝑥𝑖 ; 𝑝) = ∏𝑛𝑖=1 𝑝 𝑥𝑖 (1 − 𝑝)1−𝑥𝑖

𝑛 𝑛
= 𝑝∑𝑖=1 𝑥𝑖 (1 − 𝑝)𝑛−∑𝑖=1 𝑥𝑖 .
III- Statistique exhaustive.
Considérons un modèle statistique paramétrique (𝓚, 𝓐, {𝛲𝜃 , 𝜃 ∈ 𝛩 ⊂ 𝐼𝑅 𝑑 }).

Soient 𝑥 = (𝑥1 , … , 𝑥𝑛 ) et 𝑛 très grand, on cherche à obtenir le maximum d'information possible sur le
paramètre 𝜃 à partir de l'observation 𝑥.
Il est alors intéressant de réduire les données en les résumant par une statistique 𝑇(𝑥) des observations.
Il est logique de s'attendre à ce que le résumé 𝑇(𝑥) des observations contienne moins d'information sur
𝜃 que l'ensemble des données initiales. Or il existe des statistiques qui résument les observations tout
en conservant l'intégralité de l'information sur 𝜃, ce sont les statistiques exhaustives.
Définition.
Une statistique T est exhaustive pour 𝜃 si et seulement si la loi de probabilité conditionnelle de
𝑋 sachant [T = t] ne dépend pas de 𝜃.
Exercice 1. (Contrôle de qualité)
Le modèle est ({0,1}, (𝐵(1, 𝑝), 𝑝 ∈ [0,1])𝑛 soit 𝑥 = (𝑥1 , … , 𝑥𝑛 ) où
1 si la pièce est défectueuse
𝑥𝑖 = {
0 sinon.
Les 𝑋𝑖 sont des v.a. i.i.d. de loi 𝐵(1, 𝑝) avec 𝑝 la probabilité qu'une pièce soit défectueuse.
Pour avoir toute l'information sur 𝑝, il est inutile de savoir, pour chaque pièce contrôler, si elle est
défectueuse ou pas. Il suffit de connaître le pourcentage de pièces défectueuses.
16
Montrer que l'estimateur de 𝑝, définie par :
𝑛
𝑇(𝑋) = ∑ 𝑋𝑖
1
est une statistique exhaustive pour 𝑝.

Solution.
On sait que 𝑇(𝑋) = ∑𝑛𝑖=1 𝑋𝑖 ↝ 𝐵(𝑛, 𝑝). On a alors,
𝑛
𝑃(𝑋 = 𝑥|𝑇 = 𝑡) = 𝑃 (𝑋1 = 𝑥1 , … , 𝑋𝑛 = 𝑥𝑛 | ∑ 𝑥𝑖 = 𝑡)

𝑖=1
0 𝑠𝑖 ∑𝑛𝑖=1 𝑥𝑖 ≠ 𝑡
𝑃(𝑋1 =𝑥1 ,…,𝑋𝑛 =𝑥𝑛 ,∑𝑛
𝑖=1 𝑥𝑖 =𝑡)
= = {𝑃(𝑋1 =𝑥1 ,…,𝑋𝑛=𝑥𝑛,∑𝑛𝑖=1 𝑥𝑖 =𝑡) 𝑠𝑖 ∑𝑛𝑖=1 𝑥𝑖 = 𝑡
𝑃(∑𝑛
𝑃(∑𝑛
Comme 𝑃(𝑋𝑖 = 𝑥𝑖 ) = 𝑝 𝑥𝑖 (1 − 𝑝)1−𝑥𝑖 et les v.a. 𝑋𝑖 sont indépendantes, si ∑𝑛𝑖=1 𝑥𝑖 = 𝑡:

𝑃(𝑋1 = 𝑥1 , … , 𝑋𝑛 = 𝑥𝑛 , ∑𝑛𝑖=1 𝑥𝑖 = 𝑡) ∏𝑛𝑖=1 𝑃(𝑋𝑖 = 𝑥𝑖 )
=
𝑃(∑𝑛𝑖=1 𝑥𝑖 = 𝑡) 𝑃(𝑇 = 𝑡)
𝑛 𝑛
∏𝑛 𝑥𝑖
𝑖=1 𝑝 (1−𝑝)
1−𝑥𝑖
𝑝∑𝑖=1 𝑥𝑖 (1−𝑝)𝑛−∑𝑖=1 𝑥𝑖 1
= = = 𝐶𝑡 .
𝐶𝑛𝑡 𝑝𝑡 (1−𝑝)𝑛−𝑡 𝐶𝑛𝑡 𝑝𝑡 (1−𝑝)𝑛−𝑡 𝑛
qui ne dépend pas de 𝑡. Alors 𝑇(𝑋) est une statistique exhaustive de p.

Souvent, on utilise le théorème de Fisher-Neyman qui caractérise très simplement l'exhaustivité.
Théorème 1. Théorème de factorisation

Pour qu'une statistique 𝑇 soit exhaustive pour 𝜃 il faut et il suffit qu'il existe deux fonctions mesurables
𝑔 et ℎ telle que:
∀ 𝑥(𝑥1 , … , 𝑥𝑛 ), ∀ 𝜃, 𝐿(𝑥; 𝜃) = 𝑔(𝑇(𝑥); 𝜃)ℎ(𝑥).
Démonstration. Cas discret :
- Condition nécessaire : Si T est exhaustive pour 𝜃, alors 𝑃(𝑋 = 𝑥|𝑇 = 𝑡) est une expression
indépendante de 𝜃. Donc, on a:
𝐿(𝑥; 𝜃) = 𝑃(𝑋 = 𝑥; 𝜃) = 𝑃([𝑋 = 𝑥] ∩ [𝑇(𝑋) = 𝑥; 𝜃])
= 𝑃(𝑋 = 𝑥|𝑇 = 𝑡(𝑥))𝑃(𝑇 = 𝑡(𝑥); 𝜃) (formule des proba. composées)
= ℎ(𝑥)𝑃(𝑇 = 𝑡(𝑥); 𝜃) = ℎ(𝑥)𝑔(𝑡(𝑥); 𝜃).

- Condition suffisante : suppose que 𝐿(𝑥; 𝜃) = 𝑃(𝑋 = 𝑥; 𝜃) = ℎ(𝑥)𝑔(𝑡(𝑥); 𝜃) et on doit montrer
que 𝑃(𝑋 = 𝑥|𝑇 = 𝑡) ne dépend pas de 𝜃.
𝑃([𝑋=𝑥]∩𝑃[𝑇=𝑡0 ;𝜃])
0 si t(x) ≠ 𝑡0
On a, 𝑃(𝑋 = 𝑥|𝑇 = 𝑡0 ; 𝜃) = = { 𝑃[𝑋=𝑥;𝜃]
𝑃[𝑇=𝑡0 ;𝜃] si t(x) = 𝑡0
𝑃[𝑇=𝑡 ;𝜃]
0
17
or 𝑃(𝑇 = 𝑡0 ; 𝜃) = 𝑃(𝑇(𝑋) = 𝑡0 ; 𝜃) = ∑{𝑦:𝑡(𝑦)=𝑡0 } 𝑃(𝑋 = 𝑦; 𝜃) et donc, pour t(x) = 𝑡0 , on a:
𝑃(𝑋 = 𝑥; 𝜃) ℎ(𝑥)𝑔(𝑡(𝑥); 𝜃) ℎ(𝑥)𝑔(𝑡(𝑥); 𝜃)

𝑃(𝑋 = 𝑥|𝑇 = 𝑡0 ; 𝜃) = = =
𝑃(𝑇 = 𝑡0 ; 𝜃) ∑{𝑦:𝑡(𝑦)=𝑡0 } 𝑃(𝑋 = 𝑦; 𝜃) ∑{𝑦:𝑡(𝑦)=𝑡0 } 𝑔(𝑡(𝑦); 𝜃)ℎ(𝑦)
𝑔(𝑡0 , 𝜃)ℎ(𝑥) ℎ(𝑥)

= = ,
∑{𝑦:𝑡(𝑦)=𝑡0 } 𝑔(𝑡0 ; 𝜃)ℎ(𝑦) ∑{𝑦:𝑡(𝑦)=𝑡0 } ℎ(𝑦)
Expression qui ne dépend pas de 𝜃. Donc Test une statistique exhaustive. D'où le Thm.
Exercice 2. (Contrôle de qualité)
En appliquant le théorème de factorisation, montrer que la statistique,
𝑛
𝑇(𝑋) = ∑1 𝑋𝑖 est exhaustive.
Solution.
On a vu que :
𝑛 𝑛
𝐿(𝑥; 𝑝) = ∏𝑛𝑖=1 𝑝 𝑥𝑖 (1 − 𝑝)1−𝑥𝑖 = 𝑝∑𝑖=1 𝑥𝑖 (1 − 𝑝)𝑛−∑𝑖=1 𝑥𝑖 ≔ ℎ(𝑥)𝑔(𝑇(𝑥); 𝑝)
𝑛 𝑛
Avec ℎ(𝑥) = 1 et 𝑔(𝑇(𝑥); 𝑝) = 𝑝∑𝑖=1 𝑥𝑖 (1 − 𝑝)𝑛−∑𝑖=1 𝑥𝑖 et donc 𝑇(𝑥) = ∑𝑛𝑖=1 𝑥𝑖 est une statistique
exhaustive d'après le théorème de factorisation.
Exercice 3. (Echantillon de 𝑁(𝜇, 𝜎 2 ))
On suppose 𝑋 = (𝑋1 , … 𝑋𝑛 ) est un échantillon i.i.d. de loi 𝑁(𝜇, 𝜎 2 ).
Montrer que la statistique 𝑇(𝑋) = (𝑇1 (𝑋) = (∑𝑛𝑖=1 𝑋𝑖 , 𝑇2 (𝑋) = ∑𝑛𝑖=1 𝑋𝑖2 ) est une statistique exhaustive
pour 𝜃 = (𝜇, 𝜎 2 ).
Solution.
La vraisemblance est :
1 (𝑥𝑖 − 𝜇)2
𝐿(𝑥; 𝜇, 𝜎 2 ) = ∏𝑛𝑖=1 𝑓(𝑥, 𝜇, 𝜎 2 ) = ∏𝑛𝑖=1 exp(− )
𝜎√2𝜋 2𝜎 2
1 1
= (𝜎√2𝜋)𝑛 exp(− 2𝜎2 [∑𝑛𝑖=1 𝑥𝑖 2 − 2𝜇 ∑𝑛𝑖=1 𝑥𝑖 + 𝑛𝜇 2 ]:=h(x)g(t(x); 𝜇, 𝜎 2 )
où
𝑛 𝑛
𝑡(𝑥) = (𝑡1 (𝑥), 𝑡2 (𝑥)) = (∑ 𝑥𝑖 , ∑ 𝑥𝑖 2 )

𝑖=1 𝑖=1
Est une statistique exhaustive d'après le théorème de factorisation.

Corollaire (du Théorème de factorisation)
Soit 𝛷: 𝐼𝑅 𝑃 → 𝐼𝑅 𝑝 indépendante de 𝜃 et bijective. Si T est une statistique exhaustive pour 𝜃 alors
18
𝑆 = 𝛷(𝑇) est aussi une statistique exhaustive pour 𝜃.
Preuve. On a 𝐿(𝑥, 𝜃) = ℎ(𝑥)𝑔(𝑇(𝑥); 𝜃) = ℎ(𝑥)ℎ(𝛷−1 (𝑆); 𝜃) = ℎ(𝑥)𝑔𝑜𝛷−1 (𝑆(𝑥); 𝜃) ce qui montre que
𝑆 = 𝛷(𝑇) est une statistique exhaustive pour 𝜃, par le théorème de factorisation.
Exercice 4. (Echantillon de 𝑁(𝜇, 𝜎 2 ))
On suppose 𝑋 = (𝑋1 , … 𝑋𝑛 ) est un échantillon i.i.d. de loi 𝑁(𝜇, 𝜎 2 ).
Montrer que la statistique
1 1 2
𝑇(𝑋) = (𝑇1 (𝑋) = (𝑛 ∑𝑛𝑖=1 𝑋𝑖 = 𝑋 − , 𝑇2 (𝑋) = 𝑛−1 (∑𝑛𝑖=1 𝑋𝑖2 − 𝑛(𝑋 − )2 ) ≔ (𝑋 − , 𝑆 ′ ) est une statistique
exhaustive pour 𝜃 = (𝜇, 𝜎 2 ).
Solution.
On vient de voir que la statistique 𝑇(𝑋) = (∑𝑛𝑖=1 𝑋𝑖 , ∑𝑛𝑖=1 𝑋𝑖2 ) est une statistique exhaustive pour (𝜇, 𝜎 2 ).
𝑥 𝑦−𝑛𝑥 2
Soit 𝛷: 𝐼𝑅 2 → 𝐼𝑅 2 définie par 𝛷(𝑥, 𝑦) = ( , ) qui est bijective alors
𝑛 𝑛−1
1 2
𝛷(∑𝑛𝑖=1 𝑥𝑖 , ∑𝑛𝑖=1 𝑋𝑖2 ) = (𝑋 − , 𝑛−1 (∑𝑛𝑖=1 𝑋𝑖2 − 𝑛𝑋 − 2 ) = (𝑋 − , 𝑆 ′ ) est une statistique exhaustive.
IV- La famille exponentielle

Définition. Soit 𝑋 une v.a. dont la loi de probabilité dépend de d'un paramètre 𝜃 ∈ 𝐼𝑅 𝑑 . On dit que la loi
de 𝑋 appartient à la famille exponentielle si et seulement si 𝑃(𝑋 =
𝑥; 𝜃) (cas discret) 𝑜𝑢 𝑓𝑋 (𝑥; 𝜃) (cas continu) est de la forme :
𝑑
exp {∑ 𝑎𝑗 (𝑥)𝛼𝑗 (𝜃) + 𝑏(𝑥) + 𝛽(𝜃)}.

𝑗=1
Remarque.
La plupart des lois usuelles appartiennent à la famille exponentielle.
Exercice 1.
Montrer que les lois :
1) La loi de Bernoulli 𝐵(1, 𝑝): 𝑃(𝑋 = 𝑥; 𝑝) = 𝑝 𝑥 (1 − 𝑝)1−𝑥 ,
2) La loi exponentielle 𝐸𝑥𝑝(𝜆): 𝑓(𝑥, 𝜆) = 𝜆𝑒 −𝜆𝑥 𝟙[0,+∞) (𝑥),
1 (𝑥−𝜇)2
3) La loi normale 𝑁(𝜇, 𝜎 2 ): 𝑓(𝑥; 𝜇, 𝜎 2 ) = 𝜎√2𝜋 exp (− ),
2𝜎2
appartiennent à la famille exponentielle.
Exercice 2.
𝑥 𝛽−1 𝑥
Montrer que la loi de Weibull 𝑊(𝜂, 𝛽): 𝑓(𝑥; 𝜂, 𝛽) = 𝛽 exp{−(𝜂)𝛽 } n'appartient pas à la famille
𝜂𝛽
exponentielle.
19
Solutions.
Exercice 1.
1) 𝑃(𝑋 = 𝑥; 𝑝) = 𝑝 𝑥 (1 − 𝑝)1−𝑥 = exp{𝑥𝑙𝑛 𝑝 + (1 − 𝑥) ln(1 − 𝑝)}
𝑝
= exp{𝑥𝑙𝑛 ( ) + ln(1 − 𝑝)}
1−𝑝
: = 𝑒𝑥𝑝{𝑎(𝑥)𝛼(𝑝) + 𝑏(𝑥) + 𝛽(𝑝)}

𝑝
avec 𝑎(𝑥) = 𝑥, 𝛼(𝑝) = ln , 𝑏(𝑥) = 0 et 𝛽(𝑝) = ln(1 − 𝑝).
1−𝑝
Et donc la loi de Bernoulli appartient à la famille exponentielle.

2) 𝑓(𝑥, 𝜆) = 𝜆𝑒 −𝜆𝑥 𝐼[0,+∞) (𝑥) = exp{−𝜆𝑥 + ln 𝜆} 𝟙[0,+∞) (𝑥)
: = exp{𝑎(𝑥)𝛼(𝜆) + 𝑏(𝑥) + 𝛽(𝜆)}
avec 𝑎(𝑥) = 𝑥, 𝛼(𝜆) = −𝜆, 𝑏(𝑥) = 0 𝑒𝑡 𝛽(𝜆) = ln 𝜆.

1 (𝑥−𝜇)2 𝑥2 𝜇𝑥 𝜇2
3) 𝑓(𝑥; 𝜇, 𝜎 2 ) = 𝜎√2𝜋 exp (− 2𝜎2 ) = exp{− 2𝜎2 + 𝜎2 − 2𝜎2 − ln 𝜎√2𝜋}
≔ exp{𝑎1 (𝑥)𝛼1 (𝜇, 𝜎 2 ) + 𝑎2 (𝑥)𝛼2 (𝜇, 𝜎 2 ) + 𝑏(𝑥) + 𝛽(𝜇, 𝜎 2 )}
avec
1 𝜇 𝜇2
𝑎1 (𝑥) = 𝑥 2 , 𝛼1 (𝜇, 𝜎 2 ) = − 2𝜎2 , 𝑎2 (𝑥) = 𝑥, 𝛼2 (𝜇, 𝜎 2 ) = 𝜎2 , 𝑏(𝑥) = 0 𝑒𝑡 𝛽(𝜇, 𝜎 2 ) = − 2𝜎2 − ln 𝜎√2𝜋.
Exercice 2.
𝑥 𝛽−1 𝑥
𝑓(𝑥; 𝜂, 𝛽) = 𝛽 𝛽
exp{− ( )𝛽 }
𝜂 𝜂
𝑥𝛽
= exp {− + (𝛽 − 1) ln 𝑥 − 𝛽 ln 𝜂 + ln 𝛽} ;
𝜂𝛽
𝑥𝛽
Le terme 𝑥 𝛽 fait que ne peut pas être mis sous la forme 𝑎(𝑥)𝛼(𝜂, 𝛽), d'où la loi de Weibull
𝜂𝛽
n'appartient pas à la famille exponentielle.
Le lien entre la famille exponentielle et l'exhaustivité est donné par le résultat suivant :
Théorème 2. Théorème de Darmois

Dans un modèle d'échantillon (𝓚, 𝓐, {𝛲𝜃 , 𝜃 ∈ 𝛩 ⊂ 𝐼𝑅𝑑 }), où le support de la loi des observations ne
dépend pas de 𝜃, il existe une statistique exhaustive si et seulement cette loi appartient à la famille
exponentielle. Et donc,
20
𝑛 𝑛
𝑡(𝑥) = (∑ 𝑎1 (𝑥𝑖 ), … , ∑ 𝑎𝑑 (𝑥𝑖 )).

𝑖=1 𝑖=1
est une statistique exhaustive.

Exercice.
Appliquer le Théorème de Darmois et en déduire les statistiques exhaustives pour les lois:
1) Loi de Bernoulli,
2) Loi exponentielle,
3) Loi normale.
Solution.
1)
𝑝
= exp{𝑥𝑙𝑛 ( ) + ln(1 − 𝑝)}
1−𝑝
: = 𝑒𝑥𝑝{𝑎(𝑥)𝛼(𝑝) + 𝑏(𝑥) + 𝛽(𝑝)}

avec 𝑎(𝑥) = 𝑥 donc T(x) = ∑𝑛𝑖=1 𝑥𝑖
est une statistique exhaustive d′ aprèsle Thm Darmois.
2)
𝑓(𝑥, 𝜆) = 𝜆𝑒 −𝜆𝑥 𝐼[0,+∞) (𝑥) = exp{−𝜆𝑥 + ln 𝜆} 𝐼[0,+∞) (𝑥)
: = exp{𝑎(𝑥)𝛼(𝜆) + 𝑏(𝑥) + 𝛽(𝜆)}
avec 𝑎(𝑥) = 𝑥 donc T(x) = ∑𝑛𝑖=1 𝑥𝑖 est une statistique exhaustive.

3)
1 (𝑥 − 𝜇)2 𝑥2 𝜇𝑥 𝜇2
𝑓(𝑥; 𝜇, 𝜎 2 ) = exp (− ) = exp {− + − − ln 𝜎√2𝜋}
𝜎√2𝜋 2𝜎 2 2𝜎2 𝜎2 2𝜎2
≔ exp{𝑎1 (𝑥)𝛼1 (𝜇, 𝜎 2 ) + 𝑎2 (𝑥)𝛼2 (𝜇, 𝜎 2 ) + 𝑏(𝑥) + 𝛽(𝜇, 𝜎 2 )}
avec,
𝑎1 (𝑥) = 𝑥 2 et 𝑎2 (𝑥) = 𝑥 et donc la statistique :
−
(∑𝑛𝑖=1 𝑥𝑖 , ∑𝑛𝑖=1 𝑥𝑖2 ) ≔ (𝑥 , 𝑠2 ) est une statistique exhaustive d'après le Thm de Darmois.
21
Chapitre 2
Estimation paramétrique
I-Introduction.
On dispose d'un échantillon eas (𝑋1 , … , 𝑋𝑛 ) issu d'une v.a. 𝑋 ↝ 𝑃𝜃 . On suppose que 𝑃𝜃 =
𝐹𝜃 une distribution qui est connue (Poisson (𝜃), Bernoulli (𝜃), Exponentielle ( ) … ) à
l'exception du paramètre 𝜃 prés.
Il est à noter que si la forme de la distribution n'est pas connue, le statisticien aura recours
à des méthodes de la "Statistique non paramétrique".
Ce chapitre sera consacré au problème d'estimation de 𝜃 ou à une fonction 𝑔(𝜃) (si elle
est scalaire); ou encore à une partie ou à la totalité des composantes du paramètre 𝜃 ou
𝑔(𝜃) si elle est vectoriel).
L'estimation du paramètre 𝜃 consiste à approcher la(es) valeur(s) réelle(s) de 𝜃 (inconnue)
par une (des) valeurs calculées à partir de l'observation de l'eas (𝑋1 , … , 𝑋𝑛 ).
Quand l'estimation de 𝜃 renseigne sur la valeur ponctuelle de 𝜃, on dira que c'est une
"estimation ponctuelle". Si l'estimation renseigne sur un ordre de grandeur autour de 𝜃,
on dira que c'est une "estimation par intervalle de confiance" (ou "estimation par région
de confiance" si 𝜃 est vectoriel).
II- Méthodes d'évaluation d'estimateurs
1-Erreur moyennes quadratique (EMQ)
Soit (𝑋1 , … , 𝑋𝑛 ) un échantillon dont la loi de probabilité est spécifiée grâce à un
paramètre 𝜃 ∈ Ѳ fixé mais inconnu. Soit 𝑇 = 𝑇(𝑋1 , … , 𝑋𝑛 ) un estimateur de 𝑔(𝜃.Parmi
les critères qui permettent d'optimiser le choix d'un estimateur, on a:
Définition 1.
L'erreur moyenne quadratique (EMQ) d'un estimateur 𝑇 = 𝑇(𝑋1 , … , 𝑋𝑛 ) de 𝑔(𝜃) est
la fonction de 𝜃 définie par :
2
𝑅(𝜃, 𝑇) = 𝐸 [(𝑇 − 𝑔(𝜃)) ].
Remarque.
En écrivant 𝑇 − 𝑔(𝜃) = 𝑇 − 𝐸(𝑇) + 𝐸(𝑇) − 𝑔(𝜃), on obtient :
22
𝐸(𝑇 − 𝑔(𝜃))2 = 𝐸[{𝑇 − 𝐸(𝑇) + 𝐸(𝑇) − 𝑔(𝜃)}2 ]
= 𝐸(𝑇 − 𝐸(𝑇))2 + 𝐸(𝑇 − 𝑔(𝜃))2 + 2𝐸[(𝑇 − 𝐸(𝑇))(𝐸(𝑇) − 𝑔(𝜃)]
= 𝑉𝑎𝑟(𝑇) + 𝑏 2 (𝜃, 𝑇) + 2𝐸[(𝑇 − 𝐸(𝑇))(𝐸(𝑇) − 𝑔(𝜃)]
= 𝑉𝑎𝑟(𝑇) + 𝑏 2 (𝜃, 𝑇) car 𝐸(𝑇 − 𝐸(𝑇)) = 0, où
𝑏(𝜃, 𝑇) = 𝐸(𝑇) − 𝑔(𝜃) est le biais de 𝑇 pour 𝑔(𝜃).
Définition 2.
Si 𝑇 = 𝑇(𝑋1 , … , 𝑋𝑛 ) et 𝑆 = 𝑆(𝑋1 , … , 𝑋𝑛 ) sont deux estimateurs de 𝑔(𝜃), on dit que T
est meilleur que S au sens de l'EQM si :
𝑅(𝜃, 𝑇) ≤ 𝑅(𝜃, 𝑆), pour tout θ ∈ Ѳ,
Et strictement meilleur si de plus il existe au moins une valeur θ pour laquelle l'inégalité
précédente est stricte.
Exercice.
Soit 𝑇 = 𝑇(𝑋1 , … , 𝑋𝑛 ) un échantillon issu de la loi 𝑁(𝜃, 1).
1
a) Soit 𝑇 = ∑𝑛𝑖=1 𝑋𝑖 ≔ 𝑋 − la moyenne de l′ échantillon, comme estimeur de θ,
𝑛
- Donner 𝑔, la loi de T et 𝑏(𝜃, 𝑇);
- Calculer 𝑅(𝜃, 𝑇).
b) Soit 𝑆(𝑋1 , … , 𝑋𝑛 ) = 𝑋1 un autre estimateur de θ, calculer:
- 𝐸(𝑆), 𝑉𝑎𝑟(𝑆) et son 𝐸𝑀𝑄: 𝑅(𝜃, 𝑆);
- Conclure.
Solution.
a)
1
- 𝑔(𝜃) = 𝜃 et 𝑇 = 𝑋 − ↝ 𝑁 (𝜃, ).
𝑛
Comme 𝑔(𝜃) = 𝜃 et 𝐸(𝑋 − ) = 𝜃 alors 𝑏(𝜃, 𝑇) = 𝐸(𝑇) − 𝑔(𝜃) = 0.

- On en déduit, alors que :
1
𝑅(𝜃, 𝑇) = 𝑉𝑎𝑟(𝑋 − ) = .
𝑛
23
b)
- D'autre part,
𝑆 est un estimateur de θ tel que: 𝐸(𝑆) = 𝜃, 𝑉𝑎𝑟(𝑆) = 1 et 𝑅(𝜃, 𝑆) = 1.
1
- 0n a 𝑅(𝜃, 𝑇) = ≤ 𝑅(𝜃, 𝑆) = 1
𝑛
donc l′ estimateur 𝑇 est strictement meilleur que S.

Remarque.
Vu que l'ensemble de tous les estimateurs très grand, la détermination d'un meilleur
estimateur est un problème mathématiquement complexe, c'est pour cela qu'on se limite à
un nombre restreint d'estimateurs à savoir les estimateurs sans biais.
2. Estimateur sans biais
Définition 3.
On appelle estimateur sans biais (ESB) toute statistique 𝑇 = 𝑇(𝑋1 , … , 𝑋𝑛 ) telle que:
𝑏(𝑇, 𝜃) = 0, ∀ 𝜃 ∈ Ѳ.
Remarque.
a) Si 𝑇 est un ESB, alors EMQ(𝑇) = 𝑉𝑎𝑟(𝑇),
b) La définition précédente signifie que l'ESB 𝑇 n'a tendance ni à sous-estimer ni à
surestimer 𝑔(𝜃): en moyenne il vise juste.
Exemple. Contrôle de qualité :
Une machine fabrique une proportion 𝜃 inconnue de pièces défectueuses que l'on désire
estimer. Pour cela, on prélève de façon indépendantes n pièces et on observe les v.a.
𝑋1 , … , 𝑋𝑛 où 𝑋𝑖 = {
0 sinon.
Ces v.a. sont de Bernoulli 𝐵(1, 𝜃). L'estimateur du maximum de vraisemblance de 𝜃 est
𝑋 − . C'est un ESB pour 𝜃 puisque 𝐸(𝑋 − ) = 𝜃.
Exercice. Cas gaussien
1
Soient 𝑋1 , … , 𝑋𝑛 𝑛 v.a. i.i.d. de loi 𝑁(𝜇, 𝜎 2 ). Soient 𝑋 − et 𝑆′2 = ∑𝑛𝑖=1(𝑋𝑖 − 𝑋 − )2 . sont
𝑛−1
des ESB de
1) Vérifier que sont des ESB de 𝜇 et 𝜎 2 .
𝜎2 2 2𝜎 4
2) Montrer que 𝑅(𝜇 , 𝑋 − ) = 𝑉𝑎𝑟(𝑋 − ) = et 𝑅(𝜎 2 , 𝑆 ′ ) = .
𝑛 𝑛−1
3) Montrer que l'estimateur de maximum de vraisemblance de 𝜎 2 est
1
𝑆 2 = ∑𝑛𝑖=1(𝑋𝑖 − 𝑋 − )2 . .
𝑛
24
4) Calculer 𝑅(𝜎 2 , 𝑆 2 ).
5) Comparer 𝑅(𝜎 2 , 𝑆 2 ) et 𝑅(𝜎 2 , 𝑆′2 ) et Conclure.
3. Estimateur sans biais de variance minimale (ESBVM)
EMQ d'un ESB n'est autre que sa variance et donc la comparaison des ESB revient à
comparer leurs variances.
Définition 4.
Un estimateur 𝑇 = 𝑇(𝑋1 , … , 𝑋𝑛 ) de la fonction g(θ) est un estimateur sans biais à
variance minimale (ESBVM) s'il est sans biais pour g(θ) et si, pour tout autre estimateur
𝑆 = 𝑆(𝑋1 , … , 𝑋𝑛 ) sans biais de g(θ), on a :
𝑉(𝑇) ≤ 𝑉(𝑆), ∀𝜃.
II- Réduction de la variance
Le résultat suivant permet, à partir d'un ESB, de construire un autre ESB de variance
inférieure, lorsqu'on dispose d'une statistique exhaustive.
Théorème 1. (Théorème de Rao-Blackwell)
Soit 𝑆 = 𝑆(𝑋1 , … , 𝑋𝑛 ) un ESB de 𝜃. Si 𝑇 est une statistique exhaustive, alors
𝑈 = 𝐸(𝑆|𝑇) est un ESB de variance inférieure à celle de 𝑆.
On commence par rappeler le résultat suivant :
Proposition 1.
Soient 𝑋 et 𝑌 deux v.a. quelconques. Alors,
i) 𝐸(𝑌|𝑋) = 𝐸(𝑌) (Théorème de l′ espérance total)
ii) 𝑉(𝑌) = 𝐸[𝑉(𝑌|𝑋)] + 𝑉(𝐸(𝑌|𝑋)) (Théorème de la variance totale).
-Le réel 𝐸(𝑌|𝑋 = 𝑥) est l'espérance conditionnelle de Y sachant 𝑋 = 𝑥, définie par :
∑ 𝑦𝑃(𝑌 = 𝑦|𝑋 = 𝑥) dans le cas dicret

𝑦∈𝑌(Ω)
𝐸(𝑌|𝑋 = 𝑥) = +∞
∫ 𝑦𝑓(𝑦|𝑥)𝑑𝑦 dans le cas continu.
{ −∞
Le rée 𝑉(𝑌|𝑋 = 𝑥) est la variance conditionnelle de 𝑌 sachant 𝑋 = 𝑥, définie par,
25
𝑉(𝑌|𝑋 = 𝑥) = 𝐸{[𝑌 − 𝐸(𝑌|𝑋 = 𝑥)]2 |𝑋 = 𝑥}
𝐸(𝑌 2 |𝑋 = 𝑥) − 𝐸 2 (𝑌|𝑋 = 𝑥).
Démonstration du Théorème 1.
Puisque T est exhaustive, la loi de 𝑋 sachant 𝑇 ne dépend pas de 𝜃, donc celle 𝑆 sachant 𝑇
non plus. 𝑈(𝑋) = 𝐸(𝑆|𝑇(𝑋)) est bien une statistique exhaustive qui ne dépend pas de 𝜃
(sinon on ne pourrait pas l'utiliser comme estimateur de 𝜃).
- 1ère étape :
𝜃 = 𝐸(𝑆) = 𝐸(𝐸(𝑆|𝑇)) = 𝐸(𝑈) (en utilisant le théorème de l'espérance totale). Il en
résulte que 𝑈 est un estimateur sans biais de 𝜃.
- 2ème étape:
On aussi 𝑉(𝑆) = 𝑉(𝐸(𝑆|𝑇)) + 𝐸(𝑉(𝑆|𝑇)) = 𝑉(𝑈) en utilisant le théorème de la variance
totale et que 𝐸(𝑉(𝑆|𝑇)) ≥ 0.
III. Statistique Complète.
Définition 5.
Une statistique 𝑇 est complète si et seulement pour toute fonction mesurable h, on a:
𝐸(ℎ(𝑇)) = 0, ∀𝜃 ∈ Ѳ ⇒ ℎ = 0 presque partout sur le support de la loi de 𝑇.
Exercice.
Soit 𝑋 = (𝑋1 , … , 𝑋𝑛 ) ↝ 𝐵(1, 𝑝) ≔ loi de Bernoulli
Montrer 𝑇 = ∑𝑛𝑖=1 𝑋𝑖 est une statistique exhaustive complète.
Solution.
On sait que 𝑇 = ∑𝑛𝑖=1 𝑋𝑖 est une statistique exhaustive pour p. On va montrer qu'elle est
complète aussi.
Puisque 𝑇 = ∑𝑛𝑖=1 𝑋𝑖 ↝ 𝐵(𝑛, 𝑝), on a:
𝑛
𝐸(ℎ(𝑇)) = ∑ ℎ(𝑘)𝐶𝑛𝑘 𝑝𝑘 (1 − 𝑝)𝑛−𝑘

𝑘=0
et on doit montrer que :
26
𝑛
∑ ℎ(𝑘)𝐶𝑛𝑘 𝑝𝑘 (1 − 𝑝)𝑛−𝑘 = 0, ∀𝑝 ∈ (0,1] ⇒ ℎ(𝑘) = 0 ∀𝑘 ∈ {0, … , 𝑛}.

𝑘=0
Or
𝑛 𝑛
𝑝
∑ ℎ(𝑘)𝐶𝑛𝑘 𝑝𝑘 (1 − 𝑝)𝑛−𝑘 = (1 − 𝑝)𝑛 ∑ ℎ(𝑘)𝐶𝑛𝑘 𝜃 𝑘 = 0, ∀𝜃 = ∈ 𝐼𝑅+∗.
1−𝑝
𝑘=0 𝑘=0
C'est un polynôme de degré 𝑛 en θ qui est identiquement nul, donc tous ses coefficients sont
nuls. D'où ∀𝑘 ∈ {0, … , 𝑛}, ℎ(𝑘)𝐶𝑛𝑘 = 0 et donc ∀𝑘 ∈ {0, … , 𝑛}, ℎ(𝑘) = 0, ce qui montre que
𝑇 = ∑𝑛𝑖=1 𝑋𝑖 est une statistique complète.
Il n'est pas facile de montrer qu'une statistique est complète. On peut utiliser le résultat
suivant de la théorie des mesures.
Proposition 2.
Si h est une application mesurable de 𝐼𝑅 dans IR, d'intégrale nulle sur tout intervalle [𝑎, 𝑏]
de 𝐼𝑅, alors ℎ = 0 p.s.
Exercice.
Considérons l'échantillon (𝑋1 , … , 𝑋𝑛 ) issu 𝑃𝜃 , 𝜃 ∈ 𝐼𝑅, de densité 𝑓(𝑥, 𝜃) = exp(𝑥 −
𝜃) 𝐼(−∞,𝜃] (𝑥). La statistique d'ordre 𝑋𝑛,𝑛 = sup(𝑋1 , … , 𝑋𝑛 ) a pour densité:
𝑓𝑋𝑛,𝑛 (𝑥, 𝜃) = 𝑛𝑓(𝑥, 𝜃)𝐹 𝑛−1 (𝑥, 𝜃) = 𝑛𝑒𝑥𝑝(𝑛(𝑥 − 𝜃))𝟙(−∞,𝜃] (𝑥).
Montrer que 𝑋𝑛,𝑛 est une statistique complète en utilisant la proposition 2.
Solution. ∀𝜃 ∈ 𝐼𝑅, 𝐸 (ℎ(𝑋𝑛,𝑛 )) = 0 ⇔ ∀𝜃 ∈ 𝐼𝑅,

𝜃 𝜃
∫ ℎ(𝑥)𝑛𝑒𝑥𝑝(𝑛(𝑥 − 𝜃))𝑑𝑥 = 0 ⇔ ∫ ℎ(𝑥)𝑒𝑥𝑝(𝑛𝑥)𝑑𝑥 = 0
−∞ −∞
il en résulte que:
𝜃′ 𝜃′ 𝜃
∫ ℎ(𝑥)𝑒𝑥𝑝(𝑛𝑥)𝑑𝑥 = ∫ ℎ(𝑥)𝑒𝑥𝑝(𝑛𝑥)𝑑𝑥 − ∫ ℎ(𝑥)𝑒𝑥𝑝(𝑛𝑥)𝑑𝑥 = 0 − 0 = 0
𝜃 −∞ −∞
d'après la proposition 2, on en déduit que ℎ = 0 p.s. et donc 𝑋𝑛,𝑛 est une statistique
complète.
27
Un résultat qui fournit de nombreuses statistiques complètes est le suivant :
Proposition 3.
Soit {𝑃𝜃 , 𝜃 ∈ Ѳ} une famille exponentielle de lois de probabilité de densité :
𝑓(𝑥; 𝜃) = exp{𝑎(𝑥)𝛼(𝜃) + 𝑏(𝑥) + 𝛽(𝜃)}.
Si 𝛼(𝜃) est bijective alors la statistique ∑𝑛𝑖=1 𝑎(𝑋𝑖 ) est exhaustive et complète.
Exercice.
1) Si l'échantillon est issu d'une loi de Bernoulli 𝐵(1, 𝑝), déduire une statistique
exhaustive et complète;
2) Même exercice Si l'échantillon est issu d'une loi de Poisson 𝛲(𝜃), 𝜃 > 0.
Solution.
𝑝
= exp{𝑥𝑙𝑛 ( ) + ln(1 − 𝑝)}
1−𝑝
: = 𝑒𝑥𝑝{𝑎(𝑥)𝛼(𝑝) + 𝑏(𝑥) + 𝛽(𝑝)}

avec 𝑎(𝑥) = 𝑥 donc T(X) = ∑𝑛𝑖=1 𝑋𝑖
est une statistique exhaustive d′ après le Thm Darmois. Et on a
𝑝
𝛼(𝑝) = ln , 𝑏(𝑥) = 0 𝑒𝑡 𝛽(𝑝) = ln(1 − 𝑝).
1−𝑝
𝑝
𝛼 → 𝛼(𝑝) est bijective, en effet, l'équation en 𝑝, 𝑥 = ln a pour unique solution
1−𝑝
𝑒𝑥
𝑝= . D'après la proposition 3, la statistique T(X) = ∑𝑛𝑖=1 𝑋𝑖 est aussi une statistique
1+𝑒 𝑥
complète.
2) On a,
𝜃 𝑥 −𝜃
𝑓(𝑥, 𝜆) = 𝑒 = exp{𝑥𝑙𝑛 𝜃 − ln 𝑥! − 𝜃}
𝑥!
: = exp{𝑎(𝑥)𝛼(𝜃) + 𝑏(𝑥) + 𝛽(𝜃)}
28
avec
𝑎(𝑥) = 𝑥, 𝛼(𝜃) = ln 𝜃, 𝑏(𝑥) = − ln 𝑥! et 𝛽(𝜃) = −𝜃.
La fonction 𝛼 → 𝛼(𝜃) = ln 𝜃 étant bijective. D'après la propo. 3, la statistique
T(X) = ∑𝑛𝑖=1 𝑋𝑖 est aussi complète.
IV- L'estimation sans biais et de variance minimale
Exhaustivité et complétude permettent de trouver un ESBVM de 𝜃 à partir d'un ESB.
L'estimateur proposé par Rao-Blackwell 𝑈 = 𝐸(𝑆|𝑇) est une fonction de la statistique
exhaustive 𝑇: 𝑈 = ℎ(𝑇). Il peut exister plusieurs ESB fonctions de 𝑇, on n'est pas sûr que que
𝑈 est le meilleur.
Le résultat suivant prouvera que, si 𝑇 est aussi complète, 𝑈 = ℎ(𝑇) est optimal pour 𝜃 (i.e
de variance minimale).
Théorème 2. (Théorème de Lehman-Sheffé)
Si 𝑇 est une statistique exhaustive complète de 𝜃 et si 𝑆 est ESB de 𝜃, alors 𝑈 = 𝐸(𝑆|𝑇) est
l'unique ESBVM de 𝜃.
Démonstration.
Soit 𝑆 l'ESB de 𝜃 et on note par 𝑈 = 𝐸(𝑆|𝑇): = ℎ(𝑇), l'amélioré de Rao-Blackwell de 𝑆. Soit
𝑆′ un ESB quelconque de 𝜃 et 𝑈 ′ = 𝐸(𝑆 ′ |𝑇) ≔ 𝑙(𝑇), l'amélioré de Rao-Blackwell de 𝑆′.
On a bien sûr 𝐸(𝑈) = 𝐸(𝑈 ′ ) = 𝜃 par le théorème de Rao-Blackwell; d'où
𝐸(𝑈 − 𝑈′) = 0 ⇔ 𝐸(ℎ(𝑇) − 𝑙(𝑇)) = 0 et alors ℎ = 𝑙 p. s. car la statistique 𝑇 est supposé
complète. Donc 𝑈 = 𝑈′ presque partout et par conséquent l'unicité, presque partout de
𝑈 = 𝐸(𝑆|𝑇). et donc 𝑉(𝑈) ≤ 𝑉(𝑈 ′ ) ≤ 𝑉(𝑆 ′ ), ∀𝑆 ′ 𝑢𝑛 𝐸𝑆𝐵 𝑑𝑒 𝜃 ⇒ 𝑈 = 𝐸(𝑆|𝑇) est de
variance minimale.
Corollaire 1.
Pour trouver un estimateur optimal, il suffit de trouver un ESB fonction d'une statistique
exhaustive.
Propriété 1.
Le théorème de Lehman-Scheffé reste valable si on remplace 𝜃 par 𝑔(𝜃) où 𝑔 est une
fonction qcq: L'ESBVM de 𝑔(𝜃) est un ESB de 𝑔(𝜃) fonction d'une statistique exhaustive et
complète.
29
Exercice 1. Contrôle de qualité.
Une machine fabrique une proportion 𝜃 inconnue de pièces défectueuses que l'on désire
estimer. Pour cela, on prélève de façon indépendantes n pièces et on observe les v.a.
𝑋1 , … , 𝑋𝑛 où 𝑋𝑖 = {
0 sinon.
Quelle l'ESBVM 𝑈 de 𝑝 = 𝑃(𝑋1 = 1)?
Exercice 2. On considère l'échantillon (𝑋1 , … , 𝑋𝑛 ) issu 𝑋 ↝Poisson(𝜃).
Chercher un ESBVM pour 𝑔(𝜃) = 𝑒 −𝜃 = 𝑃(𝑋 = 0).
Solutions.
Exercice 1.
On avait vu que la statistique 𝑇 = ∑𝑛𝑖=1 𝑋𝑖 est une statistique exhaustive et complète et donc
𝑛
−
1
𝑋 = ∑ 𝑋𝑖 ≔ ℎ(𝑇)
𝑛
𝑖=1
est l'ESBVM pour 𝜃 d'après le Théorème de Lehman-Scheffé.

Exercice 2.
De même on a 𝑇 = ∑𝑛𝑖=1 𝑋𝑖 est une statistique exhaustive et complète.
1 si 𝑋1 = 0
On définit la variable : 𝑉 = {
0 si 𝑋1 ≥ 1.
Définissons 𝐸(𝑉|𝑇):
On a,
𝑛
𝐸(𝑉|𝑇) = 𝐸(𝐼[𝑋1 =0] |𝑇 = 𝑡) = 𝑃(𝑋1 = 0| ∑ 𝑋𝑖 = 𝑡)

𝑖=1
𝑃(𝑋1 = 0, ∑𝑛𝑖=1 𝑋𝑖 = 𝑡) 𝑃(𝑋1 = 0, ∑𝑛𝑖=2 𝑋𝑖 = 𝑡)

= =
𝑃(∑𝑛𝑖=1 𝑋𝑖 = 𝑡) 𝑃(∑𝑛𝑖=1 𝑋𝑖 = 𝑡)
(𝑛−1)𝑡
−(𝑛−1)
𝑃(𝑋1 =0)𝑃(∑𝑛𝑖=2 𝑋𝑖 =𝑡) 𝑒 −𝜃 𝑒 𝑡! 𝑛−1 𝑡 1
=(1) 𝑛 = 𝑛𝑡 𝜃𝑡
=( ) = (1 − )𝑡 ;
𝑃(∑𝑖=1 𝑋𝑖 =𝑡) −𝑛𝜃 𝑛 𝑁
𝑒 𝑡!
30
On a (1) par indépendance de 𝑋1 et ∑𝑛𝑖=1 𝑋𝑖. Donc,
1 1 𝑛 1 𝑛
𝐸(𝑉|𝑇) = (1 − )𝑇 = (1 − )∑𝑖=1 𝑋𝑖 par suite la statistique (1 − )∑𝑖=1 𝑋𝑖 est l'ESBVM de
𝑁 𝑁 𝑁
−𝜃
𝑔(𝜃) = 𝑒 .
V- Information de Fisher et exhaustivité
On a vu si 𝑇(𝑋1 , … , 𝑋𝑛 ) est une statistique exhaustive alors elle conserve l'information sur 𝜃
apportée par l'échantillon (𝑋1 , … , 𝑋𝑛 ). On va introduire l'information de Fisher.
Définition 6.
On appelle information de Fisher apportée par l'échantillon (𝑋1 , … , 𝑋𝑛 ) sur le paramétré 𝜃
la quantité :
𝜕 ln 𝐿 2
𝐼𝑛 (𝜃) = 𝐸 {(
𝜕𝜃
) } où 𝐿(𝑋1 , … , 𝑋𝑛 ) = ∏𝑛𝑖=1 𝑓(𝑋𝑖 ; 𝜃) 𝜃 ∈ 𝛩 ⊂ 𝐼𝑅.
Une autre expression de 𝐼𝑛 (𝜃):

Proposition 4.
Si le support de la loi de X ne dépend pas de 𝜃, alors,
𝜕 2 ln 𝐿
𝐼𝑛 (𝜃) = −𝐸 { }.
𝜕𝜃 2
Exercice. Exemple de v.a. dont le support de la loi dépend de 𝜃.
1
Soit 𝑈 ↝ 𝑈[0,𝜃] , de densité 𝑓(𝑥, 𝜃) = 𝟙[0,𝜃] (𝑥).
𝜃
a) Calculer 𝐼1 (𝜃) et 𝐼𝑛 (𝜃).

b) Comparer 𝐼𝑛 (𝜃) et 𝑛𝐼1 (𝜃).
Solution.
𝜕 ln 𝑓(𝑥;𝜃) 2 1 2 1
a) 𝐼1 (𝜃) = 𝐸 {( ) } = 𝐸 {(− 𝜃) } = 𝜃2,
𝜕𝜃
𝜕 ln 𝐿 2 𝑛2
𝐼𝑛 (𝜃) = 𝐸 {( ) } = 2.
𝜕𝜃 𝜃
b) Remarquons que :
𝐼𝑛 (𝜃) ≠ 𝑛𝐼1 (𝜃).
31
Cas multidimensionnel. Si 𝜃 = (𝜃1 , … , 𝜃𝑝 ) ∈ 𝐼𝑅𝑝 .
Définition 7.
On appelle information de Fisher en 𝜃, apportée par la v.a. 𝑋, la matrice:
𝜕 ln 𝑓(𝑋;𝜃) 𝜕 ln 𝑓(𝑋;𝜃)
𝐼(𝜃) = (𝐼𝑖𝑗 )1≤𝑖,𝑗≤𝑝 où 𝐼𝑖𝑗 = 𝑐𝑜𝑣( , ) avec 𝑓(𝑥; 𝜃) désigne la densité de 𝑋.
𝜕𝜃𝑖 𝜕𝜃𝑗
Cette matrice est définie positive.

Rappel.
La matrice 𝐼(𝜃) est définie positive si:
𝑥 𝑡 𝐼(𝜃)𝑥 > 0, ∀𝑥 = (𝑥1 , … , 𝑥𝑛 ) ∈ (𝐼𝑅𝑝 )∗ .
Remarque.
Si le support de la loi de 𝑋 est indépendant de 𝜃, alors 𝐼(𝜃) = (𝐼𝑖𝑗 )1≤𝑖,𝑗≤𝑝 où
𝜕 2 ln 𝑓(𝑥, 𝜃)
𝐼𝑖𝑗 = −𝐸 ( ).
𝜕𝜃𝑖 𝜕𝜃𝑗
Exercice. Cas de la loi normale 𝑁(𝜇, 𝜎 2 ).
Calculer l'information de Fisher 𝐼(𝜃) pour θ = (𝜇, 𝜎 2 ).
Solution.
𝜕 2 ln 𝑓(𝑥; 𝜃) 1
𝐼1,1 = 𝐼(𝜇) = −𝐸 ( ) = ,
𝜕𝜇2 𝜎2
2)
𝜕 2 ln 𝑓(𝑥; 𝜃)
𝐼2,2 = 𝐼(𝜎 = −𝐸 ( )
𝜕(𝜎 2 )2
On sait que :
1 1
𝑓(𝑥, 𝜇, 𝜎 2 ) = (2𝜋𝜎 2 )−2 exp (− 2
(𝑥 − 𝜇)2 ) en posant λ = 𝜎 2 , on a:
2𝜎
1 1 1
ln 𝑓(𝑥; 𝜇, 𝜆) = − ln 2𝜋 − ln 𝜆 − (𝑥 − 𝜇)2 ,
2 2 2𝜆
32
𝜕 ln 𝑓(𝑥; 𝜇, 𝜆) 1 1 2
𝜕 2 ln 𝑓(𝑥; 𝜇, 𝜆) 1 1
= − + 2 (𝑥 − 𝜇) et 2
= 2
− 3
(𝑥 − 𝜇)2 .
𝜕𝜆 2𝜆 2𝜆 𝜕𝜆 2𝜆 𝜆
On en déduit que :
1 1 2
1 1 1
𝐼2,2 (𝜃) = −𝐸 ( − (𝑋 − 𝜇) ) = − + = .
2𝜎 4 𝜎 6 2𝜎 4 𝜎 4 2𝜎 4
𝜕2 ln 𝑓(𝑥;𝜇,𝜆)
Il reste à trouver 𝐼1,2 (𝜃) = 𝐼2,1 (𝜃) = −𝐸 ( ) , or
𝜕𝜇𝜕𝜆
𝜕 ln(𝑥, 𝜇; 𝜆) 1 1 2
𝜕 2 ln 𝑓(𝑥; 𝜇, 𝜆) 1
(𝑥
= − + 2 − 𝜇) ⇒ = − 2 (𝑥 − 𝜇);
𝜕𝜆 2𝜆 2𝜆 𝜕𝜇𝜕𝜆 𝜆
1
on en déduit que 𝐼1,2 (𝜃) = 𝐸(𝑋 − 𝜇) = 0.
𝜆2
On conclut que la matrice d'information de Fisher apportée par la v.a. 𝑋 sur θ = (𝜇, 𝜎 2 ) est,
1
2
0
𝐼(𝜃) = (𝜎 )
1
0
2𝜎 4
Celle apportée par l'échantillon (𝑋1 , … , 𝑋𝑛 ) issu de 𝑋 ↝ 𝑁(𝜇, 𝜎 2 ) est :
𝑛
2
0
𝐼𝑛 (𝜃) = 𝑛𝐼(𝜃) = (𝜎 𝑛 ).
0
2𝜎 4
Remarque importante.
Soit 𝑇 = 𝑇(𝑋1 , … , 𝑋𝑛 ) une statistique quelconque ⇒𝐼𝑇 (𝜃) ≤ 𝐼𝑛 (𝜃). On a,
𝐼𝑇 (𝜃) = 𝐼𝑛 (𝜃) ⇔ 𝑇 est exhaustive.
VI- Borne de Cramer-Rao et efficacité
Soient les hypothèses de Cramer-Rao :
𝐻1 : 𝛩 est un ouvert de IR et 𝑓(𝑥; 𝜃) > 0, ∀𝑥, ∀𝜃.
𝜕𝑓(𝑥; 𝜃) 𝜕 2 𝑓(𝑥; 𝜃)
𝐻2 : et existent et sont finies, ∀θ.
𝜕𝜃 2 𝜕𝜃 2
𝐻3 : ∀ 𝐴 ∈ 𝓐 ∫𝑨 𝑓(𝑥; 𝜃)𝑑𝑥 est au moins deux fois dérivables par rapport à 𝜃, sous le signe
d'intégration.
𝐻4 : ∀𝜃, 0 < 𝐼𝑛 (𝜃) < ∞.
33
Théorème 3.
On suppose (H1-2-3-4) vérifiées. Soit 𝑇 une statistique, de variance finie, vérifiant:
𝐻5 : ∀ 𝐴 ∈ 𝓐, ∫𝐴 𝑇(𝑥)𝑓(𝑥; 𝜃)𝑑𝑥 est dérivable par rapport à θ sous le symbole ∫ et

𝜕𝐸(𝑇) 2
( )
𝜕𝜃
∫𝐴 |𝑇(𝑥)𝑓(𝑥; 𝜃)|𝑑𝑥 < +∞, ∀𝜃. Alors,∀𝜃 𝑉(𝑇) ≥ 𝐼𝑛 (𝜃)
.
𝜕𝐸(𝑇) 2
( )
𝜕𝜃
L'expression est dite borne de Cramer-Rao ou borne de Fréchet.
𝐼𝑛 (𝜃)
Démonstration.
𝜕 ln 𝑓(𝑥;𝜃)
On note 𝑆(𝑥; 𝜃) ≔ dite fonction score ⇒ 𝐼𝑛 (𝜃) = 𝐸(𝑆 2 ) où S = S(X; θ).
𝜕𝜃
𝜕𝐸(𝑇) 𝜕𝑓(𝑥;𝜃)
D'après 𝐻5 , = ∫ 𝑇(𝑥) 𝑑𝑥 = ∫ 𝑇(𝑥)𝑆(𝑥; 𝜃)𝑓(𝑥; 𝜃)𝑑𝑥 = 𝐸(𝑇𝑆).
𝜕𝜃 𝜕𝜃
𝜕 ln 𝑓(𝑥;𝜃)
En outre 𝐸(𝑆) = ∫ 𝑆(𝑥; 𝜃)𝑓(𝑥; 𝜃)𝑑𝑥 = ∫ 𝑓(𝑥; 𝜃)𝑑𝑥
𝜕𝜃
𝜕 ln 𝑓(𝑥; 𝜃) 𝜕
=∫ 𝑑𝑥 = ∫ 𝑓(𝑥; 𝜃)𝑑𝑥 = 0.
𝜕𝜃 𝜕𝜃
Car ∫ 𝑓(𝑥; 𝜃)𝑑𝑥 = 1 et en utilisant (H2-3).
Et donc, on a:
𝜕𝐸(𝑇)
= 𝐸(𝑇𝑆) = 𝐸(𝑇𝑆) − 𝐸(𝑇)𝐸(𝑆) = 𝐶𝑜𝑣(𝑇, 𝑆).
𝜕𝜃
D'après l'inégalité de Cauchy-Schwartz, on a:
𝜕𝐸(𝑇) 2
( ) = 𝐶𝑜𝑣 2 (𝑇, 𝑆) ≤ 𝑉(𝑇)𝑉(𝑆) où 𝑉(𝑆) = 𝐸(𝑆 2 ) = 𝐼𝑛 (𝜃),
𝜕𝜃
𝜕𝐸(𝑇) 2
( )
𝜕𝜃
D'où 𝑉(𝑇) ≥ .
𝐼𝑛 (𝜃)
Cas particulier.
1
Dans le cas où 𝑇 est ESB de 𝜃, on a alors 𝑉(𝑇) ≥ .
𝐼𝑛 (𝜃)
Définition 8.
Un estimateur 𝑇 est dit efficace si:
𝜕𝐸(𝑇) 2
( )
𝑉(𝑇) = 𝜕𝜃 ≔ 𝐵𝐶𝑅 .
𝐼𝑛 (𝜃)
34
Définition 9.
𝐵𝐶𝑅
Un estimateur 𝑇𝑛 est dit asymptotiquement efficace si 𝑙𝑖𝑚𝑛→∞ = 1.
𝑉(𝑇𝑛 )
Exemple. Cas de la loi normale 𝑁(𝜇, 𝜎 2 )

𝑛
Soit (𝑋1 , … , 𝑋𝑛 ) un échantillon issu de cette loi normale. On a 𝐼𝑛 (𝜇) = et on sait que,
𝜎2
𝜎2 1
𝑉(𝑋𝑛− ) = = et donc 𝑋𝑛− est un ESB efficace de μ.
𝑛 𝐼𝑛 (𝜇)
Par contre la variance empirique 𝑆′2 est un ESB asymptotiquement efficace de 𝜎 2 .
𝑛
En effet on sait que 𝐼𝑛 (𝜎 2 ) = et que
2𝜎 4
′2
2𝜎 4
V(𝑆 ) = (conséquence du Théorème de Fisher). d′ où,
𝑛−1
𝐵𝐶𝑅 2𝜎 4 𝑛 − 1
𝑙𝑖𝑚𝑛→∞ = 𝑙𝑖𝑚𝑛→∞ = 1.
V(𝑆 ′ 2 ) 𝑛 2𝜎 4
Un résultat intéressant nous permet de montrer qu'un ESB de 𝜃 est efficace sans passer par
le calcul de la borne de Cramer Rao :
Théorème 4.
Soit 𝑇 un ESB de 𝜃, alors on équivalence entre:
i) 𝑇 est efficace,
𝜕 ln 𝐿(𝑥;𝜃)
ii) Il existe une fonction 𝐴(𝑛, 𝜃) telle que = 𝐴(𝑛, 𝜃)(𝑇 − 𝜃).
𝜕𝜃
Exercice.
Soit (𝑋1 , … , 𝑋𝑛 ) un échantillon issu de cette loi 𝑁(𝜇, 1). En appliquant le théorème 4, montrer
que 𝑋𝑛− est efficace.
Solution.
1 1
𝐿(𝑥; 𝜇) = ∏𝑛𝑖=1 𝑓(𝑥𝑖 ; 𝜇) = ∏𝑛𝑖=1 exp(− (𝑥𝑖 − 𝜇)2 )
√2𝜋 2
𝑛
1
= (2𝜋)−2 exp(− ∑𝑛𝑖=1(𝑥𝑖 − 𝜇)2 )) ⇒
2
35
𝑛
𝑛 1
ln 𝐿(𝑥; 𝜇) = − ln 2𝜋 − ∑(𝑥𝑖 − 𝜇)2 ) ⇒
2 2
𝑖=1
𝑛 𝑛
𝜕 ln 𝐿(𝑥; 𝜇)
= ∑(𝑥𝑖 − 𝜇) = ∑ 𝑥𝑖 − 𝑛𝜇 = 𝑛(𝑥𝑛− − 𝜇) ≔ 𝐴(𝑛; 𝜇)(𝑥𝑛− − 𝜇).
𝜕𝜇
𝑖=1 𝑖=1
Donc 𝑋𝑛− l'ESB de 𝜇, est efficace d'après le théorème 4.

L'inégalité de Cramer-Rao (Thm 3) valable pour 𝜃 ∈ 𝐼𝑅 peut être généralisable à un
paramètre 𝜃 de dimension quelconque.
Considérons les hypothèses suivantes :
𝐻′1 : Le support de 𝑃𝜃 ne dépend pas de 𝜃 et 𝑓(𝑥; 𝜃) > 0, ∀𝑥, ∀𝜃.
𝐻′2 : 𝑓(𝑥; 𝜃) est deux fois dérivable par rapport à chaque composante 𝜃𝑖 de θ.
𝜕 𝜕𝑓(𝑥;𝜃) 𝜕2
𝐻′3 : ∫𝐴 ℎ(𝑥)𝑓(𝑥; 𝜃)𝑑𝑥 = ∫𝐴 ℎ(𝑥) 𝑑𝑥 et ∫ ℎ(𝑥)𝑓(𝑥; 𝜃)𝑑𝑥 =
𝜕𝜃𝑖 𝜕𝜃𝑖 𝜕𝜃𝑖 𝜕𝜃𝑗 𝐴
𝜕2 𝑓(𝑥;𝜃)
∫𝐴 ℎ(𝑥) 𝜕𝜃𝑖 𝜕𝜃𝑗
𝑑𝑥 pour une fct ℎ (on peut dériver deux fois sous le ∫ /θ.
Théorème 5.
On suppose que les hypothèses précédentes et 𝐻′4 : la matrice d'information 𝐼(𝜃) est
inversible sont vérifiées.
Soit 𝑇 une statistique à valeurs dans 𝐼𝑅𝑞 de matrice de covariance ∧ 𝑇 et ∆ la matrice de
𝜕
terme générale ∆𝑖𝑗 = 𝐸(𝑇𝑖 ), 1 ≤ 𝑖 ≤ 𝑞, 1 ≤ 𝑗 ≤ 𝑑. Alors,
𝜕𝜃𝑗
∀𝜃 ∈ 𝐼𝑅𝑑 , 𝑙𝑎 𝑚𝑎𝑡𝑟𝑖𝑐𝑒 ∧ 𝑇 − ∆𝐼 −1 (𝜃)∆𝑡 est semi-définie positive.

∆𝐼 −1 (𝜃)∆𝑡 est la borne de Cramer-Rao.
Rappel : La matrice M est semi-définie positive si 𝑥 𝑡 𝑀𝑥 ≥ 0, ∀𝑥 ≠ 0.
𝜕
Cas particulier : Si 𝑑 = 𝑞 = 1, ∧ 𝑇 = 𝑉(𝑇), ∆= 𝐸(𝑇) et on obtient donc
𝜕𝜃
2
𝜕
( 𝐸(𝑇))
𝜕𝜃
𝑉(𝑇) − ≥ 0, inégualité du Thm 3.
𝐼𝑛 (𝜃)
Corollaire.
Si 𝑇 est un ESB de 𝜃 (i.e: ∀𝑖 tel que 1 ≤ 𝑖 ≤ 𝑑, 𝐸(𝑇𝑖 ) = 𝜃𝑖 , alors 𝑑 = 𝑞 et la matrice
∧ 𝑇 − 𝐼𝑛 −1 (𝜃) est semi-définie positive. D'où 𝑉(𝑇𝑖 ) ≥ 𝐼𝑖𝑖−1 (𝜃).
36
Définition 10.
Un ESB 𝑇 est efficace si et seulement si ∧ 𝑇 = 𝐼 −1 (𝜃).
Alors pour tout 𝑖, 𝑉(𝑇𝑖 ) = 𝐼𝑖𝑖−1 (𝜃).
Exercice.
Soient 𝑋1 , … , 𝑋𝑛 des v.a. i.i.d. de loi normale 𝑁(𝜇, 𝜎 2 ) avec 𝜇, 𝜎 2 paramètres inconnus.
2
Monter que l'estimateur 𝑇 = (𝑋𝑛− , 𝑆 ′ ) n'est pas efficace en utilisant le Thm5.
Solution.
Dans l'exercice précédent, on a trouvé :
𝑛
2
0
𝐼𝑛 (𝜇, 𝜎 2 ) = (𝜎 𝑛 ).
0
2𝜎 4
𝑎 𝑐
Rappelons que si 𝐴 = ( ) et det 𝐴 ≠ 0, 𝐴 est inversible et on a:
𝑏 𝑑
1 𝑑 −𝑐
𝐴−1 = ( ) , et alors,
det 𝐴 −𝑏 𝑎
𝑛 𝜎2
2𝜎 6
4
0 0
𝐼 −1 (𝜇, 𝜎 2 ) = 2 (2𝜎 𝑛)=
𝑛 .
𝑛 0 2𝜎 4
𝜎2 0
( 𝑛 )
2
On sait que 𝑋𝑛− est un ESB de 𝜇 et que 𝑆′2 est un ESB de 𝜎 2 . Soit 𝑇 = (𝑋𝑛− , 𝑆 ′ ).
𝜎2
2 0
𝑉(𝑋𝑛− ) 𝑐𝑜𝑣(𝑋𝑛− , 𝑆 ′ )
La matrice de covariance ∧ 𝑇 = ( 2 ′2
) = (𝑛 2𝜎 4
)
𝑐𝑜𝑣(𝑋𝑛− , 𝑆 ′ ) 𝑉(𝑆 ) 0
𝑛−1
2
2 (𝑛−1)𝑆 ′
Puisque 𝑋𝑛− et 𝑆 ′ sont indépendantes et ↝ 𝒳2 (𝑛 − 1) (Thm de Fisher).
𝜎2
37
0 0
D'après le Thm 5, la matrice ∧ 𝑇 − 𝐼 −1 (𝜇, 𝜎 2 ) = (0 2𝜎 4 ) est semi-définie positive.
𝑛(𝑛−1)
′2 2𝜎 4 2𝜎 4
Cependant 𝑉(𝑆 ) = > (borne de Cramer-Rao et donc l'estimateur
𝑛−1 𝑛
2
𝑇 = (𝑋𝑛− , 𝑆 ′ )n'est pas efficace.
38

INSEA Cours Inférences Statistique2021

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

INSEA Cours Inférences Statistique2021

Transféré par

Droits d'auteur :

Formats disponibles

Inférences Statistique

I- Echantillonnage : Définition et notations

moyenne de l′échantillon est une statistique,

𝑇(𝑋1 , … , 𝑋𝑛 ) = 𝑋(1) = min 𝑋𝑖 est une statistique,

Variance empirique de l'échantillon est une statistique,

quasi-variance empirique ou variance de l'echantillon est une statistique,

Moment empirique d'ordre k de l'échantillon,

Cas 2 : population non normale, n grand (i.e. 𝑛 ≥ 30)

≅ 𝑃(𝑍 ≥ 1,57), où Z ↝ N(0,1)

(𝑛 − 1)𝑆 ′ 2 = ∑𝑛𝑖=1(𝑋𝑖 − 𝜇)2 − 𝑛(𝑋 − − 𝜇)2 , alors,

Comme le degré de la loi est 24, d'après la table, on a :

Utilisation comme distribution d'échantillonnage

= 𝑃(𝑡(24) ≥ 2,5) ≅ 0,01.

E- La distribution de (𝑋1− − 𝑋2− ) pour des populations normales de variances inconnues

II- Fonction de vraisemblance

Exemple 2. (Echantillon de Bernoulli)

𝐿(𝑥1 , … , 𝑥𝑛 ; 𝜃) = ∏𝑛𝑖=1 𝑃(𝑋𝑖 = 𝑥𝑖 ; 𝑝) = ∏𝑛𝑖=1 𝑝 𝑥𝑖 (1 − 𝑝)1−𝑥𝑖

Considérons un modèle statistique paramétrique (𝓚, 𝓐, {𝛲𝜃 , 𝜃 ∈ 𝛩 ⊂ 𝐼𝑅 𝑑 }).

est une statistique exhaustive pour 𝑝.

𝑃(𝑋 = 𝑥|𝑇 = 𝑡) = 𝑃 (𝑋1 = 𝑥1 , … , 𝑋𝑛 = 𝑥𝑛 | ∑ 𝑥𝑖 = 𝑡)

Comme 𝑃(𝑋𝑖 = 𝑥𝑖 ) = 𝑝 𝑥𝑖 (1 − 𝑝)1−𝑥𝑖 et les v.a. 𝑋𝑖 sont indépendantes, si ∑𝑛𝑖=1 𝑥𝑖 = 𝑡:

qui ne dépend pas de 𝑡. Alors 𝑇(𝑋) est une statistique exhaustive de p.

Théorème 1. Théorème de factorisation

= 𝑃(𝑋 = 𝑥|𝑇 = 𝑡(𝑥))𝑃(𝑇 = 𝑡(𝑥); 𝜃) (formule des proba. composées)

= ℎ(𝑥)𝑃(𝑇 = 𝑡(𝑥); 𝜃) = ℎ(𝑥)𝑔(𝑡(𝑥); 𝜃).

𝑃(𝑋 = 𝑥; 𝜃) ℎ(𝑥)𝑔(𝑡(𝑥); 𝜃) ℎ(𝑥)𝑔(𝑡(𝑥); 𝜃)

𝑔(𝑡0 , 𝜃)ℎ(𝑥) ℎ(𝑥)

𝑡(𝑥) = (𝑡1 (𝑥), 𝑡2 (𝑥)) = (∑ 𝑥𝑖 , ∑ 𝑥𝑖 2 )

Est une statistique exhaustive d'après le théorème de factorisation.

IV- La famille exponentielle

exp {∑ 𝑎𝑗 (𝑥)𝛼𝑗 (𝜃) + 𝑏(𝑥) + 𝛽(𝜃)}.

appartiennent à la famille exponentielle.

: = 𝑒𝑥𝑝{𝑎(𝑥)𝛼(𝑝) + 𝑏(𝑥) + 𝛽(𝑝)}

Et donc la loi de Bernoulli appartient à la famille exponentielle.

avec 𝑎(𝑥) = 𝑥, 𝛼(𝜆) = −𝜆, 𝑏(𝑥) = 0 𝑒𝑡 𝛽(𝜆) = ln 𝜆.

Théorème 2. Théorème de Darmois

𝑡(𝑥) = (∑ 𝑎1 (𝑥𝑖 ), … , ∑ 𝑎𝑑 (𝑥𝑖 )).

est une statistique exhaustive.

: = 𝑒𝑥𝑝{𝑎(𝑥)𝛼(𝑝) + 𝑏(𝑥) + 𝛽(𝑝)}

avec 𝑎(𝑥) = 𝑥 donc T(x) = ∑𝑛𝑖=1 𝑥𝑖 est une statistique exhaustive.

Comme 𝑔(𝜃) = 𝜃 et 𝐸(𝑋 − ) = 𝜃 alors 𝑏(𝜃, 𝑇) = 𝐸(𝑇) − 𝑔(𝜃) = 0.

donc l′ estimateur 𝑇 est strictement meilleur que S.

∑ 𝑦𝑃(𝑌 = 𝑦|𝑋 = 𝑥) dans le cas dicret

Le rée 𝑉(𝑌|𝑋 = 𝑥) est la variance conditionnelle de 𝑌 sachant 𝑋 = 𝑥, définie par,

𝐸(ℎ(𝑇)) = ∑ ℎ(𝑘)𝐶𝑛𝑘 𝑝𝑘 (1 − 𝑝)𝑛−𝑘

et on doit montrer que :

∑ ℎ(𝑘)𝐶𝑛𝑘 𝑝𝑘 (1 − 𝑝)𝑛−𝑘 = 0, ∀𝑝 ∈ (0,1] ⇒ ℎ(𝑘) = 0 ∀𝑘 ∈ {0, … , 𝑛}.

𝑓𝑋𝑛,𝑛 (𝑥, 𝜃) = 𝑛𝑓(𝑥, 𝜃)𝐹 𝑛−1 (𝑥, 𝜃) = 𝑛𝑒𝑥𝑝(𝑛(𝑥 − 𝜃))𝟙(−∞,𝜃] (𝑥).

Montrer que 𝑋𝑛,𝑛 est une statistique complète en utilisant la proposition 2.

Solution. ∀𝜃 ∈ 𝐼𝑅, 𝐸 (ℎ(𝑋𝑛,𝑛 )) = 0 ⇔ ∀𝜃 ∈ 𝐼𝑅,

: = 𝑒𝑥𝑝{𝑎(𝑥)𝛼(𝑝) + 𝑏(𝑥) + 𝛽(𝑝)}

est l'ESBVM pour 𝜃 d'après le Théorème de Lehman-Scheffé.

𝐸(𝑉|𝑇) = 𝐸(𝐼[𝑋1 =0] |𝑇 = 𝑡) = 𝑃(𝑋1 = 0| ∑ 𝑋𝑖 = 𝑡)

𝑃(𝑋1 = 0, ∑𝑛𝑖=1 𝑋𝑖 = 𝑡) 𝑃(𝑋1 = 0, ∑𝑛𝑖=2 𝑋𝑖 = 𝑡)

Une autre expression de 𝐼𝑛 (𝜃):

a) Calculer 𝐼1 (𝜃) et 𝐼𝑛 (𝜃).

Cette matrice est définie positive.

𝐻5 : ∀ 𝐴 ∈ 𝓐, ∫𝐴 𝑇(𝑥)𝑓(𝑥; 𝜃)𝑑𝑥 est dérivable par rapport à θ sous le symbole ∫ et

Exemple. Cas de la loi normale 𝑁(𝜇, 𝜎 2 )

Donc 𝑋𝑛− l'ESB de 𝜇, est efficace d'après le théorème 4.

∀𝜃 ∈ 𝐼𝑅𝑑 , 𝑙𝑎 𝑚𝑎𝑡𝑟𝑖𝑐𝑒 ∧ 𝑇 − ∆𝐼 −1 (𝜃)∆𝑡 est semi-définie positive.

Vous aimerez peut-être aussi