Académique Documents
Professionnel Documents
Culture Documents
Michel Carbon
Département de Mathématiques et Statistique
Université de Laval
Automne 2019
2
Statistique mathématique
c Michel CARBON
Table des matières
3
4 TABLE DES MATIÈRES
Statistique mathématique
c Michel CARBON
TABLE DES MATIÈRES 5
Statistique mathématique
c Michel CARBON
6 TABLE DES MATIÈRES
Statistique mathématique
c Michel CARBON
TABLE DES MATIÈRES 7
Statistique mathématique
c Michel CARBON
8 TABLE DES MATIÈRES
Statistique mathématique
c Michel CARBON
TABLE DES MATIÈRES 9
Statistique mathématique
c Michel CARBON
10 TABLE DES MATIÈRES
Statistique mathématique
c Michel CARBON
Avant-propos
11
12 TABLE DES MATIÈRES
car d’abord elle ne prétend pas effectuer un choix correct avec certitude et surtout
parce que le choix est nécessairement limité à un ensemble fixé a priori.
Cet a priori ne peut être dissimulé, il doit même être fortement revendiqué, car
il fait partie du fameux schéma hypothético-déductif de toute démarche scientifique.
Autrement dit, la valeur d’un modèle ne peut provenir que de sa capacité à résister
à des modèles concurrents.
La statistique mathématique fournit des outils pour mesurer cette capacité de
résistance aux modèles concurrents, mais finalement, un modèle est toujours postulé
et ne peut être validé pleinement.
Malgré cela, la statistique mathématique est fondamentale puisqu’il s’agit de
définir des procédures de choix entre modèles concurrents, c’est-à-dire de formaliser
un problème qui est au coeur de tout travail scientifique.
Dans ce fascicule de cours, nous allons étudier quelques résultats fondamen-
taux de la statistique mathématique. Nous commencerons par rappeler les bases de
probabilités nécessaires (sans théorie de la mesure) pour bien comprendre la suite
(chapitres 1 à 6). Puis on définira avec précision ce qu’est un problème statistique
en utilisant une théorie aux grandes valeurs pédagogiques : la théorie de la décision
(chapitre 7). La partie suivante proposera un certain nombre de cadres et d’outils
généraux pour aborder ces problèmes (chapitres 8 à 14). On appliquera ensuite ces
outils à la théorie de l’estimation ponctuelle, puis aux tests et à l’estimation ensem-
bliste (chapitres 15 à 19).
La matière de ce fascicule est conséquente, sans être pléthorique, et son étude
va requérir de votre part un sérieux et long labeur. Et même, si par malheur, vous
ne devenez pas un parangon de la statistique, nul doute que vous devriez en tirer,
comme le dit Rabelais, la "substantifique moelle" pour votre future carrière, et c’est
bien là tout le mal que je vous souhaite.
Michel Carbon
Sainte-Brigitte-de-Laval
Juillet 2019
Statistique mathématique
c Michel CARBON
Chapitre 1
1.1 Introduction
Il peut paraître irréaliste et prétentieux de vouloir, de par sa nature même, quan-
tifier le hasard. C’est pourtant ce qui a conduit à la notion de Probabilité. Nous
allons dans ce premier chapitre introduire ce concept mathématique, dont la puis-
sance permettra de modéliser d’innombrables situations où le hasard intervient,
dépassant ainsi largement le cadre restreint des jeux de dés et tirages de cartes. La
modélisation probabiliste est fondamentale dans tous les domaines d’applications,
qu’ils soient issus des sciences dures ou des sciences humaines, de la physique (mou-
vement de particules, formation de gouttes d’eau), de la météorologie, de la biologie
(mutation du génôme), de l’écologie (déplacement des oiseaux migrateurs pendant
la grippe aviaire), de la médecine (traitement d’images), de l’économie (marchés
boursiers), de la sociologie, de l’étude des réseaux sociaux (Data Mining ; Big Data).
13
CHAPITRE 1. VARIABLES ALÉATOIRES - LOIS DE
14 PROBABILITÉ
Soulignons que les probabilités sont en lien étroit avec la vie quotidienne. À ce
titre, elles s’appuient sur un passage du concret à l’abstrait : la modélisation,
ce qui les rend difficiles, mais palpitantes. L’apprentissage de ce raisonnement
probabiliste sera développé dans le cours en vue des applications.
Le mot Hasard est un mot d’origine arabe : az-zahr, le dé. Il est apparu en fran-
çais pour signifier tout d’abord un jeu de dés, puis plus généralement un événement
non prévisible, et par extension le mode d’apparition de ce type d’événement.
Dans la vie quotidienne, chacun est maintenant familier avec le mot et même
le concept de probabilité : probabilité qu’il pleuve la semaine suivante, probabilité
d’avoir une fille aux yeux bleus, probabilité de gagner au loto ou celle d’être dans
la bonne file au super marché. Les assurances fixent le contrat d’assurance-vie d’un
individu de 20 ans, grâce à une estimation de sa probabilité de survie à 80 ans. Dans
de nombreux domaines, les probabilités interviennent : les entreprises cherchent à
calculer le besoin probable de leurs produits dans le futur, les médecins cherchent à
connaître les probabilités de succès de différents protocoles de soin, les compagnies
pharmaceutiques doivent estimer les probabilités d’apparitions d’effets secondaires
pour leurs médicaments. Un exemple récent et spectaculaire est celui de l’utilisation
des probabilités en économie, et en particulier en théorie aléatoire de la finance. On
peut citer également d’autres domaines d’applications extrêmement importants et
en pleine expansion, aussi variés que le calcul de structures, la théorie du signal,
l’optimisation et le contrôle des systèmes, l’imagerie médicale, la génomique et la
théorie de l’évolution.
Définition 1.1.1 Un phénomène est dit aléatoire si, reproduit maintes fois dans
des conditions identiques et indépendantes, il se déroule chaque fois différemment
de telle sorte que le résultat de l’expérience change d’une fois sur l’autre de manière
imprévisible.
Statistique mathématique
c Michel CARBON
1.1 Introduction 15
Conditionnement et indépendance
Il faudra bien comprendre dans la suite que la construction d’un modèle pro-
babiliste repose fondamentalement sur l’information que l’on connaît a priori sur
Statistique mathématique
c Michel CARBON
CHAPITRE 1. VARIABLES ALÉATOIRES - LOIS DE
16 PROBABILITÉ
Statistique mathématique
c Michel CARBON
1.2 Un peu d’histoire 17
des probabilités.
Vers la fin du 17ème siècle, une autre impulsion au calcul des probabilités vient
d’Angleterre et de Hollande, motivée par des problèmes d’assurance (Halley (1656-
1742), De Witt (1625-1672)). En effet, l’évaluation des populations (par exemple :
tables de mortalité et rentes viagères) devient une discipline essentielle à la gouver-
nance moderne des états.
Ainsi, la théorie des Probabilités se construit dans la modélisation d’une réalité
Statistique mathématique
c Michel CARBON
CHAPITRE 1. VARIABLES ALÉATOIRES - LOIS DE
18 PROBABILITÉ
qui n’est pas forcément (pas souvent) de nature physique. Pascal la croit utilisable
en théologie (Le célèbre Pari de Pascal montre que croire en Dieu est une solution
statistiquement plus avantageuse, en supposant au préalable que les deux hypothèses
d’existence ou non de Dieu ont la même probabilité), Leibnitz (1646-1716), et plus
tard Laplace (1749-1827), Poisson (1781-1840) (Recherches sur la probabilité des
jugements en matières criminelles et matière civile), l’appliquent aux controverses
juridiques. Les probabilités sont un outil privilégié de modélisation des comporte-
ments humains, comme en témoigne l’intérêt récurrent des philosophes pour leurs
fondements.
Statistique mathématique
c Michel CARBON
1.2 Un peu d’histoire 19
Les résultats très généraux sur la loi des grands nombres et le théorème central
limite seront établis au XIXe siècle par Siméon Poisson, Irénée-Jules Bienaymé (1796-
1878), et l’école russe de Saint Pétersbourg avec Tchebychev (1821-1894), Andrei
Markov (1856-1922) et Aleksandr Mikhailovich Lyapunov (1857-1918).
Statistique mathématique
c Michel CARBON
CHAPITRE 1. VARIABLES ALÉATOIRES - LOIS DE
20 PROBABILITÉ
Statistique mathématique
c Michel CARBON
1.2 Un peu d’histoire 21
L’expression mathématique donnée ainsi aux concepts confère à ceux-ci une clarté
et une maniabilité beaucoup plus grandes, et cette axiomatique s’est révélée indis-
pensable dans l’étude de tous les modèles dynamiques. Après le travail fondamental
de Kolmogorov, Paul Lévy (1886-1971) donne le ton pour les probabilités modernes
par son travail sur les processus stochastiques, ainsi que sur les fonctions caractéris-
tiques et les théorèmes limites. Mentionnons ici le rôle essentiel joué par les écoles
russes et japonaises et notamment par K. Itô (1915-2008), qui définit une notion
d’intégrale par rapport au mouvement brownien et, grâce à elle, la création d’un
calcul intégral, appelé Calcul Stochastique, pour certaines familles de processus
stochastiques.
Ces résultats avaient été, en partie et de manière totalement indépendante, décou-
verts par le mathématicien français Doeblin pendant la deuxième guerre mondiale.
Celui-ci, sentant sa fin proche (il est mort en 1940 dans les Ardennes), envoya ses
trouvailles sous forme d’un "pli cacheté" à l’Académie des Sciences de Paris. Ce pli
a été découvert et ouvert il y a seulement quelques années et suscité une grande
émotion.
Cette première moitié du XXe siècle voit donc l’essor des processus stochastiques
et de leurs applications. Le phénomène s’accélère encore dans la seconde moitié du
XXe siècle. Les applications du calcul des probabilités sont très nombreuses, et en
faire une liste exhaustive serait impossible. Mais les probabilités interviennent par
exemple dans la plupart des modélisations de phénomènes physiques complexes,
en démographie, en épidémiologie, en médecine, en biologie, dans les techniques
d’analyse d’ADN, en analyse d’image, en reconnaissance des formes, en fiabilité,
en assurance, dans les banques, sur les marchés financiers et boursiers, dans des
Statistique mathématique
c Michel CARBON
CHAPITRE 1. VARIABLES ALÉATOIRES - LOIS DE
22 PROBABILITÉ
1.3 Introduction
L’objet de la théorie des probabilités est de décrire et d’étudier divers modèles
mathématiques de phénomènes aléatoires d’un point de vue théorique.
L’étude de la théorie des probabilités est nécessaire à l’étude de la Statistique,
laquelle est plus concernée par la création de certains principes et certains critères
pour permettre de traiter des données issues de phénomènes aléatoires. La Statistique
inférentielle utilise pleinement la théorie des probabilités. C’est pour cette raison que
nous commençons par donner quelques éléments de la théorie des probabilités.
Les modèles probabilistes ont pour but de décrire les expériences aléatoires, ex-
périences que, théoriquement, on pourrait répéter indéfiniment, et dont les résultats
futurs ne peuvent être prédits exactement, même si les conditions expérimentales
sont complètement contrôlées.
Comme on le verra, la base de la théorie des probabilités est l’espace probabi-
lisé. L’idée force derrière cette notion d’espace probabilisé est la stabilisation des
fréquences relatives. Supposons que nous répétions une expérience aléatoire un très
grand nombre de fois, de manière indépendante, et que, pour chaque expérience,
nous soyons intéressés à la réalisation (ou non) d’un certain événement A (même
si nous n’avons pas encore défini mathématiquement les notions d’indépendance et
d’événement).
Soit Nn (A) le nombre de fois ou A s’est réalisé au cours des n essais indépendants,
et notons rn (A) la fréquence relative correspondante :
Nn (A)
rn (A) = .
n
Depuis la nuit des temps, on a observé que, dans ces conditions, on observe que
la fréquence relative rn (A) se stabilise, au sens où il existe un réel λ (0 ≤ λ ≤ 1) tel
que :
rn (A) −→ λ .
n→+∞
L’interprétation intuitive du concept de probabilité est que la probabilité de
l’événement A est λ, et on peut raisonnablement espérer que la fréquence relative
observée au cours de n expériences indépendantes soit approximativement égale à
λ.
Cette approche est appelée approche fréquentiste des probabilités, et est univer-
sellement adoptée.
L’étape suivante est l’axiomatisation complète de cette théorie. Après bien des
tergiversations, indiquées dans le paragraphe précédent, c’est finalement A. N. Kol-
mogorov en 1933 qui a assis complètement l’axiomatique de la théorie moderne des
probabilités.
Statistique mathématique
c Michel CARBON
1.4 Notion d’expériences aléatoires 23
Cette première notion de la théorie des probabilités n’a vu le jour que vers le
XVII-ième siècle dans l’étude des jeux de hasard (jeux de dés, de cartes, de loteries,
etc...). Ces différents jeux, aisément modélisables, obéissent à des lois mathématiques
que l’on précisera plus loin.
Il existe bien des situations où l’aléatoire intervient. Citons quelques exemples :
a) L’observation des durées de vie des puces électroniques, ou des humains.
b) L’observation du volume des transactions en bourse.
c) L’observation d’un électroencéphalogramme, d’un signal radar, d’un signal
sismique.
d) L’observation de la propagation d’une maladie, etc...
La première étape de la formalisation consiste à préciser le cadre dans lequel on
va observer ces différentes actions dues au hasard, ce que l’on nommera expériences
aléatoires.
Une expérience aléatoire se décrit mathématiquement par la donnée de l’ensemble
de tous les résultats possibles de l’expérience en question. On notera ω un tel résultat,
qu’on nommera aussi épreuve ou issue.
On notera Ω l’ensemble des résultats possibles de l’expérience.
Il reste cependant une part d’arbitraire dans le choix de Ω . En effet, si on
considère un jet d’une pièce, on peut proposer comme espaces possibles :
Ω1 = {P ile, F ace}
[0,T ]
Ω4 = (R3 ) = {trajectoires de la pièce pendant [0, T ]} .
Cela peut paraître surprenant, a priori, mais cela apparaît chaque fois que l’on
veut donner une formalisation mathématique d’un phénomène réel.
Les expériences aléatoires correspondant à des espaces Ω finis sont particulière-
ment simples à expliciter. Par exemple, si on lance deux dés distinguables, l’espace
Ω se compose alors des couples (x, y) = ω tels que 1 ≤ x, y ≤ 6 , et alors :
Ω = (x, y) : (x, y) ∈ N2 ; 1 ≤ x ≤ 6 ; 1 ≤ y ≤ 6 .
Mais, dans la plupart des cas, les espaces Ω seront de cardinaux infinis. Dans
Statistique mathématique
c Michel CARBON
CHAPITRE 1. VARIABLES ALÉATOIRES - LOIS DE
24 PROBABILITÉ
Statistique mathématique
c Michel CARBON
1.5 Notion d’événement 25
Définition 1.5.1 La classe E des événements est appelée algèbre de Boole de parties
de Ω (c’est donc une classe de parties de Ω), si elle contient Ω, et est stable par
intersection, réunion et complémentation.
Décrivons les opérations logiques que l’on peut effectuer sur les événements.
D’ailleurs, de manière axiomatique, ce sont plus les opérations et leurs règles de
maniement qui définissent la notion d’événement aléatoire.
et qui est réalisé si l’un des deux événements est réalisé et pas l’autre.
6. Si, pour tout n de N, l’événement An est l’événement « avoir n enfants », alors
[∞
An est l’événement signifiant «avoir un ou plusieurs enfants» (ou encore
n=1
∞
\
«avoir au moins un enfant») et Acn est l’événement signifiant «ne pas avoir
!c n=1
∞
[ ∞
\
d’enfants», car An = Acn .
n=1 n=1
7. L’équation A1 ∩ A2 = ∅ signifie que les deux événements sont incompatibles,
ou que les parties A1 et A2 de Ω qui les représentent sont disjoints.
8. Si deux événements sont incompatibles, on parlera aussi de ”somme”, à la place
de ”réunion” : A1 ∪ A2 = A1 + A2 si A1 ∩ A2 = ∅.
Statistique mathématique
c Michel CARBON
CHAPITRE 1. VARIABLES ALÉATOIRES - LOIS DE
26 PROBABILITÉ
9. Si les (Ai )i∈I forment une partition de Ω, on dira que les (Ai )i∈I forment un
système exhaustif de Ω .
10. Soit (An )n∈N∗ une suite d’événements. On dit que cette suite est croissante si
et seulement si :
A1 ⊂ A2 ⊂ · · ·
11. Soit (An )n∈N∗ une suite d’événements. On dit que cette suite est décroissante
si et seulement si :
A1 ⊃ A2 ⊃ · · ·
12. Si (An )n∈N∗ est une suite d’événements d’un ensemble Ω, pour écrire l’événe-
ment « une infinité de An sont réalisés », on écrit que, quel que soit le rang
k ∈ N∗ , il existe des événements de rang supérieur à k qui sont réalisés. Donc :
∞ [
\ ∞
« une infinité de An est réalisé » s’écrit : An .
k=1 n=k
Cet événement est appelé limite supérieure de la suite (An ) et noté : lim sup An .
13. Si (An )n∈N∗ est une suite d’événements d’un ensemble Ω, pour écrire qu’« un
nombre fini d’événements An est réalisé », on écrit qu’il existe un rang tel,
qu’à partir de ce rang, tous les événements réalisés sont les contraires des
événements An . Donc :
∞ \
[ ∞
« un nombre fini de An est réalisé » s’écrit : Acn .
k=1 n=k
Cet événement est appelé limite inférieure de la suite (Acn ) et noté : lim inf Acn .
[∞ \∞
Donc lim inf An = An est l’événement « tous les An sont réalisés sauf
k=1 n=k
un nombre fini ».
Ces deux derniers points conduisent à définir les limites de suite d’événements
comme suit :
Définition 1.5.2 Soit (An )n∈N∗ une suite d’événements de Ω. On définit alors
les limites inf et sup d’événements par :
∞ \
[ ∞
A∗ = lim inf An = An ,
k=1 n=k
∞ [
\ ∞
A∗ = lim sup An = An .
k=1 n=k
A = A∗ = A∗ = lim An .
n→+∞
Statistique mathématique
c Michel CARBON
1.6 Espace probabilisable 27
(i) Si A1 ⊂ A2 ⊂ · · · , alors :
∞
[
lim An = An .
n→+∞
n=1
(ii) Si A1 ⊃ A2 ⊃ · · · , alors :
∞
\
lim An = An .
n→+∞
n=1
Tout ce qui précède permet de constater que l’on peut identifier une algèbre
de Boole d’événements à une algèbre de parties d’un ensemble. Cette propriété est
d’ailleurs très générale.
Toute algèbre de Boole d’événements est isomorphe à une algèbre de parties d’un
ensemble.
Pour une démonstration, voir A. Renyi- Calcul des probabilités (Dunod) p 13-16.
Ce théorème justifie donc les notations ensemblistes utilisées précédemment.
Certains événements font apparaître des opérations plus compliquées. Par exemple,
si on joue à Pile ou Face jusqu’à ce que Pile apparaisse pour la première fois, et si on
considère l’événement A "le nombre de coups nécessaires pour obtenir Pile est pair",
A est alors réunion dénombrable des événements "Pile apparaît pour la première
fois au (2p)-ième lancer", p ∈ N∗ .
Pour certaines raisons, qui pourraient être de bon sens, mais qui ont en fait une
justification mathématique, lorsque Ω n’est pas fini ou dénombrable, on restreint
l’ensemble des événements à un certain sous-ensemble A de P (Ω) . Ce sous-ensemble
A doit bien entendu contenir les événements auxquels on s’intéresse et aussi doit être
stable par réunion, intersection et complémentation.
Pour cela, on supposera que A est une tribu d’événements comme définie ci-
dessous.
Statistique mathématique
c Michel CARBON
CHAPITRE 1. VARIABLES ALÉATOIRES - LOIS DE
28 PROBABILITÉ
(i) Ω ∈ A .
(ii) Si A ∈ A, alors Ac ∈ A .
∞
[
(iii) ∀ (An )n∈N∗ une suite d’éléments de A, alors l’événement An ∈ A .
n=1
Cette définition est due à A.N. Kolmogorov (1903-1987), dans une célèbre mo-
nographie de 1933, qui fut à la base de tout le calcul des probabilités modernes.
(a) ∅ ∈ A .
k
[
(b) ∀A1 , · · · , Ak ∈ A , alors : Ai ∈ A .
i=1
\k
(c) ∀A1 , · · · , Ak ∈ A , alors : Ai ∈ A .
i=1 \
(d) ∀ (An )n∈N∗ suite d’événements de A , alors : An ∈ A .
n∈N∗
(e) ∀ (An )n∈N∗ suite d’événements de A , alors : lim inf An ∈ A .
(f ) ∀ (An )n∈N∗ suite d’événements de A , alors : lim sup An ∈ A .
Démonstration :
(a) ∅ = Ωc ∈ A grâce à la définition 1.6.1 (ii).
[k [
(b) Soit Ai = ∅ ; ∀ i > k, alors : Ai = An ∈ A grâce à la proposition
i=1 n∈N∗
6.1.1 (a) et la définition 1.6.1 (iii).
k
\ \ [
(c) Soit Ai = Ω ; ∀ i > k , alors : Ai = An = An ∈ A grâce à la
i=1 n∈N∗ n∈N∗
définition 1.6.1 (i), (ii) et (iii), et une nouvelle fois (ii) car :
k
\ k
\
Ai ∈ A =⇒ Ai ∈ A .
i=1 i=1
Statistique mathématique
c Michel CARBON
1.7 Variable aléatoire 29
\ [
(d) An = An ∈ A grâce à la définition 1.6.1 (ii) et (iii) et :
n∈N∗ n∈N∗
\ \
An ∈ A =⇒ An ∈ A grâce à la définition 1.6.1 (ii).
n∈N∗ n∈N∗
∞ [
\ ∞
(f) An ∈ A grâce à la définition 1.6.1 (iii) et la proposition 6.1.1 (d).
k=1 n=k
{X ∈ I} = {ω ∈ Ω : X (ω) ∈ I} = X −1 (I) .
Définition 1.7.2 On appelle tribu borélienne de R, notée BR , une tribu sur R qui
soit telle que BR soit la plus petite tribu de R contenant tous les intervalles de R.
Les éléments de BR seront appelés les boréliens de R .
Statistique mathématique
c Michel CARBON
CHAPITRE 1. VARIABLES ALÉATOIRES - LOIS DE
30 PROBABILITÉ
∀B ∈ BR , {X ∈ B} ∈ A .
Propriété 1.7.2 X −1 (BR ) est une tribu sur Ω ; elle est appelée la tribu des événe-
ments engendrés par X .
Démonstration :
(i) Ω = X −1 (R) ∈ X −1 (BR ) , car R ∈BR .
(ii) Soit A ∈ X −1 (BR ) . Alors :
D’où :
A = X −1 (B) = X −1 B .
A ∈ X −1 (BR ) .
Statistique mathématique
c Michel CARBON
1.8 Probabilité 31
1.8 Probabilité
1.8.1 Notion de probabilité
Considérons une expérience aléatoire telle qu’il soit possible de la répéter un très
grand nombre de fois dans des conditions identiques et indépendantes les unes des
autres. Soit A un événement associé à cette expérience. Si, lors de n répétitions
de l’expérience, A s’est produit k fois exactement, on dira que k est sa fréquence
k
absolue, et que est sa fréquence relative.
n
k
Quand n devient très grand, on peut constater expérimentalement que se
n
stabilise autour d’une valeur bien déterminée. Le nombre p (A) ainsi mis en évidence
s’appelera la probabilité de l’événement A.
A partir des fréquences relatives, on voit alors que p (A) possède les propriétés
suivantes :
(i) 0 ≤ p (A) ≤ 1 ,
(iii) p (Ω) = 1 ,
(i) P (Ω) = 1 ,
(ii) Pour toute suite (An )n∈N∗ d’événements deux à deux disjoints,
!
[ X
P An = P (An ) (propriété dite de σ-additivité).
n∈N∗ n∈N∗
Il est utile de remarquer que, pour une expérience aléatoire, décrite par un espace
probabilisable (Ω, A), il existe un grand nombre de probabilités P possibles. Le choix
de cette probabilité résulte d’hypothèses faites sur l’expérience aléatoire, ou est elle-
même une hypothèse dont les conséquences théoriques seront à confronter avec les
résultats expérimentaux.
Statistique mathématique
c Michel CARBON
CHAPITRE 1. VARIABLES ALÉATOIRES - LOIS DE
32 PROBABILITÉ
Soit Ω un ensemble fini muni de la tribu P (Ω) de ses parties. Soit P l’application
définie sur P (Ω) à valeurs dans [0, 1] telle que :
Card (A)
P (A) = , ∀ A ∈ P (Ω) .
Card (Ω)
Il est clair que (Ω, P (Ω) , P ) est un espace probabilisé. Dans cet exemple, les
événements élémentaires {ω} sont mesurables et équiprobables au sens où l’on a :
1
P ({ω}) = , ∀ω ∈ Ω.
Card (Ω)
Le calcul des probabilités sur l’espace (Ω, P (Ω) , P ) se ramène alors à des pro-
blèmes de dénombrement. Ces problèmes font l’objet de l’analyse combinatoire dont
nous supposerons connus les résultats essentiels.
! ! !
[ [ [
PX Bn = P X∈ Bn = P {X ∈ Bn }
n∈N∗ n∈N∗ n∈N∗
! !!
[ [
= P X −1 (Bn ) = P X −1 Bn
n∈N∗ n∈N∗
X X
= P (X ∈ Bn ) = PX (Bn ) ,
n∈N∗ n∈N∗
Statistique mathématique
c Michel CARBON
1.8 Probabilité 33
a) P (∅) = 0 .
P (A ∪ B) = P (A) + P (B) .
P (B r A) = P (B) − P (A) .
e) ∀A ∈ A, P (Ac ) = 1 − P (A) .
P (A) ≤ P (B) .
P (An ) ↓ 0 .
P (An ) ↓ P (A) .
P (An ) ↑ P (A) .
Démonstration :
a) Soit A1 = Ω , et Ai = ∅ , ∀i ≥ 2.
Ces événements sont deux à deux disjoints :
∀ i 6= j , A i ∩ Aj = ∅ .
Statistique mathématique
c Michel CARBON
CHAPITRE 1. VARIABLES ALÉATOIRES - LOIS DE
34 PROBABILITÉ
Par conséquent,
! +∞
[ X
P (Ω) = P An = P (A1 ) + P (An ) .
n∈N∗ n=2
+∞
X
Donc : P (An ) = 0 . Comme, pour tout n , 0 ≤ P (An ) ≤ 1, on conclut alors
n=2
que : P (∅) = 0 .
b) Soit A1 = A , A2 = B , Ai = ∅ , ∀ i ≥ 3 . Ces événements sont deux à deux
disjoints, et P (Ai ) = 0 , ∀i ≥ 3 . Donc :
!
[ X
P (A ∪ B) = P An = P (An ) = P (A) + P (B) .
n∈N∗ n∈N∗
A = (A ∩ B) ∪ (A ∩ B c ) ,
B = (A ∩ B) ∪ (Ac ∩ B) ,
A ∪ B = (A ∩ B) ∪ (Ac ∩ B) ∪ (A ∩ B c ) .
A, B et A ∪ B sont écrits sous forme de réunions d’événements deux à deux
disjoints. Donc, d’après (b) :
P (A) = P (A ∩ B) + P (A ∩ B c ) ,
P (B) = P (A ∩ B) + P (Ac ∩ B) ,
P (A ∪ B) = P (A ∩ B) + P (Ac ∩ B) + P (A ∩ B c ) .
Alors, aisément, on a :
P (A ∪ B) = P (A ∩ B) + P (A ∩ B c ) + P (A ∩ B) +
P (Ac ∩ B) − P (A ∩ B)
= P (A) + P (B) − P (A ∩ B) .
On peut généraliser à n événements quelconques A1 , · · · , An :
n
! n
[ X X
P Ai = P (Ai ) − P (Ai ∩ Aj ) +
i=1 i=1 1≤i<j≤n
n
!
X \
P (Ai ∩ Aj ∩ Ak ) + · · · + (−1)n+1 P Ai .
1≤i<j<k≤n i=1
Statistique mathématique
c Michel CARBON
1.8 Probabilité 35
P (B) = P (A) + P (B r A) .
D’où :
P (B r A) = P (B) − P (A) .
e) En particulier en posant B = Ω , on a :
P (Ac ) = 1 − P (A) .
P (B) ≥ P (A) .
En effet, clairement on a :
[ [
Bn ⊂ An .
n∈N∗ n∈N∗
[
De plus, pour tout ω dans An , il existe n0 le plus petit entier tel que ω ∈ An0 .
n∈N∗ [
Alors, a fortiori, ω ∈ Bn0 =⇒ ω ∈ Bn . Ainsi :
n∈N∗
[ [
An ⊂ Bn .
n∈N∗ n∈N∗
Donc :
! !
[ [ X X
P An =P Bn = P (Bn ) ≤ P (An ) .
n∈N∗ n∈N∗ n∈N∗ n∈N∗
Alors la suite (An r An+1 )n∈N∗ est formée d’événements deux à deux disjoints,
dont la réunion est A1 . !
+∞
X [
La série P (An r An+1 ) = P (An r An+1 ) = P (A1 ) est donc conver-
n=1 n∈N∗
gente.
Statistique mathématique
c Michel CARBON
CHAPITRE 1. VARIABLES ALÉATOIRES - LOIS DE
36 PROBABILITÉ
Il suffit donc de considérer la suite (An r A)n∈N∗ pour se ramener au cas précé-
dent :
P (An r A) ↓ 0 .
Et, comme pour tout n de N∗ , A ⊂ An , alors : P (An ) ↓ P (A) .
Remarque 1.8.1 Les propriétés h), i) et j) du théorème précédent sont dites pro-
priétés de continuité monotone d’une probabilité.
Lemme 1.8.1 (de Borel-Cantelli) (première partie) Si (An )n∈N∗ est une suite d’évé-
+∞
X
nements telle que : P (An ) < +∞, alors P lim supAn = 0 .
n→+∞
n=1
Cela signifie que la probabilité pour qu’une infinité d’événements An se réalise est
nulle. Autrement dit, la probabilité pour que tous les événements Acn soient réalisés,
sauf un nombre fini, est 1 :
P lim inf Acn = 1.
n→+∞
Cela ne veut pas dire que lim supAn soit l’événement impossible ∅ , ni que
n→+∞
lim inf Acn soit l’événement certain Ω. Ce sont des événements appelés respective-
n→+∞
ment événement presque impossible, et événement presque certain.
Statistique mathématique
c Michel CARBON
1.9 Probabilité conditionnée par un événement 37
Démonstration :
+∞
[
∀ i ∈ N ∗ , posons Ei = An . D’après le théorème précédent g), on a :
n=i
+∞
X
P (Ei ) ≤ P (An ) .
n=i
+∞
\ +∞
[ +∞
[
Or : lim supAn = An ⊂ An pour tout i ∈ N∗ .
n→+∞
k=1 n=k n=i
X +∞
∗
Donc : ∀ i ∈ N , 0 ≤ P lim supAn ≤ P (An ) .
n→+∞
n=i
Et comme la série converge, alors : P lim supAn = 0 .
n→+∞
= P A0 (A) .
P A0 (·) est une probabilité sur (Ω, A) . En effet :
P (A0 ∩ Ω) P (A0 )
∗ P A0 (Ω) = = = 1 car A0 ⊂ Ω ;
P (A0 ) P (A0 )
∗ Si (An )n∈IN est une suite d’évènements 2 à 2 disjoints, alors :
! ! !
[ [
! P An ∩ A0 P (An ∩ A0 )
[ n n
A0
P An = =
n
P (A0 ) P (A0 )
X
P (A0 ∩ An )
n
X
= = P A0 (An ) .
P (A0 ) n
Statistique mathématique
c Michel CARBON
CHAPITRE 1. VARIABLES ALÉATOIRES - LOIS DE
38 PROBABILITÉ
P (B/A) P (A)
P (A/B) = .
P (B/A) P (A) + P (B/Ac ) P (Ac )
Démonstration :
On a immédiatement :
P (A ∩ B) P (B/A) P (A)
P (A/B) = = .
P (B) P (B)
Or :
P (B) = P ((B ∩ A) ∪ (B ∩ Ac )) = P (B ∩ A) + P (B ∩ Ac ) .
Statistique mathématique
c Michel CARBON
1.9 Probabilité conditionnée par un événement 39
Cas de n événements :
Alors : X
∀ B ∈ A, P (B) = P (B/Ai ) P (Ai ) .
i∈N
Démonstration :
On a :
!! !
[ [ X
P (B) = P B∩ Ai =P (B ∩ Ai ) = P (B ∩ Ai ) ,
i∈N i∈N i∈N
Statistique mathématique
c Michel CARBON
CHAPITRE 1. VARIABLES ALÉATOIRES - LOIS DE
40 PROBABILITÉ
Théorème 1.9.3 Soit (Ω, A, P ) un espace probabilisé, et (Ai )i=1,··· ,n une partition
finie de Ω . On suppose de plus que, pour tout i, P (Ai ) 6= 0, et que B est un événement
de probabilité non nulle. Alors :
P (B/Ai )P (Ai )
∀ i = 1, · · · , n P (Ai /B) = n .
X
P (B/Ak )P (Ak )
k=1
Démonstration :
Il suffit de reprendre le même schéma que dans la démonstration de la formule
de Bayes pour deux événements, en utilisant pour le dénominateur le théorème des
probabilités totales.
1.10 Indépendance
1.10.1 Indépendance de deux événements
Nous avons défini la probabilité conditionnelle de A sachant B (deux événements
de probabilité non nulle) par :
P (A ∩ B)
P (A/B) = .
P (B)
Statistique mathématique
c Michel CARBON
1.10 Indépendance 41
P (A ∩ B)
P (A/B) = = P (A) .
P (B)
P (A ∩ B) = P (A)P (B) .
Il faut noter que la notion d’indépendance n’est pas intrinsèque aux événements,
mais dépend de la probabilité P choisie sur (Ω, A). Deux événements indépendants
pour une probabilité donnée peuvent ne plus l’être pour une autre probabilité, et
réciproquement. Donnons enfin une propriété pour deux événements indépendants.
Statistique mathématique
c Michel CARBON
CHAPITRE 1. VARIABLES ALÉATOIRES - LOIS DE
42 PROBABILITÉ
Définition 1.10.3 Soit (Ω, A, P ) un espace probabilisé, soit (An )n∈N∗ une suite
d’événements de A. On dit que les (An )n∈N∗ forment une suite d’événements indé-
pendants si et seulement si, pour tout k ∈ N∗ , et tout sous-ensemble (Ai1 , · · · , Aik )
de k événements deux à deux distincts choisis parmi les événements (An )n∈N∗ , on
a:
P (Ai1 ∩ · · · ∩ Aik ) = P (Ai1 ) × · · · × P (Aik ) .
La propriété 1.10.1 s’étend à une suite (An )n∈N∗ d’événements. On peut remplacer
tous les An que l’on veut par Acn et la suite ainsi obtenue est encore une suite
d’événements indépendants.
Statistique mathématique
c Michel CARBON
1.10 Indépendance 43
Démonstration :
Pour tout k ∈ N∗ , les An étant indépendants, on a :
k
! k
\ Y
P An = P (An ) .
n=1 n=1
De plus :
k
\ \
An ↓ An .
n=1 n∈N∗
Soit (Ω, A, P ) un espace probabilisé, et une suite d’événements (An )n∈N∗ indé-
+∞
X
pendants de A telle que : P (An ) = +∞ , alors :
n=1
P lim sup An = 1.
n
Démonstration :
D’après ce qui précède, on peut dire que la suite des (Acn )n∈N∗ est formée d’évé-
nements indépendants. Donc :
!
\ Y Y
∀ i ∈ N∗ , P Acn = P (Acn ) = (1 − P (An )) .
n≥i n≥i n≥i
Statistique mathématique
c Michel CARBON
CHAPITRE 1. VARIABLES ALÉATOIRES - LOIS DE
44 PROBABILITÉ
Grâce aux deux parties du lemme de Borel-Cantelli, on voit que, pour une suite
(An )n∈N∗ d’événements indépendants, la probabilité pour qu’une infinité de An soient
réalisés ne peut valoir que 0 ou 1.
En combinant les deux lemmes de Borel-Cantelli,
on peut
donc voir que si les
événements (An )n∈N∗ sont indépendants, alors P lim sup An ne peut prendre que
n
+∞
X
les valeurs 0 ou 1, et ceci grâce à la convergence ou divergence de la série P (An ) .
n=1
On en déduit donc le résultat suivant.
Théorème 1.10.1 (une loi du 0-1)
Si les événements (An )n∈N∗ sont indépendants, alors :
+∞
X
0 si P (An ) < +∞
n=1
P lim sup An =
n
+∞
X
1 si P (An ) = +∞ .
n=1
D’où :
P lim sup An = 1 .
n
Donc, dans cette situation, on obtiendra "Pile" une infinité de fois.
Remarquons que si la pièce n’était pas bien équilibrée, et que :
P (An ) = p (0 < p < 1) , ∀n ∈ N∗ ,
alors, en raisonnant de même, on aurait aussi le même résultat.
Il en serait également de même si on lançait une infinité de pièces de monnaie
avec :
P (An ) = pn (0 < pn < 1) , ∀n ∈ N∗ .
Statistique mathématique
c Michel CARBON
1.10 Indépendance 45
En effet, supposons que les lettres successives tapées au hasard par le singe
soient une suite de variables aléatoires indépendantes et identiquement distribuées.
Alors, comme cela a été vu dans l’exemple précédent, chaque suite finie de lettres
se répétera une infinité de fois avec la probabilité 1. Comme les oeuvres de Victor
Hugo représentent une suite finie de lettres, clairement le singe tapera une infinité
de fois les oeuvres complètes de Victor Hugo.
Même s’il doit en plus taper tout l’annuaire téléphonique français, cela représente
toujours une suite finie de lettres, et donc le singe courageux tapera aussi une infinité
de fois l’annuaire téléphonique français.
Statistique mathématique
c Michel CARBON
CHAPITRE 1. VARIABLES ALÉATOIRES - LOIS DE
46 PROBABILITÉ
L’idée est qu’on écrit les 304 805 lettres dans une matrice, et qu’on les lit de droite
à gauche, ou de gauche à droite, ou de bas en haut, ou de haut en bas, et que l’on
cherche après un mot donné. On peut aussi lire toutes les n lettres. En faisant cela
l’auteur affirme qu’on peut trouver toute sorte d’événements futurs. Un exemple est
qu’en examinant toutes les 4 772 lettres, on trouve le nom d’Yitzhak Rabin, ce qui
montre qu’on aura déjà pu trouver dans la bible une preuve concernant son meurtre
en novembre 1995. L’auteur ajoute également que seule la version hébraïque de la
bible contient le code, et aucune traduction de celle-ci.
Bien que le problème ne soit pas exactement le même que celui du singe secrétaire,
il existe tout de même un parallèle probabiliste. Si on cherche un mot de k lettres dans
un alphabet de N lettres, la probabilité que ce mot apparaisse à un endroit donné est :
1
p = k , sous l’hypothèse, bien sûr, que les lettres apparaissent indépendamment les
N
unes des autres, et avec la même loi. Démarrant le processus aux lettres m (k + 1) ,
pour m = 1, 2, · · · le nombre de répétitions avant de trouver le mot suit une loi
1
géométrique de moyenne : = N k , qui est un nombre fini.
p
N’ayant pas oublié les lemmes de Borel-Cantelli, il n’est pas surprenant que l’on
puisse trouver quasiment tout ce que l’on désire avec cette manière d’opérer. Bien
entendu, le raisonnement s’applique à toutes les traductions de la bible, mettant en
brèche les allégations de l’auteur du livre.
À part cela, on pourrait aussi se demander : s’il y a un code dans la bible, ne
pourrait-on pas espérer en trouver un autre plus sophistiqué ? Et si le code est réel-
lement un code, pourquoi personne n’a-t-il prédit l’attaque du World Trade Center
du 11 septembre 2001 avant qu’il ait eu lieu ? Et l’attaque du métro madrilène deux
ans et demi plus tard ? Et que dire des attentats en France et en Belgique très
récemment ?
Même si ces quelques exemples semblent un peu élémentaires, ils illustrent le
nombre important d’autres exemples qui surgissent dans nos vies. On pourrait fina-
lement se demander combien l’auteur du code biblique aurait vendu de livres si tout
Statistique mathématique
c Michel CARBON
1.11 Fonction de répartition 47
Démonstration :
(i) F est croissante au sens large :
En effet, x1 < x =⇒ ]−∞, x1 ] ⊂ ]−∞, x] .
D’où : x1 < x =⇒ P (]−∞, x1 ]) ≤ P (]−∞, x]) ; c’est-à-dire :
F (x1 ) ≤ F (x) .
Statistique mathématique
c Michel CARBON
CHAPITRE 1. VARIABLES ALÉATOIRES - LOIS DE
48 PROBABILITÉ
Donc :
Remarque 1.11.1 :
Étant donné une probabilité Q sur (R, BR ) il existe toujours une v.a.r. X telle
que PX = Q (il suffit de poser (Ω, A, P ) = (R, BR , Q) et de prendre pour X l’appli-
cation identique) ; mais il est clair que X n’est pas l’unique v.a.r. telle que PX = Q.
Autrement dit, une v.a.r. n’est pas déterminée par sa loi.
D’autre part, on a :
]−∞, x] = ]−∞, x[ ∪ {x} .
Statistique mathématique
c Michel CARBON
1.12 Classification des lois de probabilité sur (R, BR ) 49
Lemme 1.12.2 Une f.d.r. F sur R admet au plus un nombre dénombrable de points
de discontinuité.
Démonstration :
Soit P la probabilité associée à F. Le lemme 3.6.1 montre que l’ensemble des
points de discontinuité de F est défini par S = {x : P (x) > 0} .
∗ 1
Posons : ∀ n ∈ N , Sn = x : P (x) ≥ .
n
[
Clairement : ∀ n ∈ N∗ , Sn ⊂ S. D0 où : Sn ⊂ S .
n∈N∗
Réciproquement :
1
∀x ∈ S , ∃n0 ∈ N∗ , tel que : ∀ n ≥ n0 , P (x) > .
n
[
Donc x ∈ Sn pour n ≥ n0 , et donc a fortiori x ∈ Sn .
n∈N∗
Ainsi : [
S= Sn .
n∈N∗
Montrons par l’absurde que Sn contient au plus n éléments. Supposons pour cela
que Sn contienne n + k éléments (avec k ∈ N∗ ). Alors on aurait :
!
[ X X 1 n+k
P (Sn ) = P {x} = P ({x}) ≥ = > 1,
x∈S x∈S x∈S
n n
n n n
ce qui est impossible. Donc Sn contient au plus n éléments. Ainsi, S, qui est une
réunion dénombrable d’ensembles de cardinaux finis, est lui-même au plus dénom-
brable.
Statistique mathématique
c Michel CARBON
CHAPITRE 1. VARIABLES ALÉATOIRES - LOIS DE
50 PROBABILITÉ
P = α P1 + (1 − α) P2 .
Démonstration :
Posons S = {x : P (x) > 0}. On a vu que S est au plus dénombrable. D’autre
part, P étant ni diffuse, ni discrète, on en déduit alors que :
!
1 [
= P (Bn ∩ S) (par distributivité de ∩ sur ∪)
α n∈N∗
X 1
= P (Bn ∩ S) (par disjonction des Bn ∩ S)
n∈N∗
α
X
= P1 (Bn ) (par définition de P1 ).
n∈N∗
Statistique mathématique
c Michel CARBON
1.13 Variables aléatoires réelles discrètes 51
Il est très facile de vérifier que P2 est une probabilité sur (R, BR ) :
P (R) − αP1 (R) 1−α
* P2 (R) = = .
1−α 1−α
* ∀ (Bn )n∈N∗ ∈BR , avec les Bn deux à deux disjoints, on a :
! !
[ [
! P Bn − αP1 Bn
n∈N∗ n∈N∗
[
P2 Bn =
n∈N∗
1−α
X X
P (Bn ) − α P1 (Bn )
n∈N∗ n∈N∗
=
1−α
X P (Bn ) − αP1 (Bn )
=
n∈N∗
1−α
X
= P2 (Bn ) .
n∈N∗
Statistique mathématique
c Michel CARBON
CHAPITRE 1. VARIABLES ALÉATOIRES - LOIS DE
52 PROBABILITÉ
Notons :
px = P ({X = x}) = PX ({x}) .
Une autre propriété immédiate bien utile dans les applications est la suivante :
Proposition 1.13.2 Sous les hypothèses de la définition précédente, on a :
X
px = 1 .
x∈S
Démonstration :
On a :
X X
PX (R) = P ({X ∈ R}) = P ({X = x}) = PX ({x})
x∈R∩S x∈R ∩S
X X
= PX ({x}) = px .
x∈S x∈S
D’où immédiatement : X
px = 1 .
x∈S
1A (ω) = 0 si ω ∈
/A
de cet événement A.
1A est une variable aléatoire (on le vérifiera aisément) discrète pouvant prendre
la valeur 0, ou la valeur 1, suivant que ω ∈/ A ou que ω ∈ A. Sa loi de probabilité
est donc définie par :
P1A ({0}) = P ({1A = 0}) = P (Ac ) = 1 − p ;
Statistique mathématique
c Michel CARBON
1.13 Variables aléatoires réelles discrètes 53
Statistique mathématique
c Michel CARBON
CHAPITRE 1. VARIABLES ALÉATOIRES - LOIS DE
54 PROBABILITÉ
n
!
Y
Il reste à définir la probabilité P sur Ω= Ωi , P (Ω) . Pour cela, remarquons
i=1
tout d’abord que tout événement de P (Ω) de la forme :
B = A1 × A2 × · · · × Ai × · · · × An ,
P (Bi ) = P (Ω) = 1 .
i−1
Y n
Y
— Si Ai = ∅, Bi est l’événement impossible ∅ = Ωk × ∅ × Ωk , on pose
k=1 k=i+1
donc :
P (Bi ) = P (∅) = 0 .
i−1
Y n
Y
— Si Ai = {Pile}, Bi = Ωk × {Pile} × Ωk est l’événement ”faire pile à la
k=1 k=i+1
i-ième fois”, on pose donc :
P (Bi ) = Pi ({Pile}) = p .
i−1
Y n
Y
— Si Ai = {Face}, Bi = Ωk × {Face} × Ωk est l’événement ”faire face à
k=1 k=i+1
la i-ième fois”, on pose donc :
P (Bi ) = Pi ({Face}) = q = 1 − p .
c’est-à-dire :
Statistique mathématique
c Michel CARBON
1.13 Variables aléatoires réelles discrètes 55
La probabilité P se trouve ainsi définie sur (Ω, P (Ω)), comme le ”produit” des
On
probabilités Pi (1≤ i ≤ n) . On notera souvent : P = Pi (produit tensoriel des
i=1
probabilités Pi ).
Par exemple, si la suite A1 , · · · , An comporte k fois l’événement {Pile} et n−k fois
l’événement {Face}, alors l’événement A1 ×· · ·×An a pour probabilité pk (1 − p)n−k .
Comme application, cherchons quelle est la probabilité de réussir ”pile” k fois
exactement au cours des n jets de la pièce.
L’événement ”réussir pile k fois en n expériences” peut s’écrire comme la réunion
de tous les événements de la forme A1 × · · · × An , où la suite A1 , · · · , An comporte
k piles et n − k faces. Tous ces événements sont deux à deux disjoints, et il y en a
autant que le nombre de façons de prendre k objets distincts parmi n objets : Cnk .
Chacun d’eux ayant la même probabilité pk (1 − p)n−k , la probabilité de réussir k
fois pile en n lancers de pièces est donc :
Cnk pk (1 − p)n−k .
Le schéma binomial :
Soit A un événement de la tribu A. On suppose que l’événement A a pour
probabilité p . On réalise n expériences indépendantes, et on note X la variable
aléatoire "nombre de fois où A s’est produit au cours des n expériences".
A la lumière de l’exemple précédent sur le jeu de Pile ou Face, on peut écrire :
Statistique mathématique
c Michel CARBON
CHAPITRE 1. VARIABLES ALÉATOIRES - LOIS DE
56 PROBABILITÉ
Statistique mathématique
c Michel CARBON
1.14 N −uples de variables aléatoires discrètes 57
5) Loi hypergéométrique
On considère un tirage équiprobable sans remise de n éléments pris dans une
population de taille N (n ≤ N ). On s’intéresse à un type donné d’éléments de la
population, que l’on supposera en proportion p (N p est donc un entier). Soit X le
nombre d’éléments du type étudié présents dans l’échantillon de taille n. La loi de
X est appelée loi hypergéométrique de paramètres N, n, p, et est notée H(N, n, p).
Une définition explicite de la loi de H(N, n, p) est alors la suivante :
CNx p CNn−x
q
PX (x) = pour max(0; n − N q) ≤ x ≤ min(n, N p) .
CNn
Statistique mathématique
c Michel CARBON
CHAPITRE 1. VARIABLES ALÉATOIRES - LOIS DE
58 PROBABILITÉ
X
= PX,Y ((x, y)) .
(x,y)∈B∩S
Statistique mathématique
c Michel CARBON
1.14 N −uples de variables aléatoires discrètes 59
La proposition qui suit est très utile quand on veut déterminer la loi de X ou la
loi de Y , connaissant la loi du couple (X, Y ) .
Remarque 1.14.1 :
1) Reprenons le jeu de pile ou face comportant n jets, introduit dans le premier
paragraphe.
n
Y
L’espace de probabilité associé est (Ω, P (Ω)), où Ω est défini comme Ωi , avec,
i=1
pour tout i = 1, · · · , n : Ωi = {”pile”, ”f ace”} ; la probabilité Pi sur (Ωi , P (Ωi ))
est définie par : Pi ({”pile”}) = p et Pi ({”f ace”}) = 1 − p ; enfin, la probabi-
lité P sur (Ω, P (Ω)) est définie par sa valeur pour les événements de la forme :
(A1 × · · · × An ), Ai ∈ P (Ωi ) , ∀i = 1, · · · , n., à savoir :
Statistique mathématique
c Michel CARBON
CHAPITRE 1. VARIABLES ALÉATOIRES - LOIS DE
60 PROBABILITÉ
Statistique mathématique
c Michel CARBON
1.16 Lois absolument continues 61
Y = −1 Y = 1 Y = 3 Y = 5
X=0 0 0, 3 0, 2 0, 1
X=1 0, 1 0 0, 1 0
X=2 0, 1 0, 1 0 0
P (X = 0) ; P (X = 1) ; P (X = 2) ;
et celle de Y par :
P (Y = −1) ; P (Y = 1) ; P (Y = 3) ; P (Y = 5) .
X PX Y PY
0 0,6 -1 0,2
1 0,2 1 0,4
2 0,2 3 0,3
5 0,1
P (X = 0) P (Y = 3) = PX ({0}) PY ({3}) = 0, 6 0, 3 = 0, 18 ;
tandis que :
P ({X = 0; Y = 3}) = PX,Y ({0, 3}) = 0, 2 .
Si X et Y étaient indépendantes, PX,Y serait définie par le tableau ci-dessous, et
réciproquement.
Y = −1 Y = 1 Y = 3 Y = 5
X=0 0, 12 0, 24 0, 18 0, 06
.
X=1 0, 04 0, 08 0, 06 0, 02
X=2 0, 04 0, 08 0, 06 0, 02
Statistique mathématique
c Michel CARBON
CHAPITRE 1. VARIABLES ALÉATOIRES - LOIS DE
62 PROBABILITÉ
Définition 1.16.1 Une mesure de probabilité absolument continue est une mesure
de probabilité de la forme :
Z
∀ B ∈ BR , P (B) = f (x) dx ,
B
où f est une densité de probabilité, c’est-à-dire une fonction définie sur R satisfaisant
aux conditions :
Z +∞
f (x) ≥ 0 pour tout x ∈ R, et f (x) dx = 1 .
−∞
Démonstration : On a immédiatement :
Z x
F (x) = P (] − ∞, x]) = f (x) dx ,
−∞
Exemples :
· Loi uniforme continue
Définition 1.16.2 X suit une loi uniforme sur le segment [a, b] (avec a < b) si sa
densité est donnée par :
1
f (x) = 1[a,b] (x) .
b−a
On notera alors que X U([a, b]) .
· loi normale de paramètres m et σ
Définition 1.16.3 X suit une loi notée N (m, σ 2 ) si densité est donnée par :
" 2 #
1 1 x−m
f (x) = √ exp − ; x ∈ R ; (m ∈ R, σ > 0) .
σ 2π 2 σ
Définition 1.16.4 X suit une loi de Cauchy de paramètre a si sa densité est donnée
par :
1 a
f (x) = ; x ∈ R (a > 0) .
π a + x2
2
· Loi logistique
Statistique mathématique
c Michel CARBON
1.16 Lois absolument continues 63
Définition 1.16.5 X suit une loi logistique si sa densité est donné par :
e−x
f (x) = pour tout x ∈ R .
(1 + e−x )2
1
FX (x) = .
1 + e−x
On en déduit une relation simple entre la densité et la fonction de répartition :
FX (x)
f (x) = .
1 − FX (x)
· loi de Laplace
Définition 1.16.6 X suit une loi de Laplace si sa densité est donnée par :
1
f (x) = e−|x| ; x ∈ R.
2
· loi gamma Γ
λa a−1 −λx
f (x) = x e pour x > 0 (a > 0) ,
Γ (a)
= 0 pour x ≤ 0 ,
Z+∞
avec : Γ (a) = xa−1 e−x dx .
0
Statistique mathématique
c Michel CARBON
CHAPITRE 1. VARIABLES ALÉATOIRES - LOIS DE
64 PROBABILITÉ
Exemple 1.17.1 .
Soit ρ une réel tel que : ρ ∈ ]−1, 1[ . On considère le couple (X, Y ) de densité de
probabilité suivante :
1 1 2 2
f (x, y) = p exp − x − 2ρxy + y .
2π 1 − ρ2 2 (1 − ρ2 )
(on peut aisément vérifier que c’est bien une densité de probabilité)
La loi de Y a alors pour densité :
Z
1 1 2 2
fY (y) = p exp − x − 2ρxy + y dx .
2π 1 − ρ2 2 (1 − ρ2 )
R
Or :
x2 − 2ρxy + y 2 = (x − ρy)2 + 1 − ρ2 y 2 .
Donc :
" #
(x − ρy)2
2Z
1 y
fY (y) = p exp − exp − dx .
2π 1 − ρ2 2 2 (1 − ρ2 )
R
2
y
Ainsi, fY (y) est proportionnelle à exp − . C’est donc :
2
2
1 y
fY (y) = √ exp − .
2π 2
Statistique mathématique
c Michel CARBON
1.17 N −uples de lois absolument continues 65
La loi du couple permet donc de déterminer facilement la loi des deux marginales.
La réciproque est fausse en général. Ce dernier exemple montre bien que, pour tous
les réels ρ tels que ρ ∈ ]−1, 1[ , les lois marginales sont identiques.
= P (X1 ≤ x1 ; · · · ; Xn ≤ xn ) .
C’est le cas pour les lois absolument continues. On note alors les remarques
suivantes :
Remarques
1) Il existe alors une fonction f positive, intégrable sur (Rn , BRn , λn ), telle que :
Z
f (x1 , · · · , xn ) dx1 · · · dxn = 1 ,
Rn
Statistique mathématique
c Michel CARBON
CHAPITRE 1. VARIABLES ALÉATOIRES - LOIS DE
66 PROBABILITÉ
Z Z
= f (x1 · · · xn ) dxm+1 , . . . , dxn dx1 · · · dxm ,
A Rn−m
ce qui s’écrit :
Z
P ((X1 , · · · , Xm ) ∈ A) = g (x1 , · · · , xm ) dx1 · · · dxm .
A
Cela peut aussi se généraliser à tout sous-vecteur (Xn1 , · · · , Xnm ) avec {n1 , · · · , nm } ∈
{1, · · · , n} , extrait de (X1 , · · · , Xn ) .
Par exemple, pour un couple de v.a.r. (X, Y ), on a le résultat suivant :
Proposition 1.17.1 Si (X, Y ) est un couple de v.a.r. à densité fX,Y (x, y), les lois
marginales de X, et de Y sont à densités, données par :
Z +∞ Z +∞
fX (x) = fX,Y (x, y) dy et fY (y) = fX,Y (x, y) dx .
−∞ −∞
Statistique mathématique
c Michel CARBON
1.18 Variables aléatoires continues indépendantes 67
∀ (x1 , · · · , xn ) ∈ Rn , F(X1 ,··· ,Xn ) (x1 , · · · , xn ) = FX1 (x1 ) × · · · × FXn (xn ) . (1.3)
Statistique mathématique
c Michel CARBON
CHAPITRE 1. VARIABLES ALÉATOIRES - LOIS DE
68 PROBABILITÉ
H (x, y) = P (M ≤ x ; N ≤ y) = P (M ≤ x) − P (M ≤ x ; N > y) .
= xn − (x − y)n .
∂ 2F
La densité h de (M, N ) s’obtient alors en calculant :
∂x∂y
Statistique mathématique
c Michel CARBON
Chapitre 2
Moments et transformations de
variables
C’est évidemment toujours le cas si S = {x1 , ..., xk , ...} est fini. Si, par contre, S
∞
X
est dénombrable, cela revient à dire que la série xk · P (X = xk ) est absolument
k=1
convergente.
Définition 2.1.1 Sous cette réserve d’existence, on appelle alors espérance mathé-
matique, ou moyenne de X, le nombre :
X
E (X) ou mX = xk · P (X = xk ) .
k
69
CHAPITRE 2. MOMENTS ET TRANSFORMATIONS DE
70 VARIABLES
n
X (n − 1)!
= np pk−1 (1 − p)(n−1)−(k−1)
k=1
(k − 1)! [(n − 1) − (k − 1)]!
= np [p + (1 − p)]n−1 = np .
∞
X
Soit S (x) la somme de la série entière xn , |x| < 1.
n=0
S 0 (x) est la somme de la série entière dérivée terme à terme :
∞
X
n xn−1 , |x| < 1 ,
n=1
0
0 1 1
donc S (x) = = .
1−x (1 − x)2
∞
X 1−p
Par conséquent, E (X) = p (1 − p) k (1 − p)k−1 =
.
k=1
p
5) Voici, pour finir, un exemple de variable aléatoire discrète ne possédant pas
d’espérance mathématique : Soit X une variable aléatoire discrète dont la loi est
définie par :
1
SX = Z∗ , et ∀n ∈ N∗ , P (X = n) = P (X = −n) = .
2n (n + 1)
Cette loi est bien définie, puisque :
∞
X X 1
PX (n) = = 1,
n∈Z∗ n=1
n (n + 1)
mais : ∞
X X 1
|n| · PX (n) = = +∞.
n∈Z∗ n=1
n+1
Statistique mathématique
c Michel CARBON
2.1 Moyenne et Variance 71
On peut dire de façon grossière, que E (X) est le « milieu » de la loi de probabilité
de X, puisque c’est le barycentre de SX . C’est donc un paramètre de centralité de
la loi de X.
Dans l’étude de modèles probabilistes, on est très souvent amené à transformer
certaines variables en d’autres variables. Le lemme suivant sera utile dans cette
optique :
Lemme 2.1.1 Soit X une variable aléatoire définie sur (Ω, A, P ) à valeurs dans S,
espace au plus dénombrable. Soit f une application quelconque de S dans S 0 , où S 0
est aussi un espace au plus dénombrable. Alors : Y = f ◦ X est une variable aléatoire
discrète dont la loi de probabilité PY se déduit de celle de X par la formule :
X
PY (y) = PX ({x}) . (2.1)
x:f (x)=y
Démonstration :
Pour tout y ∈ S 0 , on a :
X
{Y = y} = {X = x}
x:f (x)=y
Démonstration :
Par définition et grâce au lemme 2.1.1, on a :
X
E [f (X)] = y P (f (X) = y)
y∈f (S)
X X
= y PX (x) .
y∈f (S) x:f (x)=y
X
Et la double somme ci-dessus vaut encore : f (x)PX (x).
x∈S
Une première propriété bien utile suit.
Statistique mathématique
c Michel CARBON
CHAPITRE 2. MOMENTS ET TRANSFORMATIONS DE
72 VARIABLES
Propriété 2.1.1 ∀ a, b ∈ R :
E(a X + b) = a E(X) + b .
Démonstration :
Si X, v.a.r. discrète ( X (Ω) = S) prend les valeurs xk avec les probabilités
correspondantes pk = P (X = xk ) , on a immédiatement :
X
E(a X + b) = (axk + b) · pk
xk ∈S
X X
= a xk · p k + b pk
xk ∈S xk ∈S
= a E(X) + b .
Définition 2.1.3 Sous réserve d’existence, la somme de cette série s’appelle la va-
2
riance de X , et se note V ar(X) ou σX . (Il est clair que, si S est fini, X possède
une variance). On peut exprimer la variance de diverses façons :
X
V ar(X) = E (X − E(X))2 = (xk − mX )2 pk ,
k
Statistique mathématique
c Michel CARBON
2.1 Moyenne et Variance 73
En effet :
V ar(X) = E [(X − E(X))2 ]
= E(X 2 ) − (E(X))2 .
Dans les calculs, on est souvent amené à utiliser la racine carrée de V ar(X),
qu’on appelle écart-type de X, et qu’on note : σX .
Tout un chacun aura toujours à l’esprit qu’une variance est toujours positive ou
nulle.
Cette définition de la variance est une mesure de la dispersion des valeurs prises
par X relativement à la moyenne. Plus les valeurs prises par X sont dispersées autour
de m, et plus la variance sera importante. A contrario, plus les valeurs prises par X
sont concentrées autour de m, et plus la variance sera petite.
D’autres mesures de dispersion peuvent être utilisées, comme celles définies ci-
dessous.
E(X 2 ) = 02 · (1 − p) + 12 · p = p ,
et
V ar(X) = E(X 2 ) − [E (X)]2 = p − p2 = p (1 − p) .
2) Loi Binomiale :
2
Soit X ∼ B (n, p) : σX = E (X 2 ) − [E (X)]2 = E (X 2 ) − n2 p2 .
Statistique mathématique
c Michel CARBON
CHAPITRE 2. MOMENTS ET TRANSFORMATIONS DE
74 VARIABLES
Or :
∞
X n!
2
E (X ) = k2 · pk (1 − p)n−k
k=0
k! (n − k)!
∞
X n!
= (k − 1 + 1) pk (1 − p)n−k
k=1
(k − 1)! (n − k)!
n
X n!
= pk (1 − p)n−k
k=2
(k − 2)! (n − k)!
n
X n!
+ pk (1 − p)n−k
k=1
(k − 1)! (n − k)!
= n2 p2 − np2 + np .
2
donc σX = np (1 − p) .
3) Loi de Poisson : Soit X ∼ Pλ ; un calcul similaire à celui qui précède fournit :
2
σX = λ. En effet :
∞ k −λ
2λ e
X
2
E (X ) = k
k=1
k!
∞
X λk e−λ
= k
k=1
(k − 1)!
∞
X λk e−λ
= [(k − 1) + 1]
k=1
(k − 1)!
∞ ∞
X λk e−λ X λk e−λ
= (k − 1) + ,
k=2
(k − 1)! k=1 (k − 1)!
soit : ∞ ∞
2 2 −λ
X λk−2 −λ
X λk−1
E (X ) = λ e + λe
k=2
(k − 2)! k=1
(k − 1)!
= λ2 e−λ eλ + λe−λ eλ = λ2 + λ .
Par suite :
V (X) = E(X 2 ) − [E (X)]2 = λ2 + λ − λ2 = λ .
4) Loi géométrique : ( à faire à titre d’exercice ) utiliser la dérivée seconde de la
X∞
somme de la série entière S(x) = xn , |x| < 1.
n=0
Statistique mathématique
c Michel CARBON
2.1 Moyenne et Variance 75
Remarque 2.1.1 :
1) Pour que X possède une variance, il est nécessaire et suffisant que E(X 2 ) <
+∞ , c’est-à-dire que : X
x2k pk < +∞ .
k
Propriété 2.1.2 ∀ a, b ∈ R :
V ar(a X + b) = a2 V ar(X) .
Démonstration :
Si X, v.a.r. discrète, on a successivement :
E [(a X + b)2 ] = E (a2 X 2 + 2abX + b2 )
= a2 E (X 2 ) + 2abE (X) + b2 ,
= a2 [E (X)]2 + 2abE(X) + b2 .
Ainsi :
V ar(a X + b) = E [(a X + b)2 ] − [E(a X + b)]2
= a2 E (X 2 ) − [E (X)]2 = a2 V ar(X) .
E (Y ) = E (X − mX ) = E (X) − mX = 0 .
Statistique mathématique
c Michel CARBON
CHAPITRE 2. MOMENTS ET TRANSFORMATIONS DE
76 VARIABLES
Définition 2.1.6 Sous réserve d’existence, on appelle v.a.r. réduite, toute variable
aléatoire de variance 1.
Soit X une variable admettant une variance σ 2 (X). Alors la variable aléatoire
X
Z= est de variance 1. En effet :
σ (X)
2 2 X 1
σ (X) = σ = 2 σ 2 (X) = 1.
σ (X) σ (X)
Définition 2.1.7 Sous réserve d’existence, on appelle v.a.r. centrée réduite, toute
variable aléatoire de moyenne nulle et de variance 1.
(Le fait que Y, Z et U soient bien des variables aléatoires est simple à démontrer,
mais ne nous préoccupe pas pour l’instant).
Soit (X1 , ..., Xk )0 un vecteur aléatoire suivant une loi multinomiale de paramètres
(n, p1 , ..., pk ) . Pour tout 1 ≤ i ≤ k, Xi est le nombre de réalisations d’un événement
Ai de probabilité pi , au cours de n expériences aléatoires indépendantes ; Xi suit
donc une loi binomiale B (n, pi ) d’espérance mathématique :
E (Xi ) = n pi ;
Remarque 2.2.1 :
a) Si (X, Y ) est un couple de variables aléatoires discrètes, d’espérance mathé-
matique (E (X) , E (Y )) , Z = X + Y est une variable aléatoire pouvant prendre
Statistique mathématique
c Michel CARBON
2.2 Espérance - Covariance (cas discret) 77
Par conséquent :
X X
|z| · P (Z = z) = |x + y| P (X = x ; Y = y)
z∈SZ (x,y):x+y∈SZ
X X X X
≤ |x| P (X = x ; Y = y) + |y| P (X = x ; Y = y)
x y y x
X X
= |x| P (X = x) + |y| P (Y = y) < +∞ .
x y
Ce qui montre que Z possède une espérance mathématique ; il est facile alors de
démontrer l’égalité : E(Z) = E(X) + E(Y ) en adaptant le calcul ci-dessus.
D’une façon générale, on a la propriété suivante :
Cependant E(Z) n’est pas nécessairement définie ; par exemple, si X a une loi
définie par :
√ 1
∀n ∈ N∗ , P X= n = ,
n (n + 1)
√
alors E(X) est définie puisque n/ (n (n + 1)) est équivalent à n−3/2 .
Posons alors X = Y, si bien que Z = X Y = X 2 ; il est clair alors que E(Z) =
+∞ .
Statistique mathématique
c Michel CARBON
CHAPITRE 2. MOMENTS ET TRANSFORMATIONS DE
78 VARIABLES
X
= |x y| P {X = x} P {Y = y}
x,y
X X
= |x| P {X = x} |y| P {Y = y} < +∞ .
x
Ce qui montre que Z possède une espérance mathématique ; il est alors facile de
démontrer l’égalité : E(Z) = E(X) E(Y ), en adaptant le calcul ci-dessus.
D’une façon générale, on a le résultat suivant :
De manière plus générale, on a la propriété suivante, souvent très utile dans les
appications :
Propriété 2.2.1 Quelles que soient les fonctions φ et ψ à valeurs réelles, définies
respectivement sur F et G, sous l’hypothèse que X et Y sont indépendantes (X
prenant ses valeurs dans F, et Y prenant ses valeurs dans G ), alors on a, sous
réserve d’existence :
Démonstration :
La formule (2.3) se déduit directement de la forme de la loi du couple (X, Y ) et
de la forme produit de la fonction φ (X) ψ (Y ). En effet, on a :
X
E [φ (X) ψ (Y )] = φ (x) ψ (y) PX,Y (x, y)
F ×G
X X
= φ (x) PX (x) ψ (y) PY (y)
F G
= E [φ (X)] E [ψ (Y )] .
Statistique mathématique
c Michel CARBON
2.2 Espérance - Covariance (cas discret) 79
à condition que :
X
|g (x1 , ..., xn )| P (X1 = x1 , ..., Xn = xn ) < +∞ .
x1 ,...,xn
2.2.2 Covariance
Pour caractériser la dispersion d’une variable aléatoire réelle X autour de sa
moyenne E(X), on a introduit la notion de variance :
2
σX = E(X − E(X))2 .
Statistique mathématique
c Michel CARBON
CHAPITRE 2. MOMENTS ET TRANSFORMATIONS DE
80 VARIABLES
Nous allons caractériser la dispersion des points Z(ω) autour de E par la variance
de la variable aléatoire :
EH = α (X − E(X)) + β (Y − E (Y )) .
Tout d’abord :
E EH = αE (X − E (X)) + βE (Y − E (Y )) = 0.
Donc :
2
V ar EH = E EH
La covariance
mesure, en un certain sens, le degré de dépendance entre X et Y .
V ar EH est donc la forme quadratique associée à la matrice symétrique définie
positive :
V ar (X) Cov(X, Y )
C= ,
Cov(X, Y ) V ar(Y )
appelée matrice de variance-covariance de (X, Y ) .
∀ i, j , 1 ≤ i, j ≤ n :
Remarque 2.2.2 :
a) Une matrice carrée A symétrique est dite positive si pour tout vecteur ligne
V : V0AV ≥0 .
X →
−
On remarque donc que toute matrice de variances-covariances du vecteur X
−
→
X
est symétrique définie positive, en vérifiant aisément que :
X
b0 b = var (b0 X) .
−
→
X
Statistique mathématique
c Michel CARBON
2.2 Espérance - Covariance (cas discret) 81
Proposition 2.2.3 Pour qu’un n-uple de variables aléatoires discrètes (X1 , ..., Xn )0
possède une matrice de variances-covariances, il suffit que :
Démonstration :
2 2
En effet, les termes diagonaux σX 1
, ..., σX n
existent. L’existence des autres termes
résulte de l’inégalité de Schwarz :
q
E (|Xi Xj |) ≤ E (Xi2 ) E Xj2 , ∀1 ≤ i, j ≤ n.
E (|Xi | − λ |Xj |)2 ≤ E 2 Xi2 + λ2 Xj2 = 2E(Xi2 ) + 2λ2 E Xj2 < +∞,
et :
Par conséquent :
= 0.
d) Soit (X1 , ..., Xn ) un n-uple de variables alé atoires discrètes, dont la matrice
de variances-covariances est diagonale. Alors X1 +· · ·+Xn est une variable aléatoire
discr ète qui possède pour variance :
2 2 2
σX 1 +...+Xn
= σX 1
+ · · · + σX n
.
Statistique mathématique
c Michel CARBON
CHAPITRE 2. MOMENTS ET TRANSFORMATIONS DE
82 VARIABLES
En effet :
= E [(X1 + · · · + Xn ) − E (X1 + + Xn )]2
2
σX 1 +...+Xn
n
X
= E [(Xi − E (Xi )) (Xj − E (Xj ))]
i,j=1
n
X
E (Xk − E (Xk ))2
=
k=1
2 2
= σX 1
+ · · · + σX n
.
Définition 2.2.3 Soit (X, Y ) un couple de variables aléatoires réelles, possédant des
variances non nulles ; on appelle coefficient de corrélation de X et de Y le nombre :
Cov(X, Y )
ρ = ρ (X, Y ) =
σX σY
E(X Y )
ρ= p .
E(X 2 ) E(Y 2 )
E (X − λY )2 = E X 2 − 2λE (X Y ) + λ2 E(Y 2 ) = 0
Statistique mathématique
c Michel CARBON
2.3 Espérance mathématique (cas continue) 83
E (X Y )
admet la racine double λo = .
E(Y 2 )
Autrement dit : E (X − λo Y )2 = 0 .
Soit S l’ensemble des points (x, y) tels que P ({X = x ; Y = y}) > 0; nous avons
obtenu l’égalité :
X
(x − λo y)2 P ({X = x ; Y = y}) = 0 ,
(x,y)∈S
E(X Y ) = E (aY 2 ) = aE (Y 2 )
X2
1
E(X Y ) = E = E (X 2 ) ;
a a
donc :
E 2 (X Y ) = E X 2 E Y 2 , et |ρ| = 1.
Comme le montre cette étude, ρ mesure un certain degré de relation entre les
variables X et Y : si |ρ| = 1, X et Y sont liés par la relation Y = a X + b p.s et les
utilisateurs du calcul des probabilités admettent que, pour des valeurs de ρ voisine
de 1, on peut utiliser cette relation pour prédire Y , quand on connaît une réalisation
de X.
Statistique mathématique
c Michel CARBON
CHAPITRE 2. MOMENTS ET TRANSFORMATIONS DE
84 VARIABLES
L’inégalité triviale |x| < x2 + 1 montre que E (X) = m est alors définie si E (X 2 )
existe.
De même, si E (X 2 ) existe, l’inégalité : (x − m)2 ≤ x2 + 2 |mx| + m2 montre que
2
E (X − m) existe. On l’appelle alors variance de X, et on la note V ar (X) ou
σ 2 (X) ou σX 2
.
Dans le cas continu, et sous réserve d’existence, si on applique le théorème 2.3.1,
avec g (x) = (x − m)2 , on obtient :
Z
V ar (X) = (x − m)2 f (x) dx .
R
Bien sûr, tout cela se généralise, mutatis mutandis, à l’existence et au calcul des
différents moments de X.
Démonstration :
C’est une conséquence immédiate de l’inégalité :
∀ k ∈ N∗ , |X|k ≤ 1 + |X|k+1 .
Statistique mathématique
c Michel CARBON
2.5 Moments de N -uples de variables continues 85
On a alors facilement :
NnOn rappelle qu’une C.N.S. pour l’indépendance de X1 , ..., Xn est l’égalité : P(X1 ,...,Xn ) =
i=1 PXi .
Démonstration :
C’est une conséquence du théorème de Fubini-Tonelli.
Remarque 2.5.1 :
La propriété 2 affirme que si deux variables aléatoires X et Y sont indépendantes,
alors : E(X Y ) = E(X) E(Y ) . Ceci entraîne que la covariance (la définition de
la covariance est rappelée ci-dessous) de deux variables aléatoires indépendantes est
nulle, et qu’il en est de même pour le coefficient de corrélation de deux variables
aléatoires indépendantes non presque certaines. La réciproque de cette assertion est
fausse. Elle reste cependant vraie si les variables sont gaussiennes.
Statistique mathématique
c Michel CARBON
CHAPITRE 2. MOMENTS ET TRANSFORMATIONS DE
86 VARIABLES
Remarque 2.5.2 :
On vérifie aisément que :
Théorème 2.5.2 Soit X un vecteur aléatoire du second ordre, identifié avec le vec-
teur colonne de ses composantes, et un vecteur colonne u de Rn . On a alors :
2. E (u0 X)2 = u0 M u
et la matrice M est positive
5. cov (u0 X, v 0 X) = u0 ΣX v .
Statistique mathématique
c Michel CARBON
2.5 Moments de N -uples de variables continues 87
Démonstration :
Il s’agit essentiellement d’utiliser la linéarité de l’espérance, et les définitions de
M et ΣX . Par exemple, on a :
= E (u0 (X − EX))2
grâce à 1.
= E u0 (X − EX) (X − EX)0 u
= u0 ΣX u .
E (ΨX) = Ψ E(X)
MΨX = Ψ M Ψ0
ΣΨX = Ψ ΣX Ψ0 ,
où MΨX et ΣΨX sont les matrices du second ordre associées au vecteur aléatoire
ΨX .
Démonstration :
De l’existence des covariances des Xi et des propriétés de linéarité de l’intégrale,
on déduit l’existence de σ 2 (X1 + ... + Xn ) et la formule :
n
X X
σ 2 (X1 + ... + Xn ) = σ 2 (Xi ) + cov (Xi , Xj ) .
i=1 1≤i6=j≤n
Statistique mathématique
c Michel CARBON
CHAPITRE 2. MOMENTS ET TRANSFORMATIONS DE
88 VARIABLES
Y
(Ω, A, P ) −−−−−−−→ (IRq , BIRq )
X
?
(IRp , BIRp )
Théorème 2.6.1 On suppose que P(X,Y ) admet une densité f (x, y). Alors :
(i) PX admet une densité Z
g(x) = f (x, y) dy .
IRq
f (x, y)
(ii) PYX=x admet une densité , densité conditionnelle de Y sachant que
g(x)
{X=x}
X = x et est notée fY (y) .
var (Y |X = x ) = E Y 2 |X = x − [E (Y |X = x )]2 .
Z
{X=x}
(iii) Si ϕ est une application mesurable, et si : |ϕ (y)| fY (y) dy < +∞,
alors E (ϕ (Y ) |X = x ) existe et :
Z
{X=x}
E (ϕ (Y ) |X = x) = ϕ (y) fY (y) dy .
Statistique mathématique
c Michel CARBON
2.6 Lois conditionnelles (cas continu) 89
Exemple 2.6.1 .
Z y
1
= x dx
0 y
Z y
1 y
= x dx = .
y 0 2
Statistique mathématique
c Michel CARBON
CHAPITRE 2. MOMENTS ET TRANSFORMATIONS DE
90 VARIABLES
Y
E (X |Y ) = .
2
La loi conditionnelle de Y sachant que {X = x} a pour densité :
Z +∞
= ye−(y−x) dy .
x
= x + 1,
E (Y |X ) = X + 1 .
MX (t) = E[etX ] .
Statistique mathématique
c Michel CARBON
2.7 Fonction génératrice des moments 91
On voit que la fonction génératrice des moments (notée f.g.m. dans la suite) ne
dépend que de la loi de X. Deux variables aléatoires ayant même loi auront donc
même f.g.m.
La f.g.m. possède des propriétés remarquables, que nous examinerons ci-dessous.
Commençons par quelques exemples.
Exemple 2.7.1 Supposons que X suive une loi binomiale B(n, p). Alors pour tout
t ∈ R, on a :
X
MX (t) = etx p(x)
x∈R
n
X
= etk Cnk pk (1 − p)n−k
k=0
n
X
= Cnk (pet )k (1 − p)n−k
k=0
= (pet + 1 − p)n .
Exemple 2.7.2 Supposons que X suive une loi de Poisson P(λ). Alors pour tout
t ∈ R, on a :
X
MX (t) = etx p(x)
x∈R
+∞
X e−λ λk
= etk
k=0
k!
+∞
−λ
X (et λ)k
= e
k=0
k!
t t
= e−λ ee λ = eλ(e −1) .
Exemple 2.7.3 Supposons que X suive une loi exponentielle de paramètre λ (λ >
Statistique mathématique
c Michel CARBON
CHAPITRE 2. MOMENTS ET TRANSFORMATIONS DE
92 VARIABLES
Z +∞
= etx λe−λx dx
0
Z +∞
= λ e(t−λ)x dx
0
λ
si t < λ
λ−t
=
+∞ si t ≥ λ .
Exemple 2.7.4 Supposons que X suive une loi de Cauchy standard, donc de den-
sité :
1
f (x) = .
π(1 + x2 )
Alors pour tout t ∈ R, on a :
Z +∞
MX (t) = etx f (x) dx
−∞
Z +∞
1
= etx dx
−∞ π(1 + x2 )
1 si t = 0
=
+∞ si t 6= 0 .
Exemple 2.7.5 Supposons que X suive une loi normale centrée réduite.
Alors pour tout t ∈ R, on a :
Z +∞
1 x2
MX (t) = etx √ e− 2 dx
−∞ 2π
Z +∞
1 t2 1 2
= √ e 2 e− 2 (x−t) .
−∞ 2π
Faisons le changement de variable : y = x − t. Il vient alors aisément :
Z +∞
t2 1 y2
MX (t) = e 2 √ e− 2 dy
−∞ 2π
t2
= e2 (car l’intégrale est celle d’une densité de loi normale N (0, 1)) .
Statistique mathématique
c Michel CARBON
2.7 Fonction génératrice des moments 93
Cet exemple est important car utile dans un chapitre ultérieur concernant les
convergences et la démonstration du théorème central limite.
Examinons quelques propriétés de la fonction génératrice des moments. Grâce à
la définition (2.6) de la f.g.m., on a aisément les deux propriétés suivantes :
Propriété 2.7.2 On a :
MX (0) = 1.
Définition 2.7.2 On dit que la f.g.m. est finie localement au voisinage de l’origine
s’il existe un voisinage de 0 sur lequel la f.g.m. est finie, c’est-à-dire :
Les f.g.m obtenues aux exemples 1,2 et 3 sont toutes les trois finies localement
au voisinage de 0. Par contre, celle obtenue à l’exemple 4 ne l’est pas.
La propriété suivante est de démonstration délicate et sera omise.
Statistique mathématique
c Michel CARBON
CHAPITRE 2. MOMENTS ET TRANSFORMATIONS DE
94 VARIABLES
Exemple 2.7.6 On suppose qu’on a une suite (Ti )i∈N∗ de variables aléatoires i.i.d.
de loi exponentielle de paramètre λ. On considère une autre variable aléatoire N ,
indépendante des Ti et de loi géométrique de paramètre p.
XN
On cherche la loi de SN = Ti ?
i=1
Pour cela, on va calculer la f.g.m. de Sn . On a :
h PN i
MSN (t) = E etSN = E et i=1 Ti .
+∞
X h PN i
= E et i=1 Ti |N = n P [N = n]
n=1
+∞
X h Pn i
t i=1 Ti
= E e |N = n P [N = n]
n=1
+∞
X h Pn i
= E et i=1 Ti P [N = n]
n=1
+∞
X
= MPNi=1 Ti (t)P [N = n]
n=1
+∞ n
!
X Y
= MTi (t) P [N = n] pour t < λ
n=1 i=1
+∞ n
X λ
= (1 − p)n−1 p pour t < λ
n=1
λ − t
+∞ n−1
λp X λ(1 − p)
= pour t < λ
λ − t n=1 λ−t
λp 1
= λ(1−p)
pour t < λ
λ−t1−
λ−t
λp
si t < λp
λp − t
=
∞ si t ≥ λp .
Statistique mathématique
c Michel CARBON
2.7 Fonction génératrice des moments 95
Exemple 2.7.7 Calculons le moment d’ordre 4 pour une loi normale centrée ré-
duite. L’exemple (2.7.5) nous donne la f.g.m. pour cette loi normale. Elle vaut :
2 /2
M (t) = et .
d2 2
2
MX (t) = et /2 (t2 + 1) ,
dt
d3 2
3
MX (t) = et /2 (t3 + 3t) ,
dt
d4 2
4
MX (t) = et /2 (t4 + 6t2 + 3) .
dt
Les quatre premiers moments sont donc : E[X] = 0, E [X 2 ] = 1, E [X 3 ] = 0 et
E [X 4 ] = 3.
Statistique mathématique
c Michel CARBON
CHAPITRE 2. MOMENTS ET TRANSFORMATIONS DE
96 VARIABLES
Théorème 2.7.2 Si X est une variable aléatoire possédant une f.g.m. MX k fois
dérivable à l’origine, alors X admet des moments jusqu’à l’ordre k.
Nous terminons ce paragraphe par une propriété qui sera utile dans la démons-
tration du théorème limite central.
Propriété 2.7.5 Soient F1 (x), F2 (x), F3 (x), · · · des fonctions de répartition sur R
et soient M1 (t), M2 (t), M3 (t), · · · leurs f.g.m. respectives. Soit F (x) une fonction de
répartition sur R et soit M (t) sa f.g.m..
On note CF l’ensemble des points où F (x) est continue. On l’appelle aussi l’en-
semble des points de continuité de F . On suppose que M (t) est finie localement dans
le voisinage de 0. Alors les deux assertions suivantes sont équivalentes :
Assertion A :
lim Fn (x) = F (x) pour tout x ∈ CF .
n→+∞
Assertion B :
Théorème 2.8.1 (i) Soit X une variable aléatoire réelle dont la loi est à une loi de
densité f, alors, pour toute application ϕ continue bornée, on a :
Z+∞
E (ϕ (X)) = ϕ (x) f (x) dx. (2.7)
−∞
Statistique mathématique
c Michel CARBON
2.8 Transformations et calcul de lois 97
Alors, on a :
Z+∞ Z+∞
ϕ (x) f (x) dx = 1]−∞,a] (x) f (x) dx = P (X ≤ a) = FX (a) .
−∞ −∞
Corollaire 2.8.1 Soit X une variable aléatoire de loi à densité f connue. Soit Y =
H (X). On cherche à déterminer la loi de Y. Pour toute application continue bornée
ϕ, on écrit que :
Z+∞
E (ϕ (Y )) = E (ϕ (H (X))) = ϕ (H (x)) f (x) dx.
−∞
Z+∞
E (ϕ (Y )) = ϕ(y)g(y) dy .
−∞
Statistique mathématique
c Michel CARBON
CHAPITRE 2. MOMENTS ET TRANSFORMATIONS DE
98 VARIABLES
√
2 dt 1
On applique alors le changement de variable : u = t t = u et = √ .
du 2 u
Il vient alors :
Z+∞ t2
1 −
h t2 √ e 2 dt
E [h (X 2 )] =
2π
−∞
Z+∞ t2
1 −
h t2 √ e 2 dt
= 2
2π
0
Z+∞ u
− 1 1
= 2 h (u) e 2 √ √ du .
2π 2 u
0
Statistique mathématique
c Michel CARBON
2.9 Transformation des vecteurs aléatoires à densité 99
u
21 −
Et l’on retrouve ainsi la densité de X : √ e 2 1R∗+ (u) .
2πu
Statistique mathématique
c Michel CARBON
CHAPITRE 2. MOMENTS ET TRANSFORMATIONS DE
100 VARIABLES
∞
1 2 2
exp − v u + 1
1− 2
=
π 1 + u2
0
1 1
= .
π 1 + u2
Ce qui montre que Z suit la loi de Cauchy.
Statistique mathématique
c Michel CARBON
2.9 Transformation des vecteurs aléatoires à densité 101
(i) Soit (U, V ) un couple de variables aléatoires réelles. Si, pour tout couple ϕ1
et ϕ2 d’applications continues bornées, on a :
Z +∞ Z +∞
E (ϕ1 (U ) ϕ2 (V )) = ϕ1 (u) ϕ2 (v) f (u, v) du dv,
−∞ −∞
Exemple 2.9.2 Soit (X,Y ) un couple de variables aléatoires dont la loi a pour
1 1
exp − x2 + y 2
densité f (x, y) = .
2π 2
Soit V = X 2 + Y 2 . On cherche la densité de V. En appliquant la méthode précé-
dente, il vient :
Z
1 2 2
1 2 2
E (ϕ (V )) = ϕ x + y exp − x + y dx dy .
2π R2 2
Faisons le changement de variables :
√
x = √t cos θ
y = t sin θ
Statistique mathématique
c Michel CARBON
CHAPITRE 2. MOMENTS ET TRANSFORMATIONS DE
102 VARIABLES
D’où :
Z +∞
t Z Z +∞ t
1 − 1 1 −
E (ϕ (V )) = ϕ (t) e 2 dt dθ = ϕ (t) e 2 dt .
0 2 [0,2π[ 2π 0 2
t
1 −
La densité de la loi de V vaut finalement : e 2 1R+ (t) .
2
Statistique mathématique
c Michel CARBON
2.9 Transformation des vecteurs aléatoires à densité 103
Alors :
1 1
D (x, y) 2 2 1
= =− .
D (u, v) 1 1 2
−
2 2
On a aussi :
1 1 2
x2 − xy + y 2 = (u + v)2 − u2 − v 2 + (u − v)2 = u + 3v 2 .
4 4
De plus :
(x, y) ∈ R2 ⇐⇒ (u, v) ∈ R2 ,
et la correspondance est biunivoque.
On a donc :
1 u2
Z
1 2
E [ϕ1 (U ) ϕ2 (V )] = ϕ1 (u) ϕ2 (v) √ exp − +v du dv ,
R2 2π 3 2 3
1 u2
1 2
f(U,V ) (u, v) = √ exp − +v .
2π 3 2 3
Statistique mathématique
c Michel CARBON
CHAPITRE 2. MOMENTS ET TRANSFORMATIONS DE
104 VARIABLES
Statistique mathématique
c Michel CARBON
Chapitre 3
Nous allons ici donner quelques inégalités importantes en théorie des probabilités.
Démonstration :
1
X 2 + Y 2 montre que E (XY ) existe. Cela dit, en inté-
L’inégalité |XY | ≤
2
grant l’inégalité : λ2 |X|2 + 2λ |XY | + |Y |2 ≥ 0, on obtient :
λ2 EX 2 + 2λE |XY | + EY 2 ≥ 0, ∀λ ∈ R,
Alors :
E [g (X)]
P (X ≥ α) ≤ ∀α > 0.
g (α)
Démonstration :
105
106 CHAPITRE 3. QUELQUES INÉGALITÉS CLASSIQUES
Démonstration :
Il suffit d’appliquer le théorème 3.2.1 en prenant l’identité de R+ dans R+ comme
fonction g.
VX
P (|X − EX| ≥ α) ≤ , ∀α > 0 .
α2
Démonstration :
Il suffit d’appliquer l’inégalité de Markov à la v.a.r. (X − EX)2 .
Remarque 3.4.1 :
L’inégalité de Bienaymé-Tchebychev a un grand intérêt théorique, mais ne fournit
pas (en général) une bonne majoration de P [|X − EX| ≥ α] .
Statistique mathématique
c Michel CARBON
3.5 Inégalité de Jensen 107
g 00 (X̃)
g(X) = g(µX ) + g 0 (µX )(X − µX ) + (X − µX )2 ,
2
γx + (1 − γ) y = (γx1 + (1 − γ) y1 , . . . , γxk + (1 − γ) yk )t .
γx + (1 − γ) y ∈ C, 0 ≤ γ ≤ 1.
Définition 3.5.3 Une fonction réelle ϕ définie sur un ouvert convexe C est convexe
si, pour tout x, y ∈ C et 0 ≤ γ ≤ 1,
Statistique mathématique
c Michel CARBON
108 CHAPITRE 3. QUELQUES INÉGALITÉS CLASSIQUES
Propriété 3.5.1 Soit ϕ une fonction définie sur un ouvert convexe C et deux fois
différentiable sur C. Une C.N.S. pour que ϕ soit convexe est que la matrice k × k de
terme général :
∂ 2ϕ
(x1 , . . . , xk ), 1 ≤ i, j ≤ k ,
∂xi ∂xj
soit positive. Si cette matrice est définie positive, alors ϕ est strictement convexe.
passant par le point (t, ϕ(t)) et tel que : L(x) ≤ ϕ(x) pour tout x ∈ C. En admettant
que E(X) ∈ C, on en déduit :
k
X
ci (Xi − E(Xi )) + ϕ(E(X)) ≤ ϕ(X) ,
i=1
Théorème 3.5.2 Sous les hypothèses du théorème précédent, si B est une sous-tribu
de A, on a :
ϕ(E(X | B)) ≤ E(ϕ(X) | B), P −p.s.
La tribu B est souvent une tribu engendrée par une autre variable aléatoire.
Démonstration : En procédant comme dans le théorème précédent,
k
X
ci (Xi − E(Xi | B)) + ϕ(E(X | B)) ≤ ϕ(X) .
i=1
Statistique mathématique
c Michel CARBON
3.6 Inégalité de Hölder 109
Statistique mathématique
c Michel CARBON
110 CHAPITRE 3. QUELQUES INÉGALITÉS CLASSIQUES
Statistique mathématique
c Michel CARBON
Chapitre 4
Convergences stochastiques
Dans ce chapitre, nous étudions les liens entre diverses notions de convergence
de suites de variables aléatoires définies sur un même espace probabilisé (Ω, A, P ).
Théorème 4.1.1 Soit (Xn )n≥0 une suite de variables aléatoires définies sur un es-
pace probabilisé (Ω, A, P ) , X une variable aléatoire définie sur (Ω, A, P ). On suppose
que (Xn ) et X sont P -presque sûrement finies.
Alors les cinq conditions suivantes sont équivalentes :
(1) (Xn ) → X P -presque sûrement (P − p.s.) ;
(2) P (Xn → X) = 1;
!
\[ \
(3) P {|Xk − X| < ε} = 1;
ε>0 n≥0 k≥n
!
[ \
(4) ∀ε > 0 , P {|Xk − X| < ε} = 1;
n≥0 k≥n
111
112 CHAPITRE 4. CONVERGENCES STOCHASTIQUES
!
\
(5) ∀ε > 0 , lim P {|Xk − X| < ε} = 1.
n→∞
k≥n
Démonstration :
Laissée à titre d’exercice. Remarquer cependant que :
[\ [ [ \ [ 1
{Xn 9 X} = {|Xk − X| ≥ ε} = |Xk − X| ≥ .
ε>0 n≥0 k≥n m≥1 n≥0 k≥n
m
Une condition suffisante (voir ci-dessous) de convergence presque sûre est très
utilisée.
Théorème 4.1.2 Soit (Zn )n≥0 une suite de variables aléatoires définies sur un es-
pace probabilisé (Ω, A, P ). Une condition suffisante pour que :
∞
X
Zn → 0 P − p.s. , est que : P (|Zn | ≥ ε) < +∞ , ∀ε > 0.
n=1
Démonstration : ∞
X
D’après le Lemme de Borel-Cantelli, si P (|Zn | ≥ ε) < +∞ , alors :
n=1
Remarque
1) On peut évidemment en déduire une condition suffisante de convergence de
(Xn ) vers X , quand (Xn ) est une suite de variables aléatoires définies sur (Ω, A, P ) ,
et X une variable aléatoire définie sur (Ω, A, P ), toutes presque sûrement finies :
∞
X
P (|Xn − X| ≥ ε) < +∞ , ∀ε > 0.
n=1
Statistique mathématique
c Michel CARBON
4.2 Convergence en probabilité 113
P
Notation : Xn −→ X .
On a aussi une notion de convergence en probabilité dans le cas des vecteurs
aléatoires.
Définition 4.2.2 Soient (Xn )n∈N et X des vecteurs aléatoires définis sur le même
espace probabilisé (Ω, A, P ) , et à valeurs dans (Rp , BRp ) .On dit que la suite de vec-
teurs (Xn )n∈N converge en probabilité vers X si pour toute composante i : i =
1, · · · , p, on a :
P
Xi,n −→ Xi .
n→+∞
Théorème 4.2.1 Soient (Xn )n∈N et X des vecteurs aléatoires définis sur le même
espace probabilisé (Ω, A, P ) , et à valeurs dans (Rp , BRp ) . Une condition nécessaire
et suffisante pour que la suite de vecteurs (Xn )n∈N converge en probabilité vers X
est que :
P
kXn − Xk −→ 0,
n→+∞
Démonstration :
Les normes étant équivalentes, il suffit de montrer la propriété pour une norme
particulière ; choisissons la norme du maximum.
Si
P
Xn −→ X,
n→+∞
alors :
Xp
∀ε > 0, P max |Xi,n − Xi | > ε ≤ P (|Xi,n − Xi | > ε) −→ 0.
1≤i≤p n→+∞
i=1
Réciproquement, si :
P
max |Xi,n − Xi | −→ 0,
1≤i≤p n→+∞
on a :
∀ i : 1 ≤ i ≤ p, P (|Xi,n − Xi | > ε) ≤ P max |Xi,n − Xi | > ε −→ 0.
1≤i≤p n→+∞
Théorème 4.2.2 (de Slutsky) Soient (Xn )n∈N et X des vecteurs aléatoires définis
sur le même espace probabilisé (Ω, A, P ) , et à valeurs dans (Rp , BRp ) .On suppose que
la suite de vecteurs (Xn )n∈N converge en probabilité vers X. Soit g une application
continue de Rp dans Rq . On a alors :
P
g (Xn ) −→ g (X) .
n→+∞
Statistique mathématique
c Michel CARBON
114 CHAPITRE 4. CONVERGENCES STOCHASTIQUES
L2 m.q.
Xn −→ X ⇐⇒ Xn −→ X ⇐⇒ E (Xn − X)2 −→ 0
n→+∞ n→+∞ n→+∞
m.q.
Théorème 4.3.1 Une CNS pour que Xn −→ a est que :
n→+∞
E (Xn )
−→ a
n→+∞
V (Xn ) −→ 0.
n→+∞
Démonstration :
Cela résulte immédiatement de :
Théorème 4.3.2 Soit (Xn )n∈N une suite de v.a.r. de carré intégrable. Une CNS
m.q.
pour que Xn −→ X est qu’il existe une constante γ telle que :
n→+∞
E (Xp Xq ) −→ γ quand p, q −→ +∞ .
Démonstration :
Pour la condition suffisante, il suffit d’écrire :
E (Xp − Xq )2 −→ 0.
p,q→+∞
De plus,
Et donc :
E Xp2 −→ E X 2 .
p→+∞
Par suite :
E (Xp Xq ) −→ E X 2 .
p,q→+∞
Statistique mathématique
c Michel CARBON
4.4 Rapport entre les différentes convergences 115
D’où :
∀ε > 0, P ({|Xn − X| ≥ ε}) −→ 0 ;
n→+∞
Démonstration :
On a :
kXn − XkL1 = E [|Xn − X|]
= E |Xn − X| · 1{|Xn −X|≥ε} + |Xn − X| · 1{|Xn −X|<ε}
≥ E |Xn − X| · 1{|Xn −X|≥ε}
≥ ε · E 1{|Xn −X|≥ε}
= ε · P [|Xn − X| ≥ ε] .
D’où :
kXn − XkL1 −→ 0 =⇒ ∀ε > 0, P ({|Xn − X| ≥ ε}) −→ 0 .
n→+∞ n→+∞
Statistique mathématique
c Michel CARBON
116 CHAPITRE 4. CONVERGENCES STOCHASTIQUES
Statistique mathématique
c Michel CARBON
4.5 Convergence des lois de probabilité 117
Définition 4.5.1 (Xn ) converge en loi vers X si, pour tout borélien A tel que
PX (∂A) = P {X ∈ ∂A} = 0,
L
On écrira que : Xn −→ X .
n→+∞
On dit aussi que la famille de lois PXn converge étroitement ou faiblement vers
PX .
Cette définition est toutefois peu maniable, et on utilisera plus souvent la défi-
nition équivalente suivante :
On en déduit que :
Statistique mathématique
c Michel CARBON
118 CHAPITRE 4. CONVERGENCES STOCHASTIQUES
Théorème 4.5.3 Soit (Xn ) une suite de variables aléatoires qui converge en loi vers
X et (Yn ) une suite de variables telle que (Xn − Yn ) converge vers 0 en probabilité ;
alors :
L
Yn −→ X .
Démonstration :
Soit x un point de continuité de la fonction de répartition de X ; pour tout ε > 0
, il existe 0 < η < ε tel que x − η et x + η soient aussi des points de continuité. Les
inégalités ci-dessous sont faciles à vérifier :
P (|Xn − Yn | ≤ η ; Xn ≤ y − η)
Statistique mathématique
c Michel CARBON
4.5 Convergence des lois de probabilité 119
Théorème 4.5.4 Soient (fn )n∈N∗ et f des densités de probabilité sur R. Soient Fn
et F leurs fonctions de répartition respectivement associées. Supposons que :
Alors, on a :
L
et donc : Xn −→ X .
n→+∞
Remarque 4.5.1 Le théorème précédent reste vrai si l’égalité dans (4.3) n’est vraie
que seulement pour presque tout x (en pratique pour tout x de R sauf éventuellement
sur un ensemble fini ou dénombrable).
Théorème 4.5.5 Soient (Xn )n∈N∗ et X des variables aléatoires à valeurs entières
dans N. Soient pn (k) et p(k) les masses ponctuelles associées à ces variables. Alors,
L
on a : Xn −→ X si et seulement si :
n→+∞
D’autres applications seront vues plus loin ; pour terminer le paragraphe, signa-
lons quelques pièges :
L L
1. Si Xn −→ X, cela n’entraîne pas que Xn − X −→ 0 .
n→+∞ n→+∞
Un contrexemple classique consiste à choisir pour X une loi symétrique, par
exemple N (0, 1) . On pose, pour tout n : Xn = (−1)n X ; conclure.
L
2. Si Xn −→ X et si A est un borélien tel que PX (∂A) > 0, il se peut très
n→+∞
bien que : PXn (A) → PX (A) . Par exemple, si pour tout n, Xn suit une loi
de Bernoulli de paramètre pn = 1/n ; à étudier.
3. Si (Fn ) est une suite de fonctions de répartition de probabilités (Pn ) , et si,
pour tout x, lim Fn (x) = F (x) , F n’est pas nécessairement la fonction de
répartition d’une probabilité.
Étudier par exemple le cas suivant : pour tout n, Pn suit la loi uniforme sur
[−n; +n] . Imaginer d’autres exemples.
4. Si X et Y sont deux variables aléatoires de même loi, XZ et Y Z n’ont pas
nécessairement la même loi. S’inspirer de 1 : supposer que la loi de X est
symétrique, que Z = X et Y = −X.
Statistique mathématique
c Michel CARBON
120 CHAPITRE 4. CONVERGENCES STOCHASTIQUES
Statistique mathématique
c Michel CARBON
Chapitre 5
L’idée de Platon, c’est que la constitution bonne engendre la cité bonne, comme
l’idée de Bourbaki que l’axiomatique bonne implique les mathématiques bonnes.
Marcel Paul Schützenberger
On parle de loi faible des grands nombres quand la convergence a lieu en proba-
bilité, et de loi forte des grands nombres quand la convergence est presque sûre.
Démonstration :
On a :
n
Sn 1X
= 1A .
n n i=1 i
121
CHAPITRE 5. LOI DES GRANDS NOMBRES ET THÉORÈME
122 CENTRAL LIMITE
Démonstration :
Appliquons l’inégalité de Bienaymé-Tchebychev à X n avec :
n
1X
E Xn = E(Xk ) = m et
n k=1
n
! n
1X 1 X σ2
V ar X n = V ar Xk = 2 V ar (Xk ) =
n k=1 n k=1 n
Statistique mathématique
c Michel CARBON
5.1 Loi des grands nombres 123
Soit (Xn )n∈N une suite de v.a.r. de carré intégrable deux à deux non corrélées.
Une CNS pour que :
n
1X L2
Xi −→ a ( a est une constante )
n i=1 n→+∞
est que :
X n
1
E (Xi ) −→ a (convergence en moyenne au sens de Cesaro)
n i=1
n→+∞
n
1 X
2 V (Xi ) −→ 0
n i=1 n→+∞
Démonstration :
Elle résulte de :
!2 !2
n n n
1X 1 X 1X
E Xi − a = 2 V (Xi ) + E (Xi ) − a .
n i=1 n i=1 n i=1
dès que :
−→ a
E (Xn ) n→+∞
V (X ) ≤ γ < +∞
n
Démonstration :
Elle résulte du fait que la convergence usuelle implique la convergence en moyenne
au sens de Cesaro et du fait que la deuxième condition implique que :
n
1 X γ
V (X i ) ≤ −→ 0.
n2 i=1 n n→+∞
Mentionnons enfin la loi forte des grands nombres dont la démonstration est
notoirement plus difficile et qui sera ici omise.
Statistique mathématique
c Michel CARBON
CHAPITRE 5. LOI DES GRANDS NOMBRES ET THÉORÈME
124 CENTRAL LIMITE
Remarquons que, pour tout x fixé, la loi forte des grands nombres assure que :
p.s.
Fn (x) −−−−→ FX (x)
n→+∞
puisque :
E 1[Xi ,+∞[ (x) = P 1[Xi ,+∞[ (x) = 1 = FX (x) .
Le théorème qui suit renforce cette dernière remarque
Démonstration :
Soit ε > 0. Fixons k > 1/ε et considérons les points κ0 , · · · , κk tels que :
FX (κ−
j ) = [Xj < κj ] = FX (κj ) − P [X = κj ] .
Statistique mathématique
c Michel CARBON
5.2 Application : le théorème de Glivenko-Cantelli 125
j (j − 1) 1
FX (κ−
j ) − FX (κj−1 ) ≤ − = < ε.
k k k
Rappelons que Fn (x) est une quantité aléatoire. Grâce à la loi des grands nombres,
on a la convergence ponctuelle, qui est donc telle que :
p.s. p.s.
Fn (κj ) −−−−→ FX (κj ) et Fn (κ−
j ) −−−−→ FX (κ−
j )
n→+∞ n→+∞
κj−1 ≤ x < κj .
Alors on a :
et donc :
p.s.
|Fn (x) − FX (x)| ≤ ∆n + ε −−−−→ ε .
n→+∞
Ce dernier résultat est vrai pour tout ε > 0. Cela signifie que, si on note Aε l’ensemble
des ω pour lequel on a convergence presque sûre, alors : P (Aε ) = 1, et donc :
\
A= Aε =⇒ P (A) = P lim Aε = lim P (Aε ) = 1
ε→0 ε→0
ε>0
et il s’ensuit que :
P lim sup |Fn (x) − FX (x)| = 0 = 1 ,
n→+∞ x∈R
Statistique mathématique
c Michel CARBON
CHAPITRE 5. LOI DES GRANDS NOMBRES ET THÉORÈME
126 CENTRAL LIMITE
Xn − m L
√ −→ N (0, 1)
σ/ n n→+∞
Théorème 5.3.2 Soient X1 , ..., Xn , ... des variables aléatoires indépendantes sui-
vant la loi de Bernoulli de paramètre 0 < p < 1.
Pour tout n, soit Sn = X1 + · · · + Xn . Alors, pour tout couple de nombres réels
a < b, on a :
( )! Z b
Sn − np 1
exp −x2 /2 dx
lim P a≤ p ≤b =√
n→∞ np (1 − p) 2π a
Cela signifie que √Sn −np converge en loi vers une loi normale centrée réduite.
np(1−p)
Autrement dit, pour n grand, Sn peut être approximée par une loi N (np, np(1 − p)).
Posons ; Yi = (Xi − m)/σ. Les variables Y1 , ..., Yn , ... sont indépendantes et iden-
tiquement distribuées, de moyenne nulle et de variance 1. On a alors :
n n
Xn − m 1 X Xi − m 1 X
√ =√ =√ Yi
σ/ n n i=1 σ n i=1
Statistique mathématique
c Michel CARBON
5.3 Théorème central limite 127
−m
t Xσ/
n√ t √1n n
P
i=1 Yi
M X n√−m (t) = E e n
=E e
σ/ n
" n
# n
Y √ Y h √ i
tYi / n tYi / n
= E e = E e
i=1 i=1
n
t
= MY √ (5.3)
n
On peut remarquer que la f.g.m. de Y est également finie dans un voisinage de
l’origine, car :
MY1 (s) = E esY1 = E es(X1 −m)/σ = e−sm/σ E esX1 /σ = e−sm/σ MX1 (s/σ)
La fonction MY1 (s) possède donc une dérivée seconde continue localement au voi-
sinage de l’origine. On peut alors appliquer un développement de Taylor dans ce
voisinage : pour s assez petit, il existe s∗ situé entre 0 et s tel que :
s2
MY (s) = MY (0) + MY0 (0)s + MY00 (s∗ ) .
2
On a bien sûr : MY (0) = 1. De plus, comme E [Y ] = 0, on a aussi : MY0 (0) = 0. Si
bien que l’équation précédente devient :
s2
MY (s) = 1 + MY00 (s∗ ) .
2
Ainsi, pour tout t réel, avec n suffisamment grand, on a :
t2 /2
t
MY √ = 1 + MY00 (vt,n ) ,
n n
√
pour un√certain vt,n situé entre 0 et t/ n. A t fixé, et en faisant tendre n vers l’infini,
on a t/ n −→ 0 et donc vt,n −→ 0. Posons : an,t = MY00 (vt,n ). Puisque MY00 (s) est
continue localement au voisinage de l’origine, on obtient :
Ainsi, on obtient :
t2 /2
t
MY √ = 1 + an,t , (5.4)
n n
avec lim an,t = 1. En combinant (5.3) et (5.4), on obtient :
n→∞
n
t2 /2
M X n√−m (t) = 1 + an,t .
σ/ n n
En remarquant que : u n
lim 1 + an,t = eu ,
n→∞ n
Statistique mathématique
c Michel CARBON
CHAPITRE 5. LOI DES GRANDS NOMBRES ET THÉORÈME
128 CENTRAL LIMITE
√ L
n X n − m −→ N 0, σ 2
n→+∞
Théorème 5.3.3 (Théorème central limite sur Rk ) Soit (Xn ) une suite de vec-
teurs aléatoires indépendants et de même loi, de moyenne m et de covariance Γ.
1 √
Posons X n = (X1 + ... + Xn ) et Sn = n X n − m . Alors :
n
L
Sn −→ N (0, Γ) .
n→+∞
Il faut bien noter ci-dessus que : X1 , X2 , ..., Xn sont des vecteurs aléatoires :
X1,1 X2,1 Xn,1
X1,2 X2,2 Xn,2
, , ··· , .
.. .. ..
. . .
X1,k X2,k Xn,k
Statistique mathématique
c Michel CARBON
5.3 Théorème central limite 129
Alors, on a :
Sn − E [Sn ] L
p −→ N (0, 1) .
var (Sn ) n→+∞
Statistique mathématique
c Michel CARBON
CHAPITRE 5. LOI DES GRANDS NOMBRES ET THÉORÈME
130 CENTRAL LIMITE
Statistique mathématique
c Michel CARBON
Chapitre 6
Quand vous avez éliminé l’impossible, ce qui reste, même improbable, doit être
la vérité.
A. Conan Doyle
P
Remarquons d’abord que la notation (Un , Vn ) −→ (c, d) signifie que pour tout
n→+∞
ε > 0, on a : q
2 2
lim P (Un − c) + (Vn − d) > ε = 0 .
n→+∞
Démonstration :
Pour tout ε > 0, on a :
(Un − c)2 + (Vn − d)2 > 2ε ⊂ (Un − c)2 > ε ∪ (Vn − d)2 > ε
131
132 CHAPITRE 6. CONVERGENCE FAIBLE ET CONTINUITÉ
P (Un − c)2 + (Vn − d)2 > 2ε ≤ P (Un − c)2 > ε∪ (Vn − d)2 > ε
P P P
Si donc Un −→ c et Vn −→ d , on a : (Un , Vn ) −→ (c, d) .
n→+∞ n→+∞ n→+∞
Réciproquement, on a :
D’où :
(Un − c)2 > ε ≤ P (Un − c)2 + (Vn − d)2 > ε .
P
P P
Ainsi, (Un , Vn ) −→ (c, d) implique que : Un −→ c, et, par un argument du même
n→+∞ n→+∞
P
type, que : Vn −→ d.
n→+∞
Cette propriété nous sera utile pour démontrer le théorème suivant.
Théorème 6.1.1
P P
(i) Si Un −→ c et si h : R −→ R est continue au point c, alors h (Un ) −→
n→+∞ n→+∞
h(c)
P
(ii) Si (Un , Vn ) −→ (c, d) et si la fonction h : R2 −→ R est continue au point
n→+∞
P
(c, d), alors h (Un , Vn ) −→ h(c, d).
n→+∞
Démonstration :
P
On suppose que (Un , Vn ) −→ (c, d) et que la fonction h : R2 −→ R est continue
n→+∞
au point (c, d). Soit ε un réel strictement positif. Comme h est continue en (c, d), il
existe δ > 0 tel que :
p
Pour tout (x, y) tel que (x − c)2 + (y − d)2 ≤ δ, on ait : |h(x, y) − h(c, d)| ≤ ε
Ainsi, on a :
q
2 2
(|h (Un , Vn ) − h(c, d)| > ε) ⊂ (Un − c) + (Vn − d) > δ .
On obtient donc :
q
2 2
lim P [|h (Un , Vn ) − h(c, d)| > ε] ≤ lim P (Un − c) + (Vn − d) > δ = 0 .
n→+∞ n→+∞
P
On en conclut donc que : h (Un , Vn ) −→ h(c, d).
n→+∞
P P
Corollaire 6.1.1 Supposons que Un −→ c et Vn −→ d. Alors :
n→+∞ n→+∞
P
— (i) Un + Vn −→ c + d ,
n→+∞
Statistique mathématique
c Michel CARBON
6.2 Convergence en loi et continuité 133
P
— (ii) Un − Vn −→ c − d ,
n→+∞
P
— (iii) Un Vn −→ cd ,
n→+∞
P
— (iv) Un /Vn −→ c/d , à condition que d 6= 0 .
n→+∞
Théorème 6.2.1
L L
— (i) Si Un −→ U et si h : R −→ R est continue, alors h (Un ) −→ h(U )
n→+∞ n→+∞
L 2
— (ii) Si (Un , Vn ) −→ (U, V ) et si la fonction h : R −→ R est continue,
n→+∞
L
alors h (Un , Vn ) −→ h(U, V ).
n→+∞
Statistique mathématique
c Michel CARBON
134 CHAPITRE 6. CONVERGENCE FAIBLE ET CONTINUITÉ
L
Corollaire 6.2.1 Supposons que : (Un , Vn ) −→ (U, V ). Alors, on a :
n→+∞
L
— (i) Un + Vn −→ U + V ,
n→+∞
L
— (ii) Un − Vn −→ U − V ,
n→+∞
L
— (iii) Un Vn −→ U V ,
n→+∞
L
— (iv) Un /Vn −→ U/V , à condition que P [V = 0] = 0 .
n→+∞
L
Théorème 6.2.2 Si (Un , Vn ) −→ (c, V ) et si la fonction h : R2 −→ R est conti-
n→+∞
L
nue, alors h (Un , Vn ) −→ h(c, V ).
n→+∞
qui s’écrit :
lim E [ϕ(Un )] = E [ϕ(c)]
n→+∞
L
et alors : Un −→ c ce qui équivaut, puisque la convergence a lieu vers une constante,
n→+∞
P
a : Un −→ c.
n→+∞
Statistique mathématique
c Michel CARBON
6.2 Convergence en loi et continuité 135
L
En raisonnant de même, on montre alors aussi que : Vn −→ V .
n→+∞
P L
Réciproquement, on suppose que Un −→ c et Vn −→ V . Soit ϕ : R2 −→ R
n→+∞ n→+∞
une application continue bornée par K. Elle est bien sûr continue et bornée sur
chaque variable. En particulier, pour tout ε > 0, ∃ η > 0, tel que |x − y| < η,
implique : |ϕ(x, Vn ) − ϕ(y, Vn )| < ε/2
On a ici :
P
Or, 2 · K · P [|Un − c| > ε] < ε/2 pour n assez grand car Un −→ c. Et donc le
n→+∞
premier terme du membre droit de (6.1) tend vers 0 lorsque n tend vers l’infini.
Ainsi :
lim E [ϕ(Un , Vn )] = E [ϕ(c, Vn )] .
n→+∞
L
La proposition (6.2.1) permet de conclure qu’alors : (Un , Vn ) −→ (c, V )
n→+∞
Grâce à cette dernière proposition, le théorème (6.2.2) peut s’écrire sous la forme
suivante :
P L
Théorème 6.2.3 Si Un −→ c et Vn −→ V et si la fonction h : R2 −→ R est
n→+∞ n→+∞
L
continue, alors : h (Un , Vn ) −→ h(c, V ).
n→+∞
P L
Corollaire 6.2.2 Supposons que Un −→ c et Vn −→ V : Alors, on a :
n→+∞ n→+∞
L
— (i) Un + Vn −→ c + V ,
n→+∞
L
— (ii) Un Vn −→ cV .
n→+∞
Statistique mathématique
c Michel CARBON
136 CHAPITRE 6. CONVERGENCE FAIBLE ET CONTINUITÉ
g X n = g(m) + g 0 (X ∗ ) X n − m .
On a alors :
√ √
n g(X n − g(m)) = g 0 (X ∗ ) n(X n − m)
(6.3)
Clairement, X ∗ converge en probabilité vers m. De plus, le théorème (6.1.1) nous
P
donne : g 0 (X ∗ ) −→ g 0 (m).
n→+∞
Par ailleurs, le résultat (6.2) précédent nous indique que :
√ L
n X n − m −→ σZ
n→+∞
Statistique mathématique
c Michel CARBON
6.3 La méthode du delta 137
Dans cet exemple, le résultat (6.5) est valide pour tout 0 < p < 1. Toutefois, dans
le cas où p = 1/2, la variance asymptotique ci-dessus (1 − 2p)2 p(1 − p) est nulle.
Par suite le résultat fourni en (6.5) devient :
√ L
n X n (1 − X n ) − 1/4 −→ N (0, 0) ,
n→+∞
Statistique mathématique
c Michel CARBON
138 CHAPITRE 6. CONVERGENCE FAIBLE ET CONTINUITÉ
Statistique mathématique
c Michel CARBON
Chapitre 7
Modèles Statistiques
Pour être intéressant, un fait mathématique doit avant tout être beau.
S. Mandelbrojt
7.1 Introduction
On peut définir la statistique comme l’ensemble des méthodes qui permet, à partir
de l’observation d’un certain phénomène aléatoire d’obtenir des informations sur la
probabilité associée à ce phénomène. Le caractère aléatoire attribué au phénomène
considéré n’est souvent qu’une manière de traduire l’ignorance de toutes les lois qui
le régissent. Aussi une étude préliminaire, ne tenant compte que des observations
effectuées, peut se révéler intéressante. C’est l’objet de l’analyse des données.
L’analyse des données explore et analyse les données sans hypothèse probabiliste
aucune. Son principal but est d’organiser les données pour permettre de clarifier
la structure sous jacente, donc de faire apparaître les paramètres dominants parmi
ceux dont dépendent les observations.
Il y a une autre ligne d’approche : "l’inférence statistique et la théorie de la
décision". On suppose cette fois que les observations sont des réalisations de variables
aléatoires, qui sont supposées suivre une certaine loi de probabilité P , probabilité
appartenant à une classe P de probabilités. Souvent, on indexera les probabilités par
un paramètre θ (pas nécessairement réel), prenant ses valeurs dans un ensemble Θ, tel
que : P = {Pθ ; θ ∈ Θ} . Le but de l’analyse est de trouver une valeur ”plausible” pour
θ (problème de l’estimation ponctuelle), ou au moins de déterminer un sous-ensemble
Θ0 de Θ dans lequel se trouve "raisonnablement" θ (problème de l’estimation par
intervalles de confiance, ou tests d’hypothèse).
Dans l’approche bayésienne, on suppose de plus que le paramètre θ est lui-même
une variable aléatoire (bien qu’inobservable) de loi connue. Cette loi a priori, que
l’on pourrait traduire par la connaissance préliminaire que l’on a du problème, est
139
140 CHAPITRE 7. MODÈLES STATISTIQUES
modifiée à la lumière des données pour déterminer une loi a posteriori (la loi condi-
tionnelle de θ sachant les données), loi qui résume à la fois ce que l’on peut dire de
θ à partir des hypothèses a priori, et ce qu’apportent les données.
Qu’allons-nous examiner à partir de maintenant ?
Nous ne nous intéresserons ici essentiellement qu’à l’inférence statistique et la
théorie de la décision. On est donc dans le cadre de la Statistique Mathématique,
c’est-à-dire de la statistique théorique basée sur la théorie des probabilités, et, en
partie, sur la théorie de la décision.
3. Si r est grand par rapport à p, on peut supposer que X suit la loi de Poisson
P (λ) où λ = rp. Cela vient du fait que :
L
B (r, p) −→ P (λ) ,
Statistique mathématique
c Michel CARBON
7.2 Exemples de problèmes de statistique 141
Le choix d’un critère de décision est alors basé sur le fait que l’on peut commettre
deux sortes d’erreurs : accepter un mauvais lot alors qu’il est correct ou rejeter un
bon lot alors qu’il est mauvais. On cherche donc à minimiser ces erreurs dans la
mesure du possible.
Il s’agit alors de déterminer m d’une façon aussi précise que possible : c’est un
problème d’estimation.
7.2.3 Filtrage
Un économiste observe l’évolution du prix d’un certain produit sur l’intervalle
de temps [t1 , t2 ] ; il cherche à prévoir le prix de ce produit au temps t3 (> t2 ). Ce
phénomène aléatoire peut se modéliser de la façon suivante : on se donne une famille
(ξt , t > t1 ) de variables aléatoires réelles où ξt représente le prix du produit à l’instant
t. Il s’agit donc, au vu des réalisations des v.a. ξt , t1 6 t 6 t2 , de prédire le mieux
possible la valeur de ξt3 . Si les lois des v.a.r. ξt ont des corrélations non entièrement
connues, ce problème de prédiction relève de la statistique.
Statistique mathématique
c Michel CARBON
142 CHAPITRE 7. MODÈLES STATISTIQUES
Le modèle associé s’écrit {0, 1}n , P ({0, 1}n ) , Pp⊗n ; p ∈ ]0, 1[ et une manière
Nn (ω)
naturelle d’estimer p est d’utiliser : , où Nn (ω) désigne le nombre de 1 figurant
n
dans ω.
Pour déterminer la précision de cette estimation, on peut évaluer :
⊗n Nn
α = sup Pp n − p > ε .
o<p<1
Nn
On dit alors, qu’avec une confiance (1 − α) , est un estimateur de p à ε près, ou
n
Nn Nn
encore que p appartient à l’intervalle de confiance − ε; + ε au niveau de
n n
confiance 1 − α.
Pour le calcul de α, on peut, lorsque n est grand, utiliser l’approximation normale
Nn − np
de Nn , convenablement centrée réduite, c’est-à-dire en écrivant que : p
np(1 − p)
suit une loi normale N (0; 1).
Pour cela, on écrit :
√ !
⊗n Nn |Nn − np| nε
= Pp⊗n
Pp n − p > ε >p
p
np (1 − p) p (1 − p)
!
|Nn − np| √
6 Pp⊗n p > 2 nε
np (1 − p)
Z +∞
2 2 /2
v √ √
e−x dx.
2π 2 nε
Statistique mathématique
c Michel CARBON
7.3 Modèles statistiques 143
Cas particulier :
7.3.2 Statistique
Définition 7.3.3 Soit (X , A, P) un modèle statistique. On appelle statistique S,
définie sur (X , A) à valeurs dans (X 0 , A0 ) , toute application mesurable de (X , A)
dans (X 0 , A0 ) , c’est-à-dire telle que :
∀ B ∈ A0 , S −1 (B) ∈ A .
Si les lois de P
e sont de densité f , alors les lois de P sont de densité h où :
Statistique mathématique
c Michel CARBON
144 CHAPITRE 7. MODÈLES STATISTIQUES
Exemple 7.4.1 : Soit x = (x1 , ..., xn ) un échantillon tiré d’une loi de Poisson de
paramètre λ ∈ R∗+ . La loi de l’observation est donc une loi P (λ) de paramètre λ sur
Rn , dont le support est Nn . La loi P (λ) a donc une densité hλ définie par :
n
P
n xi
xi
n
Y λ −nλ λi=1
∀x ∈ IN , hλ (x) = exp (−λ) =e n .
xi ! Q
i=1 (xi !)
i=1
Définition 7.4.1 Un modèle paramétrique est régulier si ou bien les lois Pθ sont
toutes absolument continues de densités pθ (x) = pθ (x1 , x2 , · · · , xn ), ou bien elles
sont toutes discrètes de fonction de masse pθ (x) = pθ (x1 , x2 , · · · , xn ).
Définition 7.4.2 Dans le cas d’un modèle paramétrique régulier, étant donné une
observation x, la fonction :
fθ (x) si les lois Pθ sont à densité
l (x; θ) = lθ (x) =
pθ (x) si les lois Pθ sont discrètes
Exemple 7.4.2 : Dans l’exemple précédent, x = (x1 , ..., xn ) étant une observation
donnée, sa fonction de vraisemblance est l’application : λ → hλ (x) .
Statistique mathématique
c Michel CARBON
7.5 Deux classes importantes de modèles. 145
Statistique mathématique
c Michel CARBON
146 CHAPITRE 7. MODÈLES STATISTIQUES
où les ηi et B sont des fonctions réelles définies sur Θ, où les Ti sont des fonctions
réelles de l’observation x, et où h est une fonction positive de l’observation x. T =
(T1 , ..., Ts )t s’appelle la statistique privilégiée du modèle.
Statistique mathématique
c Michel CARBON
7.5 Deux classes importantes de modèles. 147
Souvent, au lieu d’utiliser θ, il est plus commode d’utiliser les ηi comme para-
mètres, et d’écrire la densité sous la forme canonique :
" s #
X
fη (x) = exp ηi Ti (x) − A (η) · h (x) . (7.2)
i=1
Exemple : Supposons que l’on fasse une seule observation x d’une v.a.r. suivant
une loi gamma Γ (b, p) , avec b > 0 et p > 0. La densité est :
bp
fb,p (x) = .xp−1 e−bx 11IR+∗ (x) ,
Γ (p)
ce qui s’écrit :
fb,p (x) = exp [(p − 1) ln x − bx − (ln Γ (p) − p ln b)] 11IR+∗ (x) ,
donc ici
η1 (b, p) = p − 1, η2 (b, p) = −b,
T1 (x) = ln x, T2 (x) = x,
B (b, p) = ln Γ (p) − p ln b,
h (x) = 11IR+∗ (x) ,
et fb,p (x) s’écrit sous la forme (14.6). Si on fait un changement de paramétrage, on
obtient : " 2 #
X
fb,p (x) = fη1 , η2 (x) = exp ηi Ti (x) − A(η1 , η2 ) · h(x),
i=1
avec
A(η1 , η2 ) = ln (Γ (η1 + 1)) − (η1 + 1) ln (−η2 ) .
Remarques :
∗ La forme (14.10) n’est pas unique. On peut, par exemple, multiplier les ηi par
C (6= 0) et en même temps remplacer Ti par C −1 Ti .
∗ L’ensemble des points η = (η1 , ..., ηs )t pour lesquels fη (x) est une densité de
probabilité est appelé l’espace naturel des paramètres, noté H. De plus, cet
espace est convexe (voir ci-dessous).
∗ Si les statistiques T1 , ..., Ts satisfont une contrainte linéaire, le nombre s peut
alors être réduit.
∗ Une réduction est toujours possible quand les ηi satisfont une relation linéaire.
Dans ce cas, l’espace naturel des paramètres est un convexe d’un sous-espace
vectoriel de dimension inférieure à s.
On peut toujours, sans perte de généralité, supposer que la représentation
(14.10) précédente est minimale, au sens où, ni les Ti , ni les ηi ne satisfont
une contrainte linéaire. L’espace naturel des paramètres sera alors un convexe
d’un espace de dimension s contenant un s−hypercube ouvert. Si (14.10) est
minimale, et si l’espace des paramètres H contient un s−hypercube ouvert,
la famille est alors dite de plein rang.
Statistique mathématique
c Michel CARBON
148 CHAPITRE 7. MODÈLES STATISTIQUES
On peut vérifier que H est convexe. H est l’ensemble des paramètres η pour
lesquels fη est une densité, c’est-à-dire tel que exp [< η, T (x) >] est intégrable.
Soient η1 et η2 dans H. On veut montrer que : ∀α ∈ ]0; 1[ , alors : η = αη1 +
(1 − α) η2 ∈ H . Pour montrer cela, on va utiliser l’inégalité de Hölder pour les
intégrales :
Z Z p1 Z 1q
p
fg≤ f gq
1 1
avec + = 1.
p q
Montrons que fη est intégrable ; on a :
Z Z
−1
exp [A(η)] (h(x)) fη (x) dx = exp [hη, T (x)i] dx
X X
où : " #
s
X
fη (x) = exp ηi Ti (x) − A (η) · h (x) .
i=1
R
= exp [hαη1 + (1 − α) η2 , T (x)i] dx
X
(exp [hη1 , T (x)i])α (exp [hη2 , T (x)i])1−α dx
R
=
X
α 1−α
R R
≤ exp [hη1 , T (x)i] dx exp [hη2 , T (x)i] dx
X X
1 1
grâce à l’inégalité de Hölder avec p = et q = .
α 1−α
D’ où :
α 1−α
Z Z Z
fη (x) dx ≤ fη1 (x) dx fη2 (x) dx < +∞
X X X
Propriétés
Propriété 7.5.1 Si x1 , ..., xn sont des observations indépendantes réelles dont la loi
appartient à une famille exponentielle, alors la loi de x = (x1 , ..., xn )t est encore de
type exponentiel.
Preuve : La loi de chaque xi est définie par une densité de la forme (14.6), donc
la loi de (x1 , ..., xn ) a pour densité :
n
( " s # )
Y X
fθ (x1 ) × ... × fθ (xn ) = exp ηj (θ) Tj (xi ) − B (θ) h (xi )
i=1 j=1
Statistique mathématique
c Michel CARBON
7.5 Deux classes importantes de modèles. 149
" s n
#
X X
= exp ηj (θ) Tj (xi ) − nB (θ) × h (x1 ) × ... × h (xn )
j=1 i=1
" s
#
X
= exp ηj (θ) Tj∗ (x) − B ∗ (θ) h∗ (x) ,
j=1
où
n
X
Tj∗ (x) = Tj (xi ) , B ∗ (θ) = nB (θ) ,
i=1
n
Y
h∗ (x) = h (xi ) , x = (x1 , ..., xn )t .
i=1
Soit : Z " s #
∂ X ∂
exp ηi Ti (x) h(x) dx = A (η) · exp [A (η)] ,
X ∂ηi i=1
∂ηi
ou " #
Z s
X ∂
Ti (x) exp ηi Ti (x) − A (η) h(x) dx = A (η) .
X i=1
∂ηi
Et ainsi :
∂
A (η) = Eη (Ti ) .
∂ηi
Donc :
Eη (T ) = grad [A (η)] .
Redifférencions par rapport à ηj ; on a successivement :
" s #
∂2
Z
∂ X
Ti (x) exp ηi Ti (x) − A (η) h(x) dx = A (η) ,
∂ηj X i=1
∂ηj ∂ηi
Statistique mathématique
c Michel CARBON
150 CHAPITRE 7. MODÈLES STATISTIQUES
ou " s #
∂2
Z
∂ X
Ti (x) exp ηi Ti (x) − A (η) h(x) dx = A (η) .
X ∂ηj i=1
∂η j ∂η i
Soit :
Z " s #
∂ X
Tj (x) − A (η) Ti (x) exp ηi Ti (x) − A (η) h(x) dx
X ∂ηj i=1
∂2
= A (η) ,
∂ηj ∂ηi
ou
Z " s
#
X
Tj (x) Ti (x) exp ηi Ti (x) − A (η) h(x) dx
X i=1
Z " s
#
∂ X
− A (η) Ti (x) exp ηi Ti (x) − A (η) dx
∂ηj X i=1
∂2
= A (η) .
∂ηj ∂ηi
D’où :
∂2
E (Tj Ti ) − E (Tj ) E (Ti ) = A (η) .
∂ηj ∂ηi
Soit :
∂2
covη (Tj , Ti ) = A (η) .
∂ηj ∂ηi
∂
A (η) = Eη (Ti ) ;
∂ηi
∂2
varη (Ti ) = A(η) ;
∂ηi2
∂2
covη (Tj , Ti ) = A (η) .
∂ηj ∂ηi
2
Exemple : Soit x une observation ”extraite” d’une
loi normale N (m, σ ). La
m
densité de l’observation x dépend du paramètre = θ, où le paramètre
σ2
Statistique mathématique
c Michel CARBON
7.5 Deux classes importantes de modèles. 151
Ici : m
2 x
η (m, σ) = σ 1 , T (x) = .
− 2 x2
2σ
La statistique privilégiée de ce modèle exponentiel est :
m η1
On peut considérer que le paramètre naturel n’est plus θ = , mais η = ,
σ2 η2
m 1
avec η1 = 2 et η2 = − 2 . La densité s’écrit alors :
σ 2σ
1
fη (x) = √ exp η1 x + η2 x2 − A (η) ,
2π
où r
m2 η2 1
A (η) = 2 + ln σ = − 1 + ln − .
2σ 4η2 2η2
On a de plus :
∂ η1 1 m
−2σ 2 = m,
E (X) = E (T1 ) = A (η) = − =− 2
∂η1 2η2 2 σ
2
∂ 1
V (X) = V (T1 ) = 2 (A (η)) = − = σ2 ,
∂η1 2η2
η12
2 ∂ 1 −2
= m2 + σ 2 .
E X = E (T2 ) = A (η) = 2 −
∂η2 4η2 2 −2η2
Statistique mathématique
c Michel CARBON
152 CHAPITRE 7. MODÈLES STATISTIQUES
* Une autre question qu’on pourrait se poser est la suivante : est-ce que le
nombre d’abonnés durant l’année t est supérieur à celui de l’année précédente t − 1 ?
C’est un exemple de problème de test.
(iv) Examen, pour chaque décision et chaque événement, des conséquences pos-
sibles.
(v) Classement des décisions par ordre de préférence selon un critère à déterminer.
(vi) Choix de la décision finale, qui est la ”meilleure” décision au sens du critère
retenu.
Statistique mathématique
c Michel CARBON
7.6 Notions sur la théorie de la décision 153
Exemple 7.6.1 (estimation ponctuelle). Un paramètre peut être défini par l’inter-
médiaire d’une application g de P sur G, qui, à une loi donnée P de P, associe une
valeur du paramètre. La vraie valeur g0 correspond à la vraie loi P0 de P. Il s’agit de
proposer une valeur approchée de la vraie valeur inconnue g0 . Les réponses possibles
sont les éléments de D = G. L’espace des décisions est ici confondu avec l’espace
des paramètres.
Exemple 7.6.3 (test d’une hypothèse concernant P0 ). Ayant fait une hypothèse
sur P0 , on considère qu’il y a deux réponses possibles :
L’ensemble des décisions est alors : D = {d0 , d1 }. Parfois, on étend cet espace des
décisions à une troisième réponse possible :
Exemple 7.6.4 (choix de modèles). On est parfois amené à choisir entre plusieurs
modèles concurrentiels (X , A, Pk ) pour k = 1, . . . , K, avec Pl ∩ Pm = ∅ pour tout l
et m distincts de {1, . . . , K} . Plusieurs réponses sont alors possibles :
dk : ”je pense que le modèle (X , A, Pk ) est le plus adapté pour décrire les obser-
vations”.
Définition 7.6.1 Une règle de décision pure est une application mesurable δ de
(X , A) à valeurs dans (D, D) . On notera ∆ l’ensemble des règles de décisions.
Statistique mathématique
c Michel CARBON
154 CHAPITRE 7. MODÈLES STATISTIQUES
Une règle de décision δ fournit une manière de décider pour chaque observation
x de X . Suivant les problèmes statistiques étudiés, on a l’habitude de donner des
noms particuliers aux règles de décision associées. Ceci est résumé dans le tableau
ci-dessous :
Problème δ δ(x)
Estimation ponctuelle Estimateur Estimation
Estimation ensembliste Région de confiance Une région bien précise
Test Test Résultat du test
Choix de modèles Critère Un modèle bien précis
Prévision Prédicteur Prévision (ou prédiction)
Exemple 7.6.5 (problème de la chaîne cryptée). Supposons que l’on ait tiré de
façon équiprobable avec remise, à la date t, un échantillon de taille n, et observé les
réponses de chaque ménage interrogé :
1 si le ménage "i" a la chaîne cryptée
Xi =
0 sinon.
D = {VRAI, FAUX} ,
VRAI si xn > 0, 1
δ : (x1 , . . . , xn ) 7→
FAUX si xn ≤ 0, 1.
Statistique mathématique
c Michel CARBON
7.6 Notions sur la théorie de la décision 155
m
Définition 7.6.2 On appelle règle mixte une mesure de probabilité de transition
définie sur X × D, c’est-à-dire une application m : X × D −→ [0, 1] , B[0,1] telle
que :
(i) ∀D1 ∈ D , m(·, D1 ) : (X , A) −→ [0, 1] , B[0,1] est mesurable
(ii) ∀x ∈ X, m(x, ·) est une mesure de probabilités sur (D, D).
Notation : mx (D1 ) = m (x, D1 ) .
On notera ∆M l’ensemble des règles mixtes. Naturellement, une règle pure δ est
une règle mixte m particulière :
mx (D1 ) = 11D1 (δ (x)) ∀x ∈ X , ∀D1 ∈ D.
Une règle mixte s’interprète comme la probabilité de choisir une décision d dans
D lorsque l’observation est x.
Exemple : Après le cours de statistique, pour souffler un peu, on décide soit
d’aller au cinéma, soit d’aller au café prendre une consommation.
On peut, bien sûr, de jouer cela à pile ou face :
pile 7−→ cinéma
face 7−→ café.
Donc, ici, le problème décisionnel est tel que :
X = {pile, face} D = { aller
| au{zcinéma}, aller
| {z café} } .
au
d(1) d(2)
Statistique mathématique
c Michel CARBON
156 CHAPITRE 7. MODÈLES STATISTIQUES
1
4 aller au cinéma (d1 )
face 7−→
3
aller au café (d2 ) .
4
On définit ainsi une règle mixte m (x, d) définie par :
1
m (pile, d1 ) =
3
2
m (pile, d2 ) =
3
1
m (face, d1 ) =
4
3
m (face, d2 ) = .
4
δ1 ≤ δ2 et δ2 δ1 et on notera : δ1 < δ2 .
Fonction de perte
Plaçons-nous d’abord dans le cas d’un modèle paramétrique. Une manière com-
mode pour définir une relation de préférence sur l’ensemble des règles de décisions
est la suivante :
Définition 7.6.3 Θ étant muni d’une tribu T , on se donne une application mesu-
rable
L : (Θ × D, T ⊗ D) −→ R+ , BR+ ,
Elle mesure la perte résultant de la décision d lorsque la vraie loi est Pθ . Bien
sûr, il existe pour un problème donné diverses fonctions de pertes possibles.
L (θ, d) = [d − g(θ)]2 .
Statistique mathématique
c Michel CARBON
7.6 Notions sur la théorie de la décision 157
Exemple 7.6.8 (test d’une hypothèse concernant θ). Supposons qu’une hypothèse
sur θ soit vérifiée si θ ∈ Θ0 , et qu’elle est fausse sinon. Notons d0 ”l’hypothèse est
vraie” et d1 ”l’hypothèse est fausse”. Une fonction de perte naturelle possible est :
0 si θ ∈ Θ0
L(θ, d0 ) =
a0 (θ) > 0 si θ∈/ Θ0
a1 (θ) > 0 si θ ∈ Θ0
L(θ, d1 ) =
0 si θ∈/ Θ0 .
On dira que δ1 est strictement préférable à δ2 si (7.3 ) est vérifiée, et s’il existe
θ0 ∈ Θ tel que :
R(θ0 , δ1 ) < R(θ0 , δ2 ) .
Malheureusement, le préordre ainsi défini est partiel, car deux décisions telles
que : ∃θ1 et θ2 dans Θ tels que
et
R (θ2 , δ1 ) < R (θ2 , δ2 )
ne sont pas comparables.
Statistique mathématique
c Michel CARBON
158 CHAPITRE 7. MODÈLES STATISTIQUES
On intègre donc d’abord par rapport à la loi conditionnelle à X = x, puis par rapport
à la loi marginale de X.
Définition 7.6.6 La règle mixte m1 est préférable à la règle mixte m2 :
m1 ≤ m2 si R(θ, m1 ) ≤ R(θ, m2 ), ∀θ ∈ Θ .
La règle mixte m1 est strictement préférable à la règle mixte m2 si, de plus, il
existe θ0 ∈ Θ :
m1 < m2 si R(θ0 , m1 ) < R(θ0 , m2 ) .
Dans tous les cas de figure, le préordre défini est partiel. Certaines règles de
décision ne sont pas comparables.
Statistique mathématique
c Michel CARBON
7.6 Notions sur la théorie de la décision 159
Définition 7.6.7 Une règle δ ∈ ∆ est dite admissible s’il n’existe pas de règle qui
lui soit strictement préférable :
Il est évident qu’il n’y a aucune raison pour que l’ensemble A des règles admissibles
soit réduit à un seul élément. Il va donc falloir, soit ajouter d’autres critères, soit
transformer le préordre partiel en préordre total.
Classes complètes
Définition 7.6.8 Une classe C de règles de décisions pures sera dite complète (res-
pectivement essentiellement complète) si pour tout δ ∈ ∆ − C, il existe δ ∗ ∈ C qui
est strictement préférable (respectivement préférable) à δ.
La solution d’un problème de décision doit donc être cherchée dans une classe
complète, ou, au moins, essentiellement complète.
Théorème 7.6.1 Soit A l’ensemble des règles admissibles, et soit C une classe com-
plète. On a alors : A ⊂ C.
Remarque 7.6.3 Ainsi toutes les règles admissibles dans ∆ sont dans une classe
complète C, d’où l’intérêt de chercher une classe complète. Bien sûr, toute classe
complète peut contenir des règles non-admissibles.
Définition 7.6.9 On appelle classe complète minimale une classe complète telle que
toute sous-classe n’est pas complète.
Statistique mathématique
c Michel CARBON
160 CHAPITRE 7. MODÈLES STATISTIQUES
Démonstration :
* C étant complète minimale, elle est complète, donc, grâce au théorème précé-
dent : A ⊂ C.
* Il reste à montrer que C ⊂ A. Montrons-le par l’absurde, en supposant que
C n’est pas inclus dans A. Alors il existerait une règle de décision δ ∈ C et δ ∈ / A.
0 0 0 0
Comme δ ∈ / A, alors il existe δ : δ < δ. De deux choses l’une, ou δ ∈ C ou δ ∈ / C.
- Si δ ∈ C, alors la classe C = C − {δ} est complète, puisqu’il existe δ 0 ∈ C
0 0
ou bien :
R(δm ) = inf R(δ) = inf supR(θ, δ).
δ∈∆ δ∈∆ θ∈Θ
Statistique mathématique
c Michel CARBON
7.6 Notions sur la théorie de la décision 161
L(θ, d1 ) = θ
L(θ, d2 ) = 1 − θ.
Traçons les graphes de ces risques. Pour δ1 et δ4 , ce sont des droites ; pour δ2 et δ3 ,
ce sont des paraboles.
A = {δ1 , δ3 , δ4 } .
R(θ, δ3 ) ≤ R(θ, δ2 ), ∀θ ∈ Θ ,
(
1
et ∀θ 6= , R(θ, δ3 ) < R(θ, δ2 ); donc δ3 < δ2 .
2
Statistique mathématique
c Michel CARBON
162 CHAPITRE 7. MODÈLES STATISTIQUES
R(δ1 ) = 1
R(δ2 ) = 1
1
R(δ3 ) =
2
R(δ4 ) = 1.
Méthodes bayésiennes
Le raisonnement bayésien est ici caractérisé par la prise en compte d’idées “ a
priori ”, subjectives ou non, sur l’espace des paramètres Θ.
Ces idées a priori sont supposées être contenues dans la donnée d’une loi de
probabilité définie sur (Θ, T ) . Donc ce principe consiste à admettre l’existence d’une
probabilité τ (appelée “ probabilité a priori ”) sur (Θ, T ), résumant l’information sur
θ autre que celle fournie par l’expérience aléatoire.
Le risque doit alors être intégré par rapport à τ .
Statistique mathématique
c Michel CARBON
7.6 Notions sur la théorie de la décision 163
Cette expression a toujours un sens si on suppose, ce qu’on fera dans la suite, que
Pθ est une probabilité de transition sur A × Θ.
Définition 7.6.12 Une règle de décision pure δ0 est dite règle de Bayès associée à
la distribution a priori τ si :
rτ (δ0 ) ≤ rτ (δ), ∀δ ∈ ∆ ,
c’est-à-dire :
rτ (δ0 ) = inf rτ (δ) .
δ∈∆
Supposons que Pθ admette une densité par rapport à une mesure λ, σ-finie sur
(X , A), notée f (x, θ) et supposons f (·, ·) A ⊗ T -mesurable. Alors :
Z Z
rτ (δ) = L(θ, δ(x)) f (x, θ) dλ(x) dτ (θ)
Θ X
Z Z Z
= L(θ, δ(x)) t(x, θ) dτ (θ) f (x, θ) dτ (θ) dλ(x)
X Θ Θ
(en utilisant Fubini pour les fonctions positives) où t(·, θ) est définie Pθ presque
partout par : Z −1
t(x, θ) = f (x, θ) dτ (θ) f (x, θ).
Θ
Par exemple, supposons que la loi de X soit Pθ , la loi de θ soit τ , et que :
Pθ soit à densité f (x| θ) et τ soit à densité g (θ) .
Alors :
f (x| θ) g (θ)
t (x, θ) = = g (θ| x) ,
f (x)
qui est la densité de la loi a posteriori.
Au numérateur de t (x, θ) il s’agit bien de la densité du couple, car :
f (x, θ)
f (x| θ) = =⇒ f (x, θ) = f (x| θ) g (θ) .
g (θ)
Statistique mathématique
c Michel CARBON
164 CHAPITRE 7. MODÈLES STATISTIQUES
En effet :
Z
(δ(x) − θ)2 t(x, θ) dτ (θ)
Θ
Z Z
2
= δ (x) − 2 δ(x) θ t(x, θ) dτ (θ) + θ2 t(x, θ) dτ (θ),
Θ Θ
Exemple 7.6.13 (suite de l’exemple précédent) : Supposons, de plus, que θ suit "a
priori" une loi uniforme sur [0; 1] . Alors :
Z
1
E(R(θ, δ1 )) = θ dλ(θ) = ,
[0,1] 2
Z
2
E(R(θ, δ2 )) = (2θ2 − 2θ + 1) dλ(θ) = ,
[0,1] 3
Z
1
E(R(θ, δ3 )) = 2θ(1 − θ) dλ(θ) = ,
[0,1] 3
Z
1
E(R(θ, δ4 )) = (1 − θ) dλ(θ) = .
[0,1] 2
Statistique mathématique
c Michel CARBON
7.6 Notions sur la théorie de la décision 165
La règle pure qui minimise le risque de Bayès pour la loi a priori τ 0 est δ1 . δ1 est
la règle de Bayes associée à τ 0 .
Il est, bien sûr, intéressant de voir si ces règles de Bayès sont optimales. C’est le
cas, sous de bonnes hypothèses, comme le montrent les résultats qui suivent :
Théorème 7.6.3 Soit Θ = {θ1 , ..., θk } . Soit δ0 une règle bayésienne associée à la loi
a priori τ (loi caractérisée par le k-uple (p1 , ..., pk ) , où θj est choisi avec la probabilité
pj ; on a : pj ≥ 0 pour j = 1, ..., k et kj=1 pj = 1). Si pj > 0 pour tout j = 1, ..., k,
P
alors δ0 est admissible.
Démonstration :
0
Supposons que δ0 ne soit pas admissible. Alors, il existerait δ ∈ ∆ meilleure que
δ0 telle que :
0
R(θj , δ ) ≤ R(θj , δ0 ) pour tout j = 1, ..., k ,
et il existerait j0 ∈ {1, ..., k} tel que :
0
R(θj0 , δ ) < R(θj0 , δ0 ) .
Donc l’inégalité stricte montrerait que δ0 n’est pas une règle bayésienne associée
à τ , ce qui est contraire à l’hypothèse. Ainsi, δ0 est admissible.
Statistique mathématique
c Michel CARBON
166 CHAPITRE 7. MODÈLES STATISTIQUES
Théorème 7.6.4
(i) Si δ0 est p.s. pour tout θ la seule règle de Bayès associée à τ , alors δ0 est
admissible pour R.
(ii) Si Θ = Rp , si R(θ, δ) est continu en θ pour tout δ ∈ ∆, si τ charge tous les
ouverts de Rp et rτ (δ0 ) < +∞ (où δ0 est une règle de Bayès associée à τ ), alors δ0
est admissible pour R.
Démonstration :
R(θ, δ) ≤ R(θ, δ0 ) , ∀θ ∈ Θ ,
Z Z
R(θ, δ) dτ (θ) ≤ R(θ, δ0 ) dτ (θ) ,
Θ Θ
rτ (δ) ≤ rτ (δ0 ) .
rτ (δ) = rτ (δ0 ).
δ = δ0 , Pθ -p.s., ∀θ ∈ Θ .
D’où :
∀θ ∈ Θ, L(θ, δ) = L(θ, δ0 ), Pθ -p.s. ,
Z Z
∀θ ∈ Θ, L(θ, δ(x)) dPθ (x) = L(θ, δ0 (x)) dPθ (x) ,
X X
∀θ ∈ Θ, R(θ, δ) = R(θ, δ0 ) ,
donc δ n’est pas strictement préférable à δ0 . Donc δ0 est admissible.
(ii) Si δ0 n’était pas admissible, il existerait δ1 ∈ ∆ telle que :
∀θ ∈ Θ, R(θ, δ1 ) ≤ R(θ, δ0 ) ,
et
∃θ0 ∈ Θ0 , R(θ0 , δ1 ) < R(θ0 , δ0 ) .
Grâce à la continuité de R (par rapport à θ), on en déduit qu’il existerait un
voisinage ouvert U de θ0 et ε > 0 tels que :
∀θ ∈ U, R(θ, δ1 ) ≤ R(θ, δ0 ) − ε.
Statistique mathématique
c Michel CARBON
7.7 Invariance 167
Alors :
Z Z
rτ (δ1 ) = R(θ, δ1 ) dτ (θ) + R(θ, δ1 ) dτ (θ)
U Uc
Z Z
≤ R(θ, δ0 ) dτ (θ) − ετ (U ) + R(θ, δ0 ) dτ (θ)
U Uc
≤ rτ (δ0 ) − ετ (U )
< rτ (δ0 ),
Définition 7.6.13 Soit τ une mesure sur (Θ, T ) . Une règle de décision δ0 est dite
bayésienne généralisée par rapport à τ si :
Z Z
R (θ, δ0 ) dτ (θ) = inf R (θ, δ) dτ (θ) .
δ∈∆
7.7 Invariance
7.7.1 Identification
Définition 7.7.1 Soit X , A, (Pθ )θ∈Θ un modèle statistique paramétrique.
(i) Une valeur θ0 du paramètre est dite identifiable s’il n’existe aucune autre
valeur θ du paramètre telle que : Pθ = Pθ0
(ii) On dira qu’une valeur θ0 du paramètre est localement identifiable s’il existe
un voisinage V(θ0 ) de θ0 tel que :
∀ θ 6= θ0 , θ ∈ V(θ0 ) , Pθ 6= Pθ0 .
Statistique mathématique
c Michel CARBON
168 CHAPITRE 7. MODÈLES STATISTIQUES
Cela signifie que lorsque θ0 est identifiable, et quand la vraie loi est Pθ0 , on peut en
déduire que la vraie valeur du paramètre est bien θ0 .
Grâce à cette hypothèse d’injectivité, cela signifie que, si X admet Pθ pour loi,
alors il existe un unique θ0 ∈ Θ, noté g (θ) tel que : g (X) ait pour loi Pθ0 = Pg(θ) .
Ceci conduit à deux importantes formules. La condition pour que la famille de lois
Pθ soit invariante par G est que :
∀A ∈ A , Pθ (g (X) ∈ A) = Pg(θ) (X ∈ A) .
En terme d’espérance, cela est équivalent à dire, que pour toute fonction intégrable
à valeurs réelles ϕ, on a :
7.7.3 Exemple
Considérons le modèle
d’échantillonnage associé à la loi normale N (m; σ 2 ) :
Rn , BRn , Pθ⊗n θ∈Θ où Pθ = N (m; σ 2 ) et Θ = R×R∗+ .
Statistique mathématique
c Michel CARBON
7.7 Invariance 169
Eθ [ϕ (gα,β (X))]
1 R 1 Pn 2
= ϕ (αx1 + β, ..., αxn + β) exp − 2 i=1 (xi − m) dx
(2πσ 2 )n/2 2σ
1 R 1 Pn 2
= ϕ (y1 , ..., yn ) exp − 2 2 i=1 (yi − β − αm) dy .
(2πσ 2 )n/2 2α σ
2 2
Donc gα,β (X)2 suit une loi N2(β2 + αm; α σ ). Le modèle est invariant et G =
g α,β : g α,β (m, σ ) = (β + αm; α σ ) .
L (θ, d) = L (g(θ), d0 ) ; ∀θ ∈ Θ.
Notons ge l’application de D dans D qui, à d associe d0 . Il est encore ici aisé de vérifier
que Ge = {eg : g ∈ G} est un groupe de tranformations sur D.
Par exemple, grâce au 7.7.3 précédent, alors si on choisit D = R et
(m − d)
L(θ, d) = L ((m, σ 2 ) , d) = , on doit avoir :
σ2
(β + αm − d0 )2
0
L(θ, d) = L g α,β (θ), d = .
α2 σ 2
D’où : d0 = αd + β et g α,β (d) = αd + β .
Définition 7.7.5 Etant donné un problème de décision invariant par G, une règle
de décision δ est alors dite invariante par G, si pour tout x de X et tout g de G, on
a:
δ (g (x)) =e
g (δ (x)) .
Statistique mathématique
c Michel CARBON
170 CHAPITRE 7. MODÈLES STATISTIQUES
= n δ(x1 , ..., xn ) + β
Statistique mathématique
c Michel CARBON
Chapitre 8
171
172 CHAPITRE 8. EXHAUSTIVITÉ – COMPLÉTION – LIBERTÉ
Figure 8.2 – Erich Leo Lehmann Figure 8.3 – Henry Scheffé (1907-
(1917-2009) 1977)
8.1 Définition
8.1.1 Exemple introductif
Considérons un industriel recevant un lot important de pièces. Ce lot est sup-
posé avoir une proportion θ de pièces défectueuses. Un contrôle systématique étant
irréalisable, l’industriel n’effectue le contrôle que sur un n-échantillon de pièces du
lot. On suppose que les pièces sont tirées de manière équiprobable et avec remise.
On pose :
1 si la i−ième pièce est défectueuse
Yi =
0 sinon ,
et ceci pour tout i = 1, ..., n.
Le modèle statistique paramétrique associé à cette expérience est le modèle
d’échantillonnage :
Il est tout à fait naturel de penser que l’information sur θ contenue dans le n-
uple Y = (Y1 , ..., Yn ) est aussi contenue dans le nombre de pièces défectueuses de
l’échantillon :
n
X
S(Y ) = Yi .
i=1
Statistique mathématique
c Michel CARBON
8.1 Définition 173
n−1
P n−1
P n−1
P n−1
P
yi (n−1)− yi s− yi 1−s+ yi
θ i=1 (1 − θ) i=1 θ i=1 (1 − θ) i=1
=
Cns θs (1 − θ)n−s
θs (1 − θ)n−s 1 n
P
= s s n−s
= s si yi = s.
Cn θ (1 − θ) Cn i=1
Statistique mathématique
c Michel CARBON
174 CHAPITRE 8. EXHAUSTIVITÉ – COMPLÉTION – LIBERTÉ
8.1.3 Exemples
Exemple 8.1.1 Même si elle est de peu d’intérêt, la statistique identité S(X) =
X = (X1 , ..., Xn ) est exhaustive, car la loi conditionnelle de X sachant que S(X) =
X = s est en effet égale à la masse ponctuelle 1 en s, et ne dépend pas de θ.
Exemple 8.1.2 Soit X = (X1 , ..., Xn ) un échantillon indépendant extrait d’une loi
continue sur R, de densité f (x; θ). Considérons la statistique S d’ordre, obtenue en
rangeant les observations par ordre croissant :
où
X (1) = min Xi
i=1,...,n
X(2) = min X∗
X ∗ ∈{X1 ,...,Xn }\X (1)
..
.
X (n) = max Xi .
i=1,...,n
Les lois étant à densité, la probabilité pour que deux v.a.r. soient égales, est nulle.
Donc la statistique S est p.s. définie.
Sachant que X (1) = s1 , ..., X (n) = sn , alors les seules valeurs possibles pour
X = (X1 , ..., Xn ) sont les n! permutations de (s1 , ..., sn ), et par symétrie, chacune a
1
même probabilité : . Donc la loi conditionnelle de X = (X1 , ..., Xn ) sachant que
n!
S = s est la loi discrète uniforme sur l’ensemble des valeurs (s1 , ..., sn ) déduites de s
par les n! permutations possibles. Cette loi étant indépendante de θ, la statistique S
est exhaustive, et l’ordre dans lequel sont rangées les observations n’est pas pertinent
pour la connaissance de θ.
Statistique mathématique
c Michel CARBON
8.2 Caractérisation de l’exhaustivité 175
X1 = R cos θ et X2 = R sin θ.
On a alors :
r2
Z
1 1
E [ϕ(R, θ)] = ϕ(r, θ) 2
exp − 2 dr dθ.
{r≥0 ; 0≤θ≤2π} 2πσ 2σ r
Il suffit de poser :
gθ (S(x)) = Pθ (S(X) = S(x))
et
h(x) = Pθ (X = x |S(X) = S(x)) = P (X = x |S(X) = S(x)) .
Statistique mathématique
c Michel CARBON
176 CHAPITRE 8. EXHAUSTIVITÉ – COMPLÉTION – LIBERTÉ
En effet, cette dernière quantité h(x) est indépendante de θ car S est exhaustive.
CS :
Inversement, supposons que la loi de X se décompose en :
Pθ (X = x) = gθ (S(x)) · h(x).
On a alors :
Pθ [X = x, S(X) = s]
Pθ [X = x |S(X) = s ] =
Pθ (S(X) = s)
S(x) 6= s
0 si
= P (X = x)
Pθ si S(x) = s
Pθ (X = x)
x:S(x)=s
S(x) 6= s
0 si
= g (S(x)) h(x)
Pθ si S(x) = s
gθ (S(x)) h(x)
x:S(x)=s
S(x) 6= s
0 si
= h(x)
P si S(x) = s.
h (x)
x:S(x)=s
Statistique mathématique
c Michel CARBON
8.3 Statistiques exhaustives minimales 177
Exemple 8.3.1 Supposons que X suive une loi N (0, σ 2 ), où σ 2 > 0. La densité de
X vaut :
x2 x2
1 1
√ exp − 2 = √ exp − 2 − ln σ ,
σ 2π 2σ 2π 2σ
densité qui dépend de x à travers x2 . Ici : T (X) = X 2 est exhaustive. Bien sûr, |X| ,
2
X 4 , eX sont des statistiques équivalentes à T (X), donc également exhaustives.
Démonstration :
Si S1 est exhaustive, d’après le critère de factorisation, on a :
Or :
S1 = h∗ (S2 ).
D’où :
Statistique mathématique
c Michel CARBON
178 CHAPITRE 8. EXHAUSTIVITÉ – COMPLÉTION – LIBERTÉ
S1 RS2 ⇔ ∃h : S1 = h(S2 ).
Définition 8.3.2 Une statistique S est exhaustive minimale, si elle est d’une part
exhaustive, et si, pour toute autre statistique exhaustive T, il existe h telle que S =
h(T ).
Démonstration :
T est exhaustive minimale, donc, pour toute statistique exhaustive U, il existe
une fonction h telle que : T = h(U ).
Comme S est en bijection avec T , alors il existe une fonction f qui est telle que :
S = f (T ) et T = f −1 (S). Ainsi, d’après la propriété 8.3.2, S est exhaustive. De plus,
pour toute statistique exhaustive U, on a :
T = h(U ) et S = f (T ) = f (h(U )) = (f ◦ h)(U ) , et donc S est exhaustive
minimale.
Statistique mathématique
c Michel CARBON
8.3 Statistiques exhaustives minimales 179
est exhaustive minimale pour P0 grâce au théorème 8.3.1. Cette statistique est en
Pn 1P n Pn
bijection avec xi ou à x = xi . En effet, si on pose S(x) = xi , on a :
i=1 n i=1 i=1
θ02 − θ12
fθ1 (x)
T (x) = = exp (θ1 − θ0 ) S(x) + n = ϕ (S(x))
fθ0 (x) 2
et
θ2 − θ02
1 fθ1 (x) fθ1 (x)
S(x) = · ln +n 1 =ψ .
(θ1 − θ0 ) fθ0 (x) 2 fθ0 (x)
T (X) et S(X) sont clairement en liaison bijective. Ainsi T (X) et X sont exhaustives
minimales pour P0 . Considérons la famille : P = {N (θ, 1)⊗n ; θ ∈ R} . On a :
" n
#
1 1X
f (x) = √ exp − (xi − θ)2
2π 2
" n i=1 # " n
#
1 X nθ2 1X 2
= √ exp θ xi − · exp − xi .
2π i=1
2 2 i=1
1P n
D’où : Xi est exhaustive pour P (théorème de factorisation). Donc, d’après le
n i=1
Pn
théorème précédent, Xi et X sont exhaustives minimales pour la famille P.
i=1
Statistique mathématique
c Michel CARBON
180 CHAPITRE 8. EXHAUSTIVITÉ – COMPLÉTION – LIBERTÉ
Une généralisation du théorème (8.3.1) est possible pour des familles de lois
n’ayant pas le même support.
Statistique mathématique
c Michel CARBON
8.4 Complétion 181
Démonstration :
Nous avons déjà vu que T est exhaustive, d’après le critère de factorisation. Le
modèle étant de plein rang, H, l’espace des paramètres, contient un s−hypercube
ouvert de dimension s. On peut alors choisir dans H, s+1 points : η (j) (j = 0, 1, . . . , s)
tels que η (1) − η (0) , η (2) − η (0) , . . . , η (s) − η (0) soient linéairement indépendants.
Considérons la famille finie P0 telle que :
P0 = fη ; η = η (j) , j = 0, 1, . . . , s .
Alors la statistique S :
fη(1) (X) fη(s) (X)
S(X) = ,...,
fη(0) (X) fη(0) (X)
est exhaustive minimale, où
" s #
fη(j) (x) X (j) (0)
= exp ηi − ηi · Ti (x) − A(η (j) ) + A(η (0) ) ,
fη(0) (x) i=1
exhaustive minimale, qui est en bijection avec T (x), pourvu que la matrice s × s
formée par les composantes de η (j) − η (0) (j = 1, . . . , s) soit inversible, ce qui est ici
le cas puisque le modèle est de plein rang.
Donc T (x) est exhaustive minimale pour P0 . Or, T (x) est exhaustive pour P,
donc T (x) est exhaustive minimale pour P.
8.4 Complétion
Les statistiques exhaustives minimales permettent donc une réduction de l’espace
des données sans perte d’information sur le paramètre. Mais de telles statistiques
peuvent peut-être encore contenir quelque chose qui n’apporte pas d’information sur
le paramètre. Ceci nous conduit à la notion de statistique libre.
Statistique mathématique
c Michel CARBON
182 CHAPITRE 8. EXHAUSTIVITÉ – COMPLÉTION – LIBERTÉ
Définition 8.4.1 Soit P une famille de lois sur un espace d’observations (X , A), et
soit S une statistique définie sur (X , A) à valeurs dans (Y, B). Pour toute loi P ∈
P, on note P S la loi image de P par S. On dit que S est libre si :
∀P, Q ∈ P P S = QS .
Exemple 8.4.1 Considérons la famille H = (Ha,b ; −∞ < a < b < +∞) où Ha,b
est la loi uniforme sur [a, b].
Montrons que la famille H est complète. Z +∞
Soit : f : R −→ R est une application telle que : f (x)ha,b (x) dx = 0 pour
−∞
tout a < b, c’est-à-dire une fonction telle que :
Z b
f (x) dx = 0 pour tout a < b .
a
En particulier, on a : Z b
f (x) dx = 0 pour tout b . (8.2)
0
Si f est une fonction continue, alors en dérivant (8.2) par rapport à b, on obtient
que : f (x) = 0. Si on ne fait pas l’hypothèse de continuité de f , en utilisant la
théorie de la mesure, on peut montrer que : f (x) = 0, sauf au plus sur un ensemble
de mesure de Lebesgue nul.
Statistique mathématique
c Michel CARBON
8.4 Complétion 183
Exemple 8.4.4 Cet exemple est la suite de l’exemple (8.3.3). On a vu que la statis-
tique X(1) , X(n) est exhaustive minimale. On va montrer qu’elle n’est pas complète.
Un calcul aisé (à faire en exercice) montre que :
Eθ X(n) − X(1) = Eθ X(n) − Eθ X(1)
1 1 1 1
= θ+ − − θ− +
2 n+1 2 n+1
2
= 1− .
n+1
Statistique mathématique
c Michel CARBON
184 CHAPITRE 8. EXHAUSTIVITÉ – COMPLÉTION – LIBERTÉ
Si on pose :
f (u, v) = v − u + 2/(n + 1) ,
alors : : Eθ f (X(1) , X(n) ) = 0 pour tout θ malgré que : Pθ f (X(1) , X(n) ) = 0 6= 1.
En fait, cette dernière probabilité vaut 0.
Donc la statistique exhaustive minimale X(1) , X(n) n’est pas complète.
n
X
Grâce au théorème de factorisation, la statistique T (X1 , X2 , · · · , Xn ) = Xi est
i=1
exhaustive pour θ.
On pourrait montrer directement qu’elle est minimale, mais on va démontrer
qu’elle est complète, et le théorème (8.4.1) permettra d’en déduire qu’elle est mini-
male.
Supposons que :Eθ [f (T )] = 0 pour tout θ > 0. Puisque T suit une loi de Poisson
de paramètre nθ, la condition Eθ [f (T )] = 0 pour tout θ > 0 s’écrit :
+∞
X (nθ)k
f (k)e−nθ = 0 pour tout θ > 0 ,
k=0
k!
ce qui donne :
+∞
X nk k
f (k) θ = 0 pour tout θ > 0 ,
k=0
k!
On en déduit que :
f (k)nk
= 0 pour tout k = 0, 1, 2, · · · .
k!
On a donc f (k) = 0 pour tout entier positif ou nul. Cela implique donc que Pθ [f (T ) = 0] =
1 pour tout θ > 0.
La statistique T est donc complète.
Statistique mathématique
c Michel CARBON
8.4 Complétion 185
Les lois Pθ1 et Pθ2 chargeant le même ensemble, alors, pour tout θ1 et θ2 de Θ, et
pour toute fonction h mesurable, on a :
Statistique mathématique
c Michel CARBON
186 CHAPITRE 8. EXHAUSTIVITÉ – COMPLÉTION – LIBERTÉ
suit un χ2n−1 . Comme cette loi ne dépend pas de m, S est libre pour le modèle. Bien
1P n 1 P n
0
entendu, S 2 = (Xi − X)2 et S 2 = (Xi − X)2 sont également libres.
n i=1 n − 1 i=1
D’autre part, si on écrit la vraisemblance, on a :
n
Y 1 1 2
lm (x1 , . . . , xn ) = √ exp − (xi − m)
i=1
2π 2
n/2 ( n
) ( n
)
1 X n 2 1X 2
= exp m xi − m · exp − x .
2π i=1
2 2 i=1 i
1P n
Donc T (X) = Xi est la statistique privilégiée, qui est exhaustive et complète,
n i=1
car le modèle est de plein rang. Alors, grâce au théorème de Basu, on retrouve le
résultat fameux de Fischer : les statistiques X et S 2 sont indépendantes.
Exemple 8.5.1
1. x est un échantillon de loi uniforme sur [0, θ] , θ > 0. On cherche à donner
θ
une valeur plausible pour , l’espérance mathématique de la loi uniforme sur
2
[0, θ] .
2. x est un échantillon de la loi exponentielle de paramètre λ > 0; on cherche à
1
donner une valeur plausible pour , l’espérance mathématique de la loi expo-
λ
nentielle.
3. x est un échantillon de la loi N (m, σ 2 ) où θ = (m, σ 2 ) ∈ R × R+ . On cherche
une valeur plausible pour σ 2 , la variance des observations élémentaires qui
constituent l’échantillon.
Pour estimer g(θ), on propose une valeur dans D dépendant de x, notée δ(x).
L’application mesurable δ : (X , A) → (D, D) s’appelle un estimateur. C’est bien
sûr une statistique particulière. Le but poursuivi ici est de proposer, si possible, les
meilleurs estimateurs possibles. Pour cela, il faut se donner des critères de compa-
raison entre estimateurs. Rappelons les deux définitions ci-dessous, données dans le
cadre de l’estimation.
Statistique mathématique
c Michel CARBON
8.5 Vers l’amélioration de certains estimateurs 187
L (θ, g(θ)) = 0, ∀θ ∈ Θ.
L (θ, d) = [d − g(θ)]2 ,
Ces définitions étant données, nous allons essayer de proposer des estimateurs de
g(θ) ayant, si possible, un risque minimum pour tout θ de Θ.
Soit δ un estimateur de g(θ). On suppose seulement que :
Eθ (|δ|) < +∞, ∀θ ∈ Θ,
Soit T une statistique exhaustive définie sur X , à valeur dans S. Pour tout t ∈ S,
on pose :
η(t) = Eθ [δ(X)|T = t] = E [δ(X)|T = t] .
Bien entendu, η ne dépend pas de θ, car T étant exhaustive, la loi de X étant donné
T = t ne dépend pas de θ, et donc, a fortiori, la loi de δ(X) étant donné T = t ne
dépend pas de θ. D’autre part, η(t) ∈ D. Donc η(t) définit un nouvel estimateur de
g(θ), en prenant pour estimation de g(θ) la valeur η (T (x)) , au vu de l’échantillon x.
On notera η ce nouvel estimateur. Sous l’hypothèse que L est strictement convexe
en d, on montre que η est strictement meilleur que δ au sens du risque minimum.
Statistique mathématique
c Michel CARBON
188 CHAPITRE 8. EXHAUSTIVITÉ – COMPLÉTION – LIBERTÉ
et si
η(t) = E [δ(X)|T = t] ,
(les espérances sont prises par rapport à la loi conditionnelle de X sachant que
T = t). En prenant l’espérance de chaque côté, on obtient :
Statistique mathématique
c Michel CARBON
8.5 Vers l’amélioration de certains estimateurs 189
L (θ, d) = [d − g(θ)]2 .
C’est, bien sûr, une perte à valeurs dans l’ensemble des matrices symétriques. En fait,
utiliser cette fonction de perte matricielle revient à utiliser la famille des fonctions
de pertes scalaires :
2
Lu (θ, d) = (u0 [d − g(θ)]) ∀u ∈ Rk
Xk
= ui uj (di − gi (θ)) (dj − gj (θ)) .
i, j=1
L’étude de la perte se fait donc dans toutes les directions possibles. Lu (θ, d) étant une
perte scalaire, on peut alors appliquer le théorème de Rao-Blackwell (sous réserve
des hypothèses de ce théorème – supposées ici vérifiées) :
Statistique mathématique
c Michel CARBON
190 CHAPITRE 8. EXHAUSTIVITÉ – COMPLÉTION – LIBERTÉ
(X1 − X2 )2
= .
2
Considérons la fonction de perte quadratique :
L (λ, δ(x)) = [δ(X) − λ]2 ,
et le risque associé :
R (λ, δ) = Eλ [L (λ, δ(X))] .
Nous allons calculer le risque pour δ1 et pour δ2 . Pour cela, on rappelle que (si X
suit une loi P(λ)) :
E(X) = λ; E(X 2 ) = λ + λ2 ; E(X 3 ) = λ + 3λ2 + λ3 ,
et
E(X 4 ) = λ + 7λ2 + 6λ3 + λ4 .
(i) Risque de δ1 :
" 2 #
X1 + X2
R (λ, δ1 ) = Eλ −λ
2
1 2
= E (X + X22 + 2X1 X2 ) + λ2 − λ(X1 + X2 )
4 1
1 λ2 λ
= (λ + λ2 ) + + λ2 − 2λ2 = .
2 2 2
Statistique mathématique
c Michel CARBON
8.5 Vers l’amélioration de certains estimateurs 191
(ii) Risque de δ2 :
" 2 #
(X1 − X2 )2
R (λ, δ2 ) = E −λ
2
(X1 − X2 )4
2 2
= E + λ − λ(X1 − X2 )
4
1
= E (X14 − 4X13 X2 + 6X12 X22 − 4X1 X23 + X24 )
4
+λ2 − λX12 + 2λX1 X2 − λX22
1
= (λ + 7λ2 + 6λ3 + λ4 ) − 2(λ + 3λ2 + λ3 )
2
3
+ (λ + λ2 )2 + λ2 − λ(λ + λ2 ) + 2λ2 − λ(λ + λ2 )
2
λ
= + 2λ2
2
Donc, dans cet exemple : ∀λ > 0, R (λ, δ2 ) > R (λ, δ1 ), et l’estimateur moyenne
empirique est préférable à l’estimateur variance empirique, au sens du risque qua-
dratique.
Statistique mathématique
c Michel CARBON
192 CHAPITRE 8. EXHAUSTIVITÉ – COMPLÉTION – LIBERTÉ
Statistique mathématique
c Michel CARBON
Chapitre 9
Un esprit fin et un esprit de finesse sont très différents. Le premier plaît toujours,
il est délié, il pense des choses délicates, et voit les plus imperceptibles : un esprit de
finesse ne va jamais droit ; il cherche des biais et des détours pour faire réussir ses
desseins. Cette conduite est bientôt découverte ; elle se fait toujours craindre, et ne
mène presque jamais aux grandes choses.
La Rochefoucauld
Le concept de "sans biais" a été introduit par Gauss en 1821 dans son travail sur
les moindres carrés.
Les estimateurs sans biais uniformément de variance minimale ont été obtenus
par Aitken et Silvestone en 1942. Halmos (1946) et Kolmogorov ont montré, dans
certains cas particuliers, l’unicité de tels estimateurs sans biais. De manière plus
générale, Rao (1947) a montré que cela valait en toute généralité. La méhode I pour
déterminer des estimateurs sans biais est dur à Tweedie (1947).
193
194 CHAPITRE 9. ESTIMATION SANS BIAIS
- Pour estimer des paramètres, de type variance, à ne retenir que des estimateurs
fonctions quadratiques des observations :
n
X
δ (X1 , . . . , Xn ) = aij Xi Xj .
i,j=1
Statistique mathématique
c Michel CARBON
9.1 Principes de réduction de l’ensemble des estimateurs 195
m.q.
(ii) converger en moyenne quadratique, δn −→ g(θ), si et seulement si :
n→+∞
CV forte ⇒ CV faible
CV en m.q. ⇒ CV faible
Statistique mathématique
c Michel CARBON
196 CHAPITRE 9. ESTIMATION SANS BIAIS
Démonstration :
Statistique mathématique
c Michel CARBON
9.2 Méthodes de recherche de ”bons estimateurs” 197
d’un estimateur sans biais δ n’est autre que sa variance, pour cette fonction de perte :
Démonstration :
Soit δ un E.S.B. quelconque de g(θ) : Eθ (δ) = g(θ), ∀θ ∈ Θ. Soit η son amélioré
de Rao-Blackwell :
Eθ [δ(S)] = g(θ), ∀θ ∈ Θ.
∀θ ∈ Θ, η(S) = Eθ [δ | S] = E [δ | S]
Statistique mathématique
c Michel CARBON
198 CHAPITRE 9. ESTIMATION SANS BIAIS
Exemples
1. Le modèle statistique d’un échantillon de taille n de la loi de Bernouilli de
paramètre p ∈]0, 1[ a pour densité :
n
Y
pxi (1 − p)1−xi 11{0,
lp (x1 , . . . , xn ) = 1} (xi )
i=1
" n
# n
X p Y
= exp xi Ln + n Ln(1 − p) · 11{0, 1} (xi ).
i=1
1−p i=1
p s 1
car T est de loi B (n, p) . Posons : s = . Alors : p = et 1−p = .
1−p 1+s 1+s
D’où (n > 1) :
n
∀s ∈ R∗+ , Cnt δ(t) st = s(1 + s)n−2
P
t=0
n−1
t−1 t
P
= Cn−2 s.
t=1
t−1 t(n − t)
∀t = 1, . . . , n − 1, Cnt δ(t) = Cn−2 ⇒ δ(t) = ;
n(n − 1)
pour t = 0, Cn0 δ(0) = 0 ⇒ δ(0) = 0,
pour t = n, Cnn δ(n) = 0 ⇒ δ(n) = 0.
t(n − t)
D’où, globalement : δ(t) = pour tout t = 0, 1, . . . , n. Donc ici,
n(n − 1)
l’E.S.B.U.V.M. de g(p) est :
n
n
P P
Xi n − Xi
i=1 i=1
δ (X1 , . . . , Xn ) = .
n(n − 1)
Remarque 9.2.1 Pour n = 1, on peut noter que g(p) n’est pas estimable sans
biais. En effet, pour n = 1, on a :
Statistique mathématique
c Michel CARBON
9.2 Méthodes de recherche de ”bons estimateurs” 199
Donc, seules les fonctions affines de p sont alors estimables sans biais.
1
Pour n quelconque, g(p) = n’est pas estimable sans biais. En effet, si p → 0,
p
alors Ep (δ) → δ(0), alors que, g(p) → +∞ !!!
2. On considère le modèle d’un échantillon de taille n de la loi uniforme sur [0, θ]
(θ > 0). Sa densité vaut :
1
lθ (x1 , . . . , xn ) = 11(inf xi ≥0) · 11(sup xi ≤θ) .
θn
Pour estimer θ, la statistique T (X1 , . . . , Xn ) = sup Xi est intéressante, car
1≤i≤n
exhaustive (th. de factorisation), mais T est évidemment biaisée, car toujours
inférieure à θ (calcul à effectuer en exercice).
Si l’on considère la statistique
n
2X
δ (X1 , . . . , Xn ) = 2X = Xi ,
n i=1
alors on a :
Eθ (δ) = θ, ∀θ > 0.
−→ θ d’après la loi des grands
C’est un E.S.B. De plus, δ (X1 , . . . , Xn ) n→+∞
nombres. Mais δ (X1 , . . . , Xn ) n’est pas une fonction de T, donc δ (X1 , . . . , Xn )
n’est pas de variance minimale (qu’elle ne soit pas fonction de T est évident,
car on ne peut calculer la moyenne d’un échantillon en connaissant uniquement
la plus grande valeur). Cependant, T est exhaustive et complète (le démontrer
en exercice). On va l’utiliser pour trouver un estimateur E.S.B.U.V.M. Consi-
θ
dérons l’estimateur grossier sans biais de défini par : S (x1 , . . . , xn ) = x1 .
2
Pour déterminer son amélioré de Rao-Blackwell, on peut remarquer que :
E (S | T = t)
= E X1 | sup Xi = t
1≤i≤n
= P sup Xi = X1 · E X1 | X1 = t, sup Xi = X1
1≤i≤n 1≤i≤n
n
X
+ P sup Xi = Xj E (X1 | Xj = t, X1 < t, Xi < t, i 6= 1, j)
1≤i≤n
j=2
1 n−1 1 t
= t+ · E (X1 | X1 < t) = t + (n − 1)
n n n 2
(n + 1) t
= .
2n
Donc : !
n
2X 2 (n + 1) t n+1
E Xi | sup Xi = t = = t.
n i=1 1≤i≤n n 2 n
Statistique mathématique
c Michel CARBON
200 CHAPITRE 9. ESTIMATION SANS BIAIS
n+1
et comme · T est fonction de T, statistique exhaustive et complète, c’est
n
l’estimateur E.S.B.U.V.M. parmi les E.S.B.
9.2.4 Applications
Cas d’échantillons gaussiens
Soit (x1 , . . . , xn ) un échantillon gaussien de la loi N (ζ, σ 2 ) . Sa vraisemblance
vaut : " #
n n
1 1 X
f (x1 , . . . , xn ) = √ exp − 2 (xi − ζ)2 .
2π σ 2σ i=1
a) σ connu :
Supposons la variance connue. Alors la vraisemblance s’écrit :
n " n
# " n
#
ζ2 n
1 ζ X 1 X 2
f (x1 , . . . , xn ) = √ exp 2 xi − exp − 2 x .
2π σ σ i=1 2σ 2 2σ i=1 i
ζ Pn ζ2 n
Si on pose : η = et T (X 1 , . . . , X n ) = X i , A(η) = et
σ2 i=1 2σ 2
n " n
#
1 1 X 2
h (x1 , . . . , xn ) = √ exp − 2 x ,
2π σ 2σ i=1 i
Statistique mathématique
c Michel CARBON
9.2 Méthodes de recherche de ”bons estimateurs” 201
2 2 σ 2 2 σ2
σ 2 (X) = E(X ) − E(X) = + ζ 2.
⇒ E(X ) =
n n
2 σ2
Donc l’estimateur δ (X1 , . . . , Xn ) = X − vérifie :
n
E [δ (X1 , . . . , Xn )] = ζ 2 .
δ (X1 , . . . , Xn ) est donc sans biais pour ζ 2 , et est fonction de X, statistique exhaustive
et complète ; donc δ (X1 , . . . , Xn ) est l’E.S.B. de variance minimale de ζ 2 .
b) ζ connu :
On a :
n " n
#
1 1 X
f (x1 , . . . , xn ) = √ exp − 2 (xi − ζ)2 .
2π σ 2σ i=1
n
Sous cette forme, S 2 = (Xi − ζ)2 apparaît comme la statistique privilégiée d’un
P
i=1
1 ∗
modèle exponentiel de plein rang η = − 2 ∈ R− . Donc, S 2 est exhaustive mi-
2σ
nimale et complète. Or :
Xi − ζ
Xi ∼ N ζ, σ 2
⇔ ∼ N (0, 1) .
σ
2
S2
Pn Xi − ζ
Donc 2 = est une somme de carrés de gaussiennes indépendantes,
σ i=1 σ
S2
2
2 S S2
donc 2 suit une loi du χn . Par suite : E = n. Donc est d’espérance
σ σ2 n
S2
σ 2 . L’estimateur est un estimateur sans biais de σ 2 , fonction d’une statistique
n
exhaustive complète, donc de variance uniformément minimale.
c) ζ et σ 2 sont inconnus :
La vraisemblance s’écrit :
n " n n
#
ζ2 n
1 1 X 2 ζ X
f (x1 , . . . , xn ) = √ exp − 2 x + xi − − n Lnσ
2π 2σ i=1 i σ 2 i=1 2σ 2
Posons :
1 ζ
η1 ζ, σ 2 = − 2 , η2 ζ, σ 2 = 2 ,
2σ σ
Statistique mathématique
c Michel CARBON
202 CHAPITRE 9. ESTIMATION SANS BIAIS
n
X n
X
T1 (X1 , . . . , Xn ) = Xi2 , T2 (X1 , . . . , Xn ) = Xi ,
i=1 i=1
n
ζ2 n
1
h (x1 , . . . , xn ) = √ , A ζ, σ 2 = + n Lnσ,
2π 2σ 2
(η1 , η2 ) ∈ R∗− × R ouvert convexe d’intérieur non vide de R2 . Donc le modèle est
exponentiel, de plein rang. La statistique privilégiée T ∗ = (T1 , T2 ) est exhaustive
minimale et complète.
n
Il est aisé de vérifier que X, (Xi − X) = (T, S 2 ) lui est équivalente. Donc
2
P
i=1
(T, S 2 ) est exhaustive, minimale et complète. Comme T = X est un E.S.B. de ζ, il
en résulte que X est encore l’E.S.B.U.V.M. de ζ, comme fonction de (T, S 2 ) .
2
2
S S S2
D’autre part, on sait que 2 ∼ χ2n−1 , donc E = n − 1 et est
σ σ2 n−1
S2
un E.S.B. de σ 2 . Donc est fonction de (T, S 2 ) , et c’est l’E.S.B.U.V.M. de σ 2 .
n− 1
S2
Globalement, T, est l’estimateur fonction de (T, S 2 ) , statistique exhaustive
n−1
complète ;et il est sans
biais.
S2
Donc T, est l’E.S.B.U.V.M. du couple (ζ, σ 2 ) .
n−1
Statistique mathématique
c Michel CARBON
9.2 Méthodes de recherche de ”bons estimateurs” 203
Donc les Yi sont des v.a.r. indépendantes, normales avec : Yi suit N (ηi , σ 2 ) . i =
1, . . . , n. Ici :
η1 ζ1
η = ... ∈ Rs quand ζ = ... ∈ H.
ηn ζn
Bien sûr ζ ∈ H ⇔ ζ est orthogonal aux n − s dernières colonnes de C. Puisque
η = ζ · C, on en déduit que :
ζ∈H ⇔ ηs+1 = · · · = ηn = 0.
Yi ∼ N ηi , σ 2
pour i = 1, . . . , s,
2
Yi ∼ N 0, σ pour i = s + 1, . . . , n,
et les Yi sont indépendantes. On peut alors écrire la densité conjointe des Yi sous la
forme :
n " n
#
1 1 X
√ exp − 2 (yi − ηi )2
2π σ 2σ i=1
n " n s s
#
1 1 X 2 1 X 1 X 2
= √ exp − 2 y + yi ηi − 2 η
2π σ 2σ i=1 i σ 2 i=1 2σ i=1 i
n
Yi2 , Y1 , . . . , Ys
P
La statistique est la statistique privilégiée de ce modèle expo-
i=1
nentiel. Le paramètre correspondant est :
1 η1 ηs
− 2 , 2 , . . . , 2 ∈ R∗+ × Rs ouvert convexe de Rs .
2σ σ σ
Démonstration :
Statistique mathématique
c Michel CARBON
204 CHAPITRE 9. ESTIMATION SANS BIAIS
s
λi Yi , où Yi ∼ N (ηi , σ 2 ) .
P
a) Posons T =
i=1
Ps s
P
Donc : E(T ) = λi E(Yi ) = λi η i .
i=1 i=1
Ps
Donc T est un E.S.B. de λi ηi . Comme T est fonction de la statistique exhaus-
i=1
n
2
P
tive complète Y1 , . . . , Ys , Yi , d’après le théorème de Lehmann-Scheffé c’est
i=s+1
s
P
l’E.S.B.U.V.M. de λi η i .
i=1
S2
suit un χ2n−s . Donc E = n − s. Par suite, un E.S.B. de σ 2 est donc
σ2
S2 1 n
2 S2 1 n
Yi2 est une fonction de la
P P
= Yi . Comme =
n−s n − s i=s+1 n − s n − s i=s+1
n
Yi2 , c’est un E.S.B.U.V.M.
P
statistique exhaustive complète Y1 , . . . , Ys ,
i=s+1
d’après le théorème de Lehmann-Scheffé.
Il serait, bien sûr, préférable que l’estimateur s’exprime en fonction des v.a.r. Xi
originelles. Pour cela, introduisons la définition suivante :
Statistique mathématique
c Michel CARBON
9.2 Méthodes de recherche de ”bons estimateurs” 205
Donc :
ζb = (Y1 , . . . , Ys , 0, . . . , 0) C −1 .
n
P
Il en découle que chaque ζbi et, a fortiori, γi ζbi , est alors une fonction linéaire
i=1
variables n(Y1 , . .
des . , Ys ) , donc également de la statistique exhaustive complète
P 2
Y1 , . . . , Y s , Yi . De plus :
i=s+1
b = E [(Y1 , . . . , Ys , 0, . . . , 0) C −1 ] = (η1 , . . . , ηs , 0, . . . , 0) C −1 = ζ.
E(ζ)
P n n
P
Donc, chaque ζbi est sans biais pour ζi , d’où γi ζbi est sans biais pour γi ζi .
i=1 i=1
n
P n
P
D’après Lehmann-Scheffé, γi ζbi est un E.S.B.U.V.M. pour γi ζi .
i=1 i=1
D’autre part, grâce à (9.1) :
n
X s
X n
X
2 2
(Xi − ζi ) = (Yi − ηi ) + Yj .
i=1 i=1 j=s+1
On a vu que :
n
X n
X
(Xi − ζbi )2 = Yj2 .
i=1 j=s+1
1 n
Y 2 est l’E.S.B.U.V.M.
P
Comme dans le théorème précédent, on montre alors que
n − s j=s+1 j
1 P n
de σ 2 , donc que (Xi − ζbi )2 est l’E.S.B.U.V.M. de σ 2 .
n − s i=1
Le modèle que l’on vient d’étudier suppose que les v.a.r. Xi sont indépendantes,
gaussiennes, de variance et espérances inconnues, et astreintes à certaines conditions
linéaires. Nous allons maintenant considérer des modèles qui retiennent l’hypothèse
linéaire, mais ôtent l’hypothèse de normalité.
Supposons que :
E(Xi ) = ζi , ζ ∈ Hs ⊂ Rn ,
var (Xi ) = σ 2 , cov (Xi , Xj ) = 0, ∀i 6= j
Avec les notations du théorème précédent, et sous les hypothèses qui viennent
n
P n
P
d’être faites, l’estimateur γi ζbi est l’E.S.B.U.V.M. de γi ζi parmi tous les esti-
i=1 i=1
n
P
mateurs linéaires de γi ζi sans biais.
i=1
Statistique mathématique
c Michel CARBON
206 CHAPITRE 9. ESTIMATION SANS BIAIS
n
P
Démonstration : L’estimateur γi ζbi est sans biais (voir théorème précédent)
i=1
n
P n
P n
P
pour γi ζi . Considérons un autre estimateur linéaire de γi ζi , sans biais ci X i .
i=1 i=1 i=1
La variance de cet estimateur dépend seulement de la matrice de variances-covariances
n
du vecteur aléatoire (X1 , . . . , Xn )t , qui est ici : σ 2 ·Idn , et de
P
γi ζi . Il en est de
i=1
n
P n
P
même pour γi ζbi , qui est U.M.V. parmi les E.S.B. de γi ζi . Donc :
i=1 i=1
n
! n
!
X X
var γi ζbi ≤ var ci X i .
i=1 i=1
n
P n
P
Donc γi ζbi est U.M.V. parmi les E.S.B. linéaires de γi ζi .
i=1 i=1
Statistique mathématique
c Michel CARBON
9.2 Méthodes de recherche de ”bons estimateurs” 207
où n n
1X 1X
X= Xi , t= ti .
n i=1 n i=1
Donc, pour tout i = 1, . . . , n, les estimateurs des M.C.O. sont
ζbi = α
b + βt
b i.
Maintenant, pour ti 6= tj , on a :
n
P
(Xi − X) (ti − t)
i=1
ζbi = X + βt
b +
n
P ti ,
(ti − t)2
i=1
soit n
P
(Xi − X) (ti − t)
i=1
ζbj − ζbi = n
P (tj − ti ).
(ti − t)2
i=1
D’où :
ζbj − ζbi
βb = .
tj − ti
Par suite, de ζbi = α
b + βt
b i , on tire :
tj ζbi = tj α
b + βt
b i tj ,
ti ζbj = ti α
b + βt
b j ti .
Statistique mathématique
c Michel CARBON
208 CHAPITRE 9. ESTIMATION SANS BIAIS
Statistique mathématique
c Michel CARBON
Chapitre 10
Inégalité d’information
Nous avons jusqu’ici étudié les estimateurs ESBUVM. Mais, g étant donnée, il
n’existe pas toujours d’ESBUVM de g(θ), pour tout θ de Θ. Que faire alors ? On
pourrait, bien sûr, chercher pour tout θ de Θ, la plus petite variance d’un ESB
de g(θ), mais c’est en général très difficile à déterminer. L’inégalité d’information,
donnée dans ce chapitre, fournit une minoration facile à calculer de cette plus petite
variance, mais hélas pas toujours atteinte.
209
CHAPITRE 10. INÉGALITÉ D’INFORMATION
210
Démonstration :
En effet, on a : Z
pθ (x) dx = 1, ∀θ ∈ Θ.
X
D’où : Z
∂
pθ (x) dx = 0, ∀θ ∈ Θ.
∂θ X
Théorème 10.1.1 Supposons que les hypothèses (H0 ) soient vérifiées. Supposons
aussi que :
(H1 ) (i) la dérivée seconde,par rapport à θ, de pθ (x) existe pour tout x de A et
tout θ de Θ ;
Z
(ii) la dérivée seconde par rapport à θ de pθ (x)dx peut s’obtenir en dérivant
sous le signe intégral.
Alors I(θ) peut aussi se calculer par la formule :
2
∂
I(θ) = −Eθ lnpθ (X)
∂θ2
Démonstration :
Grâce au lemme précédent, on a :
" 2 #
∂ ∂
I(θ) = varθ lnpθ (X) = E lnpθ (X) .
∂θ ∂θ
Z
De l’égalité : pθ (x)dx = 1, on en tire, sous H0 et H1 , en dérivant 2 fois par rapport
A
àθ:
∂2
Z
pθ (x) dx = 0, ∀θ ∈ Θ.
∂θ2 A
Statistique mathématique
c Michel CARBON
10.1 Cas d’un paramètre unidimensionnel 211
Grâce à H1 (ii), on a :
∂2
Z
pθ (x) dx = 0, ∀θ ∈ Θ.
A ∂θ2
Soit :
∂2
pθ (x)
Z
∂θ2
pθ (x) dx = 0, ∀θ ∈ Θ,
A pθ (x)
c’est-à-dire :
∂2
p (X)
2 θ
Eθ ∂θ = 0, ∀θ ∈ Θ.
pθ (X)
Calculons :
∂2 ∂
h ∂
pθ (x)
i
lnpθ (x) = ∂θ
∂θ
pθ (x)
∂θ2
∂2 ∂
2
∂θ2
(pθ (x)) · pθ (x) − ∂θ
pθ (x)
=
(pθ (x))2
∂2 h ∂
i2
pθ (x) pθ (x)
∂θ 2
= pθ (x)
− ∂θ
pθ (x)
∂2
pθ (x)
= ∂θ2 ∂
− ∂θ
2
(lnpθ (x)) .
pθ (x)
Prenons l’espérance Eθ de chaque côté ; il vient alors :
h 2 i ∂2 h
∂ pθ (X) ∂
2 i
∂θ 2
Eθ ∂θ2 lnpθ (X) = Eθ pθ (X)
− Eθ ∂θ
lnpθ (X)
h 2 i
∂
= −Eθ ∂θ
lnpθ (X) .
D’où : " 2 # 2
∂ ∂
I(θ) = Eθ lnpθ (X) = −Eθ (lnpθ (X)) .
∂θ ∂θ2
Statistique mathématique
c Michel CARBON
CHAPITRE 10. INÉGALITÉ D’INFORMATION
212
Alors :
lnpη (x) = ηT (x) − A(η) + lnh(x).
D’où la valeur du score :
∂
lnpη (x) = T (x) − A0 (η).
∂η
De plus, on a :
∂2
lnpη (x) = −A00 (η).
∂η 2
D’autre part, nous savons que :
soit :
varη (T ) = I(θ) · [varη (T )]2 .
D’où :
1
I(θ) =
varη (T )
Interprétation : I(θ) se comporte comme on pouvait l’espérer. Si le modèle est de
plein rang, puisque T, statistique privilégiée du modèle exponentiel est un ESBUVM
de θ, la variance de T est une mesure de la difficulté à estimer θ. Donc l’inverse de
la variance de T mesure la facilité qu’il y a à estimer θ, et c’est en ce sens que l’on
mesure l’information apportée par X sur θ.
Statistique mathématique
c Michel CARBON
10.1 Cas d’un paramètre unidimensionnel 213
m2 x2
1 m
pθ (x) = √ exp − 2 exp 2 x − 2
σ 2π 2σ σ 2σ
1 1
a) Comme E(X) = m, l’information I(m) est = 2 , dans un modèle où
V (X) σ
σ 2 est fixé.
b) Posons θ = σ 2 et supposons m = 0 (pour simplifier). Alors :
2
1 x
pθ (x) = √ exp − .
2π θ1/2 2θ
D’où :
x2 1 1
lnpθ (x) = − − lnθ − ln2π.
2θ 2 2
D’où encore :
∂ x2 1
lnpθ (x) = + 2 − .
∂θ 2θ 2θ
Par définition même de l’information de Fischer, on a :
2
∂ X 1
I(θ) = varθ ∂θ lnpθ (X) = varθ − 2θ
2θ2
h i
X2 1
= varθ 2θ2
= 4θ4
varθ (X 2 ).
Statistique mathématique
c Michel CARBON
CHAPITRE 10. INÉGALITÉ D’INFORMATION
214
Démonstration :
La densité du couple (X, Y ) est : pθ (x) × qθ (y) (à cause de l’indépendance de
X et Y ). Alors :
∂ ∂ ∂
lnpθ (x) qθ (y) = lnpθ (x) + lnqθ (y).
∂θ ∂θ ∂θ
D’où :
∂ ∂
I(θ) = varθ lnpθ (X) + lnqθ (Y )
∂θ ∂θ
∂ ∂
= varθ lnpθ (X) + varθ lnqθ (Y )
∂θ ∂θ
(car les v.a.r. X et Y sont indépendantes)
= I1 (θ) + I2 (θ).
Statistique mathématique
c Michel CARBON
10.1 Cas d’un paramètre unidimensionnel 215
Théorème 10.1.4 Soit I(θ) l’information sur θ apportée par l’observation X dans
un modèle statistique. Soit IS (θ) l’information apportée sur θ par une statistique
S = S(X) exhaustive dans le modèle image. Alors :
I(θ) = IS (θ), ∀θ ∈ Θ.
Démonstration :
Z
∂ 0 ∂
∂θ
Eθ (δ) = g (θ) = ∂θ
δ(x) pθ (x) dx
Z
∂
= (δ(x) pθ (x)) dx
∂θ
Z
∂
= δ(x) pθ (x) dx.
∂θ
Or :
∂
∂
pθ (X)
covθ δ(X), lnpθ (X) = covθ δ(X), ∂θ
∂θ pθ (X)
Z
∂ ∂
= δ(x) pθ (x) dx − Eθ [δ(X)] Eθ lnpθ (X)
∂θ ∂θ
| {z }
=0
Statistique mathématique
c Michel CARBON
CHAPITRE 10. INÉGALITÉ D’INFORMATION
216
D’où :
∂ ∂
covθ δ(X), lnpθ (X) = [Eθ (δ(X))] = g 0 (θ).
∂θ ∂θ
Appliquons l’inégalité de Schwarz :
avec :
f = δ(X) − Eθ [δ(X)]
et :
∂
g= lnpθ (X).
∂θ
Il vient alors :
∂
Eθ (δ(X) − Eθ [δ(X)]) · ∂θ
(lnpθ (X))
∂
∂
= Eθ δ(X) · ∂θ
(lnpθ (X)) − Eθ [δ(X)] Eθ ∂θ (lnpθ (X))
∂
= covθ δ(X), ∂θ
lnpθ (X)
car :
∂
Eθ lnpθ (X) = 0.
∂θ
L’inégalité de Schwarz s’écrit alors :
2
[g 0 (θ)] ≤ varθ (δ(X)) · I(θ)
soit :
[g 0 (θ)]2
varθ (δ(X)) ≥ .
I(θ)
Statistique mathématique
c Michel CARBON
10.2 Cas d’un paramètre multiple 217
Lemme 10.2.1 Sous les hypothèses (H0 ), le vecteur des scores est centré.
Démonstration :
En effet, on a vu au début de ce chapitre, que :
∂
E lnpθ (X) = 0, ∀i = 1, . . . , s.
∂θi
Théorème 10.2.1 Supposons que les hypothèses (H0 ) soient vérifiées. Supposons
aussi que :
(H1 ) (i) les dérivées premières, par rapport aux θi , du score existent pour tout x
de A, et tout θ de Θ ;
Z
(ii) les dérivées secondes, par rapport aux θi , de pθ (x) dx peuvent s’obtenir
en dérivant deux fois sous le signe intégral.
Alors I(θ) est la matrice de terme général :
∂2
−Eθ lnpθ (X) 1 ≤ i, j ≤ s
∂θi ∂θj
D’où :
I ∗ (ζ) = J · I (θ) · J t .
Statistique mathématique
c Michel CARBON
CHAPITRE 10. INÉGALITÉ D’INFORMATION
218
I (θ) = C −1 ,
∂2 ∂2
covη (Ti , Tj ) = A (η) = −Eη lnpη (X) .
∂ηi ∂ηj ∂ηi ∂ηj
J = var (T ) .
Finalement, on obtient :
D’où :
I (θ) = [var (T )]−1 .
∂g(θ)
où g 0 (θ) est le vecteur de coordonnées : .
∂θi
Statistique mathématique
c Michel CARBON
Chapitre 11
Méthode du maximum de
vraisemblance
Si l’invraisemblable arrive, c’est donc que ce qui est invraisemblable est vraisem-
blable. Aristote
11.1 Principe
11.1.1 Description de la méthode
On considère un modèle paramétrique régulier (X , A, P) où P = {Pθ , θ ∈ Θ}
est à densité pθ (x) avec θ ∈ Θ ⊂ Rp .
La méthode du maximum de vraisemblance consiste à retenir comme estimation
de θ une valeur θ(x)
b (x = (x1 , . . . , xn )) qui maximise :
(pθ (x))θ∈Θ .
max pθ (X)
θ∈Θ
Remarque 11.1.2 Par définition, on appellera EMV d’une fonction g(θ) du para-
mètre, le transformé g(θ)
b d’un EMV θb de θ.
219
220
CHAPITRE 11. MÉTHODE DU MAXIMUM DE VRAISEMBLANCE
D’où :
n
X n
X
ln pλ (x) = −nλ + ln λ · xi − ln (xi !)
i=1 i=1
On a alors :
n
P
xi
∂ i=1
ln pλ (x) = −n +
∂λ λ
et
n
P
− xi
∂2 i=1
ln pλ (x) = ≤ 0.
∂λ2 λ2
Pn
La dérivée première est une fonction concave si xi 6= 0, qui atteint son maximum
i=1
pour :
n
1X
λ(x) =
b xi = x
n i=1
D’où :
∂ 1 P n
ln pθ (x) = (xi − ζ) = 0 ⇒ b = 1 P xi = x,
ζ(x)
∂ζ σ2 n i=1
∂ n n
1 P
ln pθ (x) = − + 3 (xi − ζ)2
∂σ σ σ i=1
n
1 P 2 2
= (xi − ζ) − nσ = 0
σ 3 i=1
1P n
⇒ b2 (x) =
σ (xi − x)2 .
n i=1
Statistique mathématique
c Michel CARBON
11.1 Principe 221
∂ n
P 1P n
ln p1ζ (x) = (xi − ζ) = 0 ⇒ ζb1 (X) = Xi .
∂ζ i=1 n i=1
n
x2i 6= ζ, la vraisemblance est
P
Déterminons l’EMV avec p2ζ : dans le cas où
i=1
n/2
1
majorée par : < 1. Donc la vraisemblance globale est maximum pour
2π
n n
x2i = ζ. L’EMV, dans ce cas, est donc ζb2 (X) = Xi2 .
P P
i=1 i=1
Donc, changer la vraisemblance sur un ensemble négligeable peut conduire à
changer d’estimateur. Pour pallier à cette difficulté, on peut, lorsque c’est possible,
décider de retenir une version continue de la densité.
Statistique mathématique
c Michel CARBON
222
CHAPITRE 11. MÉTHODE DU MAXIMUM DE VRAISEMBLANCE
Son maximum n’est pas atteint sur R. Il le serait si Θ était fermé ; par exemple si
Θ = R ; le maximum serait alors θ(1) b = −∞. Si l’observation est x = 0, on a :
θ
e
pθ (0) = , fonction strictement croissante de θ; son maximum n’est pas atteint
1 + eθ
sur R. Sur R, le maximum serait : θ(0)
b = +∞.
∆ = (x1 − x2 )2 − 4.
Si ∆ est négatif ou nul, la fonction de vraisemblance a la forme suivante de la
figure [11.1) ci-dessous.
Statistique mathématique
c Michel CARBON
11.2 Equations de vraisemblance 223
Statistique mathématique
c Michel CARBON
224
CHAPITRE 11. MÉTHODE DU MAXIMUM DE VRAISEMBLANCE
secondes. Mais même si la matrice des dérivées secondes est définie négative, le point
θ(x)
e peut correspondre à un maximum local, et non à un maximum global.
En pratique, pour déterminer l’estimation θ(x),b on peut chercher les points an-
nulant la dérivée première. Parmi ces points, on repère les maximas locaux θej (x),
et on calcule les valeurs peθj (x) (ou ln (e
pθj (x))) de la vraisemblance (ou de la log-
vraisemblance). On retient alors les points θej (x) correspondant à la valeur maximale
pe(x) = max peθj (x). Il faut ensuite comparer cette valeur e
e pe(x) à la valeur maximale
j
prise par pθ (x) ou ln pθ (x) sur la frontière de Θ.
Il est souvent difficile de trouver tous les maximas locaux. Cependant la démarche
se simplifie beaucoup lorsque pθ ou ln pθ possède certaines propriétés de concavité
(les conditions du 1er ordre alors suffisent pour obtenir un maximum global), ou
lorsque la fonction de vraisemblance tend vers 0 à l’infini (toutes les solutions sont
alors dans un domaine borné).
Statistique mathématique
c Michel CARBON
11.2 Equations de vraisemblance 225
On sait que cette équation admet au moins une solution. Celle-ci ne peut être trouvée
sous forme analytique, et il est nécessaire d’utiliser un algorithme pour résoudre
numériquement une telle équation.
S’il existe une valeur xi non nulle, cette fonction est alors strictement concave en
λ, et atteint son maximum pour λ b tel que :
n
P
xi
∂ i=1
ln pλ (x1 , . . . , xn ) = −n + = 0.
∂λ λ
b
D’où :
n
P
xi
i=1
λ
b= = x.
n
Statistique mathématique
c Michel CARBON
226
CHAPITRE 11. MÉTHODE DU MAXIMUM DE VRAISEMBLANCE
I
X J
X
pi· = 1 et p·j = 1,
i=1 j=1
n! I,
PJ
= ln I J + xij ln pi· p·j
Q Q i, j=1
(xij !)
i=1 j=1
!
I
P J
P
−λ1 pi· − 1 − λ2 p·j − 1
i=1 j=1
∂ PI
A = pi· − 1 = 0
∂λ1 i=1
∂ J
P
p·j − 1 = 0.
∂λ A =
2 j=1
Posons :
J
X I
X
xi· = xij et x·j = xij .
j=1 i=1
Statistique mathématique
c Michel CARBON
11.2 Equations de vraisemblance 227
et n
X
λ1 = xi· = n.
i=1
∂2
A (η1 , . . . , ηs )
∂ηi ∂ηj
Statistique mathématique
c Michel CARBON
228
CHAPITRE 11. MÉTHODE DU MAXIMUM DE VRAISEMBLANCE
est définie positive pour tout (η1 , . . . , ηs ) ∈ H, alors l’EMV ηb de η est l’unique
solution de : n
1X ∂
Ti (Xj ) = A (b η1 , . . . , ηbs ) , i = 1, . . . , s. (11.1)
n j=1 ∂ηi
s
P n
P
Démonstration : ηb maximise Ti (Xj ) − nA (η1 , . . . , ηs ) . En différenciant,
ηi
i=1 j=1
∂2
on en déduit que ηb est solution de (11.1), car le fait que A soit définie
∂ηi ∂ηj
positive implique l’existence d’une solution unique pour (11.1) maximisant la vrai-
semblance.
de R∞ ), alors :
Πn (x1 , . . . , xn , xn+1 , . . .) = (x1 , . . . , xn )
est de loi Pθ⊗n , c’est-à-dire un échantillon de taille n de la loi Pθ . A l’ordre n, un
estimateur peut se noter :
δn = δn (x1 , . . . , xn ) = δn (Πn (x)) avec x ∈ R∞ .
Une propriété asymptotique de convergence d’une suite d’estimateurs (δn ) est donc
relative à Pθ⊗∞ . De manière abusive, on se réfèrera à Pθ , et on appellera δn un
estimateur, plutôt que de considérer une suite d’estimateurs (δn )n∈IN ∗ .
Supposons que la loi des observations soit paramétrée par θ ∈ Θ, et que l’on
cherche à estimer g(θ).
Lemme 11.3.1 Une condition suffisante pour que δn converge en probabilité vers
g(θ) est que :
∀θ ∈ Θ, Eθ (δn − g(θ))2 −→ 0.
n→+∞
Démonstration :
C’est une application de Bienaymé-Tchebychev :
∀a > 0, Eθ (δn − g(θ))2 ≥ a2 Pθ (|δn − g(θ)| ≥ a) .
Statistique mathématique
c Michel CARBON
11.3 Propriétés asymptotiques des estimateurs 229
Théorème 11.3.1 (i) Soit (δn )n∈IN ∗ une suite d’estimateurs de g (θ) du risque
quadratique : R (θ, δn ) = Eθ (δn − g (θ))2 . Alors :
R (θ, δn ) −→ 0, ∀θ ∈ Θ,
n→+∞
où bn est le biais de δn .
(iii) En particulier, δn est convergent s’il est sans biais, et si :
∀θ ∈ Θ, varθ (δn ) −→ 0.
n→+∞
Démonstration :
(i) est établi dans le lemme précédent.
(ii) on a : ∀θ ∈ Θ,
Statistique mathématique
c Michel CARBON
230
CHAPITRE 11. MÉTHODE DU MAXIMUM DE VRAISEMBLANCE
D’après Khintchine,
n
1X 2 P P
xi −→ σ 2 et xn −→ 0,
n i=1
donc :
0 P
sn2 −→ σ 2
0
et sn2 est un ESB convergent de σ 2 .
1
Définition 11.3.2 On dit que l’erreur |δn − g(θ)| tend vers 0 à la vitesse s’il
kn
existe une fonction de répartition continue H telle que :
0 kn
Cela ne définit pas kn de manière unique, car toute suite (kn ) telle que a une
kn0
limite finie strictement positive, convient également. Bien entendu, cela veut aussi
dire que kn |δn − g(θ)| converge en loi vers H (ou converge faiblement) :
L
kn |δn − g(θ)| −→ H.
n→+∞
11.3.3 Loi-limite
Par définition de la convergence en loi, on a :
L
Yn −→ Y ⇔ ∀t, P (Y = t) = 0 : P (Yn ≤ t) −→ P (Y ≤ t).
n→+∞ n→+∞
Statistique mathématique
c Michel CARBON
11.3 Propriétés asymptotiques des estimateurs 231
L
Théorème 11.3.2 Yn −→ Y ⇔ ∀f fonction réelle continue bornée,
n→+∞
E [f (Yn )] −→ E [f (Y )] .
n→+∞
Théorème 11.3.3 Soit (Xi )i=1,...,n une suite de v.a.r. i.i.d. (un échantillon indé-
pendant, de la loi de X) avec E(Xi ) = ζ et var(Xi ) = σ 2 . Alors :
√ L
−→ N 0, σ 2
n(X n − ζ)
n→+∞
et √
n(X n − ζ) L
−→ N (0, 1) .
σ n→+∞
L P P
Théorème 11.3.4 Si Yn −→ Y, si An −→ a, si Bn −→ b, alors :
n→+∞ n→+∞ n→+∞
L
An + Bn Yn −→ a + bY
n→+∞
L
Corollaire 11.3.1 Si Yn −→ Y, si yn converge vers un point de continuité y de
n→+∞
H (f.d.r. de Y ), alors :
P (Yn ≤ yn ) −→ H(y).
n→+∞
Démonstration : On a
Bn = 1 et An = y − yn .
√ L
Théorème 11.3.5 Si n(Tn − θ) −→ N (0, τ 2 ) , si f 0 (θ) existe et est non nul,
n→+∞
alors :
√ L
2
n [f (Tn ) − f (θ)] −→ N 0, τ 2 [f 0 (θ)] .
n→+∞
Statistique mathématique
c Michel CARBON
232
CHAPITRE 11. MÉTHODE DU MAXIMUM DE VRAISEMBLANCE
D’où : √ L
n (f (Tn ) − f (θ)) −→ N 0, τ 2 (f 0 (θ))2 .
n→+∞
1 Pn
2 σ2 1 P
= 2
E(X i ) − + 2 E(Xi Xj )
n i=1 n n i6= j
1 2 2 σ2 1
= 2
(n(σ + θ )) − + 2 n(n − 1) θ2
n n n
nθ2 n(n − 1) 2
= + θ = θ2 .
n2 n2
Donc δn est un ESB de θ2 , fonction de X, statistique exhaustive complète, et d’après
Lehmann-Scheffé, il est ESBUVM. On sait que :
√ L
n(X − θ) −→ N 0, σ 2 ,
n→+∞
Par suite :
√ √ 2 σ2 L
n(δn − θ2 ) = n(X − θ2 ) − √ −→ N 0, 4σ 2 θ2 ,
n n→+∞
Statistique mathématique
c Michel CARBON
11.3 Propriétés asymptotiques des estimateurs 233
n(Tn − θ)2 L 1 2 00
n [f (Tn ) − f (θ)] = [f 00 (θ) + Rn ] −→ τ f (θ) · χ21
2 n→+∞ 2
par un raisonnement similaire au précédent.
σ2
2 2 L
n X − − θ = nX − σ 2 −→ σ 2 (χ21 − 1)
2
n n→+∞
ce qui montre que : R (θ, δn ) −→ 0, ∀θ ∈ Θ est une condition suffisante pour que
n→+∞
δn soit convergent. En particulier, si pour tout n, δn est non biaisé, il suffit que :
Tr(Vθ (δn )) −→ 0, ∀θ ∈ Θ.
n→+∞
Statistique mathématique
c Michel CARBON
234
CHAPITRE 11. MÉTHODE DU MAXIMUM DE VRAISEMBLANCE
D’autre part, les propriétés suivantes sont équivalentes pour une suite (Yn ) de
vecteurs aléatoires de dimension p.
L
Yn −→ Y
n→+∞
L P P
Propriété 11.3.1 Si Yn −→ Y, si An −→ a, si Bn −→ b, alors
n→+∞ n→+∞ n→+∞
L
An + Bn Yn −→ a + bY.
n→+∞
√ L
Théorème 11.3.7 Si n(Yn − θ) −→ N (0, Σ) dans RP , si f est une applica-
n→+∞
P q ∂
tion continûment différentielle de R dans R , de matrice jacobienne J = fi
∂θj
(matrice q × p), alors :
√ L
n [f (Yn ) − f (θ)] −→ N 0, J · Σ · J t .
n→+∞
Statistique mathématique
c Michel CARBON
11.3 Propriétés asymptotiques des estimateurs 235
[g 0 (θ)]2
v(θ) ≥
I(θ)
[g 0 (θ)]2
(δ n’est pas nécessairement sans biais). Si v(θ) = , on dit que δn est asymp-
I(θ)
totiquement efficace.
Démonstration :
Il est aisé de montrer que l’inégalité :
équivaut à
n
1X fθ (xi )
ln < 0.
n i=1 fθ0 (xi )
Statistique mathématique
c Michel CARBON
236
CHAPITRE 11. MÉTHODE DU MAXIMUM DE VRAISEMBLANCE
Pour n grand, la densité de X est plus grande en θ0 qu’ailleurs, avec une plus grande
probabilité. C’est une justification, a postériori de la méthode du MV.
Nous noterons Lθ (x) le logarithme de la vraisemblance :
n
X
Lθ (x1 , . . . , xn ) = ln fθ (xi ).
i=1
Alors, il existe une suite de racines θbn = θbn (x1 , . . . , xn ) de l’équation de vrai-
semblance :
∂
[fθ (x1 ) × · · · × fθ (xn )] = 0,
∂θ
ou, de manière équivalente :
0
X f 0 (xi )
θ
Lθ (x) = = 0,
i
fθ (xi )
Statistique mathématique
c Michel CARBON
11.3 Propriétés asymptotiques des estimateurs 237
est continue sur le compact [ϕ0 , ϕ00 ]. Cependant, comme Zn (θ0 )(ω) = 0, il existe alors
un maximum dans ]ϕ0 , ϕ00 [. Notons-le θbnε et on a :
bε bε
(∀a > 0), θn − θ0 < ε et Pθ0 θn − θ0 < ε → 1.
On peut ainsi construire la suite de racines θbn de l’énoncé par diagonalisation après
1
avoir posé ε = , r ∈ IN ∗ .
r
Alors :
√
L 1
n θn − θ0
b −→ N 0,
n→+∞ I1 (θ0 )
(on dit que θbn est asymptotiquement efficace).
1 Pn
|B 00 (x, θn∗ ) − B 00 (x, θ0 )| ≤ |B 00 (xk , θn∗ ) − B 00 (xk , θ0 )|
n k=1
≤ sup |B 00 (y, θn∗ ) − B 00 (y, θ0 )| .
y∈R
Statistique mathématique
c Michel CARBON
238
CHAPITRE 11. MÉTHODE DU MAXIMUM DE VRAISEMBLANCE
Puisque θn∗ est compris entre θbn et θ0 , et que θbn −→ θ0 p.s., on en déduit que :
n→+∞
θn∗ −→ θ0 p.s. D’après l’hypothèse d’uniforme continuité sur B 00 , on a :
n→+∞
Cas multidimensionnel
Les deux résultats précédents se généralisent au cas où Θ est un ouvert de RP .
La conclusion du 2e résultat est :
√
L
−→ N 0, I1−1 (θ0 ) ,
n θn − θ0
b
n→+∞
∂
- Si g est différentiable, de matrice jacobienne J(θ) = (matrice k × p),
∂θj
alors : √ L
n(θbn − θ0 ) −→ N 0, I1−1 (θ0 )
n→+∞
Statistique mathématique
c Michel CARBON
11.4 Modèles de mélange 239
implique que :
√
L
−→ N 0, J(θ0 ) I1−1 (θ0 ) J t (θ0 )
n g(θbn ) − g(θ0 )
n→+∞
!
(g 0 (θ0 ))2
(en dimension 1, la loi-limite est N 0, ). Donc, sous certaines condi-
I1 (θ0 )
tions de régularité, les EMV sont convergents et asymptotiquement efficaces.
Ces données (n = 381) proviennent d’une étude sur la migration de petits oiseaux.
Quelques mesures ont été effectuées. La longueur des ailes est mesurées en mm.
On voit que cet histogramme est de forme bimodale. Clairement, cela donne à
penser que l’on est en présence de deux populations différentes dans l’échantillon. Il
Statistique mathématique
c Michel CARBON
240
CHAPITRE 11. MÉTHODE DU MAXIMUM DE VRAISEMBLANCE
est évident que mâles et femelles oiseaux ont été mélangés dans l’échantillon. Il y a
une certaine proportion π d’oiseaux femelles et une autre proportion 1 − π d’oiseaux
mâles, mais on ne les connaît pas.
Pour modéliser une telle situation où on observe deux populations ayant un com-
portement différent, il va convenir d’associer une loi à chaque population. Ici, on
introduira une loi PF pour les longueurs d’ailes des oiseaux femelles et une loi PM
pour les ailes des mâles. Au vu de la forme bimodale constatée de l’histogramme, on
pourrait par exemple choisir des lois normales pour PF et PM avec des paramètres
différents.
Pour définir une variable X d’intérêt qui représente les m populations différentes,
il faut introduire tout d’abord une variable aléatoire U pour modéliser l’appartenance
ou non d’un individu à une des m populations. Considérons alors la variable U dont
la loi est discrète à valeurs dans {1, · · · , m} et telle que :
P (U = k) = πk , k = 1, · · · , m .
D’autre part, on considère les variables Vk de densité hθk , avec θk ∈ Θ pour chaque
k = 1, · · · , m. Bien entendu, on supposera les variables aléatoires U, V1 , · · · , Vm
indépendantes entre elles. On peut ainsi définir la variable aléatoire X par :
m
X
X= 1{U =k} Vk .
k=1
Statistique mathématique
c Michel CARBON
11.4 Modèles de mélange 241
m m
! !
X X
= πk P 1{U =k} Vk ≤ x U = k
k=1 k=1
m
X m
X m
X
= πk P (Vk ≤ x | U = k) = πk P (Vk ≤ x) = πk FVk (x) .
k=1 k=1 k=1
Comme les lois des Vk sont à densité, on en déduit, par dérivation que la loi de
X est à densité, donnée par :
m
X
fX (x) = πk hθk (x) .
k=1
Ξ = {θ1 , · · · , θm , π1 , · · · , πm−1 } .
Statistique mathématique
c Michel CARBON
242
CHAPITRE 11. MÉTHODE DU MAXIMUM DE VRAISEMBLANCE
(x − m1 )2 (x − m2 )2
p 1−p
= √ exp − + √ exp − ,
σ1 2π 2σ12 σ2 2π 2σ22
avec p ∈]0, 1[. On cherche à estimer les paramètres inconnus θ = (p, m1 , m2 , σ12 , σ22 ).
La vraisemblance s’écrit :
n n
(xi − m1 )2 (xi − m2 )2
Y 1 Y p 1−p
Lθ (x1 , · · · , xn ) = fθ (xi ) = exp − + exp −
i=1
(2π)n/2 i=1 σ1 2σ12 σ2 2σ22
n
(xi − m1 )2 (xi − m2 )2
n X p 1−p
= − ln(2π) + ln exp − + exp −
2 i=1
σ1 2σ12 σ2 2σ22
(xi − m1 )2
p(xi − m1 )
n exp −
∂ X σ13 2σ12
lθ (x1 , · · · , xn ) = 2
2
∂m1 p (x i − m 1 ) 1 − p (x i − m 2 )
i=1 exp − + exp −
σ1 2σ12 σ2 2σ22
∂
lθ (x1 , · · · , xn ) = · · ·
∂m2
L’annulation de ces dérivées (il y en a 5) n’amène pas à des solutions expli-
cites. Le fait, ici, que la vraisemblance s’exprime comme un produit de sommes rend
très souvent sa maximisation assez compliquée. Dans les modèles de mélange, très
souvent, on détermine l’estimateur du maximum de vraisemblance via des méthodes
numériques, typiquement l’algorithme EM .
Statistique mathématique
c Michel CARBON
11.4 Modèles de mélange 243
Statistique mathématique
c Michel CARBON
244
CHAPITRE 11. MÉTHODE DU MAXIMUM DE VRAISEMBLANCE
Statistique mathématique
c Michel CARBON
Chapitre 12
Estimation bayésienne
Le savant n’étudie pas la nature parce que cela est utile ; il l’étudie parce qu’il y
prend plaisir et il y prend plaisir parce qu’elle est belle. H. Poincaré
12.1 Introduction
Le raisonnement bayésien est ici caractérisé par la prise en compte d’idées “ a
priori ”, subjectives ou non, sur l’espace des paramètres Θ.
Ces idées a priori sont supposées être contenues dans la donnée d’une loi de
probabilité définie sur (Θ, T ) . Donc ce principe consiste à admettre l’existence d’une
probabilité τ (appelée “ probabilité a priori ”) sur (Θ, T ), résumant l’information sur
θ autre que celle fournie par l’expérience aléatoire.
Le risque doit alors être intégré par rapport à τ .
Plus précisément, on considère ici le problème d’estimation (P, g, L) où
P = (pθ (x) ; x ∈ Rn , θ ∈ Θ)
g = (g(θ) ; θ ∈ Θ)
L = (L(θ, δ) ; θ ∈ Θ , δ ∈ ∆)
On suppose de plus que l’espace des paramètres Θ est une intervalle réel, et que π(θ)
est une densité de probabilité sur Θ, densité associée à la mesure de probabilité τ .
Dans ces conditions, on peut définir la fonction de risque bayésien par :
245
246 CHAPITRE 12. ESTIMATION BAYÉSIENNE
Définition 12.1.2 Une règle de décision δ0 est dite règle de Bayès (ou règle bayé-
sienne) associée à la distribution a priori τ si :
rτ (δ0 ) ≤ rτ (δ), ∀δ ∈ ∆.
c’est-à-dire :
rτ (δ0 ) = inf rτ (δ) .
δ∈∆
Cette loi de densité fΘ (θ) est appelée loi a priori du paramètre θ, ou loi de
la variable Θ, notée usuellement, comme précédemment, par π(θ).
— La loi conditionnelle de X sachant que Θ = θ est :
fX,Θ (x, θ)
fXΘ=θ (x) = .
fΘ (θ)
Cette loi conditionnelle coïncide bien sûr avec fθ (x).
— La loi conditionnelle de Θ sachant que X = x est :
Il est important de noter aussi que, dans le contexte bayésien, la notation Pθ [A]
signifie : P [A | Θ = θ] et que Eθ [V ] signifie E [V | Θ = θ].
Statistique mathématique
c Michel CARBON
12.3 Le risque bayésien 247
Le théorème qui suit est un théorème important pour trouver des estimateurs bayé-
siens.
Théorème 12.3.1 Dans le cadre d’un problème d’estimation bayésienne, avec les
notations précédentes, on note δ0 (X) un estimateur de g(θ). Supposons, pour tout
x ∈ Rn , que la fonction :
hx (d) = E [L(Θ, d) | X = x]
atteigne son minimum en d = δ0 (x). Alors, δ0 (X) est un estimateur bayésien pour
g(θ).
Statistique mathématique
c Michel CARBON
248 CHAPITRE 12. ESTIMATION BAYÉSIENNE
Remarque 12.3.2 On a supposé aussi ici que nous sommes dans le cas absolument
continue, et écrivons toujours des intégrales. Dans le cas discret, les résultats restent
vrais en remplaçant les intégrales par des sommes.
Remarque 12.3.3 Le théorème met en évidence le fait que, si l’on veut trouver un
estimateur bayésien, il va tout d’abord falloir déterminer la loi a posteriori, c’est-à-
dire la loi conditionnelle de Θ sachant que X = x.
A toutes fins utiles, on rappelle ici les différentes formes du théorème de Bayes (à
connaître), ce qui pourra être très utile pour résoudre les problèmes liés à l’estimation
bayésienne.
P [A | Bj ]P [Bj ]
P [Bj | A] = n . (12.1)
X
P [A | Bi ]P [Bi ]
i=1
P [X = x | Y = y]P [Y = y]
P [Y = y | X = x] = X .
P [X = x | Y = u]P [Y = u]
u
Statistique mathématique
c Michel CARBON
12.3 Le risque bayésien 249
L’équation (12.2) nous permet, par similarité de donner une formule analogue
pour le cas absolument continu.
Théorème 12.3.4 (de Bayès pour les variables absolument continues)
Si X et Y sont des variables aléatoires absolument continues, et si x est tel que
fX (x) > 0, alors pour tout y, on a :
fXY =y (x)fY (y)
fYX=x (y) =Z . (12.3)
fXY =u (x)fY (u) du
Pn
xj
Pn Γ(α + β) α−1
= Cθ j=1 (1 − θ)n− j=1 xj
θ (1 − θ)β−1 1[0,1] (θ)
Γ(α)Γ(β)
Pn Pn
xj −1 xj −1
= C 0 θα+ j=1 (1 − θ)β+n− j=1 1[0,1] (θ)
Γ(α0 + β 0 ) α0 −1 0
= 0 0
θ (1 − θ)β −1 1[0,1] (θ) ,
Γ(α )Γ(β )
Statistique mathématique
c Michel CARBON
250 CHAPITRE 12. ESTIMATION BAYÉSIENNE
avec : n n
X X
0 0
α =α+ xj et β = β + n − xj .
j=1 j=1
et
1
exp −(θ − µ0 )2 /2σ02 .
π(θ) = √
2πσ0
n
Donc, pour tout x ∈ R et tout θ ∈ R, on obtient :
πx (θ) = Cfθ (x)π(θ)
n
!
1 1 X 1
(xj − θ)2 exp −(θ − µ0 )2 /2σ02
= C exp − √
(2πσ 2 )n/2 2σ 2 j=1 2πσ0
n
!
1 X 1
= C 0 exp − 2 (xj − θ)2 − 2 (θ − µ0 )2
2σ j=1 2σ0
n
! !
1 X 1
= C 0 exp − 2 (xj − x)2 + n(θ − x)2 − 2 (θ − µ0 )2
2σ j=1
2σ0
00 1 2 1 2
= C exp − 2 n(θ − x) − 2 (θ − µ0 )
2σ 2σ0
2 2
2
1 µ0 /σ0 + nx/σ
= C 000 exp − θ−
1
2 1/σ2 +n/σ 1/σ02 + n/σ 2
2
0
2 /2σ 2
= C 000 e−(θ−µ∗ ) ∗
1 2 2
= √ e−(θ−µ∗ ) /2σ∗
2πσ∗
avec :
µ0 /σ02 + nx/σ 2
µ∗ =
1/σ02 + n/σ 2
1
σ∗2 = .
1/σ02 + n/σ 2
Statistique mathématique
c Michel CARBON
12.3 Le risque bayésien 251
En conclusion, la loi a posteriori est la loi N (µ∗ , σ∗2 ) où µ∗ et σ∗2 sont des paramètres
donnés ci-dessus.
Remarque 12.3.4 Dans l’exemple (15.2.1), on note que si la loi a priori est une
loi Beta, alors la loi a posteriori est aussi une loi Beta, quel que soit le vecteur x
observé. On dit alors que la famille F = {B(α, β) ; α > 0, β > 0} est une famille
conjuguée pour le modèle i.i.d. de Bernouilli B(1, θ).
Remarque 12.3.5 Dans l’exemple (12.3.2), on note que si la loi a priori est une loi
normale, alors la loi a posteriori est aussi une loi normale, quel que soit le vecteur
x observé. On dit alors que la famille F = {N (µ0 , σ02 ) ; µ0 ∈ R , σ02 > 0} est une
famille conjuguée pour le modèle i.i.d. N (θ, σ 2 ) avec σ 2 connu.
Propriété 12.3.1 Si U suit une loi Γ(α, λ), et si V = 1/U , alors V suit une loi
gamma inverse(α, λ).
Statistique mathématique
c Michel CARBON
252 CHAPITRE 12. ESTIMATION BAYÉSIENNE
c’est-à-dire : +∞
λα 1 −λ/v
Z
E [ϕ(V )] = ϕ(v) e dv ,
0 Γ(α) v α+1
λα 1 −λ/v
et la densité de la loi gamma inverse(α, λ) est : e 1R∗+ (v).
Γ(α) v α+1
Propriété 12.3.2 Si V suit une loi gamma inverse(α, λ), alors on a :
λ
si 1 < α < +∞
α−1
E[V ] =
+∞ si 0 < α ≤ 1
et
λ2
si 2 < α < +∞
(α − 1)2 (α − 2)
var[V ] =
+∞ si 0<α≤2.
Démonstration : On a :
Z +∞ α Z +∞ α
λ 1 −λ/v λ 1 −λ/v
E [V ] = v α+1
e 1R∗+ (v) dv = e dv ,
−∞ Γ(α) v 0 Γ(α) v α
ce qui s’écrit encore :
+∞
λα Γ(α − 1) λα−1 1 −λ/v
Z
E [V ] = e dv
Γ(α) λα−1 0 Γ(α − 1) v α
Cette dernière intégrale est définie pour α > 1 (et vaut +∞ sinon), et la fonction à
intégrer n’est autre que la densité d’une loi gamma inverse(α − 1, λ) (et donc cette
dernière intégrale vaut 1).
En remarquant que : Γ(α) = (α − 1)Γ(α), on obtient finalement :
λ
si 1 < α < +∞
α−1
E[V ] =
+∞ si 0 < α ≤ 1
Cette dernière intégrale est définie pour α > 2 (et vaut +∞ sinon), et la fonction à
intégrer n’est autre que la densité d’une loi gamma inverse(α − 2, λ) (et donc cette
Statistique mathématique
c Michel CARBON
12.3 Le risque bayésien 253
La variance (pour α > 2, sinon la variance est infinie) s’en déduit immédiatement :
2
λ2 λ2
λ
var [V ] = − = .
(α − 1)(α − 2) α−1 (α − 1)2 (α − 2)
et
λα 1 −λ/θ
π(θ) = e 1R∗+ (θ) .
Γ(α) θα+1
Ainsi, pour tout x ∈]0, +∞[n et tout θ > 0, on obtient :
n
!
1 1 X λα 1 −λ/θ
= C exp − (xj − µ)2 e
(2πθ)n/2 2θ j=1 Γ(α) θα+1
( n
) !
1 1X
= C0 n exp − (xj − µ)2 + λ /θ
θ 2 +α+1 2 j=1
1
= C0 e−λ0 /θ
θα0 +1
λα0 0 1 −λ0 /θ
= e
Γ(α0 ) θ 0 +1
α
avec : n
n 1X
α0 = α + et λ0 = λ + (xj − µ)2 .
2 2 j=0
Statistique mathématique
c Michel CARBON
254 CHAPITRE 12. ESTIMATION BAYÉSIENNE
hx (d) = E [L(Θ, d) | X = x]
Démonstration :
On a : h(d) = E [(U − d)2 ] = E [U 2 − 2U + d2 ] = d2 − 2d E[U ] + E[U 2 ]. Ce
polynôme en d admet un minimum absolu au point où la dérivée s’annule. Le calcul,
aisé, donne : d = E[U ].
Conséquence :
Pour une fonction de perte quadratique L(θ, d) = (d − g(θ))2 , dans un problème
d’estimation bayésienne, la fonction :
Statistique mathématique
c Michel CARBON
12.4 Exemples de calculs d’estimateurs bayésiens 255
Γ(α0 + β 0 ) α0 −1
Z
0
= θ 0 0
θ (1 − θ)β −1 dθ
Θ Γ(α )Γ(β )
α + nj=1 xj
P
=
α+β+n
α+β α n
= + x.
α+β+n α+β α+β+n
Donc l’estimateur bayésien de θ est :
α+β α n
δ∗ (X) = + X.
α+β+n α+β α+β+n
On pourra noter que cet estimateur est une moyenne pondérée de la moyenne
α
a priori et de la moyenne de l’échantillon X. On remarque enfin aussi
α+β
que, plus n est grand, et plus le poids est sur X, ce qui n’est pas surprenant.
— (ii) Le cas où g(θ) = 1/θ. On a alors :
= E [1/Θ | X = x]
1
Γ(α0 + β 0 ) α0 −1
Z
0
= 0 0
θ (1 − θ)β −1 dθ
0 Γ(α )Γ(β )
0
α + β0 − 1
si α0 > 1
α0 − 1
=
si α0 ≤ 1
+∞
α+β+n−1
si α + nx > 1
α + nx − 1
=
+∞ si α + nx ≤ 1
Statistique mathématique
c Michel CARBON
256 CHAPITRE 12. ESTIMATION BAYÉSIENNE
δ∗ (x) = E [Θ2 | X = x]
1
Γ(α0 + β 0 ) α0 −1
Z
0
= θ2 0 0
θ (1 − θ)β −1 dθ
0 Γ(α )Γ(β )
1
Γ(α0 + β 0 ) Γ(α0 + 2)Γ(β 0 ) Γ(α0 + β 0 + 2) α0 +1
Z
0
= θ (1 − θ)β −1 dθ
Γ(α0 )Γ(β 0 ) Γ(α0 + β 0 + 2) 0
0
Γ(α + 2)Γ(β ) 0
(α0 + 1)α0
=
(α0 + β 0 + 1)(α0 + β 0 )
(α + nx + 1)(α + nx)
=
(α + β + n + 1)(α + β + n)
(α + nX + 1)(α + nX)
δ∗ (X) =
(α + β + n + 1)(α + β + n)
2
Enfin, on peut remarquer que, pour n grand, δ∗ (X) ≈ X , ce qui n’est pas
surprenant.
µ0 /σ02 + nx/σ 2
µ∗ =
1/σ02 + n/σ 2
1
σ∗2 = .
1/σ02 + n/σ 2
Statistique mathématique
c Michel CARBON
12.4 Exemples de calculs d’estimateurs bayésiens 257
Z d Z +∞
= (d − u)f (u) du + (u − d)f (u) du
−∞ d
Un calcul aisé nous donne :
Z d Z +∞
0
h (u) = f (u) du − f (u) du .
−∞ d
Statistique mathématique
c Michel CARBON
258 CHAPITRE 12. ESTIMATION BAYÉSIENNE
Démonstration
On a : h(d) = E[V (U − d)2 ] = E[V U 2 ] − 2dE[V U ] + d2 E[V ].On procède ensuite
comme dans la démonstration de la propriété (12.4.1).
Conséquence :
Dans un problème d’estimation bayésienne avec erreur quadratique pondérée, la
fonction :
Cas particulier
Dans le cas particulier où g(θ) = θ et ω(Θ) = 1/θ, l’équation précédente s’écrit :
1
δ∗ (x) =
E [ 1/ω(Θ) | X = x]
Statistique mathématique
c Michel CARBON
12.4 Exemples de calculs d’estimateurs bayésiens 259
On obtient donc :
n
1X
λ+ (xj − µ)2
1 2 j=0
δ∗ (x) = = n ,
E [ 1/ω(Θ) | X = x] α+
2
ce qui donne finalement :
n
2α λ n 1X
δ∗ (x) = + (Xj − µ)2 .
2α + n α 2α + n n j=1
L’estimateur bayésien δ∗ (x) est donc une moyenne pondérée de la moyenne harmo-
n
λ 1X
nique a priori et de l’estimateur non bayésien usuel (Xj − µ)2 .
α n j=1
Statistique mathématique
c Michel CARBON
260 CHAPITRE 12. ESTIMATION BAYÉSIENNE
Statistique mathématique
c Michel CARBON
Chapitre 13
Le problème, c’est que si l’on ne prend pas de risque, on risque encore bien
davantage. E. Jong
Définition 13.1.1 Un estimateur δ∗ (X) est minimax pour g(θ) si, pour tout autre
estimateur δ(X), on a :
supRδ∗ (θ) ≤ supRδ (θ) .
θ∈Θ θ∈Θ
Autrement dit, on a :
261
CHAPITRE 13. ESTIMATEURS MINIMAX ET ESTIMATEURS
262 ADMISSIBLES
Démonstration :
On suppose que δ∗ (X) est un estimateur bayésien et que sa fonction de risque
associée Rδ∗ (θ) est constante.
Soit π(θ) la densité de la loi a priori, loi par rapport à laquelle δ∗ (X) est un
estimateur bayésien. Soit δ(X) un estimateur quelconque de g(θ).
On a a alors :
Z
supRδ∗ (θ) = Rδ∗ (θ)π(θ) dθ
θ∈Θ Θ
Z
≤ Rδ (θ)π(θ) dθ
Θ
Z
≤ sup Rδ (θ) π(θ) dθ
Θ θ∈Θ
Z
= sup Rδ (θ) π(θ) dθ = sup Rδ (θ)
θ∈Θ Θ θ∈Θ
La première égalité ci-dessus provient du fait que Rδ∗ (θ) est constante. La pre-
mière inégalité est une conséquence du fait que δ∗ (X) est une estimateur bayésien
par rapport à la loi a priori de densité π(θ). Le reste est trivial à établir.
On a donc : supRδ∗ (θ) ≤ sup Rδ (θ). Et ceci étant vrai pour tout estimateur δ(X),
θ∈Θ θ∈Θ
on en conclut que δ∗ (X) est minimax.
Statistique mathématique
c Michel CARBON
13.1 Estimateurs minimax 263
(α + β)2 − n = 0 et n − 2α(α + β) = 0 .
Remarque 13.1.1 L’estimateur minimax δ∗ (X) donné à l’équation (13.2) est une
moyenne pondérée de 1/2 et de X, avec surtout beaucoup de poids sur X. Il y a une
raison intuitive. Bien que X soit sans biais pour θ, sa variance θ(1 − θ)/n est grande
si θ est proche de 1/2 et petite si θ est éloigné de 1/2. En remplaçant X par δ∗ (X),
on combat cet effet.
Statistique mathématique
c Michel CARBON
CHAPITRE 13. ESTIMATEURS MINIMAX ET ESTIMATEURS
264 ADMISSIBLES
Théorème 13.1.2 Soit (πk (θ) ; k ≥ 1) une suite de lois a priori. Soient (δk (X) ; k ≥
1), les estimateurs bayésiens correspondants à ces lois a priori. Soit rk = r(πk , δk )
le risque bayésien a priori pour l’estimateur δk (X), c’est-à-dire :
Z
rk = rk = r(πk , δk ) = E[L(Θ, δk (X))] = Rδk (θ)πk (θ) dθ .
Θ
Démonstration :
Supposons que δ∗ (X), δk (X) et πk (θ) sont choisis comme indiqués dans l’énoncé
du théorème. Soit δ(X) un autre estimateur de g(θ). On a alors :
Z
sup Rδ∗ (θ) = lim Rδk (θ)πk (θ) dθ
θ∈Θ k−→+∞ Θ
Z
≤ lim Rδ (θ)πk (θ) dθ
k−→+∞ Θ
Z
≤ lim supRδ (θ) πk (θ) dθ
k−→+∞ Θ θ∈Θ
Z
= supRδ (θ) lim π(θ) dθ = sup Rδ (θ) .
θ∈Θ k−→+∞ Θ θ∈Θ
On a donc :
sup Rδ∗ (θ) ≤ sup Rδ (θ) .
θ∈Θ θ∈Θ
Ceci étant vrai pour tout estimateur δ(X), on conclut que δ∗ (X) est minimax.
Statistique mathématique
c Michel CARBON
13.2 Les estimateurs admissibles 265
θ2 + n/σ 2
= .
(1/k + n/σ 2 )2
Le risque bayésien a priori est donc :
rk = r(πk , δk )
Z +∞
= Rδk (θ)π(θ) dθ
−∞
+∞
θ2 + n/σ 2
Z
= πk (θ) dθ
−∞ (1/k + n/σ 2 )2
1/k + n/σ 2 1
= 2 2
= .
(1/k + n/σ ) 1/k + n/σ 2
On obtient donc :
σ2
lim rk =
.
k−→+∞ n
Or, la fonction de risque de l’estimateur X est précisément σ 2 /n. Le théorème
(13.1.2) nous permet donc de conclure que X est minimax.
Statistique mathématique
c Michel CARBON
CHAPITRE 13. ESTIMATEURS MINIMAX ET ESTIMATEURS
266 ADMISSIBLES
Théorème 13.2.1 Supposons que le modèle statistique choisi soit tel que les fonc-
tions de risque soient continues. Si δ∗ (X) est un estimateur bayésien par rapport à
une loi a priori de densité π(θ) vérifiant π(θ) > 0 pour tout θ ∈ Θ, alors δ∗ (X) est
admissible.
Démonstration :
On suppose que δ∗ (X) est un estimateur bayésien par rapport à une loi a priori
de densité π(θ) vérifiant π(θ) > 0 pour tout θ ∈ Θ et que le modèle statistique choisi
soit tel que les fonctions de risque soient continues.
S’il existait un estimateur δ(X) satisfaisant aux deux conditions (a) et (b) ci-
dessus, alors, grâce à l’hypothèse de continuité des fonctions de risque et au fait que
π(θ) > 0 pour tout θ ∈ Θ, on aurait alors :
Z Z
Rδ (θ)π(θ) dθ < Rδ∗ (θ)π(θ) dθ ,
Θ Θ
et cela serait en contradiction avec le fait que δ∗ (X) est un estimateur bayésien par
rapport à une loi a priori de densité π(θ).
Le théorème précédent est un bon outil pour montrer qu’un estimateur est ad-
missible. On pourra trouver des résultats plus avancés dans la littérature.
Exemple 13.2.1 Supposons que X1 , X2 , · · · , Xn soient n variables aléatoires i.i.d.
de loi N (µ, θ), de moyenne µ connue. On suppose aussi que la fonction de perte est
l’erreur quadratique. Un estimateur naturel de θ est :
n
1X
δ(X) = (Xj − µ)2 . (13.3)
n j=1
C’est un estimateur E.S.B.U.V.M.. C’est aussi l’estimateur qu’on obtient par maxi-
mum de vraisemblance.
Montrons qu’il n’est pas admissible. Pour c > 0, posons :
n
1X
δc (X) = (Xj − µ)2 . (13.4)
n j=1
!2
n 2
X (Xj − µ)
= θ 2 Eθ c −1
j=1
θ
= θ2 E[(cU − 1)2 ]
Statistique mathématique
c Michel CARBON
13.2 Les estimateurs admissibles 267
n
X
avec U = (Xj − µ)2 /θ ∼ χ2n .
j=1
1
Il est aisé de voir que le c qui minimise cette dernière expression est : c = .
n+2
1
En conclusion, si on choisit c 6= , alors l’estimateur δc (X) donné par l’équa-
n+2
tion (13.4) n’est pas admissible. En particulier, l’estimateur usuel donné par l’équa-
tion (13.3) n’est pas admissible.
Statistique mathématique
c Michel CARBON
CHAPITRE 13. ESTIMATEURS MINIMAX ET ESTIMATEURS
268 ADMISSIBLES
Statistique mathématique
c Michel CARBON
Chapitre 14
14.1 Introduction
Un des problèmes important et utile en estimation fonctionnelle non paramé-
trique est l’estimation de la densité. Il s’agit ici d’estimer une fonction f (x) d’un
nombre fini x1 , x2 , · · · , xn d’observations. Il faut donc, à partir de ces observations,
être capable d’estimer f (x) pour chaque x de R. Dans toute la suite, nous suppose-
rons que le phénomène étudié possède une loi à densité f .
14.2 L’histogramme
14.2.1 Présentation
Bien sûr, l’histogramme est un estimateur fruste de la densité. Supposons que les
n observations soient issues d’une loi à densité f à support borné [a,b[. Pour estimer
cette densité f par la méthode de l’histogramme, on va approcher cette densité par
un histogramme, qui est une fonction en escaliers, on découpe [a, b[ en k classes
[αi ; αi+1 [ où i = 1, · · · , k, avec a = α1 et b = αk+1 .
L’estimateur histogramme s’écrit alors : ∀ t ∈ [a, b[, ∃ i ∈ {1, · · · , k} tel que
t ∈ [αi , αi+1 [ et
fi
fˆn (t) = ,
αi+1 − αi
où fi est la fréquence du nombre de points de la classe correspondante.
269
CHAPITRE 14. ESTIMATION NON PARAMÉTRIQUE DE LA
270 DENSITÉ
où
n
X
fi = 1[αi ,αi+1 [ (xj ) ,
j=1
soit encore :
k n
X fi X
fˆn (t) = 1[αi ,αi+1 [ (xj ) .
i=1
n(αi+1 − αi ) j=1
Pour simplifier les notations, on supposera maintenant les k classes de même largeur,
c’est-à-dire que pour tout i = 1, · · · , k , αi+1 − αi = b(n).
On peut remarquer que la fonction fˆn (t) est elle-même une densité.
Il est intuitivement évident que, pour que l’estimateur histogramme s’approche
de la vraie densité f inconnue, il est nécessaire que b(n) tende vers zéro quand n tend
vers l’infini. C’est le problème de l’approche d’une fonction continue (si la densité
est continue) par une suite de fonctions étagées.
Lorsque b(n) tend vers zéro, il est aussi nécessaire qu’il y ait de plus en plus de
points qui soient dans chaque intervalle de largeur b(n). La condition est précisément
que :
nb(n) −−−−→ +∞ ,
n→+∞
Statistique mathématique
c Michel CARBON
14.2 L’histogramme 271
L’exemple ci-dessus est l’histogramme bâti à partir des données du temps entre
deux éruptions du geyser Old Faithful dans le parc national de Yellow Stone. On
peut noter une bimodalité bien visible. La densité sous-jacente ne fait pas partie des
densités connues. Il faut donc développer des outils adéquats.
Cette fonction de répartition empirique est visualisée sur le graphe ci-dessus avec
les données de Old Faithful.
Cette fonction de répartition empirique assigne une probabilité 1/n en chaque
valeur de l’échantillonnage X1 , · · · , Xn . Cette fonction F̂n croissante est étagée, et
n’a pas de densité. On ne peut donc utiliser directement cette fonction de répartition
empirique pour estimer la densité.
Cependant, comme on suppose f continue, on peut définir la densité comme la
limite suivante :
F (t + h) − F (t − h)
f (t) = lim .
h→0 2h
Statistique mathématique
c Michel CARBON
CHAPITRE 14. ESTIMATION NON PARAMÉTRIQUE DE LA
272 DENSITÉ
F̂n (t + h) − F̂n (t − h)
fˆn (t) = .
2h
F (t + h) − F (t − h)
Pour n assez grand, on aimerait que fˆn (t) soit proche de : , et
2h
pour h petit, que cette dernière quantité soit alors proche de f (t).
On peut alors espérer que pour h = hn tendant vers 0 quand n tend vers l’infini,
l’estimateur fˆn (t), appelé estimateur naïf de la densité, soit un estimateur convergent
de f (t). Pour des suites de hn bien adaptées, la conjecture sera confirmée dans un
théorème ci-après.
On pourra noter que l’estimateur fˆn (t) est lui-même une densité de probabilité.
En effet, comme il est clairement positif, il suffit de montrer que :
Z +∞
fˆn (t) dt = 1 .
−∞
De (14.1), on a :
Alors, on a aisément :
Z +∞ n Z +∞ n Z xj +h
1 X 1 X
fˆn (t) dt = Ij (t) dt = dt = 1 .
−∞ 2nh j=1 −∞ 2nh j=1 xj −h
De (14.2), on en déduit que : n F̂n (t + h) − F̂n (t − h) suit une loi binomiale B(n, p)
où p est la probabilité qu’un Xj se trouve dans l’intervalle ]t − h, t + h]. Ainsi :
p = F (t + h) − F (t − h) .
Par suite : h i F (t + h) − F (t − h)
E fˆn (t) = .
2h
Le biais est alors :
h
ˆ
i F (t + h) − F (t − h)
B(t) = E fn (t) − f (t) = − f (t) ,
2h
Statistique mathématique
c Michel CARBON
14.2 L’histogramme 273
En effet, on a :
2 2
E fˆn (t) − f (t) = E fˆn (t) − E fˆn (t) + E fˆn (t) − f (t) .
où DP , le produit, vaut :
h i h i
E fˆn (t) − E fˆn (t) E fˆn (t) − f (t) = E fˆn (t) − f (t) E fˆn (t) − E fˆn (t) ,
car le terme E fˆn (t) − f (t) est déterministe. Enfin, il est clair que le terme
h i
E fˆn (t) − E fˆn (t) = 0, ce qui donne immédiatement (14.8).
2
Les hypothèses du théorème impliquent que E fˆn (t) − f (t) −−−−→ 0. La
n→+∞
convergence en moyenne quadratique impliquant la convergence en probabilité, le
théorème est démontré.
Statistique mathématique
c Michel CARBON
CHAPITRE 14. ESTIMATION NON PARAMÉTRIQUE DE LA
274 DENSITÉ
Comme on doit effectuer le calcul sur le support [a, b] tout entier, il nous faut
repréciser les choses quelque peu. Le support [a,b] est partitionné en k classes de
longueurs égales de 2h, ces classes étant notées [αj , αj+1 [. Posons, pour tout j =
1, · · · , k : Z αj+1
pj = f (t) dt = E 1[αj ,αj+1 [ (X1 ) .
αj
Statistique mathématique
c Michel CARBON
14.2 L’histogramme 275
Alors, on a :
b k Z αj+1 k k
pj (1 − pj )
Z h
ˆ
i X
ˆ
hi X 1 1 X 2
V ar fn (t) dt = V ar fn (t) dt = = − p .
a j=1 αj j=1
2nh 2nh 2nh j=1 j
En conséquence de quoi, on a :
!2
αj+1
1 2 (f 0 (αj ))2 αj+1 αj+1
Z Z Z
2
(f (t)) dt − pj = (t − u) du dt + O(h4 ) .
αj 2h 4h2 αj αj
Statistique mathématique
c Michel CARBON
CHAPITRE 14. ESTIMATION NON PARAMÉTRIQUE DE LA
276 DENSITÉ
Donc :
k
! k
Z αj+1
X 1 1 1 X 2
M ISE(fˆn )(hn ) = (f (t))2 dt − p2j + − p
j=1 αj 2h 2nh 2nh j=1 j
b
8h2
Z
0 2 1 3 1
= (f (x)) dx + O(h ) + +O ,
3 a 2nh n
puisque k · O(h4 ) = 0(h3 ). On vient donc d’établir le résultat suivant :
Théorème 14.2.3 Si on suppose que la densité f est deux fois continûment diffé-
rentiable et à support dans [a, b], si h est la fenêtre de l’estimateur histogramme fˆn
telle que hn tende vers 0 quand n tend vers l’infini, alors on a asymptotiquement :
8h2 b 0
Z
ˆ 2 1 3 1
M ISE(fn )(hn ) = (f (x)) dx + + O(h ) + O
3 a 2nh n
| {z } | {z }
terme principal du risque terme résiduel
Z b
2
Supposons que nous connaissions la quantité (f 0 (x)) dx. Alors dans ce cas, on
a
pourrait calculer le terme principal du M ISE(fˆn )(hn ). Cela nous permettrait alors
de trouver la valeur qui minimiserait le terme principal du risque. En effet, si on
calcule le minimum de la fonction :
8h2 b 0
Z
2 1
h 7−→ (f (x)) dx + ,
3 a 2nh
alors ce minimum est atteint au point :
Z b −1/3
32 0 2
hopt = (f (x)) dx n−1/3 .
3 a
Cette fenêtre optimale est en général inaccessible au statisticien, car la densité f
(et donc sa dérivée) est inconnue. Cependant, et c’est ce qu’il faut retenir, elle nous
indique que la fenêtre optimale doit être de l’ordre de n−1/3 , lorsque n est grand.
En outre, en injectant cette valeur de hopt dans l’expression du M ISE, on ob-
tient :
1/3 Z b 1/3
ˆ 3 32 0 2
M ISE(fn )(hopt ) = (f (x)) dx n−2/3 + 0(1/n) .
4 3 a
Statistique mathématique
c Michel CARBON
14.3 Estimateur à noyau de la densité - cas univarié 277
Ce résultat nous indique les limites de cet estimateur histogramme : pour les densi-
tés deux fois continûment différentiables, la meilleure vitesse de convergence qu’on
puisse espérer atteindre est de l’ordre de n−2/3 . C’est une vitesse honorable, mais
nettement moins bonne que les vitesses usuelles en 1/n qui apparaissent typique-
ment dans les problèmes paramétriques. Cela n’est guère surprenant car l’estimation
d’une densité est un problème non paramétrique, et donc bien plus difficile à résoudre
qu’un problème paramétrique.
Une manière de proposer une valeur de h presque optimale est de supposer que la
Z b
2
densité f est "proche" d’une densité de loi N (0, 1) et alors de calculer (f 0 (x)) dx.
a
On obtient alors : √ 1/3
∗ 3 π
h = n−1/3 .
8
Mais cette approximation n’est valable que si la densité n’est pas trop éloignée d’une
densité gaussienne.
On peut aussi proposer une méthode de validation croisée pour proposer un
h "optimal". Ce hCV est en général le choix le plus utilisé dans l’estimation de
l’histogramme. Cette méthode sera détaillée dans le cas de l’estimateur à noyau.
Statistique mathématique
c Michel CARBON
CHAPITRE 14. ESTIMATION NON PARAMÉTRIQUE DE LA
278 DENSITÉ
6
fˆn (t)
× × × × × ×× ×× ×-
αi t αi+1
éloigné de t, et qu’un point situé tout près de t dans la classe Ci−1 n’entre pas en
ligne de compte dans le calcul de fˆn .
Pour remédier à cet inconvénient, on peut alors utiliser l’histogramme mobile, qui
est un translaté de l’histogramme de manière à ce que le point t où l’on estime, se
retrouve au centre d’une classe, plus précisément au centre de la classe [t − h(n), t +
h(n)[ où h(n) désigne toujours la demi-largeur d’une classe.
L’estimateur histogramme mobile s’écrit alors :
n
1 X
fˆn (t) = 1[t−h(n),t+h(n)[ (Xj ). (14.10)
2nh(n) j=1
Remarquons que :
xj − t
t − h(n) ≤ xj < t + h(n) ⇐⇒ −1 ≤ < 1. (14.11)
h(n)
D’où :
n
1 X Xj − t
fˆn (t) = 1[−1,1[ .
2nh(n) j=1 h(n)
où
1
K(x) = 1[−1,1[ (x).
2
Statistique mathématique
c Michel CARBON
14.3 Estimateur à noyau de la densité - cas univarié 279
n
1 X Xj − t
fˆn (t) = K (14.12)
nh(n) j=1 h(n)
et K s’appelle un noyau.
On notera que, puisque K est une densité de probabilité, fˆn (t) est aussi une
densité de probabilité. En effet, comme K est une densité de probabilité, il est
positif ou nul. Il en est ipso facto de même pour fˆn (t). De plus, on a :
+∞ n +∞
Xj − t
Z Z
1 X
fˆn (t) dt = K dt .
−∞ nh(n) j=1 −∞ h(n)
Xj −t
On fait alors le changement de variables : y = h(n)
. On obtient alors aisément :
Z +∞ n Z +∞
1 X
fˆn (t) dt = K(y) dy = 1 ,
−∞ nh(n) j=1 −∞
car l’intégrale ci-dessus vaut 1, comme intégrale d’une densité de probabilité. Ainsi
l’estimateur à noyau est lui-même une densité de probabilité.
L’estimateur à noyau a aussi l’avantage d’être continu si K l’est. On voit im-
médiatement que les hypothèses de régularité (continuité , dérivabilité, etc...) se
transportent de K à fˆn (t). Par conséquent, lorsqu’on estime une densité continue,
il est naturel de s’attendre que l’estimateur à noyau soit meilleur que l’estimateur
histogramme.
Statistique mathématique
c Michel CARBON
CHAPITRE 14. ESTIMATION NON PARAMÉTRIQUE DE LA
280 DENSITÉ
1
Uniforme 1|u|≤1
2
3
1 − u2 1|u|≤1
Epanechnikov
4
1 1 2
Gaussien √ e− 2 u
2π
15 2
Quadratique 1 − u2 1|u|≤1
16
Statistique mathématique
c Michel CARBON
14.3 Estimateur à noyau de la densité - cas univarié 281
Démonstration :
On va commencer par calculer le biais :
n n Z
1 X +∞
h
ˆ
i 1 X Xi − t y−t
E fn (t) = E K = K f (y) dy
nh j=1 h nh j=1 −∞ h
y−t
On effectue alors le changement de variable : u = . On obtient alors :
h
h i Z +∞
ˆ
E fn (t) = K(u)f (t + uh) du .
−∞
Statistique mathématique
c Michel CARBON
CHAPITRE 14. ESTIMATION NON PARAMÉTRIQUE DE LA
282 DENSITÉ
Il en résulte que :
h i
ˆ ˆ
Biais fn (t) = E fn (t) − f (t)
h2 +∞ 2
Z
= u K(u)f 00 (tu ) du + o(h2 )
2 −∞
h2 00
= f (t)µ2 (K) + o(h2 ) ,
2
car f 00 est continue. Cela assure la preuve de la première partie du théorème précé-
dent. On remarque aussi qu’un petit biais sera obtenu pour un h petit.
Pour démontrer la seconde partie du théorème, on va utiliser le fait que les
Xj − t
variables aléatoires Yj = K , pour j = 1, · · · , n sont i.i.d., puis que la
h
variance de la somme de variables indépendantes est la somme des variances :
" n #
h i 1 X Xj − t
V ar fˆn (t) = V ar K
(nh)2 j=1
h
n
1 X Xj − t
= V ar K
(nh)2 j=1 h
1 Xj − t
= × n × V ar K
(nh)2 h
" 2 #
1 Xj − t
= 2
E K
nh h
Z +∞ 2
1 y−t
= K f (y) dy
nh2 −∞ h
y−t
Faisons le changement de variable : u = , il vient alors :
h
Z +∞
h
ˆ
i 1
V ar fn (t) = (K(u))2 f (t + uh) du
nh −∞
1 2 1
= f (t)kKkL2 + o ,
nh nh
par continuité de f .
La variance est d’autant plus grande que le paramètre h de lissage est faible. On
retrouve l’arbitrage usuel entre biais et variance...
Démonstration :
Elle utilise la décomposition (14.8) et le théorème (14.13).
Statistique mathématique
c Michel CARBON
14.3 Estimateur à noyau de la densité - cas univarié 283
Statistique mathématique
c Michel CARBON
CHAPITRE 14. ESTIMATION NON PARAMÉTRIQUE DE LA
284 DENSITÉ
Statistique mathématique
c Michel CARBON
14.3 Estimateur à noyau de la densité - cas univarié 285
L’AM ISE est une mesure globale de la distance entre l’estimateur à noyau et la
vraie densité. Nous allons ici introduire une mesure alternative de cette distance,
appelée erreur quadratique intégrée, et définie par :
n o Z +∞ 2
ISE fˆn = fˆn (t) − f (t) dt .
−∞
avec n
1 X t − Xi
fˆn,−j (t) = K .
n − 1 i=1,i6=j h
Statistique mathématique
c Michel CARBON
CHAPITRE 14. ESTIMATION NON PARAMÉTRIQUE DE LA
286 DENSITÉ
Cette dernière minimisation se fait, bien entendu, par des moyens informatiques.
Revenons à l’exemple initial des temps entre des éruptions du geyser "Old Faith-
ful". En utilisant la validation croisée, on obtient l’estimation suivante de la densité
de cette variable aléatoire (tracée en rouge).
Pour terminer avec cette approche non paramétrique d’estimation de la densité,
indiquons que ce n’est pas la seule méthode permettant d’estimer la densité. Il
en existe d’autres, comme la méthode des k points les plus proches, la méthode
des fonctions orthogonales, la méthode des ondelettes, etc... Ce chapitre ne se veut
qu’une introduction à l’estimation fonctionnelle non paramétrique, n’ayant ici traité
que de la densité.
Statistique mathématique
c Michel CARBON
14.4 Estimation de la densité - Cas multivarié 287
où t, les Xj sont à valeurs dans Rs , et où K est une densité définie sur Rs . On choisit
souvent le noyau K comme un produit de noyaux univariés :
s
Y
K(u1 , · · · , un ) = Kj (uj )
j=1
On peut dans ce cadre multivarié reprendre tout le travail déjà effectué dans le
cas univarié, comme l’étude du biais, de la variance, du M ISE, de l’AM ISE, du
hopt , etc...
Les conditions de convergence en moyenne quadratique (donc en probabilité)
sont cette fois :
Le M SE a pour expression :
2
h i b
M SE fˆn (t) = E fˆn (t) − f (t) = ah4 + s .
h
D’où l’on déduit, comme dans le cas univarié, un hopt minimisant le M ISE associé :
h(n) ≈ Cn−1/(s+4) .
La vitesse de convergence est alors de l’ordre de n−4/(s+4) . Il faut noter le fait im-
portant que si s est grand, la vitesse de convergence décroît très vite. C’est ce que
l’on appelle la malédiction de la dimension.
Statistique mathématique
c Michel CARBON
CHAPITRE 14. ESTIMATION NON PARAMÉTRIQUE DE LA
288 DENSITÉ
Statistique mathématique
c Michel CARBON
Chapitre 15
La vie, c’est comme une bicyclette, il faut avancer pour ne pas perdre l’équilibre.
A. Einstein
Le cas que l’on examine le plus souvent est la convergence en probabilité. D’ailleurs,
quand on parle d’une suite d’estimateurs convergents (ou parfois consistants) sans
autre spécification, c’est de la convergence en probabilité qu’il s’agit. Dans de nom-
breux cas rencontrés en pratique, les estimateurs qui apparaissent sont des fonctions
continues de statistiques exhaustives, elles-mêmes sommes de variables aléatoires in-
dépendantes et identiquement distribuées. La convergence en probabilité est souvent
une conséquence de la loi des grands nombres.
289
CHAPITRE 15. PROPRIÉTÉS ASYMPTOTIQUES DES
290 ESTIMATEURS
En particulier, on a :
1 Pθ 1
−→ .
1+X 1 + mθ
1
Pour la loi géométrique G(θ) à valeurs dans N, on a : mθ = .
θ
1
Donc = θ, et l’équation précédente devient alors :
1 + mθ
1 Pθ
−→ θ.
1+X
1
L’estimateur δ(X) = est donc convergent vers θ.
1+X
Exemple 15.1.2 On suppose que X1 , X2 , · · · , Xn sont n variables aléatoires i.i.d. et
on suppose que δ(X) est un estimateur efficace pour g(θ), c’est-à-dire un estimateur
sans biais dont la variance atteint la borne inférieure de Rao-Cramèr. On a donc :
(g 0 (θ))2
Eθ (δ(X) − g(θ))2 = var[δ(X)] =
−→ 0 .
nI1 (θ)
On en conclut que δ(X) est convergent en moyenne quadratique pour g(θ). L’es-
timateur δ(X) est, a fortiori, convergent en probabilité vers g(θ).
Statistique mathématique
c Michel CARBON
15.1 Estimateur convergent 291
Posons :
X( n+1
2 )
si n est impair
Mn =
X( n ) +X( n +1)
2 2
si est pair .
2
Définition 15.1.2 Soit ν une mesure de probabilité sur R. Une médiane de ν est
un réel m tel que ν(] − ∞, m]) ≥ 1/2 et ν([m, +∞[) ≥ 1/2.
Si X est une variable aléatoire de loi ν, alors m est une médiane de ν si et
seulement si P [X ≤ m] ≥ 1/2 et P [X ≥ m] ≥ 1/2. On dit aussi que m est une
médiane de X.
Exemple 15.1.4 Si X est uniformément distribuée sur l’ensemble fini {1, 2, 3, 4, 5, 6, 7},
alors X possède une médiane unique ; m = 4.
Si X est uniformément distribuée sur l’ensemble fini {1, 2, 3, 4, 5, 6}, alors m est
une médiane de X si et seulement si : 3 ≤ m ≤ 4.
Si la loi de X est absolument continue et si le support de sa loi est un intervalle
réel, alors X possède un médiane unique.
Attention, l’ensemble des médianes d’une loi absolument continue n’est pas né-
cessairement unique. Par exemple, l’ensemble des médianes de la loi uniforme sur
[0, 2] ∪ [3, 5] est tout l’intervalle ]2, 3[.
Théorème 15.1.1 Soit f (x) une densité de probabilité. Supposons qu’elle ne pos-
sède qu’une seule médiane. Soient X1 , X2 , · · · , Xn , n variables aléatoires i.i.d. de
densité f (x). Alors, on a :
P
Mn −→ m .
Démonstration :
Il suffit de montrer que, pour tout ε > 0, on a : lim P [|Mn − m| > ε] = 0.
n−→+∞
On a ici :
Si on distingue les cas où n est pair, et où n est impair, cela revient à démontrer les
quatre assertions suivantes :
— 1. lim P [M2k > m + ε] = 0.
n−→+∞
— 2. lim P [M2k+1 > m + ε] = 0.
n−→+∞
— 3. lim P [M2k < m − ε] = 0.
n−→+∞
— 4. lim P [M2k+1 < m − ε] = 0.
n−→+∞
Statistique mathématique
c Michel CARBON
CHAPITRE 15. PROPRIÉTÉS ASYMPTOTIQUES DES
292 ESTIMATEURS
Les points 2 et 4 sont aisés à démontrer. Les points 1 et 3 sont plus délicats.
A titre illustratif, démontrons le point 4. Soit ε > 0. Posons :
2k+1
X
N = N (k, ε) = 1]−∞,m−ε[ (Xj ) .
j=1
var[N ]
≤
((k + 1) − (2k + 1)G(m − ε))2
ak + b
= ,
ck 2+ dk + e
avec respectivement :
— a = 2G(m − ε)(1 − G(m − ε)) ≥ 0 ,
— b = G(m − ε)(1 − G(m − ε)) ,
— c = (1 − G(m − ε))2 ,
— d = 2[1 + 2(G(m − ε))2 − 3G(m − ε)] ,
— e = (1 − (G(m − ε))2 .
On en déduit immédiatement que : lim P [M2k+1 < m − ε] = 0.
n−→+∞
Statistique mathématique
c Michel CARBON
15.2 Estimateurs asymptotiquement gaussiens 293
Statistique mathématique
c Michel CARBON
CHAPITRE 15. PROPRIÉTÉS ASYMPTOTIQUES DES
294 ESTIMATEURS
Théorème 15.2.1 Soit f (x) une densité de probabilité possédant une médiane unique
m. On suppose que cette densité f (x) est continue en m, et que g(m) > 0. Soient
X1 , X2 , · · · , Xn , n variables aléatoires i.i.d. de densité f (x). On a alors :
√
L 1
n(Mn − m) −→ N 0, . (15.5)
4(g(m))2
et h√ i
lim P 2k(M2k − m) ≤ x = Φ(2g(m)x) . (15.7)
k−→+∞
Statistique mathématique
c Michel CARBON
15.3 Efficacité relative 295
√ x
P 2k + 1(M2k+1 − m) ≤ x = P M2k+1 ≤ m + √
2k + 0
= P [N ≥ k + 1]
x
(k + 1) − (2k + 1)G m + √2k+1
≈ 1 − Φ r
x x
(2k + 1)G m + √2k+1 1 − G m + √2k+1
(k + 1) − (2k + 1) 21 + g(m) √2k+1
x
≈ 1 − Φ p
(2k + 1)(1/2)(1/2)
1
= 1 − Φ −2g(m)x + √
2k + 1
≈ 1 − Φ(−2g(m)x) = Φ(2g(m)x) .
σ22
Effδ1 ,δ2 = .
σ12
Statistique mathématique
c Michel CARBON
CHAPITRE 15. PROPRIÉTÉS ASYMPTOTIQUES DES
296 ESTIMATEURS
√ L
n(Mn − θ) −→ N 0, π 2 /4 .
et donc :
σθ2
Eθ [δ(X)] ≈ g(θ) et var [δ(X)] ≈ .
n
L’inégalité d’information suggère alors qu’on devrait avoir :
(g 0 (θ))2
σθ2 ≥ .
I1 (θ)
Statistique mathématique
c Michel CARBON
Chapitre 16
H0 : θ0 ∈ Θ0 et H1 : θ0 ∈ Θ1
(où θ0 est la vraie valeur du paramètre). Si P0 ne contient qu’une seule loi, H0 est
appelée une hypothèse simple, sinon, on dit que H0 est une hypothèse composite ou
multiple.
16.2 Exemples
16.2.1 Exemple 1 (prise de risque)
Une entreprise reçoit des pièces d’un fournisseur. Les pièces fournies doivent
respecter certaines normes fixées a priori par l’entreprise. Ainsi, chaque pièce peut
être déclarée ”bonne” ou ”défectueuse” vis-à-vis des normes prescrites. Bien sûr,
chacun sait que, malgré les précautions de fabrication, chaque pièce peut parfois
être défectueuse (il coûterait trop cher d’exiger que toutes les pièces soient bonnes,
297
298 CHAPITRE 16. GÉNÉRALITÉS SUR LES TESTS
et le produit final ne serait plus rentable). L’entreprise est donc prête à accepter
les pièces fournies si le nombre de pièces défectueuses n’est pas trop important, ou
encore si la proportion p de pièces défectueuses (inconnue) n’excède pas un certain
seuil p0 (appelé seuil de tolérance). La stratégie de l’entreprise est donc la suivante :
1. Si p ≤ p0 , on accepte les pièces du fournisseur.
2. Si p > p0 , on refuse les pièces du fournisseur.
Bien entendu, cette décision ne peut être prise qu’après un examen du stock
complet de pièces (là encore, le contrôle est souvent onéreux, et aussi coûteux en
temps – imaginer un essai de dureté de billes de roulement à billes, où le contrôle
implique la destruction du roulement correspondant). Donc, en général, on ne fait
pas de contrôle exhaustif de toutes les pièces pour les raisons indiquées. On ne
contrôle qu’un échantillon ”bien choisi” de pièces fournies.
On retrouve là le caractère de nature aléatoire de la décision à prendre ; en fait,
prendre une décision : accepter ou refuser les pièces fournies, ne peut se faire sans
risque (la certitude absolue n’existe pas à cause, bien sûr, du prélèvement d’un
échantillon représentatif).
Le problème se résume ainsi au choix entre deux hypothèses :
H0 : {p : p ≤ p0 }
H1 : {p : p > p0 } .
Si on choisit H0 , on acceptera les pièces fournies. Sinon, on les refusera. Les risques
encourus sont de deux types :
(i) Le risque R1 , dit de première espèce, qui consiste à rejeter H0 à tort. C’est le
risque du fournisseur qui se voit refuser les pièces fournies alors que le lot de
pièces est conforme aux normes initiales de l’entreprise.
(ii) Le risque R2 , dit de seconde espèce, qui consiste à rejeter H1 à tort, c’est-à-dire
à accepter H0 à tort. C’est ici le risque de l’acheteur (l’entreprise) qui accepte
les pièces fournies alors que le lot de pièces n’est pas conforme aux normes
initiales de l’entreprise.
16.2.2 Exemple 2
Cet exemple est choisi volontairement plus théorique. Considérons une loi nor-
male d’écart-type connu σ et de moyenne inconnue m. Soit X une v.a.r. ayant cette
loi. Supposons, pour simplifier (cas d’école) que m ne puisse prendre qu’éventuelle-
ment la valeur fixée m0 ou la valeur fixée m1 , mais exclusivement (avec m0 < m1
pour fixer les choses). On doit choisir entre :
H0 : m = m0 et H1 : m = m1 .
Statistique mathématique
c Michel CARBON
16.2 Exemples 299
α = P (X n ≥ C/m = m0 ).
Ceci est illustré sur le schéma ci-dessus. Quelles que soient les valeurs fixées m0 et
m1 (m0 < m1 ) il est clair que α et β, les probabilités d’erreur définies ci-dessus,
varient en sens contraire (comme fonction de C). En effet, si m = m0 , alors la
probabilité P (X n ≥ C) décroît quand C croît. Donc α décroît quand C croît. De
plus, si m = m1 , alors la probabilité P (X n < C) croît quand C croît. Donc β croît
quand C croît. Les deux probabilités variant en sens inverse, et voulant limiter ces
deux probabilités d’erreur, il faut trouver un compromis acceptable.
L’une des hypothèses est, en général, privilégiée par rapport à l’autre, c’est-à-
dire que l’on tient en priorité à limiter le risque d’erreur pour l’une des hypothèses,
soit parce qu’il s’agit de l’hypothèse retenue et qu’on ne désire pas en changer sans
raison valable, soit parce que son rejet à tort en faveur de l’autre hypothèse aurait
Statistique mathématique
c Michel CARBON
300 CHAPITRE 16. GÉNÉRALITÉS SUR LES TESTS
des conséquences plus graves que l’inverse. On appelle usuellement hypothèse nulle
H0 , l’hypothèse pour laquelle on limite a priori la probabilité de rejet ; H1 , l’autre
hypothèse, est appelée habituellement hypothèse alternative.
Les notations ci-dessous sont classiques :
α = P (rejeter H0 /H0 vraie) (probabilité d’erreur de 1re espèce)
Statistique mathématique
c Michel CARBON
16.3 Utilisation de la théorie de la décision 301
D’où :
σ
C = m0 + tα0 √ .
n
On peut remarquer que C ne dépend que de α0, de m0 , et de n, mais pas de m1 . La
puissance vaut alors :
,
Xn − m C −m
γ = P (X n ≥ C/m = m1 ) = P ≥ m = m1
σ σ
√ √
n n
X n − m1 C − m1 e m0 − m1
= P ≥ σ = P T ≥ + tα0 ,
σ σ
√ √ √
n n n
X n − m1
où Te = σ suit une loi N (0, 1).
√
n
D’où :
m0 − m1
γ = P (Te ≥ tα0 ) + P tα0 + ≤ Te < tα0 (car m0 − m1 < 0)
σ
√
n
m0 − m1
= α0 + P tα0 + ≤ Te < tα0 .
σ
√
n
On voit, bien sûr, que le test sera d’autant plus puissant que la différence m0 − m1
sera plus grande, ce qui est intuitivement logique. Il sera aussi d’autant plus puissant
que n sera très grand, ce que l’on pouvait pressentir.
Définition 16.3.1 Un test pur, ou test déterministe est une application mesurable
δ:
δ : (X , A, P) −→ (D, D),
d0
x 7−→ δ(x) = .
d1
Un test pur est donc caractérisé par l’image inverse par δ de d0 (ou de d1 ).
Statistique mathématique
c Michel CARBON
302 CHAPITRE 16. GÉNÉRALITÉS SUR LES TESTS
Définition 16.3.3 Un test aléatoire (ou test mixte) est une fonction mesurable ϕ
définie sur (X ,A, P) à valeurs dans [0, 1] , B[0;1] dont la valeur en x est la probabilité
de refuser H0 lorsque le résultat est x : ϕ(x) = mx (d1 ).
Remarque 16.3.1 Un test pur est un cas particulier de test mixte, comme on peut
le voir en posant ϕ = 11W .
Définition 16.4.1 Le risque de 1re espèce est défini par : α(W, θ) = Pθ (W ) pour
θ ∈ Θ0 . Le risque de 2e espèce est défini par : β(W, θ) = Pθ (W c ) = 1 − Pθ (W ) pour
θ ∈ Θ1 .
Statistique mathématique
c Michel CARBON
16.4 Erreurs liées à un test 303
Définition 16.4.4 Le risque de 1re espèce est défini par : α(ϕ, θ) = Eθ (ϕ) pour
θ ∈ Θ0 . Le risque de 2e espèce est défini par : β(ϕ, θ) = 1 − Eθ (ϕ) pour θ ∈ Θ1 .
Définition 16.4.5 La puissance du test est définie par : γ(ϕ, θ) = Eθ (ϕ) pour
θ ∈ Θ1 .
Remarque 16.4.1 Si le test est pur, alors ϕ = 11W , et on retrouve les définitions
précédentes.
Statistique mathématique
c Michel CARBON
304 CHAPITRE 16. GÉNÉRALITÉS SUR LES TESTS
Calculons Eθ [ϕ(X)] :
1
Eθ [ϕ(X)] = 0 · Pθ [ϕ(X) = 0] + · Pθ [ϕ(X) = 0] + 1 · Pθ [ϕ(X) = 1]
2
1
= · Pθ [S = 2] + Pθ [S = 3] + Pθ [S = 4]
2
1 2 2
= C θ (1 − θ)2 + C43 θ3 (1 − θ) + C44 θ4 (1 − θ)0
2 4
= θ2 (3 − 2θ) .
En étudiant la fonction θ2 (3 − 2θ), on en déduit que le niveau du test est :
α = sup θ2 (3 − 2θ) = 1/2 .
θ∈[0,1/2]
Statistique mathématique
c Michel CARBON
16.5 Rapport avec la notion de risque 305
Donc, pour comparer les risques associés aux fonctions de pertes très générales défi-
nies ici, il suffit de comparer α et β, ce qui justifie, a posteriori, que α et β soient aussi
appelés risques. Hélas, il n’existe pas, en général, de test optimal (en ce sens), mais
la règle précédente peut permettre d’éliminer les tests non admissibles, c’est-à-dire
les tests pour lesquels il existe d’autres tests strictement préférables.
ϕ(y) = ϕ (S(x)) .
Cela revient à poser le problème dans le modèle image (S, Pθ,S ; θ ∈ Θ) et à consi-
dérer les tests ψ dans ce modèle. En effet, à tout test ϕ du modèle initial, on peut
associer :
ψ(S) = Eθ (ϕ/S) = E(ϕ/S),
Statistique mathématique
c Michel CARBON
306 CHAPITRE 16. GÉNÉRALITÉS SUR LES TESTS
qui ne dépend pas de θ car S est exhaustive. Ce test équivaut à ϕ, car pour tout
θ ∈ Θ, on a :
Eθ (ψ) = Eθ [Eθ (ϕ/S)] = Eθ (ϕ)
et donc ϕ et ψ ont même risques, et même puissance.
On impose donc ici que : sup α(ϕ, θ) ≤ α. Alors, parmi les tests vérifiant l’in-
θ∈Θ0
égalité précédente, on cherche, s’il en existe un, un test qui minimise le risque de
seconde espèce β(ϕ, θ) pour tout θ ∈ Θ1 , ou, de façon équivalente, qui maximise la
puissance γ(ϕ, θ) pour tout θ ∈ Θ1 .
Un tel test, s’il existe, est appelé ”uniformément le plus puissant” au seuil α (noté
UPP dans la suite). Il faut, en général, introduire des principes supplémentaires pour
assurer l’existence de tests UMP.
Statistique mathématique
c Michel CARBON
Chapitre 17
Si la science ne s’intéresse pas aux choses délirantes, elle risque fort de passer à
côté de choses intéressantes.
Antoine Labeyrie
H0 : P = P0 contre H1 : P = P1
ou, de manière équivalente, car on se trouve dans le cas d’un modèle paramétrique :
H0 : θ = θ0 contre H1 : θ = θ1
On notera Eθ0 et Eθ1 les espérances mathématiques relatives respectivement à P0 et
P1 . Pour tout test ϕ, le risque de première espèce est donc :
De façon similaire :
β(ϕ, P1 ) = Eθ1 (1 − ϕ) (= β(ϕ)),
et
γ(ϕ, P1 ) = Eθ1 (ϕ) (= γ(ϕ)).
On supposera que les lois P0 et P1 peuvent donc être caractérisées par les densités
respectives f0 (x) et f1 (x) ou leurs fonctions de masse.
307
308 CHAPITRE 17. TEST D’HYPOTHÈSES SIMPLES
Démonstration :
1. Soit ϕ un test de Neyman tel que : ϕ ≡ γ si f1 (x) = kf0 (x). Alors on a :
Eθ0 (ϕ) = P0 (f1 (x) > kf0 (x)) + γP0 (f1 (x) = kf0 (x))
f1 (x) f1 (x)
= P0 > k + γ · P0 =k .
f0 (x) f0 (x)
f1 f1 (x)
est définie P0 -p.s. Donc F (t) = P0 ≤ t a bien un sens sous H0 .
f0 f0 (x)
Alors il existe k0 tel que F (k0− ) ≤ 1 − α ≤ F (k0 ). Deux cas peuvent se présen-
ter :
a) 1 − α = F (k0 ) ; alors le test de Neyman associé à k = k0 et à γ = 0 est
bien tel que : Eθ0 (ϕ) = α.
b) F (k0− ) ≤ 1 − α < F (k0 ) ; le test de Neyman associé à k = k0 et à
F (k0 ) − (1 − α)
γ= est tel que :
F (k0 ) − F (k0− )
F (k0 ) − (1 − α) −
Eθ0 (ϕ) = 1 − F (k0 ) + − · F (k0 ) − F (k0 ) = α.
F (k0 ) − F (k0 )
2. Soit ϕ un test de Neyman tel que : Eθ0 (ϕ) = α et soit ψ un test quelconque de
seuil α : Eθ0 (ψ) ≤ α. Soit k le nombre associé à ϕ. ϕ étant un test de Neyman,
on a alors : Z
(ϕ(x) − ψ(x)) (f1 (x) − kf0 (x)) dx ≥ 0,
X
Statistique mathématique
c Michel CARBON
17.2 Le lemme de Neyman-Pearson 309
car
ϕ=1≥ψ si f1 (x) > kf0 (x)
c’est-à-dire :
Examinons l’intégrale :
Z
(ϕ(x) − ϕ∗ (x)) (f1 (x) − kf0 (x)) dx
X
Z Z
∗
= (ϕ(x) − ϕ (x)) f1 (x) dx − k (ϕ(x) − ϕ∗ (x)) f0 (x) dx
X X
= −k (α − Eθ0 (ϕ∗ )) ≤ 0.
Grâce à (ii), et puisque ϕ est un test de Neyman, on en déduit alors que l’intégrale
précédente ne peut être que nulle. Grâce à (ii), la fonction à intégrer est positive
ou nulle. Donc, finalement, la fonction sous l’intégrale est nulle presque partout, ce
qui signifie que ϕ = ϕ∗ sur {f1 (x) − kf0 (x) 6= 0} , et donc ϕ∗ est bien un test de
Neyman.
Remarque 17.2.1 1) Si, pour tout k > 0, l’ensemble {f1 (x) = kf0 (x)} est Pθ0 − p.s.
négligeable c’est-à-dire Pθ0 (f1 (x) = kf0 (x)) = 0, alors, pour tout seuil α, il existe
un test pur UPP de région critique :
Statistique mathématique
c Michel CARBON
310 CHAPITRE 17. TEST D’HYPOTHÈSES SIMPLES
f (x, θ1 ) c(θ1 )
= exp [(η(θ1 ) − η(θ0 )) · T (x)] .
f (x, θ0 ) c(θ0 )
On veut tester l’hypothèse simple H0 : θ = θ0 contre l’hypothèse simple H1 :
θ = θ1 .On supposera que η(θ0 ) 6= η(θ1 ). Quitte à changer T en −T , on peut toujours
supposer que η(θ0 ) < η(θ1 ) .
D’après le lemme fondamental de Neyman-Pearson, il existe alors un test ϕ UPP
au seuil α tel que :
ϕ(x) = 1 si T (x) > c
= γ si T (x) = c
= 0 si T (x) < c.
Le test de Neyman s’exprime donc en fonction de la statistique privilégiée T. Les
constantes γ et c sont déterminées par la condition : Eθ (ϕ) = α .
17.3 Exemples
17.3.1 Moyenne d’une loi normale
Un échantillon de taille n d’une loi normale N (θ, 1) a pour densité :
n
!
nθ2
1X 2
f (x, θ) = (2π)−n/2 exp − exp − x exp(nθ x).
2 2 i=1 i
Ici : η(θ) = nθ et T (x) = x. On sait que la loi de T est continue. Donc le test UPP
de Neyman pour tester ”θ = θ0 ” contre ”θ = θ1 ” est un test pur. Supposons par
Statistique mathématique
c Michel CARBON
17.3 Exemples 311
ϕ(x) = 0 si x < c.
La région critique W est donc, si on l’exprime en fonction de la statistique T :
W = {x > c}
et le niveau du test est : Eθ0 (ϕ) = Pθ0 (W ).
Il reste à déterminer
cde manière à ce que Eθ0 (ϕ) = α. Or, sous l’hypothèse H0 ,
1
la loi de X est N θ0 , , donc :
n
√ √
α = Pθ0 (X > c) = Pθ0 n(X − θ0 ) > n(c − θ0 )
√
= 1 − F ( n(c − θ0 )) .
où F désigne la fonction de répartition d’une loi N (0, 1) . Donc :
√
n(c − θ0 ) = F −1 (1 − α)
et
1
c = θ0 + √ F −1 (1 − α).
n
Exemple numérique :
1. Si θ0 = 0, θ1 = 2, α = 0, 05, n = 25, alors on a :
F −1 (0, 95) = 1, 645
La région critique est alors :
1, 645
W = x> = 0, 329 .
5
La puissance vaut :
γ = Eθ1 (ϕ) = Pθ1 (X > c)
√ √
= Pθ1 n(X
√ − θ1) > n(c − θ 1)
= 1 − F ( n(c − θ1 )) .
Or : √ √
n(c − θ1 ) = n(θ0 − θ1 ) + F −1 (1 − α)
= −10 + 1, 645
= −8, 355.
Par suite :
γ = 1 − F (−8, 335) = F (8, 355) ' 1 (= 1 − 10−9 ).
2. Si on prend θ0 = 2, θ1 = 0, α = 0.05, n = 25, alors on obtient :
W = {x < 1, 671} .
On remarquera comment la théorie prend en compte la dissymétrie des hypo-
thèses.
Statistique mathématique
c Michel CARBON
312 CHAPITRE 17. TEST D’HYPOTHÈSES SIMPLES
n
Xi2
P
i=1
Sous l’hypothèse H1 , suit une loi du χ2n à n degrés de liberté, et donc la
σ12
puissance du test est :
σ02
2
γ = P χn > tα 2
σ1
Statistique mathématique
c Michel CARBON
17.3 Exemples 313
Statistique mathématique
c Michel CARBON
314 CHAPITRE 17. TEST D’HYPOTHÈSES SIMPLES
Statistique mathématique
c Michel CARBON
Chapitre 18
Une théorie scientifique est bien développée si n’importe quel imbécile peut l’ex-
ploiter avec succès.
René Thom
315
316 CHAPITRE 18. TESTS À HYPOTHÈSES MULTIPLES
La famille {W (σ, γ) , σ 6= σ0 } des régions critiques est donc réduite à deux éléments,
d’où le test global de région critique :
( n ) ( n )
X X
2 2 2 2 2 2
W = xi > χγ σ0 ∪ xi < χ1−γ σ0 .
i=1 i=1
α
En choisissant γ = , on obtient un test de niveau α, car
2
α α
Pσ0 (W ) = P χ2n > χ2α + P χ2n < χ21− α = + = α.
2 2 2 2
La puissance vaut :
σ02 σ02
γ(σ) = P χ2n < χ21− α +P χ2n 2
> χα , σ 6= σ0 .
2 σ2 2 σ2
Exemple 18.1.1 Etant donné un échantillon de taille n d’une loi N (θ, 1) , on veut
1P n
tester ”θ = θ0 ” contre ”θ 6= θ0 ”. x = xi est l’estimation par maximum de
n i=1
vraisemblance de θ. Alors la frontière de la région critique du test a pour équation :
" n
# " n
#
1 1X 1 1 X
√ n exp − (xi − θ0 )2 = λ √ n exp − (xi − x)2
2π 2 i=1 2π 2 i=1
Statistique mathématique
c Michel CARBON
18.2 Cas général 317
La résolution donne : r
2
x = θ0 ± − log λ.
n
D’où le test de région critique :
r
2
|x − θ0 | > − log λ.
n
γ(θ) ≥ α, ∀θ ∈ Θ1 .
Dans le cas d’un test pur de région critique W, dire qu’un test n’est pas sans
biais signifie qu’on peut trouver θ0 ∈ Θ0 et θ1 ∈ Θ1 tels que :
Nous avons vu, dans le lemme de Neyman-Pearson qu’un test UMP est sans biais
(pour tester hypothèse simple contre hypothèse simple). Plus généralement, on a le
résultat suivant.
γ(ϕ, θ) ≥ γ(ψ, θ) = α, ∀θ ∈ Θ1 .
Statistique mathématique
c Michel CARBON
318 CHAPITRE 18. TESTS À HYPOTHÈSES MULTIPLES
f (x, θ2 )
∀θ1 , θ2 , θ1 < θ2 ⇒ = gθ1 ,θ2 [U (x)]
f (x, θ1 )
avec gθ1 ,θ2 (·) strictement croissante (ou décroissante) de U, et cela en tout point x
où f (x, θ1 ) > 0.
H0 : θ ≤ θ0 contre H1 : θ > θ0 .
Alors, pour tout α ∈]0, 1[, il existe un test ϕ, UPP au seuil α, de la forme :
ϕ(x) = 1 si U (x) > c
ϕ(x) = γ si U (x) = c (18.3)
ϕ(x) = 0 si U (x) < c
Statistique mathématique
c Michel CARBON
18.3 Tests d’hypothèses multiples unilatères
319
La région critique définie par U (x) > c ne dépend pas de θ pour θ > θ0 .
Ainsi, ϕ est UPP au niveau α, c’est-à-dire parmi tous les tests ψ tels que Eθ0 (ψ) ≤
α, et donc parmi tous les tests de niveaux inférieurs à α, c’est-à-dire tels que :
sup Eθ (ψ) ≤ α.
θ≤θ0
Par suite :
Eθ0 (ϕ) = sup Eθ (ϕ) ≤ α.
θ≤θ0
Statistique mathématique
c Michel CARBON
320 CHAPITRE 18. TESTS À HYPOTHÈSES MULTIPLES
fθ2 (x1 , . . . , xn ) h n
2 2
i
= exp [n(θ2 − θ1 ) x] exp − (θ2 − θ1 ) ,
fθ1 (x1 , . . . , xn ) 2
1P n
avec x = xi . En utilisant la remarque (18.3.2) point 2 précédente, et le théorème
n i=1
connexe, on sait qu’alors le test de région critique : x > c est UPP à son niveau.
Ce niveau est :
√
α = Pθ0 (x > c) = P N > n(c − θ0 ) = P (N > Nα ),
où N suit une loi N (0, 1). On a donc finalement la région critique, définie par :
Nα
x > θ0 + √ .
n
Lemme 18.4.1 : Soit ϕ un test UPP au seuil α (avec 0 < α < 1) pour tester :
H0 : P = P 0 contre H1 : P = P 1 .
Statistique mathématique
c Michel CARBON
18.5 Théorème de Neyman-Pearson généralisé 321
0 % pour θ < θ1
Eθ (ϕ) ≥ Eθ (ϕ )
& pour θ > θ2
Donc ϕ serait aussi UPP pour tester H0 contre H10 : {θ < θ1 } ou contre H100 :
{θ > θ2 } .
Ce sont deux tests unilatéraux, et d’après le lemme 18.4.2, Eθ (ϕ) serait à la fois
strictement croissante et strictement décroissante par rapport à θ sur {θ1 ≤ θ ≤ θ2 },
ce qui est impossible.
Théorème 18.5.1 Supposons qu’il existe une fonction critique ϕ satisfaisant l’en-
semble de contraintes :
On notera C la classe des fonctions critiques vérifiant (18.4). On a alors les résultats
suivants :
Statistique mathématique
c Michel CARBON
322 CHAPITRE 18. TESTS À HYPOTHÈSES MULTIPLES
(i) (existence) Il existe, dans C , une fonction critique qui maximise Em+1 ϕ .
(ii) (condition suffisante) Une condition suffisante pour qu’un élément de C
maximise Em+1 ϕ est qu’il existe des constantes : k1 , ..., km telles que :
m
P
ϕ(x) = 1 sur fm+1 (x) > ki fi (x)
i=1
(18.5)
Pm
ϕ(x) = 0 sur fm+1 (x) < ki fi (x)
i=1
est convexe et fermé. Si c est un point intérieur de Cm , alors il existe des constantes
k1 , ..., km et un test de type Neyman-Pearon généralisé vérifiant les contraintes (18.4).
Et une condition nécessaire pour qu’une fonction critique ϕ de C maximise Em+1 ϕ
est que ϕ soit une test de type Neyman-Pearson généralisé, presque sûrement.
Soit µ une mesure σ-finie sur une espace mesurable (X , A). Alors, l’ensemble
des fonctions mesurables Φ : (X , A) −→ [0; 1] , B[0;1] est un compact pour la
topologie de la convergence faible.
Grâce au lemme (18.5.1) précédent, il existe une sous-suite (ϕni ) et une fonction
critique Φ telles que :
Z Z
ϕni fk dµ −−−−→ Φ fk dµ k = 1, ..., m + 1
i→+∞
Z Z
Alors Φ appartient à C et Φ fm+1 dµ = sup ϕ fm+1 dµ .
ϕ∈C
(ii) Soit ϕ0 dans C une autre fonction critique que la fonction ϕ de type test de
Neyman-Pearson généralisé.
Statistique mathématique
c Michel CARBON
18.5 Théorème de Neyman-Pearson généralisé 323
bord de Cm+1
E3 (ϕ)
6
+
E2 (ϕ)
3
(1, 1)
(c, c∗∗ )
B= QQ
k
Q
Q
A = (c, c∗ )
Q
bord de Cm
C = (c, 0)
- E1 (ϕ)
Statistique mathématique
c Michel CARBON
324 CHAPITRE 18. TESTS À HYPOTHÈSES MULTIPLES
Notons (u1 , ..., um ) les coordonnées d’un point de Cm et (u1 , ..., um+1 ) les coordon-
nées d’un point de Cm+1 . Les points de Cm+1 dont les m premières coordonnées sont
c1 , ..., cm forment un intervalle fermé [A, B] avec A de coordonnées (c1 , ..., cm , c∗ ) et
B de coordonnées (c1 , ..., cm , c∗∗ ) .
On supposera, sans perte de généralité que : c∗ < c∗∗ .
L’hyperplan tangent à Cm+1 en B a pour équation :
m+1
X m
X
ki ui = ki ci + km+1 c∗∗ .
i=1 i=1
fm+1 − Pm
P
ϕB = 0 quand i=1 ki fi < 0 et
ϕB = 1 quand fm+1 − mi=1 ki fi > 0 .
Statistique mathématique
c Michel CARBON
18.6 Tests d’hypothèses multiples bilatères 325
H0 : θ ≤ θ1 ou θ ≥ θ2
H1 : θ1 < θ < θ2
où les γi et ci sont déterminés par : Eθ1 (ϕ) = Eθ2 (ϕ) = α et ce test ϕ est UPP au
seuil α .
Démonstration :
(i) Etudions d’abord l’ensemble D des points (Eθ1 (ϕ), Eθ2 (ϕ)) lorsque ϕ décrit
l’ensemble des fonctions critiques. Cet ensemble D est contenu dans [0; 1]2 car ϕ est
à valeurs dans [0; 1]. D contient aussi la diagonale de [0; 1]2 car tout point de la
diagonale correspond à un test Ψ ≡ α, 0 ≤ α ≤ 1.
Cet ensemble D est convexe, car, pour tout couple de tests ϕ1 et ϕ2 et tout λ
(0 ≤ λ ≤ 1) , λϕ1 + (1 − λ) ϕ2 est encore un test.
Pour tout test de Neyman de niveau Eθ1 (ϕ) = α, UPP au seuil α pour tester :
H0 : Pθ = Pθ1 contre H1 : Pθ = Pθ2 , la puissance Eθ2 (ϕ) est strictement supérieure
à α, à moins que Pθ1 = Pθ2 (voir lemme 18.4.1), ce qui est exclus puisque η est
strictement croissante.
Il en est de même en testant : H0 : Pθ = Pθ2 contre H1 : Pθ = Pθ1 . Cela permet
de conclure , avec la convexité de D, que, pour tout α ∈ ]0; 1[ , le point (α, α) est
intérieur à D (D est appelé le diagramme des puissances) .
(ii) Soit θ1 < θ0 < θ2 . D’après le lemme de Neyman-Pearson généralisé, tout test
qui maximise Eθ0 (ϕ) sous les contraintes Eθ1 (ϕ) = Eθ2 (ϕ) = α est de la forme :
1 si lθ0 (x) > k1 · lθ1 (x) + k2 · lθ2 (x)
ϕα =
0 si lθ0 (x) < k1 · lθ1 (x) + k2 · lθ2 (x)
Ainsi : ϕα = 1, si :
C(θ0 ) · h(x) · exp [η (θ0 ) · T (x)] > k1 · C(θ1 ) · h(x) · exp [η (θ1 ) · T (x)]
+k2 · C(θ2 ) · h(x) · exp [η (θ2 ) · T (x)] ,
Statistique mathématique
c Michel CARBON
326 CHAPITRE 18. TESTS À HYPOTHÈSES MULTIPLES
ou encore si :
C(θ1 )
1 > k1 · 0
· h(x) · exp [(η (θ1 ) − η (θ0 )) · T (x)]
C(θ )
C(θ2 )
+k2 · · h(x) · exp [(η (θ1 ) − η (θ0 )) · T (x)] ,
C(θ0 )
soit encore :
a1 · exp [b1 · T (x)] + a2 · exp [b2 · T (x)] < 1 (18.6)
C(θ1 ) C(θ2 )
avec : a1 = k1 · 0
; a2 = k2 · ; b1 = η (θ1 ) − η (θ0 ) < 0 ;
C(θ ) C(θ0 )
et b2 = η (θ2 ) − η (θ0 ) > 0 .
On ne peut avoir à la fois a1 et a2 négatifs, sinon k1 et k2 seraient tous deux
négatifs, et alors ϕα serait toujours égal à 1, et on aurait Eθ1 (ϕα ) = α = 1 , ce qui
est exclus (un seuil α pour un test est toujours choisi tel que : 0 < α < 1).
On ne peut avoir a1 > 0 et a2 < 0 , ou que l’un des deux soit nul, sinon
a1 · exp [b1 · T (x)] + a2 · exp [b2 · T (x)] serait strictement monotone en T . D’après le
lemme 18.4.2, l’application : θ −→ Eθ (ϕα ) est strictement monotone, ce qui contredit
l’énoncé : Eθ1 (ϕ) = Eθ2 (ϕ) = α .
Finalement, on a nécessairement : a1 > 0 et a2 > 0 . (donc k1 > 0 et k2 > 0).
Une étude de la fonction : y(t) = a1 · exp [b1 · t] + a2 · exp [b2 · t] donne le tableau de
variations suivant :
t −∞ t0 +∞
y’ - 0 +
y & %
1 −a1 b1
avec : t0 = ln .
b2 − b1 a2 b 2
ϕ0α = 0 pour lθ00 (x) > k10 · lθ1 (x) + k20 · lθ2 (x)
avec : Eθ1 (ϕ0α ) = Eθ2 (ϕ0α ) = α , minimise Eθ00 (ϕ) sous les contraintes Eθ1 (ϕ) =
Eθ2 (ϕ) = α (en fait, on applique le théorème de Neyman-Pearson généralisé (ii) à
1 − ϕ) .
Statistique mathématique
c Michel CARBON
18.6 Tests d’hypothèses multiples bilatères 327
C(θ00 ) · h(x) · exp [η (θ00 ) · T (x)] < k10 · C(θ1 ) · h(x) · exp [η (θ1 ) · T (x)]
+k20 · C(θ2 ) · h(x) · exp [η (θ2 ) · T (x)] µ − p.p.
D’où :
C(θ00 )
· h(x) · exp [(η (θ00 ) − η (θ1 )) · T (x)]
k10 · C(θ1 )
(18.7)
k20 · C(θ2 )
<1+ · h(x) · exp [(η (θ2 ) − η (θ1 )) · T (x)]
k10 · C(θ1 )
C(θ00 ) · h(x) · exp [η (θ00 ) · T (x)] < k20 · C(θ2 ) · h(x) · exp [η (θ2 ) · T (x)]
C(θ2 )
⇐⇒ 1 < k20 · · h(x) · exp [η (θ2 ) − η (θ00 ) · T (x)]
C(θ00 )
L’expression a001 ·exp [b1 · T (x)] avec b1 > 0 serait strictement croissante en T . Et,
d’après le lemme 18.4.2, l’application : θ −→ Eθ (ϕ0α ) serait strictement croissante
en θ, ce qui contredirait : Eθ1 (ϕ0α ) = Eθ2 (ϕ0α ) = α .
L’inégalité (18.7) peut s’écrire :
a01 exp [b01 · T (x)] + a02 exp [b02 · T (x)] < 1 (18.8)
On a ainsi remarqué que la forme du test ϕ0α est identique à celle du test ϕα ,
sous les mêmes contraintes. Autrement dit, ϕα est un test qui minimise Eθ00 (ϕ) sous
la contrainte Eθ1 (ϕ) = Eθ2 (ϕ) = α .
Statistique mathématique
c Michel CARBON
328 CHAPITRE 18. TESTS À HYPOTHÈSES MULTIPLES
γ (ϕ, θ) ≥ α , ∀ θ ∈ Θ1
On a également vu qu’un test UPP est sans biais. Nous allons voir que, quand il
n’existe pas de test UPP pour une certaine classe de problèmes, il peut exister des
tests UPP si l’on se restreint à la classe des tests sans biais.
Un test UPP dans la classe des tests sans biais sera appelé test UPPSB.
Quand Eθ (ϕ) est une fonction continue en θ, la condition de sans biais implique
que :
Eθ (ϕ) = α , ∀ θ ∈ Θ∗ = Θ0 ∩ Θ1 . (18.9)
Définition 18.7.1 Tout test ϕ tel que : Eθ (ϕ) =α , pour tout θ de Θ∗ est dit
α-semblable sur Θ∗ .
Lemme 18.7.1 Si les lois Pθ sont telles que, pour tout test ϕ, la fonction de θ :
Eθ (ϕ) est continue , si ϕ0 est un test UPP parmi les tests α-semblables sur Θ∗ ,
vérifiant (18.9), de seuil α, alors ϕ0 est UPPSB.
Démonstration :
La classe des tests satisfaisant (18.9) contient la classe des tests sans biais, et
donc ϕ0 est au moins uniformément plus puissant que tout autre test sans biais au
seuil α. D’autre part, ϕ0 est sans biais car il est au moins uniformément plus puissant
que le test trivial : Φ (x) ≡ α .
Statistique mathématique
c Michel CARBON
18.8 Cas des modèles exponentiels à un paramètre 329
Démonstration :
Il faut déjà remarquer , grâce aux résultats du chapitre 1, que Eθ (Φ (X)) est
continue en θ. Ici, Θ∗ = {θ1 , θ2 }. Considérons tout d’abord le problème de maximiser
Eθ (Φ (X)) pour θ ∈ / [θ1 , θ2 ], satisfaisant (18.11).
Si on reformule le problème de test avec 1 − Φ(x) du théorème précédent,
on
sait que 1 − Φ existe au seuil 1 − α pour tester : θ ≤ θ1 ou θ ≥ θ2 contre
{ θ1 < θ < θ2 } , et que, pour tout θ < θ1 ou θ > θ2 , il minimise Eθ (Ψ) sous les
contraintes Eθ1 (Ψ) = Eθ2 (Ψ) = 1 − α .
Ainsi, Φ est de niveau inférieur ou égal à α, et maximise Eθ (Ψ) sous les contraintes
Eθ1 (Ψ) = Eθ2 (Ψ) = 1 − α pour tout θ < θ1 ou θ > θ2 . Donc Φ est UPP parmi
les tests α-semblables sur la frontière Θ∗ . Il suffit enfin d’appliquer le lemme précé-
dent pour conclure que Φ est UPPSB.
H0 : θ = θ0 contre H1 : θ 6= θ0 .
Statistique mathématique
c Michel CARBON
330 CHAPITRE 18. TESTS À HYPOTHÈSES MULTIPLES
1 quand T (x) < c1 ou T (x) > c2
Φ (x) = γi quand T (x) = ci , i = 1, 2 (18.12)
0 quand c1 < T (x) < c2
Eθ0 (Φ (X)) = α
(18.13)
Eθ0 (T (X) · Φ (X)) = α · Eθ0 (Φ (X))
Remarque 18.8.1 Un calcul facile montre que la dernière condition dans (18.13)
signifie que la dérivée de Eθ (Φ) est nulle en θ0 .
Il faut bien noter que ces tests n’ont de sens que si les échantillons sont effecti-
vement gaussiens, et ne servent à rien sans cette hypothèse que les esprits simplifi-
cateurs et pressés oublient souvent.
Il faut également aussi noter que la région de rejet est toujours de bon sens.
Statistique mathématique
c Michel CARBON
18.9 Tests gaussiens 331
m = m0 vs. m 6= m0 ; √
n
X − m0 > k N (0, 1) UPPSB
avec σ 2 connu σ
m ≤ m0 vs. m > m0 ; √
n X−m 0
>k Stn−1 UPPSB
avec σ 2 inconnu S0
m = m0 vs. m 6= m0 ; √ |X−m0 |
n S0 > k Stn−1 UPPSB
avec σ 2 inconnu
σ ≤ σ02 vs. σ 2 > σ02
2 P (Xi −X )2
σ02
>k χ2n−1 UPP
avec m inconnu
σ = σ02 vs. σ 2 6= σ02
2 P (Xi −X )2
σ02
∈
/ [C1 , C2 ] χ2n−1 UPPSB
avec m inconnu
Echantillons indépendants
(X1 , ...Xn1 ) , (Y1 , ..., Yn2 )
S102
N (m1 , σ12 ) , N (m2 , σ22 ) S202
∈
/ [C1 , C2 ] F(n1 −1,n2 −1) UPPSB
σ12 = σ22 vs σ12 6= σ22
avec m1 , m2 inconnus
√
|X−Y |
Echantillons indépendants A √
B
>k
(X1 , ...Xn1 ) , (Y1 , ..., Yn2 ) où
N (m1 , σ12 ) , N (m2 , σ22 ) A= n1 +n2 −2
1
Stn1 +n2 −2 UPPSB
+ n1
σ12 = σ22 = σ 2 inconnu n1 2
B= (n1 − 1) S102 +
m1 = m2 vs. m1 6= m2
(n2 − 1) S202
X − m0
où K est déterminé par P 1 (C) = α. On sait de plus que T = suit une
3
Sn
√
n−1
loi de Student à (n − 1) d.d.l. Pour n grand (c’est le cas ici), T suit, en bonne
Statistique mathématique
c Michel CARBON
332 CHAPITRE 18. TESTS À HYPOTHÈSES MULTIPLES
X n − 300 X n − 300
Bien sûr, T = = 0 suit une loi de Student à (n − 1) d.d.l.
Sn S
√ √ n
n−1 n
et K se détermine par :
Statistique mathématique
c Michel CARBON
18.9 Tests gaussiens 333
nSn2
Or, T = 2
suit, sous H0 , une loi du χ2 à (n − 1) d.d.l. . K se détermine
σ0
par : P (T > K) = 5 %. Ici, K = 16, 9. Le T observé vaut :
10 × 2 036
tobs = = 22, 62.
900
σ = 30 = σ0 contre σ 6= 30,
ns2n
n
C= (x1 , . . . , xn ) ∈ IR ∈
/ [c2 , c1 ] .
σ02
nSn2
T = 2 suit une loi du χ2 à (n − 1) d.d.l. c1 et c2 se déterminent par :
σ0
Le T observé vaut toujours Tobs = 22, 62. Donc, on rejette l’hypothèse que σ = 30
kg.
Statistique mathématique
c Michel CARBON
334 CHAPITRE 18. TESTS À HYPOTHÈSES MULTIPLES
H1 : θ ∈ Θ1
sup l(x, θ)
θ∈Θ0
On choisira donc, de manière analogue alors H1 si le rapport est assez
sup l(x, θ)
θ∈Θ1
sup l(x, θ)
θ∈Θ0
petit, c’est-à-dire si le rapport est assez petit.
sup l(x, θ)
θ∈Θ
C’est cette quantité qui intervient dans le test dit test du rapport des vraisem-
blances.
On dira que, dans le test de H0 contre H1 , on effectue un test du rapport des
vraisemblances en prenant une région critique de la forme : W = {λ ≤ k}.
Si θ̂0 est l’estimateur du maximum de vraisemblance de θ lorsque que θ ∈ Θ0 , et
si θ̂ est l’estimateur du maximum de vraisemblance de θ lorsque que θ ∈ Θ, on a :
l(x, θ̂0 )
λ=
l(x, θ̂)
L’utilisation de λ est asymptotique, et justifiée par le résultat suivant :
Théorème 18.10.1 Considérons le test H0 : θ1 = θ1∗ , · · · , θp = θp∗ (p ≤ r) contre
H1 = H0c .
La fonction −2 ln λ est asymptotiquement pivotale sous H0 (i.e. ne dépend pas
de θ), et suit asymptotiquement une loi du χ2p .
La région critique du test est :
W = {−2 ln λ ≥ a} ,
Statistique mathématique
c Michel CARBON
18.10 Test du rapport des vraisemblances 335
H1 : θ 6= θ0
— Sous H0 : θ̂0 = θ0
— Sur R+ : θ̂ = x
Ainsi : nx
−n(θ0 −x) θ0
λ=e
x
Par suite :
θ0
−2 ln λ = 2n(θ0 − x) − 2nx ln
x
θ0 − x
= 2n(θ0 − x) − 2nx ln 1 +
x
(θ0 − x)2
−2 ln λ ∼ n ,
x
qui suit un χ21 .
La région critique du test est donc :
(θ0 − x)2
W = n ≥a ,
x
Statistique mathématique
c Michel CARBON
336 CHAPITRE 18. TESTS À HYPOTHÈSES MULTIPLES
Statistique mathématique
c Michel CARBON
Chapitre 19
J’avais raison de ne pas me soucier des applications [de mon théorème] : elles
vinrent plus tard.
Jacques Hadamard
Nous allons maintenant examiner des tests et des intervalles de confiance basés
sur des estimateurs efficaces d’un paramètre θ (qui peut être un vecteur).
Dans ce chapitre, nous allons examiner les tests et intervalles de confiance de
Wald, du rapport de vraisemblances et du score, et nous commencerons par le cas
d’un seul paramètre réel θ.
comme par exemple un estimateur θ̂n du maximum de vraisemblance sous les hypo-
thèses usuelles du théorème 11.3.10 .
Si Iˆn est un estimateur convergent de I(θ), il s’ensuit que :
√ q
L
n θ̂n − θ Iˆn −−−−→ N (0, 1) , (19.2)
n→+∞
et que :
uα/2 uα/2
θ̂n − p < θ < θ̂n + p (19.3)
n Iˆn n Iˆn
est un intervalle de confiance pour θ avec un niveau de confiance de 1 − α. Ici , uα/2
est tel que P (U > uα/2 ) = α/2 où U une loi normale centrée réduite.
337
338 CHAPITRE 19. TESTS ET INTERVALLES DE CONFIANCE
H1 : θ 6= θ0 (19.5)
Comme le calcul du niveau de ce test est basé uniquement sur la loi de θ̂n en
θ0 , on peut alors, dans (19.6) et dans (19.7) remplacer Iˆn par I (θ0 ), et rejeter H0
lorsque : uα/2
θ̂n − θ0 ≥ p . (19.8)
n I (θ0 )
Clairement, si on cherche à tester H0 contre l’hypothèse alternative unilatérale
θ > θ0 plutôt que contre θ 6= θ0 , alors la région de rejet sera remplacée par :
uα
θ̂n − θ0 ≥ p . (19.9)
n I (θ0 )
Statistique mathématique
c Michel CARBON
19.1 Cas d’un seul paramètre réel θ 339
est suffisamment grand. Dans l’expression ci-dessus, θ̂n est l’estimateur du maximum
de vraisemblance.
En prenant le logarithme, ceci est équivalent à rejeter H0 lorsque :
∆n = ln θ̂n − ln (θ0 ) (19.11)
Démonstration :
Pour tout (x1 , · · · , xn ), on exprime ln θ̂n et ln0 (θ0 ) par un développement de
Taylor pour obtenir :
1 2
ln θ̂n − ln (θ0 ) = θ̂n − θ0 ln0 (θ0 ) + θ̂n − θ0 ln00 (θn∗ ) . (19.12)
2
Comme on sait que : ln0 θ̂n = 0, on en déduit que :
1 2
− ln0 (θ0 ) = θ̂n − θ0 ln00 (θ0 ) + θ̂n − θ0 ln000 (θn∗∗ ) , (19.13)
2
Le troisième terme tend vers 0 en probabilité, ln00 (θ0 ) /n et ln00 (θn∗ )/n tendent tous les
deux vers −I (θ0 ) en probabilité. Il s’ensuit alors que 2∆n a la même loi limite que :
2
n θ̂n − θ0 I (θ0 ) , (19.15)
On a même prouvé unpeu plus que le théorème, c’est-à-dire que les statistiques
2
de test 2∆n et n θ̂n − θ0 I (θ0 ) sont asymptotiquement équivalentes sous H0 au
sens où leur différence tend vers 0 en probabilité. Il en découle alors que le test de
Wald et le test du rapport de vraisemblances sont asymptotiquement équivalents.
Statistique mathématique
c Michel CARBON
340 CHAPITRE 19. TESTS ET INTERVALLES DE CONFIANCE
Exemple 19.1.1
Soient X1 , · · · , Xn des variables aléatoires i.i.d. de loi N (θ, 1). On a déjà vu que :
θ̂n = X n . Pour tester l’hypothèse nulle : θ = 0, on peut remarquer que :
n √
1X
ln (θ) = − (xi − θ)2 − n ln 2π
2 i=1
et alors : n n
X X
2∆n = x2i − (xi − x)2 = nx2 .
i=1 i=1
nx2 ≥ vα
Dans ce cas, les deux zones de rejet ne sont pas seulement asymptotiques, elles sont
rigoureusement les mêmes et leur niveau est exactement α.
Statistique mathématique
c Michel CARBON
19.1 Cas d’un seul paramètre réel θ 341
|l0 (θ )|
pn 0 ≥ uα/2 (19.18)
n I (θ0 )
Il est à noter que les tests du score et de Wald sont asymptotiquement équivalents,
ce qui provient du fait que :
1 √
P
− √ ln0 (θ0 ) − n θ̂n − θ0 I (θ0 ) −−−−→ 0 , (19.19)
n n→+∞
Exemple 19.1.2
Considérons un échantillon théorique X1 , · · · , Xn provenant d’une loi logistique
de densité :
e(x−θ)
fθ (x) = 2 .
[1 + e(x−θ) ]
Dans ce cas précis, l’estimateur du maximum de vraisemblance n’a pas d’ex-
pression explicite, et donc les tests de Wald et du rapport de vraisemblances sont
évidemment difficiles, voire impossible à expliciter.
Cherchons, via un test du score, à tester H0 : θ = θ0 contre H1 : θ > θ0 .
Pour cette loi logistique, on a :
n
X n
X
1 + e(xi −θ)
ln (θ) = (xi − θ) − 2 ln
i=1 i=1
et n
X 2e(xi −θ)
ln0 (θ) = −n + (xi −θ)
.
i=1
1 + e
Un calcul direct donne : I(θ) = 1/3 pour tout θ.
Le test du score rejette alors H0 quand :
r n
3 X e(xi −θ0 ) − 1
≥ uα .
n i=1 e(xi −θ0 ) + 1
Théorème 19.1.2 Sous les hypothèses du théorème (19.1.1), le test de Wald (19.7),
le test du score (19.18) et le test du rapport de vraisemblances pour lequel ∆n défini
par (19.11) rejette H0 lorsque :
p
2∆n ≥ uα/2 , (19.20)
Statistique mathématique
c Michel CARBON
342 CHAPITRE 19. TESTS ET INTERVALLES DE CONFIANCE
Ces trois tests différent quelque peu par leur commodité et leur degré d’interpréta-
tion.
p
p I(θ)
I ∗ (η) = . (19.21)
g 0 (θ) ,
H0 : θ = θ0 = θ10 , · · · , θk0
(19.22)
contre H1 : θ 6= θ0 .
Statistique mathématique
c Michel CARBON
19.2 Cas d’un paramètre vectoriel θ de Rk 343
√ √
L
n θ̂1n − θ10 , · · · , n θ̂kn − θk0 −−−−→ N 0, I −1 (θ0 ) .
(19.23)
n→+∞
a pour loi limite une loi du χ2 à k degrés de liberté. Si vα est tel que P (χ2k > vα ) = α,
et si Iˆij (θ) est un estimateur convergent de Iij (θ), alors les ellipsoïdes
k X
X n
n Iˆij θ̂in − θi θ̂jn − θj < vα (19.25)
i=1 j=1
constituent les ensembles de confiance pour le vecteur θ avec une confiance asymp-
totique de 1 − α.
√ √
Dans (19.23), la loi conjointe des variables n θ̂1n − θ1 , · · · , n θ̂kn − θk
peut également être utilisée pour obtenir des intervalles de confiance simultanés
pour chacun des k paramètres θ1 , · · · , θk .
Une région d’acceptation pour tester H0 peut être obtenue en remplaçant θ par
θ0 dans (19.25), comme cela fut fait pour (19.6). Cependant, puisque le calcul du
niveau est basé sur la loi de θ̂n en θ0 , on peut maintenant remplacer Iˆij par Iij (θ0 )
dans (19.25) et donc, en généralisant (19.7), on obtient le région de rejet du test de
Wald :
X k X n
Wn = n Iij (θ0 ) θ̂in − θi0 θ̂jn − θj0 ≥ vα (19.26)
i=1 j=1
au niveau asymptotique α.
Statistique mathématique
c Michel CARBON
344 CHAPITRE 19. TESTS ET INTERVALLES DE CONFIANCE
Tous ces résultats sont résumés et légèrement renforcés dans le théorème suivant
qui est une extension du théorème 19.1.2.
Théorème 19.2.1 Sous les hypothèses du théorème 11.3.10, les tests de Wald (19.26),
du score (19.29) et du rapport des vraisemblances où l’on rejette quand
2∆n ≥ vα (19.30)
Exemple 19.2.1
On considère n variables aléatoires X1 , · · · , Xn indépendantes et de même loi
N (ξ, σ 2 ).
On cherche ici à tester :
H0 : ξ = ξ0 , σ = σ0 . (19.31)
Statistique mathématique
c Michel CARBON
19.3 Cas d’hypothèses composites 345
Pour tester H0 contre des alternatives telles que θi 6= θi0 pour au moins un i, on peut
utiliser la généralisation de la partie test du rapport de vraisemblances du théorème
19.1.2.
Théorème 19.3.1
Supposons
que les hypothèses du théorème 11.3.10 soient véri-
fiées, et que θ̂1n , · · · , θ̂kn sont des estimateurs convergents du maximum de vrai-
semblance du paramètre vectoriel (θ1 , · · · , θk ). Supposons de plus que les hypothèses
correspondantes valent pour le paramètre vectoriel (θr+1 , · · · , θk ) lorsque θi = θi0
ˆ ˆ
pour tout i = 1, · · · , r, et que θ̂r+1,n , · · · , θ̂k,n sont des estimateurs du maximum de
vraisemblance du paramètre vectoriel (θr+1 , · · · , θk ) sous H0 .
En généralisant (19.10), considérons la statistique du rapport de vraisemblances :
Lx θ̂n
, (19.38)
ˆ
Lx θ̂n
Statistique mathématique
c Michel CARBON
346 CHAPITRE 19. TESTS ET INTERVALLES DE CONFIANCE
ˆ 0 ˆ ˆ
0
où θ̂n = θ1 , · · · , θr , θ̂r+1,n , · · · , θ̂k,n . Alors, sous H0 , en posant :
ˆ
∆n = ln = ln θ̂n − ln θ̂n , (19.39)
Considérons les extensions des tests de Wald et du score pour tester l’hypothèse
(19.37), basés sur les comportements asymptotiques respectifs suivants :
√ √ X
(r)
L
n θ̂1n − θ1 , · · · , n θ̂rn − θr −−−−→ N 0, (θ) (19.40)
n→+∞
et
1 ∂ 1 ∂ L
ln (θ) −−−−→ N 0, I (r) (θ) ,
√ ln (θ), · · · , √ (19.41)
n ∂θ1 n ∂θr n→+∞
P(r)
où (θ) et I (r) (θ) sont respectivement les sous-matrices formées des coins en
haut à gauche, constituées de l’intersection
P des r premières rangées et colonnes de
la matrice de variances-covariances (θ) et de la matrice d’information I(θ).
Les formes quadratiques associées :
0 X(r) −1
n θ̂n − θ (θ) θ̂n − θ (19.42)
et
0
1 ∂ ∂ (r) −1 ∂ ∂
ln (θ), · · · , ln (θ) I (θ) ln (θ), · · · , ln (θ) (19.43)
n ∂θ1 ∂θr ∂θ1 ∂θr
Statistique mathématique
c Michel CARBON
Chapitre 20
Tests d’ajustement
20.1 Introduction
Une question usuelle, concernant un échantillon X1 , · · · , Xn de variables i.i.d.,
est de vouloir tester si les Xi ont été tirés selon une loi spécifiée ou tirées dans une
famille de lois précises.
Une des difficultés dans ce type de tests est que la classe des hypothèses alterna-
tives est vraiment très large et ne peut plus être décrite par un modèle paramétrique.
En conséquence, bien que certains résultats asymptotiques d’optimalité soient ici pré-
sentés, ils sont assez isolés. Aucune théorie asymptotique optimale générale n’existe
en ce domaine.
À cause de l’importance du problème d’ajustement, on va tout de même consi-
dérer ce problème sans trop nous soucier de l’optimalité. Nous allons présenter les
principales méthodes et examinerons certaines de leurs forces et faiblesses.
Dans le but de simplifier un problème vraiment compliqué, on va considérer ici
le cas où X1 , · · · , Xn sont des variables aléatoires i.i.d. de loi P , et on cherchera
à tester l’hypothèse nulle H0 : P = P0 où P0 est une loi complètement spécifiée.
Bien que cette hypothèse ne soit pas fréquemment complètement vérifiée dans les
applications, il est possible de couvrir les principaux éléments du problème.
Dans le cas où les observations sont à valeurs réelles, on peut transformer le pro-
blème en utilisant la fonction de répartition F ; le problème revient alors à tester :
H0 : F = F0 . On pourra typiquement considérer le cas où F0 est la fonction de ré-
partition d’une loi uniforme sur [0, 1]. Ce cas précis peut être généralisé au problème
de tester l’hypothèse nulle que les X1 , · · · , Xn sont i.i.d. de fonction de répartition
F sur R. Pour ce faire, on définit Yi = F (Xi ), et alors les Yi sont i.i.d. de loi U[0, 1]
sous H0 . Le test consiste alors à tester l’hypothèse que les variables Y1 , · · · , Yn sont
i.i.d. de loi uniforme sur [0, 1].
347
348 CHAPITRE 20. TESTS D’AJUSTEMENT
Pour tester l’hypothèse nulle H0 : F = F0 , il est clair qu’on peut baser un test
statistique sur une mesure de l’écart entre F̂n et F0 . Si d désigne une métrique
quelconque sur l’espace des lois, alors d(F̂n , F0 ) pourrait servir de statistique de
test.
Un test classique d’un tel choix est d = dK , la métrique de Kolmogorov-Smirnov,
qui fut historiquement le premier test d’ajustement. Il est à noter qu’il est convergent
ponctuellement contre toute hypothèse alternative. Ce test sera étudié dans la sec-
tion 19.2 suivante. Bien sûr, d’autres choix sont possibles, comme la statistique de
Cramér-von Mises et celle de Anderson-Darling. En fait, ces derniers choix donnent
des tests plus puissants que le test de Kolmogorov-Smirnov. On terminera, dans la
section 19.5, par des tests de gaussianité.
Dans la section 19.4, on étudiera le classique test du χ2 , et on donnera ses pro-
priétés asymptotiques.
Statistique mathématique
c Michel CARBON
20.3 Extensions du test de Kolmogorov-Smirnov 349
Pour chaque t, Bn (t) est une variable aléatoire réelle, et donc on peut considérer
Bn (.) comme un processus sur [0, 1], appelé processus empirique.
Grâce au théorème central-limite multivarié, sous H0 , alors pour tous t1 , · · · , tk ,
on a :
L
[Bn (t1 ), · · · , Bn (tk )] −−−−→ [B(t1 ), · · · , B(tk )] , (20.5)
n→+∞
Pour tout dire, B(.) peut être représenté comme un processus aléatoire sur [0, 1]
appelé pont brownien.
On en déduit que Tn a une loi-limite absolument continue et strictement crois-
sante sur ]0, +∞[. Plus prosaïquement, Kolmogorov (1933) a montré que, si F0 est
continue, alors, pour tout d > 0, on a :
+∞
X
(−1)k+1 exp −2k 2 d2 .
P (Tn > d) −−−−→ 2
n→+∞
k=1
Statistique mathématique
c Michel CARBON
350 CHAPITRE 20. TESTS D’AJUSTEMENT
statistique, comme expliqué ci-dessus, est défini comme une mesure d’écart entre F̂n
et Fθ̂n . Par exemple, pour tester la normalité, avec une moyenne µ et une variance
σ 2 non spécifiées, un test de type Kolmogorov-Smirnov est donné par :
x − X n
sup F̂n (x) − Φ
, (20.8)
x∈R σ̂n
où Φ(.) est la fonction de répartition d’une loi normale N (0, 1) et X n , σ̂n sont les
estimateurs du maximum de vraisemblance pour (µ, σ) sous le modèle gaussien. Il
est facile de constater que, sous l’hypothèse nulle, la loi de (20.8) ne dépend pas de
(µ, σ), et les valeurs critiques peuvent être obtenues par simulation.
Statistique mathématique
c Michel CARBON
20.4 Test du χ2 de Pearson 351
Théorème 20.4.1 La loi de Q sous H0 tend, quand n tend vers l’infini, vers un χ2
à k degrés de liberté.
1 1
+ si j=i
pi pk+1
aij = (20.17)
1
si j 6= i .
pk+1
et le résultat en découle.
Alors (20.15) définit un test de H0 de niveau asymptotique α si on détermine Ck
tel que : Z +∞
χ2k = α . (20.20)
Ck
Corollaire 20.4.1 Le test (20.15) avec Ck donné par (20.20) est convergent contre
toute alternative fixée p 6= p(0) .
Démonstration :
(0)
Soit (p1 , · · · , pk+1 ) une alternative avec pj 6= pj pour au moins un entier j
(0)
(j = 1, · · · , k + 1). On va supposer par exemple que pi 6= pi pour un i précis. On
a alors :
√ √
Yi 0 Yi
n − pi n − pi
n n √ pi − p0i
p = p + n p 0 . (20.21)
p0i p0i pi
On sait que Yi suit une loi binomiale B(pi , n). Le premier terme du membre droit de
(20.21) converge en loi vers une loi normale N (0, pi qi /p0i ) et donc (20.21) converge
Statistique mathématique
c Michel CARBON
352 CHAPITRE 20. TESTS D’AJUSTEMENT
en probabilité vers +∞ ou −∞, en fonction du signe de pi − p0i . Dans tous les cas,
P
Q −−−−→ ∞ et P (Q ≥ Ck ) tend alors vers 1.
n→+∞
k+1
X Pk+1 (n) (0)
où ∆i = 0 puisque i=1 p i − p i = 0.
i=1
Statistique mathématique
c Michel CARBON
20.5 Tests de gaussianité 353
la zone de rejet a une probabilité qui tend vers α plutôt que vers 1, quand n tend
vers l’infini.
(0)
Dans beaucoup d’applications, au lieu de F0 et donc des probabilités pi dans
(20.20), on spécifiera plutôt une famille paramétrique Fθ , c’est-à-dire que H0 devient :
(0)
H0 : pi = pi (θ1 , · · · , θr ) . (20.25)
N (ξ, σ 2 ), ξ ∈ R, σ > 0 .
H0 : F est une f.d.r. associée aux lois normales
(20.28)
Nous allons examiner succinctement quelques-uns des nombreux tests pour ce
problème précis.
Statistique mathématique
c Michel CARBON
354 CHAPITRE 20. TESTS D’AJUSTEMENT
pourvu que les lois F aient des moments finis jusqu’à l’ordre six. Plus précisément,
ici, on a :
√ 2 √ √ √ 2
2 ∂ b1 ∂ b1 ∂ b1 ∂ b1
τ = var(M3 ) + 2cov(M2 , M3 ) + var(M2 ) , (20.32)
∂M3 ∂M2 ∂M3 ∂M2
où les dérivées ci-dessus sont évaluées à partir des moments estimés de la population.
Dans le cas gaussien, les moments centrés :
µk = E (Xi − ξ)k
(20.33)
valent respectivement :
µ1 = µ3 = · · · = 0 et µ2k = 1 · 3 · 5 · · · (2k − 1)µk2 . (20.34)
On peut remarquer que : τ 2 = 6.
Un développement similaire est possible également pour tester la normalité contre
une hypothèse de loi à queue épaisse. Ce test est basé sur le moment normalisé
d’ordre quatre :
M4
b2 = 2 . (20.35)
M2
On peut montrer, sous l’hypothèse H0 de normalité, que la statistique :
√
n(b2 − 3)
√ (20.36)
24
est asymptotiquement normale N (0, 1). Hélas, la convergence vers la loi normale est
vraiment lente. Pour des tailles n petites ou relativement petites, la loi de (20.36)
est très asymétrique et l’approximation gaussienne n’est pas du tout recommandée
pour des tailles n < 1000.
Statistique mathématique
c Michel CARBON
20.5 Tests de gaussianité 355
20.5.2 Test du χ2
On peut aussi considérer l’approche classique du χ2 avec un nombre fixe de k + 1
cellules délimitées par les points a1 , a2 , · · · , ak . Si les paramètres de nuisance ξ et
σ 2 sont estimés, comme par exemple en minimisant (20.26), la statistique résultante
X̂2 définie en (20.27) a pour loi-limite un χ2k−2 . Dans cette optique, il raisonnable
d’utiliser les estimateurs standards connus :
n
ˆ 2 1X 2
ξ = X et σ̂ = Xi − X (20.37)
n i=1
qu’on sait être asymptotiquement efficaces, plutôt que d’utiliser les estimateurs du
χ2 -minimum. Malheureusement, la loi-limite n’est plus une loi du χ2 ... Heureusement
qu’il existe de meilleurs tests !
Statistique mathématique
c Michel CARBON
356 CHAPITRE 20. TESTS D’AJUSTEMENT
Statistique mathématique
c Michel CARBON
20.5 Tests de gaussianité 357
où les γi sont des réels et les Yi sont des variables aléatoires indépendantes de loi
N (0, 1).
√ Sous une alternative à H0 fixée, le facteur de normalisation n’est plus n
mais n et la loi-limite est gaussienne.
20.5.5 Résumé
En résumé, il est assez conseillé de ne pas trop utiliser les tests du χ2 ou le test
de Kolmogorov-Smirnov, qui ne sont pas suffisamment puissants, mais il est plutôt
recommandé d’utiliser les tests de moments basés sur les statistiques b1 et b2 , le test
de Anderson-Darling et le test de Shapiro-Wilk.
Statistique mathématique
c Michel CARBON