Barra J - R, Linnik Yu V - Notions Fondamentales de Statistique Mathematique-Dunod (1971)

DEPARTEMENT MATHEMATIQUE Dirigé par le Professeur P. LELONG NOTIONS FONDAMENTALES DE STATISTIQUE MATHEMATIQUE Maitrise de Mathématiques et Applications fondamentales Jean-René BARRA Professeur & la Faculté des Sciences de Grenoble PREFACE DE Yu. V. LINNIK Membre de I’ Académie des Sciences de P'U.R.S.S. DUNOD PARIS 1971© Dunop, 1971 présentation ou reproduction, intégrale ov pi sans le consentoment de. (aut OU oyantsrcouse, est ilfcite (lol du 11 mors ralings I" de l'article 40). Cette representation ou Tepréduction, par quelave, procédé ‘que ce so, conditve. alt une contrefacon. senctionng tes 425. et Svivants dv Code pencl, La Jol du {1 mors 1957 nvaulorise, ‘Gux termes des linéos 2 et 3 de l'article 41, que Tes copies ‘OU reproductions striclement réservées @ I'usage privé du Copiste ef non destinges a Une villisation collective d'une Part, et, d'auire part, que les analyses ot les, courtes citar ns dans un but d’exemple ef dilfustration”.PREFACE La statistique mathématique présentant un grand intérét théorique et pratique, il existe beaucoup de manuels de statistique dont plusieurs sont indiqués dans la bibliographie donnée a la fin de ce livre. Plusieurs de ces manuels sont excellents, mais en général ils essayent de faciliter les applications; l’analyse systématique des structures statistiques y manque. Le présent ouvrage de M. le Professeur J. R. BARRA comble cette lacune. Ce livre est consacré a l’analyse systématique des structures statistiques fondamentales, au niveau correspondant 4 l’esprit des mathématiques modernes. Ainsi l’auteur analyse d’une fagon trés détaillée et profonde, d’abord les structures statistiques qui ne sont pas liées aux décisions, puis les structures liées aux décisions et stratégies. Ainsi, par exemple, nous y trouvons pour la premiére fois dans la littérature, la définition formelle des paramétres fantémes (paramétres nuisibles) par rapport 4 un systéme de décisions. Le beau chapitre sur |’analyse fonctionnelle et la statistique mathématique est suivi par un chapitre bien utile et intéressant, contenant les programmes des procédures statistiques écrites en langage Algol; ainsi l’ouvrage de J. R. BARRA correspond aussi a l’esprit moderne de 1’introduction des « com- puters » dans l’éducation statistique aussi vite que possible. L’ouvrage de J. R. BARRA est une excellente introduction mathématique a la statistique mathématique moderne; il sera trés utile pour les étudiants qui veulent s’initier a la statistique en étudiant a fond les principales structures statistiques, pour étendre ces études a l’analyse séquentielle et autres parties spéciales de la statistique mathématique moderne. Yu. V. LinnikNT-PROPOS « II parait que les initiés, appliquant au hasard un principe qui est un peu celui des vaccins, essayaient d’obtenir en terrain neutre, chez eux, une longue série de boules d’un certain ordre, ou d’une certaine couleur, avant de se risquer au Casino pour y jouer assiddment la couleur ou Vordre contraire. Ce qui revient a dire, en somme, qu’on doit gagner si I’on parie contre le retour d’une chance affaiblie que l’on a désarmée en la faisant prématurément surgir hors de la nuit de toutes les chances et de tous les possibles.» A. PIEYRE DE MANDIARGUES « Le Casino Patibulaire». Cet ouvrage s’adresse d’abord aux étudiants des deuxiéme et troisiéme cycles en Mathématiques et Mathématiques Appliquées; il couvre en particulier le programme de Statistique de la Maitrise : « Mathématiques et Applications Fondamentales »; mais plus généralement ce livre a été rédigé a l’intention de tous ceux qui, possédant une bonne connaissance des bases du Calcul des Probabilités moderne, s’intéressent aux Mathématiques de la Statistique. Congu dans le but de permettre au lecteur d’apprendre rapidement les méthodes et les bases mathématiques de la Statistique, cet ouvrage ne prétend pas présenter une théorie compléte de la Statistique, mais en dégager, dans un formalisme moderne et rigoureux, les mécanismes et notions fondamentales. Ainsi, j’ai restreint ou renvoyé en exercice telle propriété, peut-étre intéressante par ses applications pratiques, mais participant peu a la théorie générale; ainsi n’ai-je pas traité l’Analyse séquentielle, ni les résultats relatifs 4 la méthode du Maximum de vraisemblance, ni les problémes asymptotiques, niles propriétés générales de la loi de probabilité empirique, parce que ces questions me semblent ne devoir étre traitées que dans une étude plus approfondie de la Statistique. D’autre part ce livre étant un traité de mathématiques, j’ai seulement indiqué par quelques commentaires et par des indications bibliographiquesvan Notions fondamentales de statistique mathématique Vinterprétation concréte des concepts que l’on définit. Le lecteur ne devra pas pour autant négliger de confronter la théorie mathématique ici développée, avec son application pratique dans une présentation plus intuitive et tradition- nelle; il semble donc indispensable de consulter au moins quelques ouvrages célébres ot cet aspect méthodologique, voire paraphilosophique, est discuté, par exemple [18], [21], [58]. Enfin on remarquera le paralléle entre les fondements mathématiques donnés ici a la statistique, et ceux du Calcul des Probabilités; plus généralement il est vraisemblable que I’évolution de la statistique sera paralléle a celle du Calcul des Probabilités et c’est pourquoi il est certainement important de donner 4 la Statistique Mathématique des bases aussi rigoureuses que celles du Calcul des Probabilités. Ce livre est composé de cing grandes parties. Les chapitres I, II et III concernent la notion de structure statistique et les concepts généraux qui lui sont asso- ciés; il s’y agit de la représentation et de l’étude mathématique d’un systéme de données ou observations susceptibles d’un traitement statistique et on introduit donc 1a toutes les notions fondamentales qui ne sont pas liées aux décisions que l’on prendra au vu de ces données. Au contraire, on donne aux chapitres IV, V et VI le schéma général d’une décision statistique et on étudie les deux exemples les plus usuels, 4 savoir l’estimation et les tests d’hypothéses (non séquentiels). Aux chapitres VII, VIII et IX on applique ces théories au cas, le plus important en pratique, ot les observations peuvent étre considérées comme résultant d’une variable aléatoire normale. Ces résultats sont généra- lisés ensuite, aux chapitres X et XI ot on établit les théorémes généraux relatifs aux structures exponentielles. Enfin, comme dans beaucoup de théories de Mathématiques Appliquées, il est nécessaire de faire appel a des théories mathématiques diverses, ici, Calcul des Probabilités, Théorie de la Mesure, Analyse fonctionnelle, Analyse numérique; j’ai donc indiqué des référen- ces bibliographiques précises pour les résultats utilisés et, pour faciliter la tache du lecteur, j’ai développé aux chapitres XII, XIII et XIV quelques- uns des résultats les plus utiles. Suivant son point de vue le lecteur pourra parcourir différemment ce livre. Ainsi un étudiant du deuxiéme cycle pourra omettre les paragraphes, chapitres, démonstrations, ... considérés comme difficiles et affectés d’un astérisque, alors qu’un étudiant du troisiéme cycle s’y attachera et y trouvera, ainsi que dans les remarques, les directions d’études ultérieures que je me suis ainsi efforcé de lui ouvrir. D’autre part j'ai souvent jindiqué des exercices car il est indispensable d’illustrer la théorie abstraite ici développée par des exemples montrant l’intérét, I’utilité et le sens concret des notions introduites. Enfin le lecteur, par exemple mathématicien, souhaitant accéder essentiellement aux méthodes, s’intéressera surtout aux six premiers chapitres, alors que le lecteur plus soucieux de techniques d’application portera tout son effort sur les chapitres IV 4 IX. En conclusion, je voudrais dire que cet ouvrage estAvant-propos 1x trés directement issu des grands traités, auxquels il n’est qu’une introduction; on remarquera par exemple combien je me suis inspiré du livre fondamental de Lehman ([43}) et des travaux de Yu. V. Linnik et de son école ([40], [41], etc.). Et justement, je présente d’abord mes respectueux remerciements a M. le Professeur Linnik sans les encouragements duquel cet ouvrage n’aurait jamais étéentrepris. D’autre part, je remercie MM. Ph. Courrége et A. Métivier pour les nombreuses critiques qu’ils m’ont communiquées et les discussions que nous avons eues; mais j’ai aussi bénéficié de l’aide de MM. Malgrange, Romier, Bertrandias et d’autres encore. Que tous trouvent ici l’expression de ma gratitude, ainsi que la maison d’édition DuNopD pour le soin avec lequel elle a réalisé l’édition de cet ouvrage. Grenoble, février 1970TABLE DES MATIERES Notations et terminologie .. 2.2... 2.0. Preliminaiges siccee see eects ie diauate anaes Cuaprrre I. Structures statistiques... 2... 1. ee ee ee eee 1. Structures statistiques — Structures dominées 2. Statistiques — Statistiques sommables . . . 3. Complétion . 2... ee ee ee ee 4. Distributions a priori et 4 posteriori . . . . 5. Produits de structures... . 1... 04 - Cuaprrre IJ. Exhaustivité et liberté 2... . . 1. Tribus et statistiques exhaustives .... . . 2. Théoréme de factorisation 3. Projection d’une statistique 4. Tribus et statistiques libres *5, Tribus et statistiques exhaustives P-minimums *6. Relations entre liberté, complétion, exhaustivité et indépendance | *7, Détermination d’événements libres . . . . . Cuaprrre III. Information dans une structure statistique... .. 2... 1, Axiomes pour une information statistique . . 2, Information selon Fisher... ...... Cuapitre IV. Méthodologie de la statistique. . . . 1, Introduction 2, Décisions et stratégies 3. Tests d’hypothéses et estimation statistique . 4. Choix d’une stratégie. .......... 5. Préordre défini par une fonction de perte .. 6. Paramétres fantémes dans un probléme de décision statistique. . . . . Cuaprrre V. Tests d’hypothéses .... . . na 1. Définitions et remarques préliminaires. . . . 2. Relations de préordre sur les tests d’hypothéses MOI MMMM eerie 4. Lemme de Neyman et Pearson... .. . « 5. Détermination de tests optimaux. . .... 6. Méthodes en I’absence de tests optimaux . .xi Notions fondamentales de statistique mathématique Cuapitre VI. Estimation statistique... . 2... . 1... 1, Estimateurs sans biais 2... 2. Estimateurs optimaux. . 2. ee 3. Construction d’estimations ensemblistes. . . . . . « 4. Estimations ensemblistes optimales . . . . Cuapirre VII. Vecteurs aléatoires gaussiens .. . . 2... .....-. 1. Lois de probabilité usuelles en statistique... .....-....-.- 2. Vecteurs aléatoires gaussiens 3. Formes quadratiques de vecteurs gaussiens et 4, Corrélation entre vecteurs gaussiens. ... 2... . fe 5. Echantillons de vecteurs gaussiens ............. Cuaprrre VII. Quelques problémes sur échantillons empiriques gaussiens. . . 1. Echantillons empiriques gaussiens scalaires 2.2... 1... 2. Problémes de tests sur un échantillon scalaire . 2... 1... 3, Problémes d’estimation sur un échantillon scalaire ... 2.2... *4, Probléme de Behrens-Fisher........... Lee *5, Problémes sur échantillons vectoriels 2... 2... Cuaprree IX, Analyse de la variance |... . Lee de (héoreme de Cochran) 2. Tests d’hypothéses linéaires ©... 1... an 3. Représentation d'une fonction sur un ensemble fini . . 4, Méthodologie de ’analyse de variance (Modéle I). Plans d’expériences 5, Analyse de la variance sur plan factoriel @ordre2.. 2.2... +6. Analyse de la variance sur carrés eulériens. . 1... 2... *7. Analyse de la variance sur blocs incomplets équilibrés. . . . s *8. Introduction au modéle II de I’analyse de variance... 2... Cuaprrre X. Définition et propriétés analytiques des structures exponentielles . *1, Transformée de Laplace d’une mesure Bee 2. Propriétés analytiques des structures exponentielles .... 2... 3. Statistiques exhaustives sur une structure exponentielle Eee *4, Structures exponentielles incomplétes .. 2... 2.2... +5, Estimateurs sur une structure exponentielle 2... es Cuapitre XI. Problémes de tests sur structures exponentielles ....... 1. Problémes de tests sur une structure exponentielle a un paramétre 2. Tests unilatéraux et bilatéraux sur une structure exponentielle scalaire 3. Tests optimaux sur une structure exponentielle scalaire *4, Problémes de tests avec paramétres fantémes. . . . . . . . *5. Application aux tests sur échantillons empiriques gaussiens. . *Cuaprrre XII. Analyse fonctionnelle et statistique mathématique 1. Détermination d’une statistique par son image... ........ 2. Statistiques exhaustives de dimension minimum. . . . . . 73 2B aa 77 19 81 81 85 88 91 103 103 112 118 123 127 127 131 134 138 143 147 151 156 163 163 166 170 172 174 177 177 179 186 188 194 199 199 204Table des matiéres xi 3. Espaces de statistiques eee eee eee eee 4. Théorémes d’existence d’événements libres 2... 2. 2 1... . 212 5. Réciproque du lemme de Neyman et Pearson . . . ore 215 6. Statistiques centrées sur une structure exponentielle incomplete cece Cuaprrre XIII, Problémes de calcul numérique en statistique... . . . . . 221 1. Procédures de calcul des lois usuelles : loi normale, loi du khi deux, lois gamma et béta décentrées. 2. 2... ee ee ee ee es 221 2. Un exemple de programme statistique eee eee 3. Carrés eulériens complets d’ordre inférieur 47... 7229 4. Quelques blocs incomplets équilibrés . . 2... 2... 2... 230 Cxapitre XIV. Probabilités conditionnelles . . . . . PeioHiees aeee i arse eS! 1. Théorémes préliminaires. . . . 2... cosa 2s4 2. Espérance conditionnelle 4 une tribu ou a un eee aléatoire cess) 3. Probabilité conditionnelle a une tribu ou a un élément aléatoire . . . 237 4. Propriétés des espérances conditionnelles . .. . . cee ee 2B 5. Lois de probabilité conditionnelles ............ eee 245 6. Probabilités de transition... 0 ee 246 7. Lois de probabilité conditionnelles sur des espaces euclidiens. | | |. 248 Bibliographic... 2... ey cea oe 2okNOTATIONS ET TERMINOLOGIE On désigne respectivement par : Ben la tribu des boréliens de R” Rt la demi-droite positive et @g+ la tribu de ses boréliens 1, la matrice unité d’ordre n lg Vindicatrice de l’événement E Nm, A) la loi normale (ou de Laplace-Gauss) de moyenne m et de matrice de covariance A N(z) la fonction de répartition de la loi N(0, 1) sur R m@m' le produit des mesures m et m’ ss le céne des matrices symétriques définies non négatives dordre n P(A) la loi de Poisson de paramétre 2 Bn; p,q) la loi binomiale de fonction génératrice (g+ pu)" I(x) la fonction gamma Px la loi de probabilité de 1’élément aléatoire X 'M la matrice transposée de M Ay la matrice de covariance du vecteur aléatoire X inf(f(x)|xe¢E) infimum de la fonction numérique f sur le domaine E; méme principe de notation pour le supremum. On appelle : vecteur, un élément de R” et en écriture matricielle on |’écrit en matrice colonne, variable aléatoire, un élément aléatoire 4 valeurs dans (R, #g) (et non dans la droite complétée (R, Bz), vecteur aléatoire, un élément aléatoire 4 valeurs dans (R”, Bp). Enfin, on écrit P.p.p. pour presque partout suivant la loi P; deux variables aléatoires égales P.p.p. sont dites P-équivalentes et on indique les paragraphes et les énoncés selon le principe défini par les exemples suivants : §X.2 désigne le §2 du chapitre X; 3-XI-4 désigne I’énoncé n° 3 du §4 du chapitre XI.PRELIMINAIRES Les notions d’espérance, de probabilité conditionnelle et de lois de proba- bilité conditionnelles (ne pas confondre ces deux derniéres notions, § 3-XIV et 5-XIV) interviennent trés fréquemment dans les définitions et les calculs de statistique mathématique; le trés bref formulaire ci-aprés rappelle les défini- tions et propriétés essentielles, un exposé complet étant par ailleurs donné au Chapitre XIV. 1. THEOREME | « Soient (Q, U, P) un espace probabilisé, B une sous-tribu de U et X une variable aléatoire sommable (resp. positive), il existe une classe de P-équi- valence unique, E(X|B), (resp. E*(X\&)), de variables aléatoires B-mesurables, sommables (resp. positives) telle que : VBeB, VYeE(X|B) (resp. E*(X|B)), on ait : * * [xe =| YdP cree. [x ar = | YdP).» B B JB B Le symbole * désigne l’intégrale supérieure d’une fonction positive et E(X|) se lit « espérance conditionnelle de X a @». Ce théoréme qui définit lespérance conditionnelle admet deux spécialisations importantes : a) si B est la tribu induite par un élément aléatoire T on écrit E(X|T) et on énonce « espérance conditionnelle de ¥ 4 T», b) si X est l’indicatrice de I’événement A, on écrit P(A|@) et on énonce « probabilité conditionnelle de A 4 B»; il est clair enfin que P(A| T) résulte de la combinaison de ces deux spécialisations. 2. En plus des propriétés de positivité, linéarité, monotonie, continuité, extensions directes des propriétés correspondantes de l’espérance mathéma- tique, l’espérance conditionnelle posséde les propriétés plus spécifiques suivantes : a) BoB’ > E(X|@) = EE(X|B)|B'] = E[E(X|B')|B) P.p.p. b) Si Z est B-mesurable, YZ est sommable si et seulement si ZE(X|@) Lest et on a: E(XZ|@) = ZE(X|) P.p.p.XxVaT Notions fondamentales de statistique mathématique c) Si @ est une fonction numérique réelle continue convexe et si p(X) est sommable, on a: E(9(X)| @) 2 o(E(X|4)) Ppp. 3. DEFINITION 1 « Soient X et Y deux éléments aléatoires sur (Q,U, P) @ valeurs respectivement dans (X, ©) et (Nt, D) et soient Py et Py leurs lois respectives sur ces espaces. On appelle loi de probabilité conditionnelle de Y a X, une fonction P¥)x(D) sur Xx D telle que : a) WxeX, P¥x(D) comme fonction de D est une loi de probabilité sur (, D), b) VDeD, P¥,x(D) comme fonction de x est une détermination de P(Y71(D)|X).» Réciproquement, la donnée de Px et d’une probabilité de transition, c’est-a-dire d’une fonction P*(D) sur X x D satisfaisant 4 a) et telle que, quel que soit D dans D, P*(D) soit une fonction G-mesurable de x, définit une loi de probabilité unique sur (X xIt, €@®D) pour laquelle P*(D) s’inter- préte comme la loi de probabilité conditionnelle de Y 4 X. En particulier X et Y sont indépendants si et seulement si : Pyx=Py Pxpp. Les calculs pratiques concernant les lois de probabilité conditionnelles s’appuient essentiellement sur le théoréme suivant : THéorEME 2 « Soient X et Y deux vecteurs aléatoires @ valeurs dans (RY, Bye) et (R*, Byx) respectivement, et soient v et 4 deux mesures positives, o-finies, respectivement sur ces deux espaces; si la loi du couple (X, Y) admet une densité f(x, y) par rapport a la mesure produit v ® p, alors la loi de probabilité conditionnelle de Y aX, P})x, existe et, pour v-presque tout x de R*, comme loi de probabilité sur (R¥, Byx), admet une densité par rapport @ u donnée par : APH _ Sx 9) 7 upp.» if i Se, y) du(y) Enfin la proposition suivante permet le calcul effectif d’une espérance conditionnelle comme espérance par rapport la loi conditionnelle :Préliminaires xix THEOREME 3 « S°il existe une loi de probabilité conditionnelle de Y a X, alors pour toute variable aléatoire g(Y) sommable en posant : h(x) = I 9(y) dP¥jx(y) 5 wt Ja variable aléatoire ho X est une détermination de E(g(Y)|X).»CHAPITRE 1 STRUCTURES STATISTIQUES La notion de structure statistique, introduite dans ce chapitre, joue en statistique mathématique le méme réle que celle d’espace probabilisé en Calcul des Probabilités; en particulier on peut faire, quant au choix de la structure statistique de base, les mémes remarques qu’en Calcul des Probabilités relativement a l’espace probabilisé fondamental. Nous ne nous attacherons cependant pas dans la suite a justifier un tel choix, mais sans pour autant négliger de noter l’interprétation concréte des concepts introduits; en effet dans un probléme de statistique concréte, une analyse précise et rigoureuse des conditions de l’expérience est indispensable pour choisir la structure statistique qui représentera ce probléme. Plus généralement, on notera au cours de ce chapitre d’autres analogies avec le calcul des probabilités : statistique et élément aléatoire, produits de structures et produits d’espaces probabilisés, etc. 1. STRUCTURES STATISTIQUES. STRUCTURES DOMINEES DEFINITION 1 « Soit P une famille de lois de probabilité sur un espace probabilisable (Q, U), on appelle structure statistique le triplet (Q, U, P).» L’espace Q représente l’espace des observations et on suppose donc que ces observations proviennent d’un élément aléatoire dont on admet 4 priori que la loi de probabilité appartient 4 une famille A connue; cette hypothése fondamentale sur la nature aléatoire des observations et le cadre d’hypothéses dans lequel on se place est sous-jacente 4 tout vrai probléme de statistique. La famille Y est souvent décrite 4 l’aide d’un indice appelé paramétre, on écrira alors : P = {Py, 00}. Il sera presque toujours fructueux de préciser les structures statistiques des problémes de statistique mathématique dont on trouvera des exemples traités dans [4]. Ainsi a lexpérience statistique consistant 4 observer N fois, de fagon indépendante, un élément aléatoire pouvant prendre un nombre fini k de valeurs et dont Ja loi est entigrement inconnue mais constante au au cours de I’expérience, on associe la structure définie par :2 Notions fondamentales de statistique mathématique a) Q = {1,2,..., k}%, muni de la tribu 2 de ses parties b) © est le simplexe de R* défini par : O45 1: O) EO > Oy Hi tO =1; 44 20,44, 20 c) pour tout 6 € O, Py = (Ip)%, ot Hg est la loi sur {1, 2, ..., k} définie par les masses de probabilité (0,, ..., 0). DEFINITION 2 « On dit que la structure statistique (Q, U, P), ou briévement la famille P, est dominée sil existe une mesure p positive, o-finie sur (Q, U) telle que l'une ou Pautre des deux conditions suivantes équivalentes soit remplie : (1) toute loi de P est absolument continue par rapport a p, (ID) toute loi de P admet une densité de probabilité par rapport a py.» L’équivalence de ces deux conditions est établie par les théorémes 2-XIV-1 et 4-XIV-1; rappelons qu’une mesure p est o-finie si Q est union dénombrable d’événements mesurables et de y-mesure finie. Quand dans une structure statistique dominée on a fait choix d’un para- métre @ et pour tout 6 d’une détermination ps(w) de la densité dP,/du, on note, s’il n’y a pas ambiguité, cette structure : [2, U, {79,9 € O}] et on appelle fonction de vraisemblance 1a fonction numérique réelle £(0, o) définie sur (Q x @) par : ‘w,@) -9@,0) = plo). La mesure dominant une structure dominée n’est pas unique; si p domine la structure et si est absolument continue par rapport a y’, »’ domine égale- ment la structure et le changement de densité se fait par (§ XIV-1) : Le théoréme suivant montre en particulier que, si la structure est dominée, on peut toujours, et ce sera souvent commode pour les calculs théoriques, choisir comme mesure dominante une loi de probabilité équivalente 4 F. THEoREME 1 « Une structure statistique (Q, U, P) est dominée si et seulement s°il existe une loi de probabilité P* sur (Q, U), dite privilégiée, dominant (Q, U, ) telle que : a) P* est absolument continue par rapport a toute mesure dominant (Q, U, P)(Chap. 1) Structures statistiques 3 b) P* est combinaison strictement convexe d’une sous-famille P' au plus dénombrable de P : P*= Y cpP (cp>0, cp=1). peo Peo c) P* est équivalente a P, c’est-d-dire: VA €O, [P(A)=0, VP € 9] <> P*(A)=0.» La démonstration de ce théoréme repose sur le lemme suivant: Lemme ((61], p. 319) « La structure (Q,U,P) est dominée si et seulement s’il existe une sous- famille au plus dénombrable P' de F telle que : VAe U, [P(A) =0, VPe 9] = [P(A) =0, VPe9].» Soit alors P* une combinaison strictement convexe des lois de #’, c’est une loi de probabilité sur (Q, 2) qui remplit les conditions du théoréme 1; en effet, si 4. est une mesure dominant (Q, U, ), ona: VAeU, P*(A) =0 <> [P(A) =0, WP 9'] [P(A) = 0, VPe 9] = (4) =0. COROLLAIRE « Si Q ou F est dénombrable, la structure (Q, U, P) est dominée; si la famille P est dominée, l'enveloppe convexe de P, famille des combinaisons convexes Sinies de lois de P, est dominée; enfin si P, est une suite dénombrable de familles dominées, la réunion de ces familles est dominée. » Ce corollaire résulte immédiatement des propositions précédentes; quand Q est dénombrable on appelle parfois « mesure-dénombrement », la mesure, o-finie d’ailleurs, qui 4 toute partie de Q fait correspondre son cardinal. Pour les calculs pratiques, cette mesure dénombrement dans le cas dénombrable et la mesure de Lebesgue dans le cas continu, seront les plus utilisées car la quasi-totalité des problémes de statistique mathématique, tel l’exemple précé- dent, concernent des structures dominées. 2. STATISTIQUES. STATISTIQUES SOMMABLES DEFINITION | « On appelle statistique sur la structure statistique (Q, U, P) une application mesurable T de (2, ) dans un espace mesurable (ZG). » Remarquons, et cela est trés important, que T ne dépend pas de P ou du paramétre s’il y a lieu; si T=R on dira que T est une statistique scalaire, si4 Notions fondamentales de statistique mathématique = R" on dira que Test une statistique vectorielle. En statistique mathématique, les statistiques jouent le réle des éléments aléatoires en calcul des probabilités; en pratique on constatera que l’usage d’une statistique revient 4 extraire des données initiales ou brutes, souvent considérables, des éléments significatifs. Ainsi dans l’exemple donné a propos de la définition I-§ 1, le systeme des fréquences de chacune des & valeurs possibles de I’élément observé est une statistique dont on formalisera aisément la définition. Pour toute loi P de # la statistique T comme application de (Q, U, P) dans (I, ©) est un élément aléatoire dont on note Pr la loi de probabilité; en écrivant : Pr = {Pr, PEP}, on obtient Ja structure statistique (Z,@,#,) induite par T et l’on note: (2,2, ) > (5,6, 97). DEFINITION 2 « Soient T, et T, deux statistiques sur (Q, U,P), a valeurs respectivement dans (E,, €,) et (Zz, ©), on dit que T, est Equivalent a T, et on écrit T, ~ Tz ste T,'G,) = T, (GC) » On remarque que cette notion est indépendante de #; en particulier si T, et Tz sont en correspondance biunivoque et bi-mesurable elles sont équi- valentes. DEFINITION 3 « On dit que ’événement A de U est P-négligeable si : P(A) =0 VPEP.» Ceci définit l’expression P-presque-partout (P-p.p.) souvent utilisée. DEFINITION 4 « Soient T, et T, deux statistiques sur (Q,U,P) a valeurs dans (I, ©), on dit que T, est P-équivalente @ T, et on écrit T, © T; si Pévénement {T, # Tz} est P-négligeable. » Remarque Si la structure (Q, U,P) est dominée et si P* est une loi de probabilité dominante et privilégiée, un événement est P-négligeable si et seulement s’il est P*-négligeable. En effet si A est P*-négligeable il est P—négligeable quelle que soit P dans F puisque P* domine #; réciproquement si A est P-négli-(Chap. 1) Structures statistiques 5 geable, comme P* est combinaison convexe d’une sous-famille de. 9, il est évidemment P*-négligeable. Dérinition 5 « On dit que les statistiques X et Y sur (Q,U, P) sont indépendantes, si pour toute loi P de Y, les éléments aléatoires X et Y sont indépendants.» Exemple : Sur la structure [R?, Ba ; N(m, 071), m € R?, o € R*] les deux statistiques X(x,y) = x+yet ¥(x,y) = x-y ((x, y) € R*) sont indépendantes. DEFINITION 6 « On dit que la statistique scalaire X, définie sur (Q, U, P) est sommable si, pour toute loi P de P, la variable aléatoire X est sommable, c’est-d-dire posséde une espérance mathématique que l’on note Ep(X).» De méme si X est une statistique 4 valeurs dans R", X est sommable si et seulement si chaque composante de X est sommable. DEFINITION 7 « On dit que la statistique scalaire X, définie sur (Q, U,P), sommable, est libre en moyenne (resp. centrée) si Ep(X) ne dépend pas de P dans P (resp. Ep(X) est nulle quelle que soit P dans P).» Dans ce cas on écrira souvent, quand il n’y a pas risque d’ambiguité, E(X) pour la valeur commune des Ep(X). Exemple : Considérons la structure [R?, Bp2, P], ot F est la famille de lois définies par leur densité par rapport 4 la mesure de Lebesgue : icy) = este eye 01> 0; la statistique (x, y) > xy—1 est centrée. DEFINITION 8 « On appelle image de la statistique sommable X définie sur la structure statistique [Q, U, {Py, 0 € O}], la fonction By définie sur © par : Bx(0) = Ex,(X) = I Xd 060.» :6 Notions fondamentales de statistique mathématique 3. COMPLETION DEFINITION 1 « Soient (Q, U, P) une structure statistique et B une sous-tribu de U, on dit que la structure (Q, , P) est complete (resp. quasi-complete), ou quand il n’y a pas d’ambiguité, que la sous-tribu B est complete (resp. quasi-complete) si toute statistique centrée B-mesurable (resp. de plus bornée) est P-Equivalente a zéro. » Une statistique est dite compléte si elle induit une structure complete. I est clair que si une structure est complete elle est quasi-compléte, Réci- proquement, considérons la famille des lois P, définie sur l’ensemble Q des entiers supérieurs ou égaux 4 —1 muni de la tribu 2 de toutes ses parties, par : 0€[0,1] Py({-1}] = 6 P({n}) = (1-0)? 6" n=0,1,...,0. La structure (Q, U, Ps, 0 €[0, 1] est quasi-compléte sans étre compléte, puisque, 4 une homothétie prés, la seule statistique centrée non nulle est donnée par : f(-lI) = -1 fan n=0,...,0. Remarque Soit {Q, U ; pp, 9 € O} une structure dominée par la loi privilégiée P*, cette structure est compléte si et seulement si : { XpdP*=0 WOoe@>X=0 Pt-pp; a en particulier on donnera au § X-2 un théoréme général relatif 4 la complétion des structures exponentielles. Exercices 1. On considére l’exemple donné a propos de la définition 1-§1; soit 9 une famille de lois de probabilité sur Q, définie par une partie Oy de @, montrer que si N=1 la structure (Q, %; Py, @€ Oo) est complete si et seulement si @, est de dimension k-1. 2. Montrer que les structures suivantes sont completes : a) [{0,1,...,"}, U; B@; p, 1—p) pel, 1] ov Y est la tribu des parties de {0, 1, ..., 2} et B la loi binomiale (cf notations) b) [{0, 1,2, ..., 0}, X; AA, AeR*] ob MU est la tribu des parties de V’ensemble des entiers non-négatifs et P(A) la loi de Poisson de paramétre A c) [R, Bg; N(m, 1), me R] d) [r* Bye She Og OI Ge | dx (a) ou a est un réel non négatif.(Chap. 1) Structures statistiques 7 4, DISTRIBUTIONS A PRIORI ET A POSTERIORI Dans tout ce paragraphe nous supposons que @ est muni d’une tribu T et qu’alors P,(A) est une probabilité de transition sur @ x (§ XIV-6); cette hypothése trés générale est satisfaite dans la plupart des cas et dans toute la suite de cet ouvrage, on écrira seulement : (2, U, {Po, (0, )}] pour une structure remplissant cette condition. Le théoréme 2-XIV-6 montre aisément que : LEMME « Si la fonction de vraisemblance £(w, 0) existe et est mesurable comme fonction sur (Qx O, A®@ZT), alors, Py est une probabilité de transition sur © x U.» THEOREME | « Quelle que soit la statistique X sommable sur la structure [Q,U; {Po, 6€(@, 5)}), son image Bx est une fonction Z-mesurable. » En effet, si X est l’indicatrice de l’événement A, B, , = P,(A) est T-mesurable par hypothése; de plus la propriété reste vraie par combinaison linéaire et passage a la limite croissant, donc pour une statistique X positive et enfin par différence pour une statistique ¥ sommable. Remarque Avec les notations du § XII-3 on peut considérer |’application 8: ¥ > By, comme une application linéaire de L, (Q, U, A) dans §(O, T), espace des fonctions numériques mesurables sur (9, T), ou également comme une application de A,\(Q,%,P) ou de A, (2,4, A) dans Y,,(0, 2); ainsi la structure est complete (resp. quasi-complete) si et seulement si f est injective comme application de L, (resp. A,,) dans § (resp. Y,,). Quand f sera une transformation classique de l’Analyse (développements en série, transformation de Laplace, ...) on pourra donc s’appuyer sur les propriétés connues de ces transformations pour établir la propriété de complétion recherchée. D&mniTION 1 « Soit une structure statistique [Q, U, {P,, 0 €(O, 5)}], on appelle distribution a priori toute loi de probabilité sur l’espace mesurable (@, Z). » L’introduction d’une distribution 4 priori dans un probléme de statistique est @ la base de ce que l’on appelle le « point de vue bayésien »; destinée 4 représenter |’information avant toute expérience ou observation du paramétre inconnu 9, cette distribution a priori est parfois concrétement justifiable mais son introduction peut aussi paraitre quelquefois arbitraire. La controverse entre8 Notions fondamentales de statistique mathématique « bayésiens » et « non bayésiens » est célébre mais n’est pas d’ordre mathéma- tique et nous renvoyons le lecteur par exemple a [24] ot une large bibliographie est donnée. THEOREME 2 « Avec les notations de la définition 1, application B% définie par : (Q) VAeX — BQ(A) = it P4(A) dQ(0) est une loi de probabilité sur (Q, 2); si la structure est dominée par la mesure p, 86 est absolument continue par rapport 4 yu. » En effet, d’aprés le théoréme 1-XIV-6, il existe une loi de probabilité unique z sur (Ox Q, T @Y) telle que : VTet,VAeX, x(TxA) = [ P,(A) dQ(0) , T et BS est la projection de z sur (2, 2). Si de plus la structure est dominée par zona: {Ae QU, n(A) = 0} > {Pp(A) = 0, VOEO} => B4(A) = 0. Notons cependant que l’on n’a pas nécessairement : . obo _ f polo) 4Q(0), oF ceci étant exact si, par exemple, pg (cw) est mesurable sur (Qx O, U® T, uw @ Q). DEFINITION 2 « Avec les notations précédentes, supposons qu’il existe une probabilité de transition P,(T) sur QxT telle que P,(T) et BS d'une part, et P(A) et Q d’autre part, engendrent la méme loi x sur (Qx @,U@X); alors pour tout w de Q on appelle « distribution a posteriori», la loi de probabilité P., sur (@, Z).» On remarque que cette seconde notion bayésienne de distribution 4 posteriori ne se représente pas par le méme concept mathématique qu’une distribution a priori; en effet la probabilité de transition F,,(T) serait plutt I’« inverse » de la probabilité de transition P,(A). Ainsi on a: VAeU, WTe E i) P,(T) dp} -{ P(A) dQ(6). 4 T(Chap. I) Structures statistiques 9 Dans le cas d’une structure dominée, si Q et @ sont euclidiens et si on a iP, : choisi une détermination de pg(w) = ote, 2 @ T-mesurable comme fonction a sur 2x O, on a alors (théoréme 1-XIV-7) : dP, _ __po() IPP.» fe i Po(w) dQ et on retrouve les formules de Bayes. Exemple [4] : Probleme n° XI, chap. V. 5. PRODUITS DE STRUCTURES DEFINITION 1 « Soient (Q,U,P) et (Q',U',P") deux structures statistiques, on appelle produit de ces deux structures et on note (Q,U,P) @ (Q’, A',F’) la structure (2x 2’, A@U', POF’) on : POF’ = {P@P'; PEP, P'cF"}.» DEFINITION 2 « Soient (Q, U, {Po, 0 € O}), (Q’, U’, {Po, 0€ O}), deux structures statistiques ayant le méme espace de paramétre et le méme paramétre, on appelle produit restreint de ces deux structures et on note (@Q, U, {Po, 0€ O}) x (Q', UW’, {P5, 0€ O}) Ia structure : (2x2, UN’, {Pp@Po, 8€ O}) 5 en particulier on appelle échantillon empirique le produit restreint d’un nombre fini d’exemplaires d’une méme structure : (Q, 4, FP)" = (Q", AU", {P", Pe P}).» Considérer des produits de structures correspond, dans la pratique, a étudier des systémes d’observations indépendantes; mais selon le cas (1) ou (2), on suppose ou non que les valeurs du parametre sont les mémes. Par exemple la notion d’échantillon empirique est trés importante et correspond A un nombre fini d’observations indépendantes et dans les mémes conditions d’expérimentation, d’un élément aléatoire déterminé.10 Notions fondamentales de statistique mathématique Dans le cas ott les structures sont dominées, on écrit aisément les fonctions de vraisemblance; avec des notations évidentes il vient : (définition 1) (a, w'; 0, 0’) = L(a, 0) #'(a', 0’) (définition 2) £(@, w'; 0) = L(a, 0) £'(a’, 0). Dans le cas d’un échantillon empirique, il est commode de poser : (a, 0) = log Z(a, 0) et donc ona: 14, +5 Oy; 8) = M(@1, 8) +... +1(@,, 8). Remarque Test clair qu’entre la notion de produit et celle de produit restreint, on peut définir un produit mixte quand une partie seulement du paramétre prend la méme valeur pour les deux structures; par commodité, nous ne fixerons pas la notation de ce cas pour garder une écriture simple dans chaque probléme. D’autre part il est évident, pour tous les types de produits, que les statistiques projections (@, @')— w et (@, w’)— w’ sont indépendantes! Exemples 1) Dans le probléme de Behrens-Fisher (§ VIII-4) on dispose de deux échantillons empiriques indépendants de la loi normale scalaire et on ne sait rien sur les paramétres respectifs des deux échantillons, la structure statistique obtenue s’écrit donc : [R, @n; N(m, 07), meR, ceR*]"@[R, Bp; N(m, 07), meR, cER*]” . Mais si on savait que les variances sont les mémes dans chaque échantillon, la structure statistique correspondante serait un produit mixte que l’on écrirait aisément. 2) De méme, le probléme des deux échantillons, ot l’on dispose de deux échantillons empiriques indépendants d’une variable aléatoire dont on sait seulement que la fonction de répartition est continue, se définit sur le produit de structures : (R, Bx; G)" @ (R, Bus BI", ou & est la famille des lois de probabilité sur la droite, dont la fonction de répartition est continue. A propos de ces exemples, on constate la nécessité, quand on étudie un probléme de statistique concréte, de définir avec précision la structure statistique que |’on utilisera comme base de l’étude mathématique.(Chap. 1) Structures statistiques 11 THEOREME 2 « Soient (Q, U,P), (Q’, U’, PY’) deux structures statistiques et X une statistique sommable sur (Q,U,P) @ (Q', U', FP’), on a alors : VPEPAVP'eP?’ = Bx (P@P’) =| (f xan’) dP -[ (f xar)ar’ a\Jo a\Jo si X est non négative et si l'une des deux intégrales itérées existe quelles que soient P et P’ respectivement dans P et ?', les mémes conclusions sont valables. » Ce théoréme, corollaire direct du théoréme de Fubini (§ XIV-6), rappelle que l’on peut calculer |’image d’une statistique sommable sur un produit en commencant par I’une ou |’autre des composantes. DEFINITION 3 « Soit (Q, U, Y)" un échantillon empirique; pour tout point (,, ..., @,) de 2", on appelle loi de probabilité empirique, la loi de probabilité sur (Q, 2) définie par : VAEX Poy, 3A) = 1S 1y(w) .» niet La loi forte des grands nombres et d’autres théorémes du Calcul des proba- bilités ((2]) montrent que si P est la loi de probabilité commune des éléments aléatoires indépendants @,, ...,@,, alors, quand n tend vers l’infini, P, tend vers P en divers sens ((2]). Ce fait est trés souvent utilisé en statistique; par exemple pour étudier une notion définie sur (Q, U, A) telle que moment, loi conditionnelle, etc,... on considérera la statistique sur (Q, U,P)", égale a cette méme notion définie sur [Q, U, P,(w,, ...,@,)]. Il est commode de désigner la statistique ainsi obtenue par le nom de la notion étudiée, suivi de Vadjectif empirique; & titre d’exercice, on utilisera ce principe pour définir les statistiques suivantes concernant un échantillon empirique sur R* : moyenne empirique, moments empiriques, coefficient de corrélation empirique, matrice de covariance empirique, loi marginale empirique, moments conditionnels empiriques.CHAPITRE II EXHAUSTIVITE ET LIBERTE Au contraire des concepts introduits au chapitre précédent qui étendaient des notions élémentaires de Calcul des Probabilités au cas de la Statistique od lon étudie une famille de lois de probabilité, les deux notions d’exhaustivité et de liberté que I’on introduit ici sont fondamentales et propres a la Statistique mathématique. 1. TRIBUS ET STATISTIQUES EXHAUSTIVES DéFiniTION 1 « Soit (Q, U,P) une structure statistique; une sous-tribu B de A est dite exhaustive si quel que soit A de U il existe une détermination de P(A|) commune @ toutes les lois P de P. Il est équivalent de dire que pour toute statistique sommable X il existe une détermination de Ep(X|@) commune 4 toutes les lois PdeP.» En effet si la propriété est vraie pour. les indicatrices d’ensembles, par linéarité puis continuité monotone (propriété 5—XIV-4), elle est vraie pour une statistique sommable. On note que l’exhaustivité d’une tribu dépend directement de la famille P; bien évidemment si on augmente F, # ne reste pas nécessairement exhaustive. DéFiniTION 2 « On dit que la statistique T définie sur la structure statistique (Q, A,P) et a valeurs dans (Z, ©) est exhaustive si la tribu T-'(G) est exhaustive. » Bien que dans la plupart des problémes classiques on cherche des statistiques exhaustives, la notion de tribu exhaustive est, au moins en théorie, plus commode que celle de statistique exhaustive; notons qu’il peut exister une tribu exhaustive sans pour autant qu’existe une statistique exhaustive & valeurs dans un espace mesurable donné. PROPOSITION 1 « Soit une structure statistique (R", By, P), la statistique vectorielle T est exhaustive si et seulement s’il existe une détermination de la loi de probabilité sur Byo conditionnelle & T qui soit la méme pour toutes les lois P de P.» Banna, — Statistique mathématique 214 Notions fondamentales de statistique mathématique La condition suffisante est évidente. La démonstration de la condition nécessaire que nous admettrons ([43], p. 48) est analogue a celle du théoréme montrant qu’ici il existe toujours une loi de probabilité conditionnelle a T. Cette derniére proposition éclaire mieux que la définition 1, dont elle est un cas particulier, le sens de la notion d’exhaustivité, notion fondamentale en statistique mathématique. On constate que si on a pu écrire la structure sous la forme: (Xx, U@4, F), dire que la statistique (x, y) > y est exhaustive, c’est dire que la loi de x conditionnelle 4 y ne dépend plus du paramétre; lorsqu’on connait y, la valeur de x n’a donc plus aucun intérét statistique. Ainsi y contient toute «]’information contenue dans la structure » et forme un « résumé » équivalent aux observations initiales : on peut omettre x sans rien perdre. Quand on le pourra, on commencera |’étude d’un probléme statistique par la détermination d’une statistique exhaustive. Exemples : Voir [4], chap. II, exercice n° 1. PROPOSITION 2 « Si la tribu @ est exhaustive pour la structure statistique (Q, U, P) elle est exhaustive pour la structure statistique (Q,U,P') si P' < FP ou si F’ est lenve- loppe convexe de P.» Cette proposition comme la suivante est évidente. PROPOSITION 3 « Toute statistique équivalente 4 une statistique exhaustive est exhaustive.» PROPOSITION 4 « Soient B une sous-tribu exhaustive pour la structure statistique (Q, U, P) et © une sous-tribu de B; © est exhaustive pour la structure statistique (Q, B, Pg) si et seulement si € est exhaustive pour la structure statistique (Q, U,P). » On a noté Pg la famille des restrictions 4 # des lois de J. La condition suffisante est évidente; établissons la condition nécessaire. D’aprés la propriété 6-XIV-4 on a: VPeP,VAEX PAG) = Ep(P(A|B)|O); or, @ étant exhaustive, P(A|#) est une statistique @-mesurable, donc € étant exhaustive pour (2, #, Pg), Ep(P(A|A)|G) ne dépend pas de P.(Chap. 11) Exhaustivité et liberté 15 2. THEOREME DE FACTORISATION Dans le cas d’une structure dominée le théoréme suivant est fondamental : THEOREME 1 « Soient (Q, U, {P, 0 € O}) une structure statistique dominée et P* une loi de probabilité dominante privilégiée; une condition nécessaire et suffisante pour que la sous-tribu @ de U soit exhaustive est qu’il existe une détermination des densités py= Ep(g(E(X|A))).» En effet d’aprés l’inégalité de Jensen (9-XIV-4), on a: Ep(g(X)|B) > g(E(X|B)) et donc par intégration des deux membres le théoréme en résulte. ‘THEOREME 2 (Rao-Blackwell) « Soient (Q,U,P) une structure statistique, B une sous-tribu exhaustive et X une statistique vectorielle de carré sommable; la projection S de X sur B est alors de carré sommable et l’on a : VPeP As < Ay.» Soit R¥ l’espace des valeurs de X, on a: WzeR® —'zAyz = op( X(@) # X'(@) il vient : X(C)AX "Cy eT. DEFINITION 4 « On dit que la tribu exhaustive Bo est P-minimum si pour toute tribu exhaustive B, Bo est contenue dans B, ou, ce qui est équivalent, si By est la plus petite tribu exhaustive contenant Jt. »a Notions fondamentales de statistique mathématique En effet si est une tribu exhaustive, @ est également exhaustive puisque, si Ce B et Be & sont tels que: CABeN, ona: P(A()C) = P(A()B) VAeU, WPeP, i P(A|@) dP -{ P(A|B) dP| < fetta c B donc on peut prendre P(A|#@) comme détermination de P(A|#). On en déduit que @, est contenue dans toute tribu exhaustive contenant Jt, donc dans la plus petite de ces tribus qui est Bo. DEFINITION 5 « On dit que la statistique exhaustive X est P-minimum si elle induit une tribu exhaustive P-minimum. » Il est évident qu’une tribu ou une statistique exhaustive minimum est #Y-minimum, mais la proposition suivante montre l’intérét de cette derniére notion : THEOREME 3 « Soit (Q,U,P) une structure dominée par une loi de probabilité privilégiée P*; une sous-tribu B de X est exhaustive P-minimum si et seulement si B est P-Eégale a la plus petite tribu rendant mesurable une détermination des densités par rapport & P* des lois de la famille P.» Soient @ la plus petite tribu rendant mesurable une détermination des dP, densités py = APE > Pg une autre détermination de ces densités et B la plus petite tribu rendant les pj mesurables; montrons d’abord que @ et Bp sont P-égales. En effet soit Bp la tribu des boréliens de R, on a: VOceO p=pm P*-pp. donc : YocO py (Bp) = pe (Bp) d’aprés la proposition 2 et en rappelant que la P*-équivalence ou égalité est identique 4 la P- équivalence ou égalité. On a donc: YOO po" (Ba) = Po (Br)(Chap. 11) Exhaustivité et liberté 25 et donc : B= &. Etablissons maintenant le théoréme. Soit @, une tribu exhaustive, il existe une détermination py des densités qui est #y>—mesurable; soit alors #’ la plus petite tribu rendant ces densités mesurables, on a donc: B cB, etdonc #cB. Si de plus @, est P-minimum, par définition on a: Bc B etdone BB, et d’aprés ce qui précéde il vient : @ =. Si pg est une autre détermination des densités et Bq la plus petite tribu les rendant mesurables, d’aprés la remarque initiale on a : @ =@), etfinalement 2, = B). Réciproquement, soient # la plus petite tribu rendant mesurable une détermination p, des densités et # une tribu P-égale 4 By ; montrons qu’une détermination pg de Ep.(polB) est une détermination de dP,/dP*. En effet ona: W0EO,VAEB P(A) = Epe(1 4 Po) = Epe(14 Po) = [ Po AP* ; 4 de plus si Ce &, il existe A € & tel que P*(C A A) = Oet donc: P9(C) = Po(A) -{ p) dP* -[ Po dP* ; 4 c finalement pj et p, sont P*-équivalentes sur # et donc sur YU puisqu’elles sont # -mesurables. Ainsi # est exhaustive. Soit @’ une tribu exhaustive quelconque, il existe une détermination pz des densités qui est @’—-mesurable; notons %” la plus petite tribu rendant mesurables ces densités, on a donc B" U;. Réciproquement tout élément de V, en particulier ceux de § s’expriment par une combinaison linéaire finie de générateurs XY; et donc sont U,-mesurables d’ot Uy < A, et le lemme est établi. Notons que ce lemme et les théorémes suivants sont encore vrais si V est muni d’une topologie conve- nable pour laquelle il admet un systéme au plus dénombrable de générateurs. PROPOSITION 5 « Soient (Q,U, {pp, 0 O}) une structure statistique dominée par une loi de probabilité privilégiée, un homéomorphisme de R* sur R et L l’espace vectoriel engendré par les fonctions constantes et la famille des fonctions sur Q: G= WP 960. Si {1; fy, 1€ D} est un systéme de générateurs de £, application X définie par : EQ X()={f(o), iel} est une Statistique exhaustive P-minimum. »(Chap. 11) Exhaustivité et liberté 27 En effet, y étant un homéomorphisme de R* sur R (§ XII-2), ona: 90 (Bx) = Po (Ax) = Po (Bar) WOEO, donc la plus petite tribu rendant les p, mesurables est identique a celle rendant les gp mesurables et donc, d’aprés le lemme 4, a celle rendant X mesurable puisqu’une fonction constante est toujours mesurable et que R! est muni de la tribu produit. Désignons par #’ l’espace vectoriel engendré par les fonctions gg; si la fonction 1 appartient 4 2”, il est clair que ¥ = #’ et on exclut donc, ce qui est normal, la fonction constante pour la formation de la statistique exhaustive PY-minimum; par contre si la fonction | n’appartient pas 4 #’, le systéme {/;} est tout simplement un systéme de générateurs de ¥’. Cette méme remarque est valable pour le théoréme suivant, et montre que les énoncés contiennent simultanément les deux cas que I’on vient d’envisager. THEOREME 6 « Soit (Q, U, {p, 8 € O})" un échantillon empirique dominé, tel qu’il existe 05€@ pour lequel pe,(o)>0, oe Q; si {1; f,(@), ie 1} est un systeme de générateurs de espace vectoriel & engendré par les fonctions constantes et les fonctions fios( 22) scol, Poy() J la statistique T définie par : YojeQ, falynn To, -50,) = { ¥ f(op, er} JP1 est exhaustive P-minimum. » Ayant remarqué que la loi (P,,)” est une loi de probabilité dominante privilégiée pour l’échantillon empirique, on désigne par £, l’espace vectoriel engendré par les fonctions constantes et les fonctions sur Q" définies pour tout @ de @ par: Jog On) sh og (2) Poo(@1> +=» On) J=t — \ Pog) Vo,e2, j = 1,...,.0, Par hypothése on a: ox (222) = et ¥ ebhi(o), wo Pao), ai ou seul un nombre fini de coefficients ci, sont non nuls. Une fonction f de £, s’écrit par définition : Poy(@1y +n) _ g yr aylog(2a°22) Pog (15 +++ ®n) a] Poo (3), S(@ 13 + On) = a+ Laslog28 Notions fondamentales de statistique mathématique et done, d’aprés (1), il vient : (Oy, oy Oy) = a+ Facet YM 4, f(@), a ce que Il’on peut écrire : 5 f= a4Saen+E(Sach)-(S fle) Comme d’autre part on voit aisément que les fonctions { Yfilw,), iel | =i appartiennent a Y,, il en résulte qu’avec la fonction 1 elles engendrent £,. Le théoréme découle alors du théoréme 5, appliqué a I’échantillon empirique et en prenant pour y la fonction logarithme. Remarque Dans le cas ot Q est un espace vectoriel de dimension finie le résultat fourni par le théoréme 6 n’est évidemment avantageux que si : ndim Q > dim 2-1; d’autre part méme si on utilise une base de ¥ il n’est pas certain que la statistique exhaustive obtenue soit de « dimension» minimum et on se reportera au § XII-2 pour I’étude des statistiques exhaustives de dimension minimum. THEOREME 7 « Soit (Q,U, Y) une structure statistique dominée, si une sous-tribu B est exhaustive et quasi-complete, alors B est exhaustive P-minimum. » En effet soit @* la plus petite tribu rendant mesurable une détermination -mesurable des densités, on a donc @ > &*; de plus pour tout A de Y, la statistique P(A|#) — P(A|@*) est bornée, centrée, B-mesurable et donc P-équivalente 4 0, puisque # est quasi-compléte. En particulier pour tout Bde Bona: 1p = P(B|A*) — P-pp.; a) soit alors B’ l’ensemble sur lequel P(B|%*) est égal a 1, d’aprés (1), B’ A B est P-négligeable, et donc la tribu @ est P-égale a la tribu B* et finalement Best P-minimum. Exercices 1. Soit F la famille des lois de Cauchy sur R: dP ke =——__—OeR*, dx n(x?+6%)(Chap. II) Exhaustivité et liberté 29 montrer que quel que soit n, pour la structure [R, @p, P|’, la tribu des boréliens symétriques de R" est exhaustive P-minimum. 2. Soient (Q, U, Y) une structure statistique et X une statistique exhaustive #-ninimum induisant la structure (X, 6, Px), montrer que © est une tribu exhaustive P,-minimum pour cette derniére structure. * 6, RELATIONS ENTRE LIBERTE, COMPLETION, EXHAUSTIVITE ET INDEPENDANCE On a déja noté les multiples implications de ces notions, les résultats suivants montrent que les notions de liberté et d’exhaustivité sont souvent liées par la relation d’indépendance stochastique; d’autre part dans [57] on montre comment on peut considérer ces deux notions comme duales. PROPOSITION 1 « Soit B@ une sous-tribu exhaustive et quasi-compléte pour la structure statistique (Q, U, P) et soit E une tribu libre pour cette méme structure statistique; alors B et & sont indépendantes quelle que soit P dans P.» En effet soit C un événement de G, d’aprés le théoréme 3, § 3 ona: P(C|I@)=P(C) VWPeP, donc : VBe® P(BAC) -{ P(C|@) dP = P(C)P(B) -VPeP, B et les tribus @ et € sont bien indépendantes. COROLLAIRE 1 « Soient (Q, U, P) une structure statistique et T une statistique exhaustive 4 valeurs dans (Z, ©); si la structure (Z, G, Py) est quasi-complete toute statistique libre pour la structure (Q, U, P) est indépendante de T.» En effet il suffit de constater que la quasi-complétion de (I, €, Py) entraine celle de (Q, T~'(G), P). On trouvera dans [41], pp. 10 et 11, etdans[4] (ex. n° 16, chap. III) d’intéressants exemples d’application de ce théoréme. PROPOSITION 2 « Soit @ une sous-tribu exhaustive pour la structure (Q,U,P), s°il n’existe pas deux lois P et P' de P dont des supports soient disjoints, alors toute tribu indépendante de @ pour toute loi P de Y, est libre pour la structure (Q, U, P).»30 Notions fondamentales de statistique mathématique En effet soit © une sous-tribu indépendante de @, d’aprés la propriété 7-XIV-4, quelle que soit P dans F, en notant Bp l’événement de # défini par: P(C|B) = P(C), et o CeG, ona: P(Bp) = 1. De plus si P et P’ sont deux lois de P, # étant exhaustive, on a: P(C|@) = P'(C|&), et donc : Bp 0 Bp # O > P(C) = PC); or la condition du théoréme implique bien que : VP,P'EP BpABp #Q. On verra au chapitre suivant, en termes d’information, l’intérét de ce résultat ainsi que de la proposition suivante : PROPOSITION 3 « Soient © une tribu libre pour la structure statistique (Q,U,P) et B une sous-tribu de U telle que © U B engendre U et que, quelle que soit P dans P, € et B soient indépendantes, alors B est exhaustive.» Le méme raisonnement qu’au début de la démonstration précédente montre que: WCeE P(C|IA)= PIC) P-pp,, et donc que C est libre conditionnellement 4 # puisqu’ici © est libre; donc: VBEB,WCeC = P(BAC|B) = 1pP(C|B) = 1,P(C) c’est-a-dire que B ~ C est libre conditionnellement 4 2. Considérons l’algébre de Boole 29 des ensembles A de la forme : A= U [cB] C.eG, BeB, i=1,...,0n, mt ou les C; 4 B; sont disjoints; d’aprés ce qui précéde A est libre conditionnellement a @ et cette propriété se conserve par passage a la limite monotone. Soient alors P et Py deux lois de F et Bun événement de &, (P(B) > 0), les deux lois de probabilité sur 2{ définies par : det Py) = PAOD) picgy = La PolAla) AP P(B) P(B) coincident sur 2, et donc sur 2 qui est ici la tribu engendrée par Yq ; on a donc: VBe@, VAeX P(ANB)= J P,(A|) dP, B et le théoréme est établi.(Chap. 11) Exhaustivité et liberté 31 * 7, DETERMINATION D’EVENEMENTS LIBRES Le probléme de la détermination d’événements libres est a la fois difficile et important, comme on le verra 4 propos des tests non paramétriques et de estimation ensembliste; les théorémes généraux d’existence sont rares, le plus célébre est le théoréme de Liapounov (2-XII-4) qui s’énonce ici : THEOREME | « Soient P,,...; Py, N lois de probabilité non-atomiques sur (Q, 2), alors quel que soit « €[0, 1] il existe un événement A de U tel que : P(A)=a Wi=1,...,N» THEOREME 2 «Soit B une sous-tribu exhaustive pour la structure statistique (Q, U, P) dominée par la loi de probabilité privilégiée P*; s°il existe un événement A tel que : P*(A|B) = a, (a €)0, ID, alors P(A)=a PEP.» En effet, @ étant exhaustive, on a : P(A|Z) = P*(A|B) =a VP EP, et donc par intégration : P(A)=a YPeP. Notons que ce lemme n’est intéressant que si @ est une sous-tribu stricte de 2, sinon un tel événement A n’existe pas; par contre si @ est quasi-complete, d’aprés le théoréme 3, § 3, I’existence d’un événement A tel que P*(A|#) = a est une condition nécessaire et suffisante d’existence d’un événement libre de probabilité «. D’autre part ce lemme raméne le probléme a |’étude de P*, et sous des conditions générales, par exemple si P* n’a pas de B-atomes, on montre ([57], p. 86) qu’il existe un ensemble A tel que P*(A|#) = . On établit aisément le corollaire suivant : COROLLAIRE « Soit la structure statistique dominée N (2 a, {P. = Y «(0)P5, veo), = et soient pour tout i=1,...,N, P# une loi de probabilité dominante privilégiée et @; une sous-tribu exhaustive pour la structure statistique : (Q, U, {Pp, 0€O}) ;32 Notions fondamentales de statistique mathématique s°il existe un ensemble A de Y tel que : PRA@)=0 VWi=l,..,N a) alors : P,(A)=a VWOEO.» Plus généralement, Yu. V. Linnik ({40]) et Kagan ((34]), 4 propos du probléme de Behrens-Fisher, (§ VIII-4) ont aussi étudié les familles de lois de la forme: Py = x (8) H0, ou les mesures 4 positives sur (2, 2) sont telles qu’il existe une partition mesurable et au plus dénombrable de Q : 2=Y2 telle que : 0 SH > HA). Ij. Si Best exhaustive, 9(@) = S().4 Notions fondamentales de statistique mathématique 14. Si # < Aet MF) = 3(, alors est exhaustive. I,. Si @ et @’ sont indépendantes quel que soit @ et engendrent la tribu B",ona: SB) + H(B’) = 3B"). On remarque que nous avons introduit les axiomes I, et I, respectivement réciproques de I, et I; et qui sont tout aussi « naturels » que les autres; or si on se reporte au §II-6 on constate qu’ils ne pourront peut-étre pas étre toujours satisfaits, En effet, les axiomes I,, I,, I, impliquent que si @ est libre et indépendante de @’ et si @ et @’ engendrent 2, alors @’ est exhaustive, or cela est la proposition 3-II-6. Par contre les axiomes I,, 13, 14, I, impliquent que si @ est exhaustive et indépendante de 4’, ’ est libre, or la proposition 2-II-6 montre que ceci n’est vrai que sous des hypothéses supplémentaires; on peut donc construire des exemples ot les axiomes considérés sont incompatibles (cf. [41], [1)). Remarquons que les axiomes précédents suggérent la notion d’information conditionnelle. Supposons qu’a tout couple de sous-tribus @ et ’ telles que : BeBe on associe 3(4|’), information dans # conditionnellement 4 %’. Identifions Q(B) A S(B|{W, Q}) et considérons Vaxiome I; : Is. Bo BoMU > MB) = HB)+3(4|B), comme une définition de 3(4|2’). L’axiome I, est alors équivalent a : I. S(B|F’) > 0, et l’axiome I, s’écrit : I,. Si @ est exhaustive, 3(2|@) = 0. On retrouve alors la définition de l’exhaustivité si l’axiome I, suivant et plus fort que I, est vérifié : L,. 3(@|B’) = 0, (@ > B’) implique que @ est libre conditionnellement a @’, c’est-a-dire que toute indicatrice d’un événement de & se projette sur 2’. On voit ainsi que la condition 3(4|B’) = 0, (@ > 4’) représente une relation de dualité sur les couples de tribus : exhaustivité et liberté étant les deux aspects de cette dualité. En pratique, dans le cas d’une structure dominée, les quantités d’information classiques (Fisher, Shannon, Kullback [36]) sont des fonctionnelles linéaires de la fonction log pg(@), ot py est la densité de probabilité; en effet cette forme est commode pour vérifier I, et 1, par le théoréme de factorisation de Neyman.(Chap. 111) Information dans une structure statistique 35 2. INFORMATION SELON FISHER DEFINITION 1 « Soit une structure statistique dominée par une mesure v, oi @ est une partie de R*; si le vecteur aléatoire V» défini sur (Q, U, P,) a valeurs dans (R°, Bgs) : VoeQ Vo(w) = grady log po(w) est défini pour tout 0, centré et de carré sommable, l’information selon Fisher, 3(0), est définie et égale, pour tout 0, a la matrice de covariance de V4.» Les conditions de définition de l'information selon Fisher sont des conditions de régularité assez générales; en effet si le sous-ensemble Q) de Q défini par: Pola) >0 YwoeQ, ne dépend pas de 0, dire que V, est défini et centré, c’est dire que l’on a pu dériver sous le signe somme |’intégrale : I Po(m) dv = 1, 29 puisque |’on obtient alors : I Brad po(~) dv = 0, dy) 20 ou encore : £ (1) = f grad, log po(w): pp(w) dv = 0. 20 Lorsqu’elle est définie, l'information selon Fisher ne dépend pas de la mesure choisie v, puisque : dP, _ Py dv dv’ dv dy’ et le vecteur V, est le méme, construit 4 partir de v ou de v’. Enfin l’ordre considéré sur les matrices d’information est celui des formes quadratiques associées. Exemples : (4, chap. IV, ex. n° 11 et 18,36 Notions fondamentales de statistique mathématique DEFINITION 2 « Soient (Q, U; Py, 0 € O) une structure statistique dominée et X une statistique a valeurs dans (X, 6), la matrice d’information 3, associée a X est celle, si elle est définie, associée a la structure induite par X.» THEOREME 1 « Avec les notations de la définition 2, la statistique X est libre si et seulement si 3x =O.» En effet, soient p% (x) la densité de X et V¥ le vecteur aléatoire : V(x) = grad, log p§(x); il est clair que si X est libre, VX est nul. Réciproquement si Sx est nulle, comme V& est centré, VX est presque sirement nul et donc X est libre. THEOREME 2 « Avec les notations de la définition 2, si X est exhaustive, Sy est la matrice d’ information associée & (Q, U; Py, 0 € ).» On peut choisir la mesure dominante de telle fagon que X soit exhaustive si et seulement si : Pol) = pa(X (@)) et donc si et seulement si : Veo) = Vs [X()] 3 le théoréme découle alors du théoréme de changement de variables (1-XIV-1). THEOREME 3 « Avec les notations de la définition 2, soient X et Y deux statistiques indépen- dantes pour lesquelles sont définies des matrices d’ information Sx et Sy respectivement; alors la matrice d’information associée au couple (X, Y) existe et est égale a: San = Sxt+ Sy» En effet, avec des notations évidentes, on a: Pa'™ (x, y) = Pa (x) Paty) et donc VsX(X, Y) = Ve (X)+ VEY) 5 les statistiques ¥(w) et Y(«) étant indépendantes, quel que soit 0, VX (X(@)) et VJ (Y(w)) sont des vecteurs aléatoires indépendants centrés et on a bien: Sayy = Sx Sy.(Chap. 111) Information dans une structure statistique 37 COROLLAIRE 1 « Soient (Q, U; Py, 0 € @) et (Q’, U’; Pg, 0 O) deux structures dominées ayant mémes paramétre et espace de paramétre et admettant des matrices d’information 3 et 3'; alors 3 +3! est la matrice d’information de leur produit restreint. En particulier n& est la matrice d’information de (Q, ; Ps, 0 € @)".» En effet il suffit d’appliquer le théoréme 3 aux deux statistiques indépen- dantes : X:(a,0') > @ et Y:(0,0') > o’. Remarque Si l’on considére un produit de structures on a avec des notations évidentes : (6) 0 300,09 = ( ): 0 Te THEOREME 4 « Avec les notations des définitions | et 2, soit X une statistique telle que : Vii (X) = Epg(VlX) alors : By <3.» En effet le théoréme découle directement de l’inégalité de Jensen (9-XIV-4) ; il est par contre intéressant de noter que la condition énoncée est une hypothése assez générale de régularité. En effet par définition on a : We — Pyo(X~*(C)) = PH(C), soit : / Po(w) dv =[ Po (x) dx. @ X-"C) c Si ’on peut dériver (1) sous le signe somme, il vient : VCeG i Vy dP, = f VX dPx x-YC) c et on a donc bien : Vs = Ep, (VoIX). COROLLAIRE 2 « Sous les conditions du théoréme 4 ona: X=GY) > 3 <3y, Yeo Vos re or38 Notions fondamentales de statistique mathématique Remarque Soient X et Y deux statistiques telles que la loi de probabilité conditionnelle de X a Y existe et admette une densité p}(x) par rapport a une mesure ne dépendant ni de @ ni de y; montrons que |’on peut interpréter la différence Sx, y- Sy comme une information conditionnelle. En effet soit Vs" (w) = grads log pS (X(w)) ona: pa” (x, y) = pe (y) pa(x), et donc ia Co Or la condition : vy [se dvy(x) = 1 entraine, en général, que : Ep,(Va'"|Y) = 0. Ainsi VY et VXI" sont non corrélés et l’on a bien : Sey = Sean Sy = Ep, [Val Ve]. TuEorEME 5 (Inégalité de Cramer-Rao) « Avec les notations de la définition 1, si 3 est inversible et si X est une statistique vectorielle de carré sommable telle que : 4 = Bp (X%) = & EX, (I) alors la matrice de covariance de X, Ax, satisfait @ : Ay 2 AS! 4» La matrice A est la matrice de terme général OEp, (Xi) 46; ot X¥ = (X,,..., X,) et 0 = (6,,..., 9,); la condition (1) est une condition de régularité signifiant que l’on peut dériver sous le signe somme |’égalité : Ep,(X) = [ X po(w) dv.(Chap. 111) Information dans une structure statistique 39 Pour établir le théoréme il suffit de montrer que le vecteur aléatoire W : W = X - Ep,(X)- AS" a pour matrice de covariance : Ay = 4y-437'4. Or ona: Ayy = Epgl(X ~ Ep,(X) 43"! Vq)'(X —Ep,(X)—AS~*V,)] soit : Ay = Ay+ 43" Ay, 371A Ep, (LX — Ep,(X)] Ve) "1A AS" "Ep, (Vo * (X —Ep,(X))) - Or par définition Ay, = , d’autre part Ep,(V,) = 0, et donc en tenant compte de (1), il vient : Ay = Ayt 437 ''A-AS''A-AS A = Ay ATA. Remarque Si l'on interpréte 49~''d comme une borne inférieure de la dispersion d'une statistique autour de son image, le corollaire 1 montre que pour un échantillon empirique cette borne tend vers zéro quand n tend vers I’infini. D’autre part, on remarque que la condition (1) sert seulement 4 exprimer 4 a l’aide de la seule image de X. COROLLAIRE 3 « Dans les conditions du théoréme 5, si X est a valeurs dans (R°, By.) si A est inversible et si Ay =~" "4, il existe des fonctions scalaires A(0), K(w), et une fonction H(8) a valeurs dans R® telles que : log po() = ‘X(@)- H(0)+A()+K().» Q) En effet Ay étant nulle, W est presque certain et donc : Va(w) = 3): 47" (0) - [X(@)—Ep,(X)] ; il suffit d’intégrer par rapport a @ pour obtenir (2). On obtient une structure exponentielle, structure qui sera étudiée au chapitre X. Exercice : Trouver des conditions de validité pour la réciproque du théo- réme 2.CHAPITRE IV METHODOLOGIE DE LA STATISTIQUE Ce chapitre est un peu différent des autres; alors que tout le reste de cet ouvrage est, en fait, le développement d’une théorie mathématique, on s’inté- resse ici 4 la valeur concréte du modéle mathématique utilisé pour représenter la méthode statistique. Nous organisons cette étape trés importante de toute théorie de mathématique appliquée, en introduisant entre les rubriques usuelles des mathématiques (définitions, théorémes, ...) des commentaires (notés com.); ainsi le lecteur pourra confronter aisément, ce qui est le but de ce chapitre, les concepts mathématiques introduits et leur interprétation concréte, sans que la rigueur du traitement mathématique en paraisse affectée. 1. INTRODUCTION Une expérience statistique et les observations auxquelles elle conduit sont représentées par une structure statistique (Q, U; P,, 0 € O); on a étudié au cours des chapitres précédents les propriétés de ces structures, on aborde maintenant Pusage que la méthode statistique fait de telles données. Or dans tout probléme de statistique il s’agit de déduire de la possession d’observations, globalement représentées par @, des renseignements sur le paramétre inconnu 0, par exemple sous la forme d’une décision 4 prendre ou d’une représentation 4 donner d’une loi de probabilité (statistique descriptive). On reconnaitra ce fait sur les exemples classiques des tests d’hypothéses et de estimation (cf. § 3 et les chapitres suivants); le modéle de la décision statistique que l'on définit ci-aprés a l’avantage d’englober beaucoup de tels problémes, mais il faut reconnaitre que l’on peut les traiter sans son secours (cf. chapitres V et VI) et que les problémes de statistique descriptive ne sont pas de nature décisionnelle. Le lecteur notera le caractére inductif du raisonnement statistique dans un probléme pratique et s’attachera ici plus au sens concret des concepts qu’au développement mathématique, pour lequel il se reportera 4 [62]; de plus la théorie de la décision statistique a des relations intéressantes avec la théorie des Jeux et on se reportera pour cela 4 [7] et a [17]. Enfin, quand le statisticien traduit dans le langage du probléme concret qu’il étudie, la solution proposée par la théorie mathématique, il ne doit pas considérer cette réponse comme définitive; en effet il sera toujours possible que, déja soumise a la validité des hypothéses admises dans la construction de la4a Notions fondamentales de statistique mathématique structure statistique de départ, cette solution soit fausse, ceci parce que les observations sont faites 4 travers un phénoméne de hasard. 2. DECISIONS ET STRATEGIES DEFINITION 1 « Un probléme de décision statistique est défini par la donnée d’une structure statistique [Q,U; Py, 0 €(O, Z)] et d’un espace mesurable (A, D); on appelle stratégie une probabilité de transition S,,(D) sur QxD.» Com. 1 L’espace (4, D) s’appelle espace des décisions et on suppose donc que l'information recherchée sur @ est celle nécessaire pour prendre une décision dans la famille de décisions 4, donnée 4 l’avance. Si w est l’observation faite, on prend donc une décision 6 suivant la loi de probabilité S, sur (4, D); en particulier si S,, est pour tout w la mesure de Dirac au point s(w) de 4 on dit que la stratégie est déterministe : elle consiste 4 prendre la décision s(w) au vu de observation w. Exemple A Vintérieur d’une production, supposée homogéne, d’un méme objet, on préléve, aux fins de contréle, n objets fabriqués; peut-on décider statisti- quement, connaissant le nombre v d’objets défectueux parmi les n contrélés, si la production dans son ensemble est acceptable ou non? Sous des hypothéses raisonnables relatives au mode de prélévement il est facile de voir ici que la structure statistique est définie par : a) Q = {0,1,...,n} muni de la tribu de ses parties, b) Py = &(n; 0, 1—4), 0 € [0, 1]. L’espace des décisions est formé de deux points correspondant a l’acceptation ou non de la production globale. Quant a la stratégie, l’intuition et la théorie du chapitre suivant montreront qu’elle sera du type suivant : un seuil de tolérance vp étant fixé, si v < vo on accepte la production, si v > vo on la rejette. Com. 2 Au point de vue mathématique, il est facile de comprendre pourquoi on ne peut pas se limiter 4 la considération de stratégies déterministes : la famille des stratégies est un ensemble convexe, alors que le sous-ensemble des stratégies déterministes ne lest pas. Par contre, au point de vue pratique, la notion de stratégie stochastique peut paraitre irréaliste, exemple ci-dessus montre cependant que dans certains cas (v proche de vp) il est difficile de prendre une décision. La loi de probabilité S., définie pour tout w par une stratégie S, peut s’interpréter pratiquement comme une sorte de préférence sur les décisions possibles. Com. 3 Il est parfois difficile de donner un sens concret a la tribu D dont Lutilité est surtout mathématique; ainsi dans certains problémes, qui alors ne(Chap. IV) Méthodologie de la statistique 43 sont pas rigoureusement des problémes de décision statistique, on considérera seulement un ensemble 4 de décisions. L’estimation ensembliste est un exemple d’un tel probléme. Com. 4 Dans la plupart des cas on connait un sous-ensemble C* de @ x 4, appartenant & I @®, correspondant a l’ensemble des décisions « justes »; c’est-a-dire que si @ est la « vraie valeur » du paramétre, la décision 6 prise est compatible avec 0 si le couple (0, 6) € C*. Dans l’exemple ci-dessus, supposons que la production soit acceptable si la proportion d’objets défectueux est inférieure 4 po, réel donné; si l’on pose 4 = {0, 1} ot 0 représente l’acceptation de la production et | son rejet, on a: C* = [{0 < po} x 0} v [{ > po} x I) Exercice Montrer que si 4 est fini ou dénombrable, une stratégie dans (4, D) est équivalente 4 une stratégie déterministe 4 valeurs dans le simplexe 2(A) des lois de probabilité sur (4, D). DéFinition 2 « Avec les notations de la définition 1, on appelle image de la stratégie S, la probabilité de transition 3° composée de P, et S : VWCeD (C) = I So(C) dPo(a) ». 2 En particulier, si la stratégie est déterministe, soit s(w), alors : vceD aK) = [ dPo(w), s~(C) et l'image de s comme stratégie est donc, pour tout 0, la loi de probabilité de la statistique s 4 valeurs dans (4, D); on note que ce n’est pas l’image des comme statistique. Com. 5 L’étude d’une stratégie se fait, en statistique mathématique, essentiellement a I’aide de son image; ceci signifie que l’efficacité pratique d’une stratégie est définie par son image. * TxforiMe | « Soient @ une sous-tribu exhaustive pour la structure statistique [Q, U; Po, 9€(0, 5)] et S une stratégie dans (4,D). On appelle projection de S sur B toute stratégie Z telle que, pour tout C de D, Z,,(C) soit une détermination de E[S,(C)|@); les stratégies S et X ont alors méme image. »44 Notions fondamentales de statistique mathématique En effet, pour tout C de D, S,,(C), comme fonction de @, est une statistique qui se projette sur @; la définition suppose donc seulement que pour tout C on a pu choisir une détermination de E[S,,(C)|] qui pour tout w fixé soit une loi de probabilité sur (4, D). Si par exemple la structure statistique donnée est dominée par une loi de probabilité privilégiée P*, le couple (P*, S) induit sur (Qx A, L@®D) une loi de probabilité z; s’il existe une version réguliére de la probabilité conditionnelle de z a la tribu @@ A, la condition précédente est remplie, car pour tout C de D on peut prendre alors : 2,(C) = 2(Qx C|B® A). Enfin on a: VCED BHC) = Erg(So(C)) = ErglE(So(C)A)] = Ep, [Eu(C)] = 3¢(C) et donc £ et S ont méme image. Remarquons que si Z existe, d’aprés la définition méme, Y,,(C) comme fonction de w étant @-mesurable, X est bien une stratégie sur (Q, B; Po, 8€(O, Z)); le théor’me montre donc que s’il existe une tribu exhaustive @ on peut en général remplacer la structure initiale par la structure [Q, ; Po, 0€(O, 5)}. En particulier, si @ est induite par une statistique exhaustive X, on remplace la structure initiale par celle induite par X. Enfin on remarquera dans les applications ultérieures que la projection d’une stratégie déterministe n’est pas en général une stratégie déterministe. Exercice Si A=R* et si s(w) est une stratégie déterministe, sommable en tant que statistique, montrer que la projection de s sur @ en tant que statistique est Ja moyenne de la projection de s sur @ en tant que stratégie. 3. TESTS D’HYPOTHESES ET ESTIMATION STATISTIQUE La théorie des tests d’hypothéses est avec celle de l’estimation statistique, Vexemple le plus classique de décision statistique. On notera ci-aprés la dis- tinction faite entre un test et un test d’une hypothése contre une autre. DEFINITION 1 « Soit (Q, U, P) une structure statistique; on appelle hypothése une partie non vide de F et test une statistique a valeurs dans {0, 1]. » Si P = {P,,0€ O} on appelle aussi hypothése une partie non vide de 0.(Chap. 1V) Meéthodologie de la statistique 45 DEFINITION 2 « Soient (Q,U,P) une structure statistique, Py et P, deux hypotheses disjointes; on appelle test de Py contre P, un test ® auquel est associée la stratégie qui donne aux deux hypothéses Py et P, les probabilités respectives 1—®(w) et (cw). On appelle fonction puissance de ®, la restriction a Py UP, deVimage Bo du test DB.» Com. 1 Cette définition est conforme au formalisme général de la décision statistique. Prenons en effet comme espace de décision 4, l’espace formé des deux éléments {0}, {1} correspondant respectivement au choix de P’hypothése Po ou Y, ; A est muni, naturellement, de la tribu D de ses quatre parties. Il est clair que le couple [1—(w), ®(@)] définit une probabilité de transition sur QxD; si de plus la structure statistique est paramétrée, P = {P,, 0 € (O, D}, P, étant une probabilité de transition, le couple [1 —B9(8), Bo(9)] définit une probabilité de transition sur @ x D qui est I’image de la stratégie associée 4@, Dans la définition 2 on considére comme une statistique et non comme une stratégie et donc le mot « image» est relatif 4 cette premiére notion. Enfin dans ce probléme de décision, l’ensemble des décisions justes est donné par : C* = {0x0} v {O,x 1}. Exercice En utilisant le formalisme de la décision statistique avec un espace de décisions 4 fini, généraliser le probléme du test de deux hypothéses a celui du choix entre un nombre fini d’hypothéses disjointes. Quelle est l’image d’une stratégie? Pour une application voir [4] Pb. 1, chap. V. DEFINITION 3 « Soient (Q, U; Py, 0 €(O, Z)) une structure statistique et f une application mesurable de (@, Z) dans (X, ©), on appelle estimateur de f, une statistique a valeurs dans (X, 6).» DEFINITION 4 « Avec les mémes notations, on appelle estimation ensembliste de f une application d de Q dans € telle que : yeeX, d7\(x) = {wr xed(@w)}eX» Com. 2 Ces deux notions d’estimation sont complémentaires de la méme fagon qu’en physique on associe 4 une mesure une évaluation de l’erreur; ici un estimateur g est une valeur représentative de f() et une estimation ensembliste d localise cette méme valeur; ainsi trés souvent g(@) est au « centre» de d(a). Bown. — Statistique mathématique 346 Notions fondamentales de statistique mathématique Com. 3. En prenant (X, ©) comme espace des décisions, il est clair qu’un estimateur est équivalent 4 une stratégie déterministe. L’ensemble C* des décisions justes est ici la surface de @ x X définie par (0) = x. Une stratégie serait une probabilité de transition sur Q x, mais le théoréme 1, § 5, montre que I’on peut en général considérer seulement des estimateurs. Par contre en général on ne peut pas en théorie des tests se limiter 4 des stratégies déterministes et d’une facon plus générale on verra aux chapitres V et V1 qu’estimer n’est pas tester chaque valeur du paramétre inconnu et tester deux hypothéses n’est pas estimer un paramétre bivalent. Com.4 A notre avis il n’est pas réaliste de considérer le probléme d’estimation ensembliste comme un probléme de décision statistique, puisque l’on devrait définir sur © une tribu pour laquelle d soit une application mesurable; on peut considérer la notion d’estimation ensembliste comme résultant d’abord du choix d’une stratégie S, qui donc pour tout w définit une loi de probabilité S,, sur (X, ©) représentant une préférence a posteriori sur f(6), puis, suivant cette loi, d’un ensemble d() ayant une certaine propriété relativement a S,,. DEFINITION 5 « Avec les mémes notations qu’a la définition 3, on appelle estimation ensembliste forte (ou encore de graphe mesurable) de f une partie D de QxX, appartenant 4 A® C.» Il est clair que de toute estimation ensembliste forte D, on déduit une estimation ensembliste; en effet pour tout w la section en w, d(w), de D est définie, peut étre vide, et avec les notations de la définition 4, d~1(0) est la section relative a f(@) de D et est donc 2-mesurable ([52], p. 67). Mais réci- proquement si d est une estimation ensembliste, le lieu dans Q x X des couples (@, d(@)) quand parcourt Q n’est pas nécessairement une estimation ensembliste forte. 4. CHOIX D’UNE STRATEGIE Com. | Un probléme fondamental de la statistique est de choisir une stratégie pour un probléme de décision statistique, qui soit la meilleure possible par rapport a un certain point de vue concret. Il est alors naturel de représenter mathématiquement un tel choix comme découlant d’une relation de préordre sur les stratégies et les notions définies ci-aprés sont respectivement celles d’élément maximum, d’élément maximal et de partie cofinale. DEFINITION | « Si une relation de préordre est choisie sur l’espace des stratégies, on dira que la stratégie S est optimum si elle est supérieure ou égale a toute autre stratégie;(Chap. IV) Méthodologie de Ia statistique a7 on dira que la stratégie S est admissible s’il n’existe pas de stratégie strictement supérieure. » DEFINITION 2 « Une famille © de stratégies est dite complete relativement a un préordre donné si quelle que soit la stratégie S, il existe une stratégie S’ de © telle que S’ soit supérieure ou égale @ S.» Com. 2 Le choix d’un préordre est toujours important et difficile; par exemple il est clair que si on a un ensemble C* de décisions justes, la stratégie S est meilleure que la stratégie S’ si: (C3) = 35° (C3) vOeO SB(CCF) < 39 (CCF) ou C# est la section de C* selon 0. Mais ce préordre est trop fort et on verra par exemple a propos de la théorie des tests qu’une stratégie optimale par rapport a ce préordre n’existe en général pas. A notre avis il n’existe pas en statistique de théorie a la fois générale et réaliste concernant la fagon de choisir une stratégie. En effet non seulement il faut disposer d’un préordre réaliste, mais de plus pouvoir calculer effecti- vement au moins une famille de stratégies admissibles, car un préordre permet surtout de faire un premier tri parmi les stratégies en ne retenant que celles qui sont admissibles. Ainsi le choix d’une stratégie est presque une question de cas particuliers ; le point de vue de |’estimation sera déja différent de celui de la théorie des tests, 4 l’intérieur de laquelle Ja situation différera beaucoup entre le cas paramétrique simple (par exemple chap. XI), les cas paramétriques plus compliqués tel le probleme de Behrens-Fisher (§ VIII-4), et enfin le cas non paramétrique; pour ce dernier type de problémes il sera déja difficile de trouver un test dont on puisse calculer la restriction de la fonction puissance A Py! 5. PREORDRE DEFINI PAR UNE FONCTION DE PERTE DEFINITION | « Avec les notations de la définition \-§ 2 on appelle fonction de perte une application mesurable W telle que : W :(O, Z) x (A, D) > (R*, BR-).» Com. 1 En pratique W(0, 0) est la perte encourue quand on prend la décision 6 alors que la vraie valeur est 0; I"hypothése de positivité est commode48 Notions fondamentales de statistique mathématique et peu restrictive. De plus si C* est un ensemble de décisions justes il est naturel de supposer que : sup [W(8, 5)|(9, 5) € C*] < inf [W(6, 5)|(@ 5) €CC*); le plus souvent d’ailleurs W est nulle sur C*. Com. 2 La notion de fonction de perte, pour séduisante qu’elle soit, est souvent assez arbitraire; elle implique en particulier que les risques associés 4 C* ou CC* soient mesurables par rapport 2 une méme unité monétaire, or c’est loin d’étre toujours le cas lorsque en particulier les décisions prises peuvent avoir des conséquences humaines. Ainsi pour l’exemple cité au §2, définir une fonction de perte c’est essentiellement pouvoir mesurer et de plus par rapport A la méme unité, le risque encouru en acceptant une production contenant trop de produits défectueux et la perte résultant du rejet d’une production acceptable. DEFINITION 2 « Avec les mémes notations, soient S une stratégie et W une fonction de perte, on appelle successivement : a) perte moyenne, la fonction sur @xQ : Ws(8, @) = [we 5) dS..(5) 5 b) risque, la fonction sur © : Rs(6) = [, Ws(8, @) dPo(o) -{ WG, 5) A35(6) 5 si de plus Q est une distribution a priori, on appelle risque moyen : Re = I Rs(8) dQ(6) = ie WO, 5) d(Q(@) - 3(5))-» On note que, W étant positive, ces intégrales sont des intégrales supérieures finies ou infinies et que l’€quivalence de leurs diverses formes données dans Pénoncé résulte du théoréme d’intégrations successives 1-XIV-6 appliqué au couple (Q, 5) et pour tout @ au couple (P,, S). Dans le cas de l’estimation ponctuelle, on use quelquefois d’une fonction de perte vectorielle et non plus seulement scalaire. DEFINITION 3 « Avec les notations de la définition 3-§ 3, soient VU un espace vectoriel de dimension finie, muni d’une relation d’ ordre et * le cone positif de; on appelle(Chap. 1V) Méthodologie de Ja statistique 49 fonction de perte une application : W:O0xX > Vt.» Com.3 W(O0, x) représente la perte encourue en choisissant x comme valeur de f(0), quand 6 est la valeur réelle du paramétre. Si par exemple X est un espace vectoriel normé on prendra souvent et c’est trés naturel : W(8, x) = a(6) xf); mais on utilisera aussi, par exemple dans le cas o X=R*, pour VU l’espace des matrices symétriques d’ordre k, et pour fonction de perte : WOO, x) = [x-f(9)] Tx SO), U* étant le céne des matrices symétriques définies non négatives d’ordre k. DEFINITION 4 « Soit W une fonction de perte; le risque Rs(@) associé a une stratégie S définit un préordre par : s $s’ 2 Rs(0) < Ry(0) YOO, w ees ae et par S > S' si de plus une inégalité stricte a lieu ci-dessus. » DEFINITION 5 « Une classe YS de fonctions de perte définit un préordre sur l’espace des stratégies par : 2 v S>S'o{S>S' VWe®}, w et par S © S' si pour une fonction de perte W de 18 on a S% S'.» Com. 4 Cette deuxiéme notion est aussi importante que la premiére, car nous avons remarqué le caractére un peu artificiel de V'introduction d’une fonction de perte, et par l’intermédiaire d'une classe 28 on peut parfois restreindre l’arbitraire de ce choix (cf. par exemple § V-2). DEFINITION 6 « Une fonction de perte W et une distribution a priori Q définissent un préordre (dit Bayésien) sur l'espace des stratégies par : S 2 S' oR < RE» eve50 Notions fondamentales de statistique mathématique Remarquons que si W appartient 423 ona: 2 w w Soe 8 Se Se 8 2S vQ. Com. 5 Ces relations de préordre ne sont pas les seules que l’on puisse introduire naturellement sur l’espace des stratégies; par exemple si y est une mesure positive sur (@, T) on pourra affaiblir les définitions | et 2 en introduisant un W- p-p.p. ou 28 « y-p.p. préordre défini par : Rs(0) < Rs (8) te p.p. sur O. THEOREME | « Soit Wp la famille des fonctions de perte W(8,5) qui pour tout 0 de @ sont continues et convexes par rapport a 6, A étant un borélien convexe et borné de R*; la famille des stratégies déterministes est compléte pour le préordre défini par Yo.» En effet, 4 étant un borélien convexe borné, pour toute stratégie S la stratégie déterministe : s(w) = |, 8480 est bien définie (théoréme 1-XIV-6); d’autre part d’aprés I’inégalité de Jensen appliquée pour tout «, a la loi de probabilité S, sur (4, D), on a: WO, s()) <| W(8, 6) dS_(5), 4 et donc en intégrant par rapport a P,(w), 6 étant fixé, on obtient : Rs(0) > R,(0) voco. Notons que ce théoréme ne s’applique pas a la théorie des tests mais par contre, en général, a la théorie de I’estimation (§ VI-2); enfin on peut remplacer la condition pour A d’étre borné par des conditions plus faibles ([17], p. 76). D’autre part, on trouvera également dans [17] les hypothéses tres générales sous lesquelles les propositions suivantes sont exactes : a) pour tout couple (W, Q) il existe une stratégie optimale pour le préordre défini par ce couple, b) si la stratégie S est optimale pour le préordre défini par le couple (W, Q) alors S est Q-presque partout admissible pour le préordre défini par W, c) si S est admissible pour le préordre associé a W, il existe une distribution a priori Q pour laquelle S est optimale pour le préordre défini par (W, Q),(Chap. 1V) Meéthodologie de la statistique 51 d) la classe des stratégies optimales pour le préordre (W, Q), quand Q varie, est une classe compléte pour le préordre W. 6, PARAMETRES FANTOMES DANS UN PROBLEME DE DECISION STATISTIQUE DEFINITION | « Soient [Q, U; {Pe, 0 = (A, uw) € © = Ax M}) une structure statistique, A un ensemble de décisions et C* une partie de Ax ©; s*il existe une partie C de AXA telle que : Ct = ChxM on dit que ys est un parameétre fantéme (ou nuisible) par rapport & C*.» On dit aussi quelquefois que A est le paramétre principal. Com. 1 On note que l'on n’a pas utilisé la tribu D de lespace des déci- sions 4 et que la définition ci-dessus s’appliquera donc au cas de l’estimation ensembliste. Dire qu’un paramétre est fantéme c’est dire que, bien que ne le connaissant pas, on ne cherche aucune information a son sujet. La notion de paramétre fantéme est donc relative 4 un probléme donné et de nature métho- dologique, l'ensemble C* étant toujours l’ensemble des décisions justes. On rencontrera en théorie des tests ou de l’estimation de nombreux exemples de problémes de statistique avec paramétres fantémes (voir par exemple [40]; on constatera alors que la présence de tels paramétres est toujours importante et complique souvent le probleme. Exemples 1. Soit le probléme de test défini par deux hypothéses @, et O, disjointes de Ax M, il y a paramétre fantéme si : Oy =AoXM OL =AXM AQ CA ALC A. 2. Soit a estimer la fonction f(6) a valeurs sur (X, ©), si fn’est pas injective il y a en général un paramétre fantéme. Remarque Un changement préliminaire de paramétres et de variables sera souvent nécessaire pour se ramener 4 la situation de la définition 1. Il n’y a pas de difficulté 4 étendre les notions d’exhaustivité et de liberté relativement 4 un paramétre, par exemple fantéme :52 Notions fondamentales de statistique mathématique DEFINITION 2 « Soit [Q, U; Po, 0 = (A, ut) Ax M] une structure statistique; on dit que la tribu B est exhaustive, libre, compléte, quasi-compléte, relativement au para- métre A si elle est respectivement exhaustive, libre, compléte, quasi-compléte pour toute valeur fixée de . On dit qu’une statistique est libre (resp. libre en moyenne) relativement au paramétre 4 si sa loi de probabilité (resp. sa moyenne) ne dépend pas de i.» Il est clair que si la tribu @ est exhaustive ou libre, elle est exhaustive ou libre par rapport 4 toute composante du paramétre. Pour éliminer les paramétres fantémes, la méthode suivante est souvent précieuse. Supposons que : a) (2,%) = (Xx 9, C@C), b) pour toute valeur de 0, en désignant par X et Y les deux projections (x, y) > x et (x,y) > y, il existe une version réguliére des probabilités conditionnelles de X a Y, c) Yest exhaustive relativement a y. La loi de probabilité conditionnelle de ¥ 4 Y ne dépend pas alors de y, soit P¥, et la structure (X, ©; P3, 1€A) ne fait plus intervenir le paramétre fantéme y qui a été remplacé par la variable de conditionnement y (on a échangé un paraméetre inconnu contre une variable connue). Soit S’ une stratégie sur cette structure : S”: (x, D) > S¥(D); Vimage 3% de SY ne dépend pas de y. Si (condition de mesurabilité) S” définit une stratégie S sur la structure initiale par la formule S: (x, y; D) + S3(D), alors l'image de S est donnée par : 3s -{ dP), 9 ou P¥ est la loi de probabilité de Y. On utilisera cette méthode en particulier aux §§ VIII-2, VIII-4 et XI-4.CHAPITRE V TESTS D’HYPOTHESES On a défini au § IV-3 les deux exemples les plus classiques de décision statistique : les tests d’hypothéses et l’estimation. On développe ici la théorie des tests d’*hypothéses non-séquentiels; sauf spécification contraire les notations sont dans tout ce chapitre celles des définitions 1 et 2, § IV-3. L’assimilation des notions ci-aprés ne peut se faire qu’avec l’aide de nombreux exercices simples, par exemple ceux indiqués par référence a [4]. Des applications importantes seront détaillées aux chapitres VIII et XI. 1, DEFINITIONS ET REMARQUES PRELIMINAIRES Dérinition 1 « On dit que deux tests ® et &' de Py contre P, sont équivalents s’ils ont méme fonction puissance. » On ne confondra pas cette notion d’équivalence avec celles déja définies sur un test &, considéré comme statistique; ceci signifie, en particulier, que la valeur statistique d’un test entre deux hypothéses est entiérement représentée par sa fonction puissance. Remarquons 4 ce sujet qu’il n’y a que deux fagons de prendre une décision fausse : choisir Y, alors que P appartient & Po, éventualité a laquelle est associée la fonction Bg(P) (Pe Po) et choisir Po alors que P appartient 4 7,, éventualité a laquelle est associée la fonction 1—Bo(P) (Pe P,). DEFINITION 2 « Soit ® un test de P, contre P,, on appelle niveau de signification de ®, le nombre a» : ap = sup (Bo(P)|P€ Po); on dit que ® est sans biais si : te 054 Notions fondamentales de statistique mathématique est Po UP,-négligeable; on appelle alors région critique de l’événement de défini par : ®(@) = 1.» On dit parfois d’un test qui n’est pas déterministe qu’il est stochastique ou randomisé. DEfIniTion 4 « Un test & de Py contre P, est trivial (resp. inefficace) s°il est constant sur Q (resp. si sa fonction puissance est constante).» Remarquons que les définitions précédentes introduisent une dissymétrie dans le traitement de Py et P,; si on permute Po en A, il faut changer > en 1-9, PROPOSITION | « Soient U Ia loiuniforme sur le segment [0,1] muni de la tribu & de ses boréliens et © un test sur la structure (Q, U,P); le test déterministe défini sur la structure (Q, YU, P)® ((0, 1], B, VU) par la région critique C= {(a, u) EQ x [0, 1]: (@) > u} a méme image que ®. » En effet, l’indicatrice 1-(w@, u) de C est 4@ B-mesurable et en posant, pour tout Pde FP: P’ = PxU, on a, d’aprés le théoréme de Fubini : ra B,(P’) = P(C) = iL, I¢(a, nau far -{ ®(w) dP = Bo(P). J a Cette proposition éclaire le mécanisme de décision associé a un test stochastique; la variable auxiliaire u, extérieure au probléme, permet finalement de prendre une décision déterministe. PROPOSITION 2 « Soit ® un test de Py contre P,; si B est une tribu exhaustive sur la structure (Q, U; A, v Y,) la projection de ® sur B, E(X|B) définit un test équivalent 4 ®. » Cette proposition résulte directement de la définition 1-II-3 et de la défi- nition 1; on pourra donc se limiter 4 considérer les tests qui sont fonction d’une statistique exhaustive s’il en existe une. * Remarque En projetant sur une tribu exhaustive un test déterministe, on obtient en général un test stochastique; réciproquement, il peut étre commode de chercher(Chap. V) Tests d’ hypotheses 55 un test déterministe équivalent a un test stochastique fonction d’une statistique exhaustive, sans avoir recours, comme 4 la proposition 1, 4 une variable extérieure. Cette opération de relévement, inverse de la projection, est en particulier intéressante si l’on peut remplacer le test initial, irrégulier ou compliqué, par un test équivalent plus simple, mais ne dépendant plus seulement d’une statistique exhaustive. Au point de vue mathématique, avec les notations de la proposition 2, étant donné un test , @-mesurable, il faut trouver un événement A de YU tel que : P(A|A)= 0 PEP; en particulier si la structure est dominée par une loi de probabilité privilégiée P*, ceci est équivalent a : P*(A|B) = ©. On a rencontré au § II-7 ce type de probléme; en pratique on effectuera un changement de variables pour faire apparaitre la statistique exhaustive x et une statistique libre y. Ensuite pour chaque x on déterminera un événement A,, telatif A y, de probabilité (x) et ceci de telle fagon que I’événement A, dont les sections sont A,, soit mesurable. Dérinition 5 « On appelle domaine associé au probleme de test défini par les deux hypo- théses Py et P,, l'ensemble des fonctions puissance de tous les tests de Py contre P,.» * Remarque D’aprés la proposition 5-XII-3 si la structure est dominée, cet ensemble est compact pour la topologie o{#.,, Ii}. DEFINITION 6 « Un test © de Py contre P, est libre si sa fonction puissance est constante sur Py: Bo(P) =a YPePy.» Ceci est équivalent a dire que la statistique @ sur (, U, Po) est libre en moyenne, PROPOSITION 3 « Soient @o, @, deux hypothéses disjointes sur la structure statistique [Q, U; Py, (0, Z)], si @ est muni d’une topologie pour laquelle l'image de tout test ® est continue, alors pour tout test sans biais de @ contre @, ona: VOEO, NG, Bg (0) = a.»56 Notions fondamentales de statistique mathématique En effet, si ® est un test sans biais de Oy contre @,, ona: Bo(0) folP) Pea, et ® > &' si de plus, pour au moins une loi P dans Py v P,, Vinégalité ci-dessus correspondante est stricte. » En plus de cette relation de préordre bien évidemment indiscutable, si l’on se donne une fonction de perte ou une fonction de perte et une distribution a priori, on peut (§ IV-5) introduire les relations de préordre ainsi définies sur les stratégies associées aux tests. Considérons donc la structure statistique [Q, U; P,, @e(@, Z)]; une fonction de perte W est, avec les notations de Com. 1-IV-3, une fonction sur (@9 U 01) x 4, £@D-mesurable, a valeurs dans (R*, Bp), ol Oo et O, sont deux hypothéses disjointes. Le risque Ro associé 4 un test © de Oo contre O, est égal a: Ro(8) = Ep, [W(8, 0)[1-#(w)]+ WO, 1) O(@)] = WO, 0)+[W, 1)— WO, 0)] Bo). (1)(Chap. V) Tests d’ hypotheses 87 THEOREME | « Soit IB (resp. L8') la famille des fonctions de perte W telles que : W(8, 1) < W(8,0) (resp. W(8, 1) < W(8, 0)) V0e O, W(0, 1) > W(8,0) (resp. W(0, 1) > W(8,0)) VOE Oo on a alors : 2 a $20 = O20; O>0 > O>8'; w w We, 20 > $26; >0' > G>8'.» Ceci résulte directement de (1) et de la définition 1, et montre qu’en fait c’est bien la relation de préordre définie par la définition 1 qui est essentielle pour la théorie des tests. THEOREME 2 « Avec les notations précédentes, soient W une fonction de perte dela famille 2B et Q une distribution a priori sur @ U O, telles que les intégrales : A= I [WO, D-WO,0)]d0(), B= { [W(@, 0)— W(, 1)] dQ) 8 oO soient finies, alors il existe deux lois de probabilité mo et m, sur (Q, 2) telles que, pour tout test & de @g contre @, on ait : Rg = c+al 2 ory ~Bf dn, 2 a out C est une constante. » En effet les constantes A et B étant positives, on définit les lois de probabilité Qo et Q, sur (O, 5) par: ~[W@,)-W0,0)] sidee, dQo —* (8) = dQ 0 sinon, 1 — [W(8, 0) -— WB, 1 i dEO $01, =a" )- WE, 1] side O, 0 sinon, ona: RS = ff, na lve 0)+[W(6, 1)— W(G, 0)] (@)] dPo(o) dQ); (1)58 Notions fondamentales de statistique mathématique définissons 79 et m, par: VAeU m(A) = I. P(A) dQo(0) (A) = I Po(A) dQ, (6). D’aprés le théoréme 1-XIV-6, en intégrant (1) d’abord par rapport a 0, on obtient bien l’expression annoncée pour R$, ot : C= { W(0, 0) dO(0). 000: Remarque Ce théoréme montre en particulier que si on s’est donné une fonction de perte et une distribution a priori, le probléme du test de @, contre 0, est ramené & celui de deux hypothéses simples, c’est-a-dire réduites chacune 4 une seule loi de probabilité. A toute relation de préordre sur les tests on associe les notions d’admissi- bilité et de classe compléte introduites au § IV-4; quand on ne précise pas de relation de préordre, c’est qu’il s’agit de celle de la définition 1. DEFINITION 2 « On dit que le test © de Py contre P, est quasi admissible si pour tout test &' de P, contre P, tel que : Bo (P) < Bo(P) WPEPo, soit ona: Bo(P) = Bo (P) WPeA, soit il existe une loi P, de P, telle que : Bo (P1) < Bo(P:).» Il est clair qu’un test admissible de Ay contre P, est quasi admissible, la réciproque n’étant pas nécessairement vraie. De plus on établit sans difficulté les propriétés suivantes: THEOREME 3 « Si ® est admissible comme test de Po. contre P,, 1—© est admissible comme test de P, contre Py.» THEOREME 4 « Soit Py une partie non vide de Py; si ® est quasi admissible comme test de P, contre P,, il est quasi-admissible comme test de Py contre P;.»(Chap. V) Tests d’hypothéses 59 THEOREME 5 « Si ® est quasi admissible comme test de Py contre P, et si 1— est quasi admissible comme test de P, contre Py, alors ® est admissible comme test de Py contre P,.» 3. TESTS OPTIMAUX Il n’existe pas en général de test meilleur que tous les autres, on devrait avoir en effet : Bo(P) =0 PEP), Bo(P) = 1 vWPeA,, ce qui entraine que l’ensemble ou =1 (resp. @=0) est Po-négligeable (resp. P,-négligeable) et cette condition n’est évidemment pas satisfaite en général. DEFINITION 1 «Le test © de Po contre P, est uniformément le plus puissant (U.M.P.) si pour tout test ®' de Py contre P, ona: Agr < tg => Bo (P)< Bo(P) WPeEP,; on dit que ® est strictement U.M.P. s*il est U.M.P. et admissible. » Un test U.M.P. est quasi admissible; en effet : Bo (P) < Bo(P) WPEP, => te< to => Bo (P) < Bo(P) VPEP,. Mais un test U.M.P. n’est pas nécessairement admissible; en effet, si P, et P, sont des hypothéses simples il est clair que les notions de test U.M.P. et de test quasi admissible coincident, or il est facile de construire, dans ce cas, des exemples de tests quasi admissibles et non admissibles. De plus, un test U.M.P. est sans biais puisque meilleur que le test trivial de méme niveau de signification. THEOREME 1 « Soient Py, une partie de Py et P un test de Po contre P, de niveau de signification a ; si, comme test de P, contre P,, ® est U.M.P. et a pour niveau de signification ag, ® est U.M.P. comme test de Py contre P,.» En effet, soit un test ®’ de Po contre P, tel que: Ae By (P) Bo (P1) < Bo(P1) 5 qa) d’autre part si: Up < te il existe alors une loi Po de Po telle que : Bo (Po) < Bo(Po), et donc d’aprés (1) ® est U.M.P.(Chap. V) Tests d’ hypotheses 61 DEFINITION 2 «Le test ® de P, contre P, est uniformément le plus puissant parmi les tests sans biais (U.M. P.B.) si pour tout test ®' sans biais de Py contre P, ona: A < te > Bo (P) Bo(P) WPeP,, et qu’une inégalité soit stricte pour une loi P,; de P,, ce test &’ serait sans biais puisque © est sans biais et les inégalités précédentes seraient incompatibles avec le fait que ® est U.M.P.B. Remarque Le test & est U.M.P.B. comme test de Py contre F; si et seulement si pour toute loi P, de Y;, il réalise le maximum de By(P,) parmi les tests sans biais de Py contre FP, (et non P,!!). DEFINITION 3 « Le test & de Py contre P, est maximin si pour tout test 6' ona: dg 0>=1 U-p.p- = k Y fo)a<0>0=0 wpp. jot Enfin si Sq est un point extrémal de D et si les fonctions f,, ..., fj, Sont positives, il existe un ensemble A de % tel que : So = Si, » * En effet, D est évidemment convexe; d’autre part, en décomposant chaque fonction f; en partie positive et négative : haSi-f. et en introduisant les lois de probabilité : ey pduee dP} = ees [are arn a il découle du théoréme 5—XII-3 que D est compact pour la topologie faible qui est ici la topologie ordinaire sur R*. Soit Sg un point frontiére de D, il existe au moins un demi-espace fermé de R*, contenant D et limité par un hyperplan passant par Sg, c’est-a-dire qu’il existe des constantes ay, ..., a, telles que : J=lask, & fs Ya Be-x) 0 VO m2) ED ou encore telles que pour toute fonction mesurable &' a valeurs dans [0, 1], on ait : Ld ; 7 ’ & abo > ¥ a; Bo - (1) os it Soient f* la fonction Sha et * l’indicatrice de l’ensemble{ f* > 0}, il est clair que l’on a: (@*-@')f* 50, Q) et donc en intégrant par rapport a ye: [ ars on > | Gf du Vo". (3) 2 2(Chap. V) Tests d’hypothéses 6 En tenant compte de (1) on déduit de (3) : I arson = | f° ou = sup([ #s* ax) 2 a o \Jo et donc d’aprés (2) : (@*-9)f*=0 wepp., soit encore : fos =O =G=1 ppp. f'<0>O%=6=0 ppp. Enfin soient Sp un point extrémal de D et y* la mesure, ici positive, définie par : dy* = (fit thdu. Si u*(@(1—) > 0) = 0, l’ensemble 4, ot & = 1, satisfait au théoréme; sinon il existe un entier positif n tel que l'ensemble A, ~{o:ea-o) > 4} n soit de *-mesure non nulle. Les deux fonctions & + 7 14, et @- : 14, sont n n el : 1 1 a valeurs dans [0, 1] et leurs images respectives sont Sp + — S,, etSp—-S,,3 n* n “n comme S;,, est non nul, Sg ne peut étre extrémal et la démonstration est achevée par |’absurde. THEOREME 2 (Lemme de Neyman et Pearson.) « Soient ps une mesure positive sur un espace mesurable (Q, U) et fo, fis «+s Sis k+1 fonctions réelles mesurables sur (Q, U), u-intégrables. Si © est une fonction @ valeurs dans {0, 1] telle que : : { folo)> LS(oa; = @=1 wpe. k ln < Tho) a;>O=0 yep. oit les constantes a; sont non-négatives, alors pour toute fonction ®' a valeurs dans (0, 1] ona: (1d) i © fy du PI(@) a = Ho) Sa, ([ of au~ | #4, an) >0, et le théoréme découle directement de cette inégalité. Remarque Si dans (1) une inégalité change de sens, on doit changer le signe imposé 4 la constante a; correspondante; par contre, si une de ces inégalités est transformée en égalité, il n’y a plus de condition de signe sur la constante a; cortespondante. De plus une réciproque de ce théoréme sera établie au §XII-5, 5. DETERMINATION DE TESTS OPTIMAUX Montrons d’abord que si une distribution a priori est donnée, on peut toujours trouver une solution de Bayes au probléme de test étudié. THEOREME 1 « Dans les conditions du théoréme 2-§ 2, il existe un test déterministe >, dit Bayes-optimal, tel que, pour tout test ®' de @, contre ©, on ait : RE > RE; de plus © est admissible comme test de 19 contre n,.» En effet, considérons le domaine A de (0, 1]? défini par les points : (era) ou &’ est un test quelconque; d’aprés le théoréme 1-§ 4, 4 est convexe et fermé et donc R, forme linéaire sur 4, atteint son maximum en un point extrémal(Chap. V) Tests d’hypothéses 67 de A. Il reste donc 4 montrer que # est admissible comme test de mo et 2,3 or les constantes A et B de RQ, étant positives, il est clair que @ est sur I’arc (A) de frontiére de 4 correspondant a : [ dro <[ @ dny,, a a et donc que © est admissible. Enfin, d’aprés la derniére partie du théoréme 1-§ 4 on peut choisir © déterministe. Le théoréme suivant résout le probléme du test d’une hypothése simple contre une hypothése simple, si un niveau de signification a été choisi. THEOREME 2 « Soient Py et P, deux lois de probabilité distinctes sur (Q, U), po et py leurs densités par rapport 4 une méme mesure yu positive; quelle que soit la constante non négative A, tout test ® tel que : Pi(@) > Apo(w) > & = 1 P1(@) < Apo(w) > & =0 est U.M.P. comme test de Py contre P,. De plus, quel que soit «€[0, 1], il existe un tel test ® qui soit de niveau de signification «; enfin si By(P,) est Strictement inférieur a 1, © est strictement U.M.P.» Ces deux théorémes se représentent bien sur le graphique du domaine 4 : ou la famille des images des tests admissibles est l’arc (A) de la frontiére de A situé a l’intérieur du carré et au-dessus de la diagonale principale. On peut méme expliciter élémentairement la détermination d’un test U.M.P. de niveau . Soit G(A) la fonction définie par : A2>0 — G(A) = Po({P: > Apo}) 568 Notions fondamentales de statistique mathématique cette fonction est non croissante et continue a droite. Soit alors « donné dans [0, 1], on se trouve dans I’un des deux cas suivants : a) si G(A—0) = G(A) = alors tout test &, d’ailleurs déterministe, tel que: © =1sipy>App et ®=O0si p, Apo ] 0 si py “Pe est U.M.P. de niveau de signification a. Exercice: [4], ex. n° 1, chap. III. THEOREME 3 « Soient Py, Py,..., Py, N+1 lois de probabilité sur (Q,%) et pos +-+s Py leurs densités de probabilité par rapport 4 une mesure qm positive; quelles que soient les constantes 4y,..., Ay, non négatives (resp. positives), tout test ® tel que : Not Py(@) > & 4;pi(@) > P(@) = 1 Noa Px(o) < > Aj pj(@) > O(a) = 0 if est quasi admissible (resp. admissible) comme test de Py = {Po,.-., Py-1} contre Py.» Quand on suppose les constantes 4; non négatives ceci résulte du lemme de Neyman et Pearson; supposons que, de plus, les constantes 4; soient strictement positives, on a vu que pour tout test ®’ ona: w-1 PolPr)~ Pols) >. 4] BoP) Po) | et donc si une des inégalités : : Bo(P;) = Bar(P;) est stricte, alors on a: Bo(Py) > Bor(Py) ce qui montre que est admissible.(Chap. V) Tests d’ hypotheses 9 Remarque Rappelons, 4 propos de ce théoréme, que si les lois Po, P;,..., Py sont non atomiques, 4 tout test ® correspond un test déterministe équivalent comme test sur cette structure (théoréme 2-XII-4). En dehors des cas précédents, pour chercher un test U. M. P. de ’hypothése @, contre l’hypothése O, on pourra procéder comme suit : a) On fixe 09 dans @, et 6, dans @, et par application du théoréme 2 on détermine les tests U.M.P. de 89 contre 0. b Si le théoréme 4-§ 3 s’applique, le probléme est résolu; sinon, 6, restant fixé dans ©, on peut chercher une partie @) de @o (hypothéses les plus défavorables) telle que, par application des théorémes 2 ou 3 ci-dessus, on puisse trouver un test ® quasi-admissible et libre comme test de 05 contre 0,. Si on peut vérifier alors que @ a méme niveau de signification comme test de @{ contre 0, que comme test de @o contre 0;, ® est alors U.M.P. (théoréme 6-§3). c Si, quel que soit 0, dans @,, on a pu déterminer un test U.M.P. de @o contre 0,, le théoréme 2-§ 3 permet de conclure a I’existence ou non d’un test U.M.P. de @, contre @,. Remarque Lorsque 6, est simple, le théoréme 5-§ 3 nous assure l’existence d’un test U.M.P.; si tout test trivial est U.M.P. (ce qui est le cas, dans les conditions de la proposition 3-§ 1, si 0; € Oy) on cherchera un test strictement U.M.P. Exercices ; [4], ex. n° 4, 7, 9 et 10, chap. III. S’il n’existe pas de test U.M.P. on pourra chercher un test U.M.P.B. On considére pour cela les contraintes suivantes, exprimant qu’un test est sans biais : Bo() a VWOEO,; @ pour tout 0, de @, on cherche le maximum de f(0,) sous ces contraintes; ce maximum existe dans le cas dominé et le test & est U.M.P.B. si et seulement si ® réalise ce maximum pour tout 6, appartenant 4 0,. Mais le systéme (1) est en général mal aisé a étudier, ainsi une méthode consiste 4 remplacer les contraintes (1) par des contraintes plus faibles; par exemple, si la proposition 3-§ 1 peut s’appliquer on remplace (1) par : Bo(0) =% VO €O.nO, ;70 Notions fondamentales de statistique mathématique ou encore si (1) entraine qu’en un point 89 on ait : Bole) _ 9 do on remplace (1) par cette égalité. Ces deux méthodes seront utilisées aux chapitres VIII et XI. On remarque d’ailleurs que les contraintes par égalité ainsi obtenues sont encore des fonctionnelles linéaires de @ et le lemme de Neyman et Pearson s’appliquera souvent. Exercice ; [4], probléme n° 3, chap. V. Enfin la méthode des tests conditionnels (théoréme ci-aprés) permet parfois d’éliminer les paramétres fantémes comme on le verra au § XI-4; il s’agit d’ailleurs d’appliquer l’idée énoncée au § IV-6, consistant a échanger un paramétre inconnu contre une variable de conditionnement. THEOREME 4 « Soit [Xx D, U@ B, {Po, 0 = (4, uw) EAxM}) une structure statistique telle que, quel que soit @ € @, la loi de probabilité sur U conditionnelle & Y existe et ne dépende pas de u, & savoir P}. Si un test &*(x, y) est tel que, pour tout ye Q, sur la structure [X, U; PZ, 1 A), le test BF: x + O*(x, y) comme test de Ag contre A, (hypothéses disjointes), est supérieur a tout test de Ag contre A, de méme niveau de signification et libre, alors ®*(x, y) comme test sur la structure initiale est supérieur a tout test de Ag x M contre A, x M, de méme niveau de signification, libre conditionnellement @ Y.» On a noté Y la projection de Xx Q) sur J: (x, y) > y. Pour tout test ona: Ep,(®|Y) = I P(x, y) dPi(x) 5 donc si # est libre conditionnellement & Y sur A, x M et de niveau a, on a: Wye Q, Ve Ao, { (x, y) dPY(x) = a x c’est-a-dire que le test x (x, y), sur la structure (X, U; P}, Ae Ag), est libre et de niveau a, donc : vyeQ, VieA, / (x, y) dPY(x) <|, ®* (x, y) dPY(x). x x En intégrant par rapport a y il vient : Bo(®) < Box(®) YOEA,xM,(Chap. ¥) Tests d’hypothéses n comme d’autre part © est libre et de niveau « sur A) x M, ona: YOEAGxM, — o(0) = & > Box(A), puisque * est de niveau a, et le théoréme est établi. Ce théoréme permet d’établir la propriété U.M.P.B. quand la condition de non-biais pour un test entraine sa liberté conditionnelle 4 Y comme on le verra au § VIII-2 et au § XI-4. Exercice : [4], ex. n° 13, chap. III. 6. METHODES EN L’ABSENCE DE TESTS OPTIMAUX En général, il faut bien reconnaitre que l’on ne trouvera pas de tests optimaux; déja vrai pour les problémes dits paramétriques (dim @ finie), ce fait devient la régle pour les problémes non paramétriques (dim @ infinie). On peut alors adopter un des procédés ou points de vue suivants. A) On restreint la classe des tests pris en considération Soit (Q, U, P) la structure considérée, on peut se limiter a des tests B- mesurables, ou @ est une sous-tribu donnée de 2; ceci revient en fait 4 changer de structure et considérer la structure (Q, @, 7). Un exemple de cette méthode est l’étude des tests homogénes dans le probléme de Behrens-Fisher (§ VIII-4). On peut également se limiter 4 des tests dont la fonction puissance est 6— mesurable ot € est une sous-tribu de la tribu Z de l’espace des paramétres; c'est la notion d’invariance selon Linnik (cf. [40], [41]). Mais toute sous-tribu € de I n’est pas nécessairement vérifiable (c’est-a-dire telle qu’il existe un test dont la fonction puissance est 6-mesurable) et selon ce point de vue les résultats obtenus sont plutét négatifs ({41]). Enfin on peut se limiter 4 des tests invariants par rapport 4 un groupe de transformations de Q qui laissent invariantes les hypothéses Py et P, (cf. [43], p. 215). B) Tests de maximum de vraisemblance Soit Y(@, 6) la fonction de vraisemblance de la structure, un test ® de @, contre @, est dit de maximum de vraisemblance s’il existe une constante 1 telle que : sup {£(o, 8)10€ Oo} >pAar>@=0, sup {2(w, 0)|0E0,} sup {2 (@, )I9€ Oo} sup {L(w, )|0€O,} « Bien que le principe du maximum de vraisemblance n’admette aucune propriété d’optimum bien claire, il conduit & des procédures satisfaisantes dans de nombreux cas particuliers. » ([43], p. 15.) =o un Notions fondamentales de statistique mathématique Une autre procédure encore plus incertaine est d’utiliser une combinaison convexe de tests dont chacun a une propriété optimale; par exemple supposons que J; = ()Fi, I fini, et qu’il existe un test optimal , de P, contre P,, in il peut étre intéressant d’étudier les tests @ de la forme : = VAG, a ou les A, sont des coefficients positifs de somme unité. ©) Dans les problémes non paramétriques, les méthodes précédentes donnent rarement des résultats, ainsi utilise-t-on surtout des statistiques libres ou asympto- tiquement libres dont on a pu calculer la loi de probabilité. On obtient alors des tests dont on connait seulement le niveau de signification et qui sont directement déduits de théorémes de calcul des probabilités; ainsi le test du x? découle du théoréme de Karl Pearson (2-VII-3), les tests de Kolmogorov-Smirmov (§ XIII-2 et [16], [49]), Smirmov, Geary, des théorémes de méme nom. Pour le théoréme de Kolmogorov-Smirmov, voir par exemple ((22]) et le § II-4 pour ceux de Smirmov et Geary. D) Enfin dans le cas d’un échantillon empirique (Q, U, P)" une étude asymp- totique est trés souvent utile. Soient Po et P, deux hypothéses, on dit que la suite de tests ©, est consistante si, quand n > co : ag,>0 et Bo,(P)>+1 WPeEA; ainsi en est-il du test du y?, du test Kolmogorov-Smirmoy, etc. Exercice : [4], ex. n° 16, chap. III. En conclusion de ce chapitre, on notera le rdle important joué par le niveau de signification. En dehors du cas Bayésien, son choix résulte de considérations concrétes et revient, puisqu’en général il n’existe pas de test meilleur que tous les autres, a limiter d priori la probabilité de rejeter 4 tort I’hypothése Py; les valeurs numériques les plus usuelles pour le niveau de signification d’un test sont 0.05, 0.01, 0.005.CHAPITRE VI ESTIMATION STATISTIQUE Avec les notations de la définition 3-1V-3 on suppose ici que X est identique a R¥, ot k est un entier positif donné; en effet les problémes classiques concernent essentiellement le cas d’un nombre fini de paramétres scalaires. On introduit donc, au cours de ce chapitre, les notions élémentaires de la théorie de l’estimation; des exemples simples sont indiqués en exercices, des applications plus importantes seront développées aux chapitres VIII et X. Comme certaines propriétés, usuellement traitées 4 propos de |’estimation, Vont été a leur place mathématique naturelle, on remarquera qu’il reste ici peu de notions nouvelles a introduire. Ainsi les propriétés des estimateurs en tant que statistiques ont été vues au cours des premiers chapitres; de méme, au §I-4 on a montré que l’on peut en général déduire d’une distribution a priori une stratégie pour l’estimation de 6 (distribution a posteriori); enfin Vinégalité de Cramer-Rao a été établie au § III-2. On notera que la propriété de complétion joue un réle important dans la recherche d’un estimateur, qu’en général la présence de paramétres fantémes complique la construction d’une estimation ensembliste et que le plus souvent il n’y a pas de relation simple entre l’estimation de 6 et celle d’une fonction de 0. 1. ESTIMATEURS SANS BIAIS Soient [2, 2; Ps, @¢O] une structure statistique et f une application de @ dans R¥, on a vu (définition 3-IV-3) qu’un estimateur de f est tout simplement une statistique X a valeurs dans (R*, @p.). Il peut sembler naturel d’exiger de plus que X(w) appartienne P-presque sfrement a f(@), pour éviter par exemple qu’un estimateur d’une variance puisse prendre des valeurs négatives; en fait cette restriction se révéle plus génante qu’utile, d’ailleurs X(@) ne prétend pas étre égal 4 f(@) mais seulement en étre représentatif ! Dérinition 1 « Soient une structure statistique [Q,U; Py, 0 O), f une application de @ dans R*, et X un estimateur de f; si X est sommable et d’image f, on dit que X est un estimateur sans biais de f. »14 Notions fondamentales de statistique mathématique Si la structure statistique considérée est compléte, f admet au plus un estimateur sans biais; si la structure n’est pas compléte on obtient tous les estimateurs sans biais de f en ajoutant a un estimateur sans biais, s’il existe, une statistique 4 valeurs dans (R*, @px) dont les composantes soient centrées. Exercices : [4], n® | et 16, chap. IV. Dérinition 2 « Avec les notations de la définition |, soit, pour tout entier n, X, un estimateur de f sur la structure {Q, U; Po, @ € OJ"; on dit que X,, est un estimateur asympto- tiquement sans biais de f si : W0eO = Bx, (8) > = f(8); autre part si, quel que soit 0 ©, quand n + «©, X, -+f(@) pour un mode de convergence du Calcul des Probabilités, on dit que X,, est un estimateur de f convergent (ou consistant) pour ce mode de convergence. » Exercices : [4], n° 7 et 14, chap. IV. THEOREME 1 « Avec les notations de la définition 1, soit X un estimateur sans biais de f; Pestimateur X, de f, défini sur la structure [Q, U; Po, 0 € OY" par : XO y,0)=4 FP Xa) (we Qj = 1,10) nim est un estimateur sans biais de f, convergent presque sirement.» Ce théoréme résulte immédiatement de la linéarité de l'espérance mathéma- tique et de la loi forte des grands nombres. Remarque Si f(@) est convexe et contient X(Q), alors, pour tout n, f() contient X,(Q). THEOREME 2 « Avec les notations de la définition 1, soient B une tribu exhaustive pour la structure {Q, U; P,, 0 € @) et X un estimateur sans biais de f, alors la projection de X sur B est un estimateur sans biais de f.» Ce théoréme résulte directement de la définition 1-II-3; associé au théoréme |, il fournit une méthode utile de construction d’estimateurs| sans biais sur un échantillon empirique. En effet, si @ est une tribu exhaustive pour la structure Py, 0€ O)", E(X,|B) est un estimateur de f, sans biais et @-mesurable, qu’il eat été parfois difficile de trouver directement. Exercices : [4], n° 4, 8 et 13, chap. IV.(Chap. VI) Estimation statistique 5 Remarque Si f(@) est convexe et contient X(Q), et s’il existe une version réguliére des probabilités conditionnelles 4 &, alors f(@) contient également Z(Q) ou : Z(o) = [ X dP = E(X|&). Ja Enfin on dit qu’un estimateur est exhaustif, exhaustif par rapport a un paramétre fantéme, libre, libre par rapport & un paramétre fantéme s'il a respectivement ces propriétés quand on le considére comme une statistique. Exercice : {4], n° 18, chap. IV. 2. ESTIMATEURS OPTIMAUX On a vu (théoréme 1-IV-5) que I’on peut, sous des conditions générales, se borner a rechercher des stratégies optimales parmi les stratégies déterministes, c’est-a-dire ici, les estimateurs. Par exemple, si on peut se donner une distribution a priori Q, on a obtenu (§ I-4) une distribution a posteriori de 0 et done un estimateur de f défini par : E,(f(O)\a), relativement a l’espace probabilisé (Q x O, 2@Z, z) ol x est la loi définie par le couple (Py, Q). De plus, l’inégalité de Jensen (propriété 9-XIV-4) se spécialise aisément dans le théoréme suivant qui montre alors que s’il existe une tribu exhaustive &, on peut aussi se limiter aux estimateurs @—mesurables. THEOREME | « Soient [Q,U; Py, 0@€ O] une structure statistique, f une application de @ dans R*, B une sous-tribu exhaustive, X un estimateur sommable de f, et W une fonction de perte sur © x R*, continue et convexe pour tout @ fixé, alors ona: ¥ E(X|@) > X.» DEFINITION 1 « Avec les notations de la définition \-§ 1, on dit que l’estimateur X de f est de variance minimum si X est un estimateur sans biais, de carré sommable tel que la forme quadratique définie par la matrice de covariance de tout estimateur sans biais de f, soit, quel que soit 0, supérieure ou égale a la forme quadratique définie par la matrice de covariance de X.» On remarque bien dans cette définition que l’optimum est cherché dans la famille des estimateurs sans biais et il n’est donc pas exclu qu’il existe un estimateur, alors biaisé, de variance moindre que celle de X.16 Notions fondamentales de statistique mathématique THEOREME 2 « Soient [Q, U; Py, 0 € O] une structure statistique, B une sous-tribu exhaustive et complete, et f une application de © dans R* admettant un estimateur sans biais et de carré sommable; alors il existe un estimateur sans biais de f, B-mesurable, unique P-p.p., qui est de variance minimum. » En effet, la projection sur # d’un estimateur sans biais de f est encore sans biais et de plus #-mesurable et unique P-p.p. d’aprés la complétion de @; le théoréme 1 appliqué, pour tout u de R*, a la fonction de perte: 0c0, xeR* —W, (0, x) = 1-a (resp. (4) = 1-2), A = {(6, 0): (0), 0) €D}.» En effet une estimation ensembliste forte (ou de graphe mesurable) D est une partie de 2x R*, appartenant 8 A® Bp; pour tout w de Q, soit d(w) le borélien des valeurs de x telles que (@, x) € D, l’application @ > d(@) est estimation ensembliste déduite de D et on a alors : n(4) = i 7(419) dQ) = / Po(d~*(f(8))) dQ), d’ou le résultat cherché, en se reportant a la définition 1. Remarques 1. On remarquera la relation entre ce théoréme et la notion de « probabilité fiduciaire » de Fisher ([18]). 2. Si f(@) n’est pas injective, par un changement de paramétres on peut souvent se ramener au cas : 0 = (x, 0), xeX CR, HCO’; O=XxO'; f) =x, x est alors paramétre principal et 0’ paramétre fantéme. Déterminer une estimation ensembliste libre de x, c’est en particulier, trouver pour tout x de X un événement libre par rapport a 6’. Exercice : [4], n° 17, chap. IV. Le théoréme suivant raméne la détermination d’une estimation ensembliste a celle d’une famille de tests déterministes de méme niveau, et correspond a Vidée naturelle suivante : pour tout @, on prend pour d(@) I’ensemble des valeurs de f(@) telles que si on les teste contre une autre hypothése, on les admette au vu de a. THEOREME 2 « Avec les notations de la définition 1, soit d une estimation ensembliste de f, de seuil « (resp. de plus libre), alors quel que soit § de @, le test déterministe ©® de région critique Cd-(f(@)) est de niveau de signification au plus égal a « (resp. de plus libre) comme test de f~'(f(0)) contre toute autre hypothése. Réciproquement, si pour tout x de f(@), il existe un test déterministe de région critique mesurable C,, et de niveau « (resp. de plus libre) comme test de f~*({x})(Chap. VI) Estimation statistique 79 contre une autre hypothése, alors l’application : @ > do) = {xef(O): we CC,} est une estimation ensembliste de seuil « (resp. de plus libre). » En effet on a: vo'cO Bo(8') = 1—Po.(d-*(F)), en particulier : voef (FO) f0)=f0, 4 '*%@) =4'4@), donc : vo'ef (FO), Bol(6’) = 1—Po(d-*(F@')), et finalement : a = sup (Bo (4) f~ * (f(®)) < 1—inf [Po(d- "(Ff 1O] De plus si d est libre on a: vo'ef- (FO) — Bo(8") = 1— Py (d-*(F(6')) = et © est donc libre. Réciproquement, soit d1’estimation ensembliste définie dans l’énoncé, on a: d(x) =Cc, vxef(O), mais par hypothése : Woes" ({x}) Po(Cy) ay => p(d'(@)) > p(d(o)) YoeQ.» Trtorime 1 « Avec les notations de la définition précédente, et si f(@) est un borélien de RY, soit G(w, x) une fonction sur 2x flO) a valeurs dans un espace mesurable (QD, D), U@ Byey-mesurable et telle que V’élément aléatoire w > Glo, f(8)) ait méme loi de probabilité Q pour tout 0; alors, quel que soit Ue ®, l'ensemble G-"(U) est une estimation ensembliste forte de f, libre et de seuil 1—Q(U).» En effet l’application : dy(@) = {x : Ga, x)eU, xe f(O)} est une estimation ensembliste et |’on a: voe@ dg (f@) = {w: Go, fe U}, dod: Po(dg '($() = Po({G(o, f(6)) €U}) = Q(U) et le théoréme est établi. THEorEME 2 « Dans les conditions du théoréme 1, soient u une mesure sur (f(®), Bye) et uS la mesure sur (2), D), image de wu par Vapplication x + G(w, x); sil existe un ensemble U* de ® tel que : Q(U) > Q(U*) > wE(U) > wE(U*) Yae, ay alors G-1(U*) est une estimation ensembliste forte, u-optimale par rapport @ la famille des estimations ensemblistes obtenues au théoréme 1.» En effet, d’aprés le théoréme 1-XIV-1 on a: Wed, Yoe®, — w(dy(w)) = nS(U) et la relation (1) est alors identique a celle de la définition 1. Remarquons d’ailleurs que le lemme de Neyman et Pearson appliqué a l’implication (1) permet de déterminer U*, s’il existe. On donnera au § VIII-3 des exemples d’application de cette méthode. Exercice : [4], n° 18, chap. IV.CHAPITRE VII VECTEURS ALEATOIRES GAUSSIENS Ce chapitre est un chapitre de Calcul des Probabilités et a pour but d’introduire les lois de probabilité qui sont 4 la base de la plupart des problémes classiques de statistique que l’on verra au chapitre suivant, et de préciser les techniques de calcul correspondantes. 1, LOIS DE PROBABILITE USUELLES EN STATISTIQUE On connait ([4], Chap. I, §1) les lois élémentaires sur (R, #,) telles que la loi binomiale #(n; p,q) de fonction génératrice (q+pu)", la loi de Poisson PAA) de paramétre A, et la loi normale N(m, 0?) de moyenne m et d’écart moyen quadratique o. Les autres lois les plus usuelles sont les lois gamma et les lois béta : DEFINITION 1(loi gamma) « On note I'(a, 4), ot a et A sont des paramétres réels positifs, la loi sur » Brs) de densité : R*, Bp.) de densité ee T(@) On sait ((4] ex. n° 5, §I, Chap. I) que la fonction caractéristique correspondante est { 1 — iy et que le moment d’ordre k est égal a: grt atk) _(@+k=1) a T(a) a DEFINITION 2 (loi béta) « On note B(a, b), ou a et b sont des paramétres réels positifs, la loi sur (R*, Bps) de densité : (as b) exces T(a) (b) Gs.” Quel que soit l’entier positif k inférieur ou égal 4 b—1, le moment d’ordre k82 Notions fondamentales de statistique mathématique existe et est égal ((4], p. 22) a: (a+k-1)... (6-1)... (b-k) DEFINITION 3 (lois gamma et béta décentrées) « Soient a, b, y, 4 des paramétres réels positifs, on définit respectivement les lois gamma et béta décentrées par : rand = ¥ TF ratma m=o0 m! Ba, b.9) = F —* patm,b).» m=o om! On appelle parfois y le paramétre de décentrage. On écrit aisément ([4] ex. n° 4, §III, Chap. I) les densités correspondantes et on voit de méme que la fonction caractéristique de la loi (a, y, A) est égale a: it\* ity 1S exp(—— }. ( i) a ( on ) On rappelle ([4] ex. n° 5, §I, Chap. I) alors le résultat important suivant : PROPOSITION 1 « Soient X et Y deux variables aléatoires indépendantes de lois respectives I(a, y, a) et I'(b, A), alors les variables aléatoires U 4 et V=X+Y ont pour lois respectives B(a, b, y) et (a+b, y, A); si y =0, U et V sont indépendantes. » Effectuons le changement de variables : Us= V=X+Y. On obtient pour densité f (u, ») du couple (U, V): Rery” atb+m) uttmt —_yethtm Pete m=o m! I'(a+m)I(b) (1+uy*"™*? P(a+b+m) : et la proposition en résulte aisément. D’autre part on vérifie sans peine la formule de convolution : T(a,y, a) *P(b, 9’, 4) = Pat, y+7',d)-(Chap. VII) Vecteurs aléatoires gaussiens 83 Les cas particuliers suivants sont intéressants et classiques. 2 Si X est une variable aléatoire de loi N(m,o2), X? suit la loi rG. sil ) 2? 20?’ 20? ([4], p. 54) et on appelle loi du x7 n degrés de liberté la loi 7” G. sa): Si la 7 variable aléatoire U suit la loi B (: : 2) (cep. la loi B (3 2 2, )), la variable aléatoire "2 U suit la loi de Fisher-Snédécor (resp. Tang) a n, et nz my degrés de liberté. Les propositions suivantes sont alors des conséquences directes mais trés utiles des résultats précédents. PROPOSITION 2 « Soient X,, Xz, ...,X,, n variables aléatoires indépendantes de méme loi N(0, ”); la variable aléatoire : Y= Xi7+..4%2 suit une loi du y an degrés de liberté et donc a pour densité : ont gr? O29) —_ a *() et pour fonction caractéristique : (1—2ito?)- "7, » en 2/2 07 yin/2)—1 PROPOSITION 3 « Soient X et Y deux variables aléatoires indépendantes suivant des lois du ¥? respectivement an et m degrés de liberté et de méme paramétre a, la sariable aléatoire Z = & sui la loi (5, a) de densité : ‘n+m ns l)=1 eer 2, 2 Pour tout entier n on appelle loi de Student a n degrés de liberté la loi dela variable aléatoire : (z 20) tS vie84 Notions fondamentales de statistique mathématique ou X et S sont des variables aléatoires indépendantes suivant respectivement la loi N(O, 1) et la loi r( 3): on voit facilement que la densité de T est ntl NG p\-ot D2 (teR) —\ (: +5) : Vaz F(n/2) n égale a: PROPOSITION 4 « Soient X,, Xz, ..., X,,n variables aléatoires indépendantes de lois respectives N(m,, 6”), (i= 1... n); la variable aléatoire ¥ =X}? +...+ X? suit la loi du y? aécenméer (2,75, — 2" 20?’ 26 35): (m = mi +...+m2), de densité : ‘my \i w 4 YEO Gr MQmM2 qmimtsn/20? yinl2)~1 40° Fon (s iN on et de fonction caractéristique : itm (1-2ito?)""”? exp & > —2ito? PROPOSITION 5 « Soient X4, ++. Xq) Yay +++ Yar des variables aléatoires normales indépen- dantes, de méme écart moyen quadratique o; de plus les variables Y,(j = 1, ....n') sont centrées; si on pose : m = [E(X) P+... +[EX)P la loi de la variable aléatoire : X34... 4X2 T= 24 $Y, nn om est la loi (3.2. Td 25) a densité : nt+n’ mt\) eas g aN) e ‘m/2 t° /2)—1 y 2 } 267 . ae (a+n')/2 : = i of) eR ee 9 Vv(Chap. VII) Vecteurs aléatoires gaussiens 35 Cette proposition résulte aisément des propositions 4 et 1 et de la définition 3. Exercice : [4], Chap. I, §1, n° 5. 2. VECTEURS ALEATOIRES GAUSSIENS Nous énoncons simultanément le théoréme de définition de la loi normale (ou de Laplace-Gauss) et les principales propriétés de cette loi; la démons- tration de ces diverses propositions est en effet plus aisée globalement. THEOREME | « Soient m un vecteur de R" et A une matrice symétrique d’ordre n, définie non négative, il existe une loi de probabilité sur (R", Bgn) dite loi normale et notée N(m, A), de fonction caractéristique : exp {i — ; 'tAt} teR".» THEOREME « Soit X un vecteur aléatoire a valeurs dans (R", Bye), de loi N(m, A), on dit que X est un vecteur aléatoire gaussien; X admet alors m pour espérance mathéma- tique et A pour 1 “.rice de covariance. » THEOREME 3 « Soient X un vecteur aléatoire de loi N(m,A) et A une matrice dont le nombre de colonnes est égal 4 la dimension de X, le vecteur aléatoire AX suit Ia loi: N(Am, AA 44). » THEOREME 4 « Soit X un vecteur aléatoire de loi N(m, A), oi A est diagonale et d’éléments diagonaux 07, ...,02; les composantes X,, ...,X, de X sont indépendantes et quel que soit i=1, ...,n, si o; est non nul X, a pour loi N(m,, 67), si o; est nul X; est presque siirement égal a m;.» THEOREME 5 « Soit X un vecteur gaussien 4 valeurs dans (R", Bgn) de loi N(m, A); sir est le rang de A, il existe au moins une matrice D d’ordre (n, r) telle que X =m+DY ou Y est un vecteur aléatoire a valeurs dans (R’, Bgr), de loi N(0, 1,).»86 Notions fondamentales de statistique mathématique THEOREME 6 « Si la matrice A est définie strictement positive, la loi normale N(m, A) admet pour densité : f(x) = (2n)~"? (det A)? exp |- 5 ‘(x—m) atom» Etablissons d’abord un lemme matriciel : ‘LEMME « Soient M et A deux matrices symétriques d’ordre n et soit r le rang de A, supposée de plus définie non-négative; il existe au moins une matrice A d’ordre (n, r) telle que : A=A'A 4UMA=K, ou K est une matrice diagonale dont I’ensemble des éléments diagonaux non nuls est identique a l'ensemble des valeurs propres non nulles de la matrice MA.» En effet il existe au moins une matrice orthogonale C telle que la matrice CA'C soit diagonale, avec pour diagonale (A,,...,4,, 0, ...,0) OW Ay, 0-5 > sont les valeurs propres non nulles et donc positives, de A. Soient Ko la matrice: Vio 0 Va, et Co la matrice formée des r premiéres lignes de C. Si C’ est une matrice orthogonale quelconque d’ordre r la matrice A='CyKyC’ est telle que A = A ‘A; en effet: A'A='Cy K3Cy Ki 0} A='C C ='Cy K3 Co. o 0 or ona: Considérons alors la matrice Ky CoM ‘Co Ko; elle est évidemment symétrique et il existe donc une matrice orthogonale C, d’ordre r telle que la matrice K ='C, Ky CoM 'CyKy Cy soit diagonale. Pour montrer que la matrice A="CyKoC(Chap. VII) Vecteurs aléatoires gaussiens 87 satisfait aux conditions du lemme, il reste 4 montrer que les matrices Ko CoM'CoKo et MA ont méme systéme de valeurs propres non nulles. Or ceci revient ‘KS 0 4 constater que si B est une matrice symétrique, les deux matrices (9 . ) K, et (Ko, 0) B ( ) ont méme systéme de valeurs propres non nulles et & appliquer ceci 4 la matrice B = CM'‘C. Remarquons que I’on a alors : VzeR — det(1,—zK) = det(1, 2AM) = det(1,—zM A). Nous pouvons maintenant démontrer les théorémes 1 a 6. En effet le théoréme 4, qui est évident, établit I’existence de la loi N(m, A) quand A est diagonale. D’autre part on sait que si ¥ est un vecteur aléatoire de fonction caractéristique ~x(t), quelle que soit la matrice A ayant autant de colonnes que X de composantes, le vecteur aléatoire Y= AX a pour fonction caracté- ristique g(t). Soit maintenant une matrice A symétrique définie non négative et soit r son rang; d’aprés le lemme, il existe une matrice A telle que : A=A‘A, (ly Soit Y un vecteur aléatoire de loi N(0, 1,), nous venons de voir (théoréme 4) que sa fonction caractéristique est : ‘tt expy — — teR’; “ Al soit alors le vecteur aléatoire X= m+ AY, d’aprés la formule que nous avons rappelée et en tenant compte de (1) il est clair que X a pour fonction carac- téristique cxf m> - ; ‘cash teR"; ceci établit donc les théorémes 1 et 5, C’est alors un calcul élémentaire de déduire le théoréme 2 du théoréme 1 ou du théoréme 5; on déduit de méme le théoréme 3 du théoréme 1. Enfin le théoréme 6 se déduit du théoréme 5 ou l’on a alors r=n, a l’aide de la formule classique de changement de variables. Exercices : [4], ex. n° 1, 2, 3, 8, 10, Chap. I, §11.88 Notions fondamentales de statistique mathématique 3. FORMES QUADRATIQUES DE VECTEURS GAUSSIENS THEOREME 1 « Soient M une matrice symétrique d’ordre n et X un vecteur aléatoire a valeurs dans (R", Bgn), de loi N(m, A); la variable aléatoire Z='XMX a pour fonction caractéristique : x(t) = [det(1,—2i1M A)]“* exp {it 'm(1,—2itM A)! Mm} . Si les q valeurs propres non nulles de la matrice MA sont égales a s et si ‘mMAMAMnm = s‘mMAMn, la variable aléatoire want) m s z—m(m- MAM +) », suit la loi P| =, m— m, — 2s 2s, Soit A la matrice obtenue par application du lemme du paragraphe précé- dent, ona: Ss, 0 A=A‘4 ‘AMA = ve =K. 0 ‘s, Soit ¥ un vecteur aléatoire de loi N(0, 1,), on peut écrire : X =m+AY, et donc en posant : ‘v=(u,,...,u,) = ‘mMA, il vient Z ='mMm+2uY+'YKY soit encore : Z='mMm+ ¥Y (s;¥/+2u,¥)). @ jal Or on constate par un calcul élémentaire que si U est une variable aléatoire de loi N(0, 1), quels que soient le réel u et le réel s non négatif, la variable aléatoire : sU?+2uU a pour fonction caractéristique ees 2u? ? teR (1—2its) exp;j —- ———_}. 1—2its, La fonction caractéristique de Z est donc égale a : : ey 7 2 teR [ 0-2] exp{it ‘mMm—22 Y — \. @) ii i 1—2its,(Chap. VII) Vecteurs aléatoires gaussiens 89 Or d’aprés le lemme du paragraphe précédent il vient : i WteR (1—2its,) = det(1,—2itMA). =1 D’autre part y = 'u(1,-2itK)"'u ='mMA(1,-2itKy! ‘4Mm 3) its; et donc la fonction caractéristique Z s’écrit : [det (1,—2itM A)]~* exp {it 'm BMm}, ou la matrice B est égale a: 1,+2it MA(1,—2itK)"' ‘A. Tl reste maintenant a établir que : vteR B[1,-2itMA] = 1,, soit, en développant, que : vWteR — MA+MA(1,-2itK)"! ‘4(1,—2itMA) = 0. Sachant que A = A 4, il suffit de voir que : 4 = (1,—-2itK)~! ‘4(1,-2itMA), c’est-a-dire que : (1,-2itK) ‘A = ‘A(1,—2itM A), ce qui se vérifie immédiatement. Si la matrice MA posséde g valeurs propres non nulles toutes égales a s, il est facile de vérifier que : WeR (1,-2itK)"! =1,4 2itK 1—2its et d’en déduire, en reportant dans (3), que : uj 2it y i =m MAMm+ ——'m MAMAMm j=1 1—2its; —2its ou encore, en tenant compte de la condition supplémentaire de l’énoncé : WieR y uj _ ‘mMAMm i 1-2its; 1—2its *90 Notions fondamentales de statistique mathématique La fonction caractéristique de Z s’écrit finalement : { it'm (1-2its)-#? exp tit imo - want, a s 1—2its et la démonstration du théoréme est achevée. Le corollaire suivant découle immédiatement du théoréme : COROLLAIRE 1 « Si la matrice A est réguliére, la variable aléatoire 'XA~'X suit la loi ‘n ‘mA~*m 1 I=, ——.,=}.» 2p 88 2? COROLLAIRE 2 « Dans les conditions générales du théoréme | ona : E(Z) = 'm Mm+Tr(MA)». En effet d’aprés la formule (1) on a: E(Z) ='mAm+ Y, s;. = Tr(K) = Tr(MA). y s jt A titre d’application de ce qui précéde nous établirons le théoréme de Karl-Pearson dont nous avons gardé l’énoncé en termes pratiques. THEOREME 2 « Soit X une variable aléatoire prenant un nombre fini de valeurs a; (j=1,..., K) avec les probabilités respectives p;; soit v; (j= 1, ..., K) le nombre de fois ot X a pris la valeur a; au cours de n tirages indépendants de X, alors Ta loi de la variable aléatoire a v= (j—npy) imp; ‘K-11 tend, quand n— ©, vers la loi du y? a K—1 degrés de liberté, dere: >) » En effet c’est un calcul élémentaire ([4], p. 159) de constater que le vecteur(Chap. VII) Vecteurs aléatoires gaussiens 1 aléatoire ie (BPs natn) vn Vn tend en loi, lorsque n tend vers l’infini, vers un vecteur aléatoire X gaussien, centré, de matrice de covariance A dont le terme général 2, , est défini par : Ai = Pil — Pd) isl,..,K; K. Aj =~ PiPy i#j=1, On applique le théoréme 1, avec m = 0 et pour matrice M la matrice diagonale d’éléments diagonaux I/p,, en ayant vérifié que la matrice MA posséde une valeur propre nulle et K—1 valeurs propres égales a 1. Exercices : [4], ex. n* 4, 5, 7, 9, Chap. I, §1I. 4, CORRELATION ENTRE VECTEURS GAUSSIENS Dans tout ce paragraphe X et Y sont deux vecteurs aléatoires de carré sommable respectivement 4 valeurs dans R? et R‘, et Zest le vecteur aléatoire a valeurs dans R?+? défini par : Ze (). Y. On note Ay, Ay, Az les matrices de covariance respectives de X, Yet Z, et Ay y la matrice de covariance de X et Y, c’est-a-dire : Ax,y = E[(X—E(X))-'(Y-E(¥))] = E(X 'Y)—E(X)'E(Y). Ona: (* fas) CG Nae Ay « Si X et ¥ sont indépendants et gaussiens, alors Z est gaussien et on a : Ax,y = 05 PROPOSITION | réciproquement, si Z est gaussien et si Axy,y=0, X et Y sont indépendants et gaussiens. » En effet, soit 1=( ‘ ) un vecteur de R’*4, ona: <4, Z) = Cu, X)+40, YY;2 Notions fondamentales de statistique mathématique si donc X et Y sont indépendants, on a: : G2(t) = Gx(u) Py(v) a soit : al8) = exp {its Mg) +iC0, my) — 5 Uy — 3040} @) et donc Z est gaussien. Réciproquement si Z est gaussien avec Ay, y=0, z(t) est donné par (2); on a donc (1) et X et Y sont indépendants. Il est facile de démontrer, par exemple par récurrence, que cette réciproque se généralise comme suit : PROPOSITION 2 « Soient X,, Xz c’est-d-dire tels que : X,, des vecteurs aléatoires non corrélés deux a deux, Ax,,x, = 0 iAja=l, ok, x, si le vecteur X =| X, | est gaussien, les vecteurs X,,...,X, sont gaussiens Xx, et indépendants. » THEOREME 3 « Supposons que la matrice de covariance Ax de X soit non-singuliére, pour que le vecteur Z soit gaussien il faut et il suffit que les conditions suivantes soient satisfaites : a) X est gaussien, b) Ia loi de Y conditionnelle 4 X est gaussienne, de plus la moyenne conditionnelle E¥,,(Y) est une fonction linéaire de x : E¥)x(¥) = E(¥)+Ay,x* Ax" + (x E(X)) (3) et la matrice de covariance conditionnelle A}, ne dépend pas de x : Aiyx = Ay~Ay,x Ax! Axy-” (4) Condition nécessaire. Posons : C= Ay, Ax, Y’ = Y-CX, 6)(Chap. VII) Vecteurs aléatoires gaussiens 93 Comme Z est gaussien et que Z’ est une fonction linéaire de Z, Z’ est gaussien; d’autre part X et Y’ sont non corrélés puisque : E{Y''X} = E{(Y-CX) 'X)} = Ay,x—-CAy = 05 done, d’aprés la proposition 1, X et ¥’ sont indépendants et la loi conditionnelle de Y’ a X est donc la loi de Y’. Comme Y= Y’+CYX, la loi conditionnelle de Y a X est identique a la loi du vecteur aléatoire gaussien Y’+Cx et la moyenne conditionnelle de Y 4 X est donc égale a: # y(Y) = E(Y’)+Cx = E(Y)—C.E(X)+Cx, et la matrice de covariance conditionnelle de ¥ a X égale a : Ayn = Af = Ay Condition suffisante. I existe des matrices A, A et b telles que : Ekjx(¥Y) = Axt+b Ay =A. Sil’on pose Y= Y-AX—b ona: EX(Y") =0 i = A; et donc la loi conditionnelle de Y” 4 X est gaussienne et ne dépend pas de X, c’est-a-dire que les vecteurs X et Y” sont gaussiens et indépendants. D’aprés x la proposition 1 le vecteur Z” = (*) est aussi gaussien et donc finalement Z qui est une fonction linéaire de Z”, est aussi gaussien. Remarques 1, Dans un calcul pratique, pour déterminer Ia loi conditionnelle de Y 4 X, on établit d’abord la loi de Z puis on applique les formules (3) et (4). 2. La démonstration précédente montre que la régression conditionnelle (cf. Remarque de l’alinéa 9-XIV-4) de Y en ¥ est linéaire; si maintenant X et Y sont des vecteurs aléatoires non nécessairement gaussiens, de carré sommable, le vecteur aléatoire Y’ = Y-E(Y)—Ay,x Ay '(X—E(X)) est non corrélé & X et on appelle alors équation de régression linéaire la représentation de ¥ par : Y = E(Y)+Ay,y Ay '(X-E(X))+Y'. Exercices : [4], n° 6, Chap. I, §II; ex. n°* 5, 6, 7, Chap. I, §III.94 Notions fondamentales de statistique mathématique 5. ECHANTILLONS DE VECTEURS GAUSSIENS Nous adaptons d’abord 4 |’écriture matricielle les notions générales relatives aux vecteurs aléatoires. Soit M une matrice d’ordre (n,m) et de terme général m;,;, dire que M est aléatoire c’est dire que les m,,; sont des variables aléatoires et il y a correspondance bijective entre M et le vecteur aléatoire de R™ de coordonnées (m;,;); cependant il peut étre intéressant de garder I’écriture matricielle. Dans toute la suite nous ne considérerons que des matrices carrées symé- triques. Désignons par S, l’espace vectoriel des matrices carrées symétriques d’ordre r; on munit S, de la mesure de Lebesgue : u={u,jeS, du= M1 du, i r, la loi de M, admet pour densité de probabilité la fonction sur S; : 27m? (det A)" woo r(2) (#1) i r(2=2+4) Bip eo 2 + (det uy" 1-9? exp{— ; } >(Chap. VII) Vecteurs aléatoires gaussiens 95 En effet la fonction caractéristique de la matrice aléatoire Q, = X; 'X; (Gi =1,...,n) est égale a: QT) = Efe™2} TeS,. Or ona: 7,0) = (T,X, 'X, = TH(TX; 'X) = TeX, TX) = 'X, TXs5 donc d’aprés le théoréme 1-§2, il vient : o(T) = [det(1,—2iTA)]-*, et la premiére partie du théoréme est établie puisque : 9m AT) = U PAT). La deuxiéme partie résulte d’un résultat connu sous le nom d’intégrale de Siegel qui généralise la définition de la fonction I, et que nous admettrons (voir par exemple, [23], p. 116). THEOREME 2 «Soient X,,...,X,,n vecteurs aléatoires a valeurs dans (R', Bye), indépendants et de loi N(0,A), et soit C= {c,,;} une matrice orthogonale d’ordre n, les vecteurs aléatoires : 7 ist eX oN, sont gaussiens indépendants, de loi N(0, A) et l’on a : i. X'X= YY, Yo jt Il est évident que les vecteurs Y, sont gaussiens et centrés; calculons leur covariance : (KY) = Bei Cry EK Xr) Les vecteurs aléatoires X, étant indépendants, on a : E(Y, 'Y,) =A i= et d’aprés l’orthogonalité de la matrice C, il vient : Ai E(Y, 'Y)) = ini’.96 Notions fondamentales de statistique mathématique Les vecteurs aléatoires Y,, j = 1,...,n, sont donc indépendants (Proposition 2-§ 4), yy puisque le vecteur aléatoire ( ) est gaussien comme forme linéaire du vecteur xy gaussien{ : }. Xn D’autre part on a: : B= Fess ki ee EAM (Lesseus) jm jk ik ee et d’aprés les mémes propriétés d’orthogonalité de C, la démonstration est achevée. Trtorime 3 (Wishart et Bartlett) « Soient X,,..., X,,m vecteurs aléatoires a valeurs dans (R’, Bpr), indépen- dants, de loi N(m, A); on pose : x=!yx, sal ¥ x, 'x,-¥ '%. ni nist Le vecteur aléatoire X et la matrice aléatoire S sont indépendants; X suit la loi N(m, An) et nS celle du x? généralisée an —1 degrés de liberté et de matrice Sondamentale A». Il est clair que l’on peut se ramener au cas ou m est nul; on effectue alors une transformation linéaire orthogonale suivant les termes du théoréme 2, ou la matrice C a pour premiére ligne : (4 +): vn Vw — Ys S= 7 va n et la démonstration est achevée d’aprés ce méme théoréme 2 et la définition dune loi du x? généralisée. On obtient alors : X= oM= xy, Remarque Ce théoréme, pour r = 1, porte le nom de théoréme de Fisher. TutoriME 4 (Hotelling) « Avec les notations du théoréme 3, si n>r, la variable aléatoire T ="(X—m)S"'(X¥-m) suit ta oi (5, 2=*).»(Chap. VII) Vecteurs aléatoires gaussiens 97 Remarque Ce théoréme, pour r = 1, est équivalent au théoréme de Student. Désignons par W,(A, n) la loi sur S;*, du x? généralisé de matrice A et An degrés de liberté; la démonstration du théoréme s’appuie essentiellement sur Je lemme suivant : LEMME « Soient R et R' deux matrices aléatoires indépendantes de lois respectives W,(A, n), W,(A, m) ott A est réguliére et ou r est inférieur ou égal a n; alors quel que soit l’entier k, positif, on a : woe pop OE) CE) el. eR) on : 5 ; = let(R+R’)] — j=0 r( En effet notons K? la constante : pea gtr DAT (H/2) (ES Soit alors M une matrice aléatoire de loi W,(A,n), il est facile de voir que : ayy 7 : E(det My! = (det A)* Soient alors M’ et M” deux matrices aléatoires indépendantes de lois respectives W,(A,n’), W,(A,n"), la matrice M’+M’ suit la loi W,(A,n"-+n’); en identifiant E(det(M”+M’))? calculé par la formule (1), 4 sa définition relativement a la loi de M” et M’, on obtient l’identité suivante, valable pourvu que : n'+n’+2qg+1>r n'>r-1, n’>r-1, i) 5g Met x19 det yy"? [det (x + y)]"x Sr x S Ka tH +24 ge" ge xerp{- boty a ofady _ = Kr (det Ayer **0/21+8, Désignons par J |’expression que nous étudions : oo e[. det R , det(R+R’),98 Notions fondamentales de statistique mathématique il vient par définition, si r est inférieur ou égal 4 m: = (m+n)/2 7 i , (det xy" 1° 7/774* det yer" 1"? det(x + y))F x xerp{ - Sty, a hasay Appliquons l’identité précédente pour : n=m, nn” =n+2k, qg=-—k, on constate que les conditions d’existence sont satisfaites pour tout k positif puisque : n'+n"+2q+1 = mtnt+1, m>r-1, n>r—1 et il vient : Kmtn pnt ak K", Kmtnt ak On établirait de méme cette formule quand r est supérieur a m et donc, aprés simplifications, le lemme est démontré. Revenons a la démonstration du théoréme 4. On peut établir ((23], p. 126 ou [25], p. 123) que : det S 1 ~ Get[St(X—m) (X—m] 147" 7 Or montrer que T suit la loi Ae s est équivalent 4 montrer que U a pour densité : ‘n vr [ign Oe) ou encore, puisque U est bornée, que quel que soit l’entier positif k : uA yD" we lO, 1], +k (Ges) 2 2 et ceci_résulte alors du lemme précédent appliqué avec m=1, R=nS, R’ =[(X—m) J/n}(X—m) J/n], et en changeant n en n—1. E[U*] =

Barra J - R, Linnik Yu V - Notions Fondamentales de Statistique Mathematique-Dunod (1971)

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Barra J - R, Linnik Yu V - Notions Fondamentales de Statistique Mathematique-Dunod (1971)

Transféré par

Droits d'auteur :

Formats disponibles

Vous aimerez peut-être aussi