Poly

Introduction lconomtrie
Le modle de rgression linaire

Support de cours destin aux tudiants de licence et master shs/miashs/mase
version du 29/10/2013, 20:34
Universit Charles-de-Gaulle Lille 3

UFR MSES
O. Torrs
Ce document contient des animations ; pour les visualiser, il est ncessaire dutiliser Adobe Reader
Introduction : prsentation du cours

Ce cours est une introduction aux mthodes et modles de base de lconomtrie. Cette dernire sentendra ici comme une branche de la statistique mathmatique (ou infrentielle) dans laquelle 1. les modles statistiques utiliss sont constitus partir dune adaptation dun modle conomique thorique ou peuvent avoir une interprtation qui relve du raisonnement conomique 2. les donnes utilises pour linfrence statistique proviennent de lobservation du fonctionnement de lconomie On peut rsumer la dnition propose de lconomtrie en assimilant cette dernire la statistique applique des situations pouvant tre dcrites par la science conomique. Sur le plan de la statistique, cette dnition amne plusieurs remarques. 1. Du fait de cette connexion avec la science conomique, les variables pour lesquelles les modles statistiques 1 de lconomtrie (quon appellera simplement modles conomtriques par la suite) sont construits sont galement des variables que lon retrouve dans les modles conomiques. Ces derniers dcrivent typiquement les relations qui existent entre plusieurs variables conomiques. Par consquent, les modles conomtriques sont destins reprsenter des relations qui sont supposes exister entre les variables tout en permettant de les interprter. Ces modles mettront ainsi en vidence des paramtres qui expriment des relations entre variables et en caractrisent la forme. 2. Linfrence statistique qui sera mene dans le contexte du modle conomtrique portera essentiellement sur ces paramtres ; ceux-ci seront donc les paramtres dintrt (voir les points 6 et 7 la page 236) du modle conomtrique. 3. De par la nature mme des modles conomtriques (voir le point 1 ci-dessus), les mthodes dinfrence qui seront mises en uvre pour tudier ces paramtres seront quasi-exclusivement multivaries. Ce cours peut tre considr comme un cours de statistique, et dans lequel on prsentera des modles et des mthodes dinfrence de base couramment utiliss en conomtrie. Bien que le contenu de ce cours soit orient par la pratique statistique dans le domaine des modles conomiques, les mthodes statistiques qui seront prsentes peuvent bien entendu sappliquer des contextes autres (les premires applications du modle de base qui sera prsent dans le cours sont dailleurs apparues dans des domaines bien distincts de lconomie).
1. On rappelle quun modle statistique et donc un modle conomtrique est un ensemble dhypothses probabilitstes sous lesquelles il sera notamment possible de driver les proprits des diverses mthodes statistiques utilises dans le cadre de ce modle. Voir page 242.
4 Bien que cette question aille au-del du contenu du cours, on peut se demander ce quapporte lconomtrie par rapport une analyse conomique thorique. Les modles thoriques proposent une description du fonctionnement de lconomie (ou de certains de ses marchs) au moyen dun ensemble de relations entre variables conomiques. Une fois cette description propose, plusieurs types questions peuvent se poser. Par exemple : 1. Les relations tablies par le modle thorique existent-elles vraiment ? 2. En supposant que ce soit le cas, quelles sont les proprits de ces relations ? Si deux variables X et Y sont mises en relation, peut-on supposer que cette dernire est linaire ? non linaire ? Les variables X et Y varient-elles ensemble dans le mme sens ou en sens oppos ? 3. En supposant que le modle thorique propose une relation entre deux variables X et Y exprime au moyen dune fonction appartenant une classe donne (p. ex. fonctions linaires, log-linaires, polynmes, etc), la classe propose est-elle la bonne ? 4. En supposant que ce soit le cas, autrement dit sil existe un lment dans la classe de fonctions qui permet dexprimer la relation existant rellement entre X et Y , quel est cet lment ? Si par exemple la relation est linaire (la courbe reprsentant la fonction reliant une variable lautre est une droite) quelle est la valeur de chacun des coecients exprimant cette relation ? Les questions ci-dessus sont de deux natures : Certaines (la premire et la troisime) posent celle de la validit du modle conomique thorique, cest dire sa capacit rendre compte correctement du fonctionnement rel de lconomie. Les autres questions traitent de la possibilit dutiliser un modle thorique pour mettre sur la nature des relations entre variables conomiques des noncs de type qualitatif (par exemple : laugmentation dun taux dintrt entrane la baisse du taux dination) ou quantitatif (par exemple : une augmentation d1 point du taux de croissance du PIB, permet, sans changer le niveau de la dette de ltat, de diminuer de 10% le niveau des impts directs perus par ltat au cours des 2 prochaines annes). Les rponses ces questions sont dterminantes. On comprend aisment quil est intressant de savoir si un modle conomique thorique parvient rendre compte correctement de la ralit dune relation conomique. Si ce nest pas le cas, on peut le considrer comme faux, et son utilisation ne contribue pas une meilleure comprhension des mcanismes conomiques. En supposant quun modle soit considr comme adquat, la possibilit de lutiliser pour parvenir des noncs quantitatifs non-triviaux est dun intrt majeur pour les conomistes (possibilit deectuer des prvisions, conduite de politiques conomiques, etc ). Or, parmi les modles thoriques conomiques formuls, peu (aucun ?) orent une telle possibilit. Par ailleurs, ces modles eux-mmes ne proposent aucune mthode permettant de savoir sils sont justes ou faux. Lutilisation des diverses mthodes dinfrence de lconomtrie complte la formulation dun modle thorique et vise apporter des rponses des questions du type de celles mentionnes ci-dessus, en fournissant des estimations des paramtres des diverses relations apparaissant dans les modles conomiques, en permettant de tester ladquation dune formulation propose par un modle thorique avec la ralit. De plus, parce que ces estimations et tests sont eectus en utilisant les mthodes de linfrence statistique, ils sont accompagns dune valuation des risques
5 qui leur sont associs. 2 Bibliographie Cours de statistique mathmatique, Alain Monfort, Economica (coll. conomie et statistiques avances), 3e dition, 1997 Statistique et conomtrie. Du modle linaire . . . aux modles non-linaires, Xavier Guyon, Ellipses (coll. Universits, mathmatiques appliques), 2001 Advanced Econometrics, Takeshi Amemiya, Harvard University Press, 1985 Le cours fait videmment appel des notions et rsultats de la thorie des probabilits. Il sera utile de se rfrer aux ouvrages suivants : Calcul des probabilits, Dominique Foata et Aim Fuchs, Dunod, 2003 (2e dition) Cours de probabilits, Alain Montfort, Economica, 1996 (3e dition) Dans ce document, il sera beaucoup question de rgression linaire. NE PAS lire la page Wikipedia consacre ce sujet. 3 propos de la lecture de ce document 1. Ce document est un support pour le cours oert dans le cursus MASE de Lille 3, et est donc conu et rdig pour un public assistant aux cours (mme si cela nempche quiconque voulant lutiliser dans un autre cadre de le faire). Ce support est donc destin fournir un accompagnement (complments, prsentations alternatives de rsultats, exemples, etc) au cours en prsentiel, et ce titre, toute personne y assistant et ayant lintention de faire du mieux quelle peut (notes, comprhension, appropriation des rsultats, etc) ne peut viter sa lecture intgrale. Le rle de ce support sera dautant plus ecace que la lecture dune section interviendra une premire fois avant quelle soit aborde en prsentiel, puis une seconde fois ensuite. En rsum : lire par morceaux/sections dans lordre avant le cours. . . . . . et aprs le cours
page:animation
2. Ce document comporte un certain nombre de graphiques anims (constitus de plusieurs images) identiables par la barre de contrle situe sous le graphique, semblable ceci : Les carrs de cette barre sont des boutons permettant de contrler lanimation en cliquant dessus. Les symboles reprsents sur ces boutons sont ceux couramment utiliss dans tous les dispositifs multimedia. Dans lordre de la barre, on retrouve les contrles suivants : retour la premire image, retour limage prcdente, lecture inverse, lecture normale, aller limage suivante, aller la dernire image, diminuer la vitesse de lecture, revenir la vitesse
2. De manire informelle, le risque dun outil statistique dont le but est dobtenir de linformation sur les caractristiques du processus ayant gnr les observations dsigne le risque dobtenir une information incorrecte ou trop loigne des vritables caractristiques de ce processus. 3. Malgr les bonnes intentions des auteurs de cette page, elle est trs confuse et ne constitue ni une bonne introduction grand public au sujet, ni un article pdagogique pouvant appuyer un enseignement.
6 de lecture normale, augmenter la vitesse de lecture. Pour visualiser les animations, il est indispensable dutiliser le lecteur de chiers PDF Adobe Reader, tlchargeable gratuitement partir du site dAdobe. 4 Pour des raisons de scurit notamment, il est vivement conseill dutiliser la version la plus rcente de cet outil. Les autres lecteurs de chiers PDF ne vous permettront pas danimer les graphiques. Si vous navez pas la possibilit de vous procurer ou dinstaller Adobe Reader, un lien (http) vers un site achant une animation pourra vous tre propos.
4. http://get.adobe.com/fr/reader
Table des matires

1 Le modle de rgression linaire simple : prsentation 1.1 1.2 1.3 11
Le contexte et les objectifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Heuristique de la construction du modle . . . . . . . . . . . . . . . . . . . . . . . . 12 Dnition et interprtations du modle de rgression linaire simple . . . . . . . . . 14 1.3.1 1.3.2 Dnition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 Interprtations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 21
2 Le modle de rgression linaire simple : estimation des paramtres 2.1 2.2 2.3 2.4
Approche intuitive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 Approche thorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 Proprits des estimateurs des moindres carrs ordinaires . . . . . . . . . . . . . . . 37 Mesure de la qualit de lestimation par moindres carrs ordinaires . . . . . . . . . . 38 2.4.1 2.4.2 Valeurs ajustes et rsidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 Proprits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 Estimation de la variance des termes derreur . . . . . . . . . . . . . . . . . . 46 Estimation de la variance des estimateurs des moindres carrs ordinaires . . . 47 49
2.5
Estimation des variances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2.5.1 2.5.2
3 Le modle de rgression linaire simple : tests et rgions de conance 3.1 3.1.1 3.1.2 3.2 3.2.1 3.2.2 3.2.3 3.2.4 3.2.5 3.3
Contexte : le modle gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 Dnition du modle gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 Proprits des estimateurs dans le modle gaussien . . . . . . . . . . . . . . . 51 Test de signicativit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
Test dune hypothse sur 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 Approche intuitive . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 Approche thorique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 Test dune valeur quelconque de 1 . . . . . . . . . . . . . . . . . . . . . . . . 58 Test dune ingalit sur 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
Tests dhypothses portant sur 0 et 1 . . . . . . . . . . . . . . . . . . . . . . . . . 62 7
8 3.3.1
TABLE DES MATIRES Test sur une combinaison linaire de 0 et de 1 . . . . . . . . . . . . . . . . 62 3.3.1.1 3.3.1.2 3.3.2 3.3.2.1 3.3.2.2 Cas gnral : test sur la valeur de a0 0 + a1 1 . . . . . . . . . . . . 62 Un cas particulier important : test sur E(Yi ) . . . . . . . . . . . . . 66 Prsentation du problme et de lapproche . . . . . . . . . . . . . . 67 Test de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 3.3.2.2.1 3.3.2.2.2 3.3.2.2.3 3.3.2.3 3.4 3.4.1 3.4.2 3.5 3.5.1 3.5.2 3.5.3 3.5.4 La forme du test . . . . . . . . . . . . . . . . . . . . . . . . 68 La maximisation de T (a) . . . . . . . . . . . . . . . . . . . 68 Le test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
Test dune hypothse jointe sur 0 et 1 . . . . . . . . . . . . . . . . . . . . . 67
Gnralisations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
Les p-values . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 Dnition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 Interprtation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75 Intervalle de conance pour 1 . . . . . . . . . . . . . . . . . . . . . . . . . . 79 Intervalle de conance pour 0 . . . . . . . . . . . . . . . . . . . . . . . . . . 80 Intervalle de conance pour une combinaison linaire de 0 et de 1 . . . . . 80 Rgion de conance pour (0 , 1 ) . . . . . . . . . . . . . . . . . . . . . . . . . 81 83
Rgions de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4 Modle de rgression linaire simple : prvision 4.1 4.2 4.3
Prsentation du problme et mthode de rsolution . . . . . . . . . . . . . . . . . . . 83 Le problme de prvision et sa solution . . . . . . . . . . . . . . . . . . . . . . . . . . 85 Prvision dans le modle de rgression linaire simple . . . . . . . . . . . . . . . . . 86 87
5 Le modle de rgression linaire standard : dnition et estimation 5.1 5.2 5.3
Dnition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87 Interprtation des paramtres du modle . . . . . . . . . . . . . . . . . . . . . . . . . 93 Estimation des paramtres 0 , . . . , p . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 5.3.1 5.3.2 5.3.3 La mthode des moindres carrs . . . . . . . . . . . . . . . . . . . . . . . . . 96 Interprtation gomtrique de lestimation par moindres carrs . . . . . . . . 98 Proprits de lestimateur des moindres carrs . . . . . . . . . . . . . . . . . 100 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
5.4 5.5
Valeurs ajustes. Rsidus 5.5.1
Complments sur lestimation de . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 Le thorme de Frisch-Waugh . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 5.5.1.1 5.5.1.2 5.5.1.3 5.5.1.4 Motivation du rsultat : MCO avec variables exognes orthogonales 111 Le rsultat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115 Une application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 Lestimateur MCO maximise la corrlation empirique entre variables 122
TABLE DES MATIRES 5.5.2 5.6
Estimation de sous contraintes linaires . . . . . . . . . . . . . . . . . . . . 127 ) . . . . . . . . . . . . . . . . . . . . . . . . . 132 Estimation de la variance 2 et de V( 135
6 Le modle de rgression linaire standard : tests et rgions de conance 6.1 6.1.1 6.1.2 6.1.3
Tests dhypothses linaires sur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 Le problme de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 Le test de Fisher : drivation du test et dnition . . . . . . . . . . . . . . . . 138 Le test de Fisher pour des problmes de test dun intrt particulier . . . . . 141 6.1.3.1 6.1.3.2 6.1.3.3 6.1.4 6.1.4.1 6.1.4.2 6.1.4.3 6.1.4.4 6.1.5 6.1.5.1 6.1.5.2 6.1.5.3 6.1.5.4 Test de nullit simultane de q paramtres . . . . . . . . . . . . . . 141 Test de signicativit dun paramtre . . . . . . . . . . . . . . . . . 142 Test de signicativit globale des paramtres . . . . . . . . . . . . . 143 Invariance par rapport aux reparamtrisations . . . . . . . . . . . . 146 Invariance par rapport des translations . . . . . . . . . . . . . . . 148 Transformation par projection . . . . . . . . . . . . . . . . . . . . . 150 Illustration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 . . . 156 Expression fonde sur la distance entre les estimateurs . . . . . . . . 156 Expression fonde sur la distance entre les valeurs ajustes . . . . . 157 Expression fonde sur la distance entre les rsidus . . . . . . . . . . 157 Expression fonde sur le multiplicateur de Lagrange . . . . . . . . . 158
Illustration de la proprit dinvariance du test de Fisher . . . . . . . . . . . 146
Autres expressions de la statistique de Fisher et interprtations du test
6.2
Rgions de conance pour . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 163
7 Proprits asymptotiques des moindres carrs 7.1 7.2 Introduction . . . . . . . . . . . . . . . . . . . . . Proprits asymptotiques de . . . . . . . . . 7.2.1 Convergence de . 7.2.2 Normalit asymtptotique de 7.2.2.1 7.2.2.2 7.3 7.3.1 7.3.2 7.4
. . . . . . . . . . . . . . . . . . . . . . . . . 163 . . . . . . . . . . . . . . . . . . . . . . . . . 164 . . . . . . . . . . . . . . . . . . . . . . . . . 164 . . . . . . . . . . . . . . . . . . . . . . . . . 166
Convergence en loi de suites alatoires : rsultats de base . . . . . . 166 . . . . . . . . . . . . . . . . . . . . . . . . . 170 Convergence en loi de
Proprits asymptotiques de 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 Convergence de 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 Loi asymptotique de 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176
Utilisation des proprits asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . 177 179
8 Modles avec htroscdasticit ou corrlation 8.1 8.2
Introduction et dnition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179 Proprits des estimateurs des moindres carrs ordinaires . . . . . . . . . . . . . . . 181
10 8.3
TABLE DES MATIRES Moindres carrs gnraliss (MCG) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 8.3.1 8.3.2 Estimation de par MCG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 Utilisations de lestimateur MCG de . . . . . . . . . . . . . . . . . . . . . . 189 8.3.2.1 8.3.2.2 Valeurs ajustes, rsidus. Estimation de . . . . . . . . . . . . . . . 189 Tests dhypothses . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189 191
9 Complments 9.1 9.1.1 9.1.2 9.1.3
Lois normales et lois dduites de la loi normale . . . . . . . . . . . . . . . . . . . . . 191 Lois normales univaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 Lois normales multivaries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196 Lois drives de la loi normale . . . . . . . . . . . . . . . . . . . . . . . . . . 204 9.1.3.1 9.1.3.2 9.1.3.3 La loi du 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204 La loi de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 La loi de Student (et loi de Cauchy) . . . . . . . . . . . . . . . . . . 207
9.2 9.3
Projection orthogonale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 Normes matricielles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222 9.3.1 9.3.2 Dnition et proprits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222 Norme subordonne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227 Dnition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231 Cas particuliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 231 235
9.4
Sur les drives de fonctions matricielles . . . . . . . . . . . . . . . . . . . . . . . . . 231 9.4.1 9.4.2
10 Rappels sur la dmarche de linfrence statistique
10.1 Objectif dune dmarche infrentielle et notions de base . . . . . . . . . . . . . . . . 235 10.2 Prsentation du principe de linfrence statistique . . . . . . . . . . . . . . . . . . . . 239 10.3 Les problmes dinfrence usuels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241 10.3.1 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242 10.3.2 Test dhypothse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245 10.3.2.1 Problme de test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245 10.3.2.2 Test statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 245 10.3.2.3 Calcul des risques . . . . . . . . . . . . . . . . . . . . . . . . . . . . 246 10.3.2.4 Comparaison de tests. Choix dun test . . . . . . . . . . . . . . . . . 247 10.3.3 Estimation par rgion de conance . . . . . . . . . . . . . . . . . . . . . . . . 251
Chapitre 1
ch:mrls_interpr
Le modle de rgression linaire simple : prsentation

Dans ce chapitre, on tudie un des modles les plus simples destins modliser et tudier la dpendance entre deux phnomnes dont la mesure seectue au moyen de variables notes X et Y.
sec:mr_contexte
1.1
Le contexte et les objectifs
On suppose que deux variables dintrt X et Y sont ventuellement lies lune lautre (cest-dire non indpendantes lune de lautre). De plus on suppose que la relation ventuelle entre ces variables est oriente : la variable X explique la variable Y . Dans le contexte dun modle conomique, cette hypothse est courante. En eet, la plupart des modles conomiques distinguent les variables endognes des variables exognes : le modle dcrit comment le niveau des premires est dtermin en fonction du niveau des secondes. Notons donc, ainsi que lexprime leur qualicatif, que le modle conomique ne dit rien sur la faon dont se dtermine les niveaux des variables exognes. On verra comment prendre en compte cette distinction faite au sein des variables dans le contexte dun modle conomtrique. Une faon simple de reprsenter la dpendance de Y envers X consiste poser une relation linaire entre les variables : Y = aX + b. Dans une reprsentation de ce type, la caractrisation de la dpendance de la variable Y envers la variable X, cest dire la faon dont les variations de X provoquent des variations de Y, est entirement capture par la valeur du coecient a. Il sagit de proposer un modle statistique qui permette le mme type de modlisation de cette dpendance et qui permette de ltudier au moyen de techniques dinfrence statistique appropries. Le modle le plus simple est le modle de rgression linaire. Dans un tel modle, la relation entre les variables X et Y est reprsente et caractrise de manire simple, au moyen dun petit nombre dlments qui constituent les paramtres du modle (semblables a et b dans lgalit prcdente). Les mthodes dinfrence dveloppes dans le contexte de ce modle ont pour but dapproximer ces paramtres partir dobservations des variables X et Y. 11
12
sec:mr_construction
CHAPITRE 1. LE MRLS : PRSENTATION
1.2
Heuristique de la construction du modle
Soient X et Y deux variables dcrivant chacune un phnomne dans une population. On slectionne, par un procd suppos alatoire 1 , n individus de cette population, et pour chacun on introduit le couple de variables mesurant les deux phnomnes tudis : pour le ie individu, on notera ce couple (Xi , Yi ). En utilisant la convention de notation qui distingue les variables de leurs ralisations, on notera (xi , yi ) le couple des valeurs observes de Xi et de Yi . On souhaite reprendre lorientation donne la relation entre les variables (voir la section prcdente). Pour chaque individu i, la variable Xi est suppose dterminer le niveau de la variable Yi . On appelle alors X1 , . . . , Xn variables explicatives et Y1 , . . . , Yn variables expliques ou variables dpendantes. Cette distinction sur la nature des variables est en gnral introduite dans la construction du modle statistique. Dans dans la version la plus simple du modle de rgression linaire, on suppose que les variables X1 , . . . , Xn sont non-alatoires. Du point de vue statistique, cela revient dire quau sein du modle conomtrique, les variables X1 , . . . , Xn sont xes dans le sens o les valeurs prises par ces variables ne sont pas distribues selon une vritable loi de probabilit. 2 Elles ne peuvent par consquent qutre simplement gales leurs observations x1 , . . . , xn . Avec une telle hypothse, les variables X1 , . . . , Xn sont dtermines par leurs observations et aucun autre comportement possible pour ces variables nest admis. En dehors de ce qui est directement issu de lobservation, le modle ne permet de dterminer aucune proprit particulire pour les variables X1 , . . . , Xn . On retrouve en cela la notion de variable exogne qui existe dans un modle conomique dsignant une variable dont la valeur, ou les proprits, sont dtermines en dehors du modle. 3 Dans la suite, on traduira cette hypothse en utilisant indiremment dans la notation les observations x1 , . . . , xn de ces variables ou bien les variables X1 , . . . , Xn elles-mmes. Avec cette hypothse, si on veut un modle statistique qui reprenne lide de base de la dpendance linaire de Y envers X, le modle pourrait par exemple stipuler quil existe des nombres 0 et 1 tels que la relation Yi = 0 + 1 xi (1.1) est vraie pour tout individu i. Les nombres 0 et 1 sont donc les paramtres du modle qui permettent de caractriser la dpendance qui existe pour chaque individu i entre xi et Yi . Lhypothse exprime par la formulation (1.1) conduit immdiatement un certain nombre de commentaires. Puisque le terme de droite de lgalit Yi = 0 + 1 xi est xe, il est clair que celui de gauche doit ltre aussi. En suivant le mme raisonnement que celui que nous avons tenu pour les variables
1. Contrairement ce qui a t prsent dans les rappels du chapitre 10, on na pas besoin ici de supposer que la slection se fait par chantillonnage alatoire simple. 2. On peut toujours considrer un nombre rel z comme une variable alatoire Z en lui attribuant comme loi de probabilit P(Z = z ) = 1. Dans ce cas, la loi de Z nest pas une vritable loi de probabilit. On dit plutt que Z a une loi de probabilit dgnre. Une variable alatoire a une loi de probabilit dgnre sil existe un nombre rel r tel que la probabilit pour que la variable soit gale r vaut 1. Du point de vue de leurs proprits statistiques, de telles variables peuvent tre considres comme constantes. En ce sens, ce ne sont pas de vritables variables alatoires. 3. Il est possible, en faisant appel la notion probabiliste de conditionnement, dcrire un modle statistique dans lequel les variables X1 , . . . , Xn sont des variables alatoires, mais dans lequel lutilisation des mthodes dinfrence conduira des rsultats ayant la mme interprtation et le mme usage que ceux que nous driverons dans le contexte plus simple utilis ici.
eq:rel_incomp
1.2. HEURISTIQUE DE LA CONSTRUCTION DU MODLE
13
X1 , . . . , Xn , les variables Y1 , . . . , Yn doivent dans ce cas avoir une distribution dgnre et ne peuvent donc tre gales autre chose que leurs observations. Le modle devrait alors stipuler quil existe des nombres 0 et 1 tels que yi = 0 + 1 xi , i = 1, . . . , n. Lobjectif consistant trouver des approximations des paramtres 0 et 1 peut tre atteint dune manire trs simple, puisquil sut en eet dutiliser (par exemple) les 2 premires observations (x1 , y1 ) et (x2 , y2 ) pour dduire la valeur de 0 et de 1 . Cependant, dans quasiment toutes les situations rencontres en pratique, on constaterait que et , ainsi obtenues pour les deux paramtres les approximations, quon peut par exemple noter 0 1 + x pour tout i = 1, . . . , n. De manire plus gnrale, ne permettent pas davoir lgalit yi = 0 1 i il nexiste quasiment jamais de nombres 0 et 1 tels que yi = 0 + 1 xi , i = 1, . . . , n. Un exemple simple permet den illustrer la raison. Considrons le cas dune tude statistique dans laquelle les n individus sont des employs dune chane de supermarchs occupant des postes similaires. Pour un individu i, Xi dsigne lanciennet dans lemploi (exprime en mois) et Yi le salaire mensuel de cet individu. Si on adopte lhypothse que pour tout individu i on a yi = 0 +1 xi , alors tous les individus ayant le mme nombre de mois danciennet doivent ncessairement avoir le exactement le mme salaire mensuel. Or dans la ralit, cela nest jamais le cas. Si anciennet gale, des individus peuvent avoir des salaires qui dirent, cela revient dire que dautres facteurs que lanciennet peuvent avoir un eet dans la dtermination du niveau du salaire. Dans ce sens, les n relations exprimes par (1.1) sont incompltes (et ne peuvent reprsenter le phnomne observ entre lanciennet et le salaire pour tous les individus).
Dune manire gnrale, mme si on souhaite modliser une relation de forme linaire entre une variable explicative et une variable explique en retenant une formulation semblable (1.1), il faut incorporer dans la modlisation retenue le fait que le niveau de la variable explique nest pas exclusivement dtermin par celui de la variable explicative. Une faon simple de complter chacune de ces relations consiste introduire des termes nots 1 , . . . , n de manire que Yi = 0 + 1 xi + i , i = 1, . . . , n (1.2)
eq:rel_base
page:interpr it:interpr
Lintroduction de ces termes donne lieu linterprtation suivante. Pour tout individu i, le niveau de la variable explique Yi se dcompose additivement en deux termes : 1. Le terme 0 + 1 xi qui traduit lide de dpart dune relation linaire dans laquelle la variable exogne explique la variable endogne ; dans la dcomposition de Yi , ce terme est donc la part du niveau de Yi qui est dtermine par la valeur xi de la variable explicative Xi . 2. Le terme i qui traduit le fait que la valeur de Xi ne dtermine pas elle seule le niveau de la variable dpendante Yi ; dans la dcomposition de Yi , ce terme est donc la part du niveau de Yi qui est dtermine par dautres facteurs que la variable explicative Xi . Avec la formulation (1.2) et les interprtations donnes ci-dessus, on a traduit lide dune relation linaire dans laquelle une variable en dtermine une autre, tout en laissant la possibilit des facteurs autres que la variable explicative davoir un eet sur le niveau de la variable explique. Il reste cependant trouver un moyen de formuler lide que la variable explicative joue un rle prpondrant dans la dtermination de la variable explique, et que les autres facteurs dont on reconnat lexistence nont quun impact ngligeable sur cette dernire, et dont lintrt reste accessoire.
page:eps
14
Le fait que lon ne sintresse pas limpact quont ces facteurs dans la dtermination du niveau de la variable explique est traduit par le fait que la faon dont cet impact sexerce nest pas modlis, contrairement ce qui est fait pour dcrire le rle de la variable explicative. Plus prcisment, dans une relation telle que (1.2), on ne cherche ni identier ce que sont ces autres facteurs, ni mesurer chacun dentre eux au moyen de variables. De plus, la manire dont Yi dpendrait de ces autres facteurs nest pas explicitement modlise. Cela est contraster avec le statut de la variable explicative, dont (1) on donne la dnition et la signication en tant que variable, et (2) dont on stipule la faon dont elle peut aecter le niveau de la variable explique (leet de Xi sur Yi est traduit par le terme 0 + 1 Xi ). Le fait que limpact de ces facteurs sur la variable dpendante puisse tre nglig est traduit par une nouvelle hypothse. On supposera par la suite que pour tout individu i, en observant que Xi = xi on peut sattendre ce que la valeur de la variable explique Yi soit 0 + 1 xi . Cette hypothse signie que les facteurs autres que la variable explicative ne contribuent en rien la valeur laquelle on sattend pour la variable explique. Si on reprend lexemple de la relation entre lanciennet dans lemploi et le salaire, ce type dhypothse revient supposer que si deux individus ont une anciennet identique, note x, alors on peut sattendre ce leurs salaires soient gaux, bien que ceux qui seront observs ne le soient pas ncessairement. La valeur commune attendue pour ces deux salaires est 0 + 1 x. Il reste donc formuler mathmatiquement au sein dun modle statistique formellement dni, et qui servira de cadre linfrence mene sur les paramtres 0 et 1 , lensemble des hypothses et interprtations formules ci-dessus.
1.3
1.3.1
Dnition et interprtations du modle de rgression linaire simple

Dnition
sec:mreg_def
def:mrls1v
Dnition 1.1 Soient (X1 , Y1 ), . . . , (Xn , Yn ) n couples de variables alatoires dont les observations sont notes (x1 , y1 ), . . . , (xn , yn ). Le modle de rgression linaire simple de Y sur X est un modle statistique dans lequel les conditions suivantes sont satisfaites C1. Les variables X1 , . . . , Xn ont une loi dgnre : P(X1 = x1 , . . . , Xn = xn ) = 1 C2. Pour tout i = 1, . . . , n on peut crire lesprance de Yi comme une fonction ane de xi : 0 R, 1 R, E(Yi ) = 0 + 1 xi , i = 1, . . . , n
rem:vraie_loi
Remarque 1.1 Le modle de rgression linaire simple consiste en lensemble des lois de probabilit possibles pour (X1 , Y1 ), . . . , (Xn , Yn ) telles que les conditions exprimes par les conditions C1,
C3. Pour toute paire (i, j ) dlments de {1, . . . , n}, il existe un rel strictement positif tel que 0 si i = j cov(Yi , Yj ) = 2 si i = j
1.3. DFINITION ET INTERPRTATIONS
15
C2 et C3 sont vries. Pour dvelopper des mthodes dinfrence dans le contexte de ce modle, on supposera que celui-ci est bien spci, cest--dire que la loi de probabilit dont est issu le 2n-uplet (X1 , Y1 ), . . . , (Xn , Yn ) de variables alatoires est bien lune de lois du modle. Cette loi de probabilit est dsigne par le terme vraie loi, dans le sens o parmi toutes les lois constituant le modle, cest celle qui dcrit la distribution de probabilit des variables alatoires dont on observera les ralisations. Par ailleurs, pour nimporte quelle loi de probabilit du modle, la condition C2 implique que connaissant xi , on peut crire lesprance de Yi comme une fonction ane de xi . Sous lhypothse que le modle est bien spci, ceci est aussi vrai en particulier pour la vraie loi. Dans ce cas, les nombres qui permettent dcrire E(Yi ) comme une fonction ane de xi sont nots 0 et 1 . On appelle ces nombres vraies valeurs des paramtres 0 et 1 . Ces vraies valeurs sont inconnues et le modle dni ci-dessus constitue le cadre dans lequel seront dveloppes des mthodes dinfrence statistique permettant destimer ces vraies valeurs. R La dnition ci-dessus admet une dnition quivalente, qui formalise la relation (1.2) ainsi que les remarques quelle a suscites. Proprit 1.1 Soient (X1 , Y1 ), ..., (Xn , Yn ) n couples de variables alatoires dont les observations sont (x1 , y1 ), ..., (xn , yn ). On dnit les n variables alatoires 1 , . . . , n par i Yi E(Yi ), i = 1, . . . , n. Les conditions C1 C3 sont satisfaites si et seulement si les conditions suivantes le sont aussi C 1. La condition C1 est satisfaite C 3. ]0, +[, C 2. 0 R, 1 R, Yi = 0 + 1 xi + i , i = 1, . . . , n
page:cov
La preuve de cette proposition est obtenue partir de la dnition des variables 1 , . . . , n et de lgalit suivante, obtenue en supposant C1 ou C 1 vraie : cov(i , j ) = cov(Yi , Yj ) (1.3)
eq:cov
0 si i = j cov(i , j ) = 2 si i = j
i, j = 1, . . . , n
Il est donc possible de dnir indiremment le modle de rgression linaire simple par les conditions C1 C3 ou par les conditions C 1 C 3. Ces dernires sont plus frquemment utilises.
sec:mrag_interpr
1.3.2
Interprtations
La condition C1 formalise le fait que les variables X1 , . . . , Xn sont les variables explicatives dans la relation entre X et Y, et sont considres comme xes (voir les commentaires faits ce propos dans la section prcdente) Dans la condition C2 lesprance de Yi peut sinterprter comme la valeur attendue de Yi . Par consquent, lgalit exprime dans C2 indique que pour chaque individu i, en observant le niveau xi de sa variable explicative, on peut dduire la valeur attendue de sa variable dpendante, donne
16
par 0 + 1 xi . Cette valeur attendue de Yi est donc une fonction linaire de la variable explicative. Il est important de noter que les deux nombres qui dnissent cette relation sont les mmes pour tous les individus. C3 est une condition qui nest pas fondamentale dans la modlisation : elle ne capture aucun des lments qui ont motiv la construction du modle, dcrits dans la section prcdente. Cette condition permet, tout en prservant les caractristiques essentielles de ce modle, den proposer une version trs simple sur le plan statistique. De ce point de vue, la condition cov(Yi , Yj ) = 0 si i = j indique que les variables expliques relatives deux individus distincts sont des variables alatoires non-corrles. Labsence de corrlation entre deux variables quivaut labsence de toute dpendance de forme linaire entre ces variables. Par ailleurs, la condition cov(Yi , Yi ) = 2 i = 1, . . . , n, qui quivaut videmment V(Yi ) = 2 i = 1, . . . , n, impose aux variances des n variables alatoires Y1 , . . . , Yn dtre identiques. 4 Cette proprit est appele homoscdasticit. Les termes 1 , . . . , n ont la mme interprtation que celle qui en a t donne dans la section prcdente (voir le point 2 la page 13). En utilisant la dnition de ces termes et la condition C1, on voit que E(i ) = 0, i = 1, . . . , n, ce qui traduit les remarques qui ont t faites prcdemment. Dans la condition C 2 on reconnat que des facteurs distincts de la variable explicative Xi peuvent aecter le niveau de la variable dpendante Yi . Ces facteurs sont mesurs par la variable i . Cependant, on sattend ce que, compte tenu du niveau de la variable explicative, ces facteurs ne jouent aucun rle dans la dtermination de Yi : la valeur attendue de i est nulle, cest--dire E(i ) = 0. On appelle la variable alatoire i terme derreur associ (xi , Yi ) ; on notera ei la ralisation de cette variable. Cette terminologie traduit le fait que dans le modle de rgression linaire simple, si connaissant xi on essaie de prvoir la valeur de Yi , la prvision serait E(Yi ), cest--dire 0 + 1 xi . 5 Par consquent, lerreur de prvision qui est faite est Yi E(Yi ), cest--dire i . Ce terme apparat donc ici comme un terme derreur. On note alors que la proprit E(i ) = 0 quivaut ce quon sattende ne pas faire derreur de prvision. Il est noter que contrairement aux variables explicatives et expliques, on ne dispose pas des observations de 1 , . . . , n . Comme on la dj mentionn dans la section prcdente, les termes derreur sont destins capturer leet de tous les facteurs qui en dehors de la variable explicative, peuvent avoir un impact sur le niveau de la variable dpendante. Cependant, la modlisation retenue nidentie pas explicitement ces facteurs et on nintroduit pas de variables bien dnies, et bien identies dans la pratique, permettant de les mesurer. La variable i nest pas dnie par autre chose que i = Yi E(Yi ). Compte tenu de cela et de la condition C2 qui impose E(Yi ) = 0 + 1 xi , on voit que pour connatre la valeur ei prise par i , il ny a dautre moyen que dutiliser la formule ei = yi 0 1 xi . Or le membre de droite ne peut tre connu puisque les vraies valeurs 0 et 1 des paramtres sont inconnues. Supposons momentanment que nous observons les ralisations de 1 , . . . , n . Puisque par dnition, on a ei = yi 0 1 xi pour tout individu i et quon observe videmment xi et yi pour tout i, on pourrait par simple rsolution dun systme linaire de n quations (une pour chaque individu)
4. De plus, cette mme condition impose ces variances dexister. Mme si ce problme ne sera pas abord par la suite, lhypothse dexistence des variances a une importance dans le traitement statistique du modle dni ci-dessus. 5. On assimile ici la prvision la valeur attendue. Il est possible de justier cela sur le plan thorique.
1.3. DFINITION ET INTERPRTATIONS
17
2 inconnues ( 0 et 1 ) dduire la valeur des paramtres du modle. Dans ce cas, la construction du modle de rgression linaire et les mthodes statistiques qui lui sont associes nont plus de raison dtre. Ce qui suit na donc dintrt quen supposant que e1 , . . . , en sont inconnues. On rappelle quon peut interprter la relation Yi = 0 + 1 xi + i comme une dcomposition de Yi en partie explique par xi + partie non explique par xi , la premire tant 0 + 1 xi et la seconde i . Intuitivement, la capacit de la variable explicative expliquer la variable dpendante sera dautant meilleure que lcart entre Yi et 0 + 1 xi a tendance tre petit. Si on mesure cet 2 2 cart par Yi (0 + 1 xi ) , la valeur attendue est E (Yi 0 1 xi )2 = E Yi E(Yi ) = 2 V(Yi ) = . Cela permet donc dinterprter le paramtre comme une mesure de la capacit de la variable explicative plus ou moins bien expliquer elle seule le niveau de la variable explique. Le paramtre 0 sinterprte comme la valeur attendue de Yi lorsque xi = 0. On appelle ce paramtre intercept, ou ordonne lorigine, pour une raison expose ci-dessous. Le paramtre 1 a plusieurs interprtations possibles et quivalentes. Considrons deux individus statistiques i et j et supposons que lon observe xi et xj de sorte que xj = xi + 1. On aura alors E(Yj ) E(Yi ) = 0 + 1 (xi + 1) 0 1 xi = 1 . On interprte donc 1 comme la dirence entre la valeur attendue de la variable explique pour un individu quelconque i et la valeur attendue de cette mme variable pour un individu j ayant un niveau de la variable explicative dune unit suprieur celui de cette variable pour lindividu i. Si on considre la fonction ane qui exprime la valeur de E(Yi ) en fonction de xi (voir la condition C2), on a dE(Yi ) = 1 . d xi Par consquent, si la variable explicative xi augmente de units, la variation attendue de la variable dpendante sera de 1 units. 1 est appel la pente du modle. Cette dernire interprtation fait clairement apparatre 1 comme le paramtre dintrt dans ce modle. tant donne la forme ane exprimant la relation entre la variable explicative et la variable explique, le paramtre 1 capture lui seul toute la dpendance de Yi envers xi . Les techniques dinfrence dveloppes dans le cadre du modle de rgression linaire simple auront pour objet 1 . Pour terminer ce chapitre, on peut laide dun graphique reprsenter la manire dont le modle de rgression linaire simple modlise la relation entre les variables et comment cette modlisation se positionne par rapport ce quon observe. Pour cela, on commence placer les observations en faisant gurer dans le plan les points de coordonnes (xi , yi ) pour i = 1, . . . , n. Cette reprsentation des observations des variables est appele le nuage de points. On introduit ensuite la modlisation du modle de rgression linaire simple. Celui-ci est construit en posant comme condition quil existe deux rels, dont les valeurs inconnues sont 0 et 1 , qui permettent le lier la variable explicative (exogne) la variable dpendante (endogne), par la relation Yi = 0 + 1 Xi + i , i = 1, . . . , n. Si cela est le cas, les observations (x1 , y1 ), . . . , (xn , yn ) des variables du modle, ainsi que les ralisations (non-observes) e1 , . . . , en des termes derreur doivent satisfaire yi = 0 + 1 xi + ei , i = 1, . . . , n. Cette relation entre variable exogne et variable endogne est reprsente graphiquement par une droite dquation y = 0 + 1 x. Pour chaque individu i = 1, . . . , lerreur entre la droite issue du modle et la ralit observe est ei = yi ( 0 + 1 xi ), et se lit graphiquement comme la dirence verticale entre yi et la droite. Cette construction donne lieu la gure 1.1.
18 Valeurs de la variable explique
yi E(Yi ) = 0 + 1 xi |ei |
Droite dquation y = 0 + 1x
fig:g1
Valeurs de la variable explicative Figure 1.1: Modlisation de la relation entre variables dans le modle de rgression linaire simple
xi
Finalement, le tableau 1.1 de la page 20 rcapitule les dirents lments du modle introduits jusqu prsent, en sparant ce qui est du domaine des variables du modle de ce qui est du domaine des paramtre. Pour chaque lment, on rappelle la notation utilise, linterprtation qui en est faite
1.3. DFINITION ET INTERPRTATIONS ainsi que les principales hypothses qui sont formules son propos.
19
page:mrls_recap
tab:mrls_recap
du modle rgression simple 20 Table 1.1: Rcapitulatif des lments constitutifs CHAPITRE 1. de LE MRLS : linaire PRSENTATION
Notation Yi
Xi i
Interprtation Variable alatoire mesurant le phnomne expliquer pour lindividu i Variable alatoire mesurant la phnomne expliquant Yi Variable alatoire mesurant la partie Yi qui ne peut tre explique par Xi
Variables Dnomination Variable explique, dpendante, endogne Variable explicative, exogne Terme derreur (xi , Yi ) associ
Observations yi
xi Nest pas observe. La ralisation (non observe) de i est note ei .
Hypothses Son esprance est une fonction ane de xi . Toutes ces variables sont non-corrles et ont la mme variance. Considre comme dgnre : P(Xi = xi ) = 1 i = Yi E(Yi ) Son esprance est nulle. Toutes ces variables sont non-corrles et ont la mme variance.
Notation 0 1
Interprtation Valeur attendue de Yi lorsquon observe Xi = 0 Variation attendue de Yi lorsque xi augmente dune unit cart-type commun des variables dpendantes
Paramtres Dnomination Commentaires Ordonne lorigine, intercept Sa vraie valeur est inconnue ; on la note 0 . Pente Cest le paramtre dintrt, qui capture entirement la dpendance de la variable endogne envers la variable exogne. Sa vraie valeur est inconnue ; on la note 1 . Cest galement lcart-type commun des termes derreur. Sa vraie valeur est inconnue ; on la note .
Relations dcoulant de la dfinition du modle Yi = 0 + 1 xi + i yi = 0 + 1 xi + ei E(Yi ) = 0 + 1 xi
Chapitre 2
ch:mrls_univ
Le modle de rgression linaire simple : estimation des paramtres

Le modle statistique dni dans la section prcdente est notamment construit dans le but de fournir un cadre des mthodes dinfrence permettant destimer les paramtres 0 et 1 . En suivant le principe dcrit dans le chapitre 10, on cherchera dans cette section dgager une faon adquate dutiliser les variables X1 , . . . , Xn , Y1 , . . . Yn en vue de former un estimateur ponctuel des paramtres. Lutilisation de cet estimateur et des observations fournira lestimation de la vraie valeur de ces paramtres.
sec:mcoint
2.1
Approche intuitive
Dans une premire approche du problme, on cherche des valeurs des paramtres pour lesquelles la partie de Y1 , . . . , Yn qui nest pas explique par X1 , . . . , Xn est la plus petite possible en moyenne. Pour cela, on choisit des valeurs de 0 et de 1 pour lesquelles lcart moyen entre les Yi et les 0 + 1 Xi est minimale. Formellement, tout choix dun couple de rels (0 , 1 ) on associe les carts entre les Yi et les 2 0 + 1 Xi , quon note Si (0 , 1 ) et quon mesure par Si (0 , 1 ) = Yi (0 + 1 Xi ) , i = 1, . . . , n. Choisir les valeurs 0 et 1 pour lesquelles la moyenne des carts est la plus petite revient minimiser la fonction S dnie par S: R R R+ (0 , 1 ) S (0 , 1 ) =
1 n
n i=1
(Yi 0 1 Xi )2
Tout estimateur de 0 , 1 obtenu de cette manire est appel estimateur des moindres carrs ordinaires (MCO). Lappellation moindres carrs provient du fait que les estimateurs sont obtenus en minimisant une moyenne de carrs (Yi 0 1 Xi )2 , i = 1, . . . , n. Ces moindres carrs sont ordinaires car la moyenne des carrs est une moyenne ordinaires, i.e., dans laquelle tous les carrs ont le mme poids. 21
22
Observations de la variable dpendante
CHAPITRE 2. LE MRLS : ESTIMATION DES PARAMTRES
yi Si (0 , 1 )
y = 0 + 1 x
xi
fig:minS_interpr
Observations de la variable explicative
Figure 2.1: Interprtation graphique de la fonction S
Avant de considrer la rsolution de ce problme de minimisation, on peut illustrer graphiquement lapproche suivie ici. On utilise le nuage de points qui reprsente dans le plan les points de coordonnes (xi , yi ), i = 1, . . . , n (voir la gure 1.1 de la section 1.3.2). tout couple de rels (0 , 1 ), on associe une droite dquation y = 0 + 1 x. On peut reprsenter cette droite dans le mme plan que celui utilis pour le nuage de points. Au couple (0 , 1 ) choisi, et donc la droite correspondante, on peut associer les carts S1 (0 , 1 ), . . . , Sn (0 , 1 ) dnies ci-dessus. On peut reprsenter sur le mme graphique ces quantits. Si (0 , 1 ) est le carr de la distance |Yi (0 + 1 xi )| entre Yi et 0 + 1 xi . Sur le graphique, lcart Si (0 , 1 ) est donc le carr de la distance verticale entre Yi et la droite dquation y = 0 + 1 x. La gure 2.1 reprsente le nuage de points et, pour un couple (0 , 1 ) donn, la droite associe (en rouge) ainsi que les distances verticales entre les points du nuage et la droite (symbolises par les barres bleues verticales).
page:minSmco
Choisir le couple (0 , 1 ) de faon minimiser la fonction S revient dune certaine manire choisir la droite pour laquelle les distances verticales entre cette droite et les points du nuage sont les plus petites en moyenne. Dans ce sens, minimiser S consiste cherche la droite qui passe au plus prs des points du nuage. La gure 2.2 montre pour deux choix possibles du couple (0 , 1 ) les droites et les distances qui en rsultent. On constate ainsi que sur le graphique 2.2 (a) pour lequel on a choisi (0 , 1 ) = (16.43, 0.47), les distances associes la droite sont en moyenne plus petites que sur le graphique d ct, construit en choisissant (0 , 1 ) = (25.02, 0.10) . La valeur de
2.1. APPROCHE INTUITIVE
23
la fonction S associe au graphique 2.2 (a) sera donc plus petite que celle associe au graphique 2.2 (b).
gauche
(a) (0 , 1 ) = (16.43, 0.47)
droite
(b) (0 , 1 ) = (25.02, 0.10)
fig:minS_compar
Figure 2.2: Droites et carts S1 (0 , 1 ), . . . , Sn (0 , 1 ) associs dirents choix de (0 , 1 )
On aborde prsent la rsolution du problme de minimisation de la fonction S . On doit donc rsoudre
(0 ,1 )R2
min
S (0 , 1 )
(2.1)
eq:mco
S est une fonction de (0 , 1 ) deux fois continment drivable. De plus cest une fonction convexe. 0 , 1 ) de R2 satisfaisant Par consquent, tout extremum est un minimum, atteint en tout point (
S (0 , 1 ) = 0, k
k = 0, 1.
(2.2)
eq:cpomco
Dans la minimisation de S, il est important de distinguer deux situations. 1. Sil existe deux individus i et j pour lesquels Xi = Xj , alors S est strictement convexe, puisque cest la somme de n fonctions strictement convexes de (0 , 1 ) : S (0 , 1 ) = n i=1 Si (0 , 1 ) o Si (0 , 1 ) = (Yi 0 1 Xi )2 . Lallure de la fonction S est reprsente par la gure 2.3 (sur laquelle les couleurs sur la surface varient en fonction de la valeur atteinte par S , de manire similaire une carte gographique dun relief).
24
25 20 S (0 , 1 ) 15 15 10 5 0 1 0.5 0 1 0.51 1.5 2 2.5 10 5 0 25 Courbes de niveau : 20 11 9 7 5 3 2 1
4 5 0 1 2 3 0
page:s fig:s
Figure 2.3: Allure de la fonction S (cas 1). 0 , 1 ), entirement caractris par le Cette fonction admet un unique minimum au point ( systme de deux quations (2.2). Comme la fonction S est un polynme du second degr en chacun de ses arguments 0 et 1 , chaque quation de (2.2) est un polynme du premier degr 0 , 1 ) de la fonction S en chacun des arguments. Autrement dit, pour trouver le minimand ( il sut donc de rsoudre un systme de deux quations linaires deux inconnues. Notons que S 1 (0 , 1 ) = k k n Par consquent 1 S (0 , 1 ) = 0 n 1 S (0 , 1 ) = 1 n Le systme (2.2) scrit donc
1 n 1
n n i=1 (2)(Yi n i=1 n i=1 n i=1
(Yi 0 1 Xi )2 =
1 n
n i=1
(Yi 0 1 Xi )2 , k
k = 0, 1.
2(Yi 0 1 Xi ) 2Xi (Yi 0 1 Xi ).

1 n 1
n
(2.3) (2.4)
eq:dsb1
eq:dsb2
0 1 Xi ) = 0 0 1 Xi ) = 0
La premire quation est quivalente
n i=1 (2)Xi (Yi
n i=1 Yi
0 1 1 n 0 1 n
n i=1 Xi n i=1 Xi
=0
n 2 i=1 Xi
n i=1 Xi Yi
1 1 n
=0
1 X, 0 = Y
(2.5)
eq:cpob1

n 1 o X = n i=1 Xi et Y = quation, on obtient 1 n n i=1 Yi .
25 0 dans le seconde En substistuant cette expression de

n
1 n de sorte que si
1 n n 2 i=1 Xi
1 X 2 1 1 Xi Yi X Y + n i=1 X = 0, on a
n 2
Xi2 = 0,
i=1
(2.6)
eq:cpob2
1 =
i=1 n
Xi Yi nX Y Xi2 nX
2
i=1 2
n n n 1 1 1 2 2 2 Notons que n i=1 Xi X = n i=1 (Xi X ) , de sorte que la condition n i=1 Xi X = 0 1 est n (Xi X )2 = 0. Le membre de gauche de cette relation tant permettant de dnir i=1 une somme termes positifs, cette somme est nulle si et seulement si chacun de ses termes est nul : n i=1
page:ident
(Xi X )2 = 0 (Xi X )2 = 0 i Xi = X i X1 = X2 = = Xn
Or ceci est une possibilit qui a t exclue au dbut de ce premier point. Par consquent, on a le rsultat suivant. Thorme 2.1 Dans le modle de rgression linaire simple, sil existe deux individus i et j tels que Xi = Xj , alors lestimateur des moindres carrs ordinaires de (0 , 1 ) est donn par
n
th:ident
1 =
i=1 n
Xi Yi nX Y Xi2 nX
2
(2.7)
eq:mcob2
i=1
1 X. 0 = Y Ce thorme est illustr par la gure 2.4.
(2.8)
eq:mcob1
2. Supposons maintenant que pour tous les individus i on a Xi = x. La fonction S est donc 2 dnie par S (0 , 1 ) = n i=1 (Yi 0 1 x) . Supposons que S admette un minimum au 0 , 1 ). On aura donc point ( 0 , 1 ) S (0 , 1 ), = S ( S (0 , 1 ) R2 .
0 + 1 x, la fonction Il est facile de voir que pour tout (0 , 1 ) choisi de sorte que 0 + 1 x = 1 Pour cela, on xe 0 arbitrairement et on choisit 1 = ( S sera aussi gale S. x 0 + 1 x 0 ). Il existe dont une innit de choix possibles et la fonction S admet une innit (continuum) de minimands.
26
Altitude = 12
S (0 , 1 )
0 , 1 ) S ( 0 1 0
Figure 2.4: Les estimateurs des moindres carrs ordinaires sont obtenus en minimisant S
(En baissant laltitude du point de vue, lanimation permet de voir le dessous de la 0 , 1 ) = surface et le minimum de la fonction S . Celui-ci vaut ici 1 et est atteint en (
fig:minscr
(1, 0.5)). Cliquez pour lancer lanimation.
27
25 Courbes de niveau : 25 20 15 10 5 0 1 0.5 0 0.5 1 1 1.5 2 0 1 2 3 4 5 2.5 0 20 15 10 5 0 11 9 7 5 3 2 1 S (0 , 1 )
page:sm fig:sm
Figure 2.5: Allure de la fonction S (cas 2). On peut caractriser lensemble des minimands laide des observations des variables du modle. Si on examine dans ce cas les expressions (2.3) et (2.4), on a S S (0 , 1 ) = x (0 , 1 ) , 1 0 0 , 1 .
Les deux drives partielles de S sont proportionnelles et les deux conditions du premier ordre 0 , 1 ) minimise la (2.2), qui demeurent des conditions ncessaires et susantes pour que ( fonction S, sont par consquent redondantes. Elles donnent toutes deux 0 = Y 1 x . La solution au problme (2.1) est donc lensemble de R2 dni par {(0 , 1 ) R2 | 0 = Y x1 }. La gure 2.5 illustre cette situation. Les courbes de niveau de la surface de S sont projetes sur le plan (R2 ). On voit que la courbe la plus basse (celle de niveau 1), qui indique les lieux (0 , 1 ) o S atteint son minimum, est une droite de R2 : elle concide avec lensemble des solutions {(0 , 1 ) R2 | 0 = Y x1 }. On rsume ces rsultats par le thorme suivant.
th:nident
Thorme 2.2 Dans le modle de rgression linaire simple, si pour tous les individus i on a Xi = x, alors la solution au problme (2.1) nest pas unique. Tout lment de R2 de la 1 , 1 ), o 1 R, peut tre considr comme un estimateur des moindres carrs forme (Y x ordinaires de (0 , 1 ). On dira dans ce cas que lestimateur des moindres carrs ordinaires nexiste pas.
28
CHAPITRE 2. LE MRLS : ESTIMATION DES PARAMTRES Dans ce dernier cas, il nest pas possible de distinguer les vraies valeurs des paramtres dautres valeurs a priori possibles pour ces paramtres. En eet, si Xi = Xj pour tout i, j = 1, . . . , n lesprance de la variable dpendante sera la mme pour tous les individus : Xi = Xj = x, i, j = 1, . . . , n = E(Yi ) = E(Yj ) = 0 + 1 x, i, j = 1, . . . , n. Notons m la valeur commune de cette esprance. Si on choisit alors 1 = b et 0 = m bx, on aura galement 0 + 1 x = m = 0 + 1 x = E(Yi ), i = 1, . . . , n. Autrement dit des valeurs des paramtres direntes des vraies valeurs donnent la mme valeur pour lesprance de la variable endogne et les valeurs des paramtres qui permettent dcrire la condition C2 ne sont pas uniques. Il est par consquent impossible de distinguer les vraies valeurs des paramtres dautres valeurs. On dit dans ce cas que les paramtres 0 et 1 du modle sont non-identis. Si les vraies valeurs des paramtres sont non-identies, il est normal quen cherchant estimer ces paramtres on nobtienne pas de solution unique.
page:nident
sec:mcotheo
2.2
Approche thorique
Une approche plus thorique consiste ne considrer que les estimateurs linaires de 0 et 1 , puis chercher dans lensemble de tels estimateurs ceux qui sont prfrables aux autres. k est un estimateur linaire de k si on peut trouver n nombres Dnition 2.1 Une statistique k = n w w k 1 , . . . , w kn , pouvant ventuellement dpendre de X1 , . . . , Xn , tels que i=1 ki Yi , k = 0, 1.
rem:nuplet
Remarque 2.1 On constate qu tout n-uplet de nombres (w1 , . . . , wn ), on peut associer un esn timateur linaire n i=1 wi Yi est compltement i=1 wi Yi . Dautre part, tout estimateur linaire caractris par le n-uplet (w1 , . . . , wn ). Par consquent, choisir un estimateur linaire de k revient choisir un n-uplet de rels. 0 et 1 de 0 et 1 sont des estiProprit 2.1 Les estimateurs des moindres carrs ordinaires n k = ki Yi , k = 0, 1, avec mateurs linaires. Plus prcisment, on a i=1 w w 1i = Xi X 2 n 2 j =1 Xj nX 1 Xw 1i n (2.9)
eq:linbh1
pro:mcob12lin
w 0i = i = 1, . . . , n. Preuve : On tablit facilement que

n i=1
(2.10)
eq:linbh0
Xi Yi nX Y =
i=1
Xi Yi X
Yi =
i=1 i=1
(Xi X )Yi
1 , on peut crire Par consquent, en utilisant lexpression (2.7) de 1 =

n i=1 (Xi X )Yi 2 n 2 i=1 Xi nX n
=
i=1
w 1i Yi
2.2. APPROCHE THORIQUE 0 , on a partir de (2.8) En ce qui concerne 1 X = 1 0 = Y n

n i=1 n n
29
Yi
w 1i XYi =
i=1 i=1
1 1i Yi = Xw n
w 0i Yi ,
i=1
Un critre de comparaison destimateurs est lerreur quadratique moyenne (EQM).

def:eqm
k de k , lerreur quadratique moyenne (EQM) de k est la Dnition 2.2 Pour un estimateur 2 k k ) , k = 0, 1. fonction qui au couple (0 , 1 ) associe le nombre E ( Remarque 2.2 1 est une fonction de 1 et de 0 . La dnition 2.2 indique explicitement que lEQM de 1 1 )2 ne dpend que de 1 . Cela Cependant, il peut sembler au premier abord que E ( 1 est un estimateur linaire de 1 , on a nest videmment pas vrai. En eet, comme 1 =
n n
rem:eqm
w 1i Yi =
i=1 i=1
w 1i (0 + 1 Xi + i ),
1 pour un certain n-uplet (w 11 , . . . , w 1n ). On voit alors clairement que la variable alatoire peut scrire non seulement en fonction de 1 , mais aussi en fonction de 0 . Par consquent, 1 dpende la fois 0 et de 1 . Cela sera en particulier il nest pas surprenant que la loi de 1 1 )2 . La mme remarque sapplique videmment aux estimateurs vrai pour lEQM E ( de 0 . k est une mesure de la prcision de cet estimateur, puisque LEQM dun estimateur k ) et ce quil estime lEQM sinterprte comme la distance attendue entre un estimateur ( (k ). k et k de k , on dit que k est prfrable k au sens de lerreur Pour deux estimateurs k est infrieure ou gale lEQM de k , ceci pour toutes quadratique moyenne si lEQM de les valeurs possibles des paramtres 0 et 1 . En gnral, il nest pas possible de trouver des estimateurs prfrables tout autre au sens de lEQM. Cependant, comme on va le montrer, si on introduit un autre type de contrainte sur les estimateurs quon considre, alors on pourra trouver, dans le contexte du modle de rgression linaire simple, un estimateur prfrable tout autre au sens de lEQM. La contrainte supplmentaire impose aux estimateurs est dtre sans biais. Dnition 2.3 k de k est la fonction qui (0 , 1 ) associe le nombre E( k k ). 1. Le biais dun estimateur k de k est sans biais si son biais est constant et gal 0 : E( k 2. On dit quun estimateur k ) = 0, 0 , 1 . Remarque 2.3 Le premier point de la remarque 2.2 faite propos de lEQM peut aussi sappliquer au 0 dpend de 0 et de 1 . biais dun estimateur. Le biais de
30
CHAPITRE 2. LE MRLS : ESTIMATION DES PARAMTRES k de k est sans biais si et seulement si E( k ) = k , 0 , 1 . Un estimateur Si k est un estimateur sans biais de k , alors son EQM concide avec sa variance. En eet on a dans ce cas k k )2 = E k E( k ) 2 = V( k ). E ( La variance dun estimateur sans biais est donc une mesure de sa prcision. Plus la variance dun estimateur sans biais est petite, plus cet estimateur est prcis. Par consquent, pour comparer des estimateurs sans biais dun mme paramtre, il sut k et k sont deux estimateurs sans biais de comparer leurs variances. Plus prcisment, si k k au sens de lEQM si V( k ) V( k ), 0 , 1 . de k , on prfrera
Dans le modle de rgression linaire standard, si on ne considre que des estimateurs linaires et sans biais de 0 et de 1 , on prfrera ceux qui sont de variance minimale.
pro:cnsesb
k Proprit 2.2 Dans le modle de rgression linaire simple, le biais dun estimateur linaire de k , dni par le n-uplet (w k 1 , . . . w kn ), est la fonction qui au couple (0 , 1 ) associe le nombre
n n
0
i=1
w ki + 1
i=1
w ki Xi k .
(2.11)
eq:esb
n k = ki Yi de k est la fonction qui au Preuve : Par dnition, le biais de lestimateur i=1 w n ki Yi k . Comme les w ki ne dpendent que couple (0 , 1 ) associe le nombre E i=1 w de X1 , . . . , Xn , et que ces variables ont une distribution dgnre (condition C1), il en n ki E(Yi ). Daprs la condition ki Yi = n est de mme pour les w ki , et on a E i=1 w i=1 w C2 du MLRS, on a E(Yi ) = 0 + 1 Xi et en substituant cette expression dans lexpression ki (0 + 1 Xi ) k . En factorisant 0 et 1 , on obtient du biais, ce dernier scrit n i=1 w (2.11).
0 = Remarque 2.4 On note quen utilisant (2.11), la condition pour quun estimateur linaire n 0i Yi de 0 soit sans biais est i=1 w
n n
0
i=1
w 0i + 1
i=1
w 0i Xi = 0 ,
0 , 1 .
(2.12)
eq:esbb1
0 . Cette condition Cette condition est une condition sur le n-uplet de rels (w 01 , . . . , w 0n ) qui dnit (2.12) scrit aussi
n n
0 (
i=1
w 0i 1) + 1

w 0i Xi = 0,
i=1
0 , 1 .
(2.13)
eq:esbb1bis
Les w 0i , . . . , w 0n satisfont cette condition si et seulement si ils satisfont

n i=1 n i=1
w 0i 1 = 0, w 0i Xi = 0.
(2.14)
eq:cesbb1
En eet, il est clair que si (2.14) est vrie, alors (2.13) lest aussi. Rciproquement, supposons 0i 1 = 0. De (2.13) vraie. Alors pour le cas particulier 0 = 1 et 1 = 0, on doit avoir n i=1 w
2.2. APPROCHE THORIQUE mme pour 0 = 0 et 1 = 1, on doit avoir vraie.

n 0i Xi i=1 w
31 = 0. Autrement dit, (2.14) est galement

n 1i Yi i=1 w
1 = Pour les mmes raisons, tout estimateur linaire seulement si w 11 , . . . , w 1n satisfont la condition

n
de 1 sera sans biais si et
w 1i = 0,
i=1 n i=1
(2.15) w 1i Xi 1 = 0.
eq:cesbb2
pro:mcosansbiais
Proprit 2.3 Dans le modle de rgression linaire simple, les estimateurs des moindres carrs ordinaires de 0 et de 1 sont sans biais. 0 et 1 donnes par la proprit 2.1 et on montre que les Preuve : On utilise les expressions de 1 , on a w 1i = n Xi 2X 2 . Donc conditions (2.14) et (2.15) sont satisfaites. Ainsi pour
j =1
Xj nX
w 1i =
i=1
n i=1 (Xi X ) 2 n 2 i=1 Xi nX
= 0,
car le numrateur est nul, et dautre part

n i=1
w 1i Xi 1 =
n i=1 (Xi X )Xi 2 n 2 i=1 Xi nX
1 = 0,
1 est un car le numrateur et le dnominateur du rapport sont identiques. Autrement dit estimateur linaire qui vrie les conditions (2.15). 0 , on a w Quant 0i = 1 X w 1i . Par consquent,
n n i=1 n
w 0i 1 =
i=1
n 1 X w 1i 1 = 1 0 1 = 0, n i=1
puisque on a montr que

n n
n 1i i=1 w
= 0. Dautre part,
w 0i Xi =
i=1 i=1
n 1 1i )Xi = X X w 1i Xi = X X = 0, Xw n i=1 n 1i Xi i=1 w
car on a montr ci-dessus que
0 satisfait les conditions (2.14). = 1. Donc
Avant dnoncer et prouver le rsultat central de ce chapitre, nous avons besoin dtablir lexpression de la variance destimateurs linaires de 0 et 1 .
pro:varlin
k est un estimateur linaire de k Proprit 2.4 Dans le modle de rgression linaire simple, si k est donne par dni par le n-uplet (w k 1 , . . . , w kn ), alors la variance de k ) = 2 V(
n 2 w ki . i=1
(2.16)
eq:varlin
32 k est linaire, Preuve : Puisque k ) = V V(
w ki Yi =
i=1 i=1
V(w ki Yi ) + 2
i=1 j =i+1
cov(w ki Yi , w kj Yj ).
En utilisant le fait que les w ki ne dpendent que de X1 , . . . , Xn et que ces variables ont une distribution de probabilit dgnre (condition C1), en appliquant les proprits de la covariance, on a k ) = V(
n 2 w ki V(Yi ) + 2 i=1 i=1 j =i+1 n n
w ki w kj cov(Yi , Yj ).
La condition C3 dnissant le modle de rgression linaire simple implique que tous les 2 2 , et que toutes les covariances de la termes de la premire somme sont gaux w ki k ). deuxime (double) somme sont nulles. On obtient donc lexpression voulue de V(
cor:varlin
Corollaire 2.1 Dans le modle de rgression linaire simple, les variances des estimateurs des 0 et 1 de 0 et de 1 sont moindres carrs ordinaires 0 ) = 2 1 + V( n X
2 2
n 2 i=1 Xi
nX
et
1 ) = V(
2
n 2 i=1 Xi
nX
1 ) il sut dutiliser la proprit prcdente, tandis que pour V( 0 ), il faut en plus Preuve : Pour V( utiliser la premire condition de (2.15).
rem:varlin
Remarque 2.5 Notons que les variances des estimateurs des moindres carrs ordinaires sont inconnues, puisquelles dpendent de 2 . On peut cependant les estimer (voir la section 2.5). k est une mesure de la distance attendue entre k et k . Cest donc un La variance de k . On constate que cette prcision est aecte par indicateur de la prcision de lestimateur deux facteurs. k ) est grande. 1. Le premier est la variance commune 2 des Yi . Plus elle est leve, plus V( Autrement dit, pour X1 = x1 , . . . , Xn = xn donns, plus les variables dpendantes ont tendance tre disperses autour de leur esprance, plus les estimateurs des moindres carrs ordinaires auront tendance ltre et moins ils seront prcis.
2 2. Limpact du second facteur est captur par n i=1 Xi nX . On tablit facilement que ce n 2 terme scrit aussi i=1 (Xi X ) et que sous cette forme il capture la variabilit observe k ) est des variables X1 , . . . , Xn autour de leur moyenne. Plus ce terme est lev, plus V( petite. Autrement dit, plus on observe de dispersion des valeurs de la variable explicative autour de sa valeur moyenne, plus les estimateurs des moindres carrs ordinaires seront prcis. 2
On rappelle que 1 mesure la dpendance entre la variable explique et la variable explicative. Pour estimer prcisment cette dpendance, on a besoin dun chantillon dans lequel ces variations sont susamment leves. En eet, si on observe peu de variabilit pour la variable explicative, on a peu dobservations sur le phnomne quon cherche
2.2. APPROCHE THORIQUE
33
reprsenter et estimer, savoir la rponse de la variable explique aux variations de la variable explicative. Dans le cas limite o X1 = = Xn , on nobserve aucune variation de la variable explicative, et on na donc aucune information sur la manire dont la variable explique pourrait rpondre aux variations de la variable explicative. Dans ce cas, la dispersion des 2 valeurs de la variable explicative est nulle : n i=1 (Xi X ) = 0, et la variance V(k ) est innie. Cette situation correspond en fait au cas o il est impossible destimer 1 (voir page 28, aprs le thorme 2.2). Dans ce cas limite, il est impossible, du point de vue des conditions qui dnissent le modle de rgression linaire simple, de distinguer les vraies valeurs des paramtres parmi un continuum de valeurs possibles pour ces paramtres. Par consquent, on ne peut pas attendre destimateurs raisonnables, comme ceux des moindres carrs ordinaires, de fournir une estimation prcise de 0 et de 1 . 0 ) et V( 1 ) dcrits dans les deux points prcdents Les deux dterminants des variances V( peuvent sillustrer graphiquement. Le paramtre 2 est la variance commune de Y1 , . . . , Yn . Cette variance indique le caractre plus ou moins dispers de la distribution de Yi autour de son esprance E(Yi ) = 0 + 1 Xi . Plus cette variance est grande, plus on sattend ce 2 que lcart Yi E(Yi ) soit lev. Sur un graphique semblable celui de la gure 1.1, cet cart est la distance verticale entre Yi et la droite rouge. Donc dans cas o 2 est lev, plus on sattend ce que les points soient disperss autour de cette droite, dans la direction verticale. 0 et 1 est n (Xi X )2 , une mesure de la variabilit Lautre dterminant des variances de i=1 observe de X1 , . . . , Xn autour de leur moyenne X . Ce terme sera dautant plus grand que les 2 abscisses des points (Xi , Yi ) du graphique 1.1 sont disperses. Autrement dit n i=1 (Xi X ) mesure la distance horizontale entre ces points et la droite : plus ces points sont disperss 2 dans la direction horizontale, plus n i=1 (Xi X ) est grande. En rsum, lestimation de 0 et de 1 par moindres carrs ordinaires sera dautant meilleure (plus prcise) que la dispersion verticale entre les points (Xi , Yi ) est faible, et/ou que la dispersion horizontale de ces mmes points est grande. Les graphiques de la gure 2.6 illustrent cette remarque. Le thorme suivant est la proprit la plus importante de la mthode destimation par moindres carrs ordinaires.
th:gm
Thorme 2.3 (Gauss-Markov) Dans le modle de rgression linaire simple, si les paramtres 0 et 1 sont identis, les estimateurs des moindres carrs ordinaires sont les estimateurs ayant la plus petite variance parmi tous les estimateurs linaires sans biais de 0 et de 1 . Preuve : Considrons le problme destimer 1 par un estimateur linaire et sans biais. Cela revient considrer tous les n-uplets de rels pour lesquels les conditions (2.15) sont satisfaites. 1 = n w chacun de ces n-uplets est associ un estimateur i=1 1i Yi de 1 , dont la variance n 2 2 1i . est donne par (2.16), cest dire V(1 ) = i=1 w n 1i Yi est lestimateur linaire et sans biais de 1 ayant une Pour montrer que 1 = i=1 w 1 = n w 1i Yi variance plus petite que celle de tout autre estimateur linaire sans biais
i=1
34
fig:nv
2 Figure 2.6: Tableau de graphiques illustrant limpact de 2 et n i=1 (Xi X ) sur lallure du nuage de points ((Xi , Yi ), i = 1, . . . , n) : 2 est plus petit sur la colonne de gauche que sur la colonne de 2 droite ; n i=1 (Xi X ) est plus petit sur la ligne du haut que sur la ligne du bas. La droite rouge est celle correspondant aux vraies valeurs des paramtres 0 et 1 . Elle est la mme dans tous les cas et sert mesurer la dispersion relative verticale des points.
2.2. APPROCHE THORIQUE
35
de 1 , il est quivalent de montrer que le n-uplet (w 11 , . . . , w 1n ) satisfait (2.15), et que pour tout autre n-uplet (w 11 , . . . , w 1n ) satisfaisant les mmes conditions, on a
n n 2 2 w 1 i 2 w 1 i. i=1
2
i=1
Autrement dit, il faut montrer que le problme

n (w11 ,...,w1n
min
)Rn
2 i=1
2 w1 i
sous contrainte que :
n i=1 w1i
= 0, 1 = 0,
n i=1 w1i Xi
admet pour solution w 11 , . . . , w 1n . Ce problme est videmment quivalent

n (w11 ,...,w1n )Rn
min
2 w1 i i=1
sous contrainte que :
n i=1 w1i
= 0, 1 = 0,
(2.17)
eq:minvar
n i=1 w1i Xi
Puisque la fonction minimiser est convexe et drivable en w11 , . . . , w1n , et que les contraintes sont linaires en w11 , . . . , w1n , on peut utiliser la mthode du lagrangien pour rsoudre ce problme. Le lagrangien scrit
n n 2 w1 i i=1 n
L(w11 , . . . , w1n , , ) =
+
i=1
w1i + (
i=1
w1i Xi 1)
, . . . , w ) est une solution du problme (2.17) si et seulement si il existe Un n-uplet (w11 1n deux rels et tels que
L , . . . , w , , ) = 0, (w11 1n w 1 i L
1n 11 L , , ) = 0. (w11 , . . . , w1 n
i = 1, . . . , n, (2.18)
eq:lagcpoa
(w , . . . , w , , ) = 0,
ou encore, en utilisant la dnition de L
+ + X = 0, 2w1 i i
n i=1 w1i
i = 1, . . . , n, (2.19)
eq:lagcpob
= 0,
n i=1 w1i Xi
=1
On somme les n premires quations du systme, et on obtient

n
2
i=1
w1 i + n + nX = 0.
(2.20)
eq:lagcpo1
36
CHAPITRE 2. LE MRLS : ESTIMATION DES PARAMTRES On multilplie la ie des premires quations par Xi , i = 1, . . . , n, et on fait la somme des n quations ainsi obtenues, ce qui donne
n n w1 i Xi + nX + i=1 i=1
Xi2 = 0.
(2.21)
eq:lagcpo2
En utilisant la (n + 1)e quation du systme (2.19) dans (2.20) et la (n + 2)e dans (2.21), on a les conditions suivantes
n + nX = 0
(2.22)
n 2 i=1 Xi
eq:lagcpo3
+ nX
=0
De la premire quation de (2.22) on tire = X, quon substitue dans la seconde pour obtenir
n
2+ (
i=1
Xi2 nX ) = 0.
2
2 Puisquon a suppos 0 et 1 identis, n i=1 Xi nX = 0 (voir le commentaire qui prcde le thorme 2.1 la page 25), et on en dduit 2 = 2 . n 2 i=1 Xi nX
Si on substitue cette expression dans la premire quation de (2.22), on obtient = 2X

n 2 i=1 Xi
en remplaant les expressions de et On peut nalement obtenir les expressions des w1 i quon vient dobtenir dans chacune des n premires quations de (2.19) : 2w1 i+
nX
2X
n 2 j =1 Xj
ou encore
nX
2Xi
n 2 j =1 Xj
nX
= 0,
i = 1, . . . , n,
w1 i =
En utilisant (2.9), on constate = 1, . . . , n, (voir la proprit 2.1). Autrement dit, lestimateur linaire et sans biais de 1 ayant la plus petite variance est 1 . lestimateur des moindres carrs ordinaires 0 par le mme procd. La preuve est laisse en Exercice. On obtient le rsultat concernant Le rsultat du thorme 2.3 peut tre tendu pour montrer que les estimateurs des moindres carrs ordinaires permettent dobtenir les estimateurs les plus prcis parmi tous les estimateurs linaire et sans biais de nimporte quelle combinaison linaire de 0 et de 1 . Plus prcisment, si lobjectif est destimer c0 0 + c1 1 , o c0 et c1 sont des rels connus, alors le meilleur estima0 + c1 1 . Autrement dit, le meilleur teur linaire et sans biais de cette combinaison linaire est c0 estimateur (au sens donn ci-dessus) de la combinaison linaire est la combinaison linaire des estimateurs. La preuve de ce rsultat sobtient par la mme dmarche que celle utilise pour dmontrer le thorme 2.3. Cette preuve est donc laisse en Exercice. Ce rsultat permet alors dobtenir celui du thorme 2.3 comme corollaire, en choisissant dabord c0 = 0 et c1 = 1, puis c0 = 1 et c1 = 0.
2, n 2 j =1 Xj nX = w que w1 1i , i i
Xi X
i = 1, . . . , n.
2.3. PROPRITS DES ESTIMATEURS DES MOINDRES CARRS ORDINAIRES
37
2.3
Proprits des estimateurs des moindres carrs ordinaires
La plupart des proprits importantes des estimateurs des moindres carrs ordinaires ont t prouves ci-dessus. Par consquent, le rsultat suivant consiste simplement en un rsum de ces proprits.
th:promco
Thorme 2.4 Dans le modle de rgression linaire simple, si les paramtres 0 et 1 sont identis, alors 1. Les estimateurs des moindres carrs ordinaires sont donns par 0 = Y 1 X et 1 =
n i=1 Xi Yi nX Y 2 n 2 i=1 Xi nX
2. Ces estimateurs sont des variables alatoires dont les variances sont donnes par 0 ) = 2 1 + V( n X
2
n 2 i=1 Xi
nX
et
1 ) = V(
2
n 2 i=1 Xi
nX
3. Les estimateurs des moindres carrs ordinaires sont linaires et sans biais. Parmi de tels estimateurs, ce sont les estimateurs les plus prcis (de variance minimale). Si 0 et 1 ne sont pas identis, alors la mthode des moindres carrs ordinaires ne permet pas destimer 0 et 1 sparment. Rappelons que pour tout (u1 , . . . , un ) et (v1 , . . . , vn ) n-uplets de rels, on a
n i=1 n n
(ui u)(vi v ) =
i=1
(ui u)vi =
i=1
ui vi nu v
(2.23)
eq:uv
En eet en dveloppant le membre de gauche de (2.23), on a

n i=1 n n
(ui u)(vi v ) =
i=1
(ui u)vi v
i=1
(ui u)
Comme n i=1 (ui u) = 0, on obtient la premire galit de (2.23). Si on dveloppe maintenant le membre du milieu de (2.23), on obtient
n i=1 n n n
(ui u)vi =
i=1
ui vi u
vi =
i=1 i=1
ui vi unv
ce qui est la seconde galit de (2.23). 1 : On peut alors donner une autre expression de 1 =
n i=1 (Xi X )(Yi Y n 2 i=1 (Xi X )
(2.24)
eq:bh1alt
38
2.4
2.4.1
Mesure de la qualit de lestimation par moindres carrs ordinaires

Valeurs ajustes et rsidus
sec:valaj page:valaj
Dnition 2.4 Dans le modle de rgression linaire simple, les valeurs ajustes issues de lestima1 , . . . , Y n , tion par moindres carrs ordinaires de 0 et de 1 sont les n variables alatoires notes Y 0 + 1 Xi , i = 1, . . . , n. i = dnies par Y Remarque 2.6 0 et 1 sont des estimateurs de 0 et de 1 , on peut interprter Y 0 + 1 Xi i = 1. Puisque i est lestimation de la valeur comme un estimateur de E(Yi ) = 0 + 1 Xi . Autrement dit Y attendue de Yi lorsquon connat Xi . En reprenant linterprtation donne au point 1 page i est lestimation de la partie de Yi qui peut tre explique 13, on peut galement dire que Y par la valeur de Xi . i ne concide pas avec E(Yi ), mais on sattend ce quelle le fasse, puisque 2. La valeur ajuste Y la dirence attendue est nulle. En eet 0 + 1 Xi 0 1 Xi ) i E(Yi ) = E( E Y 0 ) + E( 1 Xi ) E(0 + 1 Xi ) = E( =0 = 0 + 1 Xi (0 + 1 Xi )
0 et 1 sont des estimateurs sans biais de 0 o lavant dernire galit rsulte du faut que et 1 , respectivement. i ne concide pas non plus avec Yi . On donne la dnition suivante de leur 3. La valeur ajuste Y dirence. Dnition 2.5 Dans le modle de rgression linaire simple, on appelle rsidus de lestimation i , par moindres carrs ordinaires les variables alatoires, nots 1 , . . . , n , et dnies par i = Yi Y i = 1, . . . , n. Remarque 2.7 Le ie rsidu i sinterprte comme lestimation de la partie de Yi quon ne peut pas i peut tre considre comme un estimateur expliquer par Xi . Dans la mesure o la valeur ajuste Y i est un estimateur de Yi E(Yi ) = i . de E(Yi ), on peut considrer que i = Yi Y La gure 2.7 de la page 39 illustre graphiquement les rsultats de lestimation par moindres carrs ordinaires. Sur cette gure, les couples des observations de (Xi , Yi ), i = 1, . . . , n sont reprsents par des points. La droite dquation y = 0 + 1 x est celle le long de laquelle sont aligns les points de coordonnes (xi , E(Yi )). Cette droite sinterprte comme la vraie droite, puisque cest celle qui 0 + 1 x contient les points de reprsente la vraie relation entre Yi et Xi . La droite dquation y = i . Cette droite est entirement i ), o y i est la ralisation de la variable alatoire Y coordonnes (xi , y caractrise par 0 et 1 . Elle reprsente lestimation par moindres carrs ordinaires de la relation entre Yi et Xi .
2.4. MESURE DE LA QUALIT DE LESTIMATION PAR MOINDRES CARRS ORDINAIRES39 Valeurs de la variable explique
Droite dquation 0 + 1 x y= e i (< 0) ei (> 0) A
0 + 1 xi y i = yi E(Yi ) = 0 + 1 xi
page:mco fig:mco
Valeurs de la variable explicative Figure 2.7: Reprsentation graphique de lestimation par moindres carrs ordinaires. Pour un point A reprsentant le couple dobservations (xi , yi ), limage de xi par la fonction y = 0 + 1 x est videmment E(Yi ). La dirence entre yi et E(Yi ) est gale la ralisation de la variable alatoire i , quon a note ei sur le graphique de la gure 2.7. Pour ces valeurs des variables 0 + 1 x. La ralisation, note Xi et Yi , le nombre y i correspond limage de xi par la fonction y = e i , de la variable alatoire rsidu i est la dirence entre yi et y i .
xi
sec:R2
2.4.2
Proprits
Les rsidus possdent une proprit importante quon r-interprtera dans le chapitre suivant.
pro:orth
Proprit 2.5 Dans le modle de rgression linaire simple, on a

n n
i = 0
i=1
et
i=1
i Xi = 0.
Preuve : En utilisant la dnition de i , on constate que ces deux galits sont une r-criture des 0 conditions ncessaires (2.2) dnissant les estimateurs des moindres carrs ordinaires n 1 comme solutions du problme de minimisation de la fonction S (0 , 1 ) = et i=1 (Yi 2 0 1 Xi ) . Cette proprit permet dobtenir le rsultat suivant.
40
th:r2
Thorme 2.5 (Dcomposition de la rgression) Dans le modle de rgression linaire simple, on a n n n 2 2 i )2 . (Yi Y ) = (Yi Y ) + (Yi Y (2.25)
i=1 i=1 i=1
eq:r2
Preuve : On a i + Y i Y )2 = (Yi Y i )2 + (Y i Y )2 + 2(Yi Y i )(Y i Y ), (Yi Y )2 = (Yi Y Par consquent, pour dmontrer le thorme, il est susant de montrer que
n i=1
i = 1, . . . , n.
i )(Y i Y ) = 0. (Yi Y
La dnition de i permet dcrire le membre de gauche de cette galit comme

n i=1
i )(Y i Y ) = (Yi Y
n i=1
i Y ) = i (Y
n i=1
i Y i Y
i =
i=1 i=1
i = i Y
n i=1
0 + 1 Xi ). i (
i . o lavant-dernire galit provient de la proprit 2.5 et la dernire de la dnition de Y En dcomposant la dernire expression, on a
n i=1
0 i )(Y i Y ) = (Yi Y
n i=1
1 i +
i Xi .
i=1 n i=1 (Yi
Les deux galits de la proprit 2.5 permettent de conclure

rem:moy_va
i )(Y i Y ) = 0. Y
Remarque 2.8 Ce rsultat a linterprtation suivante. Le membre de gauche de lgalit (2.25) est une mesure des variations des Yi autour de leur moyenne au sein de lchantillon des individus i = 1, . . . , n, ces variations tant mesures par les (carrs des) distances entre les Yi et leur moyenne. Pour interprter le membre de droite, il faut remarquer que 1 n i = 1 Y n i=1
n n i=1
(Yi i ) = Y
1 n
i = Y ,
i=1
daprs la premire galit de la proprit 2.5. Par consquent le premier terme du membre de i autour de leur moyenne au sein de droite de lgalit (2.25) est une mesure des variations des Y lchantillon des individus i = 1, . . . , n. Quant au second terme de ce membre de droite, il est gal i autour de leur moyenne, celle-ci valant 0 daprs 2 n i=1 i , qui est une mesure des variations des la proprit 2.5. Lgalit (2.25) du thorme 2.5 est une dcomposition des variations des Yi en la somme des i et des variations des variations de Y i . Si on revient linterprtation du modle, on rappelle que Yi est dtermine par deux facteurs non-corrls lun avec lautre : un facteur prenant la forme dune fonction ane de la variable explicative du modle Xi , et un facteur reprsent par toutes les autres variables non-corrles avec Xi . Par consquent, les sources des variations des Yi sont aussi de deux natures : il y a dun ct la partie des variations de Yi dues aux variations de la variable explicative, et de lautre la partie des variations de Yi attribuable aux variations de variables non-corrles avec la variable explicative.
2.4. MESURE DE LA QUALIT DE LESTIMATION PAR MOINDRES CARRS ORDINAIRES41 Lgalit (2.25) traduit cette distinction dans les sources des variations observes des Yi . Le membre de gauche mesure les variations observes des Yi . Il sagit de la variation totale, sans que lon chercher distinguer la partie de ces variations attribuables une source ou lautre. On 2 appelle le terme n i=1 (Yi Y ) variation totale, ou somme des carrs totaux (SCT). 2 Dans le membre de droite, le premier terme n i=1 (Yi Y ) est une estimation de la part des i est une variations des Yi qui sont attribuables aux variations de la variable explicative. En eet Y estimation E(Yi ), cest--dire de la partie de Yi qui peut scrire entirement comme une fonction ane de la variable explicative, uniquement. Par consquent, la seule source de variabilit de E(Yi ) 2 est la variabilit de Xi . Lestimation de la variabilit de E(Yi ) est n i=1 (Yi Y ) . On appelle le n 2 i Y ) variation explique, ou somme des carrs expliqus (SCE). terme i=1 (Y i )2 = n 2 , cest une estimation Quant au second terme du membre de droite n (Yi Y
i=1 i=1 i
de partie des variations des Yi qui ne peuvent tre causes par des variations de Xi . Cest la partie des variations des Yi qui reste, ou rsiduelle, une fois quon a retranch aux variations des Yi la 2 part attribuable aux variations de la variable explicative. On appelle le terme n i=1 i variations rsiduelles, ou somme des carrs des rsidus (SCR).
On peut donc r-noncer le thorme 2.5 de la faon suivante : dans le modle de rgression linaire simple, on a SCT = SCE + SCR. partir de cette galit, on peut construire un estimateur de la capacit de la variable explicative dterminer le niveau de la variable dpendante.
def:r2
Dnition 2.6 Dans le modle de rgression linaire simple, on appelle coecient de dtermination de la rgression, et on note R2 le nombre dni par R2 = SCE = SCT
n i=1 (Yi n i=1 (Yi
Y )2 Y )2
rem:r2
Remarque 2.9 1. Puisque SCT = SCE + SCR et que les trois sommes de cette galit sont positives, on a ncessairement SCT SCE 0 et donc 0 R2 1. Le rapport dnissant R2 sinterprte alors comme une proportion. Le coecient de dtermination est la part des variations observes des Yi quon peut estimer tre attribuables aux variations de la variable explicative. On dira alors quon peut estimer que (100 R2 )% des variations des variables Y1 , . . . , Yn sont dues aux variations des variables explicatives X1 , . . . , Xn .. 3. Le rapport R2 est une mesure de la capacit des variables explicatives faire varier, par leurs propres variations, les variables endognes. Autrement dit, R2 est une mesure de leet que les Xi peuvent avoir sur les Yi , cest dire une mesure du pouvoir explicatif des Xi sur les Yi . Plus prcisment, plus R2 est proche de 1, plus la part des variations des Yi quon peut attribuer aux variations des Xi est grande. De faon quivalente, plus R2 est proche de 1, plus la part des variations des Yi attribes aux variables autres que X1 , . . . , Xn (et non corrles aux Xi ) est faible. Autrement dit, le principal dterminant du niveau des Yi est le niveau des Xi . Dans ce cas, le pouvoir explicatif des variables explicatives est lev. Si R2 est proche de 0, la plus grande partie des variations des variables Yi est attribuable aux variations rsiduelles, cest dire aux variations des variables autres que les variables explica2. On voit que lgalit SCT = SCE + SCR permet de dnir R2 par 1
SCR SCT
=1
SCT
n 2 i=1 i
42
CHAPITRE 2. LE MRLS : ESTIMATION DES PARAMTRES tives, et non-corrles celles-ci. Dans ce cas, le pouvoir explicatif des variables explicatives est faible. Les cas extrmes R2 = 0 et R2 = 1 peuvent snoncer (de manire quivalente) sous une forme qui permet dobtenir directement les interprtations donnes ci-dessus. Cest ce quexprime la proprit 2.6 (voir plus bas). 4. On a justi (dans la section 2.1) la dmarche destimation des paramtres par minimisation de la fonction S , en notant que pour un choix donn (0 , 1 ) R2 , le nombre S (0 , 1 ) mesurait limportance des facteurs autres que la variable explicative dans la dtermination du niveau de la variable explique, via la relation Y = 0 + 1 X + (voir page 22). Autrement dit, choisir destimer de cette manire les paramtres, revient choisir les valeurs de ces paramtres qui maximisent la capacit de la variable explicative X dterminer le niveau de la variable explique Y . Maintenant quon dispose, travers le coecient de dtermination R2 , dune estimation de cette capacit, on devrait tre capable de formaliser la justication donne la minimisation de S . Pour cela, pour chaque couple (0 , 1 ) de valeurs possibles des paramtres, on peut mesurer la capacit de X dterminer le niveau de Y lorsque la valeur des paramtres est (0 , 1 ) par la quantit R2 (0 , 1 ) dnie par R2 (0 , 1 ) = 1
n i=1 (Yi
0 1 Xi )2 SCT
On voit alors que chercher les valeurs des paramtres qui donnent la capacit maximum de X pour expliquer Y sont celles qui maximisent R2 (0 , 1 ) ou encore, celles qui minimisent S (0 , 1 ). Par consquent, le couple de valeurs (0 , 1 ) pour lequel R2 (0 , 1 ) est maximal est 0 , 1 ). videmment ( R
pro:R2
Proprit 2.6 Dans le modle de rgression linaire simple, si i, j tels que Xi = Xj , alors on a
, ) R2 , Y = + X , i = 1, . . . , n. 1. R2 = 1 (0 i 1 i 0 1 2 2. R = 0 1 = 0.
Preuve : 1. En utilisant les dnitions de R2 et de i on a

n
R = 1 SCR=0
i=1
2 i = 0, i = 1, . . . , n i = 0 0 + 1 Xi , i = 1, . . . , n Yi =
i + i . On o la dernire quivalence provient de lgalit Yi = Y i et de la dnition de Y voit donc que lquivalence du premier point de la proprit est obtenu en choisissant = 1 . 0 et = 0 1 2. Toujours avec les mmes dnitions, on a
n
R2 = 0 SCE=0
i=1
i Y )2 = 0 Y i = Y , i = 1, . . . , n (Y i = Y j , i, j = 1, . . . , n Y
2.4. MESURE DE LA QUALIT DE LESTIMATION PAR MOINDRES CARRS ORDINAIRES43 i , les dernires galits sont quivalentes En utilisant la dnition des Y 1 (Xi Xj ) = 0, i, j = 1, . . . , n Ces n2 galits sont toutes vraies si et seulement si 1 = 0 Xi = Xj , i, j = 1, . . . , n ou 1 = 0. La premire condition tant exclue, on obtient donc R2 = 0
rem:R2
Remarque 2.10 1. Le premier point de la proposition 2.6 montre clairement que lorsque R2 = 1 on estime que Yi est uniquement dtermin par Xi , i = 1, . . . , n. Dans ce cas, pour tout individu i, les facteurs autres que Xi pouvant aecter le niveau de Yi sont inexistants. Dans la formulation du modle de rgression linaire simple, cela revient crire que i = 0 pour i = 1, . . . , n, et quon peut crire Yi comme une fonction ane de Xi . La condition C 2 est dans ce cas : 0 R, 1 R t.q. Yi = 0 + 1 xi , i = 1, . . . , n.
La preuve de la proposition 2.6 montre que les rels 0 et 1 qui satisfont les n galits de 0 et 1 , respectivement. Tous les points de coordonnes la condition C 2 sont donns par 0 + 1 x. (Xi , Yi ), i = 1, . . . , n, appartiennent la droite dquation y = 2. Le second point montre que lorsque R2 = 0, on estime que Yi nest dtermin que par des variables autres que Xi . Autrement dit, on estime donc que lorsque Xi varie, cela nengendre aucune variation de Yi . Dans le contexte dun modle de rgression linaire simple, dans lequel on suppose que Yi = 0 + 1 Xi + i , cela revient estimer que 1 = 0. Cest prcisment ce 1 = 0. que dit lgalit 3. Le premier point de cette proprit laisse suggrer quil existe une relation entre le coecient de dtermination et le coecient de corrlation linaire empirique. On rappelle que le coefcient de corrlation linaire empirique entre les variables X et Y , not r (X, Y ), est dni par n i=1 (Xi X )(Yi Y ) r (X, Y ) = n n 2 2 i=1 (Yi Y ) i=1 (Xi X ) Il permet dvaluer lintensit dune liaison linaire entre X et Y . On peut donc sattendre ce que ce coecient soit li au coecient de dtermination, puisque ce dernier mesure le pouvoir explicatif de X sur Y au travers dune liaison linaire du type Yi = 0 + 1 Xi , perturbe par un terme i . Lintensit de cette liaison linaire sera dautant plus forte (et donc |r (X, Y )| proche de 1) que linuence des i sera faible. Cest prcisment ce quindique le coecient de dtermination R2 . La proprit suivante formalise cette remarque.
pro:R2_rxy2
Proprit 2.7 Dans le modle de rgression linaire simple, on a R2 = r (X, Y )2 . Preuve : On rappelle que Y concide avec la moyenne des valeurs ajustes (voir la remarque 2.8). Par consquent 1 n 1 n 1 Xi ) = 0 + 1 X Y = Yi = (0 + n i=1 n i=1
44 Donc
n i=1
i Y )2 = (Y =
n i=1
2 0 + 1 Xi 0 + 1 X )2 = ( 1
n i=1 (Xi X )(Yi n 2 i=1 (Xi X )
n i=1
(Xi X )2
2 n i=1 (Xi X )(Yi n 2 i=1 (Xi X )
Y)
2 n i=1
(Xi X ) =
Y)
1 . Le rsultat dcoule o pour obtenir la dernire galit, on a utilis lexpression (2.24) de directement de lutilisation de cette expression dans la dnition de R2 . Remarque 2.11 (Coecient de dtermination dans un modle o la relation na pas de terme constant) Finalement, remarquons que la formule du R2 et son interprtation reposent sur la dcomposition (2.25) du thorme 2.5. Celle-ci a t obtenue en utilisant les galits de la proprit 2.5. Or la premire de ces galits nest en gnral pas vrie dans un modle de rgression linaire dans lequel on impose 0 = 0 (Exercice : vrier cette armation). Par consquent, dans un tel modle, les proprits du coecient R2 et son interprtation ne sont plus valables. Cependant, la proprit 2.6 et les observations faites aux remarques 2.9 et 2.10 permettent de donner une autre interprtation au R2 , et partir de l, den proposer une extension adapte au cas o on suppose 0 = 0. Pour cela, on envisage successivement deux contextes possibles. Si on place dans le contexte o on suppose que la variable exogne na aucun pouvoir explicatif sur la variable endogne, alors 1 = 0 et si on estime le modle sous cette condition, les valeurs o = Y pour tout i = 1, . . . , n (Exercice : vrier ceci). Si o , sont alors Y ajustes obtenues, notes Y i i maintenant on se place dans le contexte o rien nest dit a priori sur le pouvoir explicatif de la 0 + 1 Xi , i = 1, . . . , n. Par consquent, on peut interprter i = variable exogne, on a videmment Y i Y )2 comme la distance entre les ie valeurs ajustes obtenues dans chacun des deux i Y o )2 = (Y (Y i 2 contextes, et n i=1 (Yi Y ) comme la distance totale entre toutes ces valeurs ajustes. Si le pouvoir explicatif de la variable exogne est eectivement faible (ou nul), alors lestimation eectue dans chacun de ces deux contextes et les valeurs ajustes correspondantes devraient tre peut direntes. 2 i peu dirent de Y pour tout i et donc n (Y Autrement dit on devrait avoir dans ce cas Y i=1 i Y ) proche de 0. Or ce terme est le numrateur du coecient R2 et celui-ci devrait donc galement tre proche de 0. Ceci est prcisment linterprtation de la valeur de R2 donne dans le second point de la remarque 2.9. On peut alors maintenant reprendre ce mme raisonnement lorsquon considre un modle dans lequel la relation ne contient aucun terme constant, i.e., Yi = 1 Xi + i , i = 1, . . . , n. Dans ce cas, si on suppose que la variable exogne na pas de pouvoir explicatif (i.e., 1 = 0) et quon utilise o = 0 pour tout cette hypothse pour lestimation du modle, les valeurs ajustes obtenues sont Y i i = 1, . . . , n (Exercice : montrer cela). Si maintenant aucune hypothse nest faite a priori sur ce 1 Xi , i = 1, . . . , n, o 1 est obtenu en minimisant n (Yi 1 Xi )2 . i = pouvoir explicatif, alors Y i=1 La distance totale entre les valeurs ajustes obtenues dans chacun de ces deux contextes est donc n 2 o 2 prsent n i=1 Yi . i=1 (Yi Yi ) = Si comme prcdemment, on value le pouvoir explicatif de la variable exogne en examinant la distance totale entre les valeurs ajustes obtenues dans ces deux contextes, on R
2.4. MESURE DE LA QUALIT DE LESTIMATION PAR MOINDRES CARRS ORDINAIRES45 On termine cette section en rappelant les proprits lmentaires du coecient de corrlation linaire empirique. Proprit 2.8 2. r (X, Y ) = 1 a ]0, +[, b R, Yi = aXi + b i = 1, . . . , n. De plus, r (X, Y ) = 1 a ] , 0[, b R, Yi = aXi + b i = 1, . . . , n. Pour dmontrer ces proprits, il est commode dintroduire la notation suivante : X,Y = X )(Yi Y ). Ainsi, on peut rcrire r (X, Y ) = X,Y / X,X Y,Y . Preuve :
n i=1 (Xi
1. r (Y, X ) = r (X, Y ) [1; 1].
1. La proprit de symtrie rsulte directement du fait que X,Y = Y,X . Pour tout rel , on peut former
n
X +Y,X +Y =
i=1
(Xi + Yi ) (X + Y )
En dveloppant, on peut crire

n
X +Y,X +Y =
i=1
(Xi X ) + (Yi Y )
= 2 X,X + Y,Y + 2X,Y
(2.26)
eq:cs
Cette expression permet de considrer X +Y,X +Y comme un polynme en R. On note que ce polynme est toujours positif ou nul (il peut sexprimer comme une somme de carrs). Par consquent, son discriminant doit ncessairement tre ngatif ou nul. Autrement dit, on doit avoir 42 X,Y 4X,X Y,Y 0, ou encore 2 cest dire r (X, Y ) 1. Do le rsultat.
2 X,Y X,X Y,Y
1,
2. Supposons quil existe des rels a et b, avec a = 0, tels que Yi = aXi + b, pour tout i = 1, . . . , n. On a Yi Y = a(Xi X ) pour tout i et on vrie alors facilement que Y,Y = a2 X,X et que X,Y = aX,X . Par consquent, r (X, Y ) = 1 si a > 0 et r (X, Y ) = 1 si a < 0. Supposons maintenant que |r (X, Y )| = 1, ou de manire quivalente, que r (X, Y )2 = 1. Cela quivaut aussi 2 X,Y = X,X Y,Y . Le discriminant du polynme introduit en (2.26) est alors nul et il admet une racine unique, note . Daprs (2.26), on peut crire
n i=1
(Xi X ) + (Yi Y )
=0
Cette somme de carrs est nulle si et seulement si tous les carrs sont nuls. On doit donc avoir (Xi X ) + (Yi Y ) = 0, i = 1, . . . , n, ou encore Yi = aXi + b, i = 1, . . . , n avec a = et b = X + Y . Finalement, on tudie le signe de a. Notons que la racine est gale X,Y /X,X . Donc, sous lhypothse initiale que |r (X, Y )| = 1, on a a > 0 X,Y > 0 r (X, Y ) = 1 et donc a < 0 X,Y < 0 r (X, Y ) = 1.
46
sec:sigma2
2.5
2.5.1
Estimation des variances

Estimation de la variance des termes derreur
Comme on le verra dans la section suivante, on ne peut se contenter dune simple estimation de 0 et de 1 . On souhaite par exemple disposer dune mesure de la prcision de lestimation obtenue. Puisque les estimateurs des moindres carrs ordinaires sont sans biais, on peut mesurer leur prcision par la variance de ces estimateurs. Nous avons vu dans la proprit 2.4 lquation (2.16), et dans le corollaire qui suit, que les variances des estimateurs des moindres carrs ordinaires dpendent de la variance 2 des termes derreur i . Or la valeur de celle-ci est inconnue. Dans cette section, on prsente une faon destimer cette variance base sur le rsultat suivant. Proprit 2.9 Dans le modle de rgression linaire simple, si les paramtres 0 et 1 sont identis, on a
n
E
i=1
2 2 i = (n 2) .
Preuve : On a 0 1 Xi i = 0 + 1 Xi + i i = Yi Y 1 X 1 Xi = 0 + 1 Xi + i Y + i ] [par dnition des Y 0 ] [par dnition de [par calcul de Y ]
1 X 1 Xi = 0 + 1 Xi + i 0 1 X + 1 1 ) = i (Xi X )(
Donc
2 2 2 2 2 i = i + + (Xi X ) (1 1 ) 2i (Xi X )(1 1 ) 2i + 2(Xi X )(1 1 )
et
n n
2 i =
i=1 i=1
2 2 2 i + n + (1 1 )
n i=1
1 1 ) (Xi X )2 2(
n i=1
(Xi X )i 2n2
n i=1
1 1 ) + 2(
(Xi X ) (2.27)
eq:sumrescarre
Le dernier terme du membre de droite est nul. Dautre part, daprs lexpression (2.24), le 1 peut scrire numrateur de
n i=1 n
(Xi X )Yi =
i=1
(Xi X )(0 + 1 Xi + i )
n n n
= 0
i=1 n
(Xi X ) + 1 (Xi X )Xi +
i=1 n i=1
(Xi X )Xi + (Xi X )i
i=1
(Xi X )i
= 1
i=1
2.5. ESTIMATION DES VARIANCES car

n i=1 (Xi
47
X ) = 0. Par consquent
n i=1 (Xi X )Yi n i=1 (Xi X )Xi
1 = et donc
= 1
n i=1 (Xi n i=1 (Xi
X )Xi + X )Xi
n i=1 (Xi X )i n i=1 (Xi X )Xi
1 1 = Par consquent n i=1 (Xi X )i = (1 1 ) dans (2.27), on peut crire

n n
n i=1 (Xi X )i n 2 i=1 (Xi X )
n 2 i=1 (Xi X ) n i=1
et en utilisant cette expression
2 i =
i=1 i=1
2 2 i (1 1 )
(Xi X )2 n2
Si prsent on calcule lesprance, on obtient

n n
E
i=1
2 i =
i=1
2 E(2 i ) + E (1 1 ) n
n i=1 2
(Xi X )2 nE(2 ) [linarit de lesprance]

n n
1 ) = n V(
2
n (Xi X ) 2 n i=1
n
1 ) = 1 ] E(i j ) [condition C 4 ; E(
i=1 j =1
= n 2 2
2 2
1 n
2
E(2 i)
i=1
1 )] [condition C 4 ; expression de V(
= n
cor:sigma
Corollaire 2.2 Dans le modle de rgression linaire simple, la variable alatoire 2 dnie par 1 = n2
2 n
2 i
i=1
est un estimateur sans biais de . On a E( 2 ) = 2 .
2.5.2
Estimation de la variance des estimateurs des moindres carrs ordinaires
Comme mentionnn la remarque 2.5 les variances des estimateurs des moindres carrs ordinaires ne sont inconnues que parce que 2 lest. Cependant, le rsultat prcdent nous permet de former des estimateurs des variances.
pro:estimvarmco
Proprit 2.10 Dans le modle de rgression linaire simple, si les paramtres 0 et 1 sont iden ( 0 ) et V ( 1 ) dnies par tis, les variables alatoires V 1 0 ) = ( + V 2 n X n 2 i=1 (Xi X )
2
et
1 ) = ( V
2 n 2 i=1 (Xi X )
0 ) et V( 1 ), respectivement. sont des estimateurs sans biais de V( k ) = ( Preuve : Il dcoule directement de lexpression des variances et du corollaire 2.2 que E V V(k ), k = 0, 1.
48
Chapitre 3
sec:univ-tests
Le modle de rgression linaire simple : tests et rgions de conance

Dans cette section, on sintresse dune autre manire aux paramtres dintrt du modle de rgression linaire simple. Le problme dinfrence abord est celui des tests dhypothses sur ces paramtres. La dmarche sera videmment celle rappele la section section 10.3.2. Lassimilation de cette section est donc un pralable la lecture de ce chapitre.
sec:MRLSG
3.1
Contexte : le modle gaussien
Jusqu prsent, on a tudi le problme de lestimation des paramtres du modle de rgression linaire simple. Les proprits quil est possible dtablir pour les estimateurs dpendent de la manire dont a t spci le modle. Ainsi en sappuyant sur les conditions C1 C2, il a t 0 et 1 sont des estimateurs sans biais de 0 et 1 . En rajoutant la possible de montrer que 1 tait condition C3, on a pu tablir que parmi tous les estimateurs linaires et sans biais de 1 , celui qui avait la plus petite variance. Si on sintresse maintenant un problme de test, la dmarche est similaire. On peut commencer par proposer un test, puis en utilisant les conditions qui spcient le modle, on tudie les proprits de ce test. Puis parmi tous les tests envisags, on cherche ventuellement le meilleur. On sait, comme cela est rappel dans la section 10.3.2, que pour tablir les proprits dun test et choisir un test optimal il est ncessaire de pouvoir eectuer des calculs de risques. Ces derniers tant dnis comme des probabilits de commettre des erreurs, il faut pour cela disposer de lois permettant de faire les calculs de probabilit. Notons que dans le modle de rgression linaire simple tel que dni par les conditions C1, C2 et C3, rien ne nous permet de faire de tels calculs, ds que ceux-ci portent sur des statistiques qui sont des fonctions de Y1 , . . . , Yn . Il faut donc complter dune certaine manire la dnition du modle et lui ajouter des conditions qui permettront deectuer le calcul des risques. Plusieurs approches sont possibles. Celle quon adopte (la plus simple) consiste introduire dans la dnition mme du modle les lois permettant le calcul des probabilits derreurs. On modie alors la dnition du modle de rgression linaire simple. 49
50
sec:modeleG
CHAPITRE 3. LE MRLS : TESTS ET RGIONS DE CONFIANCE
3.1.1
Dnition du modle gaussien
On modie la dnition du MRLS de manire introduire explicitement dans le modle une loi de probabilit qui permet de calculer les risques des tests quon utilisera. Pour dnir le nouveau modle, on ajoute aux conditions C1 C3 (ou C 1 C 3) qui dnissent le MRLS, la condition C N suivante : C N. (1 , . . . , n ) est un n-uplet gaussien La section 9.1 regroupe tous les rsultats et dnitions relatifs la loi normale et aux n-uplets gaussiens qui seront utiliss dans ce document. On rappelle en particulier (voir la dnition 9.1) que n variables alatoires forment un n-uplet gaussien si toute combinaison linaire de ces variables dnit une variable alatoire gaussienne (i.e., dont la loi de probabilit est une loi normale). On rappelle galement quun tel n-uplet peut tre vu comme un vecteur alatoire de Rn (cest dire un vecteur de Rn dont les coordonnes sont alatoires). Finalement, on rappelle que comme pour une variable alatoire gaussienne (ou normale), la loi dun vecteur alatoire gaussien est entirement caractrise par le vecteur des esprances et par la matrice des variances-covariances (voir la remarque 9.2). Avec la condition C N, on considre le n-uplet (1 , . . . , n ) comme les coordonnes du vecteur alatoire . On a daprs la condition C 3 et la dnition des termes derreur : 0 . . E() = . = 0n 0

o 0n dsigne le vecteur nul de Rn et In la matrice identit de Rn vers Rn . Avec la condition supplmentaire C N, on aura donc N (0n , 2 In ). (Exercice : dtailler ce raisonnement)
2 0 0 2 V() = . .. . . . . . . 0 0
0 0 = 2 In . . .
On saperoit donc que le modle de rgression linaire simple dni par les conditions C 1 C 3 et C N peut aussi se dnir de manire quivalente par les conditions C 1, C 2 et C N, o cette dernire est C N. ]0, +[, N (0n , 2 In ). On appelle modle de rgression linaire simple gaussien (MRLSG par la suite) le modle dni par les conditions C 1, C 2 et C N. Ce modle servira de contexte dans lequel seront construits des tests permettant de tester des hypothses formules sur les paramtres dintrt. Nous avons montr que le modle de rgression linaire simple admet deux dnitions quivalentes, lune exprime au moyen de conditions portant sur les proprits de Y1 , . . . , Yn et lautre au moyen de conditions portant sur les proprits 1 , . . . , n . Il en est de mme pour le MRLSG, ainsi que le montre la proprit suivante.
pro:CN
Preuve : Exercice : montrer que si on suppose C 1, C 2 et C N vraies, alors C1, C2 et CN le sont aussi, et rciproquement.
Proprit 3.1 Dnissons Y = (Y1 , . . . , Yn ) , X = (X1 , . . . , Xn ) et n = (1, . . . , 1) Rn . Les conditions C 1, C 2 et C N sont vries si et seulement si les conditions C1 et CN le sont aussi, la condition CN tant dnie par CN. 0 R, 1 R, ]0, +[, Y N (0 n + 1 X , 2 In ).
3.1. CONTEXTE : LE MODLE GAUSSIEN On peut formaliser la proprit prcdente en introduisant une dnition du MRLSG.
def:msrlg-univ
51
Dnition 3.1 Soient (X1 , Y1 ), . . . , (Xn , Yn ) n couples de variables alatoires dont les observations sont notes (x1 , y1 ), . . . , (xn , yn ). Le modle de rgression linaire simple gaussien (MRLSG) de Y sur X est un modle statistique dans lequel les conditions C1 et CN sont satisfaites. De manire quivalente, ce modle est galement dni par les conditions C 1, C 2 et C N. Lanimation de la gure 3.1 illustre la modlisation de la relation entre les variables explicatives et expliques retenue dans le MRLSG. 1 Par rapport au modle de rgression linaire simple, le MRLSG ajoute la condition que le n-uplet (Y1 , . . . , Yn ) est gaussien. Pour reprsenter cet ajout de condition graphiquement, on reprend le graphique de la gure 1.1 en y ajoutant une 3e dimension (verticale) qui permet de reprsenter le caractre gaussien des variables expliques Y1 , . . . , Yn . La droite reprsentant dans le plan la relation entre E(Yi ) et xi , pour i = 1, . . . , n est dabord trace. Pour chaque individu i, on reprsente par un le couple dobservations (xi , yi ) ainsi que, en utilisant la dimension verticale, la densit (gaussienne) de Yi (courbe en cloche ). Cette variable alatoire gaussienne est desprance E(Yi ) et dcart-type . On rappelle que ces deux paramtres dterminent entirement la forme de la densit dune variable alatoire gaussienne. Plus prcisment, lesprance dtermine lemplacement de la courbe de la densit (plus exactement de son axe de symtrie) et lcart-type dtermine la forme de cette densit (son caractre plus ou moins aplati). Par consquent, dans le cas du MRLSG, les densits de Yi et Yj sont respectivement situes autour de E(Yi ) et de E(Yj ) et ont le mme forme, puisque dans ce modle les carts-type de Yi et Yj sont les mmes.
sec:probetaG
3.1.2
Proprits des estimateurs dans le modle gaussien
Lajout de la condition CN dans la dnition du modle de rgression linaire simple permet dobtenir des rsultats supplmentaires pour les estimateurs des moindres carrs ordinaires de 0 et 1 , ainsi que pour lestimateur de la variance 2 . Il est commode dintroduire les notations suivantes : 0 = 0 et = (3.1) 1 1 est donc un vecteur alatoire de R2 et est un lment de R2 .
pro:mcogauss
eq:betah_vec
Preuve : Exercice
0 , 1 ) est gaussien. On a N (, V) o V = 2 v Proprit 3.2 Dans le MRLSG, le couple ( avec 2 X 1 X + n n 2 2 n i=1 (Xi X ) i=1 (Xi X ) v= X 1 n n 2 2 i=1 (Xi X ) i=1 (Xi X )
1. On rappelle que lanimation nest visible quavec le lecteur Adobe Reader (voir page 5). Si vous ne disposez pas de ce lecteur, lanimation est visible http://gremars.univ-lille3.fr/~torres/enseigne/ectrie/mrlsg .
52
E(Yj ) y yi j E(Yi ) = + |ei | 1 xi 0
Va l va eurs ria d bl e l ee a xp liq u
0
xi xj Valeurs de la variable exp licative
Par rapport lindividu i, la densit de lindividu j sest dplace, puisque daprs la condition CN elle doit tre symtrique autour de lesprance E(Yj ). La condition CN implique par ailleurs la condition C3, qui impose que les variances sont gales : V(Yi ) = V(Yj ) = 2 . Par consquent, la forme des densits pour les individus i et j est la mme (voir la section 9.1.1).
fig:figmrlsg
Figure 3.1: Modlisation de la relation entre variables dans le modle de rgression linaire gaussien Corollaire 3.1 Dans le MRLSG, les estimateurs des moindres carrs ordinaires de 0 et de 1 sont des variables alatoires gaussiennes. On a 0 N 0 , 2 ( 1 + n X ) n 2 i=1 (Xi X )
2
coro:mcogauss
1 N 1 ,
2 n 2 i=1 (Xi X )
. On commence par Pour terminer cette section, on complte le rsultat obtenu sur la loi de rappeler des dnitions introduites dans la section 9.1.
def:rap_loi
Dnition 3.2 1. La loi du 2 m degrs de libert est la loi suivie par la somme des carrs de m variables alatoires gaussiennes N (0, 1) indpendantes. On note cette loi 2 (m). Autrement dit, si
3.1. CONTEXTE : LE MODLE GAUSSIEN (Z1 , . . . , Zm ) est un m-uplet gaussien N (0m , Im ), alors T = Z
C m m 2 j =1 Zj
53 2 (m).
2. La loi de Student m degrs de libert est la loi de la variable alatoire T dnie par
3. La loi de Fisher m1 et m2 degrs de libert est la loi de la variable alatoire F dnie par F = C1 /m1 C2 /m2
o Z et C sont des variables alatoires indpendantes, avec Z N (0, 1) et C 2 (m). On note T Student(m).
o les variables alatoires C1 et C2 sont indpendantes, avec Ck 2 (mk ), k = 1, 2. On admettra temporairement le rsultat suivant, qui est une consquence de la proprit 9.18.
pro:chi2
Proprit 3.3 Dans le MRLSG, la variable alatoire
suit une loi du 2 (n 2) degrs de liberts. De plus, cette variable alatoire est indpendante de . Corollaire 3.2 Dans le MRLSG, quels que soient les rels a0 et a1 avec a0 = 0 ou a1 = 0, on a
2 a2 0 V(0 ) + a1 V(1 ) + 2a0 a1 cov(0 , 1 )
n 2 i=1 i 2
or:stu_comb_lin_beta
0 0 ) + a1 ( 1 1 ) a0 (
Student(n 2)
0 ) et V 1 ) sont les variances estimes de 0 et 1 dont les expressions sont donnes la ( ( o V 0 et 1 , dnie par proprit 2.10, et cov(0 , 1 ) la covariance estime entre 0 , 1 ) = cov( 2 Preuve : Exercice
n i=1 (Xi
X X )2
0 + a1 1 est une variable alatoire gaussienne (utiliser la proprit 3.2). Montrer que a0 Calculer son esprance et sa variance Centrer et rduire cette variable an de former une variable alatoire quon note Z . 2 2 Montrer que (n 2) 2 (n 2) et quelle est indpendante de Z (utiliser la proprit 3.3). Former un rapport ayant une loi de Student (utiliser la dnition 3.2). 0 ), V( 1 ), cov( 0 , 1 ) et de leurs estimateurs, puis sim Utiliser les expressions de V( plier an dobtenir le rsultat. Un cas particulier important du rsultat prcdent est obtenu en choisissant (a0 , a1 ) = (0, 1) ou bien (a0 , a1 ) = (1, 0).
cor:mcostudent
Corollaire 3.3 Dans le MRLSG, on a pour k = 0, 1 k k Student(n 2)
( k ) V
54
sec:testb1
3.2
3.2.1
Test dune hypothse sur 1

Test de signicativit
sec:test1
Le paramtre 1 est le paramtre essentiel dans le MRLS(G). En eet, ce modle a t construit an de fournir un cadre dtude dune relation suppose exister entre X et Y. Plus prcisment, ce modle stipule que Y est une fonction ane de X et par consquent la manire dont Y dpend de dY X peut se mesurer par 1 = d X . Une question essentielle (et qui a dj t aborde la section 2.4.2) est celle de lexistence dune telle dpendance. Pour tudier cette question, on peut poser et rsoudre le problme de test suivant : H0 : 1 = 0 H1 : 1 = 0
Si la procdure de test utilise conduit accepter H0 , on dira que le paramtre 1 nest pas signicativement dirent de 0, ou encore que 1 nest pas signicatif. Par extension, lorsquon rsout le problme de test considr ici, on dit que lon fait un test de signicativit de 1 . Rsoudre ce problme consiste se xer un niveau ]0, 1[ puis choisir une statistique Tn = T (X1 , Y1 ), . . . , (Xn , Yn ) et une rgion T de R tels que 2. lorsque H0 est vraie, la probabilit que cet vnement se ralise ne dpasse pas . La premire condition dnit le test au moyen duquel on choisit entre H0 et H1 . En reprenant la notation de la section 10.3.2, ce test sera dni par
1 si T T n (X1 , Y1 ), . . . , (Xn , Yn ) = 0 sinon
1. H0 sera rejete si et seulement si lvnement Tn T se ralise ;
La seconde condition impose au test choisi davoir le niveau : le risque de type 1 de ce test ne dpasse pas . Pour un niveau x, le choix de la statistique Tn (ou, de manire quivalente, de la fonction T ) et de la rgion T tel que les deux conditions ci-dessus sont satisfaites nest pas unique. Autrement dit, pour le problme de test pos, il existe plusieurs tests de niveau . Pour choisir parmi deux de ces tests, il faudra valuer leurs risques de type 2 et retenir le test dont le risque de type 2 est le plus petit. De manire plus gnrale, en suivant lapproche due Neyman et Pearson (voir page 249), il faut chercher parmi tous les tests de niveau celui, sil existe, dont le risque de type 2 est le plus faible. Comme pour le problme de lestimation, on abordera dans un premier temps la rsolution de ce problme par une approche intuitive ; on prsentera ensuite une approche thorique, guide par lapproche usuelle des tests statistiques. On mentionne nalement que toutes les dnitions et rsultats obtenus pour 1 et le problme de test H0 : 1 = 0 contre H1 : 1 = 0 se transposent directement au paramtre dordonne lorigine 0 en changeant simplement lindice 1 et indice 0 (sauf pour la dsignation des hypothses H0 et H1 , bien entendu).
3.2. TEST DUNE HYPOTHSE SUR 1

sec:test1int
55
3.2.2
Approche intuitive
Cette approche repose sur lenchanement suivant. 1 nest pas connu, mais nous pouvons en 1 , le plus prcis des estimateurs linaires sans biais de 1 . avoir une bonne estimation, fournie par Pour dcider si 1 est nul (H0 est la bonne hypothse) ou pas (H1 est la bonne hypothse), on peut 1 . En eet, puisque ce dernier est un bon estimateur se baser sur lobservation de la valeur de 1 est proche de 0 lorsque 1 = 0, i.e., lorsque H0 est vraie. de 1 , il est probable dobserver que 1 est loign de 0, on observe un vnement dont la Autrement dit, si on est amen observer que probabilit doccurrence est faible lorsque H0 est vraie. On juge alors que H0 nest pas vraisemblable au vu de ce quon observe et on rejette H0 . Dans une telle approche, il faut se xer un seuil s, avec s ]0, +[, permettant dexprimer 1 | > s. En reprenant la dmarche 1 est trop loign de 0 au moyen dune ingalit telle que | gnrale de construction des tests expose dans la section 10.3.2, la statistique Tn est ici gale 1 | et la rgion critique T , constituant lensemble des valeurs de la statistique qui sont peu | vraisemblables lorsque H0 est vraie, est T = ]s, +[. Lvnement Tn T conduisant au rejet de 1 | > s. H0 est donc bien | 1 est jug trop loign de 0 pour que H0 soit une Le nombre s dsigne le seuil au del duquel hypothse plausible. La question du choix de s reste pose. Pour guider ce choix, on fait appel la condition de niveau qui impose que PH0 (Tn T ) (voir lingalit (10.1) et les commentaires qui laccompagnent, page 249). Cette ingalit scrit encore 1 | > s) PH0 (| (3.2)
eq:stud1
Choisir s de manire que le test ait un niveau revient rsoudre en s lingalit (3.2). La probabilit qui en constitue le membre de gauche est dtermine par la loi de la variable alatoire 1 . Les rsultats obtenus dans la section 3.1 nous permettent pour nimporte quel rel s > 0 de calculer le membre de gauche de lingalit (3.2). En eet, daprs le corollaire 3.3, la loi de la 1 1 variable alatoire est connue et on peut crire
V(1 )
1 | > s) = 1 PH (s 1 s) PH0 (| 0 = 1 P H0 = 1 P H0 s 1 ( 1 ) V ( 1 ) V
1 1
( 1 ) V
s 1
( 1 ) V
s 1
n2
s 1
( 1 ) V
V(1 )
s 1 = 1 F (n2)
V(1 )
s 1 F (n2)
o n2 est une variable alatoire suivant une loi de Student (n 2) degrs de libert et o F (n2) dsigne la fonction de rpartition de cette loi. Comme la notation PH0 lindique, cette probabilit doit tre calcule en supposant H0 vraie.
56 Dans ce cas, 1 = 0 et
1 | > s) = 1 F (n2) s PH0 (|
V(1 )
s F (n2)
V(1 )
= 2 1 F (n2) s
V(1 )
o la dernire galit provient de la symtrie autour de 0 de la densit de la loi de Student(n 2). Par consquent, la contrainte portant sur le niveau du test, exprime par lingalit (3.2), scrit 1 | > s) 2 1 F (n2) s PH0 (| s
V(1 )
F (n2) s
V(1 )
Comme F (n2) est continue et strictement croissante, la dernire ingalit scrit 1 ) ( V

1 F (n2) (1 2 )
Le membre de droite de cette ingalit est par dnition le quantile dordre 1 2 de F (n2) , ou encore le quantile dordre 1 2 de la loi de Student n 2 degrs de libert. On notera n2;1 2 ce quantile. Finalement, le test de la forme On rejette H0 et on accepte H1 si on observe que 1 | > s aura le niveau si le seuil s est choisi de sorte que | s n2;1 2 ( 1 ) V
On note qu ce point, limposition de la contrainte (3.2) ne permet pas de dgager une valeur unique de s. Pour cela, on sintresse au risque de type 2. On rappelle que la dmarche consiste choisir parmi un ensemble de tests ayant tous un niveau , celui (ou ceux) pour le(s)quel(s) le risque de type 2 sera toujours le plus faible. On considre ici les tests de la forme On rejette H0 et on accepte H1 si on observe que 1 | > s , avec s n2;1 V ( 1 ) . Pour tout test de cette forme, le risque de type 2 sexprime | 2 2 comme 1 | s) PH1 (|
choisir
o la notation PH1 indique que la probabilit est calcule en supposant H1 vraie, cest dire en supposant 1 = 0. La valeur de cette probabilit dpend de la valeur de 1 (= 0) choisie pour eectuer le calcul. Cependant, quelle que soit cette valeur, on voit que cette probabilit est une fonction croissante de s. 3 Par consquent, si on cherche le test de la forme donne ci-dessus ayant le plus petit risque de type 2, il faut choisir le seuil s le plus petit possible. Sachant que pour que ( 1 ) , on est conduit le test soit de niveau il faut que s ne soit pas plus petit que n2;1 V
2
Le test ainsi obtenu consiste donc rejeter H0 : 1 = 0 et accepter H1 : 1 = 0 au niveau si on 1 | > n2;1 V ( 1 ) , ou, de manire quivalente, si on observe observe |
2
s = n2;1 2
( 1 ) V
1 1 ) ( V
> n2;1 2
2. On rappelle que le risque de type 2 est la probabilit que lon a de rejeter H1 lorsque cette dernire est suppose vraie (voir la section 10.3.2.3). 3. Pour toute variable alatoire relle U et pour toute paire de rels (s1 , s2 ) tels que s1 < s2 , lvnement U s1 implique lvnement U s2 et il est donc au moins aussi probable dobserver le second que le premier.
3.2. TEST DUNE HYPOTHSE SUR 1 Ce test est appel test de Student, quon dnit formellement.
57
_student_signi_bilat
Dnition 3.3 Dans le MRLSG, on appelle test de Student de niveau de H0 : 1 = 0 contre H1 : 1 = 0 le test dni par : On rejette H0 et on accepte H1 si on observe |T | > n2;1 ; on rejette H1 et on accepte 2 H0 sinon est le quantile dordre 1 o n2;1 2 de la loi Student(n 2), et T est la statistique dnie par 2 T = 1 ( 1 ) V
et appele statistique de Student (ou T de Student) associe H0 . Sous la formulation prcdente du test, la statistique de test est |T | et la rgion critique est ]n2;1 , +[. Pour reprendre la notation de la section 10.3.2, le test de Student de niveau est 2 dni par 1 si |T | > n2;1 2 (X1 , Y1 ), . . . , (Xn , Yn ) = 0 sinon
sec:test1theo
3.2.3
Approche thorique
1 est Dans la section prcdente, le test a t introduit en partant dun principe raisonnable : une bonne approximation de 1 et si H0 est vraie, il est peu probable dobserver un vnement tel 1 | > s, pour une valeur bien choisie de s. Dans une telle approche, la forme du test (dcider que | 1 | > s) est donne a priori et il reste chercher le meilleur des tests de niveau parmi les H1 si | tests ayant cette forme. Dans une approche thorique de construction dun test pour rsoudre le problme H0 : 1 = 0 contre H1 : 1 = 0, on ne se limite pas chercher le meilleur des tests ayant une forme donne, mais on cherche plutt le meilleur test. Comme rappel dans la section 10.3.2.4, les tests sont valus sur la base de leurs risques (types 1 et 2) et le meilleur test pour un problme de test donn est un test UPP au niveau : cest un test de niveau dont le risque de type 2 est infrieur (ou gal) celui de tout autre test de niveau . Dans le cas du MRLSG dans lequel on veut tester H0 : 1 = 0 contre H1 : 1 = 0 on ne peut pas montrer quun test UPP au niveau existe. Autrement dit, on ne peut exhiber un test meilleur que tous les autres. Pour lever cette indtermination dans le choix du test utiliser, on utilise une approche similaire celle suivie dans la section 2.2 pour rsoudre un problme destimation : pour estimer un paramtre, on a cherch le meilleur estimateur dans un ensemble destimateurs ayant des proprits (souhaites) donnes. Ici, lorsquon veut rsoudre un problme de test, on cherchera le meilleur test parmi tous les tests ayant des proprits souhaites. Parmi les bonnes proprits quon peut attendre dun test, on retrouve la notion dabsence de biais (voir la dnition 10.1) On rappelle quun test sans biais est un test pour lequel, quelle que soit la dcision considre, il est toujours plus probable de prendre cette dcision lorsquelle correspond une bonne dcision que
58
lorsquelle correspond un mauvaise dcision (voir les commentaires qui suivent la dnition 10.1). Plus formellement, si le test est bas sur une statistique Tn = T (X1 , Y1 , . . . , Xn ), et est de la forme on dcide H1 si on observe lvnement Tn T 4 alors ce test est de niveau et sans biais ds que PH0 (Tn T ) PH1 (Tn T ) La dmarche consistant rechercher le/les meilleur/s test/s parmi les tests sans biais au niveau est plus dicile suivre que celle utilise pour dterminer le meilleur estimateur (linaire et sans biais) des paramtres du modle. Aussi on ne prsentera pas la preuve du rsultat principal de cette section.
th:optstudent
Thorme 3.1 Pour tester H0 : 1 = 0 contre H1 : 1 = 0 dans le MRLSG, le meilleur test parmi tous les tests sans biais au niveau est le test de Student de la dnition 3.3. Ce rsultat dit que (1) le test de Student est un test sans biais au niveau et que (2) il nexiste pas dautre test sans biais au niveau donc semblables au test de Student en ce qui concerne le risque de type 1 dont le risque de type 2 soit plus petit que celui du test de Student. Le but tant de chercher des tests ayant les plus petits risques possibles, ce rsultat est un rsultat doptimalit du test de Student, dans le contexte du MRLSG.
:test-generalis-egal
3.2.4
Test dune valeur quelconque de 1
On sest intress, pour les raisons quon a voques au dbut de la section 3.2.1, un problme de test qui revenait dcider si 1 valait 0 ou non. Mme si la valeur 0 surgit naturellement dans beaucoup de problmes de tests, on peut tre intress par des problmes dans lesquels la valeur teste est quelconque. Soit b un rel connu. On veut tester H0 : 1 = b contre H1 : 1 = b. En suivant lapproche dveloppe dans la section 3.2.2, on note que si H0 est vraie, la distance entre 1 et b est nulle. On 1 et b et on rejettera H0 si on observe que cette distance basera donc le test sur la distance entre 1 b| > s. La dmarche est ensuite la mme est trop grande. Le test sera donc bas sur lingalit | que dans la section 3.2.2. On choisit dabord s de manire que le test soit de niveau , tant x 1 b| > s) . En eectuant les mmes a priori. On doit donc rsoudre en s lingalit PH0 (| dveloppements quen 3.2.2, on obtient
s+b1 1 b| > s) = 1 F (n2) PH0 (| V(1 ) s+b1 F (n2) V(1 ) V(1 )
et comme on suppose H0 : b = 1 vraie, cette probabilit est simplement 2 1 F (n2) s Pour que le test soit de niveau , il faut donc que s soit suprieur n2;1 2 la minimisation du risque de type 2 conduit choisir s = n2;1 2 1 b ( 1 ) . V
( 1 ) . Par ailleurs, V
Le test consiste donc rejeter H0 : 1 = b et accepter H1 : 1 = b au niveau si on observe > n2;1 2
( 1 ) V
4. Pour reprendre la notation de la section 10.3.2, le test, not , est dni par n = 1 Tn T .
3.2. TEST DUNE HYPOTHSE SUR 1 On a dnition semblable celle introduite prcdemment dans le cas o on avait choisi b = 0.
def:studn0
59
Dnition 3.4 Dans le MRLSG, on appelle test de Student de niveau de H0 : 1 = b contre H1 : 1 = b le test dni par : ; on rejette H1 et on On rejette H0 et on accepte H1 si on observe |T (b)| > n2;1 2 accepte H0 sinon o T (b) est la statistique dnie par T (b) = 1 b 1 ) ( V
et appele statistique de Student (ou T de Student) associe H0 . Il reste montrer que ce test possde de bonnes proprits. Pour cela, dnissons les variables Zi = Yi bXi , i = 1, . . . , n et considrons les implications de C1 et CN sur les couples (X1 , Z1 ), . . . , (Xn , Zn ). La condition C1 ne portant que sur X1 , . . . , Xn est videmment satisfaite. Par ailleurs, si CN est satisfaite, alors on en dduit (en utilisant une dmarche identique celle utilise dans la preuve de la proprit 3.1) que le vecteur Z dni par Z = Y bX est gaussien. Avec la condition C1, on calcule alors aisment E(Zi ) = E(Yi bXi ) = 0 + (1 b)Xi
cov(Zi , Zj ) = cov(Yi bXi , Yj bXj ) = cov(Yi , Yj )

2 I ). Autrement dit si Par consquent, 0 R, 1 R, Z ]0, [ t.q. Z N (0 n + 1 X , Z n on a un MRLSG pour les couples de variables (X1 , Y1 ), . . . , (Xn , Yn ), alors on a aussi un MRLSG pour les couples (X1 , Z1 ), . . . , (Xn , Zn ). 5 Les paramtres des deux modles sont relis par
0 = 0
1 = 1 b
et
Z =
Si on se place dans le MRLSG pour (X1 , Z1 ), . . . , (Xn , Zn ), les rsultats des sections prcdentes permettent de dire que pour tester H0 : 1 = 0 contre H1 : 1 = 0 au niveau , le meilleur des tests parmi les tests sans biais au niveau est le test de Student. Il consiste rejeter H0 au niveau si on observe que 1 > n2;1 2 V(1 ) 1 et V ( 1 ) sont respectivement lestimateur des moindres carrs ordinaires de 1 et lestimateur o de la variance de ce dernier, obtenus par les mthodes du chapitre prcdent. On a en particulier 1 =
n i=1 (Zi Z )Xi n 2 i=1 (Xi X )
Par dnition des Zi on a Z = Y bX, et le numrateur ci-dessus scrit

n n n i=1
n i=1
(Zi Z )Xi =
i=1
Yi Y b(Xi X ) Xi =
i=1
(Yi Y )Xi b
(Xi X )Xi
5. Ces deux modles sont en fait identiques puisque la rciproque est vraie : si C1 et CN sont vries pour les couples (X1 , Z1 ), . . . , (Xn , Zn ), alors elles le sont aussi pour les couples (X1 , Y1 ), . . . , (Xn , Yn ).
60 Donc 1 = Dautre part

n i=1 (Yi
Y )Xi b n i=1 (Xi X )Xi = n 2 i=1 (Xi X )
n i=1 (Yi Y )Xi n 2 i=1 (Xi X )
1 b b =
1 X = (Y bX ) ( 1 b)X = Y 1 X = 0 0 = Z ( 1 ), on utilise la formule donne la section 2.5. On a Finalement, pour calculer V ( 1 ) = V

2 Z n 2 i=1 (Xi X )
2 est lestimateur de la variance 2 des Z prsent la section 2.5, bas sur les rsidus de o Z i Z lestimation de 0 et de 1 par moindres carrs. Le ie rsidu est
0 + 1 Xi ) i = Yi bXi ( Zi Z 0 et 1 on obtient En utilisant les expressions obtenues pour 0 + 1 Xi bXi ) = Yi 0 1 Xi = i = Yi bXi ( Zi Z i Par consquent
2 Z
1 = n2
n i=1
i )2 = (Zi Z
1 n2
2 2 i =
i=1
1 ) = V 1 ). ( ( et donc V On vient de montrer que la statistique sur laquelle est bas le test de Student pour tester 1 = 0 contre 1 = 0 scrit 1 b 1 = 1 ) 1 ) ( ( V V Le test de Student de la dnition 3.4 servant tester 1 = b contre 1 = b et le test de Student servant tester 1 = 0 contre 1 = 0 sont donc dnis par le mme vnement (la mme ingalit). De plus, puisque 1 = b 1 = 0, les hypothses testes sont les mmes. Par consquent les deux tests ont les mmes risques de type 1 et de type 2 et ils conduisent toujours tous les deux la mme dcision. Par consquent, ces deux tests sont les mmes. Loptimalit (directement dduite du thorme 3.1) obtenue dans le MRLSG pour (X1 , Z1 ), . . . , (Xn , Zn ) est donc quivalente loptimalit du test de la dnition 3.4. On a donc dmontr la proprit suivante.
pro:test_stu_b
Proprit 3.4 Dans le MRLSG, pour tester H0 : 1 = b contre H1 : 1 = b, le test de Student dni par
1 b On rejette H0 et on accepte H1 au niveau si on observe V(1 )
> n2;1 2
est le meilleur parmi les tests sans biais au niveau .
3.2. TEST DUNE HYPOTHSE SUR 1

sec:stu_test_ineg
61
3.2.5
Test dune ingalit sur 1
Dans les problmes de test tudis jusqu prsent, lhypothse nulle spcie que 1 est gal une valeur donne b. Il existe des situations dans lesquelles ce nest pas la valeur de 1 qui est intressante en soi, mais simplement son signe. On sait en eet que si 1 est positif, alors Y varie dans le mme sens que X, et en sens oppos si 1 est ngatif. Il est dans ce cas intressant de pouvoir disposer dun test de H0 : 1 0 contre H1 : 1 > 0. De manire plus gnrale, on peut tre amen tester H0 : 1 b contre H1 : 1 > b, o b est une valeur donne et connue. On a le rsultat suivant. Proprit 3.5 Dans le MRLSG, pour tester H0 : 1 b contre H1 : 1 > b, le test de Student dni par
1 b On rejette H0 et on accepte H1 au niveau si on observe V(1 )
pro:test_ineq
> n2;1
est le meilleur parmi les tests sans biais au niveau . On prendra soin de noter que la contrainte de niveau de ce test (le risque de type 1 ne dpasse pas ) impose dutiliser le quantile dordre 1 de la loi de Student n 2 degrs de libert (et non le quantile dordre 1 2 comme auparavant).
V(1 )
pas connue, et on ne peut donc pas calculer le RT1. Ceci nest pas un obstacle puisquil faut noter que dans lapproche classique des tests dhypothses, on na pas besoin de calculer de RT1, mais simplement de sassurer quil est born suprieurement par le niveau quon a choisi, ce quil est facile dobtenir ici. Pour un seuil s, le RT1 est la fonction qui tout 1 ] , b] (i.e., H0 est suppose vraie) associe la probabilit de dcider H1 P H0 Or pour tout 1 b, 1 b >s
certain seuil s, on dcidera que H1 est vraie. Le choix du seuil est guid comme prcdemment par la contrainte sur le risque de type 1. La dicult supplmentaire par rapport aux problmes 1 b nest de test tudis prcdemment, est quici, mme si H0 est suppose vraie, la loi de
V(1 )
La forme du test peut se comprendre aisment. Si H0 est vraie, alors il est probable dobserver 1 b de petites valeurs de . Si ce nest pas le cas, cest dire si cette statistique dpasse un
1 ) ( V
1 b
( 1 ) V
1 1
( 1 ) V 1 1 (3.3)
et donc PH0
1 1 Daprs le corollaire 3.1,
1 b
1 ) ( V
> s PH0
1 ) ( V
>s
eq:ineqstu
(3.3) est infrieure ou gale si et seulement si s n2;1 . Donc pour tout choix de s dans [n2;1 ; +[, le RT1 (membre de gauche de lingalit 3.3) sera infrieur ou gal .
V(1 )
Student(n 2), et la probabilit du membre de droite de
62
Pour choisir un seuil dans cet intervalle, on procde comme prcdemment, en sintressant au risque de type 2. Celui-ci est dni par des probabilits de la forme P H1 1 b s
( 1 ) V
On voit alors que si veut choisir le seuil s [n2;1 ; +[ de manire minimiser ces probabilits, il faut prendre la plus petite valeur possible, i.e., s = n2;1 .
On vient dobtenir le test de la proprit 3.5. Il reste montrer que ce test est optimal parmi les tests sans biais au niveau . Comme prcdemment, ce rsultat sera admis.
3.3
Tests dhypothses portant sur 0 et 1
Jusqu prsent, les hypothses formules ne portent que sur un seul des deux paramtres. Le cas de 1 a t trait en dtail et celui de 0 se traite par une dmarche identique, adapte au paramtre dordonne lorigine. Dans cette nouvelle section, on sintresse des tests dhypothses qui impliquent simultanment les deux paramtres. On distingue deux cas. Dans un premier temps, les hypothses considres portent sur une combinaison linaire donne de 0 et de 1 . Cela revient introduire un nouveau paramtre dni par cette combinaison linaire et le mthodes de test seront semblables celles dj dveloppes. Dans un second temps, on tudiera des problmes de test dans lesquels H0 et H1 sont bidimensionnelles : elles portent simultanment sur les deux paramtres 0 et 1 , mais chacun intervenant sparment de lautre. Pour rsoudre ce type de problme, on ne peut adapter les mthodes prsentes dans les sections prcdentes. En revanche, on verra quon peut essayer de les combiner pour aboutir une procdure de test.
sec:test_Ha
3.3.1
3.3.1.1
Test sur une combinaison linaire de 0 et de 1

Cas gnral : test sur la valeur de a0 0 + a1 1
Le corollaire 3.2, duquel on tire le rsultat (corollaire 3.3) utilis pour former les tests dcrits ci-dessus, permet dobtenir aisment un test de niveau pour une hypothse portant sur la valeur du paramtre , dni comme = a0 0 + a1 1 , o a0 et a1 sont des rels connus et xs, tous les deux non nuls (si les deux sont nuls, le problme nest daucun intrt, et si lun des deux est nul, on est ramen un test sur la valeur dun seul des paramtres). Considrons le problme de test H0 : = r contre H1 : = r , o r est un rel connu. La dmarche pour obtenir un test dans ce cas est exactement la mme que celle qui a t utilise jusqu prsent. On part du constat que si H0 est vraie, alors le meilleur estimateur linaire sans biais de devrait tre proche de r . Si on observe que ce nest pas le cas, on dcide H1 . Ce meilleur 0 + a1 1 , le test sera de la forme on dcide H1 si on observe | estimateur tant = a0 r | > s . Il faut alors dterminer quels sont les seuils s pour lesquels le risque de type 1 ne dpasse pas le niveau quon sest x. Puis parmi tous les seuils satisfaisant cette condition, on choisira celui
3.3. TESTS DHYPOTHSES PORTANT SUR 0 ET 1
63
pour lequel le risque de type 2 est le plus faible. tant donn la forme de ce test, et en utilisant un argument identique celui utilis pour les tests dcrits dans les sections prcdentes, la deuxime tape conduit choisir le plus petit des seuils satisfaisant la condition sur le risque de type 1. La premire tape repose sur le rsultat 3.2 et permet dobtenir que si on suppose H0 vraie, alors r Student(n 2) ( V )
2 ( o V ) est lestimateur sans biais de V( ) = a2 0 V(0 ) + a1 V(1 ) + 2a0 a1 cov(0 , 1 ) obtenu en remplaant dans cette expression les variances et la covariance par leur estimateurs sans biais ( respectifs. On note au passage que puisque quon a choisit a0 = 0 et a1 = 0, on a V ) = 0, ds lors quil existe i, j tels que Xi = Xj (Exercice). La condition sur le risque de type 1 dun test de la forme on dcide H1 si on observe | r | > s scrit
P H0
| r|
( V )
>
s ( V )
Compte-tenu de ce qui prcde, la probabilit dans membre de gauche est gale P(|n2 | > s ), o n2 est une variable alatoire suivant une loi de Student (n 2) degrs de libert. En suivant la mme approche que prcdemment, lingalit ci-dessus quivaut s n2;1 2 ( V )
V( )
(3.4)
eq:rt1_stu_comb
Dans la seconde tape, on doit choisir parmi tous les seuils s satisfaisant (3.4) celui pour lequel le test de la forme donne ci-dessus aura le plus petit risque de type 2. Comme ce risque est dni par PH1 | r | s) lorsque le seuil choisi est s, il faut choisir ce dernier le plus petit possible, tout en imposant la condition (3.4) obtenue en premire tape. On choisira donc le seuil ( ) . On rsume la dmarche par le rsultat suivant. s = n2;1 V
2 pro:test_comb-lin
Proprit 3.6 Dans le MRLSG, pour tester H0 : a0 0 + a1 1 = r contre H1 : a0 0 + a1 1 = r , on utilise le test dni par On dcide H1 au niveau si on observe 0 + a1 1 r | |a0 > n2;1 2
2 a2 0 V(0 ) + a1 V(1 ) + 2a0 a1 cov (0 , 1 )
et on dcide H0 sinon Ce test est le meilleur parmi les tests de niveau ayant la forme on dcide H1 si on observe 0 + a1 1 r | > s . |a0 On peut dmontrer un rsultat plus fort, tablissant que ce test est optimal parmi les tests sans biais. Cette optimalit peut sobtenir facilement comme une consquence de loptimalit des tests de Student dans le cas dun test sur la valeur du paramtre 0 (voir le rsultat de la proprit 3.4 transpos au cas de 0 ). Pour cela, avec la notation = a0 0 + a1 1 introduite prcdemment, on
64 crit 0 = a
a0

a1 a0 1
(on rappelle quon a suppos que a0 et a1 sont non-nuls). Par consquent, on E(Yi ) = a1 1 + 1 Xi = 0 + 1 Zi , a0 a0 1 = 1 , Zi = Xi i = 1, . . . , n a1 , i = 1, . . . , n a0
avec 0 =
a1 = 0 + 1 , a0 a0
(3.5)
eq:equiv-XZ
On vrie facilement quavec les galits (3.5), on a un MRLSG de Y sur X si et seulement si on a un MRLSG de Y sur Z (voir la dnition 3.1). Plus prcisment, la loi de (X1 , Y1 ), . . . , (Xn , Yn ) satisfait les conditions C1 et CN si et seulement si la loi de (Z1 , Y1 ), . . . , (Zn , Yn ) satisfait ces mmes conditions (Exercice). En particulier, puisquon sest initialement plac dans le MRLSG de Y sur X , la condition CN et les proprits des n-uplets gaussiens permettent dcrire que Y N (0 n + 1 Z , 2 In ) (3.6)
eq:mrlsg-yz
Z = (Z1 , . . . , Zn ), et o on a = , et 0 et 1 donns par (3.5). Comme a0 0 + a1 1 = r r , tester H0 : a0 0 + a1 1 = r contre H1 : a0 0 + a1 1 = r dans le premier modle revient 0 = a 0 r r contre H1 : 0 = a dans le second. Si on se place dans le modle initial, on tester H0 : 0 = a 0 0 peut utiliser le test de la proprit 3.4. Si on se place dans le MRLSG de Y sur Z , on constate que le problme de test est du mme type que celui prsent la section 3.2.4. Comme on est dans le contexte dun MRLSG, la proprit 3.4 tablit que pour rsoudre ce problme, le test sans biais optimal est le test de Student. Si on peut montrer quil concide avec le test de la proprit 3.6, on aura montr loptimalit annonce dans cette proprit.
r r contre H1 : 0 = a dans le MRLSG de On examine donc le test de Student de H0 : 0 = a 0 0 Y sur Z , an de le r-exprimer laide des variables Y et X . Daprs la proprit 3.4, ce test est dni par :
on dcide H1 au niveau si on observe
0 r | | a
0
0 ) V(
> n2;1 2
0 et V 0 ) sont lestimateur des moindres carrs ordinaires de 0 et lestimateur sans biais de ( o 0 , respectivement. Le premier est donn par le thorme 2.1 et le second par le la variance de corollaire 2.1, appliqus dans le contexte du MRLSG de Y sur Z . Pour obtenir le rsultat recherch (lquivalence des tests de Student dans les deux modles), on exprime les estimateurs en fonction a1 et donc des observations de X et de Y . On commence par noter que daprs (3.5), on a Z = X a 0 Zi Z = Xi Par consquent 1 = et donc
n i=1 (Zi Z )(Yi n 2 i=1 (Zi Z )
a1 a1 X = Xi X a0 a0
Y)
n i=1 (Xi X )(Yi n 2 i=1 (Xi X )
Y)
1 =
(3.7)
eq:mco-YZ
0 = Y Z 1 = Y (X a1 ) 1 = 0 + a1 1 a0 a0
(3.8)
eq:mco-YZ0
65
ce qui permet dexprimer les estimateurs des paramtres du MRLSG de Y sur Z en fonction des variables Y et X . 6 Par ailleurs, le corollaire 2.1 permet dcrire 0 ) = 2 V( 1 + n 1 Z + = 2 n 2 n Z ) ( Z i i=1
2
n i=1 (Xi
(X
a1 2 a0 )
X )2
0 ) est obtenu partir de cette expression, en remplaant la variance Lestimateur sans biais de V( inconnue 2 par son estimateur sans biais form partir de la somme des carrs des rsidus de lestimation par moindres carrs ordinaires de 0 et 1 (voir le corollaire 2.2). Le ie rsidu est par 0 1 Zi . Compte-tenu de lexpression de Zi (voir (3.5)) et des expressions de 0 et dnition Yi 1 (voir (3.7) et (3.8)), on peut crire ce rsidu comme : 0 1 Zi = Yi ( 0 + Yi a1 1 (Xi a1 ) = Yi 0 1 Xi = 1 ) i a0 a0
Autrement dit, les rsidus de lestimation par moindres carrs ordinaires dans le MRLSG de Y sur Z concident avec ceux de lestimation du MRLSG de Y sur X . La somme des carrs des rsidus est donc aussi la mme dans les deux modles et lestimation de 2 est la mme que celle de 2 , ( 0 ) partir de celle de V (0 ) (voir ci-dessus) i.e., 2 = 2 . On peut alors obtenir lexpression de V et on a a1 2 ) (X a 2 1 0 V(0 ) = + n 2 n i=1 (Xi X ) La statistique de Student pour tester H0 : 0 = expressions obtenues ci-dessus, on a 0 |
r a0 | r a0
contre H0 : 0 =
r a0
est
0 r | | a
0
0 ) V(
. En utilisant les
0 ) ( V
0 + | 2
1 n
a1 a0 1
n (Xi X )2 i=1
(X a1 )2
0
r a0 |
(3.9)
eq:stat-stu-yz
Or 1 + n 1 = + n 2 n i=1 (Xi X ) (X
a1 2 a0 )
1 1 = 2 a2 + a0 0 n
X + n 2 i=1 (Xi X )
2
a1 2 a0 n i=1 (Xi
X + n 2 i=1 (Xi X )
X )2
a1 a0 X )2
X
n i=1 (Xi
a2 1 n i=1 (Xi
X )2
+ 2a0 a1
n i=1 (Xi
X X )2
0 ) et V 1 ) donnes dans la proprit 2.10, ainsi que ( ( et donc, en utilisant les expressions de V 0 , 1 ) donne dans le corollaire 3.2, on peut crire celle de cov( 2 1 + n (X
a1 2 a0 )
n i=1 (Xi
X )2
1 2 a0 V(0 ) + a2 1 V(1 ) + 2a0 a1 cov(0 , 1 ) a2 0
6. On remarquera que les estimateurs des moindres carrs obtenus dans chacun des deux MRLSG satisfont les mmes relations que les paramtres eux-mmes de ces deux modles. Plus formellement, la relation entre les para0 = 0 + a1 et 1 = 1 . On peut voir ceci mtres des modles est donne par (3.5), et on vient dobtenir que a0 1 comme lillustration dune bonne proprit de la mthode destimation.
66
On peut donc rcrire lgalit (3.9) 0 |

r a0 |
0 ) ( V
=
1 a2 0
1 |a0 | |a0 0
1 r | + a1
2 a2 0 V(0 ) + a1 V(1 ) + 2a0 a1 cov(0 , 1 )
2 a2 0 V(0 ) + a1 V(1 ) + 2a0 a1 cov(0 , 1 )
0 + a1 1 r | |a0
r Cette dernire galit montre donc que la statistique de Student associe au test de H0 : 0 = a 0 r contre H1 : 0 = a0 dans le MRLSG de Y sur Z concide avec la statistique associe au test de H1 : a0 0 + a1 1 = r contre H1 : a0 0 + a1 1 = r dans le MRLSG de Y sur X , dcrit dans la proprit 3.6. Par consquent,
0 |
0 ) ( V
r a0 |
> n2;1 2
2 a2 0 V(0 ) + a1 V(1 ) + 2a0 a1 cov(0 , 1 )
0 + a1 1 r | |a0
> n2;1 2
et comme les hypothses nulles des deux modles sont les mmes, le test de la proprit 3.6 et le test de Student dans le MRLSG de Y sur Z conduisent toujours chacun la mme dcision que lautre. Ces deux modles tant quivalents, les deux tests ont les mme proprits : ils sont quivalents. Comme lun est optimal parmi les tests sans biais, lautre lest galement. On rsume ce rsultat par la proprit suivante. Proprit 3.7 Dans le MRLSG, pour tester H0 : a0 0 + a1 1 = r contre H1 : a0 0 + a1 1 = r , le test dni par On dcide H1 au niveau si on observe 0 + a1 1 r | |a0 + a2 1 V(1 ) + > n2;1 2
ro:test_comb-lin_opt
a2 0 V(0 ) et on dcide H0 sinon
0 , 1 ) 2a0 a1 cov(
est le meilleur parmi les tests sans biais de niveau . On lappelle test de Student de H0 : a0 0 + a1 1 = r contre H1 : a0 0 + a1 1 = r . On termine cette section en mentionnant quon peut adapter ce test des cas o les hypothses alternatives sont unilatrales (on utilise alors le quantile dordre 1 de la loi Student(n 2)). On peut galement ladapter pour tester H0 : a0 0 + a1 1 r contre H1 : a0 0 + a1 1 > r . Pour cela, on procde en utilisant la mme dmarche que dans les sections 3.2.1 et 3.2.5. Dans tous les cas, le test obtenu est optimal parmi les tests sans biais. 3.3.1.2 Un cas particulier important : test sur E(Yi )
sec:testEY
On rappelle que la condition C1 implique que P(Xi = xi ) = 1 pour tout i = 1, . . . , n, et quavec la condition CN, on peut trouver des rels 0 et 1 tels que lesprance de Yi scrit 0 + 1 Xi , i = 1, . . . , n. On sintresse alors un seul individu (quelconque) i et on veut tester H0 : E(Yi ) = m
67
contre H1 : E(Yi ) = m, o m est un rel connu. Avec ce qui a t rappel, cela revient tester H0 : 0 + 1 Xi = m contre H1 : 0 + 1 Xi = m. On constate qucrit sous cette forme, le problme de test sur E(Yi ) est un cas particulier des problmes de test sur une combinaison linaire de 0 et 1 , qui ont t tudis la section prcdente. Il sut alors den appliquer directement les rsultats, dans le cas particulier o a0 = 1, a1 = Xi et r = m. Plus explicitement, le test optimal de niveau parmi les tests sans biais (voir la proprit 3.7) consiste dcider H1 : E(Yi ) = m si on observe 0 + 1 Xi m| | > n2;1 2
0 ) + X 2 V ( V i (1 ) + 2Xi cov(0 , 1 )
0 ), V 1 ) et cov( 0 , 1 ) (voir la proprit 2.10 et le corollaire ( ( En utilisant les expressions de V 3.2), on montre facilement (Exercice) que 1 0 ) + X 2 V ( + V 2 i (1 ) + 2Xi cov(0 , 1 ) = n (Xi X )2
n 2 j =1 Xj
nX
0 + 1 Xi = Y i , et le test consiste alors dcider H1 au niveau si En notant que par dnition on observe que i m| > n2;1 |Y 2 2 1 + n
n 2 j =1 Xj
(Xi X )2
nX
i ) Le terme sous la racine carr est videmment lexpression de lestimateur sans biais de V(Y (Exercice). On note quon ne sintresse ici qu un seul individu, et que ce test est propre cet individu. 7 En particulier, il est tout fait possible de dcider H0 au niveau pour un individu i et dcider H1 au mme niveau pour un autre individu j = i.
sec:test_joint
3.3.2
3.3.2.1
Test dune hypothse jointe sur 0 et 1

Prsentation du problme et de lapproche
On considre prsent le problme de test de H0 : {0 = 0 et 1 = 0} contre H1 : {0 = 0 ou 1 = 0}. Si on essaie de procder comme auparavant pour dgager une forme du test qui sera utilis, on doit considrer 0 et 1 simultanment, sous la forme dun couple (0 , 1 ) de R2 , puis 0 , 1 ) de ce couple est trop loign de 0. La dicult ici est que lobjet dcider H1 si lestimation ( manipul est de dimension 2 et donc que les lois de probabilit sous-jacentes sont bivaries. Cependant, on peut se ramener des objets unidimensionnels de 2 manires. On peut dabord 0 , 1 ) est un vecteur de R2 (dont les coordonnes sont alatoires), et que pour considrer que ( 0 , 1 ) est trop loign de 0, on peut utiliser la norme euclidienne de ce vecteur 2 + 2 . juger si ( Le test consistera alors dcider H1 si cette norme dpasse un certain seuil, quon devra choisir de manire que le risque de type 1 du test ainsi construit ne dpasse pas le niveau donn au dpart,
7. En toute rigueur, on devrait indiquer ceci en indexant par i les hypothses H0 et H1 considres ici.
0 1
68
puis choisir parmi tous les seuils admissibles celui pour lequel le risque de type 2 est le plus petit possible. Une deuxime manire de se ramener des variables alatoires de dimension 1 consiste noter que mme si H0 porte sur un couple de paramtres, on peut voir cette hypothse comme forme laide de plusieurs hypothses semblables celles tudies dans la section 3.3.1. En eet, si on se donne un couple de rels a = (a0 , a1 ) = (0, 0), on peut former lhypothse nulle H0 (a) : a0 0 +a1 1 = 0. On voit alors que H0 est vraie si et seulement si H0 (a) est vraie pour tout choix possible de a = (0, 0). Or pour un choix donn de a, la section prcdente montre quon sait tester de manire optimale (sans biais) H0 (a) : a0 0 + a1 1 = 0 contre H1 (a) : a0 0 + a1 1 = 0. Par consquent, on peut essayer de construire un test consistant dcider H1 sil existe un a pour lequel on a dcid H1 (a) au moyen du test optimal sans biais prsent la section 3.3.1. Ces deux manires de procder conduisent au mme test de H0 contre H1 . On prsentera ce test en suivant la seconde approche. En eet, elle sappuie sur des tests dj tudis la section 3.3.1, et elle parat ds prsent avoir de bonnes proprits puisque ces tests sur lesquels elle est fonde possdent une proprit doptimalit (proprit 3.7). 3.3.2.2 Test de Fisher
sec:test_fisher_univ
3.3.2.2.1 La forme du test On se donne a = (a0 , a1 ) R2 , avec a = (0, 0), et on introduit le problme de test de H0 (a) : a0 0 + a1 1 = 0 contre H1 (a) : a0 0 + a1 1 = 0. Daprs la section 3.3.1, le test optimal sans biais consiste dcider H1 (a) si la variable alatoire T (a) dnie par T (a) = 0 + a1 1 | |a0
2 0 , 1 ) a2 ( 0 V(0 ) + a1 V(1 ) + 2a0 a1 cov
dpasse un certain seuil, ce seuil ne dpendant pas de a. 8 Si on considre alors la dmarche prsente ci-dessus, la forme du test recherch est la suivante :
2 o s dsigne le seuil choisi. Si on note R2 = R \ {(0, 0)}, ce test revient dcider H1 si on observe maxaR2 T (a) > s. Pour choisir le seuil s, on procde comme dhabitude : limposition de la contrainte sur le niveau du risque de type 1 dtermine les seuils s admissibles, puis la minimisation du risque de type 2 permet de choisir une valeur s de ce ce seuil.
on dcide H1 sil existe a R2 , a = (0, 0), pour lequel on observe T (a) > s
Si le niveau quon se xe pour le risque de type 1 est , alors la contrainte sur ce risque est PH0 (max T (a) > s)
aR2
T (a). La rsolution en s de cette ingalit ncessite de connatre la loi de la variable alatoire maxaR2 T ( a ) . Pour ltablir, on commence par montrer quil existe une forme explicite pour maxaR2
sec:maxim_Ta
3.3.2.2.2 La maximisation de T (a) Pour obtenir la forme explicite de maxaR2 T (a), on r-exprime dabord T (a) en utilisant les expressions des estimateurs des variances et covariance
8. Le dnominateur de T (a) nest jamais nul, ds quil existe i, j tels que Xi = Xj . Exercice.
3.3. TESTS DHYPOTHSES PORTANT SUR 0 ET 1 apparaissant au dnominateur : ( 0 ) = V 2 v00 ( 1 ) = V 2 v11 0 , 1 ) = cov ( 2 v01
69
o v00 et v11 sont les lments diagonaux la matrice v introduite dans la proprit 3.2, et v01 est son lment extra-diagonal, ce qui permet dcrire T (a) =
2 a2 0 v00 + a1 v11 + 2a0 a1 v01
0 + a1 1 | |a0
On remarque facilement que pour tout a R2 et tout rel t = 0 on a T (a) = T (ta), o ta est T (a), cest dire dni par (ta0 , ta1 ). Supposons quil existe a R2 tel que T (a ) = max aR2 2 T (a ) T (a) a R . Dnissons alors a = t a o t = 1
2 2 a 0 v00 + a1 v11 + 2a0 a1 v01
En utilisant la dnition de a = (t a 0 , t a0 ) et la dnition de t , on constate que 2 2 2 2 2 a 0 v00 + a1 v11 + 2a0 a1 v01 = t (a0 v00 + a1 v11 + 2a0 a1 v01 ) = 1
(3.10)
eq:lastar
Mais on a galement Cette ingalit et (3.10) montrent que si on cherche le maximum atteint par T (a) lorsque a parcourt 2 2 R2 , on peut se limiter chercher le maximum atteint par T (a) pour des a dans A = {a R | a0 v00 + T (a) = maxaA T (a) et pour trouver la a2 1 v11 + 2a0 a1 v01 = 1}. Plus formellement, on a max aR2 forme explicite de maxaR2 T (a), on rsout le problme de maximisation maxaA T (a). T (a ) = T (t a ) = T (a ) T (a), a R2
On a videmment T (a ) T (a) 0 a A T (a )2 T (a)2 a A. Par consquent, T (a ) sera la racine positive de maxaA T (a)2 . Par ailleurs, pour tout a A, le dnominateur de 1 1 2 T (a)2 est 2 , et puisquon maximise T (a) sur A, on peut se contenter de maximiser 2 (a0 0 + 1 2 2 a1 1 ) sur A. Il sagit dun problme de maximisation de 2 (a0 0 + a1 1 ) avec la contrainte 2 2 a0 v00 + a1 v11 + 2a0 a1 v01 = 1. Puisque la fonction maximiser et la contrainte sont continment direntiables sur R2 , on peut appliquer la mthode du lagrangien. Le lagrangien est L(a0 , a1 , ) = 1 0 + a1 1 )2 + (1 a2 v00 + a2 v11 + 2a0 a1 v01 ) (a0 0 1 2
L a0 (a0 , a1 , ) = 0
a1 L L (a 0 , a1 , ) = 0 (a0 , a1 , )
2 et a = (a 0 , a1 ) R est solution du problme sil existe un rel tel que
=0
En calculant les drives partir de lexpression de L, ce systme scrit 1 (a + a 1 1 )0 (a0 v00 + a1 v01 ) = 0 eq:dl_da0 2 0 0 1 (a + a 1 1 )1 (a0 v01 + a1 v11 ) = 0 eq:dl_da1 2 0 0

2 2 a 0 v00 + a1 v11 + 2a0 a1 v01 = 1
eq:dl_dmu
(3.11) (3.12) (3.13)
70
Pour rsoudre ce systme, il est plus commode de le r-exprimer de manire matricielle. On recourt la notation introduite au dbut de ce chapitre la section 3.1. En particulier, on utilisera le et a de R2 et la matrice v dnis par vecteurs = 0 1 a = a 0 a 1 v= v00 v01 v01 v11
(voir (3.1) et la proprit 3.2). Avec de telles notation, on peut crire le membre de droite de (3.13) sous la forme a va ( dsignant loprateur de transposition dune matrice ou dun vecteur). Par ailleurs, si on empile les deux galits (3.11) et (3.12) on peut les rcrire simultanment sous la forme 0 1 0 a0 v00 + a1 v01 ( a + a ) = 0 0 1 1 2 1 a0 v01 + a1 v11 0 ou encore 1 (a ) va = 02 2 Donc le systme des quations (3.11) (3.13) scrit
1 (a ) va = 02 2
eq:dl_da
(3.14) (3.15)
a va = 1
eq:dl_dmuv
Si on pr-multiplie lgalit (3.14) par a , on obtient =
1 2 2 (a )
a va = 0, ou encore
)2 (a = T (a )2 2 a va
la dernire galit provenant de la rcriture matricielle du numrateur et du dnominateur de T (a )2 . Notons que comme a satisfait (3.15), on a aussi T (a )2 = = )2 (a 2
Autrement dit, le rel concide avec la valeur maximale atteinte par la fonction T (a)2 maximiser lorsque a varie dans A. Ceci est le premire tape importante dans la rsolution du problme de = a maximisation. Pour enchaner sur la seconde tape, on note que a 0 0 + a1 1 = a . Par consquent, en mettant en facteurs v gauche et a droite, le membre de droite de (3.14) peut scrire 1 I2 a a va = v ( 2 v )1 2 o I2 est la matrice identit de dimensions (2, 2). On doit avoir montr auparavant que v est inversible, ce qui est bien le cas ds que i, j tels que Xi = Xj (Exercice). On peut alors rcrire (3.14) : I2 a = 02 (B I2 )a = 02 I2 a = 02 ( 2 v )1 v ( 2 v )1 . On note alors que la dernire galit tablit que est une o B dsigne la matrice ( 2 v )1 valeur propre de B associe au vecteur propre a . Autrement dit, les couples (a , ) solutions du
71
systme dquations (3.11) (3.13) sont ncessairement des couples (vecteur propre, valeur propre) de B . Ceci achve la seconde tape de la rsolution. Pour terminer, on rapproche les rsultats obtenus aux deux tapes : on sait que tout a et tout solution du systme (3.11)-(3.13) sont un vecteur et une valeur propres de B , et que = T (a )2 = maxaA T (a)2 . Par consquent, doit tre la plus grande des valeurs propres de , son rang est gal celui de la matrice . tant donne la forme de B . Comme B = ( 2 v )1 cette dernire, elle est ncessairement de rang 1, et donc B aussi. Par consquent, parmi les deux valeurs propres de B , lune delles est nulle. Et comme la trace dune matrice est gale la somme de ses valeurs propres, la valeur propre non nulle de B est gale la trace de B . On a donc ) = trace( ( ) = ( trace(B ) = trace(( 2 v )1 2 v )1 2 v )1 o la troisime galit provient du fait que trace(A1 A2 ) = trace(A2 A1 ) ds que les produits ma ( est triciels A1 A2 et A2 A1 sont possibles, et la dernire galit provient du fait que 2 v )1 une matrice de dimensions (1,1) et est donc gale sa propre trace. Les deux valeurs propres ( , et est gale la plus grande des deux. Comme v est dnie de B sont donc 0 et 2 v )1 ( > 0, i.e. la plus grande des valeurs positive (Exercice : dmontrer que cest le cas), on a 2 v )1 ( . Comme on a dj tablit que propres de B est celle qui est non nulle. On a donc = 2 v )1 2 = T (a ) , on a ( T (a )2 = 2 v )1 (3.16) Il reste vrier que T (a)2 atteint bien son maximum en a . Pour cela, on peut vrier la concavit de la fonction L(a0 , a1 , ). On admettra ici que cest le cas.
sec:Ftest_univ
eq:maxTa
3.3.2.2.3 Le test La forme explicite obtenue pour T (a )2 permet de construire le test dcrit au dbut de cette section. On rappelle quon cherche celui-ci de la forme On dcide H1 si on observe maxaR2 T (a) > s . tant donn le rsultat obtenu sur la maximisation de T (a), ce test consiste dcider H1 si T (a ) > s. Si est le niveau x pour le test, alors il faut choisir s de sorte que PH0 (T (a ) > s) . Comme s est positif 9 , T (a ) > s T (a )2 > s2 et daprs (3.16), on voit quil faut choisir s de sorte que ( > s2 ) PH0 ( 2 v )1 (3.17)
eq:rt1_fisher
( Pour rsoudre en s cette ingalit, il faut connatre la loi de la variable alatoire 2 v )1 lorsque H0 est suppose vraie, cest dire lorsquon suppose que = 0. Ceci est possible grce au rsultat suivant. Proprit 3.8 Dans le contexte du MRLSG, (2, n 2) degrs de libert.
1 2 (
pro:test_ficher_univ
)1 ( ) suit une loi de Fisher ( ) V
Preuve : Exercice. Cest une consquence des proprits 3.2, 9.17 et 3.3. Il faut montrer quon peut crire
9. Comme T (a ) 0, si s tait ngatif, la probabilit serait gale 1 et ne pourrait jamais tre plus petite que tout niveau dans ]0; 1[.
72
CHAPITRE 3. LE MRLS : TESTS ET RGIONS DE CONFIANCE ) V )1 ( ) sous la forme dun rapport de la forme donne dans la dnition ( ( de la loi de Fisher (voir la dnition 9.5 ou la dnition 3.2). Solution : Daprs la proprit 3.2 et la proprit 3.3, si on dnit la variable alatoire ) V( )1 ( ), on a C1 = ( ) ( 2 v )1 ( ) 2 (2) C1 = (
2 Daprs la proprit 3.3, la variable alatoire C2 = (n 2) 2 suit une loi (n 2) et est 1 /2 indpendante de C1 . Par dnition de la loi de Fisher, on a C1C /(n2) F (2, n 2). En utilisant lexpression de C1 et de C2 , on tablit facilement que
2
C1 /2 1 ) = 1 ( ) V ( )1 ( ) = ( ) ( 2 v )1 ( C1 /(n 2) 2 2 Ce rsultat permet de rsoudre (3.17). En eet ( > s 2 ) = PH ( 1 ( > 1 s2 ) = P(F2,n2 > 1 s2 ) PH0 ( 2 v )1 2 v )1 0 2 2 2 o la dernire galit utilise le fait que lorsquon suppose H0 vraie, on a = 0 et dans ce cas il 2 v )1 F (2, n 2). Par consquent, (3.17) quivaut dcoule de la proprit 3.8 que 1 2 (
1 2 s ) P(F2,n2 > 2 2 Lingalit est une galit lorsque 1 2 s est gal au quantile dordre 1 de la loi F (2, n 2) et sera plus petite que pour tout nombre suprieur ce quantile. Par consquent, sil faut que s satisfasse 2 (3.17), il faut choisir s de sorte que 1 2 s F(2,n2);1 , ou encore s [ 2F(2,n2);1 ; +[. Finalement, parmi tous les seuils s dans cet intervalle, il faut choisir celui pour lequel le RT2 est le plus petit possible. Pour un choix de s donn, le RT2 est
PH1 (max T (a) s)

aR2
le seuil choisi sera s =

pro:Ftest0_univ
On constate que cette probabilit est une fonction croissante de s. Par consquent, si on veut la minimiser, il faut choisir le seuil s le plus petit possible. Comme s doit tre dans [ 2F(2,n2);1 ; +[, 2F(2,n2);1 . On a donc le rsultat suivant.
Proprit 3.9 Dans le contexte du MRLSG, parmi tous les tests de niveau de H0 : {0 = 1 = 0} contre H1 : {0 = 0 ou 1 = 0} ayant la forme T (a) > s , on dcide H1 si on observe maxaR2 le test le plus puissant est celui pour lequel on choisit s = 2F(2,n2);1 . Ce test est quivalent
1 1 on dcide H1 si on observe 2 V( ) > F(2,n2);1 .
Ce test est appel test de Fisher de H0 : {0 = 1 = 0} contre H1 : {0 = 0 ou 1 = 0}.
73
Preuve : La premire partie de la proprit est un rsum du rsultat qui la prcde. La seconde partie provient du fait que max T (a) >
aR2
2F(2,n2);1
1 max T (a) 2 aR2
> F(2,n2);1
Pour justier la dmarche expose dans cette section, on est parti de lobservation que H0 : {0 = 1 = 0} est vraie si et seulement si toutes les hypothses H0 (a) : a0 0 + a1 1 = 0, a R2 sont vraies. Autrement dit H1 est vraie si et seulement si lune des H1 (a) est vraie. En examinant la construction du test de Fisher, on peut alors le voir comme un test dans lequel on dcide H1 si on a pu trouver un a R2 pour lequel on a dcid H1 (a). Or la dcision concernant H1 (a) est prise en utilisant le test sans biais optimal prsent la section 3.3.1 (proprit 3.7), bas sur lingalit T (a) > s , le seuil s tant dni ci-dessus. Ceci fournit une justication lutilisation du test de Fisher, puisquon peut considrer quil est construit en utilisant des tests sans biais optimaux. Cependant, on ne peut pas en dduire que le test de Fisher est lui mme optimal parmi les tests sans biais. En revanche, il existe des rsultats tablissant loptimalit de ce test dans une certaine classe de tests. Cette proprit nest pas aborde ici. 10
sec:Ftest_gen_univ
et de maxaR2 T (a)
V ( )1 . = T (a )2 =
3.3.2.3
Gnralisations
La dmarche prcdente se prolonge aisment an de driver un test de H0 : {0 = b0 et 1 = b1 } contre H0 : {0 = b0 ou 1 = b1 }, o b0 et b1 sont des nombres connus quelconques. En eet, en calquant ce qui a t fait auparavant, on note que H0 est vraie si et seulement si lhypothse H0 (a) : a0 (0 b0 ) + a1 (1 b1 ) = 0 est vraie pour tout (a0 , a1 ) R2 . On peut aussi crire H0 (a) sous la forme H0 (a) : a0 0 + a1 1 = c(a), o c(a) = a0 b0 + a1 b1 . La proprit 3.7 fournit le test sans biais optimal pour tester H0 (a). Ce test consiste dcider H1 (a) si on observe que T (a) > s, o, en utilisant les notations matricielles de la section prcdente, on peut crire T (a) = c(a)| |a a va
En suivant la dmarche utilise pour driver le test de Fisher, on construit ici un test de la forme suivante : on dcide H1 sil existe a tel quon dcide H1 (a) en utilisant le test bas sur T (a) . tant donne la forme de ce test, cela revient dcider H1 sil existe a R2 tel que T (a) > s, ou de manire quivalente, si maxaR2 T (a) > s. En introduisant le vecteur b= on constate que c(a) = a b et donc que T (a) = b)| |a ( a va b0 b1
10. On peut nanmoins se rfrer la section 6.1.2 pour une prsentation succincte de cette proprit.
74
T (a) en suivant une En utilisant cette expression, on peut chercher expliciter T (a ) = maxaR2 dmarche identique celle de la section 3.3.2.2.2. En eectuant un changement de notation et en b, la statistique T (a) prend la mme forme que dans la section 3.3.2.2.2, et par posant = consquent on en dduit que (voir (3.16)) b) ( b) T (a )2 = ( 2 v )1 = ( 2 v )1 ( Le reste de la dmarche est identique celui de la section 3.3.2.2.3, et on aboutit au rsultat suivant, semblable celui de la proprit 3.9.
pro:Ftest_univ
Proprit 3.10 Dans le contexte du MRLSG, parmi tous les tests de niveau de H0 : {0 = b0 et 1 = b1 } contre H1 : {0 = b0 ou 1 = b1 } ayant la forme on dcide H1 si on observe maxaR2 T (a) > s ,
b)| o T (a) = |a ( , le test le plus puissant est celui pour lequel on choisit s = a va test est quivalent 1 )1 ( b) > F(2,n2);1 . ( ( b) V on dcide H1 si on observe 2
2F(2,n2);1 . Ce
Ce test est appel test de Fisher de H0 : {0 = b0 et 1 = b1 } contre H1 : {0 = b0 ou 1 = b1 }.
3.4
3.4.1
Les p-values
Dnition
Les tests prsents dans les sections prcdentes peuvent tous sexprimer sous la forme F suivante : (F) On rejette H0 au niveau si on observe que Sn > qn,1 o Sn est la statistique de test et qn,1 est le quantile dordre 1 de la loi suivie par Sn lorsquon suppose H0 vraie. Par exemple, si on considre le test de Student prsent dans la dnition 3.3, on peut le rexprimer sous la forme F en posant Sn = |T | et qn,1 = n2;1 . On vrie que n2;1 est 2 2 eectivement le quantile dordre 1 de la loi de |T | lorsque H0 : 1 = 0 est suppose vraie. a t choisi de manire que PH0 (|T | > n2;1 ) = . Cela quivaut En eet, le seuil n2;1 2 2 videmment PH0 (|T | n2;1 2 ) = 1 , ce qui exprime que n2;1 2 est bien le quantile dordre 1 de la loi de |T | lorsque H0 est suppose vraie. On peut montrer de manire semblable que la formulation F peut galement sobtenir pour les tests de la dnition 3.4 et de la proprit 3.5. Lorsquon exprime un test sous la forme F, on voit que pour dcider si on rejette ou pas H0 il sut de comparer la valeur dune statistique de test avec le quantile dordre 1 de la loi suivie par cette statistique lorsque H0 est suppose vraie. Nous allons montrer que sur cette base et en utilisant la relation qui lie quantiles et fonction de rpartition, la rgle de dcision peut sexprimer dune manire alternative. Notons FH0 la fonction de rpartition de Sn lorsque H0 est suppose vraie. Pour les tests prsents dans les sections prcdentes, Sn est une variable alatoire continue
3.4. LES P -VALUES
75
(elle est gale soit |T |, soit T selon le cas considr). Sa fonction de rpartition est bijective de R dans [0, 1], strictement croissante. Par consquent on a Sn > qn,1 FH0 (Sn ) > FH0 (qn,1 ) Par dnition du quantile qn,1, on a FH0 (qn,1 ) = 1 . En dnissant la variable alatoire Pn = 1 FH0 (Sn ), on peut crire Sn > qn,1 Pn < On peut donc r-exprimer les tests des sections prcdentes sous la forme F suivante : (F ) On rejette H0 au niveau si on observe Pn < o Pn = 1 FH0 (Sn ). La variable alatoire Pn est appele p-value associe la statistique Sn . (3.18)
eq:pval1
On peut illustrer graphiquement lquivalence des vnements Sn > qn,1 et Pn < . On utilise pour cela la squence de graphiques de la gure 3.2, sur lesquels on reprsente les couples de valeurs (, qn,1 ) et (sn , pn ) o sn et pn sont les ralisations de la statistique de test Sn et de la p-value Pn , respectivement. Le graphique du haut reprsente la courbe de la fonction 1 FH0 pour laquelle on a pn = 1 FH0 (sn ) et = 1 FH0 (qn,1 ). Ce graphique illustre que lingalit sn > qn,1 correspond au cas o la valeur observe de la statistique Sn est dans la zone rose sur laxe horizontal. Dans ce cas, on a bien pn dans la zone verte sur laxe vertical, ce qui correspond lingalit pn < . La rciproque est galement vraie, ce qui illustre lquivalence entre ces ingalits. Le graphique du bas permet dillustrer le mme rsultat laide la fonction de densit de la loi de Sn lorsque H0 est suppose vraie. Pour lancer lanimation, cliquez sur la gure 3.2.
3.4.2
Interprtation
De manire gnrale, comme la statistique de test Sn et la p-value Pn sont en relation bijective, tout ce qui peut sexprimer laide de Sn peut sexprimer de manire quivalente laide de Pn et vice-versa. Lquivalence entre les formulations F et F en est un exemple. Cependant, certaines proprits sexpriment plus aisment laide dune p-value, comprise entre 0 et 1, quau moyen de la statistique de test associe, dont les valeurs possibles ne sont pas ncessairement bornes. Que H0 soit suppose vraie ou pas et quelles que soient les observations dont on dispose, pour un test donn ayant la forme F, H0 sera toujours dautant plus dicile rejeter que le niveau choisi est petit. En eet, indpendamment de supposer H0 vraie ou pas, exprim sous la forme F le test rejette H0 lorsque la statistique de test dpasse le quantile dordre 1 dune loi de probabilit. Dans le cas des tests des sections 3.2.2 et ??, cette loi est continue, et sa fonction rpartition FH0 est continue, strictement croissante. Par consquent le quantile dordre 1 de 1 1 cette loi est qn,1 = FH (1 ), o FH est lapplication rciproque de FH0 et est donc continue 0 0 strictement croissante. On en dduit que qn,1 est une fonction continue strictement dcroissante de . On a donc bien que plus le niveau auquel on choisit de faire le test est lev, plus le quantile correspondant est petit, et plus il est probable dobserver Sn > qn,1 et donc de dcider de rejeter H0 . Inversement, plus est petit, plus qn,1 est grand, et moins il est probable de rejeter H0 . 11
11. Cela est videmment en parfaite cohrence avec la signication du niveau dun test : cest le risque maximal de
76
FH0 (x), 1 FH0 (x)
pn
0 sn qn,1
fH0 (x)
= pn = 1 FH0 (sn ) = = 1 FH0 (qn,1 )
sn
qn,1
x
>
Cette squence de graphiques illustre lquivalence sn qn,1 pn < . Cliquez pour lancer lanimation.
fig:FH0
Figure 3.2: Illustration de lquivalence Sn > qn,1 Pn <
3.4. LES P -VALUES
77
En utilisant cette proprit, on peut dgager une mesure du degr avec lequel les observations sont en faveur ou pas de H0 . On raisonne ici observations x1 , y1 , . . . , xn , yn donnes, pour lesquelles la valeur observe de la statistique de test Sn est sn . De la discussion du paragraphe prcdent, on dduit que si on choisit pour le test un niveau susamment lev, les observations dont on dispose conduiront au rejet de H0 ; de mme, si le niveau est susamment petit, nos observations nous conduiront accepter H0 . Comme la fonction quantile de la loi de Sn lorsque H0 est vraie est une fonction continue strictement croissante, il existe un unique tel que sn = qn,1 , pour lequel on aura donc sn > qn,1 > (3.19)
eq:pval2
Cette quivalence exprime que les observations conduisent rejeter H0 au niveau si et seulement si le niveau choisi est suprieur . Pour dterminer , on note que par dnition on a qn,1 = 1 FH (1 ). Donc 0
1 sn = qn,1 sn = FH (1 ) = 1 FH0 (sn ) 0
ce qui montre que est la ralisation de la p-value Pn . 12 On peut illustrer graphiquement lingalit (3.19). La courbe de la gure 3.3 est celle de la fonction 1 FH0 reliant quantile et p-value. En particulier, sn donne correspond la valeur pn (ou ). Lintervalle ] ; 1] en rouge sur laxe vertical reprsente lensemble des niveaux suprieurs pn pour lesquels, sur la base des observations avec lesquelles on calcule les valeurs sn et pn , lhypothse H0 est rejete. Pour tout niveau dans cet intervalle, le quantile qn,1 correspondant est dans lintervalle [0; sn [ (en rouge sur laxe horizontal), et donc infrieur sn .
1 FH0 (x)
pn = 0 sn = qn,1 x
fig:pval
Figure 3.3: Illustration graphique de lingalit (3.19)
rejeter tort H0 quon est prt supporter. Plus ce niveau est petit, plus on souhaite se prmunir dun rejet erron de H0 . Pour cela, il faut rendre le rejet de H0 plus dicile obtenir, cest dire moins probable. 12. Ce dont on aurait pu se rendre compte en notant que les ingalits (3.18) et (3.19) sont les mmes.
78
observations donnes, la valeur de la p-value est donc le niveau du test jusquo on peut monter sans rejeter H0 , et au del duquel cette hypothse est rejete. Si les observations sont telles que pn est leve (proche de 1), on peut choisir un niveau lev, tout en tant infrieur pn . Dans un tel cas, les observations ne conduisent pas un rejet de H0 , bien que le choix dun niveau lev rende H0 facile rejeter (voir la discussion ci-dessus). Cest videmment linverse qui se produit lorsque pn est faible. Dans ce cas, peut tre petit (et donc H0 dicile rejeter a priori) mais suprieur pn , entranant le rejet de H0 . Cette discussion fait apparatre que la valeur pn de la p-value dduite des observations est une mesure du support de celles-ci pour lhypothse nulle. Plus pn est grande, plus les observations supportent H0 . Comme mentionn au dbut de cette section, tout ce qui snonce partir de la p-value peut se formuler de manire quivalente en utilisant la statistique de test. Par exemple ce qui a t dit lorsque la p-value est grande peut se dire de manire quivalente sur la base de la valeur prise par Sn . Lorsque sn est petite, on peut choisir des niveaux de tests levs (et donc des quantiles relativement petits) sans pour autant que les observations nous amnent rejeter H0 ces niveaux. Cependant, la p-value appartenant lintervalle [0; 1], il est plus facile a priori de savoir ce quest une grande p-value observe que de savoir si la valeur observe de la statistique de test est petite, cette dernire pouvant tre un lment dun ensemble non born.
sec:rc
3.5
Rgions de conance
Aprs les problmes destimation des paramtres et de tests dhypothses, on sintresse maintenant la construction de rgions de conance. Lobjectif est le suivant : on cherche, partir des observations, dterminer une rgion de lespace des paramtres ayant de bonnes chances de contenir la valeur inconnue de ces paramtres. Les rgions ainsi obtenues sont appeles rgions de conance (voir la section 10.3.3). Dans le cas simple dun paramtre unidimensionnel (dont la valeur est un lment de R), cette rgion est donc un sous-ensemble de R laquelle on donne trs souvent la forme dun intervalle. On parle dans ce cas dintervalle de conance. Celui-ci sinterprte comme une fourchette de nombres dans laquelle il est probable que se situe la valeur inconnue du paramtre. Dans le cas o on cherche construire une rgion de conance pour plusieurs paramtres la fois, la rgion recherche peut prendre diverses formes. On prsentera en dtail la dmarche qui permet dobtenir un intervalle de conance pour le paramtre 1 . Pour construire un intervalle de conance pour 0 , on rplique la mme dmarche, en ladaptant au cas du paramtre 0 . On dcrira ensuite une manire de former une rgion de conance pour une combinaison linaire de 0 et de 1 . On terminera la section en proposant une rgion de conance pour le couple (0 , 1 ). Laspect fondamental dans la construction dune rgion de conance est la forte chance quelle a de contenir la valeur inconnu du paramtre dintrt. Il faut donc tre en mesure de calculer ces chances . Autrement dit, il faut pouvoir utiliser une loi de probabilit permettant de calculer la probabilit quune rgion contienne une valeur donne du paramtre. Tout comme pour les tests, le calcul dune telle probabilit sera rendu possible en introduisant la condition que (Y1 , . . . , Yn ) est gaussien : on se place donc dans le contexte du MRLSG. La dmarche prsente ici sappuie entirement sur les rsultats prsents la section 10.3.3.
3.5. RGIONS DE CONFIANCE
79
Le thorme 10.2 montre qu toute famille de tests on peut associer une rgion de conance et rciproquement. Autrement dit on peut chercher obtenir une rgion de conance en construisant une famille de tests. Par ailleurs, le corollaire 10.1 et la discussion qui suit montrent que le choix dune rgion de conance peut se faire en examinant la puissance de la famille de tests associe : pour un paramtre dintrt donn, on choisira la rgion de conance de niveau 1 pour laquelle les tests de niveau associs ont une puissance la plus leve possible. Grce ces rsultats, la construction dune rgion de conance pour une paramtre donn peut se voir comme dcoulant directement de la construction et de ltude des proprits de tests dhypothses portant sur la valeur de ce paramtre.
sec:ic_b1
3.5.1
Intervalle de conance pour 1
La proprit 3.4 tablit que pour toute valeur b R, le test de Student est le test sans biais de niveau le plus puissant pour tester H0 : 1 = b contre H1 : 1 = b. An de faire le parallle avec les rsultats de la section 10.3.3, on notera b ce test. On a donc 1 b (3.20)
b,n = 0
( 1 ) V
n2;1 2
eq:gerard
Le thorme 10.2 permet de conclure que la rgion de R, note C1,n , contenant toutes les valeurs b pour lesquelles lingalit dans (3.20) est satisfaite est une rgion de conance de niveau 1 pour 1 . De plus, le corollaire 10.1 et le dernier paragraphe de la section 10.3.3 (page 256) impliquent que cette rgion de conance est la plus exacte parmi toutes les rgions de conance sans biais de niveau 1 pour le paramtre 1 . Il reste expliciter C1,n . En utilisant sa dnition formelle, on a C1,n = b R | b,n = 0 = b R | 1 n2;1 = bR| 2 1 n2;1 = 2 1 b| | n2;1 2 ( 1 ) V (3.21)
eq:ic_beta1
1 ) ( V
1 + n2;1 ( 1 ) b V 2 1 ) ( V
1 + n2;1 1 ) ; ( V 2
On constate donc que la rgion de conance de niveau 1 optimale (dans le sens o cest la plus exacte parmi les rgions sans biais) pour le paramtre 1 est un intervalle de R. 1 , le meilleur estimateur ponctuel sans biais de 1 . Les extrmits de Cet intervalle est centr en 1 . On constate donc qu ( 1 ) /de V lintervalle sont obtenues en ajoutant/retranchant n2;1 2 un niveau de conance 1 donn, lestimateur ponctuel de 1 contrle la position de lintervalle de conance, et ce qui en contrle la largeur est la prcision (estime) de cet estimateur, mesure 1 ). On a mentionn dans la section 10.3.3 (voir page 253) que le diamtre dune rgion de ( par V conance (i.e., la largeur dans le cas dun intervalle) tait une caractristique prendre en compte, puisquelle dcrit le caractre informatif de cette rgion. On voit que dans le cas de lintervalle C1,n cette largeur est dautant plus petite que lestimation de 1 est prcise. Autrement dit, plus cette estimation est prcise, plus le caractre informatif de C1,n sera prononc, ce qui constitue un rsultat
80
souhaitable (et attendu) : une grande prcision sur lestimation de 1 permet lintervalle C1,n dcarter plus de valeurs juges non plausibles de ce paramtre (voir la discussion de la page 253). 1 ) . ( On appelle prcision de lintervalle C1,n la largeur de cet intervalle, gale 2 n2;1 V
2
Bien que le thorme 10.2 permette de dduire que P1 (1 C1,n ) 1 , on peut aussi obtenir cette ingalit partir de la dnition de C1,n et du corollaire 3.3. En eet 1 n2;1 P1 (1 C1,n ) = P1 2 = P1 n2;1 2 =1 1 ) 1 1 + n2;1 ( V 2 1 ) ( V n2;1 2 1 ) ( V
1 1
o la premire galit provient de (3.21) et la dernire provient du corollaire 3.3 et de la dnition de n2;1 comme le quantile dordre 1 2 de la loi de Student n 2 degrs de libert. 2
sec:ic_beta0
3.5.2
Intervalle de conance pour 0
Il sut de calquer la dmarche utilise pour construire C1,n . La rgion de conance sans biais la plus exacte au niveau 1 pour le paramtre 0 est lintervalle C0,n dni par 0 n2;1 C0,n = 2 0 ) ; 0 + n2;1 ( V 2 0 ) ( V (3.22)
eq:ic_beta0
Les mmes remarques que pour C1,n , transposes au cas du paramtre 0 , sappliquent C0,n .
sec:ic_beta0
3.5.3
Intervalle de conance pour une combinaison linaire de 0 et de 1
En prolongeant la dmarche base sur lassociation entre rgion de conance et famille de tests, il est facile de former une rgion de conance de niveau 1 pour une combinaison linaire a0 0 + a1 1 de 0 et 1 partir du test de Student de la proprit 3.7. Le paramtre dintrt ici est = a0 0 + a1 1 . Comme prcdemment, on dnit Cn la rgion de R forme de toutes les valeurs r pour lesquelles le test de Student de niveau de H0 (r ) : a0 0 + a1 1 = r contre H1 (r ) : a0 0 + a1 1 = r conduit dcider H0 (r ). Formellement, en utilisant la dnition de ce test de Student (voir la proprit 3.7), on a Cn = r R | 0 + a1 1 r | |a0 n2 ;1 2
2 a2 0 V(0 ) + a1 V(1 ) + 2a0 a1 cov(0 , 1 )
Par le mme raisonnement que dans la section 3.5.1, on dduit que Cn est la rgion de conance de niveau 1 pour = a0 0 + a1 1 la plus exacte parmi toutes les rgions de conance sans biais de niveau 1 pour . 0 + a1 1 , on peut crire On montre que Cn est un intervalle de R. En eet, si on note = a0
2 0 + a1 1 ) = a2 V ( (a0 V ) = V 0 (0 ) + a1 V(1 ) + 2a0 a1 cov(0 , 1 )
3.5. RGIONS DE CONFIANCE Donc Cn = r R | = ( V ) n2 ;1 r 2 ( V ) n2 ;1 2
81
( V ) n2 ;1 ; + 2
( V ) n2 ;1 2
En reprenant le cas particulier du test sur E(Yi ) (ce qui revient choisir a0 = 1 et a1 = Xi , voir section 3.3.1.2), on peut directement obtenir un intervalle de conance de niveau 1 pour la valeur attendue de Yi . Dans un tel cas, on a = 0 + 1 Xi et utilise la forme de Cn donne 0 + 1 Xi . Plus explicitement, on a ci-dessus, avec = 0 + 1 Xi Cn = avec 0 + 1 Xi + ( 0 + 1 Xi ) n ;1 ; V 2 2 1 ( 0 + 1 Xi ) = V 2 + n (Xi X )2 ( 0 + 1 Xi ) n ;1 V 2 2
n 2 j =1 Xj
nX
sec:rc_b0b1
3.5.4
Rgion de conance pour (0 , 1 )
Finalement, on utilise toujours la mme approche pour construire une rgion de conance pour le couple (0 , 1 ). Il sagit ici de trouver une rgion de R2 qui contient simultanment les valeurs (inconnues) des deux paramtres. Dans la section 3.3.2.3, pour b = (b0 , b1 ) donn, on a prsent le test de Fisher de niveau pour tester H0 (b) : (0 , 1 ) = (b0 , b1 ) contre H1 (b) : (0 , 1 ) = (b0 , b1 ). Ce test peut tre construit pour chaque valeur possible du couple (b0 , b1 ). Le thorme 10.2 permet de conclure que la rgion Cn de R2 contenant tous les couples b = (b0 , b1 ) pour lesquels on dcide H0 (b) au niveau au moyen du test de Fisher est une rgion de conance de niveau 1 pour le couple = (0 , 1 ). La forme du test de Fisher est donne dans la proprit 3.10, et on a 1 b) F(2,n2);1 } Cn = {b R2 | ( b) ( 2 v )1 ( 2 . La frontire de cette rgion est dcrite par lquation dune ellipse de centre
Chapitre 5
ch:mco
Le modle de rgression linaire standard : dnition et estimation

Dans le chapitre prcdent, on a considr un problme dans lequel on voulait construire un modle statistique simple permettant de reprsenter une relation deux variables et de ltudier. Dans ce chapitre (et les suivants), on gnralise lapproche, ainsi que les rsultats obtenus.
sec:mrlst_def
5.1
Dnition
On se xe ici les mmes objectifs que dans le chapitre 1, mais en cherchant gnraliser les relations tudies dans les chapitres prcdents. Plus prcisment, on cherche un modle statistique simple permettant de reprsenter et dtudier au moyen des mthodes dinfrence statistique usuelles une relation dans laquelle p variables exognes expliquent une variable endogne. La variable endogne (ou dpendante) est note Y comme auparavant et les variables exognes (explicatives) sont numrotes et notes X1 , . . . , Xp . Lapproche expose la section 1.2 reste tout fait adapte ce nouveau contexte. Notamment, le modle proposera une dcomposition additive de Y en deux parties : une partie qui capture de manire simple (linairement) linuence des variables X1 , . . . , Xp sur Y ; une partie qui capture leet que des facteurs non identis ou non mesurs, autres que ceux mesurs par X1 , . . . , Xp , peuvent ventuellement avoir sur Y . Pour complter la reprsentation recherche dans le contexte des objectifs xs au dpart, on introduira des conditions qui permettent de traduire la distinction entre variables exognes et variable endogne ; des conditions permettant de capturer la prdominance de leet des variables exognes explicitement introduites sur celui que peuvent avoir les autres facteurs dans la dtermination du niveau de la variable endogne. En ce qui concerne les notations, on dsignera par Xik la variable alatoire exprimant la mesure de la variable Xk pour lindividu i de lchantillon, tandis que comme auparavant, Yi est la variable 87
88
CHAPITRE 5. MRLS : DFINITION ET ESTIMATION
alatoire qui exprime la mesure de la variable endogne pour ce mme individu, k = 1, . . . , p et i = 1, . . . , n. Les observations de ces variables seront notes xik et yi , respectivement.
def:mrlsp
Dnition 5.1 Pour chaque individu i dun chantillon de taille n, on dispose dun (p + 1)-uplet de variables alatoires (Xi1 , Xi2 , . . . , Xip , Y ) i = 1, . . . , n. Le modle de rgression linaire standard (MRLS) p variables de Y sur (X1 , . . . , Xp ) est un modle statistique dans lequel les conditions suivantes sont satisfaites Cp 1. P(Xik = xik , k = 1, . . . , p, i = 1, . . . , n) = 1 Cp 2. Il existe p + 1 rels 0 , 1 , . . . , p tels que E(Yi ) = 0 + 1 Xi1 + + p Xip , Cp 3. Il existe un rel strictement positif tel que
0 si i = j cov(Yi , Yj ) = 2 si i = j
i = 1, . . . , n
pour toute paire (i, j ) dlments de {1, . . . , n}.
Les interprtations des trois conditions de la dnition prcdente sont dune nature identique celles qui ont t faites dans la section 1.3.2 des conditions C1, C2 et C3 (dnition 1.1). Il sut simplement de tenir compte du fait que dans le modle introduit ci-dessus, on utilise p variables pour expliquer la variable endogne : connaissant la valeur des variables exognes, la valeur attendue de la variable endogne scrit comme une fonction ane de la valeur des variables exognes. Cette fonction est caractrise par les p + 1 paramtres 0 , 1 , . . . , p . La remarque faite sur la vraie loi et les vraies valeurs des paramtres (voir la remarque 1.1) sapplique galement. Les paramtres admettent des vraies valeurs quon notera 0 , 1 , . . . , p . Celles-ci sont inconnues et un objectif sera destimer ces valeurs partir des observations des variables du modle. La dnition donne ci-dessus dsigne un modle particulier dans lensemble des modles de rgression linaire. Ces derniers sont des modles caractriss par la condition Cp 2. Le qualicatif standard utilis dans lappellation du modle de la dnition 5.1 traduit le fait que celuici constitue un point de rfrence pour lensemble des modles de rgression linaire, caractris par lajout des conditions simplicatrices Cp 1 et Cp 3. Il est notamment courant de comparer les proprits des modles rgressions linaire plus gnraux avec celles du modle standard dni ci-dessus. Comme dans le cas du modle simple prsent au chapitre 1, le modle de rgression linaire standard p variables admet une dnition quivalente, faisant apparatre explicitement la dcomposition recherche de Y , rappele avant la dnition 5.1.
pro:mrlsp_eps
Proprit 5.1 Pour chaque individu i dun chantillon de taille n, on dispose dun (p + 1)-uplet de variables alatoires (Xi1 , Xi2 , . . . , Xip , Y ) i = 1, . . . , n. Les conditions Cp 1, Cp 2 et Cp 3 sont satisfaites si et seulement si les conditions suivantes le sont aussi C p 1. P(Xik = xik , k = 1, . . . , p, i = 1, . . . , n) = 1
5.1. DFINITION C p 2. Il existe p + 1 rels 0 , 1 , . . . , p tels que Yi = 0 + 1 Xi1 + + p Xip + i , C p 3. Il existe un rel strictement positif tel que
0 si i = j cov(i , j ) = 2 si i = j
89
i = 1, . . . , n
o i Yi E(Yi ), i = 1, . . . , n
pour toute paire (i, j ) dlments de {1, . . . , n}.
On note donc que la condition C p 2 permet de faire apparatre dans la dnition du modle la dcomposition recherche de la variable endogne : le niveau de cette variable sexprime comme la somme dune partie qui ne dpend (linairement) que du niveau des variables exognes explicitement introduites dans le modle, et dune partie qui dpend dautres facteurs non dnis, non-mesurs et/ou non-observables. Dans la suite, quil sagisse de linterprtation ou de ltude du modle, on pourra atteindre les rsultats et objectifs recherchs en proposant une reformulation du MRLS p variables dans lequel les lments sont considrs comme des vecteurs dont les coordonnes peuvent tre alatoires, et en sappuyant sur des notions dalgbre linaire. Pour cela on introduit les lments suivants :
Y =
Y1 Y2 . . . Yn
Xi
pour i = 1, . . . , n et k = 0, . . . , p, et avec la convention que Xi0 = 1, i = 1, . . . , n. Les lments Y , Xk sont considrs comme des vecteurs de Rn dont les coordonnes sont alatoires. Il en est de mme pour Xi , la dirence quil est un vecteur de Rp+1 . On introduit de plus la matrice X de taille (n, (p + 1)), dont les entres sont alatoires et dont les colonnes sont les vecteurs alatoires Xk , k = 0, . . . , p, de Rn :
X=
Xi0 Xi1 . . . Xip
Xk
X1k X2k . . . Xnk
X10 X20 . . .
X11 X21 . . .
. . .
X1p X2p . . . Xnp
Xn0 Xn1
On introduit galement le vecteur non alatoire de Rp+1 dont les coordonnes sont les paramtres inconnus de la relation exprime par la condition Cp 2 ou C p2 :
=
page:matrices 0
X1
Xp
X1 X2 . . . Xn
0 1 . . . p
Ces lments permettent de reformuler les conditions Cp 2 et Cp 3, ou C p 2 et Cp 3, de la manire suivante.
90
pro:mrslmat
Proprit 5.2 1. Les conditions Cp 1 Cp 3 de la dnition 5.1 sont quivalentes la condition Rp+1 , ]0, [, E(Y ) = X et V(Y ) = 2 In o, comme mentionn la section 3.1, E(Y ) est le vecteur de Rn dont la i e coordonne est E(Yi ), i = 1, . . . , n et V(Y ) est la matrice de dimensions (n, n) dont la (i, j )e entre est cov(Yi , Yj ).
2. Les conditions C p 1 Cp 3 de la proprit 5.1 sont quivalentes la condition
Rp+1 , ]0, [, Y = X + et V() = 2 In o le vecteur alatoire de Rn est dni par

= Y E(Y ) =
rem:EY_LX
1 2 . . . n
Remarque 5.1 En utilisant la proprit 5.2, on constate que la condition Cp 2 impose au vecteur E(Y ) de Rn dtre une combinaison linaire des p + 1 vecteurs X0 , X1 , . . . , Xp de Rn : on doit avoir E(Y ) = 0 X0 + + p Xp pour des rels 0 , . . . , p . Ces vecteurs, qui composent les colonnes de la matrice X , engendrent un sous-espace de Rn , not L(X0 , . . . , Xp ) et la condition Cp 2 scrit E(Y ) L(X0 , . . . , Xp ). Daprs la condition C p 2, on peut donc dcomposer le vecteur n Y de R en tant que somme dun vecteur de L(X0 , . . . , Xp ) et dun vecteur de Rn . On peut reprsenter graphiquement cette dcomposition laide de la squence de graphiques de la gure 5.1. 1 Cette reprsentation fait notamment apparatre lespace L(X0 , . . . , Xp ) comme sous-espace de Rn , engendr par les vecteurs X0 , . . . , Xp (et donc contenant ces vecteurs). Les graphiques montrent galement que E(Y ) appartient ce sous-espace ainsi que limpose la condition Cp 2, mais quen gnral Y nen fait pas partie. Finalement, la dcomposition de Y en la somme de E(Y ) L(X0 , . . . , Xp ) et de Rn est illustre. R Remarque 5.2 Si les p +1 vecteurs X0 , . . . , Xp sont linairement indpendants, alors ils forment une base du sous-espace L(X0 , . . . , Xp ) de Rn de dimension p + 1. Dans ce cas, la dcomposition de E(Y ) sur les vecteurs X0 , . . . , Xp est unique. Les paramtres 0 , . . . , p de cette dcomposition sont les coordonnes du vecteur E(Y ) dans la base X0 , . . . , Xp . Lunicit rsultant de lindpendance de ces vecteurs a une consquence importante en termes dinterprtation du modle. En eet, ce modle est destin reprsenter et mesurer la relation entre la variable Y et les variables X1 , . . . , Xp , et pose que cette relation est linaire, ainsi que le traduit la condition C p 2 (ou Cp 2). En particulier, la mesure de la raction de la variable Y une variation de la variable Xk est k . Si les vecteurs X0 , . . . , Xp ntaient pas linairement indpendants, alors la dcomposition de E(Y ) sur ces vecteurs ne serait pas unique : on pourrait trouver des rels 0 , . . . , p , avec l = l pour au
1. Cette squence de graphiques est anime. Pour visualiser lanimation, reportez-vous aux indications donnes la n de lintroduction de ce document. Si vous ne disposez pas dun lecteur de chiers PDF permettant danimer la squence de graphiques, lanimation est disponible lurl http://gremars.univ-lille3.fr/~torres/enseigne/ectrie/Cp2/ .
rem:decomp_EY
5.1. DFINITION
91
moins un l {0, . . . , p}, tels que E(Y ) = 0 X0 + + p Xp . 2 On voit alors quil y a une ambigut lorsquon cherche reprsenter, au moyen dune condition telle que Cp 2, la relation entre Y et une variable exogne Xk , puisque le lien entre ces deux variables peut tre caractris soit par k soit par k . Il y a dans ce cas une indtermination dans cette reprsentation : les paramtres dintrt qui relient la variable endogne aux variables exognes ne sont pas caractriss de manire unique par la condition Cp 2. Lorsque cela se produit, on dit que ces paramtres ne sont pas identis. On verra quelles sont les consquences de cela en terme dinterprtation et destimation de ces R paramtres.
rem:rangX
Remarque 5.3 Notons que les p + 1 vecteurs X0 , . . . , Xp sont les colonnes de la matrice X . Par consquent, ils sont linairement indpendants si et seulement si la matrice X est de rang p + 1. On voit alors quune condition ncessaire pour que le rang de X soit gal p + 1 est quon dispose dun nombre dobservations n suprieur au nombre p + 1 de paramtres qui expriment la relation entre les variables exognes et la variable endogne. Rappelons galement lquivalence suivante qui sera par la suite : rang(X ) = p + 1 X X est inversible. 3 R Remarque 5.4 Il est clair que si la condition Cp 2 spcie que E(Y ) peut scrire E(Y ) = X, alors pour toute matrice Q de taille (p + 1, p + 1) inversible, on peut crire E(Y ) = XQ1 Q . On peut alors dnir = Q et Z = XQ1 . Dans ce cas, la condition Cp 2 impose quil existe Rp+1 tel que E(Y ) = Z. R-crite de cette manire, la condition Cp 2 exprime que le vecteur E(Y ) de Rn est un lment du sous espace L(Z0 , . . . , Zp ) de Rn engendr par les colonnes de la matrice Z . On notera que L(X0 , . . . , Xp ) et L(Z0 , . . . , Zp ) sont les mmes sous-espaces de Rn . En eet, lquivalence Z = XQ1 X = ZQ montre que toute combinaison linaire de Z0 , . . . , Zp est galement une combinaison linaire de X0 , . . . , Xp et vice versa. Par consquent, les conditions E(Y ) L(X0 , . . . , Xp ) et E(Y ) L(Z0 , . . . , Zp ) sont parfaitement quivalentes. Autrement dit, en choisissant dcrire la condition Cp 2 sous la forme E(Y ) = Z o Z = XQ1 pour une matrice Q connue, on ne change pas le modle. Cela revient choisir Z0 , . . . , Zp comme variables explicatives au lieu de X0 , . . . , Xp , les unes tant des transformations bijectives des autres, ainsi que le traduit lquivalence Z = XQ1 X = ZQ. Ce changement de variables explicatives induit un changement de paramtres (ou une reparamtrisation). Lorsque X0 , . . . , Xp sont linairement indpendants, ils forment une base de L(X0 , . . . , Xp ). Puisque Q est inversible, les vecteurs Z0 , . . . , Zp sont galement linairement indpendants. Ils forment un autre base de L(X0 , . . . , Xp ). Exprimer E(Y ) = Z revient simplement exprimer le vecteur E(Y ) dans cette nouvelle base, et les lments de sont les coordonnes de E(Y ) dans la R base Z0 , . . . , Zp .
rem:LZ
page:rang foot:rang
2. Dans le cas o X0 , . . . , Xp ne sont pas linairement indpendants, lun de ces vecteurs scrit comme une combinaison linaire des autres. Quitte renumroter les variables exognes, on peut supposer quil existe des nombres p 1 c0 , . . . , cp1 non tous nuls tels que Xip = k=0 ck Xik pour tout individu i. Dans ce cas, en utilisant la condition Cp 2, p 1 on voit que E(Yi ) = 0 + 1 Xi1 + + p1 Xip1 + p k=0 ck Xik = 0 + 1 Xi1 + + p Xip o k = k + ck p , k = 0, . . . , p 1 et p = 0. 3. Vous devriez vous assurer que ce rsultat vous est connu et que vous savez le dmontrer. . .
92
0
L(X
0 , X 1 , . .
X0 E(Y ) Xp
X1 Xk
.,X
p )
fig:decomp_EY
Figure 5.1: Reprsentation de la dcomposition Y = E(Y ) +
5.2. INTERPRTATION DES PARAMTRES DU MODLE

sec:mrls_interpp
93
5.2
Interprtation des paramtres du modle
Pour interprter le rle des paramtres dans un MRLS, on peut avoir recours au procd suivant. On sintresse par exemple 1 . Considrons deux individus identiques pour lesquels les caractristiques mesures par les variables exognes sont identiques, sauf pour ce qui concerne X1 . Plus prcisment, on suppose que pour les individus i et j distincts, on observe Xik = Xjk = xk pour k = 2, . . . , p et que pour k = 1, on a xi1 = xj 1 + 1. On peut dduire limpact de cette dirence sur la valeur attendue de la variable endogne de chacun de ces individus. On aura donc E(Yi ) = 0 + 1 (xj 1 + 1) + 2 x2 + + p xp
E(Yj ) = 0 + 1 xj 1 + 2 x2 + + p xp E(Yi Yj ) = E(Yi ) E(Yj ) = 1
La dirence attendue sur le niveau de la variable endogne pour les individus i et j est donc
On interprte donc le paramtre 1 attach la variable explicative X1 comme la dirence attendue sur le niveau de la variable endogne entre deux individus identiques en tout point, except que le premier a un niveau variable X1 dune unit plus lev que le second. On obtient le mme type dinterprtation en tudiant leet dune variation de X1 sur le niveau attendu de Y , toutes les autres variables tant maintenues constantes et xes des valeurs donnes x2 , . . . , xp . Pour cela, on considre E(Yi ) comme une fonction des variables Xi1 , . . . , Xip : E(Yi ) = f (Xi1 , . . . , Xip ) = 0 + 1 Xi1 + + p Xip . Leet dune variation de Xi1 sur la valeur attendue de Yi studie alors au moyen de la drive partielle de f par rapport Xi1 , value en x1 , x2 , . . . , xp . On obtient facilement : 4 E(Yi ) Xi1 =
(x1 ,x2 ,...,xp )
f (x1 , x2 , . . . , xp ) = 1 Xi1
Le paramtre 1 mesure donc leet des variations de Xi1 sur la valeur attendue de Yi . On peut obtenir un rsultat plus prcis sur cet eet, puisque si on xe le niveau Xik xk pour k = 2, . . . , p, alors E(Yi ) dpend de linairement Xi1 . Par consquent, 1 est galement la variation relative de E(Yi ) conscutive un accroissement de units de Xi1 , les niveaux des variables autres que Xi1 tant maintenue inchangs. Formellement, en considrant comme auparavant E(Yi ) = f (Xi1 , . . . , Xip ), on peut crire : f (xi1 + , x2 , . . . , xp ) f (xi1 , x2 , . . . , xp ) = 1 Lorsquon choisit = 1, on peut interprter 1 comme la variation attendue de Yi engendre par une augmentation dune unit du niveau de la variable Xi1 , le niveau des autres variables restant inchang (ou encore, toutes choses gales par ailleurs). Notons que le signe de 1 est important, puisque sil est positif, un accroissement provoquera, toutes choses gales par ailleurs, une augmentation de la valeur attendue de Yi , tandis que si 1 est ngatif, cest une diminution qui sera attendue.
4. Cette drive ne dpend videmment pas de lendroit o elle est value, puisque f est linaire en chacun de ses arguments.
94
rem:tcpa
Remarque 5.5 Lors de linterprtation des paramtres dun MRLS ou lors dun exercice thorique qui consiste examiner leet dune augmentation de lune des variables exognes sur le niveau attendu de la variable endogne, il est trs important de raisonner toutes choses gales par ailleurs . Les exemples suivants montrent pourquoi. 1. Considrons un MRLS dans lequel les individus sont des maisons, la variable endogne est le prix de vente de la maison et les variables explicatives sont la surface, le nombre de pices et lge de la maison. Dsignons par 1 le paramtre de la variable nombre de pices. Si on sintresse au signe possible de 1 , on pourrait de manire un peu htive conclure quil est positif, puisquen gnral, une maison avec beaucoup de pices sera vendue un prix plus lev quune maison ayant peu de pices (donc 1 positif). Cependant, dans le contexte du MRLS formul dans cet exemple, ce raisonnement nest pas valable. En eet, comme dcrit ci-dessus, 1 sinterprte comme la dirence attendue entre le prix de vente de deux maisons identiques en tout point, except que lune possde une pice de plus que la prcdente. Cela implique donc que dans cette comparaison, les deux maisons ont la mme surface. Par consquent, si lune a plus de pices que lautre, la taille moyenne de ses pices doit tre plus petite, et peut donc avoir une valeur de vente moindre. On voit donc quen raisonnant toutes choses gales par ailleurs, comme il se doit, il est tout fait plausible de penser que la hausse du nombre de pices peut se traduire par un prix de vente attendu plus faible (donc 1 ngatif). Le raisonnement erron qui conduisait estimer que 1 devrait tre positif comportait une tape sous-jacente qui consistait armer que si une maison a plus de pices quune autre, elle est en gnral de plus grande supercie et a donc plus de valeur. On voit dans ce cas que le raisonnement envisage non seulement une augmentation du nombre de pices, mais galement une augmentation de la supercie. Ce type de raisonnement dans lequel on autorise ventuellement une variation du niveau des variables autres que celles dont on tudie leet sur la variable endogne nest pas correct, dans le contexte de linterprtation des paramtres dun MRLS. 2. Considrons prsent un MRLS dans lequel les individus sont des villes, la variable endogne est le nombre moyen de passagers/heure dans les bus de la ville, et les variables exognes sont le prix du ticket de bus, le prix du litre dessence, le revenu moyen per capita, la supercie de la ville, le nombre dhabitants. Dans cet exemple, on dsigne par 1 le paramtre attach la variable prix du ticket de bus. Lors de linterprtation de ce paramtre, on peut tre tent de dire que laugmentation du prix du ticket de bus na pas le mme eet sur le nombre de passagers/heure dans les petites villes que dans les grandes villes. Cependant, le MRLS dcrit ici ne permet pas de mesurer le degr dexactitude de cette armation. Raisonner toutes choses gales par ailleurs implique que leet dune variation du prix du ticket de bus sur la variable endogne doit studier pour des villes ayant des niveaux identiques des autres variables exognes, et en particulier pour des villes ayant la mme supercie et le mme nombre dhabitants. 3. On mentionnera le caractre parfois dlicat dun raisonnement toutes choses gales par ailleurs . Pour illustrer cela, considrons un MRLS dans lequel les individus sont des humains, o la variable dpendante est le montant des dpenses de sant, les variables explicatives sont la zone dhabitat (rurale/urbaine) le sexe, lge, le carr de lge. Cette dernire variable est
5.2. INTERPRTATION DES PARAMTRES DU MODLE
95
introduite pour ventuellement capturer lexistence potentielle de liaisons non linaires entre lge et les dpenses de sant. Il est clair que dans ce cas, il est dicile dvaluer leet de laugmentation de la variable ge sur la variable dpenses de sant, en voulant garder constant le niveau de la variable carr de lge. Dans un tel cas, plutt que de vouloir interprter le paramtre attach la variable ge, il est recommand dtudier, toutes choses gales par ailleurs, leet de lge (et donc des variables ge et carr de lge) sur les dpenses de sant. Cet eet global de lge se dcompose alors en un eet linaire (par lintrmdiaire de la variable ge) et dun eet non-linaire (par lintermdiaire de la variable carr de lge). 4. Finalement, on notera que dans le cas o X nest pas de rang p + 1 la mesure des eets dune variable exogne Xk sur la variable endogne Y au moyen du paramtre k nest plus possible. On a vu dans la remarque 5.2 que cela correspond au cas o les paramtres du modle ne sont pas identis et quil existe plusieurs faons de mesurer leet toutes choses gales par ailleurs dune augmentation de Xk sur la variable Y . La raison est assez proche de celle voque dans le point prcdent. En eet, lorsque le rang de X nest pas gal p + 1, au moins lune des variables exognes sexprime comme une combinaison linaires des autres (voir la remarque 5.3). En reprenant lexemple de la note 1 2 du bas de la page 91 dans lequel on suppose quon peut crire Xip = p k =0 ck Xik pour i = 1, . . . , n, on voit que si Xi1 augmente dune unit, alors on a ncessairement que Xip varie de c1 unit(s). Il est donc impossible dinterprter 1 comme la variation attendue de Yi lorsque Xi1 augmente dune unit, toutes choses gales par ailleurs. On a eectivement dans ce cas E(Yi ) = 0 + 1 Xi1 + + p Xip
= (0 + c0 p ) + (1 + c1 p )Xi1 + + (p1 + cp1 p )Xip1
en exprimant la dernire variable exogne en fonction des autres. Cette criture fait apparatre que leet attendu sur Yi dune augmentation dune unit de la variable Xi1 , toutes choses gales par ailleurs, est 1 = 1 + c1 p . Les paramtres qui permettent de reprsenter la relation linaire entre les variables exognes et la variable endogne ne sont donc pas ceux apparaissant dans la condition Cp 2, mais plutt des combinaisons linaires de ces derniers, donnes par k = k + ck p , k = 0, . . . , p 1.
Ceci montre que la relation Cp 2, par laquelle on exprime le fait quon veut expliquer linairement Y en fonction des p variables X1 , . . . , Xp , est mal spcie, dans la mesure o lorsque les p 1 premires variables exognes sont prises en compte, alors la dernire est redondante (elle est elle-mme une combinaison linaire des autres variables explicatives) et nest donc pas ncessaire pour expliquer Y .
Ces conclusions ne sont valables que si les p 1 premires variables endognes sont elles-mmes linairement indpendantes. Si ce ntait pas le cas, alors on pourrait itrer le raisonnement qui vient dtre tenu propos de Xp : on aurait une relation dans laquelle seulement p 2 variables exognes expliquent Y . Si on note r le rang de la matrice X , alors la condition Cp 2 est quivalente une condition qui tablit quil existe r rels 1 , . . . , r uniques pour lesquels on a (5.1) E(Yi ) = 1 Xik1 + + r Xikr , i = 1, . . . , n
eq:decomp_EY_se
96
CHAPITRE 5. MRLS : DFINITION ET ESTIMATION o k1 , . . . , kr sont r indices distincts parmi {0, 1, . . . , p}. Il est en eet clair que si la dcomposition (5.1) est vraie, alors Cp 2 est galement vraie : il sut de poser k = j sil existe j tel que kj = k et k = 0 sinon. Rciproquement, si Cp 2 est vraie et si rang(X ) = r , alors parmi les p + 1 vecteurs qui constituent les colonnes de X , il y en a r au maximum qui sont linairement indpendants. On note Xk1 , . . . , Xkr ces r vecteurs. Il forment une base de L(X0 , . . . , Xp ) et on a donc videmment L(X0 , . . . , Xp ) = L(Xk1 , . . . , Xkr ). Comme la condition Cp 2 tablit que E(Y ) appartient L(X0 , . . . , Xp ) (voir la remarque 5.2), on doit avoir que E(Y ) sexprime de manire unique comme une combinaison linaire des vecteurs formant une base R de cet espace. Les coecients de cette combinaison linaire sont 1 , . . . , r .
sec:estim_mco_multiv
5.3
5.3.1
Estimation des paramtres 0, . . . , p

La mthode des moindres carrs
sec:estim_mco_multiv
Dans cette section, on reprend le problme destimation des paramtres 0 , . . . , p . La dmarche expose dans la section 2.1 peut sappliquer ici : on cherche les valeurs des paramtres pour lesquelles les distances (mesures par les carrs des dirences) entre Yi et la partie de Yi explique par les variables exognes ont la plus petite moyenne. Minimiser la moyenne de ces distances revient minimiser leur somme. On est donc amen minimiser par rapport 0 , . . . , p la fonction S (0 , . . . , p ) dnie par
n
S (0 , . . . , p ) =
i=1
(Yi 0 1 Xi1 p Xip )2
Cette fonction est continue et drivable par rapport chacun de ses arguments. Sa minimisation repose donc sur le calcul de ses drives premires et secondes. La premire tape consiste trouver 0 , . . . , p ) pour lequel chacune des drives premires de S sannule : un (p + 1)-uplet ( S p ) = 0, (0 , . . . , k k = 0, . . . , p (5.2)
eq:mcocpo1
Pour tout k = 0, . . . , p, S est un polynme de degr 2 en k . Donc le membre de gauche de la ke quation de (5.2) est linaire en l , l = 0, . . . , p, k = 0, . . . , p. Ces p + 1 quations forment donc un systme linaire p + 1 inconnues, et une reformulation matricielle laide des lments Y , et X introduits la section 5.1 permet den exprimer facilement les solutions. Notons quen utilisant la notation Xi0 = 1 pour tout i, pour k = 0, . . . , p, on a
n S (0 , . . . , p ) = 2 Xik (Yi 0 Xi0 1 Xi1 p Xip ) k i=1
(5.3)
eq:derivS1
S Avec les dnitions de et de Xi , i = 1, . . . , n, introduites la section 5.1, on peut crire ( ) = k n e 2 i=1 Xik (Yi Xi ), k = 0, 1, . . . , p. On remarque que Yi Xi est la i coordonne du vecteur (alatoire) Y X de Rn . Par consquent, on peut galement crire :
S ( ) = 2X k (Y X ) k
k = 0, 1, . . . , p
(5.4)
eq:derivS2
5.3. ESTIMATION DES PARAMTRES 0 , . . . , p
97
o les vecteurs Xk , k = 0, 1, . . . , p, ont t dnis en 5.1. Par consquent, pour minimiser S on = ( 0 , . . . , p ) Rp+1 tel que cherche un ) = 0p+1 X (Y X o 0p+1 dsigne le vecteur nul de Rp+1 , ou encore, = X Y X X (5.6)
eq:eq_norm
(5.5)
eq:mcocpo2
existe et est unique si et seulement si la matrice X X est inversible. Dans ce cas, on Un tel obtient = (X X )1 X Y ralise le minimum de S . Ce sera le cas Sous cette condition dinversibilit, il faut vrier que . partir de (5.3), on calcule la si la matrice des drives secondes de S est dnie positive en (k, l)e entre de cette matrice :
n 2S ( ) = 2 Xik Xil = 2X k Xl k l i=1
On en dduit que la matrice des drives secondes de S est 2X X . On vrie quelle est dnie positive. Soit a = 0p+1 un vecteur non nul de Rp+1 . On a
n
a (X X )a = (Xa) Xa =
i=1
A2 i
(5.7)
eq:XtX_dp
e o Ai = p k =0 Xik ak = Xi a est la i coordonne du vecteur A = Xa. Donc X X est dnie positive si et seulement si Xa = 0, pour tout a Rp+1 , a = 0p+1 . Or cette condition est ncessairement vrie puisquelle quivaut la condition que X X est inversible (voir la remarque 5.3), ce que nous avons suppos. On a donc prouv le rsultat suivant.
pro:est_mco_mrls
Proprit 5.3 Si la matrice X , de taille (n, p + 1) et dlment constitutif Xik , est de rang p + 1, = (X X )1 X Y . On appelle lestimateur des alors S admet un unique minimum, atteint en e moindres carrs ordinaires (MCO) de . La (k + 1) coordonne k de est lestimateur des MCO de k . Si X est de rang infrieur p + 1, la fonction S admet un mme minimum en plusieurs points de Rp+1 . On dit dans ce cas que lestimateur des MCO de nexiste pas. Remarque 5.6 Il est naturel que lestimateur des MCO de nexiste pas lorsque le rang de X nest pas gal p + 1. En eet, nous avons not la remarque 5.2, que dans ce cas la dcomposition de E(Y ) comme combinaison linaire des vecteurs X0 , . . . , Xp ntait pas unique. Dans ce cas, lquation (5.6) qui caractrise les solutions de la minimisation de S montre ces solutions sont multiples. Le rsultat nonc ci-dessus montre alors que si les paramtres 0 , . . . , p sont nonidentis, alors lestimateur de MCO de ces paramtres nexiste pas. R Remarque 5.7 Pour linterprtation graphique de la consquence du rang de X sur la minimisation de S , voir les graphiques 2.3 (cas rang(X ) = p + 1) et 2.5 (cas rang(X ) < p + 1) du chapitre 2. R
98
rem:mco_et_mrls
Remarque 5.8 Il est important/intressant de noter que pour driver la solution du problme de minimisation de la fonction S , il na t fait aucun usage des conditions Cp 1 Cp 3 qui dnissent = (X X )1 X Y que ces le MRLS. Autrement dit, la minimisation de S admet pour solution 5 conditions soient vraies ou pas. Le fait de se placer dans le contexte dun MRLS nintervient que dans le choix dune mthode destimation, qui est celle qui vient dtre expose et qui conduit utiliser la solution du problme de minimisation de S comme estimateur du vecteur des paramtres du modle. On rappelle que ce choix est bas sur lobservation que la condition Cp 2 impose E(Y ) dtre un combinaison linaire des vecteurs constituant les colonnes de X ; on essaie alors dapproximer une telle combinaison linaire par celle qui est la plus proche de Y . Cette remarque reste galement valable pour tout le contenu de la section qui suit. en tant questimateur En revanche, comme on le verra la section 5.3.3, les proprits de de (biais, prcision, etc) dpendront de celles de Y et de X , et en particulier de la relation qui les lie lun lautre. On voit donc que ces proprits dcouleront bien des conditions Cp 1 Cp 3 R dnissant le modle.
sec:inter_geo_mco
5.3.2
Interprtation gomtrique de lestimation par moindres carrs
Lestimateur des MCO de obtenu en minimisant la fonction S donne lieu des interprtations gomtriques intressantes. Pour cela, il faut reconsidrer le problme de minimisation de S , en rappelant des lments dalgbre lmentaires sur lespace vectoriel Rn (sur R). On rappelle que le produit scalaire de deux vecteurs u = (u1 , . . . , un ) et v = (v1 , . . . , vn ) de 6 Rn est le rel not u, v dni par u, v = n i=1 ui vi = u v . Ce produit scalaire permet de dnir la norme dun vecteur u, note u , par u = u, u . Par consquent, puisque (Yi 0 1 Xi1 p Xip ) est la ie coordonne du vecteur Y X , on peut crire S (0 , . . . , p ) = Y X
2
(5.8)
eq:Snorme
On note maintenant que par construction, tout vecteur de L(X0 , . . . , Xp ) scrit sous la forme X pour un certain Rp+1 et rciproquement, tout vecteur de Rn scrivant sous la forme X est dans L(X0 , . . . , Xp ). Par consquent, chercher le Rp+1 qui minimise Y X 2 revient de L(X0 , . . . , Xp ) tel que chercher le vecteur Y Y U
2
Donc le problme de minimisation de S scrit min Rp+1 Y X 2 .
Y Y
U L(X0 , . . . , Xp )
(5.9)
eq:Smin_distanc
Autrement dit, le problme de minimisation de S est quivalent minU L(X0 ,...,Xp ) Y U 2 . Le point 5 de la proprit 9.22 (section 9.2) tablit que la solution de ce problme est le vecteur Y de L(X0 , . . . , Xp ) correspondant la projection orthogonale de Y sur cet espace. Si les vecteurs X0 , . . . , Xp sont linairement indpendants, ils forment une base de cet espace. Comme ils forment les colonnes de la matrice X , celle-ci est de rang p + 1, et le point 4 de cette mme proprit 9.22
5. La seule condition ncessaire porte sur le rang de X , ce qui nest pas une condition permettant de dnir le MRLS. 6. Comme on la fait jusqu prsent, on assimile un vecteur de Rn au n-uplet de ses coordonnes.
99
permet dcrire que la matrice associe lapplication de projection orthogonale sur L(X0 , . . . , Xp ) est PL = X (X X )1 X . On a alors = PL Y = X (X X )1 X Y Y (5.10)
eq:yhat
pour un L(X0 , . . . , Xp ), il doit scrire sous la forme Y = X Puisque par construction Y Rp+1 . Comme la matrice X est de rang p + 1, ou de manire quivalente, ses colonnes certain est unique. Lexpression de Y donne par (5.10) forment une base de L(X0 , . . . , Xp ), un tel montre quon doit alors avoir = (X X )1 X Y ce qui est bien la solution trouve dans la section prcdente. On vient de montrer que dans le MRLS o rang(X ) = p + 1, lestimateur des MCO de est le des coordonnes de la projection orthogonale sur le sous-espace L(X0 , . . . , Xp ) de Rn vecteur engendr par les vecteurs X0 , . . . , Xp contenant les observations des variables exognes, et dont ils forment une base. Ce rsultat est illustr par la squence de graphiques de la gure 5.2. . On rappelle La reformulation de S donne en (5.8) permet une interprtation intressante de Y que lapplication qui deux vecteurs u et v de Rn fait correspondre la norme de leur dirence uv est une distance (elle est non-ngative, symtrique, sannule si et seulement si u = v et satisfait lingalit triangulaire). Par consquent, minimiser S ( ) = Y X 2 par rapport Rp+1 ou satisfaisant lingalit (5.9) revient chercher le vecteur de L(X0 , . . . , Xp ) pour encore trouver Y lequel la distance avec Y est la plus petite. On voit donc questimer au moyen de lestimateur des moindres carrs revient trouver les coecients de la combinaison linaire des vecteurs X0 , . . . , Xp 0 , . . . , p de . formant le vecteur le plus proche de Y . Ces coecients sont les composantes
rem:proj_et_mco
Remarque 5.9 Dans le mme esprit que la remarque 5.8, on note que linterprtation gomtrique qui vient dtre donne de la mthode destimation par moindres carrs des paramtres du MRLS, et qui montre que la dmarche destimation est assimilable une projection orthogonale, peut tre abstraite du contexte du MRLS. En eet, ce dernier est introduit parce quon veut reprsenter une relation entre variables, laquelle on sait donner un sens (i.e., quon sait interprter). Cependant, indpendamment de tout sens quon pourrait donner une telle relation, lquivalence entre moindres carrs et projection orthogonale demeure, puisque ni la validit de la minimisation qui conduit lestimation par moindres carrs, ni le rsultat montrant que cette minimisation revient eectuer une projection orthogonale ne sappuie sur le fait que les conditions Cp 1 Cp 3 sont satisfaites ou pas. Par consquent, si on se donne q + 1 vecteurs de Rn , nots Z, U1 , . . . , Uq de sorte que U1 , . . . , Uq soient linairement indpendants, on peut sintresser la projection orthogonale de Z sur le sous-espace de Rn engendr par U1 , . . . , Uq . Ainsi quon la not, cela revient chercher la combinaison linaire de ces vecteurs la plus proche de Z . Les coecients qui dnissent cette combinaison linaire peuvent sinterprter comme les estimateurs des paramtres dune relation entre une variable endogne dont les observations seraient les coordonnes de Z et q variables exognes, la ke dentre elles ayant pour observations les coordonnes de Uk . En eet, si on construisait de manire articielle (cest dire indpendamment de tout objectif de reprsenter ou dapproximer une ralit quelconque) un modle de rgression dans lequel la variable exogne est Z et les variables explicatives sont U1 , . . . , Uq , lestimation par moindres carrs des paramtres nous amnerait rsoudre un problme de minimisation dont la solution nous donnerait les coordonnes de
100
la projection orthogonale de Z sur lespace engendr par U1 , . . . , Uq . Il faut noter que la relation qui permettrait de dnir un tel modle est parfaitement ctive puisquon ne prtend pas quelle existe ou quelle approxime une relation existante. Elle sert dauxiliaire qui permet de faire le lien R entre lestimation de ses paramtres par moindres carrs et une projection orthogonale.
sec:propr_mco
5.3.3
Proprits de lestimateur des moindres carrs
, qui tablit que lestimateur MCO de Cette section prsente la proprit la plus importante de est optimal dans la classe des estimateurs linaires et sans biais. Ce rsultat est identique celui obtenu dans la section 2.1. Il est cependant tabli ici dans le contexte plus gnral dun MRLS en , on supposera quil existe, utilisant une approche plus globale. Puisquon tudie les proprits de et sans quon le rappelle par la suite, on se placera toujours sous la condition que rang(X ) = p + 1. appartient bien la classe des estimateurs considrs. On commence par montrer que
def:est_lin_mrls
Dnition 5.1 Un estimateur de est linaire sil peut scrire sous la forme AY , o A est une matrice connue, non alatoire. du vecteur des paramtres est sans biais si quelle que soit la On rappelle quun estimateur est gale cette valeur, ou formellement : E( ) = 0p+1 , valeur de ce vecteur, lesprance de Rp+1 .
On obtient facilement la condition pour quun estimateur linaire soit sans biais. Cette condition scrit E(AY ) = 0p+1 , Rp+1 . Comme A et sont non-alatoires, cette condition sexprime galement AE(Y ) = 0p+1 , Rp+1 , ou encore, en utilisant la condition Cp 2 : (AX Ip+1 ) = 0p+1 , Rp+1 . Cette galit est videmment vraie si AX = Ip+1 . Pour quelle soit vraie quelle que soit dans Rp+1 il est galement ncessaire davoir AX = Ip+1 . En rsum, dans le MRLS un estimateur linaire de est sans biais si et seulement si la matrice A qui le caractrise satisfait AX = Ip+1 . On a immdiatement la proprit suivante.
pro:emco_lin_sb
Proprit 5.4 Dans le MRLS, lestimateur MCO dni dans la proprit 5.3 est un estimateur linaire et sans biais de a bien la forme donne dans la dnition Preuve : En choisissant A = (X X )1 X , on voit que 5.1. On vrie facilement que AX = Ip+1 . est le meilleur dans la classe des estimateurs linaires et sans biais, Si on souhaite montrer que il faut tablir un critre qui permette de comparer deux estimateurs dans cette classe. Ce critre doit tenir compte du fait que dans le contexte du MRLS, le paramtre est multidimensionnel (i.e., dont la valeur est un (p +1)-uplet ou un vecteur de rels). 7 Pour aboutir un critre de comparaison dans ce contexte, on reprend le raisonnement de la section 2.2, qui avait conduit lutilisation de lerreur quadratique moyenne (EQM) pour comparer deux estimateurs dun paramtre unidimensionnel. La justication de ce choix repose sur linterprtation de lEQM dun estimateur comme un indicateur de sa prcision, puisque lEQM mesure la distance attendue entre lestimateur et ce quil estime. En reprenant ce quon a dit dans le dernier paragraphe de la section 5.3.2, la distance permettant de de se mesure par 2 , et lEQM elle-mme est E( 2 ). dnir lEQM pour un estimateur
7. Cet aspect tait galement prsent dans la discussion de la section 2.2, mais il na pas t abord.
101
si E( 2 ) E( 2 ) pour tout En utilisant ce critre, on prfrera un estimateur Rp+1 . En utilisant les rappels faits au dbut de la section 5.3.2, on peut crire
p p
2) = E E(
k =0
k k )2 = (
k =0
k k )2 ] E[(
k k )2 ] est lEQM de lestimateur k de k . Donc lEQM de est la somme des EQM de Or E[( si ses lments. Par consquent, le critre de comparaison introduit ici revient prfrer 1 k k )2 ] 1 E[( E[(k k )2 ] p + 1 k=0 p + 1 k=0 est plus petite que lEQM des composantes cest--dire si, en moyenne, lEQM des composantes de , bien quil soit de . Avec un tel critre de comparaison, on peut tre amen prfrer dans le sens o pour possible que pour certains lments de lestimateur soit plus prcis que , 2 2 il est possible davoir E[(k k ) ] E[(k k ) ] pour un certain k. Autrement dit ce critre peut amener prferer des estimateurs prcis en moyenne, mais peu prcis pour quelques lments de . Ce critre nest pas satisfaisant, et on le remplace par un critre qui, au lieu damener prfrer un estimateur dont les EQM de chacun de ses lments sont en moyenne plus petites, conduit si, composante par composante, le premier a une EQM plus petite que le second, prfrer k k )2 ] E[( k )2 ], pour k = 0, . . . , p. Cette approche conduit au ou formellement, si E[( k critre suivant. 8
def:best_eqm
et deux estimateurs dun mme paramtre dont la valeur est dans Dnition 5.2 Soient est prfrable (au sens de lEQM) si pour tout Rp+1 , la matrice Rp+1 . On dit que )( ) est semi-denie positive. E ( )( ) E ( Remarque 5.10 Cette dnition appelle plusieurs remarques. )( ) est ( k k )( l l ), le ke lment 1. Comme la (k, l)e entre de la matrice ( )( ) est lEQM de k . Dnissons pour tout de la diagonale de la matrice E ( k = 0, . . . , p le vecteur ak de Rp+1 dont la (k + 1)e coordonne vaut 1 et toutes les autres sont est prfrable , la dnition 5.2 implique que pour tout k = 0, . . . , p et tout nulles. Si Rp+1 on a
)( ) a E ( k E ( )( )
rem:EQMcom
ak 0
Avec la forme donne aux ak , on vrie facilement que cette ingalit revient crire que pour tout k = 0, . . . , p et pour tout Rp+1 on a
k k )2 ] E[(k k )2 ] E[(
Le critre de comparaison destimateurs donn la dnition 5.2 rpond bien lobjectif annonc juste avant cette dnition.
8. On rappelle que si A est une matrice dont les entres sont des variables alatoires, alors E(A) est un matrice dont la (i, j )e entre est lesprance de la (i, j )e entre de A.
102
it:EQMcom
2. Cet objectif est mme dpass. En eet, on vient de montrer que si on sintresse lestimation dune composante donne de , alors le critre de la dnition 5.2 permet de slectionner lestimateur le plus prcis. Si au lieu de sintresser une des composantes de on souhaite estimer une combinaison linaire de plusieurs de ces composantes, alors le critre permettra aussi de comparer deux estimateurs et den slectionner le meilleur. Pour le montrer, on se donne p + 1 rels quelconques c0 , . . . , cp et on considre lestimation du nouveau paramtre est prfrable , alors dni comme = c = c0 0 + + cp p , o c = (c0 , . . . , cp ) . Si p +1 pour tout R on doit avoir )( ) c E ( )( ) E ( c0
)( ) c 0. On note que En dveloppant, on a E c ( )( ) c E c ( 2 c ( ) R, et que par consquent lingalit scrit encore E c ( ) E c ( 2 ) 0. Finalement, en dveloppant les termes lintrieur de lesprance et en utilisant la notation introduite ci-dessus, on a )2 0 E (c )2 E (c pour tout R. Comme estimateur de la combinaison linaire = c des lments de , on peut considrer la mme combinaison linaire, prise sur les lments de , donne de . par = c . De la mme manire, on peut galement former lestimateur = c 2 2 Lingalit ci-dessus scrit alors E ( ) E ( ) . Elle montre que si pour estimer , est prfrable , alors pour estimer une combinaison linaire de , la combinaison est prfrable celle obtenue partir de . linaire forme partir de est prfrable si et seulement si quelle La dnition 5.2 tablit alors une quivalence : de cette combinaison que soit la combinaison linaire c des lments de , lestimateur c linaire est prfrable lestimateur c . est un estimateur sans biais, alors sa matrice des 3. Finalement, comme on la dj not, si ) concide avec E ( )( ) . Par consquent, si et sont variances-covariances V( p +1 est prfrable si pour tout R ) deux estimateurs sans biais de , la V( ) V( est dnie positive. R On dispose maintenant dun critre qui permet de comparer deux estimateurs. En utilisant ce critre, on montre que dans la classe des estimateurs linaires et sans biais considre dans cette est prfrable tout autre estimateur de dans cette classe. section, lestimateur MCO
th:gmm
est un estimateur linaire et Thorme 5.1 (Gauss-Markov) Dans le contexte du MRLS, si ) V( ) est semi-denie positive pour tout Rp+1 . Donc sans biais de , alors la matrice V( est le meilleur estimateur linaire sans biais de . dans le MRLS, un estimateur linaire sans biais de . En utilisant le paragraphe qui prcde la Preuve : Soit =A Y pour une certaine une matrice A non-alatoire et telle proprit 5.4, on peut crire = (X X )1 X . que AX = Ip+1 . Par ailleurs, la proprit 5.4 tablit que = AY avec A On calcule la matrice des variances-covariances de ces deux estimateurs. On a ) = V(A Y ) = A V(Y )A = 2 A A V(
103
est-non alatoire (et en utilisant la proprit o la deuxime galit provient du fait que A 9.7 de la section 9.1.2) et la troisime de la condition Cp 3. De la mme manire on obtient ) = 2 A A . Il faut montrer que 2 (A A A A ) est semi-dnie positive. Comme V( 2 A A A est une > 0 (voir la condition Cp 3), il est quivalent de montrer que A et la condition AX = Ip+1 matrice semi-denie positive. On note que lexpression de A A = AX (X X )1 = (X X )1 . Par ailleurs, un calcul direct montre que impliquent A A = (X X )1 . On en dduit donc que A A = A A . Pour obtenir le rsultat recherch, A A . En dveloppant le produit il sut dintroduire la matrice B dnie comme B = A BB et en utilisant les galits prcdentes, on a AA AA = BB . On voit de par sa forme que cette matrice est semi-denie positive (voir par exemple 5.7). Le thorme 5.1 est un rsultat doptimalit pour lestimation des paramtres du MRLS. ce titre, cest le rsultat le plus important dans ce contexte. Il justie le choix de la mthode permettant dobtenir lestimateur MCO. Ce rsultat peut tre lgrement gnralis en montrant que loptimalit de lestimateur MCO peut tre tendue au cas o on sintresse lestimation de plusieurs combinaisons linaires des paramtres 0 , . . . , p . Le rsultat de thorme 5.1 montre directement que si on souhaite estimer la combinaison est un estimateur linaire et sans biais de qui est linaire = c des lments de , alors c , o est un estimateur linaire et sans biais de prfrable tout autre estimateur de la forme c ) V(c ) pour tout Rp+1 . En utilisant . En eet, pour que cela soit la cas, il faut que V(c )c c V( )c et le thorme 5.1 montre la proprit 9.7, cette condition est quivalente c V( quelle est satisfaite. est un meilleur estimateur de On gnralise ce rsultat en montrant non seulement que c que tous les estimateurs linaires et sans biais de (et pas seulement meilleur que les estimateurs ), mais galement que ce rsultat reste vrai si on veut estimer m combinaisons de la forme c linaires c1 , . . . , c m. Thorme 5.2 Soit C une matrice de taille (m, p + 1) dont les entres sont des rels. On considre e le paramtre = C = (1 , . . . , m ) , o l = c l et cl est la l ligne de C . Lestimateur de est prfrable tout autre estimateur linaire et sans biais de . = C dni par = C est un estimateur linaire et on vrie Y , o C = C (X X )1 X . Donc Preuve : On a = C = , quelle que soit la valeur possible de . aisment quil est sans biais : E() Donc, si on se donne un autre estimateur linaire et sans biais de , il faut montrer que V() est semi-dnie positive. Soit donc un estimateur linaire de , de la forme V() = C Y . Cest un estimateur sans biais de si et seulement si CX = C pour tout p +1 p +1 C . La condition R , ou encore D = 0m , R , o D est la matrice CX dabsence de biais quivaut ce que chaque ligne de D soit un vecteur de Rp+1 orthogonal tout vecteur de Rp+1 . Le seul vecteur satisfaisant cette condition est 0p+1 . On doit donc = C . On calcule maintenant les variances. En utilisant la avoir D = 0, cest dire CX = 2C = 2 C C et V() C . On procde alors exactement comme proprit 9.7, on a V() et la condition sur C dans la preuve du thorme 5.1. On note que grce la forme de C , on a C C = C C . Par consquent, si on introduit garantissant labsence de biais pour
th:gmm2
104
CHAPITRE 5. MRLS : DFINITION ET ESTIMATION C , on obtient la matrice G = C C )(C C ) = C C C C GG = (C et on conclut comme dans la preuve du thorme 5.1.
o k1 , . . . , km sont m indices parmi {0, . . . , p}, alors
Ce thorme permet dobtenir tous les autres rsultats doptimalit lis lestimation des paramtres du MRLS. En choisissant C = Ip+1 , on retrouve le thorme 5.1. En posant C = a k o p +1 e ak est le vecteur de R dont la (k + 1) coordonne vaut 1 et les autres 0, on obtient le rsultat qui montre que k est le meilleur estimateur linaire sans biais de k . En outre le thorme 5.1 est le meilleur permet dobtenir des rsultats nouveaux. Le rsultat annonc tablissant que c parmi tous les estimateurs linaires et sans biais de c sobtient en choisissant C = c . On peut galement montrer un rsultat important qui gnralise celui concernant lestimation dun lment de . En eet, si on choisit ak1 ak2 C= . . . akm
est un sous-vecteur de . Le thorme 5.2 montre que le meilleur estimateur linaire de ce sousvecteur est k1 k2 . . . k m . cest--dire le sous-vecteur correspondant de
rem:optim_mco_cbeta
k1 k2 = C = . . . km
Remarque 5.11 On peut noter quil existe une manire identique celle de la section 2.2 permettant dtablir loptimalit de lestimateur des MCO dans lensemble des estimateurs linaires et sans biais. On a vu dans le point 2 de la remarque 5.10 quun estimateur de meilleur quun autre est galement meilleur pour estimer nimporte quelle combinaison linaire c des coordonnes de . Donnons-nous c Rp+1 quelconque (mais non nul), et considrons lestimation de la combinaison linaire = c au moyen dun estimateur linaire et sans biais. Cet estimateur est donc de la forme a Y , avec a Rn et doit satisfaire E(a Y ) = pour tout R, cest--dire a X = c pour tout Rp+1 (on a utilis la condition Cp 2 et la dnition de ). On doit donc avoir a X = c . LEQM dun tel estimateur concide donc avec sa variance V(a Y ) = a V(Y )a = 2 a a (on a utilis la condition Cp 3). Si on cherche alors le meilleur estimateur linaire et sans biais a Y de , il faut chercher a Rn satisfaisant X a = c qui minimise a a. Formellement, on doit rsoudre
aRn
min a a
s.c.q.
X a = c
105
La fonction minimiser et chacune des p + 1 contraintes sont deux fois direntiables, et on peut caractriser les solutions de ce problme au moyen du Lagrangien L(a, ) = a a (X a c). Comme la fonction minimiser est convexe et que les contraintes sont anes, pour toute valeur de la fonction L(, ) est convexe sur Rn . Par consquent a est solution si et seulement si il existe Rp+1 tel que L (a , ) = 0, ai On note que X a = sont
p
i = 1, . . . , n
n i=1 Xik ai
et
L (a , ) = 0, k
k = 0, . . . , p
p k =0 k
et donc en utilisant lexpression de L, ces conditions

n
2a i
k Xik = 0,
k =0
i = 1, . . . , n
et
i=1
Xik a i ck = 0,
k = 0, . . . , p
Si on empile les n premires galits, on peut les crire sous la forme 2a X = 0n et en empilant les p + 1 dernires, on a X a c = 0p+1 . Si on prmultiplie les 2 membres de 2a X = 0n par (X X )1 X on peut crire = 2(X X )1 X a . Mais si on utilise le fait que X a c = 0p+1 , on obtient = 2(X X )1 c. Avec lexpression ainsi obtenue pour , on a 2a X = 0n a = X (X X )1 c. Ce rsultat tablit donc que lestimateur linaire et sans biais le plus prcis de . R = c est a Y = c (X X )1 X Y = c Bien que les thormes 5.1 et 5.2 constituent les rsultats les plus importants propos de lestimation par moindres carrs dans un MRLS, on peut dmontrer une proprit intressante et . Cette proprit montre que peut tre obtenu en cherchant la combinaison complmentaire de linaire des variables exognes dont les observations sont les plus fortement corrles avec celles de la variable endogne. Plus formellement, pour nimporte quels rels non-tous nuls a0 , . . . , ap , on peut introduire la variable, note Xa , en formant une combinaison linaire Xa = a0 X0 + + ap Xp des variables exognes. Les observations de cette nouvelle variable sont X1a , . . . , Xna , avec Xia = a0 Xi0 + + ap Xip , i = 1, . . . , n. On peut alors, comme dhabitude, mesurer la corrlation linaire empirique entre les variables Xa et Y au moyen du coecient r (Y, Xa ) =
n i=1 (Yi n i=1 (Yi
Y )2
Y )(Xia X a )
n i=1 (Xia
X a )2
Ce calcul est possible pour nimporte quelle combinaison linaire Xa . On peut alors chercher celle pour laquelle la corrlation linaire mesure par r (Y, Xa ) est de plus forte amplitude. Formellement, cela revient chercher a0 , . . . , ap de manire maximiser |r (Y, Xa )|. Si a dsigne le n-uplet pour lequel |r (Y, Xa )| est maximal, on appelle coecient de corrlation linaire multiple le nombre r (Y, Xa ). Cest la plus forte corrlation linaire empirique quil soit possible dobtenir entre Y et une combinaison linaire de X0 , . . . , Xp . On a le rsultat suivant.
pro:mco_maxRa
Proprit 5.5 Dans le MRLS, les rels a 0 , . . . , ap donns par ak = k , k = 0, . . . , p, maximisent la valeur de r (Y, Xa )2 .
106
La preuve de ce rsultat est donne la section 5.5.1.4. Cette proprit apporte une justication plus formelle la dmarche destimation de par laquelle on cherche donner aux variables exognes la plus forte capacit dterminer le niveau de la variable endogne. Cette capacit rete lintensit du lien qui existe entre les deux groupes de variables. Dans le contexte du MRLS, on pose que ce lien est linaire. Par consquent, lintensit du lien peut se mesurer par le coecient de corrlation linaire, et la proprit 5.5 montre que permet de construire la combinaison linaire de variables exognes pour laquelle cette intensit est la plus forte.
sec:var
5.4
Valeurs ajustes. Rsidus
Comme dans le modle de rgression linaire une seule variable exogne, les estimateurs MCO des paramtres permettent ici dobtenir les valeurs ajustes et les rsidus.
def:val_aj_res
Dnition 5.3 Dans le MRLS p variables o rang(X ) = p + 1, on appelle valeurs ajustes les . On appelle , dni par Y = X variables alatoires constituant les coordonnes du vecteur not Y rsidus les variables alatoires constituant les coordonnes du vecteur alatoire not , dni par = Y Y . Les valeurs ajustes et les rsidus ont la mme interprtation que celle donne dans le chapitre 2 0 + 1 Xi1 + + p Xip est la partie de Yi quon estime tre i = (section 2.4.1). En particulier, Y explique par les variables exognes, alors que i est sa partie complmentaire. concide avec la projection orthogoRemarque 5.12 Notons que le vecteur des valeurs ajustes Y nale de Y sur lespace L(X0 , . . . , Xp ) (voir la section 5.3.2). On rappelle que tout vecteur u de Rn se dcompose de manire unique en la somme dun vecteur uL de L(X0 , . . . , Xp ) et dun vecteur uL de L(X0 , . . . , Xp ) , et que dans cette dcomposition, uL est la projection orthogonale de u sur L(X0 , . . . , Xp ) (voir la section 9.2). Donc, daprs la dnition 5.3, dans le cas du vecteur + Y Rn , cette dcomposition est Y = Y . R
rem:proj_moyenne
Remarque 5.13 En appliquant le point 1 de la proprit 9.25, on obtient facilement lgalit = Y dj dmontre dans le chapitre 2. Si on dsigne par L(X0 ) le sev de Rn engendr par Y X0 , alors on a videmment L(X0 ) L(X0 , . . . , Xp ). Daprs la remarque 9.9, la projection X0 , et celle de Y sur ce mme espace est Y X0 . Mais daprs sur L(X0 ) est Y orthogonale de Y =Y. R le point 1 de la proprit 9.25, ces deux projections concident, et on doit donc avoir Y est la projection orthogonale de Y sur L(X0 , . . . , Xp ) et quon a Remarque 5.14 Puisque Y + Y =Y , le vecteur des rsidus est donc dans lespace L(X0 , . . . , Xp ) . Comme tout vecteur de cet espace est orthogonal nimporte quel lment de L(X0 , . . . , Xp ), on a la proprit suivante. R = 0p+1 . Proprit 5.6 Le vecteur des rsidus satisfait lgalit X
rem:orth_epsilon
5.4. VALEURS AJUSTES. RSIDUS
107
Preuve : Par dnition de la matrice X (voir page 89), le (k + 1)e lment du vecteur X est X . k Daprs la remarque 5.14, L(X0 , . . . , Xp ) et donc est en particulier orthogonal Xk , cest dire Xk = 0. Ceci est vrai pour tout k = 0, . . . , p.
On peut galement vrier ce rsultat par calcul. On a ) = X Y X X = X Y X X (X X )1 X Y = 0p+1 X = X (Y Y Finalement, on peut obtenir cette galit en notant quelle correspond la condition ncessaire (5.5) dans la minimisation de S . Cette proprit est lquivalent de la proprit 2.5 du chapitre 2. En particulier, comme la n i = 0. premire ligne de X est X i=1 0 = (1, . . . , 1), on doit avoir Le thorme 2.5 dmontr dans le chapitre 2 reste valable lidentique. Cependant, la technique de la preuve est un peu dirente. Il peut tre pratique de bien noter que, dans la preuve qui va tre donne (et dans dautres suivre), un vecteur de Rn dont toutes les coordonnes sont gales peut toujours scrire cX0 o c R est la valeur commune des coordonnes.
th:R2multiv
Thorme 5.3 Dans le MRLS on a

n i=1 n
(Yi Y )2 =
i=1
i Y )2 + (Y
i 2
i=1
(5.11)
eq:decomp_reg
o Y dsigne la moyenne de Y1 , . . . , Yn . Preuve : On forme le vecteur Y Y X0 de Rn dont la ie coordonne est Yi Y . On constate que le membre de gauche de lgalit du thorme est le carr de la norme de ce vecteur. On a par ailleurs ) + (Y Y X0 ) = Y X0 ) Y Y X0 = (Y Y + (Y et X0 sont deux vecteurs de L(X0 , . . . , Xp ), le vecteur Y Y X0 Notons que puisque Y est galement dans L(X0 , . . . , Xp ). Il est donc orthogonal L(X0 , . . . , Xp ) . Le thorme de Pythagore donne alors Y Y X0 ce qui est lgalit (5.11). Y X0 utilise dans Lanimation de la gure 5.3 illustre la proprit dorthogonalit entre et Y la preuve ci-dessus. Toute linterprtation de la relation (5.11) qui a t faite dans le chapitre 2 reste entirement valable ici. Notamment, lgalit (5.11) permet de dcomposer la mesure de la variabilit observe de la variable endogne (le membre de gauche de cette galit) en la somme dune partie qui est lestimation de la variabilit due celle des variables exognes du modle, et dune partie qui est lestimation de la variabilit due des facteurs autres que les variables exognes. Cette interprtation permet de dnir le coecient de dtermination de la rgression, not R2 , de manire identique la dnition 2.6. On a donc R2 =
n i=1 (Yi n i=1 (Yi 2
Y X0 + Y
(5.12)
eq:decomp_var
Y X0 Y )2 Y = Y )2 Y Y X0
2 2
(5.13)
eq:def_R2_multi
108
Linterprtation de ce coecient est la mme que celle donne dans la remarque 2.9, et la proprit 2.6 devient la suivante.
pro:R2_mrls
Proprit 5.7 Dans le MRLS avec rang(X ) = p + 1, on a 1. R2 = 1 Y L(X0 , . . . , Xp ) 1 = = p = 0 2. R2 = 0 Preuve : = Y R2 = 1, o la premire quivalence vient 1. Y L(X0 , . . . , Xp ) Y est la projection orthogonale de Y sur L(X0 , . . . , Xp ) et du point 2 du fait que Y de la proprit 9.22 1 = = p = 0 Y 0 . En eet, limplication dans un sens = X0 2. Notons que 0 . On a donc proj = X0 est vidente. Rciproquement, supposons Y L(X ,...,X ) (Y ) L(X0 ). Comme L(X0 ) L(X0 , . . . , Xp ), le point 2 de la proprit 9.25 permet = X0 Y (voir la de conclure que projL(X0 ,...,Xp ) (Y ) = projL(X0 ) (Y ), cest dire Y remarque 5.13) et donc le numrateur de R2 est nul.
0 p
rem:pro_R2_multiv
Remarque 5.15 On note que la premire quivalence scrit R2 = 0 Rp+1 t.q. Y = X . Linterprtation de cette quivalence est la mme que celle donne la remarque 2.10 (point 1). En particulier, le qui permet dcrire Yi comme une combinaison linaire de Xi1 , . . . , Xip . pour tout i est = 1 = = p = 0, on a Y = X0 Y . Comme on a toujours Y Remarquons que si 0 + X1 p + + Xp p , et puisque la projection orthogonale sur L(X0 , . . . , Xp ) est X0 9 = (Y , 0, . . . , 0) . En rsum, on a donc les quivalences suivantes unique , on doit avoir = (Y , 0, . . . , 0) L(X0 ) Y = Y X0 R2 = 0 Y Ici galement, linterprtation de lquivalence dans le cas R2 = 0 faite la remarque 2.10 (point 2) reste valable. R Les deux points de la proprit ?? et ceux de la remarque 5.15 sont illustrs par les gures 5.3 5.5.
9. Ou parce que X0 , X1 , . . . , Xp sont linairement indpendants.
5.4. VALEURS AJUSTES. RSIDUS
109
L(X
0
0,X 1 , . .
X0
X1 = Y X Xk
. , X
p)
E(Y ) = X Xp
Cette animation illustre les proprits gomtriques de lestimateur MCO de dans le MRLS. Cliquez pour lancer lanimation.
fig:mrls_mco
Figure 5.2: Interprtation gomtrique de lestimateur MCO de
110
Y Y X0
L(X0 )
X0 Y
Y X0 Y
1, . . . L(X 0, X
Y X0
, X p)
Cette animation illustre les proprits du coecient de dtermination R2 . Cliquez pour lancer lanimation.
fig:mrls_R2
Figure 5.3: Illustration gomtrique de la construction du coecient de dtermination R2
5.5. COMPLMENTS SUR LESTIMATION DE
111
Les gures 5.4 et 5.5 prsentent des animations qui illustrent la proprit 5.7. Dans ces deux animations, les objets reprsents sont identiques ceux de la gure ?? (seule la perspective est dirente). Les vecteurs des variables exognes X0 , . . . , Xp restent inchangs (et donc le plan L(X0 , . . . , Xp ) aussi), et lanimation est gnre par le seul dplacement de Y . Ce mouvement Y X0 , et donc une variation de gnre videmment un mouvement des vecteurs Y Y X0 et Y langle qui les relie. Sur la gure 5.4, on illustre le point 2 de la proprit 5.7. Le mouvement de Y est choisi de sorte se rapproche de L(X0 ) (le vecteur Y pivote autour de son origine, son extrmit dcrivant que Y un cercle parallle au plan L(X0 , . . . , Xp )). Langle se rapproche de langle droit, et lorsque L(X0 ) (dernire image), on a = 90 . Dans ce cas, R2 = 0. Y
Lanimation de la gure 5.5 illustre le premier point de la proprit 5.7. Le mouvement sobtient en faisant se rapprocher Y de L(X0 , . . . , Xp ). On voit alors que le vecteur Y Y X0 se rapproche du plan, et que par consquent langle quil forme avec ce plan, et donc a fortiori langle form Y X0 , se rapproche de 0. Lorsque Y Y X0 L(X0 ) (dernire image), on a avec le vecteur Y = 0 . Par consquent, dans ce cas R2 = 1.
sec:compl_mrls
5.5
Complments sur lestimation de
On prsente dans cette section deux rsultats complmentaires importants sur lestimation de par moindres carrs.
sec:FW
5.5.1
5.5.1.1
Le thorme de Frisch-Waugh
Motivation du rsultat : MCO avec variables exognes orthogonales
Le rsultat de cette section intervient notamment lorsquon distingue deux groupes de variables parmi les variables exognes du modle, et que lestimation des paramtres attachs aux variables dun seul des deux groupes est privilgie. Quitte renumroter les variables exognes, on peut supposer que les deux groupes sont constitus des q premires et p + 1 q dernires variables explicatives, respectivement, et quon sintresse lestimation des paramtres attachs au groupe des q premires variables. De manire faire apparatre cette sparation, on note X1 la matrice constitue des q premires colonnes de X et X2 la matrice constitue des p + 1 q dernires colonnes de X , de sorte que X= X1 X2
Si on eectue le partitionnement correspondant pour on a =

1 2
1 2 1 q page:FW et on peut alors crire X = X 1 + X2 , o est le vecteur de R dont les coordonnes sont les paramtres associs aux variables dans X1 est 2 est le vecteur de Rp+1q regroupant les autres
112
Y Y Y X0
Y X0 Y L(X0 , X1 , . . . , X ) p L(X0 )
Y X0 Y
fig:R2lat
Figure 5.4: Interprtation graphique de la valeur de R2 = cos( )2 (R2 tend vers 0)
113
Y Y Y X0
Y X0 Y L(X0 , X1 , . . . , X ) p L(X0 )
Y X0 Y
fig:R2long
Figure 5.5: Interprtation graphique de la valeur de R2 = cos( )2 (R2 tend vers 1)
114
paramtres. La relation du modle scrit donc Y = X1 1 + X2 2 + Pour motiver le rsultat suivre, on considre dabord le cas o chacune des variables du second groupe est orthogonale chaque variable du premier groupe, dans le sens o
X1 X2 = 0
le 0 du membre de droite tant une matrice de dimensions q (p + 1 q ) dont toutes les entres sont nulles. Avec une telle dcomposition, lestimateur des MCO de est
1
Y X1 Y X2
1 X1 1 = = (X X ) X Y = X1 X2 2 X2
X1 X2
Par orthogonalit des deux groupes de variables, les blocs anti-diagonaux de X X sont nuls et

X2 X1 X1 X1 X2 X1 X2 X2
X2 X1 X1 X1 X2 X1 X2 X2
Par consquent,
X1 X1
0
X2 X2
X1 )1 (X1
0
X2 )1 (X2
1 2
Ceci montre alors que si on sintresse seulement lestimation de 1 , on peut faire comme si le modle ne contenait pas les variables du second groupe et appliquer les MCO un modle dans lequel on aurait Y = X1 1 + u, mme si toutes les variables sont prsentes dans le modle de 1 = (X X1 )1 X Y . dpart. On obtient ainsi 1 1 Le rsultat qui sera prsent la section suivante montre que mme si on na pas orthogonalit entre les variables des deux groupes, on peut sy ramener. Plus prcisment, on peut eectuer une transformation sur les variables du second groupe, de sorte que : 1. chaque nouvelle variable du second groupe est orthogonale chaque variable du premier groupe ; 2. ensemble, ces nouvelles variables et celles du premier groupe engendrent le mme espace que toutes variables initiales, cest dire L(X0 , . . . , Xp ). Ce rsultat permet donc destimer les paramtres lis aux variables auxquelles on sintresse, sans avoir estimer les paramtres des autres variables (grce lorthogonalit entre groupes de variables), et sans pour autant perdre dinformation par rapport ce quon obtiendrait si on estimait entirement le modle initial (puisque la transformation permet de rester dans L(X0 , . . . , Xp )).
Y X1 )1 X1 (X1 Y X2 )1 X2 (X2

sec:thFW
115
5.5.1.2
Le rsultat
On suppose quon sintresse q variables exognes, et quitte renumroter ces variables, on peut toujours supposer que ce sont les q premires. On a donc les partitionnements de X et de donns dans la section prcdente. Le rsultat qui sera obtenu dans cette section repose sur la proprit 9.26 (point 3). On utilisera une dcomposition de L(X0 , . . . , Xp ) et an dallger les expressions, on introduit la notation suivante L = L(X0 , . . . , Xp ) L1 = L(X1 ) L2 = L(X2 ) o L(Xi ) est un raccourci pour dsigner lev engendr par les colonnes de Xi ; par exemple L1 = L(X1 ) = L(X0 , . . . , Xq ). On notera de manire naturelle PL , PL1 et PL2 les matrices de projection orthogonale sur L, L1 et L2 , respectivement. Puisquon travaille toujours sous lhypothse que X est de rang p + 1, X1 et X2 sont des matrices de rang q et p + 1 q , respectivement. Par consquent, les vecteurs colonnes de Xi forment une base de Li et on aura par exemple PL2 = X2 (X2 X2 )1 X2 (application de la proprit 9.22, point 4). 1 = {U Avec de telles notations, on constate videmment que L = L1 + L2 . Si on dnit L L|U = (I PL2 )V, V L1 }, lensemble obtenu en formant les restes de la projection orthogonale des lments de L1 sur L2 , alors le raisonnement de la remarque 9.11 permet ici de dduire que : 1 est un sev de Rn engendr par les q vecteurs linairement indpendants constituant les 1. L 1 = (I PL )X1 ; colonnes de X
2
1 avec L2 et L 1 orthogonaux. 2. L = L2 + L
Par consquent, puisque PL = PL1 +L2 , 10 le point 3 de la proprit 9.26 tablit que 11 PL = PL2 + PL 1 Ceci permet dcrire PL Y de deux manires PL Y = PL1 +L2 Y = PL2 Y + PL 1 Y Or dune part = X1 1 + X2 2 PL Y = PL1 +L2 Y = X et dautre part 2 1 PL Y = PL (5.15) 1 Y + PL2 Y = X1 + X2 1 q 2 p +1 q R et R contenant les estimateurs MCO des o sont les deux sous-vecteurs de deux groupes de variables X1 et X2 , i.e. = (X X )1 X Y = et
eq:fw2
(5.14)
eq:fw1
1 2
1 et 2 sont les coordonnes de la projection de Y sur L 1 et L2 , respectivement. On a donc et 1 = (X X 1 1 1 ) X1 Y 2 = (X X2 )1 X Y 2 2
On est en mesure de dmontrer le rsultat suivant.

10. Attention, on na en gnral pas PL = PL1 + PL2 ce qui prcisment motive le rsultat qui va suivre. 11. Il sut dappliquer la proprit avec F = L2 et H = L1 .
116
th:FW
Thorme 5.4 (Frisch-Waugh) 1 = 1 1. Preuve : 1 = 1 2. ML2 Y X , o ML2 = I PL2 1 + X2 2 = X1 1 + X2 2 . Lgalit reste vraie en 1 1. Daprs (5.14) et (5.15), on a X prmultipliant chacun de ses membres par ML2 = (I PL2 ). Or ML2 X2 = 0 et on obtient donc 1 = ML X1 1 1 ML X
2 2
1 , et par idempotence de ML on a ML X 1 = X 1 . Mais par construction ML2 X1 = X 2 2 Lgalit devient donc 1 = X 1 1 1 X 1 sont linairement indpendantes (voir ci-dessus), on a le Comme les colonnes de X rsultat voulu. 2. Comme Y = PL Y + , on peut crire en utilisant lexpression de PL Y donne par (5.15) : 1 + X2 2 + 1 Y =X En prmultipliant les membres de lgalit par ML2 , on a 1 + ML 1 ML2 Y = X 2 1 = X 1 et ML X2 = 0). Or (tout comme dans le point prcdent, on a utilis ML2 X 2 1 + 1 ML2 = PL2 = , puisque L2 L et que L . Donc ML2 Y = X , ce qui est le rsultat recherch.
rem:fwequivmco
1 en calculant 1 = Remarque 5.16 Le premier point de ce rsultat montre quon peut obtenir 1 = ML X1 . En remarquant que ML est symtrique et idempotente, on X 1 )1 X Y , avec X (X 1 1 2 2 1 = (X o Y = ML Y . Cette dernire expression de 1 permet X 1 )1 X Y peut galement crire 1 1 2 =X 1 1 + u. De plus le de le voir comme lestimateur MCO dans un modle o la relation est Y 1 = X 1 second point du rsultat peut scrire Y . Autrement dit, si on estime 1 par MCO dans ce modle, les rsidus de cette estimation concident avec les rsidus quon aurait obtenus en estimant tout entier. =X 1 1 + u, On a donc atteint lobjectif x initialement : si on applique les MCO la relation Y 1 sans avoir estimer 2 . De plus, cette estimation se fait sans perdre linformation on obtient = X1 1 + X2 2 , puisquelle donne les mmes rsidus que si on avait estim 1 et 2 . Ce sur Y dernier point est important puisquil permet notamment, sans avoir estimer le modle complet, R dobtenir lestimateur de 2 (voir la section 5.6). =X 1 1 + u nest pas celle dun Remarque 5.17 Il faut bien noter cependant que la relation Y modle de rgression linaire standard. Pour le voir, il sut de noter que X 1 1 = ML (Y X1 1 ) = ML (X2 2 + ) = ML u=Y 2 2 2 o la dernire galit provient de ML2 X2 = 0. On peut donc calculer
V(u) = V(ML2 ) = ML2 V()ML = 2 ML2 2
117
o la dernire galit sobtient par la symtrie et lidempotence de ML2 et par le fait que satisfait la condition C R p 3. On constate donc que u ne satisfait une telle condition.
rem:mcoFW
dans une premire tape, puis dans 1 et Y Remarque 5.18 En pratique, il sagit de former X comme vecteur des observations de la variable endogne et X 1 comme une seconde, utiliser Y matrice des observations des variables exognes pour calculer un estimateur MCO de 1 . Par = Y PL Y . On a soulign la remarque 5.9 que toute projection orthogonale peut dnition Y 2 tre vue comme une estimation par moindres carrs et rciproquement. Par consquent, PL2 Y peut = Y PL Y apparat donc comme sobtenir par lestimation MCO de relation Y = X2 + et Y 2 1 . Pour le vecteur des rsidus de cette estimation. Il est en de mme pour chaque colonne de X la dernire, par exemple, on aura Xq = Xq PL2 Xq , ce qui permet de lobtenir comme le rsidu de lestimation MCO de la relation Xq = X2 q + q . R Remarque 5.19 On peut donner une interprtation intressante du premier point du thorme 5.4. Bien que la remarque sapplique des contextes plus gnraux, on considre le cas dans lequel X1 ne contient quune seule variable (dirente de X0 ) et X2 contient les p variables restantes. Le vecteur 1 dans ce cas na quune seule coordonne. On rappelle que 1 permet de mesurer les eets sur la variable Y de variations de la variable exogne X1 , toutes choses gales par ailleurs. Ce raisonnement toutes choses gales par ailleurs consiste exclure dans la rponse de Y des variations de X1 des eets indirects qui seraient lis des co-variations de variables explicatives. Plus prcisment, si X1 varie, alors leet de cette variation sur Y est constitu dun eet direct et dun eet indirect. Leet direct est captur par le coecient attach la variable exogne X1 . Leet indirect est produit par le fait quen faisant varier X1 , on provoque ventuellement des variations dautres variables exognes, qui elles-mmes provoquent une variation de Y . En raisonnant toutes choses gales par ailleurs, on ne prend en 1 . compte que les eets directs. Ceux-ci sont mesurs par 1 et lestimation de ces eets est 1 1 = 1 , avec 1 = (X X 1 Le thorme 5.4 tablit que 1 1 ) X1 Y . On constate que est 1 1 + u. Cest donc lestimation lestimation par moindres carrs du paramtre de la relation Y = X de leet de la variable X1 sur la variable Y . Or X1 = (I PL2 )X1 et est par construction orthogonal 1 est au vecteur des observations de nimporte quelle variable incluse dans X2 . Autrement dit, X orthogonal lespace L2 . Cette proprit dorthogonalit correspond labsence de lien (linaire) 1 et les variables de X2 . Pour interprter lorthogonalit de cette manire, il faut simplement entre X noter que pour tout vecteur v de Rn , on peut toujours crire v = vL2 + vL , o vL2 est la projection 2 orthogonale de v sur L2 . Cette projection est une combinaison linaire des vecteurs qui engendrent L2 , cest dire les colonnes de X2 . On peut donc interprter vL2 comme la partie de v qui peut scrire comme une combinaison linaire des variables de X2 . Si v est orthogonal chacune de ces variables, alors v L 2 et vL2 = 0n . Dans ce cas, on voit que v ne contient aucune partie qui peut sexprimer linairement en fonction des variables de X2 . Si on revient au modle de rgression en appliquant cette interprtation de lorthogonalit entre 1 ne peut co-varier (linairement) avec X2 . Par consquent, si on fait varier X1 et X2 , on voit que X 1 , cette variation ne peut avoir deet indirect sur la variable Y , via les variations des variables X 1 . Donc, dans la relation Y = X 1 1 + u, on peut dans X2 que pourrait provoquer la variation de X 1 , sans avoir vritablement interprter 1 comme la variation de Y provoque par la variation de X
118
prciser que toutes choses sont gales par ailleurs. Par consquent, la variation de Y provoque par une variation de X1 toutes choses gales par ailleurs, est identique la variation de Y provoque 1 dune part et 1 dautre part. 1 . Les estimations de ces variations sont par une variation de X Le thorme 5.4 nous dit quelles concident. R Remarque 5.20 La preuve du point 1 du thorme 5.4 sobtient galement par calcul. Ainsi, en utilisant la partition de X et de , on peut crire (5.6) sous la forme

X1
X2
X1 X2
En eectuant les produits de matrices par blocs, on a
1 X1 Y = 2 X2
2 = X Y 1 + X X2 X1 X1 1 1
2 en fonction de 1 on obtient Si partir de la deuxime galit on exprime 1 ) 2 = (X X2 )1 X (Y X1 2 2 En utilisant cette expression dans la premire galit, et en rarrangeant les termes, on a
1 = X (I PL )Y X1 (I PL2 )X1 1 2
X X 2 = X Y 1 + X X2 1 2 2 2
Comme ML2 = I PL2 est une matrice symtrique et idempotente, lgalit qui vient dtre obtenue scrit aussi 1 = (ML X1 ) ML Y (ML2 X1 ) ML2 X1 2 2 1 = ML X1 et Y = ML Y , on peut galement crire En rappelant que X 2 2
1 1 1 X X1 = X Y
(5.16)
eq:beta1_FW
X 1 )1 , on a bien lgalit du point En prmultipliant les deux membres de cette galit par (X 1 R premier point du thorme. On termine cette section en proposant une reprsentation graphique du thorme. Celle-ci est ralise sous forme danimation (gure (5.6)) 12 5.5.1.3 Une application
sec:FW_appli
Une application intressante du thorme de Wrisch-Waugh, aussi bien dun point de vue thorique que pratique, permet destimer facilement les paramtres 1 , . . . , p qui traduisent les eets
12. Lide de cette reprsentation provient dun graphique original construit par (http://www.crest.fr/ckfinder/userfiles/files/Pageperso/raeberhardt/FW_beamer.pdf ). R. Aeberhardt
119
Y L 2 1 X 0 1 L 2 X2 PL2 Y X1 Y 1 PL 1 Y = X1 1 X1 Y
L(X
0 , X 1 , .
..,X
p )
X2
fig:FW
Figure 5.6: Illustration du thorme de Frisch-Waugh. Cliquez pour lancer lanimation (visible uniquement avec Acrobat Reader, version susamment rcente)
120
des variables exognes sur la variable endogne, sans estimer le terme constant 0 de la relation entre les variables. Dans cette application, on posera X1 = X1 et donc Xp

X2 = X0 = 1, 1, . . . , 1
Comme X2 est ici le vecteur diagonal de Rn , le sev L2 = L(X2 ) est lensemble des vecteurs de Rn dont toutes les coordonnes sont gales. La projection orthogonale dun vecteur quelconque x Rn sur un tel sous-espace, note PL2 x, est le vecteur dont toutes les coordonnes sont gales n 1 x= n i=1 xi (voir la remarque 9.9). Autrement dit PL2 x = xX0 . Par consquent, en notant ML2 = In PL2 , le vecteur ML2 x est le vecteur x dont on a remplac chaque coordonne par sa dirence par rapport la moyenne des coordonnes : x x1 x1 x . . . . . . = . . = . xn x xn x

1 . 1 . = . p
2 = 0
(5.17)
eq:beta_FW
ML2 x = x PL2 x = x xX0
Ce rsultat est en particulier vrai pour le vecteur Y et pour chacun des vecteurs constituant les colonnes de X1 . On a donc = ML Y = Y Y X0 Y 2 et 1 = ML X1 = X1 X 2 Y1 Y . . = . Yn Y X p X0

Xp X 1 X0
= X1 X 1 X0
X21 X 1 = . . .
Xp X p X0 X1p X p

X11 X 1
X12 X 2 X22 X 2 . . .
Xn1 X 1 Xn2 X 2
Xnp X p
X2p X p . . .
(5.18)
eq:X_centre
n 1 e o X k = n i=1 Xik est la moyenne des observations de la k variable explicative. Selon ce qui a t dit ci-dessus dans la remarque 5.16, pour estimer 1 , il sut dappliquer la mthode des et les variables explicatives moindres carrs au modle dans lequel la variable dpendante est Y 1 . Dans le cas illustr ici, daprs ce qui vient dtre dcrit ci-dessus, cela sont les colonnes de X revient estimer par moindres carrs les paramtres de la relation initiale o les variables (exognes et endogne) ont pralablement t transformes en dirences la moyenne. De manire plus
121
explicite, on calcule la moyenne de chacune des variables du modle initial (endogne et exognes) ; puis on gnre de nouvelles variables en soustrayant chaque observation de chaque variable la propre moyenne des observations de cette variable. On estime alors par moindres carrs la relation entre la nouvelle variable endogne ainsi obtenue et les nouvelles variables exognes. Cette relation est Yi Y = 1 (Xi1 X 1 ) + + p (Xip X p ) + Ui i = 1, . . . , n (5.19) o Ui = (i ). Daprs le thorme 5.4, lestimation par moindres carrs ordinaires des para1 , . . . , p ) . Formellement, ces p dernires coordonnes de = mtres de (5.19) concide avec ( X 1 )1 X Y . (X X )1 X Y scrivent (X 1 1 Dans ce mme contexte, lutilisation du point 2 du thorme permet dobtenir un rsultat supplmentaire concernant le coecient de dtermination de la rgression. Pour cela, et an dallger et x = X 1 . Avec ces notations, les n relations (5.19) scrivent la notation, on pose y = Y y = x 1 + U (5.20)
eq:rel_centree
eq:mrls_centre
o U est le vecteur alatoire dont la ie coordonne est Ui = i . Dans ce modle, lestimation de 1 par moindres carrs conduit 1 = (x x)1 x y (5.21) 1 et les rsidus U = yy On peut dnir les valeurs ajustes y = x de cette estimation, conformment la dnition 5.3 et linterprtation de la section 5.4. On va chercher tablir une galit semblable (5.12) qui permet de dcomposer la variabilit observe de la variable endogne. Cette variabilit est mesure par la somme des carrs des carts entre les observations de cette variable et leur moyenne (cest le membre de gauche de (5.12)). Dans le contexte dun modle o la relation est (5.19), ces observations sont Yi Y , i = 1, . . . , n et leur moyenne est nulle. Donc la variabilit 2 2 observe de la variable endogne est n i=1 (Yi Y ) , ou, de manire identique, y . Pour obtenir une dcomposition de cette quantit semblable celle du thorme 5.3, on procde comme dans la , et que, pour les mmes raisons preuve de ce rsultat. On a y = y y +y . On note que y y =U 2+ y que dans la preuve du thorme 5.3, ce vecteur est orthogonal y . Donc y 2 = U 2 ou encore 2 y 2= y 2 U (5.22)
eq:betahat_FW
eq:yhat_centre
= Comme le thorme 5.4 implique que U , o, comme jusqu prsent, dsigne les rsidus de lestimation par moindres carrs du MRLS de dpart, lgalit ci-dessus scrit :
n n
=
i=1
(Yi Y )
2 i
i=1
2 Or on dduit de lgalit (5.11) que le membre de gauche est n i=1 (Yi Y ) , o Y1 , . . . , Yn sont les valeurs ajustes dans le MRLS initial. En rsum, si on crit les sommes de carrs sous la forme de carrs de normes, on vient dtablir que
y y U
2 2 2
= Y X0 Y X0 Y = Y =
2
2 2
(5.23)
eq:ehat_centre
122
En utilisant la dnition du coecient de dtermination de la rgression dans le MRLS initial, ces galits impliquent que ce coecient scrit R2 = y y
2 2
(5.24)
eq:R2_centre
et concide par consquent avec le coecient de dtermination calcul dans le modle issu de la transformation des variables, dans lequel la relation est (5.19). 1 = = p = 0 de la proprit ?? On termine en notant que lquivalence R2 = 0 sobtient quasiment immdiatement en utilisant cette reformulation du coecient R2 . En eet, on a 1 = 0n 1 = 0p R2 = 0 y 2 = 0 y = 0n x o la troisime quivalence dcoule directement de la dnition de y et la dernire du fait que x = X1 est de dimensions (n, p) et de rang p.
sec:mco_maxRa
5.5.1.4
Lestimateur des moindres carrs maximise la corrlation empirique entre variables
Cette section fournit la preuve de la proprit 5.5, en sappuyant sur le thorme de FrischWaugh et sur le rsultat de lapplication de la section prcdente. On rappelle que la proprit 5.5 permet dtablir que la mthode destimation de par moindres carrs conduit rechercher la combinaison linaire des variables exognes pour laquelle la corrlation empirique avec la variable endogne est la plus forte. Pour un jeu de coecients a0 , . . . , ap donn, on forme la variable note Xa , dnie par la combinaison linaire des variables exognes X0 , . . . , Xp : Xa = a0 X0 + + ap Xp Les observations de cette variable sont donc X1a , . . . , Xna , avec Xia = a0 Xi0 + + ap Xip . Le coecient de corrlation linaire empirique entre la variable endogne Y et la variable Xa est donc r (Y, Xa ) =
n i=1 (Yi n i=1 (Yi
Y )2
Y )(Xia X a )
n i=1 (Xia
X a )2
(5.25)
eq:def_ryxa
o X a dsigne la moyenne (empirique) des n observations de la variable Xa . Cette construction tant possible pour tout jeu possible de coecients a0 , . . . , ap , on peut chercher celui pour lequel la valeur absolue de r (Y, Xa ) est maximum. Un tel jeu identiera la combinaison linaire des variables exognes dont les observations sont les plus fortement corrles (sans tenir compte du sens de la corrlation) avec celles de la variable endogne. Une telle combinaison est celle par laquelle les variables exognes ont le plus fort lien linaire avec la variable endogne. Cest prcisment le type de proprit que lon cherche obtenir dans le MRLS lorsquon estime 0 , . . . , p de manire donner aux variables exognes la plus forte capacit dterminer le niveau de la variable endogne. Le rsultat quon cherche montrer ne devrait donc pas tre une surprise, dans le sens o les 0 , . . . , p ainsi obtenus sont ceux pour lesquels la combinaison linaire 0 X0 + + p Xp estimateurs a le plus fort lien linaire avec Y .
123
Les observations des variables tant donnes, la valeur de r (Y, Xa ) ne dpend que des coecients a0 , . . . , ap . Par consquent, lobjectif vis sera atteint en considrant le problme de maximisation de |r (Y, Xa )| par rapport a0 , . . . , ap , ou de manire identique, la maximisation de r (Y, Xa )2 par rapport ces mmes coecients. Avant de rsoudre un problme de maximisation, on notera deux proprits de r (Y, Xa )2 en tant que fonction de a0 , . . . , ap , qui nous permettront de simplier la recherche de la solution. Notons dabord que r (Y, Xa )2 ne dpend pas de a0 . En eet, un simple calcul montre que Xia X a ne dpend ni de a0 ni de Xi0 . Par consquent, en considrant lexpression de r (Y, Xa ) donne par (5.25), on dduit que ce coecient ne dpend pas non plus de a0 . Cette proprit sobtient galement en notant que X0 est une variable constante (toutes ses observations sont gales 1). Il est donc normal quelle ne soit pas corrle avec Y (ou avec nimporte quelle autre variable), et quelle ne contribue pas la corrlation entre Xa et Y . Par consquent, lorsquon cherche la combinaison linaire des variables exognes la plus fortement corrle Y , on peut choisir a0 de manire arbitraire. Par commodit, on imposera a0 = 0, et les combinaisons linaires auxquelles on sintressera lors de la maximisation seront de la forme Xa = a1 X1 + + ap Xp . La seconde proprit qui sera utilise consiste en lgalit r (Y, Xa )2 = r (Y, Xa )2 , pour tout rel et pour tout jeu de rels a1 , . . . , ap . Cette galit rsulte directement de lexpression de r (Y, Xa ) et du fait que Xa = a1 X1 + + ap Xp = Xa , et donc Xi(a) = Xia , i = 1, . . . , n.
Pour rsoudre ce problme de maximisation, il est intressant dutiliser une autre formulation de r (Y, Xa )2 . Tout dabord, pour tout choix de nombres a1 , . . . , ap , on introduit les vecteurs a Rp et xa Rn dnis par X1a X a a1 . . . . xa = a= . . ap Xna X a
n 1 o Xia = a1 Xi1 + + ap Xip et X a = n i=1 Xia . En utilisant la notation de la section prcdente o y dsigne le vecteur des observations de la variable endogne, en dirences par rapport leur moyenne (voir (5.20)) : Y1 Y . . y= .
on peut crire
Yn Y
r (Y, Xa )2 =
xa yy xa (xa y)2 = (y y)(xa (y y)(xa xa ) xa )
Finalement, toujours avec la notation de la section prcdente o x dsigne la matrice dont les lments sont les observations des variables exognes (en excluant X0 ) en dirences par rapport leurs moyennes (voir (5.18) et (5.20)), il est facile de vrier en eectuant le produit matriciel xa que xa = xa. On peut alors crire r (Y, Xa )2 = a x yy xa (y y)a x xa (5.26)
eq:ryxa2
partir de cette expression, on va montrer que lestimateur des moindres carrs de fournit
124 la solution du problme
max r (Y, Xa )2 p
aR
Avec la remarque faite prcdemment que r (Y, Xa )2 = r (Y, Xa )2 pour tout a Rp et tout R, on note immdiatement que si a est une solution de ce problme, alors pour tout rel non nul , le vecteur a est galement une solution. Ce problme admet donc une innit de solutions. An den dterminer une, on imposera au vecteur solution a davoir une norme gale 1, i.e., a a = 1. 13 Une fois cette solution trouve, on pourra choisir nimporte quel a = a pour former 2 la combinaison linaire Xa maximisant r (Y, Xa ) . Le problme rsoudre devient donc max r (Y, Xa )2 p
aR
s.c.q.
a a = 1
(5.27)
eq:maxRa
Finalement, en utilisant lexpression (5.26) de r (Y, Xa )2 et en notant que y y > 0, il revient au mme de rsoudre a x yy xa s.c.q. a a = 1 (5.28) max aRp a x xa Pour rsoudre ce problme, on envisage dabord le cas simple o on suppose que les observations des variables exognes sont telles que x x = Ip . On verra ensuite que le cas gnral sobtient facilement partir de ce cas simple. Cas x x = Ip Avec la contrainte a a = 1, si on suppose que x x = Ip , le dnominateur de la fonction maximiser est a x xa = a a = 1. On cherche donc la solution de max a x yy xa p
aR
eq:maxRa_bis
s.c.q.
a a = 1
(5.29)
eq:maxRa_simple
La fonction maximiser tant convexe en a, on peut utiliser la mthode du lagrangien. Pour que le vecteur a soit solution du problme, il faut quil existe un nombre tel que
L ak (a , ) = 0, L
k = 1, . . . , p
(5.30)
eq:cpo_max_ryxa
(a , )
=0
o la fonction lagrangien L est dnie par L(a, ) = a x yy xa + (1 a a). Si pour allger la notation on introduit la matrice de dimensions (p, p) dnie par = x yy x, p e on a a x yy xa = a a = p m=1 al am lm , o lm est le (l, m) lment de . Par l=1 consquent p p p a x yy xa = am km + al lk = 2 al kl ak m=1 l=1 l=1 o la seconde galit rsulte de la symtrie de la matrice . Dautre part, en appliquant ce raisonnement en supposant = Ip , on a a a = 2ak ak
13. Cette contrainte apparat naturellement en notant que si a est une solution, alors daprs ce qui vient dtre 1 dit sur lensemble des solutions, le vecteur a a est aussi solution ; on voit facilement que ce dernier est de norme a gale 1.
5.5. COMPLMENTS SUR LESTIMATION DE En rsum, on a obtenu
125
L (a, ) = 2 al kl 2ak ak l=1

L Donc la condition a (a , ) = 0 scrit p l=1 al kl = ak . On empile ces p galits pour k obtenir les p premires quations de (5.30). Avec les notations introduites, celles-ci scrivent 2a 2 a = 0p , ou encore a = a (5.31)
eq:cpo_max_ryxa
La dernire quation de (5.30) exprime videment que la solution a satisfait la contrainte : a a = 1. Conjointement, cette contrainte et lgalit (5.31) expriment que si un couple (a , ) satisfait (5.30), alors il est ncessairement lun des p couples (vecteur propre, valeur propre) de . En prmultipliant les deux membres de (5.31) par a et en utilisant la contrainte, on obtient a a = (5.32)
eq:vp
Comme a est le vecteur de norme 1 pour lequel a a est maximum (par dnition du problme 5.29)) et quavec sa valeur propre associe il satisfait (5.32), on voit que cette dernire est ncessairement gale la plus grande des valeurs propres de . Cette matrice est semi-dnie positive (puisquelle peut scrire sous la forme dun produit A A). Donc toutes ses valeurs propres sont positives ou nulles. De plus, on constate que scrit aussi sous la forme cc o c = x y est un vecteur de Rp . Le rang de est donc gal 1. Ceci implique que parmi les p valeurs propres de , seule lune delles est positive et les (p 1) autres sont nulles. Donc la plus grande valeur propre de est celle qui est non nulle. En consquence, le rsultat gnral tablissant que la trace dune matrice est gale la somme de ses valeurs propres prend ici la forme trace() = . En utilisant les proprits de loprateur trace 14 , on peut crire trace() = trace(x yy x) = trace(y xx y) = y xx y o la dernire galit provient du fait que (y xx y) est une matrice de dimensions (1,1). On obtient donc = y xx y Si on substitue cette expression dans (5.31), on a x yy xa = y xx ya On vrie que le vecteur a =
x y y xx y
est de norme 1 et satisfait lgalit ci-dessus. Len-
semble des solutions au problme de maximisation dans le cas o x x = Ip est donc constitu de tous les vecteurs de Rp proportionnels x y. Cas x x quelconque Dans ce cas, pour maximiser r (Y, Xa )2 , le problme rsoudre reste donn par (5.28). En eectuant un changement de variable adquat, on peut donner au problme la forme (5.29).
14. trace(AB ) = trace(BA) pour nimporte quelles matrices A et B pour lesquelles les produits AB et BA sont dnis.
126
CHAPITRE 5. MRLS : DFINITION ET ESTIMATION Pour cela, remarquons que pour toute matrice M de dimensions (p, p) inversible, le rapport maximiser scrit a (M )1 M x yy xM M 1 a a (M )1 M x xM M 1 a Parmi toutes les matrices M inversibles, on peut en choisir une pour laquelle M x xM = Ip (voir plus bas), ce qui qui permet dcrire le rapport ci-dessus sous la forme : b x yy x b b b o x = xM et b = M 1 a. Comme M est inversible et connue, chercher le a pour lequel le premier rapport est maximum revient chercher le b pour lequel le second est maximum. On doit donc rsoudre b x yy x b max bRp b b Pour les mmes raisons que celles prcdemment avances, on peut limiter la recherche du maximum aux vecteurs de Rp dont la norme est gale 1. On est alors ramen au cas simple rsolu auparavant. En utilisant les rsultats obtenus dans ce cas, on obtient que le vecteur b qui ralise le maximum est b = M x y x y = y x x y y xM M x y
En utilisant la relation b = M 1 a, on dduit que le a recherch dans ce cas est a = M b . Pour caractriser la solution, il reste expliciter la matrice M pour laquelle M x xM = Ip . Celle-ci sobtient en diagonalisant x x. Si V et dsignent les matrices contenant respectivement les vecteurs propres et les valeurs propres de x x, on a x x = V V , car x x tant symtrique, on peut choisir V de sorte que V V = Ip , ou encore V 1 = V . On crit toute matrice diagonale D dlments diagonaux d1 , . . . , dq sous la forme D = diag(d1 , . . . , dq ). On a ainsi = diag(l1 , . . . , lp ) o l1 , . . . , lp dsignent les p valeurs propres de x x. Si on dnit la matrice 1/2 = diag( l1 , . . . , lp ), on vrie facilement que = 1/2 1/2 . De manire identique, linverse de est 1 = diag(1/l1 , . . . , 1/lp ) et on a 1 = 1/2 1/2 1 o 1/2 = diag(1/ l1 , . . . , 1/ lp ) = (1/2 ) . Introduisons alors la matrice M dnie par M = V 1/2 . On vrie que cette matrice satisfait la condition voulue puisque M x xM = 1/2 V V V V 1/2 = 1/2 1/2 = 1/2 1/2 1/2 1/2 = Ip Avec ce choix particulier de M , le vecteur a qui maximise r (Y, Xa )2 est donc a = M b = M M x y = y xM M x y (x x)1 x y y x(x x)1 x y
puisque M M = V 1/2 1/2 V = V 1 V = (x x)1 . Donc dans le cas gnral, lensemble des solutions au problme de maximisation de r (Y, Xa )2 est lensemble des vecteurs de Rp proportionnels (x x)1 x y.
127
Maintenant que ce problme de maximisation est rsolu, il reste conclure et montrer, ainsi quon la annonc au dbut de cette section, que la combinaison linaire des variables exognes la 0 X0 + + p Xp . Pour cela, on remarque que plus fortement linairement corrle avec Y est bien grce au rsultat de la section 5.5.1.3 prcdente, le jeu de p coecients (x x)1 x y qui maximise 1 , . . . , p , ce quon crit 1 = (x x)1 x y la corrlation linaire empirique r (Y, Xa )2 concide avec (voir les commentaires qui suivent (5.19) et (5.20)). Donc la combinaison linaire obtenue lissue 1 X1 + + p Xp . La valeur de r (Y, Xa )2 de la rsolution du problme de maximisation est qui en rsulte reste inchange si on ajoute un terme constant cette combinaison linaire. 15 Par 0 X0 + 1 X1 + + p Xp maximise galement ce coecient consquent, la combinaison linaire de corrlation linaire, et on obtient ainsi le rsultat annonc. 1 = Pour terminer cette section, notons que puisque le vecteur qui maximise r (Y, Xa )2 est (x x)1 x y, alors en utilisant lexpression de r (Y, Xa )2 donne par (5.26), le maximum atteint est y x(x x)1 x y y x(x x)1 x yy x(x x)1 x y = (y y)y x(x x)1 x x(x x)1 x y y y Il est facile de voir que le numrateur scrit galement comme y y , o y est dni comme la 1 2 1 est gal section 5.5.1.3 par y = x . Autrement dit, le maximum de r (Y, Xa ) atteint en a = y y y y En utilisant lquation (5.24), on constate que ce maximum, dni comme le carr du coecient de corrlation linaire multiple entre Y et X0 , . . . , Xp (voir la dnition qui prcde la proprit 5.5) concide avec le coecient de dtermination de la rgression. Ce rsultat est videmment la gnralisation de la proprit 2.7.
sec:mcocont
5.5.2
Estimation de sous contraintes linaires
Dans cette section, on reprend le problme destimation de de la section 5.3, mais dans un modle dans lequel on suppose que satisfait q contraintes de la forme R10 0 + R11 1 + + R1p p = r1
R20 0 + R21 1 + + R2p p = r2 . . .
Rq0 0 + Rq1 1 + + Rqp p = rq o Rkl et rk sont des nombres connus, k = 1, . . . q, l = 0, . . . , p. En formant la matrice R dont la (k, l + 1)e entre est Rkl et le vecteur r Rq dont les coordonnes sont les rels r1 , . . . , rq , on peut crire ces q contraintes comme R = r (5.33) De plus, si Rk dsigne le vecteur de Rp+1 dont les coordonnes forment les entres de la ke ligne de R, la ke contrainte scrit Rk = rk .
15. Voir la remarque faite au dbut de cette section.
eq:cont_lin
128
Pour que le systme de contraintes ait un intrt, on supposera que ces q contraintes ne sont pas linairement redondantes, dans le sens o aucune dentre-elles ne peut sobtenir comme une combinaison linaire des autres. Cela quivaut lindpendance linaire des vecteurs R1 , . . . , Rq ou encore la condition rang(R) = q . On notera que ceci implique q p + 1. Ceci implique galement quon pourra toujours trouver un Rp+1 tel que lgalit (5.33) est satisfaite. Imposer une contrainte telle que (5.33) revient introduire une condition supplmentaire au modle dni par Cp 1 Cp 3. Le modle dans lequel est impos la contrainte (5.33) est appel MRLS contraint, et il est dni par la condition Ccont : p
rem:cont_lin
Rp+1 t.q. R = r et E(Y ) = X,
]0, [ t.q. V(Y ) = 2 In
Remarque 5.21 Comme on la fait dans la remarque 5.1, on peut donner une interprtation gomtrique de la contrainte impose sur . Pour cela, on note que la condition rang(R) = q impose pour viter la redondance des contraintes (voir ci-dessus), quivaut ce que les q lignes de R soient les transposes de vecteurs linairement indpendants de Rp+1 . On peut alors complter cette famille de vecteurs par p + 1 q vecteurs linairement indpendants de Rp+1 an de former une base de Rp+1 . 16 Notons Q la matrice de dimensions (p + 1 q, p + 1) dont les lignes sont les transposes de ces vecteurs. On peut alors former la matrice A de dimensions (p + 1, p + 1) en concatnant verticalement R et Q : A=

R Q
(5.34)
eq:complementR
Dnissons alors le vecteur de Rp+1 par
Par construction, les p + 1 lignes de A forment une famille de vecteurs linairement indpendants de Rp+1 , et la matrice A est de rang p + 1, donc inversible. Par consquent, il est quivalent de connatre ou et au lieu dcrire le modle paramtr par , on peut lcrire au moyen du vecteur de paramtres , puisque E(Y ) = X E(Y ) = XA1 . On voit alors que la contrainte R = r revient imposer que les q premires coordonnes de soient gales celles de r et donc que scrive =
= A =
R Q
R Q
qui permet de pour un certain Rp+1q . Il est donc possible de reformuler la condition Ccont p 1 dnir le MRLS contraint. On a en eet X = XA et donc si la contrainte R = r est introduite, X scrit X = X A1 A2
= XA1 r + XA2
(5.35)
eq:repar_delta
16. Un choix possible (et ais) consiste choisir ces vecteurs comme tant une base du noyau de R.
129
o A1 et A2 sont les sous-matrices de A1 composes des q premires et p + 1 q dernires colonnes de A1 , respectivement. La condition Ccont impose donc en particulier p Rp+1 t. q. R = r et E(Y ) = X Rp+1q t. q. E(Y ) = a + X (5.36)
eq:equiv_C_p_co
= XA2 . On voit alors que la condition Ccont impose au vecteur E(Y ) dapo a = XA1 r et X p 0 , . . . , X p ). Ce sous-espace partenir un sous-espace ane de Rn , quon notera par la suite La (X est obtenu en translatant au moyen du vecteur a tous les vecteurs du sous-espace engendr par les . Appelons ce dernier L(X 0 , . . . , X p ). Comme X = XA2 , chaque colonne de X est colonnes de X une combinaison linaire des colonnes de X et donc L(X0 , . . . , Xp ) L(X0 , . . . , Xp ). De plus, montre que le rang de cette matrice est gal au rang de A2 . 17 Comme A est la dnition de X inversible, les p + 1 q dernires colonnes de A1 constituant A2 sont linairement indpendantes. aussi. Donc L(X 0 , . . . , X p ) est un sev de Rn de Par consquent A2 est de rang p + 1 q et X dimension p + 1 q . 18 R
rem:repar_C_p_cont
Remarque 5.22 Notons que la reparamtrisation qui consiste poser = A , o A est dnie par (5.34), et crire E(Y ) = Z, avec Z = XA1 , est un moyen dincorporer la contrainte R = r dans lcriture de E(Y ), ainsi que le montre lquivalence (5.36). On pourra alors prendre en compte R directement cette contrainte dans linterprtation et lutilisation du modle. Lorsquon cherche estimer le vecteur des paramtres du MRLS avec la contrainte (5.33), il est normal dimposer que lestimateur recherch satisfasse galement cette contrainte. Pour eectuer cette estimation, on adopte la mme dmarche que dans la section 5.3. On minimise donc la fonction S dnie en (5.8) sous la contrainte (5.33). Formellement on rsoud
Rp+1
min
Y X
s.c.q.
R = r
(5.37)
eq:min_cont
Pour rsoudre ce problme, on peut adopter deux mthodes. La premire consiste noter que la fonction objectif minimiser et la contrainte sont drivables en chacun des 0 , . . . , p , que lobjectif est convexe et que chacune des q contraintes est linaire en ces mmes arguments. Par consquent, on peut utiliser la mthode du lagrangien pour eectuer la minimisation sous contrainte. La seconde mthode consiste intgrer la contrainte dans la fonction minimiser en utilisant une rcriture du modle semblable celle utilise dans la remarque 5.21, permettant dcrire E(Y ) sous la forme . On prsente tour tour chacune de ces deux mthodes, qui donne par lgalit E(Y ) = a + X conduisent videmment au mme rsultat. Si on utilise la premire approche, on rcrit le problme comme
n (0 ,...,p ) Rp+1
min
i=1
(Yi 0 Xi0 Xip )2
s.c.q.
R10 0 + + R1p p r1 = 0 . . . Rq0 0 + + Rqp p rq = 0
= 0 A2 x = 0. Les matrices X et A2 ont donc le mme noyau. Comme 17. Puisque X X est inversible, Xx elles ont aussi le mme nombre de colonnes, le thorme des dimensions permet de conclure quelles ont le mme rang. 18. On rappelle le contenu de la remarque 5.1 qui tablissait quen labsence de la contrainte, E(Y ) appartient un sev de dimension p + 1.
130 Le lagrangien associ est

n
L(0 , , p , 1 , . . . , q ) =
i=1
(Yi 0 Xi0 p Xip ) +
l=1
l (Rl0 0 + + Rlp p rl )
, . . . , ) soit solution du problme, il faut trouver q rels , . . . , tels Donc pour que = (0 q 1 p que L , , . . . , ) = 0 k = 0, . . . , p ( , , p q 1 k 0 (5.38) L l = 1, . . . , q ( , , p , 1 , . . . , q ) = 0 l 0 Ensemble, les q dernires quations scrivent videmment R = r , exprimant que la solution satisfait les q contraintes. En utilisant lexpression du lagrangien, la (k + 1)e quation de ce systme est q n
eq:cpo_mco_cont
i=1
Xik (Yi 0 Xi0 p Xip ) +
l Rlk = 0
l=1
En reprenant la dmarche de la section 5.3, la premire somme de cette galit peut scrire 2X k (Y X ) (voir le passage de (5.3) (5.4)). La seconde somme scrit Rk , o Rk dsigne le vecteur de Rq constituant la ke colonne de la matrice R et = ( 1 , . . . , q ) . Donc la (k + 1)e quation du systme (5.38) scrit
2X k (Y X ) + Rk = 0
On constate que le premier terme de cette somme est la (k + 1)e ligne de 2X (Y X ) et le second est la (k + 1)e ligne de R . En empilant ces p + 1 galits, on obtient donc 2X (Y X ) + R = 0p+1 et le systme (5.38) scrit
2X (Y X ) + R = 0p+1
De la premire galit on tire
R r = 0q
1 1 (X X )1 R = (X X )1 X Y (X X )1 R = 2 2
(5.39)
eq:beta_mco_con
est lestimateur des moindres carrs de dans le modle sans la contrainte (5.33). La matrice o R(X X )1 R est inversible. En eet, pour tout x Rq , x = 0q , on a x R(X X )1 R x = z (X X )1 z , o z = R x. Comme R est (q, p + 1) et de rang q , x = 0q implique z = 0p+1 . Et comme X est de rang p + 1, elle est dnie positive et on a z (X X )1 z > 0, cest dire x R(X X )1 R x > 0. La matrice R(X X )1 R est donc dnie positive, et par consquent inversible. En utilisant cela et en substituant lexpression de donne par (5.39) dans lquation R r = 0q , on a 1 r) = 2 R(X X )1 R (R (5.40) et en substituant dans (5.39), on obtient (X X )1 R R(X X )1 R =
1
eq:mcocont_lamb
r) (R
(5.41)
eq:beta_mco_con
131
On peut adopter une autre stratgie de rsolution du problme (5.37) qui consiste utiliser le contenu de la remarque 5.21 an dintgrer la contrainte R = r dans la fonction minimiser Y X 2 . En eet, en utilisant le raisonnement de la section 5.3.2, on voit que la minimisation (5.37) consiste chercher parmi les vecteurs de Rn scrivant sous la forme X avec Rp+1 tel que R = r , celui qui est le plus proche de Y . On a vu dans la remarque 5.21 que ces vecteurs sont 0 , . . . , X p ) de Rn et quils peuvent scrire sous la forme les lments du sous-espace ane La (X XA1 r + XA2 pour un dans Rp+1q (voir (6.10)). Donc chercher parmi ces vecteurs celui qui est le plus proche de Y revient chercher un Rp+1q tel que Y XA1 r XA2
2
Y XA1 r XA2
Rp+1q
Autrement dit, le problme (5.37) est quivalent min X Y

2
Rp+1q
= Y XA1 r et X = XA2 . R-crit sous cette forme, on voit que le problme est celui o Y qui se pose lorsquon souhaite estimer par moindres carrs le vecteur de paramtres dans un ) = X . Dans un tel modle, les observations de la variable modle caractris par la condition E(Y et celles des variables exognes sont les lments de la matrice endogne sont les coordonnes de Y X . Dans le contexte de ce modle, la minimisation seectue de manire identique celle prsente la section 5.3 et on obtient X )1 X Y = (X Les deux approches tant quivalentes, elles conduisent au mme vecteur du sous-espace ane 0 , . . . , X p ). On doit donc avoir XA1 r + XA2 = X ou encore, en se rappelant que La (X A1 = A1 A2 (voir la dnition de A1 et A2 aprs (6.10)) : XA1 r = X
Comme X est de rang p + 1, on doit avoir A1 = , o est dni comme = r
Autrement dit, les estimateurs des paramtres et sont lis par la mme relation que les paramtres eux-mmes. On rappelle que ces deux paramtres correspondent deux faons direntes dcrire la dcomposition de E(Y ) (voir la remarque 5.22 et lquivalence (5.36)). Les deux approches destimation qui viennent dtre dcrites correspondent chacune de ces deux manires de paramtrer E(Y ). La relation entre et permet videmment aussi de connatre lun des deux lorsquon connat lautre. Ainsi, si on dcide dutiliser la deuxime approche qui permet dobtenir et donc , on obtient comme = A1 .
132
sec:estim_sigma
5.6
) Estimation de la variance 2 et de V(
La section prcdente a dvelopp les solutions au problme destimation du vecteur des paramtres qui caractrise dans le cadre dun MRLS la manire dont les niveaux des variables exognes aectent celui de la variable endogne. Le modle contient galement le paramtre 2 supplmentaire, dont la valeur inconnue mesure la variabilit thorique de la variable endogne. Lestimation de 2 dcoule du rsultat suivant.
pro:estim_sig2
= Y X (X X )1 X Y = MX Y o MX = In X (X X )1 X . = Y X Preuve : = Y Y ). Par consquent, 2 Par ailleurs, 2= n i=1 i = trace(

2
= trace(MX Y Y MX ) = trace(MX Y Y MX )
Proprit 5.8 Dans le MRLS, on a E( 2 ) = (n p + 1) 2 .
= trace(MX MX Y Y ) = trace(MX Y Y ) o la deuxime galit rsulte de la symtrie de MX , la troisime du fait que trace(AB ) = trace(BA) et la dernire de lidempotence de MX . Donc E( 2 ) = E trace(MX Y Y ) = trace E(MX Y Y ) La dernire galit rsulte des deux proprits suivantes : (1) lesprance dune matrice dont les entres sont des variables alatoires est la matrice dont les entres sont les esprances des variables alatoires et (2) lesprance est un oprateur linaire. La matrice MX ne dpend que des variables exognes, que la condition Cp 1 permet de considrer comme nonalatoires. Par consquent, en utilisant la condition Cp 3, les proprits de loprateur trace et la dnition de MX , on obtient trace E(MX Y Y ) = trace MX E(Y Y ) = trace( 2 MX ) = 2 trace(MX ) = 2 trace(In ) trace(X (X X )1 X ) = 2 trace(In X (X X )1 X )
= 2 (n p + 1) ce qui est le rsultat recherch.

cor:esb_sigma2
= 2 n trace(X X (X X )1 ) = 2 n trace(Ip+1 )
Corollaire 5.1 Dans le MRLS, la variable alatoire 2 dnie par 2 = est un estimateur sans biais de 2 . Comme dans le cas du modle de rgression linaire simple, lestimateur ainsi obtenu pour 2 (voir la proprit 2.10). permet dobtenir lestimation de la matrice des variances-covariance de
n 2 i=1 i
n (p + 1)
) 5.6. ESTIMATION DE LA VARIANCE 2 ET DE V(
133
=A Y avec A = (X X )1 X (voir la proprit 5.4), on peut appliquer la proprit Comme 9.7 et on obtient ) = V(A Y ) = A V(Y )A = 2 (X X )1 X In X (X X )1 = 2 (X X )1 V( En tant que matrice des variances-covariances dun vecteur alatoire, (voir page 198), la matrice ) a la structure suivante : V( 0 ) 0 , 1 ) cov( 0 , 2 ) V( cov( 1 , 0 ) 1 ) 1 , 2 ) cov( V( cov( ) = cov(2 , 0 ) cov(2 , 1 ) V(2 ) V( . . . . . . . . . p ) cov(p , 0 ) cov(p , 1 ) cov(p , j , k ) = 2 sj +1,k+1 cov(
.. .
0 , p ) cov( 1 , p ) cov( cov(2 , p ) . . . V(p )
(5.42)
eq:vbeta
) = 2 (X X )1 , on a ncessairement pour tout j, k = 0, 1, . . . , p En utilisant alors lexpression V( (5.43)

eq:cov_bjbk
o sl,m est la (l, m)e entre de la matrice (X X )1 . ) est inconnue puisquelle dpend de la valeur inconnue de 2 . Puisquon dispose La matrice V( ). dun estimateur sans biais de 2 on peut former un estimateur de V(
pro:est_Vbeta
( ) dnie par V ( ) = Proprit 5.9 La matrice V 2 (X X )1 est un estimateur sans biais de ). V( Preuve : Ce rsultat dcoule directement du corollaire 5.1. ) est donc 2 sj +1,k+1, et la proprit ( Par construction, la (j + 1, k + 1)e entre de la matrice V j , k ). On note cet estimateur cov j , k ) et 5.9 montre que cest un estimateur sans biais de cov( ( on a donc 0 ) 0 , 1 ) cov 0 , 2 ) cov 0 , p ) ( V cov ( ( ( 1 , 0 ) 1 ) 1 , 2 ) cov 1 , p ) ( cov ( V cov ( ( 2 , 0 ) cov 2 , 1 ) ( 2 ) 2 , p ) ( ) = cov ( ( V cov ( (5.44) V . . . . .. . . . . . . . . . cov (p , 0 ) cov (p , 1 ) cov (p , p ) V(p )
eq:hat_vbeta
134
Chapitre 6
ch:mrlsgp-tests
Le modle de rgression linaire standard : tests et rgions de conance

On a vu dans le chapitre 3 comment rsoudre des problmes de tests dhypothses portant sur la valeur dun paramtre du modle. On gnralise prsent ce type de problme et on en donne une solution. La catgorie de problmes abords ici tant les tests dhypothses, leur rsolution ncessite la possibilit de calculer des probabilits, an notamment dvaluer les risques de type 1 et 2 (voir la section 10.3.2.3). Parmi les approches possibles orant cette possibilit, la plus simple consiste introduire dans la dnition du modle les lois qui serviront aux calculs de probabilits. Cest ce qui a t fait la section 3.1 et cest cette approche qui sera utilise ici. Pour prciser le modle qui sera le contexte dans lequel on cherchera des solutions aux problmes de test qui seront poss, on introduit donc une dnition semblable la dnition 3.1 de la section 3.1.
def:mrlsgp
Dnition 6.1 Le modle de rgression linaire standard gaussien de Y sur (X1 , . . . , Xp ) est le modle statistique dni par la condition Cp 1 et Cp N, o cette dernire est Cp N. Rp+1 , ]0, +[, Y N (X, 2 In )
On note que le modle dni par la dnition 5.1 contient le modle gaussien dni ci-dessus. En eet, on vrie facilement que si les conditions Cp 1 et Cp N sont satisfaites, alors les conditions Cp 1 Cp 3 le sont aussi. Donc les rsultats qui ont t drivs sous les conditions qui dnissent le MRLS restent valables dans le cadre du modle gaussien dni ci-dessus. Par ailleurs, en utilisant les rsultats sur les lois normales multivaries (voir la section 9.1.2, et plus particulirement la proprit 9.8), on voit que Y N (X, 2 In ) et Y X N (0n , 2 In ) sont quivalentes. Par consquent, daprs la dnition de = Y E(Y ), on voit que si la condition Cp 1 est impose, alors la condition Cp N de la dnition 6.1 peut tre remplace par la condition suivante : Cp N . Rp+1 , ]0, +[, Y = X + , N (0n , 2 In ) 135
136
CHAPITRE 6. TESTS ET RGIONS DE CONFIANCE
Lintroduction de la condition supplmentaire de normalit du vecteur Y permet dobtenir et des rsultats sur les lois des estimateurs 2 quil tait impossible de driver dans le chapitre prcdent sous les seules conditions Cp 1 Cp 3.
pro:loi_estim
Proprit 6.1 Dans le modle de rgression linaire gaussien, on a les proprits suivantes : N (, 2 (X X )1 ) 1. 2 2 (n p 1) 2 et 3. 2 sont indpendants 2. (n p 1)
Preuve :
=A Y avec A = (X X )1 X . En utilisant la condition Cp 1, qui 1. On peut crire est une matrice dont les entres sont non-alatoires, et la condition Cp N, assure que A est un vecteur alatoire gaussien. on peut appliquer la proprit 9.8 pour dduire que est un estimateur sans Il reste alors calculer son esprance et sa variance. Comme biais de , son esprance est . En ce qui concerne sa variance, on a : ) = V(A Y ) = A V(Y )A = A 2 In A = 2 (X X )1 V( o la deuxime galit rsulte de la condition Cp 1 et de la proprit 9.7, la troisime . de la condition Cp N, et la dernire de lexpression de A
2. Daprs la dnition de 2 , on peut crire (n p + 1) 2 = , et donc (n p 1) 2 = Z MX Z , o Z = et MX est dnie comme dans la preuve de la proprit 5.8. Daprs la dnition de , on a N (0n , 2 In ) et donc Z N (0n , In ) (ceci dcoule des proprits 9.8 et 9.7). Comme MX est idempotente et de rang n p 1, on applique la proprit 9.18 et on obtient le rsultat.
2
3. Ce rsultat se dmontre en utilisant la proprit 9.15 et la remarque qui la suit. En =A Y et eet, comme = MX Y , avec Y N (X, 2 In ), lindpendance entre et = 0. On reprend alors la remarque qui suit la rsulte directement de MX A 2 proprit 9.15 et on conclut que = n p1 est indpendant de .
sec:multiv-tests
6.1
6.1.1
Tests dhypothses linaires sur

Le problme de test
sec:pb_test_fisher
Le problme sera dni par une hypothse nulle (H0 ) qui tablit que q combinaisons linaires donnes des coordonnes du vecteur prennent chacune une valeur connue, et une hypothse alternative (H1 ) qui nie lhypothse nulle. De manire plus prcise, lhypothse H0 arme que le vecteur satisfait les q galits introduites dans la section 5.5.2 : R10 0 + R11 1 + + R1p p = r1
R20 0 + R21 1 + + R2p p = r2 . . .
Rq0 0 + Rq1 1 + + Rqp p = rq
6.1. TESTS DHYPOTHSES LINAIRES SUR
137
o Rkl et rk sont des nombres connus, k = 1, . . . q, l = 0, . . . , p. La rcriture de ces galits sous forme matricielle se fait exactement comme dans la section 5.5.2 et on peut alors dnir formellement le problme de test considr ici : H0 : R = r H1 : R = r (6.1)
eq:pb_test_gen
o la matrice R et le vecteur r Rq sont dnis comme la section 5.5.2, i.e., R10 R11 R20 R21 R= . . . . . . Rq 0 Rq 1
. . . R1p . . . R2p . . ... . . . . Rqp
r2 r= . . .
r1
rq
On fera la mme hypothse que dans la section 5.5.2 en supposant quaucune des q galits dnissant H0 nest redondante. Ceci implique que la matrice R est de rang q . Si lhypothse H0 est vraie, alors le vecteur des paramtres satisfait q relations linaires, caractrises par R et r . On peut dgager plusieurs cas particuliers dintrt. Le cas o H0 impose que 1 + + p = r , o r est une valeur quon spcie, sobtient en posant R = 0 1 1 1 . Si on veut tester que k1 = = kq = 0 (nullit simultane de q paramtres), on choisira r = 0q et e k1 +1 ek +1 2 R= . . . o el est le vecteur de Rp+1 dont la l e coordonne est 1 et les autres sont 0. Pour le vrier, on observe que e k1 k1 +1 ek +1 k2 2 R = . = . . . . . puisque la numrotation des lments de commenant 0, on a e kl +1 = kl , pour l = 1, . . . , q . Deux sous-cas importants se dgagent. Lorsque q = 1, on teste la nullit dun paramtre. Si celui-ci est k , alors la matrice R est R = 0 0 0 1 0 0 , o le 1 est sur la (k + 1)e colonne. Si cette hypothse est accepte, alors la variable Xk auquel le paramtre est attach ne joue aucun rle dans la dtermination de Y . On retrouve le test de signicativit de k prsent la section 3.2.1. Ce cas particulier est trait en dtail la section 6.1.3.2 ci-dessous. Lorsque q = p et que kl = l pour l = 1, . . . , p, lhypothse nulle H0 impose que les paramtres attachs aux variables explicatives sont tous nuls, i.e., 1 = = p = 0. La

e kq +1
e kq +1
kq
138 matrice R est dans ce cas
et donc
0 1 0 0 0 0 1 0 R= . . . . . . . . . . . . 0 0 0 0 1 2 R = . . . p

0 0 . . . 1
(6.2)
eq:Rsignifglob
Si H0 est vraie, alors aucune des variables explicatives na deet sur Y . On dit alors quon teste la signicativit globale des paramtres. Ce cas est trait en dtail dans la section 6.1.3.3 ci-dessous.
sec:Ftest
6.1.2
Le test de Fisher : drivation du test et dnition
De la mme manire que ce qui a t prsent au chapitre 3, la solution au problme de tester H0 contre H1 peut sobtenir par deux approches direntes. Lune (plus dicile) consiste se donner un certain nombre de critres que doivent satisfaire les solutions (i.e., les tests) recherches, et choisir dans lensemble des solutions ainsi dlimit, celles qui sont les meilleures. Lautre approche consiste proposer une solution partir dun enchanement darguments raisonnables et montrer quelle possde de bonnes proprits. Nous prsentons cette deuxime approche. Notons pour commencer que R = r M (R r ) = 0q o M est nimporte quelle matrice q q inversible donne. Dcider entre H0 et H1 revient dcider si le vecteur M (R r ) est nul ou pas. Par consquent, on peut baser un test de H0 contre H1 sur une estimation de la longueur M (R r ) de ce vecteur, ou bien de son carr M (R r ) 2 = (R r ) M M (R r ). 1 On sait grce au thorme 5.2 (section 5.3.3), que le r ). Par consquent, on peut meilleur estimateur linaire et sans biais de M (R r ) est M (R r) , estimer la longueur de M (R r ) par la longueur de son estimateur, cest dire par M (R r ) M M (R r ). Daprs les proprits de lestimateur , si H0 est ou par son carr (R vraie, cest dire si la longueur de M (R r ) est nulle, alors il sera probable dobserver de faibles r ) M M (R r ). Par consquent le test consistera rejeter H0 et accepter H1 si on valeurs (R r ) M M (R r ). Un tel raisonnement observe de grandes valeurs de la variable alatoire (R nous donne la forme des tests quon considre ici : ces tests conduisent rejeter H0 si on observe un r ) M M (R r ) > s, o s est un nombre qui sert exprimer le fait vnement scrivant (R r ) prend une grande valeur. Il reste expliciter le que la variable alatoire (R r ) M M (R choix de ce nombre ainsi que celui de la matrice M qui sera utilise. Ces choix de M et s doivent satisfaire deux conditions :
1. On rappelle (voir la section 5.3.2) que la longueur dun vecteur a est mesure par la norme de ce vecteur, dnie comme a a .
139
r ) M M (R M et s doivent tre connus de manire pouvoir dire si lvnement (R r ) > s sest ralis ou pas on doit pouvoir calculer la probabilit r ) M M (R r) > s PH0 (R an de garantir que cette probabilit nexcde pas le niveau quon aura choisi pour eectuer le test. On procde de la manire suivante : (a) on cherche dabord une matrice M inversible connue pour laquelle la loi de la variable r ) M M (R r ) est connue lorsque H0 est suppose vraie ; alatoire (R r ) M M (R r) > s PH0 (R On commence par noter quen utilisant les proprits 6.1 et 9.8 on obtient r N (R r, 2 R(X X )1 R ) R r est nulle. De plus, comme R est de rang q , la matrice Si H0 est vraie, alors lesprance de R R(X X )1 R est galement de rang q , donc inversible. Dnissons alors la variable alatoire C1 de la manire suivante : r ) [ 2 R(X X )1 R ]1 (R r) C1 = (R On peut alors appliquer la proprit 9.17, et lorsque H0 est vraie on a C1 2 (q ). On va montrer que C1 et 2 sont indpendantes. Pour cela, on donne une autre expression de C1 et on applique ensuite la proprit 6.1. Comme R(X X )1 R est symtrique et dnie positive, on peut toujours crire son inverse sous la forme [R(X X )1 R ]1 = A A o A est une matrice q q inversible. 2 A r ). En utilisant alors la mme dmarche que dans la preuve r ) A (R On a donc C1 = (R 2 r ) est indpendant de du point 3 de la proprit 6.1, on voit aisment que A(R 2 , et donc C1 2 et (n p 1) 2 le sont galement.
Or la proprit 6.1 indique que la variable C2 dnie comme C2 = (n p 1) suit une loi 2 2 (n p 1). Par consquent, en utilisant la dnition 9.5 de la loi de Fisher, si H0 est vraie, alors
2
(b) connaissant cette loi, on choisit s0 de sorte que
C1 /q F (q, n p 1) C2 /(n p 1) Appelons F le rapport ci-dessus. En utilisant les expressions de C1 et de C2 on peut crire F = r ) [ r) (R 2 R(X X )1 R ]1 (R q (6.3)
eq:fisherstat
2. Il sut dcrire R(X X )1 R = K 1/2 1/2 K o K et sont respectivement les matrices des vecteurs propres et valeurs propres de R(X X )1 R . On a alors [R(X X )1 R ]1 = K 1/2 1/2 K o 1/2 est la matrice diagonale compose de linverse des racines carres des lment diagonaux de . Il sut alors de choisir A = 1/2 K .
140
r ) M M (R et si H0 est vraie, F F (q, n p 1). On note que F scrit sous la forme F = (R 1 r ) o M = 2 A. On a donc achev le point (a) de la dmarche dcrite ci-dessus.
q
Le point (b) conduit alors chercher le quantile dordre 1 de la loi F (q, n p 1). On le note F(q,np1);1 , et pour le dterminer, on peut se rfrer la section 9.1.3.2 (voir la table la n de la section). Autrement dit, PH0 (F > F(q,np1);1 ) On a donc obtenu le test recherch.
def:test_fisher
Dnition 6.2 On appelle test de Fisher de H0 : R = r contre H1 : R = r le test qui consiste dcider H1 au niveau lorsquon observe F > F(q,np1);1 , o F est la variable alatoire dnie en (6.3). Dans ce contexte, la variable alatoire F est appele statistique de Fisher associe H0 . Le test ci-dessus a t construit en utilisant une approche a priori raisonnable schmatise par les points suivants : lhypothse nulle stipule que tout vecteur de la forme M (R r ), o M est une matrice inversible, est de longueur nulle r ) est de trop grande longueur, on dcide H1 . si on constate que le vecteur M (R Cette justication nest pas susante et il faut montrer quun tel test possde de bonnes proprits statistiques, notamment une puissance suprieure celle de nimporte quel autre test de niveau . Comme dans la section 3.2.3, on est confront au problme quil nexiste pas de test UPP au niveau pour le problme de tester H0 : R = r contre H1 : R = r . On se restreint alors chercher le meilleur test dans un ensemble de tests possdant des proprit souhaites. Ici, ce nest pas labsence de biais qui est impose, mais un principe dinvariance. Ce principe peut se schmatiser de la manire suivante. Supposons quon puisse trouver une transformation des variables du modle qui ne change ni le modle, ni le problme de test. Dans un tel cas, il est naturel de ne considrer que les tests qui sont invariants par rapport un telle transformation : puisque le modle et le problme de test restent inchangs suite la transformation des variables, il est naturel dimposer que les tests utiliss doivent donner la mme dcision, que lon utilise les variables transformes ou les variables initiales. Les tests possdant cette proprit sont appels tests invariants. On cherche alors le meilleur test parmi les test invariants, i.e., le test invariant de niveau ayant un risque de type 2 infrieur (ou gal) celui de nimporte quel autre test invariant de niveau . Il est alors possible de montrer que le test de Fisher (dnition 6.2) est le meilleur des tests invariants de niveau . 3 Cette proprit permet donc de justier lutilisation de ce test. propos de la statistique de Fisher, on peut remarquer quelle est construite sur une estimation r (thorme 5.2) de R r . En eet, le meilleur estimateur linaire sans biais de R r est R et sa variance est r ) = RV( )R = 2 R(X X )1 R V(R
3. Linvariance tant celle par rapport un certain nombre de transformations, dont par exemple des translations des variables endognes
141
o la premire galit rsulte de la proprit 9.7 et la deuxime de la proprit 6.1 (point 1). Cette variance est inconnue (car elle dpend de la valeur inconnue de ) et peut sestimer par (R r ) = RV ( )R = V 2 R(X X )1 R (6.4)
eq:hatVRB
On constate alors que la statistique de Fisher scrit en fonction de lestimateur de R r et de lestimateur de sa variance : r ) V (R r) (R F = q
1
r) (R
(6.5)
eq:F_stat_V
6.1.3
Le test de Fisher pour des problmes de test dun intrt particulier
On a mentionn dans la section 6.1.1 quelques formes particulires dintrt du problme de test gnral H0 : R = r contre H1 : R = r . Ces cas particuliers sont caractriss par des valeurs particulires de R et r , qui permettent de dduire de nouvelles expressions pour la statistique de Fisher F . Ces expressions sont obtenues partir de la forme gnrale (6.5). 6.1.3.1 Test de nullit simultane de q paramtres
On a vu en 6.1.1 que ce test correspond au cas o r = 0q et o chacune des q lignes de R contient un 1 sur lune de ses colonnes et 0 partout ailleurs. Autrement dit e k1 +1 ek +1 2 R= . . . o el est le vecteur de Rp+1 dont la l e coordonne est 1 et les autres sont 0. Dans ce cas, lgalit R = r scrit k1 0 k2 0 . = . (6.6) . . . . kq 0

e kq +1
eq:test_qnuls
Cette forme particulire de R et r permet dobtenir une forme particulire de la statistique de Fisher. Dans ce cas, on a
e k1 k1 +1 ek +1 k2 2 r = R . 0q = . . . . . ekq +1 kq
(R r ) = RV ( )R a pour (j, l)e Par ailleurs, en utilisant (6.4) et lexpression de R, la matrice V ). Compte tenu de la structure de cette matrice (voir (5.44)), ( entre la (kj + 1, kl + 1)e entre de V
142
k , k ), lestimateur de la covariance entre k et k (voir la section 5.6). En cette entre est cov ( j j l l utilisant lexpression (6.5), on peut crire dans ce cas la statistique F sous la forme :
F =
1 k1 q
k 2
k q
( k ) k , k ) V cov ( 1 1 2 cov ( , ) V ( ) k2 k1 k2 . . .. . . . . . (kq , k2 ) cov (kq , k1 ) cov
k k , k )1 cov ( q 1 1 k , k ) cov ( k q 2 . 2 . . . . . k V(k )

q q
(6.7)
eq:Fstat_qnuls
On peut crire cette statistique sous une forme plus compacte en dsignant par R = R le sous-vecteur de dont on teste la nullit, comme exprim par (6.6). Avec ces notations, on crit en eet (6.7) comme : 1 R R 1 R F = V( ) (6.8) q R = R est le vecteur des estimateurs des coordonnes de R et V ( R ) = RV ( )R est la o matrice de lexpression (6.7) dont les entres sont les estimateurs des variances et covariances des R . coordonnes de partir de la forme de la statistique de Fisher donne par (6.8) pour tester la nullit simultane de q paramtres, on drive aisment les expressions de F dans les deux sous-cas voqus dans la section 6.1.1. 6.1.3.2 Test de signicativit dun paramtre
eq:Fstat_qnuls_
sec:test_signif_ind
Ce cas correspond au problme de test H0 : k = 0 contre H1 : k = 0, o k est le paramtre dintrt dans ce problme. Cest un test de signicativit de k introduit dans la section 3.2.1. On rappelle que ce type de test permet de dcider si la variable exogne Xk a un eet sur la variable endogne. La matrice R dans ce cas est rduite une ligne (q = 1) et on a R = e k +1 . Par consquent R R R k . partir de (6.8) = R = k et = k . De plus V( ) = V(k ) est la variance estime de on a 2 k V 1 F = k (k ) k = V(k ) Si H0 est vraie, alors F suit une loi de Fisher F (1, n p 1) et on dcide que H0 est fausse au niveau si on observe que F > F(1,np1);1 .
Notons que dans le cas du problme de test envisag ici, la statistique de Fisher est le carr de la statistique k Tk = ( k ) V et par consquent, le test de Fisher est quivalent dcider H1 au niveau si on observe |Tk | > F(1,np1);1 . Autrement dit, le test peut tre eectu de manire quivalente en comparant la
valeur absolue de la statistique Tk avec la quantit F(1,np1);1 . Or en utilisant la dnition de la loi de Student (voir la section 9.1.3.3) et la proprit 6.1, on voit que le rapport dnissant la statistique Tk suit une loi de Student n p 1 degrs de liberts. Par ailleurs, en utilisant la
6.1. TESTS DHYPOTHSES LINAIRES SUR proprit 9.20 (voir les rappels), loi, i.e. F(1,np1);1 concide avec le quantile dordre 1
2
143 de cette
Sous cette forme, on voit que le test de Fisher nest autre que le test de Student qui a t introduit dans le contexte du modle de rgression linaire simple (voir la section 3.2.2). Le test de Student reste donc valide dans le contexte du modle standard et garde toutes les proprits qui ont t tablies prcdemment (voir la section 3.2.3). En pratique, pour tester la signicativit individuelle dun paramtre du modle, on utilise le test sous la forme Student, en comparant la valeur absolue de la statistique de Student Tk avec le quantile appropri. 6.1.3.3 Test de signicativit globale des paramtres
. F(1,np1);1 = np1;1 2
sec:test_signif_glob
On sintresse maintenant au test de H0 : 1 = = p = 0 contre H1 : k = 0, k = 1, . . . , p. En utilisant les dveloppements de la section 5.5.1.3 qui illustrent une application du thorme de Frish-Waugh, on peut obtenir dans ce cas un rsultat intressant. Il est pour cela important de se rappeler le sens revtu par H0 , donn la n de la section 6.1.1 : si H0 est vraie, les variables explicatives nont aucun pouvoir explicatif sur la variable dpendante. Le rsultat dgag ci-dessous montre tablit quil un lien entre le test de Fisher et le coecient de dtermination R2 . Pour le problme de test considr ici, la matrice R a la forme donne par (6.2) et la statistique de Fisher est donne par (6.8), avec q = p. On dcide que H0 est fausse au niveau si on observe F > F(p,np1);1 . Le sous-vecteur des paramtres sur lesquels porte le problme de test est : 1 2 R = R = . . . p

Notons que ce sous-vecteur est identique au sous-vecteur 1 introduit en (5.17) la section 5.5.1.3. R = 1 et en appliquant les rsultats de cette section, on sait que Par consquent, R = (x x)1 x y o x et y sont les matrices des observations des variables exognes et endognes, prises en dirences par rapport leur moyenne (voir (5.18) et (5.21)). Notamment, on peut crire y = (In PL2 )Y et x = (In PL2 )X (6.9)
eq:XY_centre
o PL2 est la matrice de projection orthogonale sur L(X0 ). On peut alors obtenir une expression R ) qui permettra ensuite den obtenir une pour V ( R ). En eectuant un calcul analogue de V( ) la section 5.6, on a : celui qui a permis dobtenir V( R ) = V[(x x)1 x y] = (x x)1 x V(y)x(x x)1 V( = (x x)1 x V(ML2 Y ) x(x x)1
= (x x)1 x ML2 V(Y )ML x(x x)1 2
= 2 (x x)1 x ML2 x(x x)1
144
o ML2 est la matrice dnie comme ML2 = In PL2 , et o la dernire galit rsulte de lidempotence et de la symtrie de cette matrice et de la condition Cp N qui donne lexpression de V(Y ) = 2 In . En utilisant nouveau lidempotence de ML2 et la dnition de x (voir (6.9) ci-dessus), on a ML2 x = x et par consquent : R ) = 2 (x x)1 V( R ) = ( On dduit donc V 2 (x x)1 . On peut alors obtenir une expression de la statistique de R et de V R ). Si on utilise lexpression (6.8) de F , on a : ( Fisher partir de celles de
1 1 F = y x(x x)1 2 (x x)1 (x x)1 x y p 1 (y x(x x)1 x )(x(x x)1 x y) = p 2 y 2 = p 2
R = x(x x)1 x y. Or daprs la dnition o y est dni comme dans la section 5.5.1.3 par y = x de 2 et les relations (5.22) et (5.23), on peut crire : p 2 = Par consquent : 1 y p = F np1
2
p np1
2
p ( y np1 y y
2 2
y 2)
y 2 y
p np1
1 =
p np1
1 1 R2
o la dernire galit est obtenue en utilisant lexpression (5.24) du coecient de dtermination de la rgression. On a donc obtenu une expression alternative de la statistique de Fisher, quon peut rsumer par une proprit.
pro:lien_FR2
Proprit 6.2 Dans le MRLSG, pour tester la signicativit globale des paramtres H0 : R = 0p contre H1 : R = 0p , o R = (1 , . . . , p ) , la statistique de Fisher sexprime comme : F = o R2 est le coecient de dtermination. Ce rsultat est intressant puisquil permet de donner une justication supplmentaire au coecient de dtermination. On rappelle que ce dernier estime le pouvoir explicatif des variables exognes sur la variable endogne. La proprit ?? tablit quobserver R2 = 0 revient estimer que R = 0p . Autrement dit, avoir R2 = 0 revient estimer que H0 est vraie. Cette proprit de R2 fournit donc une rgle de dcision alternative au test bas sur la statistique de Fisher pour choisir entre H0 et H1 . Cette nouvelle rgle snonce On dcide que H0 : R = 0p est fausse si on observe R2 > 0 . Il est donc naturel que la statistique de Fisher et R2 soit lis puisquils servent dcider si H0 est vraie ou pas. Cependant, cette rgle de dcision fonde sur le coecient R2 peut n p 1 R2 p 1 R2
145
apparatre trop tranche dans la mesure o elle prend comme seuil une valeur extrme (la valeur 0) de R2 . De fait, on peut facilement montrer quavec un seuil aussi tranch, que H0 soit vraie ou pas, la probabilit de dcider que H0 est fausse est nulle. Autrement dit le risque de type 1 de ce test est gal 0, tandis que son risque de type 2 est gal 1. Ceci peut stablir partir du point R = 0. Par consquent 2 de la proprit ?? : R2 = 0 R = 0p ) P( 1 = 0) P(R2 = 0) = P( R = 0p } implique lvnement { 1 = 0}. Dans le contexte du MRLSG, que puisque lvnement { 1 est une variable alatoire qui suit une loi normale, et lvnement { 1 = 0} H0 ou H1 soit vraie, est par consquent de probabilit nulle. En dautres termes, le test qui dcide que H0 est fausse lorsquon observe R2 = 0 revient toujours dcider que H0 est vraie. Si on veut baser le test sur la valeur du coecient R2 , on peut utiliser une rgle de la forme On dcide H1 si on observe que R2 est susamment grand (proche de 1) . Cela revient dcider que H0 est fausse ds quon estime que le pouvoir explicatif des variables exognes sur la variable endogne est susamment leve (proche de 100%). Lvnement qui conduit dcider H1 est alors de la forme R2 > s, o s [0; 1] est le seuil partir duquel on juge que R2 est susamment grand. Lapproche de Neyman et Pearson (voir la section 10.3.2.4) requiert alors de choisir s de manire que le risque de type 1 dun tel test ne dpasse pas un niveau x lavance : PH0 (R2 > s) Parmi tous les s satisfaisant cette ingalit, on choisit celui quon note s pour lequel le risque de type 2 est le plus petit possible. Le risque de type 2 est PH1 (R2 s). On en dduit donc que s est la plus petite des valeurs s pour lesquelles PH0 (R2 > s) et par consquent s est caractris par PH0 (R2 > s ) = La proprit 6.2 permet de calculer aisment s . En eet, en posant c = = PH0 (F > F(p,np1);1 ) = P H0 c = P H0 Donc s =
np 1 , p
on a
R2 > F(p,np1);1 1 R2 F(p,np1);1 R2 > c + F(p,np1);1 F(p,np1);1
np 1 p
+ F(p,np1);1
On peut rsumer ce rsultat par la proprit suivante. Proprit 6.3 Dans le MRLSG, le test de Fisher pour tester la signicativit globale des paramtres sexprime de manire quivalente par On dcide que H0 est fausse au niveau si on F(p,np1);1 observe R2 > np1
p
+F(p,np1);1
146
Ce rsultat fournit non seulement une justication supplmentaire du coecient de dtermination, mais il en permet aussi une utilisation un peu plus ne. Jusqu prsent, on se contentait de dire que lorsque R2 tait proche de 0, on estimait que le pouvoir explicatif des variables exognes tait faible, alors que quand R2 est proche de 1, ce pouvoir est lev. Avec la proprit qui lie le coecient R2 au test de Fisher, on est capable de donner une signication plus prcise de R2 F(p,np1);1 , alors est proche de 0 . On peut par exemple dire que si R2 est infrieur np1 non seulement est proche de 0, mais susamment proche pour quon considre que le pouvoir explicatif des variables exogne est nul. R2
p
+F(p,np1);1
6.1.4
Illustration de la proprit dinvariance du test de Fisher
La proprit dinvariance du test de Fisher peut sillustrer en montrant un rsultat intressant concernant ce test. On peut montrer que pour tester R = r avec une matrice R et un vecteur r quelconques, il sut de savoir faire le test dans le cas particulier o R = Iq et r = 0q . Pour obtenir ce rsultat, on fait appel successivement la reparamtrisation prsente la section 5.5.2 et au thorme de Frish-Waugh (voir la section 5.5.1). 6.1.4.1 Invariance par rapport aux reparamtrisations
sec:invar_repar
On va dabord montrer quon peut se restreindre des problmes (6.1) dans lesquels la matrice R a la forme particulire suivante : Iq 0q,p+1q Pour cela, on utilise une reparamtrisation du modle initial qui laisse le problme de test inchang. Considrons le modle de rgression linaire standard gaussien (dnition 6.1) dans lequel on souhaite tester H0 : R = r contre H1 : R = r , o R est une matrice de dimensions (q, p + 1) et r un vecteur de Rq . Dans ce problme de test, on peut considrer que le vecteur des paramtres dintrt est R et quil sagit de savoir si la valeur de ce vecteur est r ou pas. En utilisant la dmarche de la section 5.5.2, peut trouver une transformation qui permet dcrire le modle laide du vecteur R . En eet, on a montr dans cette section quon peut trouver une matrice Q connue de dimensions (p + 1 q, p + 1) telle que la matrice A=
R Q
est inversible. On peut alors crire
X = XA1 A = Z o Z = XA1 et = A . Ces relations entre X et Z , dune part, et entre et , dautre part, sont bijectives (puisque A est inversible). Par consquent, la condition Cp N qui dnit le modle de la dnition 6.1 est quivalente la condition suivante : Cp N . Rp+1 , ]0, +[, t.q. Y N (Z, 2 In )
147
Comme mentionn la section 5.5.2, dnir le modle de cette manire revient changer la base de L(X0 , . . . , Xp ), initialement exprime laide des colonnes de X , en lexprimant laide des colonnes de Z . videmment, les coordonnes de E(Y ) dans la base initiale sont 0 , . . . , p , tandis que dans la base constitue des colonnes de Z , ces coordonnes sont 0 , . . . , p , le lien entre les jeux de coordonnes tant donn par = A . Ce changement de base revient transformer les variables explicatives initiales X0 , X1 , . . . , Xp en nouvelles variables Z0 , Z1 , . . . , Zp au moyen de la relation Z = XA1 . Cette transformation des variables conduit transformer les paramtres : les paramtres apparaissant suite cette transformation sont 0 , . . . , p et sobtiennent partir des paramtres initiaux laide de la relation = A . La transformation des variables et des paramtres tant bijective, le modle initial et le modle transform sont identiques. Cette transformation montre simplement quon peut, sans changer de modle, choisir comme on veut les variables quon souhaite utiliser (X ou bien Z ) et donc la paramtrisation employer ( ou ). Lopration qui permet de passer de la formulation du modle laide de la condition Cp N, o le paramtre est , la formulation Cp N dans laquelle le paramtre est = A sappelle une reparamtrisation. Puisque les deux conditions Cp N et Cp N dnissent le mme modle, on doit pouvoir formuler le problme de test de manire quivalente, quelle que soit la condition retenue pour dnir le modle. Cest en eet le cas puisquen utilisant la forme de la matrice A, on constate que = A =
R Q
R Q
o 1 = R et 2 = Q sont des vecteurs de Rq et Rp+1q respectivement. En particulier on a R = r 1 = r D = r , o D est la matrice dnie par D= Iq 0q,p+1q (6.11)
eq:test_repar
(6.10)
eq:repar_delta
Le problme de tester H0 : R = r contre H1 : R = r est donc quivalent au problme de tester : D = r contre H : D = r . H0 1

contre H dautre part, sont Puisque les problmes de test H0 contre H1 dune part, et H0 1 identiques, une bonne proprit pour le test utilis est quil soit invariant par rapport la reparamtrisation du modle et donc lcriture du problme de test. Autrement dit, quon eectue le test de H0 contre H1 dans le modle dni par Cp N (et donc une paramtrisation en ) ou bien contre H dans le modle dni par C N (paramtrisation en ), il est souhaitable le test de H0 p 1 que dans chacun des cas le test utilis conduise la mme dcision. On va montrer que le test de Fisher de la dnition 6.2 possde cette proprit dinvariance.
Dans le modle initialement formul au moyen de Cp N, on teste H0 contre H1 au moyen du test de Fisher de la dnition 6.2. En particulier la statistique employe F est donn par lexpression (6.3).
: On se place prsent dans le modle reparamtr dni par Cp N , dans lequel on teste H0 : 1 = r au moyen du test de Fisher. On va montrer que la statistique de 1 = r contre H1 Fisher dans ce cas est la mme que celle du modle initial, et que le test de Fisher dans ce modle reparamtr est le mme que dans le modle initial. Considrons donc le modle dni par Cp N . : D = r contre H : D = r et, en utilisant la Dans ce modle, le problme de test se formule H0 1
148
dnition 6.2 et lexpression (6.3), le test de Fisher consiste dcider que H0 est fausse au niveau si on observe F = r ) [ r) (D 2 D (Z Z )1 D ]1 (D > F(q,np1);1 q (6.12)
eq:Fstat_repar
= (Z Z )1 Z Y est lestimateur des moindres carrs du vecteur des paramtres et o 2 est lestimateur de 2 issu de lestimation du modle reparamtr, dni par 2 = 1 Y Z np1
2
En utilisant la relation Z = XA1 on peut crire : = (Z Z )1 Z Y = (A1 X XA1 )1 A1 X Y = A(X X )1 A A1 X Y = A(X X )1 X Y = A Par consquent 2 = 1 Y XA1 A np1
2

1 Y X np1
= 2
(6.13)
eq:sigsec
En utilisant ces expressions ainsi que la relation Z = XA1 , on peut crire la statistique de Fisher F dans le modle reparamtr comme F = r ) [ r) (DA 2 DA(X X )1 A D ]1 (DA q
En notant que par construction DA = R, on obtient F = F . Autrement dit, quon eectue le test de Fisher dans une paramtrisation ou une autre, on obtiendra la mme dcision. Ce test est donc invariant par rapport au choix de la paramtrisation. Ce rsultat montre galement que quitte eectuer une reparamtrisation, on peut toujours se ramener un test de H0 : R = r contre H1 : R = r dans lequel la matrice R a la forme de la matrice donne par le membre de droite de (6.11). 6.1.4.2 Invariance par rapport des translations
En utilisant le rsultat dinvariance par rapport des reparamtrisation, on montre prsent quon peut se limiter des problmes de test de type (6.1) dans lesquels le vecteur r est nul. Puisque le MRLSG peut tre dni indiremment par Cp N ou par Cp N et que le test de Fisher est invariant par rapport la reparamtrisation conduisant Cp N , on choisit cette dernire : D = r contre H : D = r , o D est la caractrisation du modle, dans lequel on teste H0 1 matrice dnie par (6.11). En particulier, dans un tel contexte, la relation entre les variables scrit Y = Z + et la statistique de Fisher est dans ce cas F , donne par (6.12).
149
Considrons v un vecteur quelconque de L(Z0 , Z1 , . . . , Zp ), cest un dire un lment de Rn pouvant scrire v = Zc pour un c dans Rp+1 . Le modle est invariant si on translate le vecteur Y au moyen de v . En eet, la condition Cp N et les rsultats sur les vecteurs alatoires gaussiens (voir la section 9.1.2) impliquent Y + v = Y + Zc N (Z, 2 In ) pour un certain = + c et = Y + v satisfait aussi la condition Cp N . Le un certain 2 . Autrement dit, le vecteur translat Y modle tant invariant par rapport ce type de translation, on peut travailler indiremment avec . Dans le premier cas, le paramtre est tandis que dans le second, le paramtre est Y ou avec Y , avec = + c, et la relation entre les variables dans le second cas est = Z + Y (6.14)
eq:mrlsg_transl
Comme = + c, on a D = r D = r + Dc. Si on choisit de travailler avec la forme et le vecteur de paramtres ), le problme translate du modle (i.e., avec la variable endogne Y de test est H0 : D = r contre H1 : D = r , o r = r + Dc. Cest bien un problme de test de la forme gnrale (6.1) dans un MRLSG, quon peut rsoudre au moyen du test de Fisher. Dans ce contexte, cette statistique est obtenue partir de lexpression gnrale (6.3) : ) 2 D (Z Z )1 D = (D r F q
1
r (D )
(6.15)
eq:Fstat_transl
o les dirents estimateurs sont donns par les formules usuelles = (Z Z )1 Z Y 2 Y Y 2 = np1 est le vecteur des valeurs ajustes dans le modle dni par la relation (6.14), i.e., Y = Z . o Y Puisque ce qui prcde est vrai pour tout vecteur c Rp+1 , on peut choisir ce vecteur de manire 0 : D = 0q contre H 1 : D = 0q . que r = 0q , de manire que le problme de test rsoudre soit H Il faut pour cela choisir c tel que Dc = r , et en utilisant la forme particulire de D , cela revient avoir r (6.16) c= 0p+1q
eq:c_transl
partir de celles de Dans ce cas particulier, on obtient lexpression de la statistique de Fisher F 2 Y . On a et Y = (Z Z )1 Z (Y + Zc) = + c Par consquent, r = D + Dc = D r D = D
puisque c est choisi de sorte que r = 0q et quavec un tel choix on a Dc = r . Par ailleurs, = Z + Zc = Z Y Donc Y Y
2
Zc = Y + Zc Z
= Y Z
150 do on obtient
o 2 est lestimateur sans de 2 obtenu dans le modle dni par Cp N (voir (6.13)). partir de donne par (6.15) peut sexprimer comme : ces lments, la statistique de Fisher F
2 D (Z Z )1 D = (D r ) F q
Y 2 Y = 2 np1
r) (D
dans le modle o on eectue une translation de Y est On constate alors que la statistique F identique la statistique de Fisher F obtenue dans le modle initial (voir lexpression (6.12) pour F ). Autrement dit, quitte eectuer une translation de la variable endogne, on peut toujours se ramener au cas dun problme de test gnral de type (6.1) dans lequel r est le vecteur nul 0q . Pour cela, la translation seectue au moyen du vecteur Zc o c est donn par (6.16). Pour terminer cette section, remarquons qutant donne la forme particulire de c, le vecteur Zc laide duquel on eectue la translation est Z 1 r , o Z 1 est la sous-matrice de Z constitue de ses q premires colonnes : (6.17) Z = Z1 Z2 o Z 1 et Z 2 sont de tailles respectives (n, q ) et (n, p + 1 q ). Comme dans le modle initial la relation entre les variables est Y = Z + , la translation par le vecteur Z 1 r qui laisse le modle invariant peut se voir de la manire suivante : Y = Z + Y = Z 1 1 + Z 2 2 + Y Z 1 r = Z 1 (1 r ) + Z 2 2 + et celui de droite peut scrire sous la forme Dans la dernire galit le membre de gauche est Y Z + o ce qui est bien la relation = + c (voir le partitionnement de donn en (6.10)). En dnissant 1 = 1 r et 2 = 2 , la relation du modle peut scrire = Z 1 1 + Z 2 2 + Y (6.18) Compte tenu de la forme de la matrice D dnissant le problme de test, on voit alors que D = r 1 = r 1 = 0q D = 0q .
sec:invar_proj
eq:partZ
1 r
eq:mrlsg_transl
6.1.4.3
Transformation par projection
On va nalement montrer que nimporte quel problme de test de type (6.1) peut se ramener un problme dans lequel la matrice R est Iq et r = 0q . Le problme rsoudre est toujours celui de tester H0 : R = r contre H1 : R = r dans le modle dni par la condition Cp N. Les sections prcdentes montrent quon peut, de manire quivalente, choisir de se placer dans le modle translat dni par la condition Cp N suivante : N (Z, 2 In ) Y
151
0 : D = 0q contre H 1 : D = 0q . On rappelle que la relation entre le et tester dans ce modle H modle et le problme de test initiaux, dune part, et le modle et le problme de test dans lesquels on se place, dautre part, est donne par Z = XA1 , =

dont lexpression est donne par (6.15) et Le test seectue au moyen de la statistique de Fisher F qui dans le contexte tudie est gale 1 2 D (Z Z )1 D F = q o 2 =
2 Z Y np 1 , 1 1
= A,
= Y Z 1r Y
et
D=
Iq 0q,p+1q
(6.19)
eq:Fstat_transl
1 = D est lestimateur des moindres carrs de 1 , form en slectionnant et o = (Z Z )1 Z Y . les q premires lignes de et exognes Dans le modle dni par Cp N, notons que la relation entre les variables endogne Y Z scrit comme en (6.18) et qutant donne la forme de la matrice D qui dnit le problme de test, ce dernier ne porte que sur un sous-vecteur 1 de . En examinant la forme de la statistique 1 et , on constate quelle dpend des donnes travers de Fisher F 2 . Lide consiste alors se demander si en appliquant le test de Fisher partir dun modle transform dans lequel lestimation 1 et de 1 et 2 concide avec 2 , la dcision obtenue reste la mme. On a vu dans la section 5.5.1.2 quen projetant une partie des variables sur un espace gnr par les autres, on obtenait un modle dans lequel lapplication de la mthode des moindres carrs permettait dobtenir les mmes estimateurs des paramtres attachs aux variables projetes et le mme estimateur de 2 que dans le modle initial. Cest le rsultat tabli par le thorme de FrishWaugh (thorme 5.4) et interprt dans la remarque 5.18. En utilisant les rsultats de la section 5.5.1.2, on va transformer le modle initial dni par Cp N de manire ne conserver que la partie 1 du vecteur des paramtres concerne par les hypothses du problme de test. Soit L2 le sev de Rn engendr par les p + 1 q colonnes de la matrice Z 2 et PL2 la matrice de projection orthogonale sur L2 . On procde alors comme dans la section 5.5.1.2 et on crit partir de la relation (6.18) : = (In PL )Z 1 1 + (In PL )Z 2 2 + (In PL ) (In PL2 )Y 2 2 2 = (In PL2 )Z 1 1 + (In PL2 ) , o la deuxime galit utilise le point 2 de la proprit 9.22. En dnissant Y = (In PL2 )Y 1 1 Z = (In PL2 )Z , = (In PL2 ) et = , la relation (6.18) du modle implique que : Y = Z + (6.20)
eq:mrlsg_proj
Comme le suggre la remarque 5.18, on peut considrer que cette nouvelle relation permet de dnir un modle de rgression linaire dans lequel la variable endogne est Y et les variables exognes sont les colonnes de Z . Ce modle nest pas un modle de rgression linaire standard puisque chacun des termes derreurs (qui sont ici les coordonnes du vecteur = (In PL2 )) sont
152
des combinaisons linaires des termes derreur 1 , . . . , n du modle initial. Ces nouveaux termes derreur sont donc corrls entre eux et la matrice des variances-covariances du vecteur nest pas diagonale. Autrement dit, le modle obtenu partir de la relation (6.20) ne satisfait pas la condition Cp 3. 1 = et 2 = 2 o et 2 sont les estimateurs Cependant, le thorme 5.4 tablit que obtenus en appliquant les moindres carrs la relation (6.20), et donc dnis par
= (Z Z )1 Z Y 1 2 2 = np+1
(6.21)
eq:sig_star
avec = Y Z . Autrement dit, bien que le modle dni partir de la relation (6.20) ne soit pas un MRLS, il permet dobtenir partir des moindres carrs les mmes estimateurs de 1 et de 2 que le modle initial dni par la condition Cp N. Par ailleurs, comme Y est un vecteur alatoire gaussien, ce modle est gaussien. Puisque son vecteur de paramtres concide avec celui sur lequel porte le problme de test et que ces paramtres peuvent sestimer par moindres carrs, on peut tenter dappliquer dans le contexte de ce modle le test de Fisher pour tester lhypothse : = 0 contre H : = 0 . Puisque = 1 , ce problme de test est quivalent au problme de H0 q q 1 1 dpart H0 : = 0q contre H1 : 1 = 0q .
: = 0 contre H : = 0 laide test de Fisher dans le modle dni par Si on veut tester H0 q q 1 : G = g (6.20), on formule les hypothses tester sous la forme gnrale de la section 6.1.1 : H0 : G = g o videmment G = I et g = 0 et daprs (6.3), la statistique de Fisher pour ce et H1 q q problme de test est 2 G(Z Z )1 G ]1 (G g) (G g) [ q 2 1 1 [ (Z Z ) ] = q 2 1 1 (Z Z )1 ]1 [ = q
F =
o la deuxime expression utilise les formes particulires de G et g, et la troisime les rsultats 2 = 1 et = 2 obtenus prcdemment. que
(Z Z )1 = D (Z Z )1 D
Grce des rsultats sur linversion de matrices par blocs (voir ci-dessous), on peut montrer (6.22)
eq:blocinv
Avec cette galit, la statistique de Fisher scrit F = 1 1 [ 2 D (Z Z )1 D ]1 q
, o F est la statistique de Fisher (donne par (6.19)) pour tester On constate donc que F = F H0 contre H1 . Autrement dit, le test de Fisher eectu dans le contexte du modle dni par la relation (6.20) est identique au test de Fisher eectu dans le modle initial.
153
On termine cette section en montrant comment on obtient lgalit (6.22). Pour cela, on commence par utiliser le partitionnement de Z donn par (6.17), pour crire

Z1 Z2
Z Z =
Z1 Z2
Z1 Z1 Z2 Z1
Z1 Z2 Z2 Z2
La matrice (Z Z )1 est partionne en blocs de mmes tailles que Z Z et on peut lcrire
(Z Z )1 =
z 11 z 12 z 21 z 22
partir de ces partitionnements de Z Z et de (Z Z )1 , on peut montrer que 4 (Z Z )(Z Z )1 = Ip+1 = z 11 = Z 1 Z 1 Z 1 Z 2 (Z 2 Z 2 )1 Z 2 Z 1 On constate alors que le membre de droite scrit Z 1 (In Z 2 (Z 2 Z 2 )1 Z 2 )Z 1

= Z 1 (In PL2 )Z 1
= (Z Z )1
par dnition de Z et par idemptotence et symtrie de In PL2 . On peut donc crire : (Z Z )1 =
Z )1 z 12 (Z
z 21
z 22
On vrie alors partir de cette galit que si D est la matrice dnie par (6.11), on a
D (Z Z )1 D = (Z Z )1
6.1.4.4
Utilisation combine des proprits de la statistique de Fisher et illustration numrique
Les proprits dinvariance du test de Fisher dmontres dans les sections prcdentes permettent, travers des tapes de transformation dun modle initial, dcrire le problme de test : = 0 de dpart H0 : R = r contre H1 : R = r sous la forme dun problme plus simple H0 q contre H1 : = 0q , o est le vecteur des paramtres dun modle de rgression. Ces tapes sont rsumes ci-dessous :
4. Pour cela, rcrit lgalit (Z Z )(Z Z )1 = Ip+1 en exprimant le produit dans son membre de gauche laide des blocs de (Z Z ) et de (Z Z )1 donns ci-dessus. On rsout alors lgalit en identiant les blocs de ce produit avec les blocs correspondant de la matrice Ip+1 .
154 Modle initial : Modle Y = X + N (0, 2 In )
CHAPITRE 6. TESTS ET RGIONS DE CONFIANCE Problme de test H0 : R = r, H1 : R = r
Reparamtrisation :
on dnit Z = XA1 et = A avec A = Modle Y = Z + = Z 1 1 + Z 2 2 + N (0, 2 In )
R Q
tape 1 :
Problme de test : D = r, H : D = r H0 1 o D = Iq 0q,p+1q
Translation :
= Y Z 1r On translate Y par le vecteur Z 1 r pour former Y Modle = Z 1 (1 r ) + Z 2 2 + Y = Z 1 1 + Z 2 2 + N (0, 2 In ) Problme de test 0 : D = 0q , H 1 : D = 0q H
tape 2 :
Projection :
On utilise les restes de la projection orthogonale des variables sur L2 : et Z = (I PL )Z 1 Y = (I PL2 )Y 2
Pour appliquer les proprits du test de Fisher ainsi rsumes, supposons quon dispose dun programme informatique qui on fournit en entre les observations des variables ainsi que la matrice R et le vecteur r , et qui en retour ache la valeur de la statistique F pour tester, partir des observations fournies, H0 contre H1 , o les hypothses sont dnies par R et r (voir (6.1)). Plus prcisment, on dispose dans un langage informatique dune fonction appele FISHER qui agit de la manire suivante : (Y , X, R, r ) F o comme dhabitude, Y est le vecteur des observations de la variable endogne et X la matrice des observations des variables exognes, et F est la statistique de Fisher dnie par (6.3). La fonction FISHER doit notamment calculer lestimation des moindres carrs (X X )1 X Y du paramtre de la relation entre les variables endogne et exognes, ainsi que lestimation de la variance de 1 2 . Notons que pour cette dernire, la fonction la variable endogne n(1 p+1) Y X (X X ) X Y FISHER doit aussi extraire les dimensions n et (p +1) de la matrice X . Finalement, an de dterminer le dnominateur de la statistique F dans son expression (6.3), cette fonction doit aussi extraire la dimension q du vecteur r . Dans le modle initial, les donnes sont dans Y et X , et la matrice R et le vecteur r dnissent le problme de test. La valeur de F est donc retourne par FISHER(Y , X, R, r ).
FISHER
155
Pour obtenir la statistique de Fisher dans le modle reparamtr de ltape 1, on transforme les variables exognes au moyen de la matrice A pour former la matrice Z des observations des variables exognes transformes au moyen de la relation Z = XA1 , la matrice A tant construite comme dans la section 5.5.2. Autrement dit, il faut trouver Q tel que A=
R Q
est inversible. Une manire de former une telle matrice Q consiste choisir ses lignes comme des vecteurs dune base du noyau de R. En tant que vecteurs dune base, ces lignes de Q seront linairement indpendantes. En tant que vecteurs appartenant au noyau de R, ces lignes seront orthogonales celles de R. Par consquent, la famille des vecteurs lignes de R et de Q est libre. Donc la matrice A forme en empilant les lignes de R et de Q est inversible. Dans le modle reparamtr, le problme de test est dni par la matrice D et le vecteur r . Par consquent, la valeur de la statistique de Fisher F sera retourne par FISHER(Y , XA1 , D, r ) Si on souhaite eectuer le test dans le modle de ltape 2, il faut translater le vecteur Y au moyen du vecteur Z 1 r , o Z 1 est la sous-matrice de Z , constitue de ses q premires colonnes. = Y XA1 D r . Par ailleurs, dans ce modle Notons que Z 1 = ZD = XA1 D . Donc Y translat, le problme de test est dni par la matrice D et le vecteur 0q . Donc la valeur de la sera retourne par FISHER(Y XA1 D r, XA1 , D, 0q ). statistique de Fisher F Finalement, dans ltape 3, il faut utiliser la dirence entre les observations de chaque variable et leurs projections orthogonales sur lespace engendr par les colonnes de Z 2 . Ces colonnes sont les p + 1 q colonnes de Z = XA1 , quil faut donc extraire pour former ML2 = In Z 2 (Z 2 Z 2 )1 Z 2 puis former les nouvelles observations des variables endogne translate et exognes. On aura donc = M2 (Y XA1 D r ) Y = ML2 Y et Z = ML2 Z 1 = M2 XA1 D
Dans ce modle projet, le problme de test est dni par le matrice Iq et le vecteur 0q et il faudrait donc calculer la statistique de Fisher F en appelant FISHER(M2 (Y XA1 D r ), M2 XA1 D , Iq , 0q ) Cependant, comme on la not ci-dessus, la fonction FISHER calcule lestimation de la variance de la variable endogne en utilisant les dimensions (nombre de lignes, nombre de colonnes) de la matrice contenant les observations des variables exognes au moyen de la formule carr de la norme du vecteur des rsidus nombre de lignes nombre de colonnes
Dans le modle projet, cette matrice est celle qui est fournie en deuxime argument de la fonction FISHER. Elle est donc gale Z = M2 XA1 D et ses dimensions sont (n, q ). Par consquent, la fonction FISHER estimera la variance de la variable endogne en divisant la somme des carrs des rsidus par n q . Or comme le montre lestimateur de cette variance (6.21), le dnominateur doit tre n p 1. Par consquent, si on veut calculer dans ce contexte la statistique de Fisher F au p 1 moyen de la fonction FISHER, il faut appliquer le facteur correctif n nq : F = np+1 FISHER(M2 (Y XA1 D r ), M2 XA1 D , Iq , 0q ) nq
156
6.1.5
Autres expressions de la statistique de Fisher et interprtations du test
Dans la section 5.5.2, on a montr comment obtenir un estimateur de lorsquon imposait les contraintes qui dnissent H0 dans le problme de test initial dni par (6.1). Il est donc naturel de chercher utiliser ce type destimation pour construire un test de H0 contre H1 . On va voir quune dmarche de ce genre permet daboutir au test de Fisher sous une forme alternative, et den obtenir une autre interprtation. 6.1.5.1 Expression fonde sur la distance entre les estimateurs contraint et non contraint
Dans la section 5.5.2 on a montr comment obtenir un estimateur de lorsque ce vecteur de paramtres tait contraint par lgalit R = r . Une manire de construire un test de H0 contre H1 consiste examiner si lestimation obtenue en imposant cette contrainte dire beaucoup de celle o devrait aucune contrainte nest impose. Si la contrainte est vraie, alors lestimateur non contraint satisfaire approximativement cette contrainte (i.e., R devrait tre proche de r ). Par consquent, puisque de son ct lestimateur contraint satisfait galement la contrainte (par construction), et on devrait dans ce cas noter peu de dirence entre lestimation non contrainte donne par lestimation contrainte donne par . Autrement dit, si la contrainte est satisfaite (i.e., si H0 est vraie), limposer ou ne pas limposer lors de lestimation de ne devrait pas changer grand chose lestimation obtenue. Un critre pour dcider si H0 est vraie (la contrainte R = r est satisfaite) ou pas peut donc : compte-tenu de ce qui vient dtre not, observer tre construit partir de la dirence trop importante est peu vraisemblable si H0 est vraie, et donc en pareil cas une dirence on rejettera H0 et on dcidera H1 . et , on peut utiliser nimporte quelle mesure Formellement, pour mesurer la dirence entre de distance entre ces deux vecteurs. 5 Le principe du test consiste donc rejeter H0 si la distance entre ces vecteurs dpasse un certain seuil. On rappelle la relation (5.41) qui tablit le lien entre lestimateur contraint de et lestima: teur non contraint (X X )1 R R(X X )1 R = On en dduit facilement que ) (X X )( ) = (R r ) R(X X )1 R ( On constate alors que la statistique F donne par (6.3) scrit ) (X X )( ) 1 F = ( q 2 (6.24)
eq:Fstat_cnc
r) (R
1
(6.23)
eq:rel_est
r) (R
est une possibilit, mais ce nest pas la seule. On peut vrier que pour 5. La norme de la dirence toute matrice M de rang (p + 1), la fonction qui associe 2 vecteurs u1 et u2 le nombre M (u1 u2 ) est galement une distance : cette fonction est non-ngative, nulle si et seulement si u1 = u2 , elle est symtrique et vrie lingalit triangulaire.
157
Cette expression de la statistique du test de Fisher permet donc de lui associer linterprtation ) 2 avec donne au dbut de cette section. En eet, on voit que la statistique scrit F = M ( M = 1 q X , et apparat donc comme une mesure de la distance entre et . Le test de Fisher, qui conduit au rejet de H0 si on observe que F dpasse un certain quantile, correspond bien la forme recherche ici : on dcide de rejeter H0 si la distance entre les estimations contrainte et non contrainte dpasse un certain seuil. 6.1.5.2 Expression fonde sur la distance entre les valeurs ajustes issues de lestimation contrainte et de lestimation non-contrainte
Notons que la statistique F exprim sous la forme (6.24) est proportionnelle ) (X X )( ) = X X (

2
(6.25)
eq:dist_va
et X . Le premier de ces vecteurs est qui est (le carr de) la distance entre les vecteurs X videmment le vecteur des valeurs ajustes issues de lestimation non contrainte de . Puisque est lestimateur de lorsque la contrainte est impose, on peut considrer le second vecteur X comme lestimation de X lorsquon suppose que la contrainte est vraie. Le vecteur X peut donc sinterprter comme le vecteur des valeurs ajustes issues de lestimation contrainte. Avec cette interprtation, on peut voir le test de Fisher comme bas sur un principe de comparaison entre les valeurs ajustes obtenues avec et sans la contrainte. Si la contrainte est vraie, cest dire si satisfait lgalit R = r , alors le fait de ne pas imposer cette contrainte, naturellement satisfaite, lors de lestimation, ou bien limposer explicitement ne devrait pas avoir beaucoup dimpact sur lestimation obtenue. Autrement dit, si la contrainte est vraie, on peut sattendre ce que les valeurs ajustes contraintes et non contraintes soient proches lune de lautre. Sur un tel principe, et X , puis on devrait donc mesurer la distance entre les deux vecteurs de valeurs ajustes X dcider que H1 est vraie ds que cette distance est trop importante. Avec lgalit (6.25), on voit partir de lexpression de F donne par (6.24) quon a F = 1 X X q 2
2
et donc que F est dautant plus grande que la distance entre les valeurs ajustes est importante. Le principe qui vient dtre avanc doit alors conduire dcider H1 si la valeur observe de F est trop grande, ce qui est exactement ce quoi conduit le test de Fisher. 6.1.5.3 Expression fonde sur la distance entre les rsidus des estimation contrainte et non contrainte
et Au lieu, comme on vient de le faire, de raisonner sur les vecteurs des valeurs ajustes X X , on peut raisonner sur les vecteurs de rsidus de lestimation contrainte et non contrainte. . Le raisonnement est Ces vecteurs sont respectivement = Y X et videmment = Y X exactement le mme que dans le paragraphe prcdent : si la contrainte R = r est vraie, alors imposer explicitement la contrainte ou ne pas limposer ne doit pas beaucoup modier lestimation obtenue. Dans un tel cas, les vecteurs des rsidus obtenus dans chacun des deux cas doivent tre
158
proche lun de lautre. Si on observe que cela se produit, alors on dcide que la contrainte nest pas vraie et on dcide H1 . Le test sera donc fond sur la distance entre et , quon peut mesurer par 2 . Pour montrer que le test F est bas sur ce principe, notons que daprs (6.23) et la dnition de , on a + X (X X )1 R R(X X )1 R = Y X = + X (X X )1 R R(X X )1 R
1 1 1
r) (R
r) (R
(6.26)
eq:rel_rescnc
Donc = X (X X )1 R R(X X )1 R
2
r ) et (R
1
r ) R(X X )1 R = (R
= ( ) ( )
1 1
R(X X )1 X X (X X )1 R R(X X )1 R r) (R
r ) R(X X )1 R = (R
r) (R
On voit alors daprs (6.24) que F scrit F = 1 q 2

2
F est donc dautant plus grande que la distance entre les vecteurs de rsidus est importante. Le test de Fisher peut donc bien sinterprter comme tant bas sur le principe dcrit ci-dessus. On peut noter ici que comme X = 0p+1 (voir la remarque 5.14 et proprit juste aprs), on = . Par consquent dduit de (6.26) que
2
= ( ) ( ) = + 2 = =
1 np 1
Par ailleurs, par dnition on a 2 =
2 . On peut donc crire

2
F = 6.1.5.4
n p 1 2 2 q
Expression fonde sur la longueur du vecteur des multiplicateurs de Lagrange de lestimation contrainte
Pour donner une dernire interprtation du test de Fisher, on utilise toujours le principe que lorsque H0 est vraie, i.e., la contrainte R = r est satisfaite, alors limposition explicite de cette contrainte dans lestimation de ne devrait pas avoir beaucoup dimpact, relativement lestimation non contrainte. Daprs la section 5.5.2, limpact, ou le poids , de la contrainte dans lestimation contrainte peut se mesurer au moyen de , le vecteur des multiplicateurs de Lagrange 1 , . . . , q associs aux q contraintes exprimes par lgalit R = r . Si H0 est vraie, alors la contrainte ne devrait pas impacter lestimation et les multiplicateurs devraient tre proches de 0, ou encore, le vecteur devrait tre proche de 0q , le vecteur nul de Rq . On note que pour toute matrice M de dimensions (q, q ) inversible, = 0q si et seulement si M = 0q . Par consquent, dire que est proche de 0q revient dire que le vecteur M est
6.2. RGIONS DE CONFIANCE POUR
159
proche de 0. Cette proximit peut se mesurer au moyen de M 2 . Comme R(X X )1 R est une matrice symtrique et dnie positive (puisque R est suppos de rang q et X de rang p + 1), on peut toujours trouver une matrice M telle que M M = 1 R(X X )1 R 4q 2
Avec une telle matrice, en utilisant lexpression (5.40) obtenue pour , on constate que M
2
= M M 4 r ) R(X X )1 R = (R 4q 2 =F
R(X X )1 R R(X X )1 R
r) (R
Ceci tablit que la statistique de Fisher est une mesure de la distance entre le vecteur et 0q : F est dautant plus grande que cette distance est grande. Par consquent, le test de Fisher peut eectivement sinterprter comme bas sur un principe qui consiste dcider que H0 est fausse si on constate que le poids des contraintes dans lestimation contrainte est trop important.
sec:mrls-rc
6.2
Rgions de conance pour
On aborde prsent la question de la construction de rgions de conance pour le vecteur des paramtres . Le problme et la dmarches sont exposs dans un cadre gnral la section 10.3.3. Ici, le contexte est le mme que pour celui des tests dhypothses : on se place dans le cadre du modle de rgression linaire standard gaussien. Lintroduction de lhypothse de normalit pour la loi du vecteur Y (ou du vecteur des termes derreur) est un moyen qui permet de rpondre ncessit dvaluer la probabilit que la rgion recherche contienne la vraie valeur du vecteur des paramtres . Dans un tel contexte, on commence par chercher une rgion Cn de Rp+1 , construite partir des observations des variables du modle, et telle que pour un ]0, 1[ x P ( Cn ) 1 , Rp+1 (6.27)
eq:rc_beta
o la notation P indique que la probabilit est calcule pour une valeur donne du vecteur de paramtres . En eet, Cn tant une fonction de Y , la probabilit de lvnement Cn sobtient partir de la loi de Y . La condition Cp N montre explicitement que cette loi dpend de . Par consquent la probabilit de lvnement Cn dpendra de la valeur de utilise pour former la loi de Y . La rgion Cn est appele rgion de conance de niveau 1 pour .
Comme mentionn la section 10.3.3, une condition telle que (6.27) ne permet pas de dterminer une unique rgion Cn . Deux rgions satisfaisant cette condition sont compares au moyen dun critre de prcision, introduit par la dnition 10.2. La prcision dune rgion de conance est semblable au risque de type 2 dun test. En eet, une rgion est dautant plus prcise que la probabilit quelle contienne une mauvaise valeur du paramtre est faible. Par comparaison, le risque de type 2 est une probabilit de choisir la mauvaise hypothse. Grce la dualit existant entre tests et rgions de conance tablie par le thorme 10.2, cette analogie entre prcision dune rgion de conance et risque de type 2 dun test est formalise par le corollaire 10.1. Ce rsultat
160
tablit que rechercher la rgion de conance de niveau 1 pour la plus prcise revient rechercher le test de niveau le plus puissant pour tester lhypothse = b contre lhypothse = b, o b est un vecteur quelconque de Rp+1 . Lgalit = b scrit R = r avec R = Ip+1 et r = b. Daprs les rsultats de la section 6.1 le test de niveau le plus puissant est le test de Fisher. 6 Par consquent, la rgion de conance Cn associe ce test est la rgion de conance de niveau 1 pour la plus prcise. Pour expliciter Cn , on utilise le thorme 10.2, qui permet de construire une rgion de conance partir dune famille de tests. Ici pour expliciter la famille de tests, on commence par construire une famille de problmes de tests, chacun tant dni par un couple dhypothses portant sur le vecteurs des paramtres . Ces problmes seront indexs par b Rp+1 : pour chaque b, on dnit les hypothses H0 (b) : = b et H1 (b) : = b qui dnissent un problme de test. En utilisant les rsultats de la section 6.1, le test de Fisher pour tester H0 (b) contre H1 (b) au niveau seectue en utilisant la statistique de Fisher quon notera ici F (b). En utilisant (6.3) avec R = Ip+1 et r = b, on obtient 1 1 F (b) = ( b) 2 (X X )1 ( b) q 1 b) b) (X X )( = 2 ( q On dcide donc que H0 (b) est vraie au niveau si lvnement F (b) F(q,np1);1 se ralise.
En utilisant le thorme 10.2, on peut alors associer une rgion de conance de niveau 1 cette famille de tests. Cette rgion est Cn = {b Rp+1 | b = 0}. Puisque b = 0 F (b) F(q,np1);1 on a Cn = {b Rp+1 | F (b) F(q,np1);1 } Si on utilise lexpression de F (b), on peut aussi crire Cn = {b Rp+1 | 1 b) F(q,np1);1 } ( b) (X X )( q 2
En faisant ceci pour chaque b Rp+1 , donc pour chaque problme de test de la famille considre, on peut construire la famille de tests de Fisher de niveau , indexe par b et note {b | b Rp+1 }, o b = 0 si F (b) F(q,np1);1 et b = 1 sinon.
Grce aux rsultats de la section 6.1 et au thorme 10.2, la mme dmarche peut tre suivie pour obtenir une rgion de conance pour nimporte quel ensemble de q combinaisons linaires des paramtres 0 , . . . , p . Plus prcisment, au lieu de sintresser aux coordonnes de , on sintresse q paramtres 1 , . . . , q , chacun tant dni comme une combinaison linaire donne de 0 , . . . , p .
6. Cest le test le plus puissant parmi ceux qui restent invariants par rapport certaines transformations des variables.
6.2. RGIONS DE CONFIANCE POUR Autrement dit les paramtres dintrt sont dnis par 1 = R10 0 + + R1p p
161
2 = R20 0 + + R2p p . . . q = Rq0 0 + + Rqp p
o les Rkl sont des nombres connus. On souhaite prsent construire une rgion de conance au niveau 1 pour le vecteur de paramtres , o
2 = . . .
162
Chapitre 7
chap:asy
Proprits asymptotiques des moindres carrs

sec:asy_intro
7.1
Introduction
sous les seules conditions Cp 1 Dans les chapitres prcdents, on a obtenu les proprits de est lestimateur linaire sans biais le plus Cp 3. Notamment, ces conditions susent montrer que prcis. En ce qui concerne les tests, on a eu besoin de rajouter la condition de normalit du vecteur Y an de pouvoir valuer les risques lis aux tests, et choisir des tests optimaux. Dans ce cas, il faut noter que les risques des tests sont connus de manire exacte. De mme, lors de la construction de rgion de conance, la probabilit pour que la rgion obtenue contienne la valeur (inconnue) de est parfaitement connue (gale au niveau de conance voulu). La condition de normalit de Y nest pas toujours raliste. Dans de telles situations, on peut ventuellement spcier une autre loi pour Y et essayer dobtenir des tests optimaux pour les problmes de test considrs. Une autre manire de procder trs utilise consiste ne pas spcier de loi particulire pour Y , mais imposer des conditions sur cette loi, ainsi que sur le comportement des variables exognes, telles quil soit possible, lorsque la taille de lchantillon tend vers linni, dtablir les lois limite de certaines statistiques. Ces lois limite sont appeles lois asymptotiques et lapproche reposant sur lutilisation de ces loi est dite asymptotique. Ainsi, si aucun type particulier de loi pour Y (par exemple une loi normale) nest spci lavance, les lois des statistiques servant la construction de tests et rgions de conance sont en gnral inconnues. Par consquent, il est en gnral impossible de calculer les probabilits intervenant dans la construction dun test (probabilit derreur de type 1) ou dune rgion de conance (probabilit que la rgion contienne la valeur du paramtre). Autrement dit, il est dans ce cas impossible de construire un test ou une rgion de conance ayant le niveau (de risque de type 1 ou de conance) voulu. Cependant, lorsque la taille de lchantillon disponible est susamment grande et que le modle satisfait certaines conditions, on peut montrer que des statistiques permettant la construction de tests et de rgions de conance ont des lois asymptotiques connues. Dans ce cas, on peut 163
164
CHAPITRE 7. PROPRITS ASYMPTOTIQUES DES MOINDRES CARRS
considrer que les probabilits calcules partir de ces lois limite sont de bonnes approximations des probabilits quon pourrait calculer si on connaissait la vritable loi des statistiques utilises. Ds lors, les contraintes de niveau imposes lors de la construction dun test ou dune rgion de conance sont introduites sur les lois asymptotiques. Par exemple, si on souhaite tester lhypothse H0 : R = r au niveau en utilisant lapproche dcrite la section 6.1, la contrainte de niveau impose quon doit avoir PH0 (F > s) , et le choix dun test de plus forte puissance conduit choisir s = Fq,np1;1 lorsquon suppose que Y est un vecteur gaussien. Si on lve cette supposition, la probabilit PH0 (F > s) est en gnral inconnue, mais sous des conditions adquates, on peut montrer que la statistique F possde une loi limite lorsque H0 est vraie : la probabilit PH0 (F > s) converge vers 1 G (s) lorsque H0 est suppose vraie, o G dsigne la fonction de rpartition de la loi asymptotique de F . Dans ce cas, lapproche asymptotique du test consiste crire la contrainte de niveau en utilisant non pas la loi inconnue de F , mais sa loi asymptotique. Ainsi, au lieu de chercher s en imposant PH0 (F > s) , on imposera 1 G (s) . Lide est videmment que, pourvu que n soit grand, PH0 (F > s) et 1 G (s) sont proches lun de lautre, et que par consquent on peut penser quen imposant 1 G (s) on aura aussi PH0 (F > s) . Cette dernire ingalit est videmment celle quon souhaite avoir pour que le test soit de niveau . Dans les sections suivantes, on commence par obtenir des distributions asymptotiques permet et de tant dapproximer celles de . On explicite ensuite la manire dutiliser ces approximations an de construire des tests et des rgions de conance pour . Les rsultats de convergence prsents ci-dessous sobtiennent lorsque n . On tudie alors le comportement limite de suites indexes par la taille de lchantillon et on devrait faire apparatre n = (X Xn )1 Xn Yn , etc, les cette indexation dans la notation. Ainsi on devrait noter Yn , Xn ,
n
vecteurs et matrices forms lorsque la taille de lchantillon est n. Cependant, an dallger la notation, on sabstient dexpliciter cette indexation ; il faudra cependant la garder lesprit pour bien interprter les rsultats et les conditions sous lesquelles on les obtient.
7.2
7.2.1
Proprits asymptotiques de
Convergence de
Dans cette section, on tudie les conditions sous lesquelles la suite des estimateurs de obtenus pour des tailles dchantillon de plus en plus grandes converge vers la valeur du paramtre. k est k . De manire Intuitivement, on peut faire le raisonnement suivant. Lesprance de gnrale, la variance mesure la variabilit dune v.a. autour de son esprance. Donc si on arrive k converge vers 0 lorsque n , alors on sera amen dire que tablir que la variance de k ne varie presque pas autour de k . Et la limite lorsque la taille de lchantillon est trs grande, k ne varie plus du tout autour de k , i.e. k = k . (n = ), k ) = E(( k En formalisant un peu ce raisonnement, on voudrait montrer que la limite de V( 2 puisque k k = a ( ) o ak k ) ) est 0. On peut exprimer cette variance laide de
k
est le vecteur de Rp+1 dont la (k + 1)e coordonne est 1 est les p autres sont 0. On a alors k k )2 ) = E(a ( ) ( )ak ) = a E( 2 )ak E(( k k
7.2. PROPRITS ASYMPTOTIQUES DE
165
k ) 0 lorsque n , est que E( Donc une condition susante pour que k = 0 . . . , p, V( 2 ) 0, n . Cest une condition galement susante pour que V(a ) converge vers 0 pour 2 ) 0, alors la variance de tout vecteur a de Rp+1 . Autrement dit lorsque n , si E( 0 , . . . , p converge vers 0. toute combinaison linaire de Le mode de convergence utilis ici est la convergence en moyenne quadratique. On rappelle quune suite {Zn } de variables alatoires converge en moyenne quadratique vers z R lorsque 2 ) 0, alors E((Zn z )2 ) converge vers 0. La discussion ci-dessus montre donc que si E( converge en moyenne quadratique vers a , pour tout a Rp+1 ; en particulier lestimateur a k de chaque paramtre k converge vers k en moyenne quadratique. Dans un tel cas, on dit que lui-mme converge en moyenne quadratique vers . le vecteur 2 ) 0. Le rsultat ci-dessous donne une condition susante pour que E(
pro:betaconsist
2 ) 0 et donc converge en Proprit 7.1 Si lorsque n , (X X )1 0 alors E( moyenne quadratique vers . Preuve : Notons que Donc
2
) ( ) = trace ( ) ( ) = trace ( )( ) . = ( E
2
) = trace V(
p
)( ) = E trace ( )( ) = trace E (
= 2 trace (X X )1 =
2 k =0
o 0 , . . . , p sont les p + 1 valeurs propres de (X X )1 . Comme cette matrice est dnie positive, ses valeurs propres sont toutes strictement positives. Remarquons alors que la condition (X X )1 0 quivaut (X X )1 = max{0 , . . . , p } 0 ou encore k 0, k = 0, . . . , p. On a alors lorsque n
p
k =0
i 0 (X X )1 0 (X X )1 0
Remarque 7.1 1. La convergence en moyenne quadratique implique la convergence en probabilit. Donc la converge en probabilit vers . condition (X X )1 0 implique aussi que
2. Dans de nombreux ouvrages dconomtrie, on tablit cette convergence sous la condition 1 X X Q o Q est une matrice dnie positive. Cette condition est plus forte que la que n condition (X X )1 0 de la proprit 7.1 et nest utilise que pour obtenir une convergence en probabilit, plus faible que celle de la proprit 7.1 (qui tablit une convergence en moyenne quadratique).
166

1 X X Q avec Q dnie positive implique (X X )1 Montrons dabord que la condition n 1 0. Pour cela, on note que pour n susamment grand, n X X doit tre inversible puisquelle converge vers une matrice inversible. Par ailleurs, daprs le thorme 9.1, on doit avoir
1 On voit ensuite que la condition usuelle n X X Q peut tre trop forte puisquil sut 1 davoir n X X Q pour un > 0. En eet, le mme raisonnement quau-dessus montre 1 (X X )1 Q1 , ce qui implique (X X )1 0. R que si n X X Q, alors n
Q1 , et donc n (X X )1 Q1 . Pour que cette convergence ait lieu, il est ncessaire que (X X )1 0.
1 nX X
7.2.2
Normalit asymtptotique de
On sintresse prsent des conditions qui tablissent une loi limite pour une certaine fonction de . On rappelle le rsultat classique en probabilit/statistique appel thorme central limit . Dans sa version la plus simple, ce thorme tablit que la moyenne arithmtique de n variables alatoires indpendantes, identiquement distribues, dont la variance (commune) existe, converge en loi aprs centrage et rduction vers une variable alatoire normale centre rduite, lorsque n . Plus formellement lorsque n , V(X )1/2 [X E(X )] Z en loi, o Z N (0, 1) et X = n i=1 Xi /n. En notant lesprance commune des variables alatoires X1 , X2 , . . . , on peut aussi crire V(X )1/2 (X ) Z . On souhaite ici tablir un rsultat semblable pour la suite des estimateurs des moindres carrs. Pour cela, il faut noter plusieurs caractristiques du contexte dans lequel on se place, qui nous conduiront choisir une version adquate du thrme central limit , dont la version la plus simple voque ci-dessus nest pas adapte lobjectif vis.
Premirement, puisquon sintresse une suite de vecteurs alatoires, il faut une dnition de la convergence en loi pour de telles suites. On ne donne pas une telle dnition, mais on utilise un rsultat qui caractrise cette convergence. apparat comme une somme (et donc comme une moyenne) de Deuximement, on verra que vecteurs alatoires qui ne sont pas identiquement distribus. Notamment leurs variances ne sont pas gales. Il faut donc un thorme central limit qui permet cette htrognit. On prsente dans la section suivante les rsultats de base sur lesquels on sappuiera pour obtenir . une convergence en loi de 7.2.2.1 Convergence en loi de suites alatoires : rsultats de base
sec:clt
Le premier rsultat permet de caractriser la convergence en loi pour des suites de vecteurs alatoires.
th:cw
Thorme 7.1 (Cramr-Wold) Soit {Zn : n 1} une suite de vecteurs alatoires de Rq . Cette suite converge en loi vers le vecteur alatoire Z de Rq si et seulement si pour tout c Rq , la suite de variables alatoires {c Zn : n 1} converge en loi vers la variable alatoire c Z . On constate que grce ce rsultat, ltude de la convergence en loi de suites de vecteurs alatoires se fait en se ramenant au cas univari.
167
Le second rsultat permet dobtenir une convergence en loi de suites alatoires de lois htrognes (variances non gales par exemple).
th:cltl
Thorme 7.2 (Lindeberg) Soit {Zi , i = 1, 2, . . .} une suite de variables alatoires indpendantes, et telles que pour tout i, E(Zi ) = 0 et V(Zi ) existe avec V(Zi ) > 0. Alors si la condition
n
> 0 est satisfaite,

n Zi i=1 Vn
E
i=1
Zi Vn
>
Zi2 0, 2 Vn
n
n i=1 V(Zi ).
2 = converge en loi vers N (0, 1), o Vn
Pour une preuve de ce thorme, voir louvrage Calcul des probabilits de D. Foata et A. Fuchs (page 241 et suivantes, dans ldition de 1996). Remarque 7.2 La condition de convergence de la somme des esprances dans le thorme est appele condition de Lindeberg. V(Zi ) Cette condition implique notamment que maxi=1,...,n 0 lorsque n . En eet, pour 2 Vn tout n et tout > 0 on a Zi2 =
Zi Vn
>
Zi2 +
Zi Vn
Zi2 =
Zi Vn Zi Vn
>
2 Zi2 + Z 2 2 Vn 2 Zi
i
Z2 > i
2 + Vn
pour tout i = 1, . . . , n. Donc pour tout n et tout > 0 : V(Zi ) = E(Zi2 ) E et donc V(Zi ) E 2 Vn Par consquent, V(Zi ) 2 i=1,...,n Vn max Comme ceci est vrai pour tout n, on a
n V(Zi ) lim E n n i=1,...,n V 2 n i=1 n
Zi Vn
>
2 Zi2 + 2 Vn
i = 1, . . . , n
Zi Vn
>
Zi2 + 2 2 Vn
E
i=1
Zi Vn
>
Zi2 + 2 2 Vn Zi2 + 2 2 Vn
i = 1, . . . , n
E
i=1
Zi Vn
>
lim max
Zi Vn
>
Zi2 + 2 = 2 2 Vn
o lgalit est obtenue en utilisant la condition de Lindeberg. Comme ceci est vrai pour tout > 0 on a bien V(Zi ) 0, n (7.1) max 2 i=1,...,n Vn R
eq:limmaxvar
168
Remarque 7.3 Le thorme 7.2 montre que la condition de Lindeberg est susante pour avoir la convergence en loi de n i=1 Zi /Vn . Elle est galement susante pour avoir la condition (7.1). Un rsultat d Feller montre que si la suite {Zi , i = 1, 2, . . .} du thorme 7.2 satisfait la condition (7.1), alors la condition de Lindeberg est galement ncessaire pour la convergence en loi de n i=1 Zi /Vn . Autrement dit, pour toute suite {Zi , i = 1, 2, . . .} de variables indpendantes dont les esprances Zi ) 0 lorsque n , les deux sont nulles et les variances existent et telle que maxi=1,...,n V( 2 Vn proprits suivantes sont quivalentes : 1.
n i=1 Zi /Vn
converge en loi vers N (0, 1)
2. la suite {Zi , i = 1, 2, . . .} satisfait la condition de Lindeberg
Remarque 7.4 La condition (7.1) signie que lorsque n est grand, aucun des termes V(Zi ) de la n 2 = somme Vn i=1 V(Zi ) ne domine cette somme. Lorsque la somme contient un trs grand nombre Zi ) de termes (n ), alors le poids V( V 2 de chaque terme de cette somme doit tre ngligeable (tend vers 0).
n
On donne une proprit qui servira de base aux rsultats de convergence de lestimateur des moindres carrs.
pro:cltlbeta
Proprit 7.2 Soit {Zi : i = 1, 2, . . .} une suite de variables alatoires indpendamment et identiquement distribues desprance nulle et de variance gale 1. Soit {i : i = 1, 2, . . .} une suite de rels tels que pour un certain entier n, 1 , . . . , n sont non-tous nuls et tels que maxi=1,...,n a2 i 0, n o ai = Alors
loi n i=1 ai Zi n 2 j =1 j 2 i
i = 1, . . . , n et n n
N (0, 1), n .
Avant de donner la preuve de ce rsultat, on donne la raison pour laquelle on suppose la prsence dun tel entier n. On voit que si pour un n on a 1 = = n = 0, alors a1 , . . . , an ne sont pas dnis. Supposer quil existe n pour lequel si n n, on peut trouver i {1, . . . , n} tel que i = 0 garanti que la suite {an : n n} est bien dnie. Donc pour tout n n, Un = n i=1 ai Zi est galement bien dni ainsi que la suite {Un : n n}. Comme on ne sintresse qu la limite (en loi) de Un , il nest pas important que cette suite ne possde pas de termes de rang 1, 2, . . . n 1 (on peut les dnir de manire arbitraire).
2 Preuve : Commenons par noter que n i=1 ai = 1. Posons alors Ui = ai Zi . Il faut montrer la norn malit asymptotique de i=1 Ui . Pour cela, on applique le thorme de Lindeberg (thorme 2 7.2). On calcule aisment E(Ui ) = ai E(Zi ) = 0 et V(Ui ) = a2 i V(Zi ) = ai , i = 1, . . . , n. On n n 2 2 = dnit Vn i=1 ai = 1. La convergence recherche aura alors lieu si on peut i=1 V(Ui ) = montrer que la suite des Ui satisfait la condition de Lindeberg. Soit > 0 un rel x et
7.2. PROPRITS ASYMPTOTIQUES DE dnissons n = maxi=1,...,n a2 i . En utilisant lexpression de Ui , on a 1 2 Vn

n
169
E
i=1
n 2 |Ui |>Vn Ui
=
i=1
a2 iE
n 2 2 2 Zi a2 i Zi >
a2 iE
i=1
n Zi2 >2 Zi2
(7.2)
eq:lc1
o lingalit provient de lquivalence a b b>c a>c , vraie pour tout rels a, b, c. Comme les Zi sont identiquement distribus, les variables n Z 2 >2 Zi2 le sont galement et i 2 . On peut donc crire le membre de toutes les esprances (7.2) sont gales E n Z 2 >2 Z1 1 droite de lingalit (7.2) comme
n
a2 iE
i=1
2 n Zi2 >2 Zi2 = E n Z1 2 > 2 Z1
a2 i =E
i=1
2 2 = E Z 2 >2 /n Z1 n Z1 2 > 2 Z1 1
o la dernire galit est vraie pour n susamment grand (n n) an dviter le cas n = 0. 2 0, Sous la condition de lnonc, on a limn 1/n = + et donc limn Z 2 >2 /n Z1 1 2 Z 2 pour tout n n, et que E(Z 2 ) = 1, presque srement. Comme par ailleurs Z 2 >2 /n Z1 1 1 1 on peut appliquer le thorme de convergence domine :
n
lim E
2 lim 2 2 Z 2 = 0 Z1 2 > 2 / Z1 = E n n Z1 > /n 1
Par consquent le membre de gauche de (7.2) converge galement vers 0 lorsque n . Comme ceci est vrai pour tout > 0, la suite {Ui : i = 1, 2 . . .} satisfait la condition de Lindeberg. Daprs le thorme 7.2, on a donc
n i=1
Ui = Vn
n i=1
ai Zi N (0, 1),
loi
Finalement, on mentionne dans cette section deux proprits qui seront utiles pour dmontrer lquivalence entre des rsultats de convergence. Elles se dmontrent laide de notions et rsultats qui ne sont pas prsents dans ce cours. On peut en trouver une dmonstration dans louvrage Cours de probabilits dA. Montfort.
pro:convloi_cont
Proprit 7.3 (Mann-Wald) Si {Zn : n 1} est une suite de vecteurs alatoires de Rq qui converge en loi vers Z , alors pour toute fonction continue f : Rq Rm , la suite de vecteurs alatoires {f (Zn ) : n 1} converge en loi vers f (Z ). Ce rsultat est une version pour la convergence en loi du thorme de Slutsky.
pro:convloi_mat
Proprit 7.4 Si {Zn : n 1} est une suite de vecteurs alatoires de Rq qui converge en loi vers Z et si {An : n 1} est une suite de matrices (non alatoires) de dimensions (m, q ) qui converge vers A, alors la suite de vecteurs An Zn converge en loi vers le vecteur AZ . On notera en particulier que les suites AZn et An Zn ont la mme limite en loi. Par consquent, si An converge vers A, la loi limite de An Zn peut sobtenir partir de celle de AZn .
170
sec:asynormco
CHAPITRE 7. PROPRITS ASYMPTOTIQUES DES MOINDRES CARRS Convergence en loi de
7.2.2.2
. On peut maintenant prouver le rsultat de convergence en loi de lestimateur Notons que dans le cas dun modle de rgression linaire dni par les condition Cp 1, Cp 2 = et Cp 3, dans lequel la matrice X ne contient quune seule colonne, on peut crire
n 2 i=1 Xi 1 n i=1 Xi i .
Donc
n 2 i=1 Xi
) = (
n i=1
Xi
n 2 i=1 Xi
1 i . En posant Zi = i et i = Xi , on est dans la condition de la proprit 7.2, ds que o i = 1 , 2 . . . forment une suite de variables alatoires indpendantes et identiquement distribues et 2 que maxi=1,...,n Xi2 / n i=1 Xi converge vers 0 lorsque n . Dans ce cas n 2 i=1 Xi
) N (0, 1) (
loi
Le rsultat de convergence en loi de lestimateur des moindres carrs dans le cadre de modle avec plus dune variable sobtient partir de la proprit 7.2.
th:norasybetaa
Thorme 7.3 Soit le modle de rgression linaire dni par les conditions Cp 1, Cp 2 et Cp 3. On suppose que rang(X ) = p+1 et que les conditions suivantes sont galement satisfaites : Cp I. Yi Xi , i = 1, . . . , n, sont des variables alatoires indpendantes et identiquement distribues, pour tout n Cp W . Lorsque n , W W converge vers une matrice dnie positive, o W = XD 1 , et D est la matrice diag( Xk , k = 0, . . . , p). Si de plus maxi=1,...,n
2 Xik Xk 2
0 lorsque n pour tout k = 0, . . . , p, alors

loi ) D ( N (0p+1 , 2 1 )
Preuve : On peut toujours crire X X = V V , o V et sont respectivement les matrices des vecteurs et valeurs propres de X X , les vecteurs propres tant orthonorms (V V = Ip+1 ). Puisque X X est de rang p + 1, elle est dnie positive, et on peut aussi crire = 1/2 1/2 o 1/2 = diag( k , k = 0, . . . , p) et 0 , . . . , p sont les valeurs propres de X X . De manire analogue, on dnira 1/2 = diag(1/ k , k = 0, . . . , p). On note quavec les dnitions de , D et W , on peut crire = lim W W = lim D1 X XD 1 = lim D 1 V V D1 = lim A A
n n n n
o A = 1/2 V D 1 . Donc daprs les proprits 7.3 et 7.4, montrer la convergence de lnonc revient montrer que 1 loi ) AD( N (0p+1 , Ip+1 ) (7.3)
eq:econv1
171
En utilisant la dnition de A, on obtient AD = 1/2 V et donc (daprs Cp 2 et la dnition ) : de 1 ) = 1 AD(X X )1 X = 1 ADV 1 V X = 1 1/2 V V 1 V X AD( 1 1/2 1 1/2 1 1/2 1 V X = V DD X = V DW = 1 1 = (W A ) Daprs le thorme de Cramr-Wold (thorme 7.1), montrer la convergence (7.3) revient loi 1 montrer c (W A1 ) N (0, c c), pour tout c Rp+1 (c = 0p+1 ), ou encore (daprs la proprit 7.3) 1 c (W A1 ) loi N (0, 1) (7.4) c c On dnit le vecteur = W A1 c Rn . On constate alors que daprs la dnition de A et de W , on a = c
1/2
eq:econv2
V X XV
1/2
c = c
1/2
V V V V
1/2
c = c c
la dernire galit rsultat de lorthonormalit des vecteurs propres de X X et de lcriture de = 1/2 1/2 . Par consquent, 1 c (W A1 ) 1 = = c c avec ai = i
n
ai i
i=1
et i = i / , i = 1, . . . , n. En utilisant la proprit 7.2, pour avoir la
convergence voulue (7.4) il sut davoir maxi=1,...,n a2 i 0, n , ce quon montre prsent. Pour cela, remarquons que i est llment de la i e colonne de = c A1 W et donc e e i = c A1 Wi = c ui , o Wi est la i ligne de W (ou encore la i colonne de W ) et donc ui = A1 Wi . Par consquent, on peut crire i sous la forme i = c ui = p k =0 ck uik 1 et donc en utilisant lingalit de Cauchy-Schwarz :
p 2 i p
c2 k
k =0 k =0 2
1 u2 ik = (c c)ui ui = (c c)Wi (A A) Wi
i = 1, . . . , n
1 i i On en dduit a2 i = = c c Wi (A A) Wi , i = 1, . . . , n. Daprs les ingalits (9.10), 1 on a ncessairement Wi (A A) Wi Wi Wi , i = 1, . . . , n, o est la plus grande des valeurs propres de (A A)1 . Donc
a2 i Wi Wi
i = 1, . . . , n
(7.5)
eq:econv3
1. Lingalit de Cauchy-Schwarz tablit que | u, v | u v o u et v sont deux vecteurs dun mme e.v. et 2 2 u v = u, u . Elle est quivalente aux deux ingalits 0 u v = 2(1 uu,vv ), quon vrie aisment.
172

1 = Comme W = XD 1 , on doit avoir Wi = Xi D
donc Wi Wi =
p k =0
2 Xik Xk 2
Xi0 X0
Xi1 X1
, i = 1, . . . , n. Daprs ceci et (7.5) , on peut alors crire

p 2 Xik Xk p 2
Xip Xp
, i = 1, . . . , n, et
i=1,...,n
max a2 max i
i=1,...,n
k =0
k =0
i=1,...,n
max
2 Xik Xk
(7.6)
eq:econv4
Comme = limn A A avec inversible, on doit avoir 1 = limn (A A)1 (linversion dune matrice est une application continue, voir thorme 9.1). Donc limn est la plus grande valeur propre de 1 . Comme cette matrice est dnie positive, cette valeur propre est strictement positive. Par ailleurs, comme on a suppos que lorsque n , X2 maxi=1,...,n Xik 2 0 pour tout k = 0, . . . , p, le membre de droite de (7.6) converge vers 0, k ce qui est bien la condition recherche. Remarque 7.5 La condition Cp W requiert que D 1 X XD 1 converge vers une matrice dnie positive lorsque n . Daprs la dnition de D , il est facile de voir que la (k, l)e entre Xik Xil de D 1 X XD 1 est n i=1 Xk Xl . Cette matrice contient donc des termes semblables des corrlations linaires empiriques entre les variables explicatives du modle. Quant la condition supplmentaire maxi=1,...,n Xik 2 0 pour tout k = 0, . . . , p, elle tablit k que pour chaque variable explicative, aucun individu ne domine le vecteur des observations de cette variable lorsque n est grand, dans le sens o la contribution maximum dun individu la norme de R ce vecteur doit tre arbitrairement petite lorsque n .
rem:falt
X2
Remarque 7.6 La convergence du thorme 7.3 snonce de manire quivalente par AD ( ) N (0p+1 , Ip+1 ) (voir (7.3)). Cette formulation prsente un intrt particulier. En eet, notons que 1 1/2 loi /2 V AD ) et donc la convergence peut aussi scrire V ( N (0p+1 , Ip+1 ). Remarquons = 2 1 que pour tout n, V( ) = V( ) = (X X ) . Donc )1 = V(
1
loi
V 1/2 1/2 V = 2
1/2 V
1/2 V
) = V(
1/2
) V(
1/2
)1/2 = /2 V est la racine carre de la variance de . Par consquent, la convergence o V( tablie par le thorme 7.3 scrit aussi
loi ) )1/2 ( N (0p+1 , Ip+1 ) V(
R On peut aussi tablir cette convergence sous une condition sur la matrice X plus faible que dans le rsultat prcdent. 2
th:norasybeta
Thorme 7.4 Soit le modle de rgression dni par les conditions Cp 1, Cp 2 et Cp 3. Si la condition Cp I et la condition Cp X : 1 Cp X . maxi=1,...,n Xi (X X ) Xi 0 lorsque n
2. Cette condition est donne par A. Monfort, Cours de statistique mathmatique.
7.2. PROPRITS ASYMPTOTIQUES DE sont satisfaites, alors )1/2 est celle dnie la remarque 7.6. o la matrice V(
loi )1/2 ( ) V( N (0p+1 , Ip+1 )
173
Preuve : Daprs la remarque 7.6, la convergence tablir est celle exprime par (7.3), qui est quivalente, comme on la montr dans la preuve du thorme 7.3, la convergence (7.4) : 1 c (W A1 ) loi N (0, 1) c c n , c Rp+1 , c = 0p+1
o les matrices A et W sont dnies dans le thorme 7.3 : A = 1/2 V D 1 et W = XD 1 . On sait aussi (voir la preuve du thorme 7.3) que 1 c (W A1 ) = c c avec = W A1 c, = 1
2 / 0, et que pour tablir la convergence voulue, il sut de montrer que maxi=1,...,n i 1 n . En utilisant les expression de A et de W , on obtient W A1 = XV /2 et donc la i e colonne de = c 1/2 V X est
i = c
1/2
V Xi = c vi
avec vi = 1/2 V Xi , i = 1, . . . , n. Par consquent en utilisant lingalit de Cauchy-Schwarz on a :

2 vi ) (c vi ) (c vi ) (c c) (vi i 1/2 1/2 1 = = vi vi = Xi V Xi = Xi V (X X ) Xi c c c c
2 / 0, i = 1, . . . , n. La condition Cp X assure donc que la condition susante maxi=1,...,n i n pour la convergence est satisfaite.
Remarque 7.7 Il peut tre intressant de faire le lien entre les conditions sous lesquelles la conver)1/2 ( ) est obtenue dans les thormes 7.3 et 7.4, et notamment tablir que la gence de V( condition assurant la convergence du thorme 7.4 est moins forte que celle requise dans le thorme X2 7.3. Notons que en particulier le thorme 7.4 ne requiert pas que maxi=1,...,n Xik 2 0, n k pour k = 0, . . . , p. Cependant, sous la condition Cp W , on a Cp X max
2 Xik Xk 2
i=1,...,n
0,
k = 0, . . . , p
1 1 1 1 Pour cela, remarquons que maxi=1,...,n Xi (X X ) Xi = max i=1,...,n Xi D (W W ) D Xi pour tout n. Notons et la plus petite et la plus grande valeur propre de (W W )1 . 3 En utilisant la relation (9.10) ( la n de la section 9.3), on peut alors crire 1 1 1 1 1 max Xi max Xi D D Xi max Xi (X X ) Xi D D Xi i=1,...,n i=1,...,n i=1,...,n
3. On remarque que W W = A A, o A est la matrice introduite dans la preuve du thorme 7.3. Par consquent, la valeur propre utilise dans la preuve de ce thorme est la mme que celle introduite ici.
174
pour tout n. Notons aussi que daprs la dnition de D , on a

p
Xi D
Xi = Xi D
1 2
=
k =0
2 Xik Xk
Donc la double ingalit ci-dessus scrit

p
i=1,...,n
max
k =0
2 Xik Xk
p 2
max Xi (X X )
i=1,...,n
Xi
i=1,...,n
max
k =0
2 Xik Xk
pour tout n. Ces ingalits sont donc vraies lorsque n . Sous la conditions Cp W , et convergent respectivement vers la plus grande et plus petite des valeurs propres de la matrice dnie positive , toutes deux strictement positives. Par consquent,
p i=1,...,n
1 max Xi (X X ) Xi 0
i=1,...,n
max
k =0
2 Xik Xk
0
2 Xik Xk 2
lorsque n . Or la convergence maxi=1,...,n pour k = 0, . . . , p. 4
2 Xik p k =0 Xk
0 quivaut maxi=1,...,n
0 R
apparat souvent sous la forme Remarque 7.8 La normalit asymptotique de

loi ) n ( N (0p+1 , 2 Q1 )
(7.7)
eq:norasybetaa
o Q est la matrice dnie postive, dnie comme Q = limn X n X , cette convergence tant introduite comme hypothse. On prsente le lien entre la convergence des thormes 7.4 et 7.3 et ). Notons dabord quen appliquant la proprit 7.3, cette convergence quivaut celle de n ( 1 1/2 loi n ( ) N (0p+1 , Ip+1 ) (7.8) Q o Q1/2 est une matrice inversible telle que Q = Q1/2 Q1/2 .
V , o les Ensuite, sous lhypothse X n X Q, on peut dnir Q1/2 comme la limite de n matrices et V sont les matrices des valeurs et vecteurs propres de X X . Dans ce cas, en utilisant la proprit 7.4 et la convergence tablie en (7.8), on a aussi
1/2
eq:convalt
1 1 1 1/2 V loi ) N (0p+1 , Ip+1 ) n ( ) = /2 V ( n
(7.9)
eq:convalta
)1/2 donne dans le thorme 7.2 montre que la convergence (7.9) La dnition de la matrice V( est la mme que celle donne dans le thorme, ce qui montre la cohrence des deux formes du R rsultat.
4. Cette dernire quivalence peut se dmontrer de la manire suivante. maxi=1,...,n k=1 a2 ik q 2 2 maxi=1,...,n a2 a 0. Rciproik . Donc maxi=1,...,n aik 0 pour k = 1, . . . , q implique maxi=1,...,n ik k=1 q q 2 quement, maxi=1,...,n k=1 a2 a2 maxi=1,...,n a2 ik aik , i = 1, . . . , n, k = 1, . . . , q . Do maxi=1,...,n ik , k=1 ik q 2 2 k = 1, . . . , q , et donc maxi=1,...,n k=1 aik 0 implique maxi=1,...,n aik 0, k = 1, . . . , q .
q k=1 q
7.3. PROPRITS ASYMPTOTIQUES DE 2
175
est donne sous la Remarque 7.9 Une des raisons pour lesquelles la convergence en loi de loi XX 2 1 forme n ( ) N (0p+1 , Q ), avec Q = limn n est lie la mthode de dmonstration de ce rsultat. Celle-ci est frquemment donne de la manire suivante. = (X X )1 X (ceci dcoule de lexpression de et de la On constate dabord que condition Cp 1). Par consquent, n ( ) =
X X n
X n
Sous lhypothse que X n X converge vers une matrice Q dnie positive, alors si elle existe, la (voir la proprit 7.4 et la remarque limite en loi de n ( ) est la mme que celle de Q1 X n prcdente). Par consquent, pour montrer la convergence (7.7), il sut de montrer que X loi N (0, 2 Q) n puisqualors, la proprit 7.3 permettra daboutir la convergence voulue. Cest prcisment cette convergence qui est tablie par le thorme 7.4, sous la condition Cp X .
1 Il faut cependant bien noter que la condition limn n X X = Q seule ne sut pas pour X obtenir la convergence en loi de n . R
sous la forme du thorme 7.4 ou sous la forme (7.7), Quon nonce la convergence en loi de ce rsultat na pas dincidence pratique immdiate puisque dans les deux cas, il fait apparatre le paramtre dont la valeur est inconnue.
7.3
Proprits asymptotiques de 2
. On tablit pour 2 le mme type de rsultats que pour
sec:convsig
7.3.1
Convergence de 2
On montre dans cette section que dans le contexte du modle de rgression linaire standard, 2 converge en probabilit vers 2 lorsque n , ds quon suppose que 1 , 2 , . . . forment une suite de variables alatoires i.i.d. Autrement dit 2 est un estimateur (faiblement) convergent de . Le rsultat de base pour obtenir ce rsultat est la loi faible des grands nombres (de Khintchine) rappele ci-dessous.
pro:weaklln
Proprit 7.5 Si {Zi : i 1} est une suite de variables alatoires i.i.d. dont lesprance commune p n 1 existe (i.e., E(|Z1 |) < ), alors n i=1 Zi E(Z1 ), lorsque n . On peut alors prouver le rsultat de convergence de lestimateur 2.
pro:lgnsigma
Proprit 7.6 Sous les conditions Cp 1, Cp 2, Cp 3 et Cp I, 2 2 lorsque n .
176
1 = n1 Preuve : On a 2 = n1 p 1 p1 ( PX ) o PX = X (X X ) X (voir la section 1 1 5.6). La limite en probabilit de 2 est videmment la mme que celle de n n PX . On n 1 1 2 a n = n i=1 i . Si chacun des deux termes de cette dirence possde une limite nie en probabilit, alors la limite en probabilit de la dirence est la dirence des limites en probabilit. 2 Sous les conditions dans de la proprit, 2 1 , 2 , . . . forment une suite de variables alatoires 2 i.i.d. dont lesprance commune est E(2 1 ) = . Par consquent, en appliquant la loi faible 1 p 2 . des grands nombres (proprit 7.5), on a n Par ailleurs, en utilisant une dmarche semblable celle de la section 5.6, on a
E( PX ) = 2 trace(PX ) = 2 trace((X X )1 X X ) = 2 (p + 1) Finalement, comme PX est symtrique idempotente, ses valeurs propres distinctes sont 0 et 1. Elle est donc semi-dnie positive et PX 0 presque srement. On peut alors appliquer lingalit de Markov 5 : P( 1 2 1 PX > ) E( PX ) = (p + 1) n n n
1 PX > ) 0 lorsque n . Comme ceci est vrai pour pour tout rel > 0. Donc P( n p p 1 tout , on a n PX 0. Donc 2 2 .
sec:convloi_sigma
7.3.2
Loi asymptotique de 2
On tablit nalement une convergence en loi pour 2 . La preuve de cette convergence utilise le rsultat suivant 6 , par ailleurs trs utile en statistique.
pro:convloi_jointe
Proprit 7.7 Si {Z1n : n 1} et {Z2n : n 1} sont deux suites de vecteurs alatoires tels p loi que Z1n Z et Z2n z , lorsque n , o z est non alatoire, alors le vecteur alatoire Zn = (Z1 n , Z2n ) converge en loi vers le vecteur (Z , z ) , lorsque n . Sous les conditions de cette proprit, si Z1n et Z2n sont de dimensions respectives q1 et q2 , et si f : Rq1+q2 Rq est une fonction continue, alors la proprit 7.3 permet dtablir que f (Z1n , Z2n ) converge en loi vers f (Z, z ) Proprit 7.8 Sous les conditions Cp 1, Cp 2, Cp 3 et Cp I, et si de plus = E(4 1 ) < , alors loi 2 2 4 n ( ) N (0, ), n . p 1 2 2 2 ) est la mme que celle de n (S 2 2 ) o S 2 = nn = Preuve : La loi limite de n ( loi n 1 1 2 2 2 4 2 i = n . On montre donc que n (S ) N (0, ). On note ei = i . On i=1 n peut donc crire n (S 2 2 ) = n 1 1 1 1 2 = n 2 PX = n (e 2 ) PX n n n n
5. Lingalit de Markov tablit que pour une variable alatoire Z presque srement positive dont lesprance Z) existe, on a P(Z > ) E( pour tout rel > 0. Elle se prouve en notant que P(Z > ) = E(Z> ) et que 0 Z> Z , et donc E( Z> ) E(Z ). 6. dont on trouve la preuve dans louvrage Cours de probabilits dA. Montfort.
7.4. UTILISATION DES PROPRITS ASYMPTOTIQUES
177
utilisant la mme dmarche que dans la preuve de la proprit 7.6, on obtient que Z2n 0. Par ailleurs, on note que e1 , e2 , . . . forment une suite de variables alatoires i.i.d. avec E(e1 ) = 2 2 2 = 4 < , ce qui permet dappliquer le thorme central et V(e1 ) = E(4 1 ) E(1 ) limit de Lindeberg-Lvy (pour les suites de v.a. i.i.d. dont le second moment est ni). On loi obtient alors Z2n N (0, 4 ). Donc la proprit 7.7 permet de conclure que (Z1n , Z2n ) converge en loi vers (Z, 0) , o Z N (0, 4 ). La remarque qui suit la proprit donne le rsultat voulu pour n (S 2 2 ) = Z1n Z2n .
n 1 o e = n n (S 2 2 ), on utilise la proprit i=1 ei . Pour montrer la convergence en loi de 1 7.7. On note Z1n = n (e 2 ) et Z2n = PX , et donc n (S 2 2 ) = Z1n Z2n . En n
p
7.4
Utilisation des proprits asymptotiques
Au dbut de ce chapitre, on a justi la recherche de rsultats asymptotiques Le thorme 7.4 ainsi que les proprits 7.6 et 7.7 permettent conjointement dobtenir le rsultat suivant.
pro:utasy
Proprit 7.9 Dans le modle de rgression dni par Cp 1, Cp 2, Cp 3, Cp I, et dans lequel on suppose Cp X , loi ( )1/2 ( ) V N (0p+1 , Ip+1 ) n ( )1/2 = 1 1/2 V . o V Preuve : Cest une application immdiate des rsultats mentionns ci-dessus. Dun point de vue pratique, cette convergence permet de dire que sous les conditions de lnonc, par la loi N (0p+1 , V ) o V = V ( )1/2 1 V ( )1/2 1 . on peut approximer la loi inconnue de = ( )1/2 1 = On calcule que V V 1/2 , et videmment V 2 V 1/2 1/2 V = 2 (X X )1 = ( ). Autrement dit, sous les conditions donnes dans la proprit 7.9, la loi approximative de V a. N (0p+1 , lorsque n est grand est la loi N (0p+1 , 2 (X X )1 ), ce quon notera 2 (X X )1 ). (ou de la loi de ) est requise, on Par consquent, chaque fois que lutilisation de la loi de 2 1 pourra utiliser la place la loi approximative N (0p+1 , (X X ) ). En particulier, si on souhaite tester H0 : R = r contre H1 : R = r , on peut fonder le test 1 r ) r )/q , et dcider H1 si on sur la statistique de Fisher F = (R 2 R(X X )1 R (R observe que la valeur de F est trop leve, i.e., lorsque F dpasse un seuil s (voir la justication de cette dmarche la section 6.1.2). La dmarche usuelle des tests requiert que le risque de type 1 associ ce test ne dpasse pas le niveau x lavance. Il faut alors choisir le seuil s de sorte que PH0 (F > s) . 7 Pour cela, il est ncessaire de connatre la loi de F lorsquon suppose H0 vraie. Cette loi est ici inconnue et lensemble S pour lequel s S = PH0 (F > s) ne peut obtenues lorsque tre dtermin. On peut cependant recourir aux approximations de la loi de
7. Cette ingalit doit se comprendre comme PH0 (F > s) , quelle que soit la manire de calculer la probabilit PH0 lorsquon suppose H0 vraie. Contrairement ce qui se produisait dans le contexte du modle gaussien, o lorsque H0 tait vraie, il ny avait quune seule manire de calculer cette probabilit (on utilisait la loi de Fisher (q, n p 1) degrs de libert), il y a ici une innit de manire de calculer cette probabilit. Ceci introduit des dicults quon passe sous silence ici.
178
et donc (utilisation des proprits 7.3 puis 9.17)
n an dobtenir un test de la forme voulue, i.e. qui consiste dcider H1 si F > s, et dont le risque de type 1 est approximativement gal lorsque la taille de lchantillon n est grande. a. r N (0q , 2 R(X X )1 R ) En eet si H0 est vraie, alors (en utilisant la proprit 7.3) R r ) (R 2 R(X X )1 R
1
r ) = qF 2 (q ) (R
a.
(7.10)
eq:chi2asy
Par consquent, lorsque n est susamment grand, pour tout s on a PH0 (F > s) = PH0 (qF > qs) P(Cq > qs) o Cq est une variable alatoire suivant la loi 2 (q ). Donc si on dsigne par 2 p;q le quantile dordre 2 2 p de la loi (q ), on aura P(Cq > qs) = qs = 1;q . On a alors 1 PH0 (F > 2 ) q 1;q lorsque n est grand et le test qui consiste dcider H1 lorsque F dpasse le seuil risque de type 1 approximativement gal .
1 2 q 1;q
a un
Remarque 7.10 Il est noter que ce raisonnement est galement vrai lorsque Y N (X, 2 In ). a. Dans ce cas, F F (q, n p 1) et galement qF 2 (q ), lorsque n . Par consquent, on R peut en dduire que le quantile dordre p de la loi qFp;q,np1 doit converger vers 2 q. Les rgions de conance pour ou pour R sobtiennent par un argument similaire. Ainsi, si on dnit 1 ) ) 2 Cn = {x Rq | (x R 2 R(X X )1 R (x R 1;q } la relation (7.10) permet dobtenir que P ( Cn ) 1 lorsque n est grand. Autrement dit, Cn est un rgion de Rq dont la probabilit de contenir R est approximativement gale 1 lorsque n est grand. On peut donc utiliser Cn comme une rgion dun niveau de conance approximatif 1 .
Chapitre 8
Modles avec erreurs non-sphriques : htroscdasticit et corrlation

sec:mcg_modele
8.1
Introduction et dnition
Les modles de rgression linaires, dans le cas o les variables exognes sont supposes nonalatoires, sont caractriss par la condition Cp 2 : lesprance de la variable endogne Y scrit comme une fonction linaire des variables explicatives X0 , . . . , Xp . 1 Le caractre standard du modle de rgression linaire tudi dans les chapitres prcdents provient de la condition Cp 3 (ou C p 3) : la matrice des variances-covariances du vecteur des termes derreur = Y E(Y ) est proportionnelle la matrice identit, i.e., V() = 2 In . En termes de modlisation, cela revient dire que les variables Y1 , . . . , Yn (et donc les termes derreur correspondants) ont la mme variance et sont non-corrles. Par lger abus de langage, on dit dans ce cas que les erreurs sont sphriques. La terminologie provient de la notion de loi de probabilit sphrique. La loi dun vecteur alatoire Z = (Z1 , . . . , Zn ), desprance nulle, est sphrique si sa densit fZ satisfait la condition suivante : soient z et z deux n n 2 2 n zi . Autrement dit la densit i = i=1 vecteurs de R , alors fZ (z ) = fZ ( z ) si et seulement si i=1 z n de Z est la mme pour deux vecteurs de R si et seulement si ces deux vecteurs ont la mme norme. 1 Par consquent pour tout c > 0, lensemble fZ (c) = {z Rn | fZ (z ) = c}, sil est non vide, contient tous les vecteurs de Rn qui ont une norme donne. Cet ensemble concide donc avec une sphre de 1 1 (c) (c). Graphiquement, fZ Rn dont le rayon est gal la norme de nimporte quel vecteur dans fZ n est la courbe de niveau daltitude c de fZ . Les courbes de niveau sont dont des sphres de R . En dimension 2, une sphre est un cercle. Donc lorsque n = 2, les points du plan (R2 ) pour lesquels laltitude de fZ reste gale c sont situs sur un cercle. Il existe un rsultat tablissant que si Z est un vecteur alatoire dont la distribution est sphrique, alors la matrice des variances-covariances de Z est proportionnelle la matrice identit In . 2 Labus de langage qui a t signal consiste
1. Si on ne veut pas supposer que les variables exognes sont non-alatoires, on doit introduire la notion desprance conditionnelle, et les modles de rgression linaires sont dans ce cas des modles pour lesquels lesprance conditionnelle de Y sachant les variables exognes est une fonction linaire de ces variables. 2. En toute rigueur, pour obtenir ce rsultat, il faut se placer sous certaines conditions, qui permettent notamment dassurer lexistence des variances.
179
180
CHAPITRE 8. MODLES AVEC HTROSCDASTICIT OU CORRLATION
assimiler la condition C p 3 avec le fait que le vecteur a une distribution sphrique. Dans de nombreuses applications du modle de rgression linaire, on peut tre amen vouloir saranchir de la condition Cp 3. Il existe essentiellement deux raisons pour cela (et qui peuvent se combiner lune lautre). 1. Il peut arriver quil ne soit pas raliste de supposer que V(Yi ) = V(Yj ) pour toute paire (i, j ) dindividus, et dans ce cas, les termes diagonaux de la matrice des variances-covariances du vecteur Y ne sont pas gaux. Si cela se produit, on dit quil y a htroscdasticit. 2. Il peut galement arriver quon ne souhaite pas supposer a priori labsence de corrlation entre Yi et Yj . Dans ce cas, les termes extra-diagonaux de la matrice des variances-covariances de Y ne sont pas ncessairement nuls. Il se peut videmment quon ait la fois corrlation de la variable endogne entre deux individus et htroscdasticit. En termes de dnition du modle, sil y a corrlation et/ou htroscdasticit, on ne peut plus imposer a priori la condition Cp 3 (ou C p 3). Le modle de rgression linaire qui sera tudi dans ce chapitre est donc dni par les conditions Cp 1, Cp 2 et la condition Cp V suivante : Cp V. il existe une matrice symtrique dnie positive telle que V(Y ) = . La condition Cp V revient supposer que les variances V(Y1 ), . . . , V(Yn ) existent et quon ne peut pas exprimer le niveau de la variable endogne dun individu comme une fonction linaire du niveau de cette variable des autres individus (voir le point 3 de la proprit 9.7). Pour des raisons qui apparatront plus loin, on crira sous la forme = 2 V , o est un rel strictement positif et V est une matrice symtrique dnie positive. 3 En reprenant la notion de distribution sphrique prsente au dbut de cette section, on dit dans ce cas que les erreurs sont non-sphriques. Dans un premier temps, la condition Cp V est satisfaite avec = 2 V o la matrice V est connue, ce qui quivaut dire que V(Y ) est connue une constante (positive) prs. On peut alors exprimer les conditions dnissant le modle de la manire suivante : X est non alatoire Rp+1 , ]0; [ t.q. Y = X + et V() = 2 V (8.1)
eq:def_mrl_ns_v
(R), o est le vecteur alatoire de Rn dni par = Y E(Y ), et V est une matrice connue de Mn lensemble des matrices symtriques inversibles de taille (n, n) (voir la section 9.3).
An de gagner en gnralit, on considrera ensuite le cas o la matrice V permettant dcrire la condition = 2 V est inconnue. Dans ce cas, le modle tudi sera caractris par : X est non alatoire et
(R), ]0; [ t.q. Y = X + et V() = 2 V Rp+1 , V Mn
(8.2)
eq:def_mrl_ns_v
o est dni comme auparavant. La condition V dnie positive est satisfaite ds que V est dnie comme une matrice des variances-covariances dun vecteur alatoire de Rn , suppose inversible.
3. Il est videmment toujours possible dcrire sous cette forme toute matrice dnie positive .
181
Linterprtation de et de la condition E(Y ) = X reste la mme que celle donne dans les sections 5.1 et 5.2. Il est vident que le modle de rgression linaire standard est un cas particulier du modle dni ci-dessus, puisquil correspond au cas o V = In . Les estimateurs et tests prsents dans les chapitres prcdents ont des proprits (optimalit) qui ont t obtenues en utilisant la condition Cp 3. Par consquent, dans le contexte du modle plus gnral tudi ici, ces proprits ne sont plus ncessairement valides. Ce chapitre a pour objet dtudier dans ce nouveau contexte les proprits des estimateurs des moindres carrs ordinaires et des tests fonds sur cette mthode destimation. On verra que certaines (bonnes) proprits sont perdues et on prsentera des procdures destimation et de test adaptes qui permettent de rcuprer certaines de ces proprits. Il faut noter que si le modle tudi est dni par la condition (8.2), il y a ambigut sur et V : ces paramtres ne sont pas identis. Cette notion a t aborde dans les remarques 5.1 et suivantes, propos du paramtre . Plus prcisment, si rang(X ) = p + 1, alors si on se donne le vecteur E(Y ), il existe un unique Rp+1 tel que E(Y ) = X . Il nen est pas de mme pour la (R) variance de Y . Si on se donne la matrice V(Y ), il existe plusieurs paires (, V ) ]0; +[Mn 2 telles que V(Y ) = V . Du point de vue de linfrence, le fait quil nexiste pas de paire unique de valeurs pour et V pour laquelle la condition (8.2) est vraie rend sans objet la recherche de techniques statistiques destines approximer ces valeurs. Une solution qui permet la fois de lever cette dicult et de trouver des mthodes dinfrence ayant de bonnes proprits consiste restreindre la spcication de V : dans la dnition du (R), on imposera une condition plus forte du type modle, au lieu dimposer la condition V Mn V V , o V nest quune partie de Mn (R). Cette partie sera choisie en fonction des spcicits quon veut attribuer au modle. Du choix de V dpendront les proprits des estimateurs, test, etc, obtenus. Ceux-ci seront donc tudis dans des contextes propres aux spcicits introduites dans la dnition du modle. Par exemple, si on choisit dintroduire de la corrlation dans le modle (V non diagonale), on peut reprsenter cette corrlation de direntes formes, chacune amenant une forme particulire pour V . Les estimateurs et tests auront des proprits qui dpendent de la forme particulire retenue pour reprsenter la corrlation, et donc de la forme de V . Un test ayant de bonnes proprits pour une certaine forme de corrlation peut les perdre si la corrlation est dune autre forme.
sec:mcg_prop_mco
8.2
Proprits des estimateurs des moindres carrs ordinaires
Lestimateur des moindres carrs ordinaires de est obtenu en suivant la mme dmarche que celle prsente dans la section 5.3. Cette dmarche nutilise aucune condition sur la forme = (X X )1 X Y . Il particulire de la matrice V(Y ) et lexpression de lestimateur reste donc demeure linaire puisque sa linarit nest pas une proprit lie la spcication du modle, mais une proprit provenant de son expression. Cet estimateur conserve sa proprit dabsence de biais, puisque la dmonstration de cette proprit faite la section 5.3.3 nutilise pas la condition Cp 3 (voir proprit 5.4). De manire explicite, on a le rsultat suivant. Proprit 8.1 Dans le modle de rgression linaire dni par les conditions Cp 1, Cp 2 et Cp V,
182
lestimateur des moindres carrs ordinaires de est sans biais. et des conditions Cp 1 et Cp 2. Preuve : Cest une consquence immdiate de lexpression de est un estimateur sans biais de , la matrice des variances-covariances de mesure Puisque la prcision de cet estimateur. On a ) = (X X )1 X V(Y )X (X X )1 = 2 (X X )1 X V X (X X )1 V( (8.3)
eq:mcg_var_hatb
On constate que cette variance dire de celle quon obtient dans le cas particulier du MRLS o V = In . Ceci a des consquences aussi bien dans le domaine des tests dhypothses (et des rgions de conance) que dans celui de lestimation. est galement un vecteur gaussien Dans le cas o Y et donc sont des vecteurs gaussiens, dont la loi est N , 2 (X X )1 X V X (X X )1 . Dans la construction du test de Fisher (voir p1 C1 section 6.1.2), la loi la statistique F sobtient en notant que F scrit sous la forme F = nq C2 , et que dans le contexte du MRLSG, les variables alatoires C1 et C2 sont indpendantes et suivent chacune une loi du 2 . Plus prcisment, si lhypothse nulle est H0 : R = r , on a C1 = (R 1 r ) et C2 = 12 . Lorsque la condition Cp 3 est relche et remplace r ) R 2 (X X )1 R (R )R ) et donc (R r ) RV( )R 1 (R r) par Cp V, sil reste vrai que (R r ) N (0, RV( 2 2 1 ) = (X X ) et donc la variable alatoire C1 (q ) lorsque H0 est suppose vraie, on a V( 2 ne suit pas une loi (q ). Par ailleurs, dans le mme contexte, C2 ne suit pas non plus une loi peut toujours sexprimer sous la forme 2 (n p 1). En eet, le vecteur des rsidus = Y X = MX , o MX = In X (X X )1 X et on a donc 1 1 = 2 MX = Z Z 2
1 Q et Q et sont les matrices des vecteurs et valeurs propres de MX , respectivement, o Z = 1 avec Q = Q . MX est la matrice de projection orthogonale sur L(X0 , . . . , Xp ) , et daprs la proprit 9.24, elle a deux valeurs propres distinctes 1 et 0, la valeur propre 1 ayant un degr de multiplicit gal la dimension du sev L(X0 , . . . , Xp ) . Comme X est de rang p + 1, le sev L(X0 , . . . , Xp ) est de dimension p + 1, et L(X0 , . . . , Xp ) est donc de dimension n p 1. On peut toujours supposer que les valeurs propres non nulles de MX sont les n p 1 premires, et np 1 2 Zk . Le vecteur Z est un vecteur gaussien desprance 0n et de dans ce cas on a Z Z = k =1 matrice de variances-covariances
1 1 V(Z ) = V( Q ) = 2 Q V()Q = Q V Q Donc, sauf dans le cas trs particulier o il se trouverait que Q V Q = In (ce qui na aucune raison particulire de se produire), les variables alatoires Z1 , . . . , Znp1 qui constituent les (n p 1) premires coordonnes du vecteur Z nont pas une variance gale 1 et ne sont pas indpendantes. np 1 2 1 Par consquent il nest pas possible dappliquer la dnition 9.4 et dtablir que = k Zk 2 =1 2 suit une loi du . Ce qui prcde montre que toutes les procdures de test et rgions de conance dveloppes dans les sections 6.1 et 6.2 en se basant sur lestimation de par moindres carrs ordinaires ne sont plus valides. Plus prcisment, les tests dvelopps dans ces sections nont pas le niveau de risque
183
de type 1 requis et les rgions de conance nont pas le niveau de conance voulu, lorsquil sont appliqus dans un modle o V(Y ) = 2 In . Il conviendra donc de modier ces procdures. Lintroduction de la condition Cp V la place de Cp 3 a galement des consquences en matire destimation de . En eet, bien que lestimateur des moindres carrs ordinaires reste sans biais, il perd sa proprit doptimalit parmi les estimateurs linaires sans biais (throrme 2.3). On prouvera ce rsultat en deux temps. On commence par montrer que dans un cas particulier, ne concide pas avec le meilleur estimateur linaire sans biais. On construira ensuite un autre estimateur de dont on montrera quil est optimal. Supposons quon souhaite estimer la dernire coordonne p de au moyen dun estimateur linaire sans biais. On montre que dans ce cas il nest pas optimal dutiliser lestimateur des moindres p : il existe un autre estimateur linaire sans biais de p dont la variance est plus carrs ordinaires p . Pour cela on utilise la proprit suivante qui, dans le contexte du modle de petite que celle de rgression linaire avec la condition Cp V, est analogue au rsultat de la proprit de la remarque 5.11 (et sobtient par une dmarche identique).
pro:mcg_best
Proprit 8.2 Soit c un vecteur de Rp+1 . Dans le modle de rgression linaire dni par les o = (X V 1 X )1 X V 1 Y . conditions Cp 1, Cp 2 et Cp V, le meilleur estimateur de c est c Preuve : Soit = a Y un estimateur linaire de = c o a est un vecteur (non alatoire) de Rn (voir la dnition 5.1). est un estimateur sans biais de ssi E( ) = , R. En utilisant les expressions de et de ainsi que les conditions Cp 1 et Cp 2, labsence de biais quivaut (a X c ) = 0, Rp+1 , ou encore a X c = 0 p+1 . La variance 2 dun tel estimateur est V( ) = V(a Y ) = a V(Y )a = a V a. Par consquent chercher V a a V a le meilleur revient chercher le vecteur a de Rn tel que a X c = 0 p+1 et a pour tout vecteur a Rn tel que a X c = 0 p+1 . Cet estimateur sera alors donn par =a Y . Le vecteur a est donc la solution du problme de minimisation
aRn
min a V a
s.c.q.
a X c = 0 p+1
(8.4)
eq:mcg_min
Rp+1 tel Une condition ncessaire pour que a soit solution est quil existe un vecteur que
L ) = 0n ( a,
eq:mcg_nblue_a
(8.5) (8.6)
o L(a, ) = a V a (a X c ) est le lagrangien associ au problme de minimisation. = 0n et (8.6) exprime la contrainte dabsence de X Les n quations (8.5) scrivent V a 4 biais X a c = 0p+1 . Daprs Cp V, la matrice V est inversible. On peut donc rcrire . Si on utilise cette expression de a (8.5) comme a = V 1 X , on peut rcrire (8.6) sous 1 la forme X V X c = 0p+1 . Comme X est de rang p + 1, la matrice X V 1 X est = (X V 1 X )1 c. En substituant cette expression de inversible et on obtient alors
4. Voir par exemple les calculs dtaills la remarque 5.11.
L ( ) = 0p+1 a,
eq:mcg_nblue_l
184
CHAPITRE 8. MODLES AVEC HTROSCDASTICIT OU CORRLATION dans celle de a , on a nalement a = V 1 X (X V 1 X )1 c. Par consquent lestimateur o est dni dans lnonc linaire sans biais de variance minimale est =a Y = c de la proprit. Finalement, comme V est dnie positive et que la fonction a X c qui exprime la contrainte est linaire en a, le vecteur a obtenu en rsolvant le systme (8.5)-(8.6) est bien une solution du problme de minimisation.
Ce rsultat est contraster avec le rsultat de la remarque 5.11 qui tablit que dans le cadre du modle de rgression linaire standard (dni par les conditions Cp 1, Cp 2 et Cp 3), le meilleur estimateur linaire sans biais de = c sobtient partir de lestimateur des moindres carrs = c (X X )1 X Y . Ainsi, si on sintresse la dernire ordinaires de , et est donn par = c coordonne p de , alors c = (0, . . . , 0, 1) et dans ce cas le meilleur estimateur sans biais de p p , o p est la dernire coordonne de = (X V 1 X ) XV 1 Y . De manire gnrale, est = p , lestimateur des moindres carrs ordinaires de p , dni comme cette coordonne dire de = (X X )1 X Y . Ce rsultat montre donc que dans le modle de la dernire coordonne de rgression linaire dans lequel on a Cp V, lestimateur des moindres carrs ordinaires ne concide pas avec le meilleur estimateur linaire sans biais. On construira plus loin lestimateur dont on montrera quil est optimal dans lensemble des estimateurs linaires sans biais. Finalement, on peut montrer quen introduisant une condition supplmentaire sur la matrice reste un estimateur convergent de V , on retrouve le rsultat de la proprit 7.1 : lestimateur . La convergence est une proprit limite de lestimateur des moindres carrs ordinaires de lorsque n . An de le formuler (et le prouver) on modie lgrement les notations an de faire apparatre la dpendance des lments du modle vis--vis de n. Pour une taille dchantillon n n lestimateur des moindres carrs ordinaires de . donne, on note Vn = V(Y ) et
pro:mrlns.conv.mco
Proprit 8.3 Dans le modle de rgression linaire dni par les conditions Cp 1, Cp 2 et Cp V, la plus grande valeur propre de V . Si pour chaque taille dchantillon n on note vn n 2. (X X )1 0 lorsque n n converge vers en moyenne quadratique, et donc en probabilit. alors Preuve : En adoptant la mme dmarche que dans la preuve de la proprit 7.1 et en utilisant lexn 2 ) = trace (X X )1 X V X (X X )1 ). ) donne par (8.3), on a E( pression de V( En utilisant la proprit trace(AB ) = trace(BA) lorsque les produits AB et BA sont dnis, on a trace (X X )1 X V X (X X )1 = trace X (X X )2 X V o (X X )2 = (X X )1 . Comme V est symtrique dnie positive, on peut crire V = o = diag(v1 , . . . , vn ) est la matrice diagonale des valeurs propres de V et est la matrice orthonormale des vecteurs propres de V . Donc trace X (X X )2 X V = trace X (X X )2 X = trace X (X X )2 X ) = trace(C )
2 K , n N 1. K R tel que vn
8.3. MOINDRES CARRS GNRALISS (MCG)
185
o C = X (X X )2 X = (cij )i,j =1,...,n . Puisque est diagonale, les termes diagonaux de C sont vi cii , i = 1, . . . , n. Par consquent
n n n cii = vn i=1 = vn i=1 = vn trace X (X X )2 X trace X (X X )2 X = vn = vn trace X (X X )2 X = vn trace (X X )2 X X = vn trace (X X )1 i=1 n
trace(C ) =
i=1
vi cii max{v1 , . . . , vn }
cii trace(C )
1 on a 0 trace (X X )1 Si on note n la plus grande des valeurs propres de (X X ) (p + 1) n et donc trace(C ) (p + 1)vn n . Les deux conditions de lnonc garantissent que le membre de gauche converge vers 0 lorsque n (voir galement la section 9.3). dans On peut introduire ici la mme remarque que celle faite propos de la convergence de le contexte du modle standard. La proprit 8.3 est souvent nonce en remplaant la condition 2 par la condition X n X A, o A est une matrice symtrique dnie positive. Cette condition est plus forte que la condition utilise dans la proprit 8.3, cest dire pour tout > 0 :
X X A = (X X )1 0 n avec A symtrique dnie positive. En eet, supposons que XnX A. Comme A est inversible et que linversion de matrice est continue (voir thorme 9.1), on doit avoir n (X X )1 A1 . Ceci implique que n (X X )1 A1 . Comme A1 est ni, on doit avoir (X X )1 0, ce qui est la condition 2 de la proprit.
sec:mcg
8.3
Moindres carrs gnraliss (MCG)
Les rsultats de la section prcdente montrent que si lestimateur des moindres carrs ordinaires reste sans biais et convergent, sa matrice de variances-covariances nest pas la mme que dans le cas du MRLS. Il faudra donc adapter les procdures de test et de rgions de conance an de tenir compte de la nouvelle forme de cette matrice. Mais de manire plus importante, pour estimer , les moindres carrs ordinaires ne fournissent pas le meilleur estimateur linaire sans biais. La proprit = (X V 1 X )1 X V 1 Y . 8.2 semble suggrer que le meilleur estimateur linaire sans biais est puisse tre envisag comme estimateur de , il faut se placer dans le cas videmment, pour que o V est connue. On supposera que cest le cas dans cette section. Par consquent, le modle est est bien dni par la condition (8.1). Dans un premier temps, on dmontre formellement que le meilleur estimateur linaire de . Puis on dcrit les consquences de ce rsultat sur les tests et rgions de conance construits propos de .
186
sec:mcg.blue
8.3.1
Estimation de par MCG
Pour montrer que le meilleur estimateur linaire sans biais de est (X V 1 X )1 X V 1 Y , on peut adopter deux dmarches distinctes, quon prsente successivement. = La premire manire dobtenir ce rsultat consiste utiliser la proprit 8.2. Puisque 1 1 1 1 1 1 (X V X ) X V Y = AY , avec A = (X V X ) X V , on voit que est un estimateur = A = In , il est galement sans biais. Soit Y , un autre linaire de . Comme de plus AX est satisfait AX = In . On veut montrer estimateur linaire et sans biais de , i.e., la matrice A , cest dire : plus prcis que ) V( ) c 0, c V( c Rp+1
En utilisant les proprits des matrices de variances-covariances (voir la proprit 9.7), cette ingalit scrit aussi ) V(c ) 0, c Rp+1 V(c (8.7) c et a c. On vrie facilement que, dune Pour un c Rp+1 quelconque, on dnit a =A =A part, ) = a V(c V a et dautre part a X c = 0 p+1 et a X c = 0 p+1 et ) = a V(c V a (8.8)
eq:min_fq_mcg
eq:vmgc
= XA = In ). Or la rsolution du problme de minimisation (8.4) dans la preuve de (puisque X A la proprit 8.2 montre quon a ncessairement a V a a V a ce qui, tant donn (8.8), est prcisment lingalit (8.7) voulue pour le vecteur c choisi. Mais comme ceci peut tre tabli pour nimporte quel choix de c, on a bien (8.7). La seconde manire dobtenir ce mme rsultat consiste formuler un modle quivalent celui dni par Cp 1, Cp 2 et Cp V, mais dans lequel on retrouve la condition Cp 3 et dont en est le paramtre. Pour cela, choisissons une matrice M de taille (n, n) non alatoire et inversible, quelconque. On a alors X non alatoire M X non alatoire E(Y ) = X E(M Y ) = M X V(Y ) = V(M Y ) =
= M M . De plus, on vrie facilement que est symtrique dnie positive si et seulement o est symtrique dnie positive. Autrement dit, en dnissant X = M X et Y = M Y on voit si satisfont ces mmes et Y que X et Y satisfont Cp 1, Cp 2 et Cp V, si et seulement si seulement si X p +1 conditions. On constate que le vecteur de R qui permet dcrire la condition Cp 2 pour X et et Y et que les matrices Y est le mme que celui qui permet dcrire cette mme condition pour X
187
symtriques dnies positives qui permettent dexprimer la condition Cp 3 sont lies par la relation = M M . Ce qui vient dtre dit permet de considrer indiremment lestimation de au sein du modle , puisque ces modles satisfont et Y initial relatif X et Y ou bien au sein du modle relatif X les mmes conditions et que paramtrise de manire identique ces deux modles. Par ailleurs, lensemble des estimateurs linaires et sans biais de de lun des modles concide avec celui de lautre. En eet, soit = A Y , avec A X = In un estimateur linaire sans biais Y avec A = A M 1 , ce qui de dans le modle initial. On peut crire = A M 1 M Y = A et Y . De plus, on vrie montre que est un estimateur linaire de dans le modle relatif X facilement que A X = In , ce qui est la condition dabsence de biais dun estimateur linaire dans et Y . La rciproque sobtient de manire identique. le modle relatif X Donc pour rechercher le meilleur estimateur linaire et sans biais de , on peut indiremment utiliser lun ou lautre modle. Comme tout ce qui vient dtre dit est valable pour nimporte quel choix de matrice M de taille (n, n), inversible et non-alatoire, on peut se demander sil en existe une telle que dans le modle = M Y , il est facile de dterminer le meilleur estimateur linaire et sans = M X et Y relatif X biais de . Une manire de rpondre cette question consiste se demander si on peut trouver des variances-covariances de Y prenne la forme une matrice M inversible telle que la matrice = 2 In pour un ]0, [. Si la rponse est positive, alors le modle relatif X et Y est un modle de rgression linaire standard. Dans un tel cas, le meilleur estimateur linaire sans biais . X )1 X Y de concidera avec lestimateur des MCO de dans ce modle, i.e., (X = 2 In , ou de manire Pour trouver une telle matrice M , on part de la condition recherche quivalente, V(M Y ) = 2 In pour un ]0, [. Comme V(Y ) = et quon a choisi dcrire sous la forme = 2 V pour un ]0, [ et V symtrique dnie positive, la condition obtenir scrit ceci scrit aussi M V M = In . Puisque V est symtrique dnie positive, elle peut scrire V = o est une matrice orthonorme et = diag(i , i = 1, . . . , n) est une matrice diagonale avec i > 0, i = 1, . . . , n. On peut donc crire = 1/2 1/2 , o 1/2 = diag( i , i = 1, . . . , n). Par consquent, 1 = (1/2 1/2 )1 = 1/2 1/2 , o 1/2 est linverse de 1/2 , i.e., 1/2 = diag( 1 i , i = 1, . . . , n). Si on choisit M =
1/2
(8.9)
eq:Mspher
on a bien une matrice non alatoire inversible pour laquelle MV M =

1/2
1/2
1/2
( /2 /2 )
1 1
1/2
= In
(8.10)
eq:vspher
(la dernire galit utilisant lorthonormalit de ). Le choix de transformation M dnie par (8.9) permet de passer du modle de rgression initial = M X et Y = MY , relatif X et Y un modle de rgression quivalent relatif des variables X ) = X et V(Y ) = 2 In . Grce cette dernire condition, ce second modle est un dans lequel E(Y modle de rgression linaire standard. On remarque que la transformation M obtenue consiste transformer les variables initiales de manire (1) prserver la relation donne par la condition Cp 2 (ou C p 2) et (2) rendre sphriques les erreurs dnies dans ce nouveau modle (voir la premire
188
E(Y )= section de ce chapitre). En eet, le vecteur des erreurs dans le modle transform est = Y 2 M Y M X et en utilisant (8.10) on a V( ) = V(M Y ) = M V(Y )M = In . Pour cette raison, on appelle sphricisation (des erreurs) la transformation consistant prmultiplier le vecteur Y et la matrice X des observations des variables par la matrice M dnie en (8.9). Comme indiqu prcdemment, le modle obtenu par sphricisation est un modle de rgression et X . Il permet dobtenir le meilleur estimateur linaire sans linaire standard pour les variables Y et son expression est biais de en utilisant la mthode des MCO. Cet estimateur est not = (X X )1 X Y = M X, Y = M Y et M est donne par (8.9). En utilisant ces expressions, on peut crire o X 1/2 M M = 1/2 = 1 = V 1 et donc = (X M M X )1 X M M Y = (X V 1 X )1 X V 1 Y On constate quon obtient le mme rsultat que la premire approche propose, base sur lutilisation de la proprit 8.2. On rsume ces rsultats sous la forme dune proprit.
pro:mcgs
Proprit 8.4 Dans le modle de rgression dni par les conditions Cp 1, Cp 2 et Cp V, le meilleur estimateur linaire sans biais de est (X V 1 X )1 X V 1 Y , o V est la matrice pour laquelle V(Y ) = 2 V . Cet estimateur concide avec lestimateur des MCO dans le modle de rgression sphricis = M X et Y = M Y , o M = 1/2 , et tant respectivement les matrices des relatif X vecteurs propres et valeurs propres de V . On constate que lestimateur de obtenu consiste appliquer les moindres carrs ordinaires au modle obtenu par transformation des variables initiales au moyen de M . Dans ce modle, les = M X et Y = Y et lestimateur des MCO est matrices des observations des variables sont donc X 2 X (voir la section 5.3.2). En utilisant la dnition dni comme la solution de min Rp+1 Y de X et Y , ceci revient rsoudre min Rp+1 M (Y X ) 2 . Il est vident quil revient au mme de chercher en minimisant M (Y X ) . Or M tant inversible, cette norme est une distance entre les vecteurs Y et X . 5 Par consquent, au sein du modle initial relatif aux variables X et Y , lestimateur de la proprit 8.4 possde la mme interprtation que lestimateur des MCO solution de min Rp+1 Y X 2 : il dnit llment de L(X0 , . . . , Xp ) le plus proche de Y . La dirence entre cet estimateur et celui des MCO rside dans la distance utilise pour mesurer cette proximit. Dans un cas (MCO) il sagit de la distance usuelle, correspondant au choix M = In , tandis que dans le second cas il sagit dune gnralisation de cette distance usuelle, correspondant au choix M = 1/2 . Pour cette raison, on introduit la dnition suivante. Dnition 8.1 Lestimateur de dni dans la proprit 8.4 est appel estimateur des moindres MCG . On a donc carrs gnraliss. On le note MCG = (X V 1 X )1 X V 1 Y
5. Il est facile de vrier que si M est une matrice relle (n, n) inversible, alors lapplication (u, v ) Rn Rn M (u v ) est une distance sur Rn : elle est positive si u = v et nulle sinon, symtrique et vrie lingalit triangulaire.

sec:mcg.csqces
189
8.3.2
Utilisations de lestimateur MCG de
MCG comme un estimateur MCO dans le modle relatif aux variables transforLe fait de voir MCG (et des statistiques associes) directement mes X et Y permet dobtenir les proprits de partir des rsultats du chapitre 5 propres aux modles de rgression linaire standards. Cependant, lorsquon cherche interprter les rsultats dune estimation par MCG il faut bien se placer dans le modle initial relatif aux variables X et Y , puisque ces dernires sont les seules et Y . Les notions quil est pertinent quon soit capable dinterprter (contrairement donc X dintroduire et dtudier doivent donc tenir compte de cela. Cest en particulier le cas des valeurs ajustes 8.3.2.1 Valeurs ajustes, rsidus. Estimation de
sec:mcg.resid
La notion de valeur ajuste est introduite pour tenter dapprocher X , la partie de la variable endogne explique par les variables exognes. Si on se plaait directement dans le modle transMCG , on dnirait le vecteur des valeurs ajustes comme form servant obtenir lestimateur MCG . Une telle dnition na pas dintrt au vu de ce que quon souhaite approcher au moyen X des valeurs ajustes. La bonne dnition est donc la suivante : Dnition 8.2 La ie valeur ajuste issue de lestimation par MCG est la variable alatoire note n i dnie par Y i = X Y i MCG . Le vecteur des valeurs ajustes est le vecteur alatoire Y de R dont MCG . = X les coordonnes sont les n valeurs ajustes. On a Y On dnit aussi le ie rsidu i comme lestimation de la partie de Yi quon ne peut expliquer i et par les variables exognes. On a donc dans le contexte dune estimation par MCG i = Yi Y le vecteur des rsidus est = Y X MCG .
Linterprtation des valeurs ajustes et des rsidus est rigoureusement identique celle donne la section 2.4.1 dans le contexte de lestimation du MRLS par MCO. 8.3.2.2 Tests dhypothses
sec:mcg.test
Incomplet : ETA unknown
190
Chapitre 9
Complments
sec:nor
9.1
9.1.1
Lois normales et lois dduites de la loi normale

Lois normales univaries
sec:nor_univ
def:loi_nor1
Dnition 9.1 On dit que la variable alatoire X suit une loi normale (ou gaussienne) sil existe un rel quelconque et un rel strictement positif tels que la fonction de rpartition FX de X scrit x 1 t 2 1 FX (x) = e 2 ( ) dt 2 On dit dans ce cas que X est normale (ou gaussienne) et on note X N (, 2 ).
rem:nor
Remarque 9.1 X est gaussienne ssi il existe R et ]0, [ tels que X est une variable alatoire relle continue de densit : fX (x) =
1 x 2 1 e 2 ( ) 2
(9.1)
eq:densnor
Cette fonction tant une fonction de densit, on a fX 0, ce quon vrie aisment, et

e 2 (
x 2
) dx =
(9.2)
eq:int_n01
pour tout et tout > 0. Cette dernire galit sera admise. Pour en trouver la preuve, faire une recherche internet sur intgrale de Gauss . Comme la densit dune variable alatoire permet de connatre sa loi et que fX nest paramtre que par les rels et , on voit que la loi dune v.a.r. gaussienne est connue ds que ces deux rels le sont. R La fonction fX de la dnition 9.1 possde les proprits suivantes. Proprit 9.1 2. limx fX (x) = 0 = limx fX (x) 191 1. fX (x) > 0, x R
192
fX (x)
1 2
CHAPITRE 9. COMPLMENTS

fig:dens_norm
Figure 9.1: Courbe de la densit fX de la v.a.r. X N (, 2 ) 3. fX admet un maximum unique en :

1 2
5. fX admet un axe de symtrie dquation x = : fX ( x) = fX ( + x) x R La preuve de ces proprits sobtient par une tude classique de la fonction fX (valeurs, drives premire et seconde, limites). Elles sont rsumes par la gure 9.1. On remarque que lorsque 0, le maximum de fX tend vers linni et ses points dinexion tendent vers , tous deux de manire continue et monotone. Autrement dit, si tend vers 0, la forme en cloche de la courbe de fX devient plus troite et plus haute. Graphiquement, cette proprit est illustre par la gure 9.2 qui reprsente la densit de la loi normale desprance 0, pour plusieurs valeurs direntes de . On constate que plus est proche de 0, plus la courbe de la densit de fX (x) = 0.5
4. fX possde deux points dinexion, en et +
= fX () > fX (x), x =
=1 =2
0
fig:densnor_sig
Figure 9.2: Forme de la densit de la loi N (0, 2 ) en fonction de
X est tasse autour de lesprance. En consquence, comme la surface sous la courbe de la densit vaut toujours 1 quel que soit , pour nimporte quel rel a > , la probabilit pour que X dpasse a doit tendre vers 0 lorsque tend vers 0. Cest ce qui est illustr par la gure 9.3. La probabilit P(X > a) est la surface sous la courbe de densit droite de a. Pour une valeur de correspondant
9.1. LOIS NORMALES ET LOIS DDUITES DE LA LOI NORMALE
193
la courbe rouge, cette probabilit est la somme des surfaces bleue et rouge. Pour une valeur de plus petite associ la courbe bleue, cette probabilit est plus faible et nest gale qu la surface bleue. Comme ceci est vrai pour tout a > , la probabilit pour que X dpasse est nulle la fX (x)
4
fig:fdrnor_sig
a 3 2 1 0 1 2 3 Figure 9.3: P(X > a) en fonction de pour X N (, 2 )
4x
limite (quand 0). Par un raisonnement analogue qui exploite la symtrie de fX autour de laxe vertical dquation x = , la probabilit pour que X soit plus petite que est galement nulle la limite. Donc lorsque tend vers 0, la loi de X N (, 2 ) tend vers la loi dune variable alatoire Y telle que P(Y < ) = P(Y > ) = 0. Ce rsultat dduit de lobservation des graphiques des gures 9.2 et 9.3 se dmontre formellement. 1
pro:nor_var0
Proprit 9.2 Soit un rel et Y la variable alatoire telle que P(Y = ) = 1. On note F la fonction de rpartition de Y , i.e., F (x) = 0 si x < et F (x) = 1 sinon. Soit X une variable alatoire de loi N (, 2 ). Lorsque tend vers 0, X tend en loi vers Y : lim0 FX (x) = F (x) pour tout x = .
x fX (t) dt. Preuve : Pour montrer que FX (x) F (x), il faut tablir la limite de lintgrale FX (x) = Pour cela, on utilise un thorme qui permet de permuter la limite et lintgrale, et dcrire x x que lim0 fX (t) dt = lim0 fX (t) dt. Le thorme utilis est le thorme de convergence domine. Il tablit que si {gn : n 1} est une suite de fonctions qui converge ponctuellement vers g , et pour laquelle il existe une fonction g telle que |g(x)| dx < et |gn (x)| |g(x)| x R et n > N pour un certain rang N , alors la limite de lintgrale des gn est gale lintgrale de g .
Comme dans ltude de la convergence, F (x) ne prend que deux valeurs possibles selon que x > ou x < , on distingue deux cas. On commence par choisir un x > et on va montrer que lim0 FX (x) = F (x) = 1, ou de manire quivalente que 1 lim0 FX (x) = 1 F (x) = 0, ou encore que lim0 x fX (t) dt = 0. Pour cela, on utilise le thorme de convergence domine dans lequel gn (t) =
1 2
la densit de X avec = 1/n. Il sut de montrer que limn
1 n
1 2
t 2 1/n
. Autrement dit on considre

x gn (t) dt
= 0. On a
1. La preuve de ce rsultat sobtient facilement en utilisant les proprits des fonctions caractristiques. En labsence dune prsentation de ce type de fonctions, la dmonstration sappuiera sur la dnition 9.1 et sera un peu plus longue que celle habituellement propose.
194
CHAPITRE 9. COMPLMENTS gn (t) g (t) = 0 t. Dautre part, pour N susamment grand, on a 0 gn (t) gN (t), t x, n N . Pour le montrer, on remarque que
t 2 1 dfX 1 2( ) (t) = e d 2 2
1 est du signe de t susamment petit (et donc 1. On peut toujours trouver = N un N susamment grand) tel que cette drive est positive en t = x. Elle le restera pour 1 tout t x et pour tout = n avec n N . Donc pour tout t x on aura n N 1 . On peut donc = gn (t) gN (t). Finalement, puisque x > , on a x gN (t) dt 2 gn (t) dt = appliquer le thorme de convergence domine avec g = gN et on a limn x x g (t) dt = 0.
Cette proprit montre que pour susamment proche de 0, la loi dune variable alatoire N (, 2 ) est arbitrairement proche de la loi de la variable alatoire constante Y = . On considre alors que cette dernire est une variable alatoire gaussienne de variance nulle ( 2 = 0). De manire gnrale, tout rel c peut tre vu comme une variable alatoire gaussienne Y N (c, 0).
Si on choisit maintenant un x < , on peut calquer le raisonnement prcdent pour obtenir lim0 FX (x) = 0. Cependant, en utilisant la symtrie de fX autour de , on peut montrer que pour tout x < , il existe un y > tel que FX (x) = 1 FX (y ). Le raisonnement prcdent tablit que le terme de droite converge vers 0 lorsque 0.
La proprit 9.3 ci-dessous prsente les proprits les plus utiles de la loi normale univarie. Sa preuve repose sur le rsultat intermdiaire suivant.
x + xe 2 0 2
lem:nor_univ
Lemme 9.1
dx = 1 et donc
2
Preuve : On note que la fonction x xe

+ 0
x 2
x + 2 xe
dx = 0
x 2 2
est la drive de la fonction x e

x 2 2
. Par consquent
xe
x 2 2
dx = e
+ 0
= 1 lim e
x + + 0
x 0 2 xe 2
x 2 2
=1
Ce qui tablit la premire galit. On a galement

+
xe
x 2 2
dx =
xe
x 2 2
dx +
xe
x 2 2
dx
x + xe 2 0 2
Comme la fonction x xe seconde galit.

pro:nor_univ
x 2 2
est impaire, on a
dx =
dx, do la
Proprit 9.3 Si X N (, 2 ), alors E(X ) = et V(X ) = 2 Preuve : On a E(X ) =

on eectue le changement de variable y = xe 2 (

1 x 2
1 2
x 1 2( ) xe
dx. On dtermine la valeur de lintgrale, pour laquelle

x .
On a

) dx =
(y + )e
y2 2
dy = 2
ye
y2 2
dy +
y2 2
dy
Le premier terme de cette somme est nul daprs le lemme 9.1. En utilisant lgalit (9.2), 2 = . on dduit que le second terme est gal 2 . On a donc E(X ) = 21
195
(x Par ailleurs, puisquon vient dtablir que E(X ) = , on a V(X ) = E (X )2 = 2 ) fX (x) dx. En utilisant cette expression de fX et en eectue le changement de variable y = (x )/ , on peut crire
1 V(X ) = 2
2 y 2 e
y2 2
2 dy = 2
y 2 e
y2 2
dy
On calcule la valeur de lintgrale. On commence par remarquer que la fonction intgrer est paire. Par consquent son intgrale est gale 2 intgration par parties o lintgrale et v (y ) = y . On obtient alors u(y ) = 2
0 2 y2 dy . On eectue ensuite une 0 y e y2 calculer scrit 0 u (y )v (y ) dy avec u (y ) = ye 2 y2 e 2 et v (y ) = 1. Par consquent
y2 2
y 2 e
y2 2
dy = 2 ye
0
y2 2
y2 2
dy 2
Le premier terme de cette dirence est 2 limy+ ye (en appliquant lgalit (9.2)). On en dduit donc que
= 0. Le second est gal
2 2 = 2 V(X ) = 2 La remarque 9.4 et la proprit 9.3 montrent que la loi dune variable alatoire gaussienne est entirement caractrise par son esprance et sa variance. Parmi toutes les possibilits pour ces deux moments, on distingue le cas correspondant la loi normale N (0, 1). Cette loi est appele loi normale centre rduite. Cest une loi pour laquelle la lesprance et la variance sont normalise 0 et 1, respectivement. Elle joue un rle central dans ltude et la manipulation des lois normales, ainsi quon le montrera plus bas.
pro:nor_lin_EV
Proprit 9.4 1. Si X N (, 2 ) alors X + b N ( + b, 2 ) pour tout rel b. 2. Si X N (0, 2 ) alors aX N (0, a2 2 ) pour tout rel a.
Preuve :
1. On a P(X + b x) = P(X x b) et en eectuant le changement de variable u = t + b on a P(X x b) =

x b
1 t 2 1 e 2 ( ) dt = 2
1 1 e 2 2
u(+b) 2
du
Donc la variable X + b admet une densit correspondant celle dune variable N ( + b, 2 ), do le rsultat. 2. Considrons dabord le cas a > 0. On a P(aX x) = P(X x/a) et en eectuant le changement de variable u = at on a P(X x/a) =
x/a
1 t 2 1 e 2 ( ) dt = 2
1 u 2 1 e 2 ( a ) du 2 a
196
CHAPITRE 9. COMPLMENTS Donc la variable aX admet une densit correspondant celle dune variable N (0, a2 2 ), do le rsultat. On suppose maintenant a < 0. On a P(aX x) = P(X x/a) et en utilisant la symtrie de la densit de X autour de 0 on a P(X x/a) =
x/a
1 t 2 1 e 2 ( ) dt = 2
x/a
1 t 2 1 e 2 ( ) dt 2
On peut prsent eectuer le changement de variable u = at et on a

x/a
1 t 2 1 e 2 ( ) dt = 2
2 1 u 1 e 2 ( a ) du 2 (a )
1 et b = , on obtient un rsultat En appliquant les rsultats de la proprit 9.4 avec a = important qui montre que ds quon a une loi normale N (, 2 ) quelconque, on peut toujours se ramener la loi normale centre rduite N (0, 1).
cor:nor_lin_EV
Donc la variable aX admet une densit correspondant celle dune variable N (0, a2 2 ), do le rsultat. Finalement, si a = 0 la variable alatoire aX est gale 0. En utilisant la proprit 9.2 et la remarque qui suit, on a aX N (0, 0), do le rsultat.
Corollaire 9.1 Si X N (, 2 ), alors la variable alatoire Z =
suit une loi N (0, 1).
La proprit 9.4 permet dobtenir facilement un rsultat important sur les loi normales univaries.
pro:nor_lin
Proprit 9.5 Pour nimporte quelle paire de rels (a, b), la variable alatoire dnie par Y = aX + b est gaussienne avec Y N (a + b, a2 2 ).
En appliquant le rsultat prcdent avec a = et b = , on a la rciproque du corollaire 9.1 : partir dune variable alatoire Z N (0, 1) on peut obtenir nimporte quelle loi normale N (, 2 ).
cor:nor_lin
Preuve : On note que Y = a(X ) + (a + b). Daprs le point 1 de la proprit 9.4, la variable alatoire (X ) suit une loi N (0, 2 ). Daprs le point 2 de cette mme proprit, a(X ) suit une loi N (0, a2 2 ). En appliquant une nouvelle fois le point 1, on dduit que la variable a(X ) + (a + b) suit une loi N (a + b, a2 2 ).
Corollaire 9.2 Si Z N (0, 1), alors X = Z + suit une loi normale N (, 2 ). Les corollaires 9.1 et 9.2 montrent le rle primordial jou par la loi N (0, 1) dans ltude et lutilisation des lois normales. Ce rsultat a un quivalent dans le contexte des lois normales multivaries.
sec:lnor_mult
9.1.2
Lois normales multivaries
La notion de variable gaussienne stend des n-uplets de variables alatoires.

def:normul
Dnition 9.1 Soient X1 , . . . , Xn , n variables alatoires. Le n-uplet X = (X1 , . . . , Xn ) est un nuplet gaussien, si pour tout n-uplets (a1 , . . . , an ) de rels, la combinaison linaire a1 X1 + + an Xn est une variable alatoire gaussienne.
197
Dans le cas o on manipule des n-uplets de variables alatoires, il est commode de voir ce n-uplet comme un vecteur alatoire de Rn , i.e., un vecteur dont les coordonnes sont des variables alatoires. Dans ce cas, on dit que X est un vecteur gaussien de taille n et on crit ses coordonnes en colonne : X1 . . X= ou X = (X1 , . . . , Xn ) . Xn De la dnition 9.1, on tire immdiatement le rsultat suivant. Proprit 9.6 Si X est un vecteur gaussien, alors tout entier m {1, . . . , n} et pour tout choix dindices i1 , . . . , im dans {1, . . . , n}, le sous-vecteur (Xi1 , . . . , Xim ) de X est gaussien. En particulier, chacune des variables alatoires qui composent X est une variable alatoire gaussienne. Preuve : Toute combinaison linaire de Xi1 , . . . , Xim est une combinaison linaire de X1 , . . . , Xn . Le cas particulier des variables qui composent X sobtient en choisissant m = 1. La rciproque de ce rsultat nest pas vraie. En gnral, un vecteur form partir de variables alatoires gaussiennes nest pas ncessairement gaussien, ainsi que le montre lexemple suivant. Soit Z une variable alatoire N (0, 1) et X une variable alatoire indpendante de Z telle que 1 . Considrons la variable alatoire Y = XZ . On a P(X = 1) = P(X = 1) = 2 P(Y x) = P(XZ x) = P(XZ x, X = 1) + P(XZ x, X = 1) = P(Z x, X = 1) + P(Z x, X = 1) = P(Z x) o la dernire galit rsulte de la symtrie de la loi N (0, 1) autour de 0. On en dduit que Y a la mme loi que Z , i.e., Y N (0, 1). Or le couple (Y, Z ) ne peut tre gaussien. En eet, sil ltait, la variable alatoire Y + Z devrait tre gaussienne. Or P(Y + Z = 0) = P (X + 1)Z = 0 = P(X = 1) = ce qui serait impossible si Y + Z tait gaussienne. Remarque 9.2 Daprs la dnition ci-dessus, la loi dun vecteur gaussien est caractrise par les lois de toutes ses combinaisons linaires (il faut vrier que ces lois sont des lois gaussiennes). Comme on la remarqu dans la section 9.1.1, une loi gaussienne est caractris par son esprance et sa variance (ou son cart-type). Par consquent, la loi dune combinaison linaire a1 X1 + + an Xn est caractrise par E(a1 X1 + + an Xn ) = a1 1 + + an n
n n
pro:normul
= P(Z x)P(X = 1) + P(Z x)P(X = 1) =
1 P(Z x) + P(Z x) 2
1 2
em:loinormul2moments
et V(a1 X1 + + an Xn ) =
ai aj ij
i=1 j =1
198
page:vcov
o i = E(Xi ) et ij = cov(Xi , Xj ), i, j = 1, . . . , n. Donc pour un choix donn de a1 , . . . , an , la loi de a1 X1 + + an Xn est entirement caractrise par les nombres i et ij , i, j = 1, . . . , n. Comme cest le cas pour toute combinaison linaire, on voit que la loi du vecteur X doit tre entirement caractrise par ces mmes nombres. Si on dnit le vecteur E(X ) dont la ie coordonne est E(Xi ) la matrice V(X ) dont le (i, j )e lment est cov(Xi , Xj ) alors la loi dun vecteur gaussien X est entirement caractrise par le vecteur E(X ) et la matrice V(X ). Par consquent, on note X Nn (E(X ), V(X )). Si on a E(X ) = et V(X ) = V , on note X Nn (, V ). La matrice V(X ) est appel matrice des variances-covariances de X . Ses lments diagonaux sont les variances des variables X1 , . . . , Xn et ses lments hors diagonale sont les covariances entre ces variables. Cette matrice possde les proprits suivantes. R Proprit 9.7 Soit X un vecteur alatoire (pas forcment gaussien). On a 1. V(X ) = E X E(X ) X E(X ) = E(XX ) E(X ) E(X ) o pour toute matrice de variables alatoires A = (Aij )i=1,...,p,j =1,...,q , E(A) est la matrice des esprances dont le (i, j )e lment est E(Aij ). 3. V(X ) est symtrique semi-dnie positive. Elle est dnie positive si et seulement si quels que soient les rels a0 , . . . an , lgalit P(a0 + a1 X1 + + an Xn = 0) = 1 implique a0 = a1 = = an = 0. Preuve : 1. Daprs la dnition de E(X ), le ie lment de X E(X ) est Xi E(Xi ). Donc le (i, j )e lment de X E(X ) X E(X ) est Yij = (Xi E(Xi ))(Xj E(Xj )). Le (i, j )e lment de E X E(X ) X E(X ) est E(Yij ) = cov(Xi , Xj ), ce qui montre la premire galit. Pour montrer la seconde, on se sert de lexpression cov(Xi , Xj ) = E(Xi Xj ) E(Xi )E(Xj ) et en procdant comme avant, on montre que cest le (i, j )e lment de E(XX ) E(X ) E(X ) . 2. Si B est une matrice de nombres rels de taille p n, alors V(BX ) = B V(X )B .
pro:mat_v_cov
2. Ce rsultat sobtient en utilisant lexpression de la variance donne dans le point prcdent de cette proprit. 3. La symtrie de V(X ) rsulte de celle de la covariance : cov(Xi , Xj ) = cov(Xj , Xi ) i, j .
Par ailleurs, pour tout vecteur de Rn , le point prcdent permet dcrire que V (X ) = V( X ). Or X est la variable alatoire 1 X1 + + n Xn et la variance dune variable alatoire nest jamais ngative. Par consquent V (X ) 0, Rn . Finalement, supposons que limplication P(a0 + a1 X1 + + an Xn = 0) = 1 = a0 = a1 = = an = 0 soit vraie. Soit Rn avec = 0n . On a V(X ) = V( X ) 0. Supposons que V( X ) = 0. Dans ce cas, il existe un rel c tel que P( X = c) = 1. Daprs limplication suppose vraie, on devrait avoir c = 1 = = n = 0 ce qui contredit lhypothse pose = 0n . Par consquent, V( X ) > 0 Rn , = 0n .
199
Supposons maintenant que V(X ) soit dnie positive et quon puisse trouver des rels a0 , . . . , an non tous nuls, tels que P(a0 + a1 X1 + + an Xn = 0) = 1. En posant a = (a1 , . . . , an ) , on a alors a V(X )a = V(a X ) = 0 avec a = 0n , ce qui contredit lhypothse de dpart que V(X ) est dnie positive. En utilisant la remarque de la n de la section prcdente, on voit quun vecteur donn de Rn est un vecteur gaussien. Plus prcisment, pour tout vecteur c Rn , on peut dnir le vecteur alatoire A tel que P(A = c) = 1. Pour tout vecteur a Rn on a P(a A = a c) = 1, on peut considrer que la variable alatoire a A est gaussienne avec a A N (a c, 0) (voir la remarque qui suit la proprit 9.3). Cela montre que toute combinaison linaire de A est une variable alatoire gaussienne et donc que A est un vecteur gaussien. En utilisant la dnition 9.1 et le point 2 de la proprit 9.3, on obtient facilement le rsultat suivant.
pro:norlin
Proprit 9.8 Si X est gaussien de taille n, alors pour tout vecteur a Rm et toute matrice A de taille m n, le vecteur Y = a + AX est un vecteur gaussien de taille m. Proprit 9.9 Soit Rn et V une matrice symtrique semi-dnie positive, de taille n n. On dnit le vecteur alatoire X = + AZ o Z Nn (0n , In ) et A est une matrice n n telle que AA = V . On a X Nn (, V ). Preuve : Lexistence de la matrice A est garantie par le fait que V est symtrique semi-denie positive. Comme Z est gaussien, la proprit 9.8 implique que X = + AZ est un vecteur gaussien. On calcule alors E(X ) = + AE(Z ) = et V(X ) = V(AZ ) = AV(Z )A = AA = V .
pro:nordens
Proprit 9.10 Si X est un n-uplet gaussien Nn (, V ) et V est dnie positive, alors P(X1 x1 , X2 x2 , . . . , Xn xn ) = o la fonction fX est dnie par fX (t1 , . . . , tn ) = = 1 1 exp ( (t )V 1 (t ) 2 (2 )n/2 |V |1/2 1 (2 )n/2 |V |1/2 1 exp 2
n n i=1 j =1 x1 x2
xn
fX (t1 , t2 . . . , tn ) dt1 , dt2 . . . dtn
et t = (t1 , . . . , tn ) et vij est le (i, j )e lment de V 1 .
vij (ti i )(tj j )
Dans la proprit prcdente, la fonction fX est la fonction de densit de X . La condition V dnie positive garantit que |V | = 0 et donc que V 1 existe. Lexpression de la densit dun vecteur alatoire X gaussien formalise la remarque faite prcdemment que la loi de ce vecteur est entirement caractrise par E(X ) et V(X ).
Une proprit fondamentale de la loi normale multivarie tablit que pour cette loi lindpendance et la non-corrlation sont quivalentes. On commence par rappeler la notion dindpendance pour des vecteurs alatoires.
200
def:varindep
Dnition 9.2 Soit (X1 , . . . , Xn ) un n-uplet de variables alatoires. On dit que X1 , . . . , Xn sont indpendantes (ou indpendantes dans leur ensemble) si pour tout entier m {1, . . . , n} et tout m-uplet (i1 , . . . , im ) dlments distincts de {1, . . . , n} on a P(Xi1 x1 , . . . , Xim xm ) = P(Xi1 x1 ) P(Xim xm ) pour tout (x1 , . . . , xm ) Rm . Autrement dit, X1 , . . . , Xn sont indpendantes si la loi jointe de tout m-uplet de variables distinctes prises parmi X1 , . . . , Xn est gale au produit des lois marginales des variables de ce m-uplet. Un consquence immdiate de cette dnition est que les variables de tout m-uplet form partir de n variables indpendantes (distinctes) sont aussi indpendantes. Il ne faut pas confondre lindpendance des variables X1 , . . . , Xn avec leur indpendance deux deux, qui tablit que pour nimporte quelle paire de variables distinctes prises parmi X1 , . . . , Xn , on a P(Xi a, Xj b) = P(Xi a)P(Xj b), (a, b) R2 . Il ne faut pas non plus assimiler lindpendance de X1 , . . . , Xn la condition P(X1 x1 , . . . , Xn xn ) = n i=1 P(Xi xi ), n (x1 , . . . , xn ) R . (9.3)
eq:indep
On prsente un rsultat intermdiaire sur les variables indpendantes qui permet de simplier la preuve de la proprit 9.12.
lem:norindep
Lemme 9.2 Soit X = (X1 , . . . , Xn ) un n-uplet de variables alatoires (pas forcment gaussien). 1. Si pour tout i = 1, . . . , n, il existe un rel ci tel que P(Xi = ci ) = 1 ( i.e., la variable Xi est constante), alors X1 , . . . , Xn sont indpendantes. 2. Si pour un r {1, . . . , n}, il existe des rels cr+1 , . . . , cn pour lesquels P(Xr+1 = cr+1 ) = = P(Xn = cn ) = 1 (autrement dit, les n r dernires variables de X sont constantes), alors X1 , . . . , Xn sont indpendantes si et seulement si X1 , . . . , Xr le sont. Preuve : 1. Pour tout x R et tout indice i = 1, . . . , n, on a P(Xi x) = 0 ou 1, selon que x < ci ou x ci . Pour tout m, tout choix de (x1 , . . . , xm ) Rm et tout choix dindices i1 , . . . , im on a :
0= 1 =
m k =1 m k =1
P(Xik xk ) si k t.q. xk < ck
P(Xi1 x1 , . . . , Xim xm ) =
P(Xik xk ) sinon
2. Supposons que X1 , . . . , Xn soient indpendantes. Alors daprs la remarque qui suit la dnition 9.2, les variables X1 , . . . , Xr le sont aussi. Rciproquement, supposons que X1 , . . . , Xr soient indpendantes. La condition (9.3) est satisfaite chaque fois que tous les indices i1 , . . . , im sont pris dans {1, . . . , r }. De plus, cette condition est galement satisfaite si tous ces indices sont choisis dans {r + 1, . . . , n}, daprs le
o ces galits rsultent de P(A B ) = 0 si P(A) = 0, et P(A B ) = P(B ) si P(A) = 1.
201
point prcdent de ce lemme. Pour que X1 , . . . , Xn soient indpendantes, il reste par consquent vrier que la condition (9.3) est vraie lorsque parmi i1 , . . . , im il y a des indices la fois dans {1, . . . , r } et dans {r + 1, . . . , n}. Soient donc m un entier dans {1, . . . , n}, un m-uplet de rels (x1 , . . . , xm ) et des indices i1 , . . . , im , choisis dans {1, . . . , n} de sorte que l dentre eux (les l premiers par exemple) soient dans {1, . . . , r } et m l soient dans {r + 1, . . . , n}. An dallger la notation, pour tout k = 1, . . . , m, on note Ak lvnement (Xik xk ). Si pour un indice k {l + 1, . . . , m} on a P(Ak ) = 0, alors P(A1 Am ) = 0 = m k =1 P(Ak ). Dans le cas contraire o P(Al+1 ) = = P(Am ) = 1, on a :
l m m
P(A1 Am ) = P(A1 Al ) =
P(Aj )
j =1 k =l+1
P(Ak ) =
i=1
P(Ai )
o la premire galit vient de P(Ak ) = 1, k = l + 1, . . . , m, et la deuxime du fait que par hypothse et choix des indices, Xi1 , . . . , Xil sont indpendantes. Dans les deux cas, la conditions (9.3) est bien vrie et X1 , . . . , Xn sont indpendantes.
pro:norindepend
Proprit 9.11 Soit X Nn (, V ). Les coordonnes X1 , . . . , Xn de X sont des variables alatoires indpendantes si et seulement si la matrice des variances-covariances V est diagonale. Preuve : Si X1 , . . . , Xn sont indpendantes, alors elles sont non-corrles et les lments hors diagonaux de V sont nuls : V est donc diagonale. 2 , . . . , 2 ses lments diagonaux. An Supposons prsent que V soit diagonale et notons 1 n de couvrir le cas o V nest pas dnie positive, on permet que certains lments de sa diagonale puissent tre nuls. Quitte renumroter les coordonnes de X (ce qui ne change rien au fait que sa matrice des variances-covariances soit diagonale), on suppose que pour 2 > 0 pour k = 1, . . . , r et 2 = 0 pour k = r + 1, . . . , n. un certain r {0, 1, . . . , n}, on a k k 2 , les (Si r = n, aucun lment diagonal de V nest nul.) Dans ce cas, puisque V (Xi ) = i variables alatoires Xr+1 , . . . , Xn sont constantes. Si r = 0, alors toutes les variables du n-uplet X sont constantes et on peut appliquer le point 1 du lemme 9.2 pour conclure que X1 , . . . , Xn sont indpendantes. Si r > 0 alors daprs le point 2 de ce mme lemme, X1 , . . . , Xn sont indpendantes si X1 , . . . , Xr le sont. On va donc montrer que cest la cas. Soit m un entier dans {1, . . . , r } et i1 , . . . , im des lments de {1, . . . , r }. Daprs la proprit 9.6, Y = (Xi1 , . . . , Xim ) est un vecteur gaussien et chacune des coordonnes de Y est une variable alatoire gaussienne. On a E(Y ) = (i1 , . . . , im ) . De plus, V(Y ) est une 2 , . . . , 2 . Puisque i {1, . . . , r }, matrice diagonale dont les lments diagonaux sont i k im 1 2 > 0, k = 1, . . . , m. Donc la matrice V(Y ) est dnie positive. Son on a forcment i k 2 dterminant est gal au produit de ses lments diagonaux : |V(Y )| = m k =1 ik . De plus, 1 V(Y ) est la matrice diagonale dont les lments diagonaux sont linverse des lments 2 diagonaux de V(Y ). Pour tout a Rm on a a V(Y )1 a = m k =1 (ak /ik ) . En utilisant la proprit 9.10, on peut crire P(Xi1 x1 , . . . , Xim xm ) = 1 (2 ) 2 |V(Y )| 2
m 1
x1
xm 1 2
m k=1
ti i k i k
d t1 . . . d tm
202 On a (2 ) |V(Y )| = (2 ) et e Donc on peut crire P(Xi1 x1 , . . . , Xim xm ) = = = =

1 2
ti i k i k 1 2 m k=1 ti i k i k 2 m 2 1 2
m m k =1 2 i k
1 2
=
k =1
2 2i k
1 2
=
k =1
2 2i k
=
k =1
1 2
ti i k i k
x1 x1 x1 x1
2
xm m k =1
1
2 2i k
m k =1
1 2
ti i k i k
d t1 . . . d tm
xm m k =1 xm
1
2 2i k
1 2
ti i k i k
dt1 . . . dtm
fXi1 (t1 ) fXim (xm ) dt1 . . . dtm

xm
fXi1 (t1 ) dt1
fXim (xm ) dtm
o fXik (ti ) =
1
2 2i k
est la densit de la variable gaussienne Xik , k = 1, . . . , m
(voir la dnition 9.1). On en dduit que P(Xi1 x1 , . . . , Xim xm ) = P(Xi1 x1 ) P(Xim xm ) Ceci tant vrai pour tout m, tout x1 , . . . , xm et tout i1 , . . . , im , on en conclut que X1 , . . . , Xr sont indpendantes. Bien quil soit en gnral faux de dire quun vecteur form de variables gaussiennes est gaussien, il existe un cas particulier et important dans lequel ceci est vrai.
pro:norindep
Proprit 9.12 Si Z1 , . . . , Zn sont n variables alatoires gaussiennes indpendantes, alors le vecteur Z = (Z1 , . . . , Zn ) est gaussien. Un cas particulier de la proprit prcdente sobtient lorsque les variables indpendantes Z1 , . . . , Zn sont toutes de loi N (0, 1). Dans ce cas, E(Z ) = 0n et V(Z ) = In , o In est la matrice identit n n, et on a Z Nn (0n , In ). Les proprits 9.8 et 9.12 permettent de montrer que pour tout vecteur Rn et toute matrice symtrique dnie positive V de taille n n, on peut construire un vecteur alatoire gaussien X tel que X Nn (, V ) partir de variables alatoires Z1 , . . . , Zn indpendantes, de loi N (0, 1).
On termine cette section en prsentant un rsultat semblable la proprit 9.11 valable pour des sous-vecteurs dun vecteur alatoire gaussien.

def:vec_indep
203
Dnition 9.3 Soient X = (X1 , . . . , Xp ) et Y = (Y1 , . . . , Yq ) deux vecteurs alatoires. On dit que X et Y sont indpendants si la loi de (X, Y ) est gale au produit de la loi de X par celle de Y : P(X1 a1 , . . . , Xp ap , Y1 b1 , . . . , Yq bq ) = P(X1 a1 , . . . , Xp ap ) pour nimporte quels rels a1 , . . . , ap , b1 , . . . , bq .
P(Y1 b1 , . . . , Yq bq )
pro:vec_nor_indep
Proprit 9.13 Soient X et Y deux sous-vecteurs dun vecteur gaussien. On forme le vecteur gausX sien Z = . X et Y sont indpendants si et seulement si la matrice des variances-covariances Y de Z est bloc-diagonale, de la forme V(Z ) =
V(X ) 0
0 V(Y )
Preuve : Si X et Y sont indpendants, alors toutes les covariances entre une coordonne de X et une coordonne de Y sont nulles. Par dnition de la matrice V(Z ) (voir page 198 avant la proprit 9.7), ce sont prcisment ces covariances qui constituent les blocs extra-diagonaux de V(Z ). Cette matrice a donc dans ce cas la forme donne dans lnonc. Supposons maintenant que cette matrice soit bloc-diagonale. Sa matrice inverse sera galement bloc-diagonale et en utilisant un procd semblable celui utilis dans la preuve de la proprit 9.11, on peut sparer de manire multiplicative la densit de Z en une partie qui ne dpend que des coordonnes de X dune part, et une partie qui ne dpend que des coordonnes de Y , dautre part. On arrive ainsi crire une galit semblable celle de la dnition 9.3.
rem:vec_nor_indep
Remarque 9.3 Dans le rsultat prcdent, on constate quil y a indpendance entre deux sousvecteurs dun vecteur gaussien ds que toutes les covariances quil est possible de former partir des couples de leurs coordonnes sont nulles. Ceci peut sexprimer partir de la matrice de covariance entre le vecteur X et le vecteur Y , note cov(X, Y ) et dont llment constitutif est cov(Xi , Yj ), o Xi et Yj sont respectivement la ie coordonne de X et la j e coordonne de Y . Cette matrice est donc de dimensions p q o p est la taille du vecteur X et q celle de Y. En utilisant la mme mthode que dans la preuve de la proprit 9.7, on montre que cov(X, Y ) = E X E(X ) Y E(Y ) = E(XY ) E(X )E(Y ) . Il est alors facile de montrer que cov(Y, X ) = cov(X, Y ) . La condition ncessaire et susante pour que les deux sous-vecteurs X et Y de la proposition prcdente soient indpendants est que la matrice cov(X, Y ) soit nulle. Notons que la matrice cov(X, Y ) possde les proprits suivantes, qui sobtiennent directement en utilisant sa dnition, ainsi que les proprits des covariances entre variables alatoires.
pro:cov_vec
Proprit 9.14 Soient X et Y deux vecteurs alatoires de Rn et Rm respectivement. La matrice cov(X, Y ) dnie dans la remarque ci-dessus satisfait les proprits suivantes : 1. cov(Y, X ) = cov(X, Y )
204
2. cov(X, a + AY ) = cov(X, Y )A et donc (en utilisant le premier point) cov(b + BX, Y ) = B cov(X, Y ) 3. cov(X, X ) = V(X ) o a et b sont des vecteurs (non alatoires) de Rqa et Rqb respectivement, et A et B sont des matrices relles (non alatoires) de dimensions qa n et qb n respectivement. Les deux proprits prcdentes et la dnition de la matrice cov(X, Y ) permet dobtenir le rsultat suivant. Proprit 9.15 Soit Z Nn (, V ) o V peut scrire V = 2 In pour un certain rel . Soient A et B deux matrices relles de dimensions respectives mA n et mB n. Si AB = 0, alors les vecteurs alatoires AZ et BZ sont indpendants. Preuve : Dnissons le vecteur alatoire Y par Y = AZ BZ = CZ
ro:indep_formlin_nor
o C =
A . Il est facile de vrier que toute combinaison linaire des coordonnes de Y B scrit comme une combinaison linaire des coordonnes de Z . Par consquent, Y est un vecteur gaussien et tant donne sa forme, on a V(Y ) =
V(AZ ) cov(BZ, AZ )
cov(AZ, BZ ) V(BZ )
En utilisant la proprit 9.13, AZ et BZ seront indpendants si et seulement si cov(AZ, BZ ) = 0. Daprs la proprit 9.14, on a cov(AZ, BZ ) = Acov(Z, Z )B = AV(Z )B . Comme V(Z ) = 2 In , on a cov(AZ, BZ ) = 2 AB = 0. Remarque 9.4 Notons que sous les conditions de la proprit 9.15, toute fonction de AZ est indpendante de toute fonction de BZ . Un cas important dans lequel ce rsultat est utilis est celui o les matrices A et B telles que AB = 0 sont symtriques et idempotentes. Dans ce cas, si Z Nn (0n , 2 In ) alors les formes quadratiques Z AZ et Z BZ sont des variables alatoires indpendantes lune de lautre. De mme la variable alatoire Z AZ est indpendante du vecteur BZ . Le point 3 de la proprit 6.1 est bas sur cette remarque.
9.1.3
Lois drives de la loi normale
Dans de nombreuses applications, on est amen utiliser des variables alatoires construites comme des fonctions de plusieurs variables alatoires gaussiennes. 9.1.3.1
sec:chi2 def:chi2
La loi du 2
2 i=1 Zi ,
Dnition 9.4 La loi du 2 degrs de libert est la loi de la variable alatoire C = o Z1 , . . . , Z sont des variables alatoires N (0, 1) indpendantes. On note C 2 ( )
205
Notons que si on considre les variables Z1 , . . . , Z comme les coordonnes du vecteur alatoire Z = (Z1 , . . . , Z ) R , alors la variable C de la dnition est le carr de norme de Z . Donc la dnition dit que si Z N (0 , I ) alors Z 2 2 ( ). Proprit 9.16 1. Soit C 2 ( ). On a (a) P(C x) = 0, x 0 et pour x > 0, P(C x) =
x 0
t 1 t 2 1 e 2 dt 2 ( 2 ) 2
i.e. C admet sur R+ une densit fC (x) = dnie sur R+
(b) E(C ) = et V(C ) = 2
x 1 x 2 1 e 2 o est la fonction gamma 2 ( 2 ) x 1 t par x (x) = 0 t e d t. 2
2. Soient C1 2 (1 ) et C2 2 (2 ) indpendantes. Alors C1 + C2 2 (1 + 2 ). Dtermination des valeurs de la distribution du 2 au moyen dun tableur et du logiciel R : Tableur R Probabilit P(C x) 1 - LOI.KHIDEUX(x; ) pchisq(x, ) Quantile qp : P(C qp ) = p LOI.KHIDEUX.INVERSE(p; ) qchisq(p, )
2 ), avec > 0 Soient X1 , . . . , X des variables alatoires indpendantes telles que Xk N (k , k k k 9.1. De plus, Z , . . . Z sont pour k = 1, . . . , . On a Zk = Xk N (0 , 1) daprs le corollaire 1 k indpendantes et daprs la proprit 9.12, le vecteur alatoire Z = (Z1 , . . . Z ) est gaussien N (0 , I ) et donc Z 2 2 ( ). On note X le vecteur alatoire de Rp de coordonnes X1 , . . . , X , le vecteur de coordonnes 1 , . . . , et V la matrice des variances-covariances de X , autrement dit 2 1 0 0 1 X1 2 0 0 2 2 X2 V = . = . X= . . . .. . . . . . . . . . . .
Il est facile de vrier que (X ) V 1 (X ) =
2 k =1 Zk
= Z
2.
On a donc le rsultat suivant.
cor:nor_indep_chi2
Corollaire 9.3 Si X1 , . . . , X sont variables alatoires indpendantes, gaussiennes de variances non nulles, alors (X ) V 1 (X ) 2 ( ) o et V sont respectivement lesprance et la matrice des variances-covariances du vecteur X = (X1 , . . . , X ) . Le corollaire ci-dessus montre que ds que des variables gaussiennes ont une matrice des variancescovariances V diagonale, alors la forme quadratique (X ) V 1 (X ) est une variable alatoire suivant une loi du 2 . On a un rsultat plus gnral qui exploite la proprit centrale de lquivalence entre lindpendance et la non corrlation pour les variables gaussiennes. Dans le cas o un vecteur gaussien X na pas une matrice des variances-covariances V diagonale (et donc les variables qui constituent les coordonnes de X ne sont pas indpendantes), on peut
206
eectuer un changement de base pour lequel le vecteur X exprim dans cette nouvelle base a une matrice des variances-covariances diagonale. Le changement de base tant une opration linaire, grace aux proprits 9.7 et 9.8, aprs changement de base on a toujours un vecteur gaussien, mais dont la matrice des variances-covariances est diagonale. Comme on la montr dans le corollaire 9.3, on peut alors lui associer une forme quadratique dont la loi est une loi du 2 . On nonce et prouve ce rsultat de manire formelle.
pro:nor2chi
Proprit 9.17 Si X N (, V ) avec V inversible, alors (X ) V 1 (X ) 2 ( ). Preuve : Soit P la matrice de passage telle que = P 1 V P est diagonale. Comme V est relle symtrique, on peut choisir P orthonorme, i.e., telle que P P = I . Dans ce cas P 1 = P et = P V P . Si on dnit le vecteur alatoire de Y de R par Y = P (X ), alors daprs la proprit 9.8, Y est un vecteur gaussien, et en utilisant la proprit 9.7, on a E(Y ) = P E(X ) = 0 et V(Y ) = P V(X )P = P V P = . Autrement dit Y N (0 , ). Comme est diagonale, en utilisant le corollaire 9.3 on a Y 1 Y 2 ( ). Or en utilisant le fait que P 1 = P , on a 1 = P V 1 P . Donc Y 1 Y = (X ) P 1 P (X ) = (X ) V 1 (X ). Do le rsultat. On constate que Y et X dsignent le mme vecteur de R exprim dans les deux direntes bases, pour lesquelles la matrice de passage est P
Il existe un autre cas important dans lequel une forme quadratique en un vecteur gaussien a une distribution du 2 .
pro:chi2_idempot
Proprit 9.18 Soit A une matrice symtrique idempotente ( i.e., A2 = A) de dimensions . Soit X N (0 , I ). On a X AX 2 (r ) o r est le rang de A. Preuve : Comme A est symtrique, on peut trouver un matrice de passage P orthonorme et une matrice diagonale telles que = P AP , ou encore telles que A = P P . Comme P est orthonorme, on a A2 = P P P P = P 2 P . Comme A2 = A on doit avoir P 2 P = P P ou encore 2 = (puisque P est inversible). Comme est diagonale, e cette galit quivaut 2 i = i , i = 1, . . . , o i est le i lment diagonal de . Par consquent i {0, 1} pour tout i. On note q (q ) le nombre dlments diagonaux de gaux 1. Quitte changer lordre des lignes de P et de , on peut toujours supposer que les q premiers lments diagonaux de sont gaux 1 et les q derniers gaux 0. Schmatiquement, la matrice a la forme =
Iq 0 0 0
Son rang est videmment gal q . De plus, comme = P AP et que P est inversible (de rang p), a le mme rang que A. On a donc q = r . On dnit prsent le vecteur Y = P X . En appliquant les proprits 9.7 et 9.8 et le fait que P est orthonorme, on dduit que 2 Y N (0 , I ). On peut alors crire X AX = X P P X = Y Y = r i=1 Yi , o la dernire galit provient de la forme de . En appliquant la dnition 9.4, on obtient le rsultat voulu.
207
Remarque 9.5 La rciproque de ce rsultat est galement vraie : si pour une matrice A symtrique et un vecteur X N (0 , I ), la variable alatoire X AX suit une loi du 2 (r ), alors A est idempotente et de rang r . Ces rsultats sont des cas particuliers dun rsultat plus gnral appel thorme de Cochran. 9.1.3.2 La loi de Fisher
Cn /n Cd /d ,
sec:fisher
def:fisher
Dnition 9.5 La loi de Fisher (n, d) degrs de libert est la loi de la variable alatoire F = o Cn 2 (n) et Cd 2 (d) sont indpendantes. On note F F (n, d) Proprit 9.19 Si F F (n, d) alors : 1. P(F x) = 0 si x 0 et
d ( n d 2 + 2) n P(F x) = n n2 d2 d ( 2 )( 2 )
x 0
t 2 1 (d + nt)
n+d 2
dt
si x > 0. 2. E(F ) nest dnie que pour n > 2 et on a E(F ) = pour n > 4 et on a V(F ) = 3.
1 F n(d4)(d2)2 . 2n2 (n+d+2) n n2 .
La variance de F nest dnie que
F (d, n). Probabilit P(F x) 1 - LOI.F(x;n;d) pf(x,n,d) Quantile qp : P(F qp ) = p INVERSE.LOI.F(1 p;n;d) qf(p,n,d)
Dtermination des valeurs de la distribution de Fisher au moyen dun tableur et du logiciel R : Tableur R 9.1.3.3
sec:student
La loi de Student (et loi de Cauchy)
Dnition 9.6 La loi de Student degrs de liberts est la loi de la variable alatoire T dnie par Z Tq =
C
o Z N (0, 1) et C 2 ( ) sont indpendantes. On note T ( ).

pro:loiT
Proprit 9.20 Si T ( ) alors : 1 ( +1 2 ) 1. P(T x) = 1 ( 2 )( 2)

x
(1 +
t2 +1 ) 2 dt
3. (T )2 F (1, ).
2. E(T ) nexiste que si > 1 et on a E(T ) = 0. La variance de T nest dnie que pour > 2 et on a V(T ) = 2.
208
Si = 1, la loi de T1 est la loi de Cauchy (T1 est le ratio de deux lois N (0, 1) indpendantes). Cette variable ne possde aucun moment. Dtermination des valeurs de la distribution de Student au moyen dun tableur et du logiciel R : Tableur R Probabilit P(T x) 1-LOI.STUDENT(x; ;1) pt(x, ) Quantile qp : P(T qp ) = p LOI.STUDENT.INVERSE(2(1 p); ) qt(p, )
9.2. PROJECTION ORTHOGONALE

sec:proj
209
9.2
Projection orthogonale
On prsente dans cette section les principaux rsultats lis au problme de la projection orthogonale dun espace sur un autre. Si on se donne un ensemble E et une partie F de E , lopration de projection consiste associer tout x E un lment y de F quon peut interprter comme une approximation de x. Il existe videmment plusieurs manires de raliser une projection. Les possibilits oertes dpendent des structures quon donne aux ensembles E et F . On considrera ici que E a une structure despace vectoriel et que F est un sous-espace de E . Avec une telle structure, on sait que si G est un sous-espace de E supplmentaire de F , alors tout lment (vecteur) x de E se dcompose de manire unique comme la somme dun lment de F et dun lment de G : x = xF + xG , avec xF F et xG G. Un manire de projeter x sur F est dassocier x llment xF de F dans la dcomposition de x sur F et G. Dans ce cas, on appelle xF la projection de x sur F , paralllement G. Ce mcanisme est illustr par le graphique de la gure 9.4. E est lespace R3 et F est un hyperplan de R3 passant par lorigine. Le supplmentaire G de F est nimporte quelle droite de R3 passant par lorigine, et qui nappartient pas F . On choisit nimporte quel vecteur x dans lespace et on fait apparatre sa dcomposition en la somme dun lment xG de G (en rouge) et dun lment xF de F (en bleu). La gure montre que la projection de x sur F paralllement G sobtient en se dplaant de x (dans lespace) vers lhyperplan F dans une direction qui est parallle la droite G. On voit que cette projection est la coordonne de x dans F . Lorsquon dote E dun produit scalaire, pour un sev donn F de E il existe un choix particulier de supplmentaire qui permet de dnir la projection orthogonale de x sur F . Le sous-ensemble de E form de tous les vecteurs de E orthogonaux F (cest dire tous les vecteurs de E orthogonaux nimporte quel vecteur de F ) est appel lorthogonal de F et not F . Formellement, on dnit F = {x E | x, y = 0 y F }. Cet ensemble F possde les proprits suivantes.
pro:proj1
Proprit 9.21 (Proprits de F ) Soit F un sous espace de E avec dim(F ) = p et dim(E ) = n, n ni. 1. Soient f1 , . . . , fp des vecteurs de E constituant une base de F . Alors F = {x E | x, fi = 0, i = 1, . . . , p} 2. F est un sous-espace de E 3. F F = {0E }
it:proj1
it:suplortho
4. E = F F : pour tout vecteur x de E , on peut trouver une paire unique (x1 , x2 ) F F telle que x = x1 + x2 . 5. Si H est un sev de E tel que H F , alors F H . Preuve : 1. Si x est dans F il est orthogonal tout vecteur de F et donc en particulier orthogonal aux vecteurs de la base de F . Si x est orthogonal tous les vecteurs de la base de F, alors par (bi)linarit du produit scalaire, il est orthogonal toute combinaison linaire des vecteurs de cette base, cest dire tout vecteur de F . 2. On vrie que 0E F et que si x et y sont deux vecteurs dans F , alors pour des scalaires quelconques et le vecteurs x + y est orthogonal F : pour tout
it:orthorth
210
CHAPITRE 9. COMPLMENTS vecteur z de F, on a x + y, z = x, z + y, z = 0 puisque x et y sont tous les deux orthogonaux z . Donc x + y est orthogonal z . 3. Si x F F on doit avoir que x est orthogonal lui mme : x, x = 0. Do x = 0E . 4. La preuve de cette proprit repose sur les deux rsultats suivants : (a) tout ev de dimension nie possde une base de vecteurs orthogonaux (b) on peut complter une famille de p vecteurs orthogonaux dun espace de dimension n par n p vecteurs orthogonaux pour former une base de cet espace En utilisant le point (a), on peut trouver une base orthogonale e1 , . . . , ep de F et par le point (b), on peut la complter par ep+1 , . . . , en pour obtenir une base de E . On note G lespace engendr par ep+1 , . . . , en . Tout vecteur x de E , dont les coordonnes sont x1 , . . . , xn dans la base e1 , . . . , , en , scrit de manire unique comme la somme n x = xF + xG avec xF = p i=p+1 xi ei G. Autrement dit i=1 xi ei F et xG = E = F G. On vrie que G = F . Si x G, il est clair que x F . Choisissons x F et montrons que x G. On a x F ssi ei , x = 0, i = 1, . . . , p. Or ei , x = n 2 2 = j =1 xj ei , ej = xi ei , par orthogonalit des e1 , . . . , en . Donc x F ssi xi ei 0, i = 1, . . . , p. Comme les vecteurs de la base ne peuvent tre nuls, x F xi = 0, i = 1, . . . , p. Donc tout vecteur de F est dans G.
5. Si x F alors il est orthogonal tout vecteur de F , et donc en particulier orthogonal tout vecteur de H . Donc x est dans H . On voit donc que F est un supplmentaire de F et la projection orthogonale sur F dun vecteur x de E est la projection de x sur F , paralllement F . Cette projection est donc est lunique vecteur xF de F pour lequel on a x = xF + xF avec xF F . Dans un tel contexte, on introduit lapplication qui associe tout x de E sa projection orthogonale sur F ; on note cette application projF (x) : si x = xF + xF , alors projF (x) = xF .
pro:PF
Proprit 9.22 (Proprits de projF ) 1. projF est une application linaire. 2. projF (x) = x si x F et projF (x) = 0E si x F . 3. (projF projF )(x) = projF (x). 4. On se donne B une base de E . Soit f1 , . . . , fp une base de F et A = (aij )i=1,...,n,j =1,...,p la matrice dont la j e colonne contient les n coordonnes de fj dans la base B. On dsigne par X et XF les n-uplets de scalaires dsignant les coordonnes de x et xF dans la base B, respectivement. Dans cette base, la matrice reprsentant projF est A(A A)1 A . Les coordonnes de xF = projF (x) sont donc XF = A(A A)1 A X . 5. Pour tout x E, on note x la norme de x induite par le produit scalaire : x = x, x . Pour x quelconque dans E , projF (x) est solution du problme minyF x y : y F , x y x projF (x) .
it:lin_PF
it:ident_PF
it:composPF
it:PF
it:PFmin
9.2. PROJECTION ORTHOGONALE Preuve :
211
1. Soient x et y deux vecteurs de E . Il existe (x1 , x2 ) F F et (y1 , y2 ) F F uniques, tels que x = x1 + x2 et y = y1 + y2 . Donc pour des scalaires quelconques et on a x + y = (x1 + x2 ) + (y1 + y2 ) = (x1 + y1 ) + (x2 + y2 ) (9.4)
eq:proj1
Puisque F et F sont des ev, (x1 + y1 ) F et (x2 + y2 ) F , et lgalit (9.4) est donc lunique dcomposition du vecteur x + y de E sur F et F (voir le point 4 de la proprit 9.21). Donc par dnition (x1 + y1 ) est la projection orthogonale de (x + y ) sur F et on a projF (x + y ) = projF (x) + projF (y ) 2. Si x F , lunique dcomposition de x sur F et F est x = x +0E . Donc projF (x) = x. On procde de mme pour montrer que projF (x) = 0E si x F .
4. Soit x E et xF sa projection orthogonale sur F . Comme xF F , il existe des scalaires 1 , . . . , p pour lesquels on a xF = 1 f1 + + p fp . En utilisant les coordonnes de f1 , . . . , fp dans la base B = (b1 , . . . , bn ), on peut crire
p p
3. Par dnition, projF (x) F . Daprs le point qui prcde, projF projF (x) = projF (x).
xF =
i=1
i a1i b1 + +
p i=1 i a1i
i ani bn
i=1
ou encore XF =
. = . . p i=1 a i=1 i ni
p
o = (1 , . . . , p ) . Par consquent, la dcomposition x = xF + xF donne pour les coordonnes : X = XF + XF = A + XF . On a alors A X = A A + A XF . Or, par construction de A, f1 , xF 0 . . = . . = . . fp , xF 0

a1i . i . . = A ani
A XF
(9.5)
eq:cond_ortho
puisque xF est orthogonal aux vecteurs de la base de F . Donc A X = A A. Par construction, A est de plein rang colonne, donc de rang p et par consquent A A est galement de rang p, de dimensions p p. Elle est donc inversible et on doit avoir = (A A)1 A X . On en dduit que XF = A = A(A A)1 A X . 5. Soit x E . Minimiser x y revient minimiser x y 2 . Pour tout y F, on a xy
2
= x projF (x)
= x projF (x) + projF (x) y

2
2 2
+ projF (x) y
+ 2 x projF (x), projF (x) y
212
CHAPITRE 9. COMPLMENTS Comme projF (x) et y sont dans F , le vecteur projF (x) y lest galement. De plus x projF (x) F . Donc x projF (x), projF (x) y = 0 et xy
2
= x projF (x)
+ projF (x) y
x projF (x)
On conclut en notant que projF (x) F . Remarque 9.6 Les p galits (9.5) sont appeles condition dorthogonalit. Elles tablissent que x xF est un vecteur orthogonal chacun des vecteurs fi de la base de F . En appliquant le point 1 des proprits 9.21, cela quivaut dire que x xF est orthogonal tout vecteur de F . En utilisant alors lunicit de la dcomposition de x = xF + xF sur F F , on constate que xF est le seul vecteur de F pour lequel x xF est orthogonal F . On a donc tabli le rsultat qui suit. Proprit 9.23 (Caractrisation de xF ) Sous les conditions de la proprit 9.21, la projection orthogonale de x sur F est lunique lment xF de E tel que : 1. xF F 2. (x xF )y, y F
cor:proj_emboit
Corollaire 9.4 Soient F et H des sev de E tels que H F . Alors pour tout x E on a x projH (x) x projF (x) Preuve : H F implique minyH x y minyF x y pour tout x E . Il sut de remarquer que daprs le dernier point de la proprit prcdente projH (x) et projF (x) sont les solutions respectives de ces deux minimisations. Remarque 9.7 Comme toute les matrice reprsentant une application linaire, la matrice reprsentant projF dpend de la base retenue. Dans bien des cas, la base de E est donne et F est un sev de E engendr par p vecteurs linairement indpendants de E et ceux-ci sont pris comme base de F . La matrice A contient donc les coordonnes de ces vecteurs dans la base initiale de E . On note PF la matrice reprsentant projF : PF = A(A A)1 A . Remarquons que quelle que soit la base de E choisie, si on note X le n-uplet des coordonnes de x dans cette base, on peut toujours crire
Ceci ne correspond pas en gnral la dcomposition x = xF + xF . En eet, dans le membre de droite de (9.6), le premier terme est les coordonnes dun vecteur qui appartient au sev de E engendr par les p premiers vecteurs de sa base, et le second est un vecteur du sev engendr par les n p derniers vecteurs de cette base. Ces deux sev ne concident pas forcment avec F et F .
X1 . Xp 0 . = + . 0 X p+1 . . Xn . . . . 0 Xn
X1 . . .
0 . . .
(9.6)
eq:projcoord
213
Cependant, si on sarrange pour choisir une base de E telle que ses p premiers lments constituent une base de F et les n p derniers constituent une base de F , alors dans cette base, la dcomposition (9.6) concide avec la dcomposition x = xF + xF . Plus prcisment, avec ce choix dont les p premiers lments sont adquat de base de E , les coordonnes de xF sont le n-uplet XF les p premires coordonnes de x dans cette base et les n p deniers sont gaux 0 : si X est le n-uplet des coordonnes de x dans base, on doit avoir
X1 . . .
XF
Avec un tel choix de base, la matrice reprsentative de projF est donc de la forme

Xp = 0 . . .
Ip
0p,np
0np,p 0np,np
= X . o Ip est la matrice identit dordre p. Si on note cette matrice, on vrie quon a bien XF
Dans la base initiale, la matrice associe projF est PF = A(A A)1 A et dans la nouvelle base, cette matrice est . Si on note Q la matrice de passage de la base initiale la nouvelle base, on doit avoir PF = QQ1 . La matrice Q contient les coordonnes des vecteurs de la nouvelle base dans lancienne. Comme les vecteurs de la nouvelle base sont orthonorms, on doit avoir ui , uj = 1 si i = j et 0 sinon. Si on dsigne par qij llment de la ie ligne et j e colonne de Q, alors llment la mme position dans Q Q est n k =1 qki qkj , ce qui, par construction de Q, concide avec ui , uj . Par consquent on a Q Q = In , ou encore Q1 = Q . Ce qui permet dcrire la relation suivante entre les matrices reprsentatives de projF dans la base initiale et la nouvelle base orthonorme : PF = QQ ou, de manire quivalente = Q PF Q. Comme est diagonale, on voit que le changement de base qui permet de reprsenter projF est celui qui permet de diagonaliser sa matrice reprsentative PF . Autrement dit, les valeurs propres de PF sont les lments diagonaux de , et sont donc gales 1 (avec un degr de multiplicit p) et 0 (avec un degr de multiplicit R n p). 2
rem:proj_comp
Un moyen dobtenir la base recherche consiste changer la base de F par une base UF = (u1 , . . . , up ) de vecteurs orthonorms et de la complter par n p vecteurs orthonorms up+1 , . . . , un pour former une base de E (cest toujours possible, voir la preuve du point 4 de la proprit 9.21). Ces n p derniers vecteurs sont orthogonaux aux p premiers et constituent une base de F .
Remarque 9.8 On peut dnir lapplication qui associe tout x E le reste xF = x xF de sa projection orthogonale sur F . Il est facile de voir que cette application est linaire. Si on note
2. Notons que bien que dans la totalit des utilisations que nous faisons de ces rsultats, le corps de scalaires sur lequel est construite la structure dev de E est R, dans le cas gnral, ce corps est quelconque. Par consquent 1 dsigne llment neutre pour la multiplication de scalaires et 0 dsigne llment neutre pour laddition des scalaires.
214
PF la matrice A(A A)1 A reprsentant lapplication projF , on voit que I PF est la matrice qui reprsente lapplication associant x le vecteur xF (o I est la matrice identit). En eet, puisque X = XF + XF et que XF = PF X on a ncessairement XF = (I PF )X .
rem:proj_const page:proj_const
Remarque 9.9 Un cas intressant dapplication en statistique est celui o E = Rn et F = R = {x Rn | x = c , c R}, o est le vecteur diagonal de Rn , i.e., celui dont toutes les coordonnes valent 1. F est le sev de Rn qui contient tous les vecteurs proportionnels , i.e. dont les coordonnes sont gales. Par consquent, si x est un vecteur de Rn , sa projection orthogonale sur F sera un vecteur xF proportionnel : on aura xF = c pour un certain rel c. On va montrer que le facteur de proportionnalit c est gal la moyenne des coordonnes de x. On a videmment que est une base de F et la matrice A de la proprit 9.22 est
1 A= . . .
Daprs le point 4 de la proprit 9.22, la matrice associe la projection orthogonale sur F est PF = A(A A)1 A . On calcule sans dicult que A A = n, et donc que 1 1 1 1 1 1 PF = AA = . . .. n n . . . . . 1 1
1 1 . . . 1
Soit X = (X1 , . . . , Xn ) le n-uplet des coordonnes de x. La projection orthogonale de x sur F est le vecteur xF dont les coordonnes sont donnes par 1 1 1 1 1 XF = PF X = . . .. n . . . . . 1 1 o X =
1 n n i=1 Xi
X1 1 1 X2 1 . = . . . n . . 1 Xn
n i=1 Xi n i=1 Xi
. . .
n i=1 Xi
X = . =X . .
est la moyenne des coordonnes de x.
La proprit suivante rsume les proprits importantes de la matrice PF .

pro:propr_PF
Proprit 9.24 (Proprits de PF ) Soit F un sev de rang p dun ev E . Dans une base de E , la matrice PF = A(A A)1 A reprsente la projection orthogonale de E sur F , note projF , o A est la matrice des coordonnes des vecteurs dune base de F . La matrice PF possde les proprits suivantes : 1. PF est symtrique 2. PF est de rang p 3. PF est idempotente
215
4. PF a deux valeurs propres distinctes : 0 et 1. Le degr de multiplicit de la valeur propre 1 est p. Preuve : 1. On le vrie partir de lexpression de PF . 2. Par construction, A est de plein rang colonne, gal p. 3. On le vrie partir de lexpression de PF ou bien en utilisant le point 3 de la proprit 9.22. 4. Ceci a t dmontr dans le paragraphe qui suit le corollaire 9.4. On peut le dmontrer en utilisant les mthodes usuelles de diagonalisation dune matrice. Comme PF est idempotente, toute valeur propre doit satisfaire PF x = x. Dune part, on a (comme 2 x = P (P x) = P x = P x = 2 x et dautre part, comme pour toute matrice) PF F F F F PF est idempotente, on a aussi PF x = 2 x. On doit donc avoir 2 = pour toute valeur propre de PF , ce qui implique que les seules valeurs propres possibles sont 0 ou 1. Comme la trace dune matrice est gale la somme de ses valeurs propres, la trace de PF est gal au nombre de valeurs propres gales 1. On a tr(PF ) = tr(A(A A)1 A ) = tr((A A)1 A A) = tr(Ip ) = p.
pro:proj_iter it:proj_iter it:proj_contr
Proprit 9.25 Soient F et H deux sev de E tels que H F . Pour tout x E on a 1. projF projH (x) = projH projF (x) = projH (x) 2. projF (x) H projF (x) = projH (x) Preuve : 1. Soit x E . Notons xH = projH (x). Comme xH H , on a galement xH F . Daprs le point 2 de la proprit 9.22, on a alors projF (xH ) = xH , ou encore projF projH (x) = projH (x). Notons maintenant xF = projF (x). On a donc x = xF + xF , o xF F . Daprs le point 5 de la proprit 9.21, on a aussi xF H . En utilisant le point 1 (linarit de la projection) de la proprit 9.22, on peut crire projH (x) = projH (xF ) + projH (xF ) Daprs le point 2 de cette mme proprit, on a projH (xF ) = 0. Donc on doit avoir projH (x) = projH (xF ), ou encore projH (x) = projH projF (x) . 2. Par construction, xH H . Par consquent, si xF = xH , alors xF H . Rciproquement, supposons que xF H . Dans ce cas, en appliquant le point 2 de la proprit 9.22, on a projH (xF ) = xF . Mais en utilisant ce qui vient dtre dmontr, on a aussi projH (xF ) = xH . En utilisant lunicit de la dcomposition sur des espaces supplmentaires, on a ncessairement xF = xH . Cette proprit (dite des projections embotes) peut tre illustre graphiquement. Le graphique de la gure 9.6 reprend celui de la gure 9.5, en y rajoutant un sev H de E tel que H F . Sur la gure, H est une droite (en vert) de E appartenant au plan F . La projection orthogonale de x sur H est xH . On voit quelle concide avec la projection orthogonale de xF sur H (cette opration de projection tant symbolise par les traits jaunes).
216
pro:projFH
Proprit 9.26 Soient F et H deux sev de E . On note H + F le sev dont les lments sexpriment comme la somme dun lment de F et dun lment de H . 1. F et H sont orthogonaux si et seulement si projF (projH (x)) = 0E x E . 2. Si F et H sont orthogonaux projF +H (x) = projF (x) + projH (x) x E .
it:FWp
3. projF +H = projF + projH o H est lespace orthogonal celui obtenu en projetant tous les = {x projF (x), x H }. lments de H sur F , i.e. H Preuve : 1. Supposons F et H orthogonaux. Comme projH (x) H , daprs 9.22 (point 2) on a ncessairement projF (projH (x)) = 0E . Rciproquement, supposons projF (projH (x)) = 0E pour tout x E . Cest en particulier vrai pour x H . Dans ce cas, toujours daprs 9.22 (point 2), on a projF (projH (x)) = projF (x) = 0E . Ceci implique (encore daprs 9.22, point 2), que x F . Comme ceci est vrai pour tout x H , on a le rsultat voulu. 2. Pour tout x E , il existe un unique x0 F + H et un unique x1 (F + H ) tel que x = x0 + x1 et on a projF +H (x) = x0 . Comme par dnition x0 F + H , on peut crire x0 = x0F + x0H avec x0F F et x0H H . Par ailleurs, on a par linarit de projH (voir proprit 9.22, point 1) : projH (x) = projH (x0F + x0H + x1 ) = projH (x0F ) + projH (x0H ) + projH (x1 ) = x0H car dune part x0F H et x0H H (et on applique la proprit 9.22, point 2), et dautre part, x1 (F + H ) H (daprs la proprit 9.21 (point 5)). On a de la mme manire projF (x) = x0F , et le rsultat est dmontr. . En eet, si cela est 3. La preuve sobtient en montrant que F + H scrit aussi F + H tablit, on aura ncessairement projF +H = projF +H , et comme par construction H est orthogonal F , on pourra appliquer le point prcdent pour obtenir le rsultat = {y = x projF (x), x H } lensemble des vecteurs pouvant scrire voulu. On a H comme la dirence dun x H avec sa projection orthogonale sur F . Il est facile de est un sev de E , et que F et H sont orthogonaux. On montre maintenant voir de H que F + H = F + H . En eet, soit x = xF + xH F + H . On a xF + xH = xF + projF (xH ) + xH projF (xH ) . Donc x F + H . Soit prsent Or xF + projF (xH ) F et xH projF (xH ) H x = xF + xH F + H . Par dnition de H on a xF + xH = xF + xH projF (xH ) = xF projF (xH )] + xH , pour un certain xH H . Comme xF projF (xH ) F et . Par consquent, xH H , on a bien x F + H . On a donc montr que F + H = F + H projF +H = projF +H avec F et H orthogonaux, et daprs le point prcdent de la proprit, on a aussi projF +H = projF + projH Remarque 9.10 Si on note PF et PH les matrices de projection orthogonale sur F et H , respectivement (voir la proprit 9.24), on peut rcrire les deux premiers points de la proprit 9.26 de la manire quivalente suivante :
217
1. F et H sont orthogonaux si et seulement si leurs matrices de projection orthogonales PF et PH sont orthogonales, i.e. PF PH = 0 2. Si F et H sont orthogonaux, alors PF +H = PF + PH introduit dans la preuve du troisime point de la proprit scrit H = Par ailleurs, le sev H {(I PF )x, x H }. Cest le sev obtenu en appliquant la transformation I PF aux lment de H . = (I PF )H Par consquent, la matrice de projection orthogonale sur H peut On peut le noter H scrire P(I PF )H . Le rsultat tablit alors que PF +H = PF + P(I PF )H .
rem:fwproj
Remarque 9.11 Le dernier point de la proprit prcdente est particulirement utile dans le cas o f1 , . . . , fp forment un base de F et h1 , . . . , hq forment une base de H . Lespace F + H est q donc lensemble de tous les vecteurs scrivant comme p i=1 xi fi + j =1 yj hj . On peut supposer les vecteurs f1 , . . . , fp , h1 , . . . , hq linairement indpendants et dans ce cas, ils forment une base de G = F + H , qui est de dimension p + q . En utilisant les rsultats sur les espaces vectoriels, on 1, . . . , h q de manire que f1 , . . . , fp , h 1, . . . , h q peut complter la famille f1 , . . . , fp par q vecteurs h forment une base de G ; et daprs le procd de Gram-Schmidt, ces q vecteurs peuvent tre choisis j = hj proj (hj ). orthogonaux fi , i = 1, . . . , p, avec plus prcisment : h F 1, . . . , h q . En scrit comme une combinaison linaire de h On peut vrier que tout vecteur de H q y = xprojF x pour un x H . Mais x doit ncessairement scrire x = eet, y H j =1 xj hj , et par linarit de la projection, on a
q q q q q q
y=
j =1
xj hj projF (
xj hj ) =
j =1
j =1
xj hj
xj projF (hj ) =
j =1 j =1
xj [hj projF (hj )] =
j xj h
j =1
On peut galement vrier que ces vecteurs sont linairement indpendants. En eet, si on note PF j = MF hj , o MF = I PF . Soient a1 , . . . , aq la matrice de la projection orthogonale sur F , on a h q des scalaires tels que j =1 aj hj = 0. On a dans ce cas
q q
aj MF hj = MF
j =1 j =1
aj hj = 0
Autrement dit, q j =1 aj hj appartient au noyau de MF . Par construction de MF , ce noyau est q videmment F . Donc on doit avoir q j =1 aj hj = 0, (2) j =1 aj hj F , ce qui implique que (1) soit q soit j =1 aj hj est une combinaison linaire des lments de la base de F . Comme on a suppos au dpart que (f1 , . . . , fp ) et (h1 , . . . , hq ) taient des familles linairement indpendantes, la seconde possibilit est exclue. On doit donc avoir q j =1 aj hj = 0, et par indpendance linaire des h1 , . . . , hq , on a aussi a1 = = aq = 0. En rsum q a1 = = aq = 0. Les vecteurs j =1 aj hj = 0 = h1 , . . . , hq sont donc linairement indpendants. 1, . . . , h q forment une base de H . Par En combinant les deux rsultats prcdents, on conclut que h consquent, on a G = F + H . Donc la projection sur G = F + H peut galement se voir comme , et comme par construction les vecteurs de la base de H sont orthogonaux la projection sur F + H sont orthogonaux et on peut appliquer le rsultat du deuxime point de la ceux de F , F et H proprit. En rsum, en posant F = (f1 , . . . , fp ) et H = (h1 , . . . , hq ), la preuve consiste changer la base ) de manire que H soit orthogonale F . Pour y parvenir, (F , H) de G = F + H en une base (F , H
218
on utilise le procd de Gram-Schmidt qui consiste prendre le reste de la projection orthogonale de H sur F . 3
3. Dans une telle formulation, on utilise un raccourci conceptuel permettant dassimiler un espace vectoriel aux vecteurs de sa base.
219
G x
xG
xF
fig:proj
Figure 9.4: Projection dun vecteur x de E = R3 sur un hyperplan F , paralllement G
220
F x
xG
xF
fig:projorth
Figure 9.5: Projection orthogonale dun vecteur x de E = R3 sur un hyperplan F
221
xF
xF 0 xH
fig:projproj
Figure 9.6: Illustration des projections embotes : si H F alors projH projF (x) = projH (x)
222
sec:normat
9.3
Normes matricielles
On aura besoin dtudier la convergence de suites de matrices. Les matrices quon considre seront supposes carres. On peut dire quune suite de matrices {An : n 1} de dimensions q q converge vers une matrice A si pour tout i, j = 1, . . . , q , la suite {an,ij : n 1} converge vers aij . Mme si elle convient parfaitement, cette dnition prsente linconvnient que, sans autre caractrisation, on est oblig dtudier la convergence de q 2 suites. Pour des vecteurs de Rm (cest dire pour des matrices m 1), on tudie la convergence au moyen de la convergence de la suite des normes : la suite de vecteurs {an : n 1} converge vers a Rm si et seulement si la suite { an a : n 1} converge vers 0. Cette caractrisation de la convergence est justie par le fait que la norme de an a est aussi la distance entre an et sa limite a. On voit alors quon nest pas tenu dtudier la limite de chaque suite {ani : n 1} pour i = 1, . . . , m, mais seulement celle forme partir de la norme. Il faut pour cela disposer dune norme. On tudie dans cette section les manires de dnir une norme sur des espaces vectoriels de matrices, an de pouvoir caractriser la convergence de suites de matrices.
sec:norm.mat.def
9.3.1
Dnition et proprits
On note Mq (R) lespace vectoriel des matrices carres de taille q q et entres relles. Une norme sur Mq (R) est appele norme matricielle.
def:norme.mat
Dnition 9.7 Une norme matricielle est une application 1. (positivit) A 0 et A+B A = 0 A = 0(q,q) A A a R + A B
: Mq (R) R satisfaisant
2. (homognit)
3. (sous-additivit)
aA = |a| AB
4. (sous-multiplicativit)
pour nimporte quelles matrices A et B dans Mq (R). On constate quune norme matricielle est une norme satisfaisant la proprit de sous-multiplicativit. Remarque 9.12 Parmi toutes les normes matricielles, on peut mentionner celle note dnie par A = max{aij , i, j = 1, . . . , q }
rem:normat.puiss
Remarque 9.13 La sous-multiplicativit des normes sur Mq (R) a une consquence importante. En eet, on doit avoir A2 A 2 et donc An A n pour tout n 1. R Remarque 9.14 Lorsquon dispose dune norme matricielle, on peut caractriser la convergence de {An : n 1} vers A par la convergence de An A vers 0. Remarquons que la sous-additivit R permet dtablir, comme avec toute norme, que si An A, alors An A . 4
4. Il sut simplement dutiliser la sous-additivit pour borner suprieurement A = (An A) + An , ce qui quivaut alors An A An A . An = (A n A ) + A et
rem:normat1
9.3. NORMES MATRICIELLES

rem:oplimmat
223
Remarque 9.15 La convergence ainsi dnie satisfait les oprations usuelles importantes sur les limites. En particulier, si {An : n 1} et {Bn : n 1} sont deux suites de Mq (R) telles que An A et Bn B , alors An + Bn A + B , An A et An Bn AB . Ces proprits se montrent en utilisant les quatre conditions qui dnissent la norme utilise pour tablir les convergences. Par exemple, An Bn AB = (An A)Bn + A(Bn B ) An A Bn + A Bn B 0
o lingalit est obtenue par sous-additivit et sous-multiplicativit. Remarque 9.16 La convergence de An vers A tant dnie laide dune norme matricielle, on peut envisager que cette convergence puisse se produire pour un certain choix de la norme, mais que si on change de norme, la convergence nait plus lieu. Cependant, il est possible de montrer que si on se donne deux normes matricielles 1 et 2 sur Mq (R), alors on peut trouver deux rels strictement positifs et tels que A
1
A Mq (R)
Autrement dit si An A 1 0, on aura galement An A 2 0. Ce rsultat est important puisquil sut par exemple de savoir dmontrer la convergence dune suite de matrices avec une norme bien choisie pour que cette convergence ait aussi lieu avec nimporte quelle autre norme. R Remarque 9.17 En utilisant la remarque prcdente, on peut faire le lien entre la convergence dune suite de matrice {An : n 1}, exprime au moyen dune norme matricielle, et la convergence de chacune des q 2 suites {aij,n : n 1}, i, j = 1, . . . , q . En eet, considrons la norme matricielle A = max{ q j =1 |aij |, i = 1, . . . , q } (Exercice : vrier que cen est bien une). Si avec cette norme An 0q,q , alors toutes les suites {aij,n : n 1} convergent vers 0. En eet An 0q,q max{ q j =1 |aij,n |, i = 1, . . . , q } 0. Cela signie que pour tout > 0 il existe n tel que n > q n = max{ j =1 |aij,n |, i = 1, . . . , q } < . Or
q q
max{
j =1
|aij,n |, i = 1, . . . , q } <
j =1
|aij,n | < i = 1, . . . , q i = 1, . . . , q
= |aij,n | < j = 1, . . . , q
Donc si n > n , on a |aij,n | < pour tout i, j = 1, . . . , q , ce qui quivaut la convergence vers 0 de toutes les suites {aij,n : n 1}. Daprs la remarque prcdente, ce qui vient dtre tabli avec la norme matricielle particulire A = max{ q j =1 |aij |, i = 1, . . . , q } peut stablir avec nimporte quelle autre norme matricielle. Le rayon spectral dune matrice joue un rle important dans ltude des proprits des matrices. Ce rayon spectral est reli la notion de norme par un ensemble de rsultats (voir notamment la section 9.3.2). Dnition 9.8 Le rayon spectral dune matrice A Mq (R) est le rel (A) dni par (A) = max{|| : Ax = x, x Rq }.
224
Le rayon spectral est donc la plus grande valeur propre en module.

pro:ray.spec
Proprit 9.27 Pour toute norme sur Mq (R) et toute matrice A Mq (R), on a (A) A . De plus, pour toute matrice A Mq (R) et > 0, il existe une norme matricielle (dpendant de A et de ) note A, telle que A A, < (A) + . Preuve : On ne prouve que la premire partie de la proprit. On se donne nimporte quelle norme sur Mq (R). Par dnition de (A), il existe une valeur propre de A telle que || = (A). Pour cette valeur propre et le vecteur propre x associ, on a Axx = xx et donc A xx Axx = xx = || xx o lingalit provient de la sous-multiplicativit et la dernire galit rsulte de lhomognit (voir la dnition 9.7). Par dnition de (A), lingalit scrit aussi A xx (A) xx . Comme x est un vecteur propre de A, x = 0q et daprs la positivit de la norme, xx = 0, ce qui donne le rsultat voulu.
rem:ray.spec
Remarque 9.18 Ce rsultat montre donc que le rayon spectral de A est linmum de A lorsquon parcourt toutes les normes possibles sur Mq (R). En particulier, (A) < 1 si et seulement si il existe une norme sur Mq (R) telle que A < 1. En eet, soit A une matrice de Mq (R). Si A < 1 pour une certaine norme, alors la proprit prcdente implique (A) < 1. Rciproquement, si (A) < 1, alors on peut trouver > 0 tel que (A) + < 1. La proprit 9.27 tablit quil existe une norme matricielle = A, sur Mq (R) pour laquelle A < (A) + < 1. Proprit 9.28 Soit A Mq (R). On a An 0q,q lorsque n si et seulement si (A) < 1. Preuve : Supposons que (A) < 1. On peut trouver > 0 tel que (A) + < 1, et daprs la proprit 9.27, on peut trouver une norme A, sur Mq (R) telle que A A, < 1. On a n alors An A, A n A, 0 lorsque n . Donc A converge vers 0q,q . Par lquivalence des normes sur Mq (R), cette convergence a galement lieu avec nimporte quelle autre norme. Supposons que An 0q,q lorsque n . Soit la valeur propre de A pour laquelle (A) = || et x le vecteur propre associ. On a An x = n x. Si on note M (x) la matrice de Mq (R) dont les q colonnes sont toutes gales x, on a An M (x) = n M (x). Comme An 0q,q , on doit aussi avoir Bn = An M (x) 0q,q (voir la remarque 9.15). Comme Bn = (A)n M (x) , on ne peut avoir Bn 0 que si (A) < 1. Remarque 9.19 La remarque 9.18 permet de reformuler cette proprit de la manire suivante : An 0q,q si et seulement si il existe une norme sur Mq (R) pour laquelle A < 1.
pro:conv.An
Proprit 9.29 Soit A Mq (R). Si (A) < 1, alors (Iq A) est inversible et (Iq A)1 =
i i=0 A .
Preuve : Supposons que (A) < 1. Il existe une norme sur Mq (R) telle que A < 1. Soit x Rq tel que (Iq A)x = 0q , ou encore x = Ax. En dnissant M (x) la matrice de Mq (R) dont les q colonnes sont toutes gales x, on a x = Ax M (x) = AM (x). Donc M (x) A M (x) , ou encore (1 A ) M (x) 0. Comme A < 1, ceci nest possible que si M (x) = 0, cest--dire x = 0q . Autrement dit, (Iq A)x =
225
0q = x = 0q , cest dire Iq A est inversible. Dnissons Bn = Iq + A + A2 + An . Notons que (Iq A)Bn1 = Iq An , ou encore Bn1 = (Iq A)1 (Iq An ). Par consquent Bn (I A)1 = (I A)1 An+1 et donc Bn (I A)1 (I A)1 An+1
Comme (A) < 1, An+1 0 lorsque n (proprit 9.29). Par consquent, le membre de droite de lingalit converge vers 0, et donc le membre de gauche aussi, i.e., Bn (Iq A)1 , i 1 ou encore i=0 A = (Iq A) .
rem:conv.An
Remarque 9.20 Le rsultat prcdent peut aussi snoncer : si (Iq A) < 1, alors A est inversible i et A1 = i=0 (Iq A) . En eet, il sut dappliquer la proprit 9.29 la matrice B = Iq A. Corollaire 9.5 Si A et B sont deux matrices carres de Mq (R) telles que A est inversible et A B < A1 1 , alors B est inversible. Preuve : On a AB < 1 A1 AB A1 <1
cor:inv.mat
La sous-multiplicativit de la norme implique que dans ce cas, on a aussi (A B )A1 < 1, i.e., Iq BA1 < 1. La proprit prcdente implique alors que BA1 est inversible. Par consquent, B lest aussi. Remarque 9.21 Le rsultat du corollaire prcdent tablit que si A est une matrice inversible, alors toute matrice susamment proche 5 est galement inversible. Le corollaire montre que suR samment proche signie une distance infrieure A1 1 . La proprit suivante sobtient facilement et permet de prouver le thorme 9.1
pro:cont.inv.mat
Proprit 9.30 Soit A Mq (R) telle que (Iq + A)1 1 1 A
A < 1. Alors Iq + A est inversible et on a et (Iq + A)1 Iq A 1 A (9.7)
eq:cont.inv.mat
Preuve : On a (Iq + A) = (Iq B ) avec B = A et B = A < 1, donc (B ) < 1. On peut alors appliquer la proprit 9.29, ce qui donne linversibilit de (Iq + A). Cette mme proprit donne (Iq + A)1 = (Iq B )1 = Par consquent (Iq + A)
1 i=0
Bi =
i=0
(A)i
i=0
(A)
i=0
1 1+ A
AB .
5. La proximit tant dnie au moyen de la distance induite par la norme : la distance entre A et B est
226
CHAPITRE 9. COMPLMENTS (o lingalit sobtient par sous-additivit et sous-multiplicativit de ). On a obtenu la premire ingalit de lnonc. Par ailleurs, et pour les mmes raisons que ci-dessus, on a (Iq + A)1 Iq =
i=1
(A)i
i=1
i=0
1 =
1 1 A
ce qui est la seconde ingalit de lnonc. On peut prsent noncer et prouver le rsultat suivant, qui est lun des plus importants de cette section.
th:cont.inv.mat
(R) des matrices inversibles de M (R) Thorme 9.1 Soit lapplication dnie sur lensemble Mq q 1 (R) : et valeurs dans Mq (R), dnie par A (A) = A . Lapplication est continue sur Mq A Mq (R),
Hn 0q,q = (A + Hn ) (A) Hn 0 = (A + Hn )1 A1 0
ou encore,
A Mq (R),
Preuve : On montre facilement que est continue en Iq . Pour cela, considrons Hn 0q,q . Cela signie qu partir dun certain rang, les matrices Iq + Hn seront toutes inversibles. En eet, puisque Hn 0q,q , Hn = (Iq + Hn ) In 0 et donc on peut trouver n1 tel que pour tout n > n1 on a (Iq + Hn ) In < 1. En utilisant la remarque 9.20, on dduit que Iq + Hn est inversible pour tout n > n1 . Pour de tels n, on peut alors former (Iq + Hn )1 et puisque Hn < 1, la seconde ingalit (9.7) permet dcrire (Iq + Hn )1 Iq Hn 1 Hn
Donc lorsque Hn 0, on a aussi (Iq + Hn )1 Iq 0, ce qui quivaut la continuit (R) quelconque, on obtient linversibilit de A + H de la de en A = Iq . Pour A Mq n manire suivante. On a Hn = (Hn + A) A. Comme A est inversible et que Hn 0, on peut trouver n2 tel que Hn = (Hn + A) A < 1 A1
pour tout n > n2 . Le corollaire 9.5 permet de conclure que A + Hn est inversible pour tout n > n2 . Pour de tels n, on peut crire (A + Hn )1 = A(Iq + A1 Hn ) n = A1 Hn . Donc o H (A + Hn )1 A1 On a alors Hn 0 = n H 0 = n )1 Iq (Iq + H 0 = (A + Hn )1 A1 0 = n )1 Iq A1 (Iq + H n )1 Iq (Iq + H A1 (9.8)
1
n )1 A1 = (Iq + A1 Hn )1 A1 = (Iq + H
eq:cont.inv.mat
o la premire implication provient de la sous-multiplicativit de , la seconde provient de la continuit de en Iq et la dernire de lingalit (9.8). Cette succession dimplications tablit la continuit de en A.
227
Ce rsultat est trs important puisquil permet de conclure que si pour une suite {An } de matrices de Mq (R), on a An A o A est une matrice inversible, alors les An sont inversibles 1 1 (il sut dappliquer le thorme 9.1 avec H = A A). partir dun certain rang, et on a A n n n A
sec:norm.mat.subord
9.3.2
Norme subordonne
On a not que toutes les normes sur Mq (R) taient quivalentes. On prsente ici des manires de construire de telles normes. Cette construction consiste introduire des normes matricielles partir dune norme sur Rq .
pro:normat
Proprit 9.31 Soit
une norme sur lespace Rq . Lapplication A = sup{ Ax t.q. x Rq , x = 0} x
: Mq (R) R dnie par
est une norme sur Mq (R). On lappelle norme subordonne la norme

rem:normat
sur Rq .
t.q. x Rq , x = 0} = sup{ Ax t.q. x Rq , x = Remarque 9.22 On constate que sup{ Ax x 1}. Par consquent, A = sup{ Ax t.q. x Rq , x = 1} ce quon notera A = sup
x =1
Ax .
On constate aussi que A = supxB1 f (x) o B1 = {x Rq , x = 1} et f (x) = Ax . Comme B1 est compact et que f est continue, le supremum de la dnition ci-dessus est atteint pour un x Rq tel que x = 1. Autrement dit, Ax Ax x B1 , et Ax { Ax t.q. x Rq , x = 1}. R Preuve de la proprit 9.31 : On a videmment la positivit de A . Supposons que A = 0. Daprs la dnition, Ax = 0 pour tout x t.q. x = 1, et donc Ax = 0 pour tout x Rq . Comme est une norme, on doit avoir Ax = 0 x Rq . Donc le noyau de A est Rq et A est de rang 0. Do A = 0. Par ailleurs, pour nimporte quel a R : aA = sup
x =1
aAx = sup |a| Ax = |a| sup

x =1
x =1
Ax = |a|
ce qui montre lhomognit. Pour vrier la sous-additivit, notons quen utilisant la sousadditivit sur la norme , on a pour tout x Rq : (A + B )x = Ax + Bx Ax + Bx Donc A+B sup ( Ax + Bx ) sup
x =1
Ax + sup
x =1
Bx = A
x =1
On montre enn la sous-multiplicativit. Notons que par dnition de A , on a Ax A x pour tout 0q = x Rq . De plus, si x = 0q , cette ingalit reste vraie. Soient donc
228
CHAPITRE 9. COMPLMENTS A et B dans Mq (R) et x Rq tel que x = 1. On pose y = Bx. Daprs ce quon vient de montrer, y B x et on peut alors crire ABx = Ay A y = A Bx A B x = A B
o la dernire galit provient du fait quon a choisi x tel que x = 1. Puisque ces relations sont vraies quel que soit le choix dun tel x, on a AB = sup
x =1
ABx A
La norme dnie ci-dessus dpend du choix de la norme sur Rq . Cependant, toutes le normes sur Rq tant quivalentes, les normes subordonnes sur Mq (R) sont galement quivalentes. Du point de vue qui nous intresse, cela signie que si An converge vers A avec une norme sur Mq (R), alors cette convergence a galement lieu avec nimporte quelle autre norme sur Mq (R). Rq Parmi toutes les normes subordonnes quon peut construire, celle obtenue lorsque la norme sur q 2 1/2 joue un rle particulier. Le rsultat suivant est la norme euclidienne usuelle x = i=1 xi donne une expression de cette norme.
pro:normatvp
Proprit 9.32 La norme sur Mq (R) subordonne la norme euclidienne usuelle sur Rq est donne par A = o est la plus grande valeur propre de A A. Preuve : On note que par construction A A est dnie positive et donc 0, ce qui justie la racine carre. Pour dmontrer le rsultat, il sut de montrer que A 2 = = max{i , i = 1, . . . , q }. Daprs la dnition de A , et la remarque 9.22, il existe un x Rq avec x = 1 tel que A 2 = Ax 2 Ax 2 , x Rq , x = 1 Ceci montre que x est solution du problme maxxR Ax 2 sous contrainte que x = 1. La contrainte scrit videmment de manire quivalente x = 1. Donc on rsoud maxxR Ax 2 s.c.q. x 2 = 1. En utilisant les rsultats usuels doptimisation, il doit alors exister un rel tel que L (x , ) = 0, i = 1, . . . , q (9.9) xi o L(x, ) = Ax note que
2
eq:lagnormat
( x
1) est le lagrangien associ au problme doptimisation. On

q q q
L(x, ) = x A Ax (x x 1) =
j =1 k =1
xj xk bjk (
j =1
x2 j 1)
o les rels bjk sont les entres de la matrice B = A A. partir de cette expression, on calcule q q L xk bjk 2xi (x, ) = xj xi xi j =1 k =1
9.3. NORMES MATRICIELLES Or xi Donc xi j =1

q q q
229
x b si j = i j ji = q x b + x b sinon i ii k =1 k ik
q q q q
xj
k =1
xk bjk
xj
k =1
xk bjk
=
j =1 j =i
xj bji +
k =1
xk bik + xi bii =
j =1
xj bji +
k =1
xk bik = 2
k =1
xk bik
o la dernire galit provient de la symtrie de B = A A. Par consquent L (x, ) = 2 xk bik 2xi xi k =1 Les q conditions (9.9) scrivent alors 2Bx 2 x = 0q , ou encore Bx = x . Cette galit montre que toute solution x du problme doptimisation est une valeur propre de la matrice B . Le multiplicateur de Lagrange est la valeur propre de B associe x . Par consquent, x est chercher parmi les q vecteurs propres de B . Cest celui qui donne la fonction x Bx quon cherche maximiser sa plus grande valeur. Comme B = A A est symtrique, les vecteurs propres sont orthonorms et on a pour tout couple (x, ) de vecteur et valeur propres de B : x Bx = x x = Autrement dit, pour chaque vecteur propre la fonction maximiser est gale la valeur propre associe. Le vecteur propre qui donne la plus grande valeur la fonction quon cherche maximiser est donc celui qui est associ la plus grande valeur propre de B . Autrement dit, x est le vecteur propre associ la valeur propre = max{1 , . . . , q }. Donc A 2 = . Remarque 9.23 Lorsque A est symtrique, alors B = A A = A2 et la plus grande valeur propre de A A est le carr de = max{|1 |, . . . , |q |}, o 1 , . . . , q sont les valeurs propres de A. Ceci 2 dcoule du fait que la ie valeur propre de A2 est 2 i et que la plus grande valeur propre de A est 2 donc . Donc dans le cas o A est symtrique, A = . Si de plus A est (semi-) dnie positive, alors = max{1 , . . . , q } et la norme de A concide R avec sa plus grande valeur propre. Remarque 9.24 Par dnition de A , on aura Ax A x pour tout x Rq . Dans le cas o la norme est subordonne la norme euclidienne usuelle sur Rq , alors Ax x , o est la plus grande des valeurs propres de A A. En examinant la preuve de la proprit 9.32, on constate que si on cherche x de manire minimiser minimiser Ax sous contrainte que x = 1, alors la solution x est le vecteur propre associ , la plus petite valeur propre de A A, et on a Ax 2 = . Par consquent, Ax x pour tout x Rq .
q
En rsum, si on note respectivement et la plus grande et la plus petite des valeurs propres de A A, alors x Ax x x Rq
230 ou de manire quivalente x x x A Ax x x
x Rq
(9.10) R
eq:spect
9.4. SUR LES DRIVES DE FONCTIONS MATRICIELLES

sec:derivmat
231
9.4
9.4.1
Sur les drives de fonctions matricielles

Dnition
Soit A un vecteur de Rm dont les coordonnes sont des fonctions relles, toutes dnies sur Rp . A est donc un vecteur de fonctions. On reprsente A par A : Rp Rm x A(x)
La j e coordonne de A est une fonction de x, note aj dnie par aj : Rp R On peut donc crire x aj (x)

Lorsque chacune des fonctions aj est drivable par rapport chacune des coordonnes de x, la A e drive de A par rapport x est d dx et dnie par la matrice de dimensions (p m) dont le (j, k ) k lment est a xj . Autrement dit
dA = dx
a1 (x1 , . . . , xp ) a1 (x) a2 (x) a2 (x1 , . . . , xp ) A(x) = . = . . . . . am (x) am (x1 , . . . , xp )
a1 x1 a1 x2 . . . a1 xp
a2 x1 a2 x2 . . . a2 xp
am x1 am x2 . . . am xp
En ce qui concerne les dimensions de lignes que x.
dA dx ,
on retiendra en particulier que cette matrice a autant de
9.4.2
Cas particuliers
dA dx
1. m = 1 : A est une fonction relle de p variables relles. Dans ce cas, dni par A x 1 A dA x2 = dx . . . A xp
est le vecteur de Rp
232
2. A(x) = Ax, o A est une matrice relle de dimensions (m p) dont on note ajk le (j, k)e lment. La j e ligne de A(x) est aj (x) = p l=1 ajl xl . Par consquent, aj = xk xk
p p
ajl xl
l=1
=
l=1
(ajl xl ) = ajk . xk
Par consquent le (j, k)e lment de le rsultat suivant.
dA dx
est akj , et donc
dA dx
= A . Nous venons de dmontrer
pro:alg_lin
Proprit 9.33 Si A est une matrice de dimensions (m n) et x un vecteur de Rp , on a d (Ax) = A dx
3. A(x) = x Ax, o A est une matrice relle de dimensions (p p) dont on note ajk le (j, k)e lment. On peut se restreindre aux cas o la matrice A est symtrique. En eet, on a x Ax x A x x Ax x Ax + = + 2 2 2 2
x Ax =
car x Ax tant de dimension (1 1), on a x Ax = (x Ax) = x A x. Donc x Ax = x (A + A ) x = x Bx 2
A o B = A+ est une matrice symtrique. Si A ntait pas symtrique, il surait dutiliser 2 x Bx au lieu de x Ax.
On peut crire x Ax =
p j =1
p l=1 ajl xj xl
et donc
d (x Ax) = dx
x1 x2 xp
p j =1 p j =1
p l=1 ajl xj xl p l=1 ajl xj xl
. . .
p j =1 p l=1 ajl xj xl
9.4. SUR LES DRIVES DE FONCTIONS MATRICIELLES Si on tudie la ke coordonne de ce vecteur, on a

ajl xj xl = ajl xj xl + xk akl xl xk j =1 l=1 xk j =1 l=1 l=1
p p
233
j =k
p p + x ajl xl j xk j =1 xk l=1 p j =k p p
xk
l=1
akl xl
p
=
j =1 j =k p
xj
l=1
(ajl xl ) + xk (akl xl ) + akl xl xk xk l=1 l=1

p
=
j =1 j =k p
ajk xj + akk xk +
j =1 p
akj xj
=
j =1
ajk xj +
j =1
akj xj .
Par consquent,
Comme A est symtrique, on a pour ajk = akj pour tout couple dindices (j, k). Par conse quent, la dernire expression ci-dessus scrit aussi 2 p j =1 xj akj et donc la k coordonne de d (x Ax) est dx p p p ajl xj xl = 2 akj xj . xk j =1 l=1 j =1
Si on rsume les rsultats, on a la proprit suivante.

pro:alg_quad
d (x Ax) = 2 dx
2 2
. . . = 2Ax. p j =1 akj xj . . .
p j =1 apj xj
p j =1 a1j xj p j =1 a2j xj
Proprit 9.34 Si A est une matrice de dimensions (p p) et x un vecteur de Rp , alors d 1 (A + A ). (x Ax) = 2Bx o B = 2 (a) dx d (b) Si A est symtrique, A = B, et (x Ax) = 2Ax. dx
234
Chapitre 10
ch:rap_inf
Rappels sur la dmarche de linfrence statistique

Cette section permet de rappeler les principes de linfrence statistique. On prcise lobjet dtude dans une dmarche infrentielle et on rappelle les direntes notions de base (population, variable, chantillon, paramtre). On prsente une justication (intuitive) des mthodes dinfrence adoptes (utilisation de statistiques) en insistant sur le lien qui existe entre une caractristique donne dune distribution de probabilit et les proprits dun chantillon de variables alatoires issues de cette distribution. Ces rappels sont faits dans un contexte univari.
10.1
it:X
Objectif dune dmarche infrentielle et notions de base
1. On sintresse une caractristique donne dune population. Pour simplier, on supposera que cette caractristique peut se mesurer au moyen dune variable note X. 1
Exemple : (1) les salaires des employs en France ; (2) la tension de rupture de cbles dascenseur ; (3) la taille des enfants dans les classes de cours prparatoire dans le Nord ; (4) laccs internet domicile pour les mnages franais.
it:repart
2. Quelle que soit la caractristique que mesure X, les valeurs prises par cette variable dans la population tudie ont une certaine rpartition. 2 Notamment, pour chaque nombre rel a cette rpartition exprime la proportion dindividus de la population pour lesquels la variable X est infrieure ou gale a. On peut alors dnir la fonction de rpartition de X qui, chaque rel a associe cette proportion. On notera FX cette fonction.
Exemple : En reprenant les exemples du premier point, FX dcrit tour tour (1) la rpartition des salaires en France ; (2) comment la tension de rupture est rpartie dans la population des cbles dascenseur tests ; (3) la rpartition de la taille au sein de la po1. On rappelle quen statistique, la population dsigne lensemble de tous les individus statistiques quil est possible de considrer. De plus, les variables servent dcrire une population en mesurant une caractristique des individus de la population. Certaines caractristiques peuvent tre de dimension suprieure 1 et on utilisera dans ce cas plusieurs variables simultanment. 2. Si une variable est une manire de mesurer une caractristique des individus dune population, les valeurs prises par cette variable sont les mesures faites en utilisant la variable.
235
236
CHAPITRE 10. RAPPELS SUR LA DMARCHE DE LINFRENCE STATISTIQUE

pulation des enfants de CP dans le Nord ; (4) la rpartition de la variable indiquant si un mnage a un accs internet domicile, parmi la population des mnages franais.
3. Dire quon sintresse une caractristique dune population signie quon sintresse la faon dont sont rparties les mesures de cette caractristique au sein de la population. Autrement dit, si cette caractristique est mesure par X, on sintresse la fonction de rpartition FX de X. 4. Dans bien des cas, on ne sintresse pas la fonction de rpartition de X toute entire, mais seulement certaines de ses proprits.
Exemple : (1) la dispersion des salaires en France ; (2) la tension minimale de rupture de cbles dascenseur ; (3) la taille moyenne des enfants dans les classes de cours prparatoire dans le Nord ; (4) la proportion des mnages franais ayant un accs internet leur domicile.
Les exemples ci-dessus illustrent les proprits les plus frquemment tudies dune fonction de rpartition : les valeurs extrmes (la tension minimale de rupture), la tendance centrale (la moyenne des tailles, ou encore la proportion de mnages) et la dispersion (la dispersion des salaires). 5. En statistique, ces proprits se mesurent au moyen de divers indicateurs. Par exemple, la tendance centrale de la fonction de rpartition de X est une valeur autour de laquelle se regroupent les valeurs prises par X dans la population ; on mesure typiquement cette tendance centrale par la mdiane ou lesprance de X. 3 La dispersion, qui dcrit le caractre plus ou moins regroup des valeurs de X autour dune tendance centrale, se mesure frquemment par la variance de X. 4
it:param page:param
6. Un indicateur qui mesure une proprit donne dune fonction de rpartition est appel paramtre de cette fonction de rpartition. La valeur dun paramtre est un nombre rel quon peut calculer ds quon connat la fonction de rpartition.
Exemple : Si on sintresse la tendance centrale de FX , le paramtre considr peut tre la mdiane Me(X ). La valeur du paramtre est la valeur de la mdiane quon calcule partir de FX grce la formule Me(X ) = inf {a R | FX (a) 1 2 }.
it:parint page:parint
7. Avec les notions introduites ci-dessus, on se place dans une situation o on sintresse une proprit de FX , mesure par un paramtre. Celui-ci est alors appel paramtre dintrt et on le notera . 8. Si on peut observer la valeur de la variable X pour chaque individu de la population, alors on connat la fonction de rpartition FX (voir comment au point 2). Par consquent, daprs ce qui vient dtre dit, on peut calculer la valeur du paramtre dintrt (voir le point 6). 9. La possibilit dobserver la valeur de la variable pour chaque individu signie eectuer un recensement de la population. Ceci ne peut dans bien des cas tre envisag. Les raisons pour cela sont multiples : le recensement peut tre trop coteux (notamment en temps) lorsque le
3. Lesprance de X, note E(X ), sinterprte comme la valeur attendue de X. Ce nombre sinterprte galement comme la moyenne de X au sein de la population. La mdiane de X , note Me(X ), est la plus petite valeur telle que la proportion dindividus dans la population pour laquelle X est suprieure Me(X ) est dau moins 50%. Formellement, on a Me(X ) = inf {a R | FX (a) 1 }. 2 4. La variance de X, note V(X ) est une mesure de la distance moyenne entre les valeurs de X dans la population et lesprance de X.
10.1. OBJECTIF DUNE DMARCHE INFRENTIELLE ET NOTIONS DE BASE
237
nombre dindividus dans la population est grand (par exemple lorsque la population est celle de tous les employs en France) ; le recensement peut conduire la destruction des individus (par exemple lorsquon mesure quelle tension le cble dascenseur a rompu), etc.
it:ech
10. Cette impossibilit implique aussi limpossibilit de calculer (et donc connatre) la valeur de . On se contente alors, pour des raisons qui seront dveloppes plus bas ( partir du point 17), de mesurer la caractristique pour un sous-ensemble de la population. Les individus composant ce sous-ensemble peuvent tre choisis de direntes manires. Nous nous contenterons de mentionner que la manire de choisir ces individus a des consquences importantes sur les proprits des mthodes statistiques qui seront employes par la suite. 11. La manire de choisir les individus dans une population que nous retiendrons est appele chantillonnage alatoire simple. Celle-ci procde de la manire suivante. On choisit au hasard 5 un premier individu dans la population et on eectue pour cet individu une mesure au moyen de la variable X. Cette mesure est une valeur note x1 de X. On remet lindividu dans la population et on rpte ltape prcdente, ce qui fournit une seconde mesure x2 . En rptant cette opration n fois, on dispose de n mesures (ou observations) x1 , . . . , xn de la variable X.
Exemple : La variable X est la mesure de la taille dun enfant de CP dans le Nord. On choisit au hasard un premier enfant inscrit en CP dans le Nord, on mesure sa taille et on la note x1 . On remet lenfant dans lensemble des enfants de CP dans le Nord et on en choisit au hasard un deuxime ; on note sa taille x2 ; etc.
12. De manire vidente, ces observations ne peuvent tre connues avec certitude lavance, puisquelles dpendent de qui sont les n individus choisis dans la population. Par consquent, x1 , . . . , xn sont considres comme les ralisations de variables alatoires X1 , . . . , Xn . 6 13. Les proprits de ces variables alatoires sont assez faciles dduire de la faon dont elles sont introduites. Xi sert mesurer la caractristique du ie individu choisi. Cet individu est choisi de manire tout fait indpendante des autres. En eet, savoir que des individus j, k, , . . . ont t choisis et savoir que pour ces individus on a eectu les mesures xj , xk , x , . . . de la caractristique naecte pas la probabilit pour quon fasse quelque mesure particulire que ce soit chez lindividu i. Autrement dit, le fait de connatre les ralisations de Xj , Xk , X , . . . naecte pas la loi de probabilit de Xi . On dit que les variables alatoires X1 , . . . , Xn sont indpendantes. Ceci signie quil nexiste aucune liaison daucune sorte entre ces variables alatoires. On peut donc tudier les proprits de lune delles en cartant les autres sans que cette tude soit aecte par cette mise lcart. Considrons alors la ie de ces variables alatoires, Xi , et essayons de trouver sa loi de probabilit, caractrise par sa fonction de rpartition FXi (a) = P(Xi a), a R. On note dabord que lindividu i tant choisi au hasard, les valeurs possibles pour Xi sont les
5. Choisir au hasard un objet dans un ensemble signie ici que nimporte quel objet a la mme probabilit dtre choisi que nimporte quel autre objet dans cet ensemble. 6. Dune manire un peu vague, on dnit une variable alatoire comme une grandeur pouvant varier en fonction du rsultat dune exprience alatoire. Ici lexprience est le choix dun individu au hasard dans la population. La grandeur est la mesure de la caractristique tudie chez lindividu qui sera choisi. Cette mesure dpend clairement de quel est lindividu qui a t choisi au hasard, donc du rsultat de lexprience alatoire.
238
CHAPITRE 10. RAPPELS SUR LA DMARCHE DE LINFRENCE STATISTIQUE mmes que les valeurs possibles pour X. De plus, pour nimporte quel rel a, on sait quil y a une proportion gale FX (a) dindividus dans la population pour lesquels la variable X est infrieure ou gale a. Par consquent, si on choisit un individu au hasard dans la population, disons le ie, alors la probabilit pour que la mesure de la caractristique pour cet individu soit infrieure ou gale a est prcisment gale FX (a). 7 Formellement, on a P(Xi a) = FX (a). Ceci tant vrai quelque soit le choix de a, on a FXi = FX . Ceci tant vrai pour tout i, on a FX1 = = FXn = FX . Autrement dit, les variables alatoires X1 , . . . , Xn ont la mme loi de probabilit. On dit que X1 , . . . , Xn sont identiquement distribues.
14. On note que la variable X a une rpartition dans la population qui est identique celle des variables alatoires X1 , . . . , Xn . Or nous navons aucun moment considr la variable X comme alatoire. Celle-ci a t simplement dnie comme la faon de mesurer la caractristique dintrt (voir le point 1 ci-dessus). Cependant, en utilisant le mme raisonnement que celui introduit dans le point prcdent, dsignant la mesure de la il est facile de dduire que si on considre la variable alatoire X caractristique tudie pour un individu choisi au hasard dans la population, alors la fonction est la mme que celle de X. Il ny a donc pas lieu de direncier X et X : de rpartition de X ces deux variables servent mesurer la mme chose et ont la mme fonction de rpartition. On comprend alors pourquoi on a FXi = FX . En eet, X est la mesure de la caractristique tudie pour individu quelconque choisi au hasard dans la population, et Xi dsigne la mme chose, mais lorsquon convient que lindividu choisi au hasard dsigne le ie des n individus extraits de la population. Autrement dit, lexprience alatoire qui consiste choisir au hasard un individu, quon appellera i, dans la population et qui permet de dnir Xi est une rplique identique de lexprience qui consiste choisir au hasard un individu quelconque et qui permet de dnir X. La fonction de rpartition, et donc la loi de probabilit, de ce deux variables est par consquent la mme. 15. On rappelle que des variables alatoires forment un chantillon alatoire simple si elles sont indpendantes et identiquement distribues. Cette dnition fait apparatre X1 , . . . , Xn comme un chantillon alatoire simple. De plus, comme la loi commune de ces n variables alatoires est celle de X, on dit que X1 , . . . , Xn forment un chantillon alatoire simple de X. On rappelle galement quun tirage dans une loi de probabilit P est un nombre qui est la ralisation dune variable alatoire dont la loi est P. Par consquent, les observations x1 , . . . , xn tant les ralisations de variables alatoires indpendantes ayant toutes la mme loi, sont considres comme des tirages dans cette loi. Celle-ci tant celle de X, on interprtera x1 , . . . , xn comme n tirages indpendants dans la loi de X, ou encore dans FX . 8
7. Le raisonnement utilis ici est identique celui bien connu concernant des boules dans une urne : si une urne contient une proportion p de boules blanches, alors la probabilit pour quune boule choisie au hasard dans lurne soit blanche est gale p. Les raisonnements de ce type permettent de voir des proportions comme des probabilits et vice versa. 8. On ne fera pas de dirence entre une probabilit et sa fonction de rpartition. Par consquent, une loi de probabilit dsigne aussi bien lune que lautre.
10.2. PRSENTATION DU PRINCIPE DE LINFRENCE STATISTIQUE
239
16. Rsum des points qui prcdent. On ne peut faire de recensement et calculer . On constitue, par une mthode de slection appele chantillonage alatoire simple, un n-uplet de variables alatoires X1 , . . . , Xn , indpendantes et identiquement distribues. La loi de probabilit commune de ces variables est la mme que celle de X. Donc X1 , . . . , Xn forment un chantillon alatoire simple de X. En consquence, les ralisations x1 , . . . , xn de ces variables alatoires constituent n tirages indpendants dans la loi FX de X.
10.2
it:inf
Prsentation du principe de linfrence statistique
17. Il reste expliquer pourquoi, devant limpossibilit deectuer un recensement et de calculer la valeur du paramtre dintrt , on procde de la manire dcrite ci-dessus. Plus prcisment, quel est le but quon peut se xer en matire de connaissance que lon peut avoir de ? Que peut-on faire avec les observations de X1 , . . . , Xn pour atteindre ce but ? La valeur de ne pouvant se calculer, on peut tout au mieux lapproximer. Si on constitue un chantillon alatoire simple de X, cest dans ce but. Il faut donc montrer quil est possible, partir de X1 , . . . , Xn , de construire des mthodes permettant dapproximer la valeur inconnue du paramtre dintrt . Cet objectif est celui que se xent (sous diverses formes) toutes les mthodes de linfrence statistique. 18. Le principe de base de linfrence statistique est quun chantillon constitu au moyen de tirages dans une loi contient de linformation sur cette loi. Reconnaissant ce principe, il est naturel de chercher des mthodes qui permettent dextraire cette information. Toute mthode construite dans ce but est une mthode dinfrence statistique.
page:echant-moy it:echant-moy
19. Il est vident que si X1 , . . . , Xn sont indpendantes et ont comme loi commune FX , alors la loi de toute variable alatoire sexprimant comme une fonction T des variables X1 , . . . , Xn sera dduite de FX .
Exemple : Soit une variable alatoire X suivant la loi B (p). Soit X1 , . . . , Xn un chantillon n 1 alatoire simple de X. Soit la fonction T : Rn R dnie par T (x1 , . . . , xn ) = n i=1 xi . n 1 X . La loi de Y sera dduite On forme la variable alatoire Y = T (X1 , . . . , Xn ) = n i i=1 de celle de X1 , . . . , Xn , cest dire FX . En particulier, il est bien connu que lesprance de Y est la mme que celle de X, cest dire p. On sait galement que nY = n i=1 Xi suit une loi B (n; p). Par consquent, les valeurs probables pour nY (resp. pour Y ) se situeront autour de n p (resp. p).
Toute variable alatoire sexprimant comme une fonction de X1 , . . . , Xn seulement est appele statistique. Ltude de la faon dont la loi dune statistique dpend de celle de X1 , . . . , Xn sappelle la thorie de lchantillonnage. Dans une telle approche, on connat FX et on dduit la loi de T (X1 , . . . , Xn ). 20. Le point qui prcde rappelle quil existe un lien de FX vers les proprits de X1 , . . . , Xn et donc un lien de vers les proprits de X1 , . . . , Xn . On peut essayer dobtenir un lien dans lautre sens : des proprits de X1 , . . . , Xn , peut-on infrer quelque chose sur ?
Exemple : Dans lexemple prcdent, supposons que le paramtre dintrt soit = p, dont on ignore la valeur. Supposons quon dispose de n = 100 observations de variables alatoires X1 , . . . , X100 et quavec ces observations on ait obtenu la valeur 0,31 pour la
240

100 1 variable Y. Autrement dit, les observations x1 , . . . , x100 sont telles que 100 i=1 xi = 0,31. On ne connat pas la valeur de , mais, en reprenant la remarque de lexemple prcdent, les observations nous disent que ce paramtre a certainement une valeur pour laquelle observer que Y vaut 0,31 est un vnement probable. Cela limine donc comme valeurs plausibles de celles qui sont trop loignes de 0,31.
Cet exemple illustre la dmarche de linfrence statistique, consistant infrer de lobservation dun chantillon des noncs sur les proprits de la loi dont il est issu, et en particulier sur la paramtre dintrt de cette loi. En termes plus gnraux, cette dmarche infre les proprits (inconnues ) dune population partir des proprits (observes ) dune partie de la population (cette partie tant constitue des individus slectionns). 21. On peut illustrer le contenu de cette section par lexprience suivante. Considrons une variable alatoire X qui suit une loi normale ayant une esprance et une variance donnes. Au moyen de techniques de gnration de nombres alatoires, on eectue indpendamment 200 tirages alatoires de nombres rels, de sorte que pour chaque tirage la probabilit pour que le nombre soit compris entre a et b est 1 P(a X b) = 2 2
b a
exp
(x )2 2 2
dx
pour toute paire de rels a et b (a < b), o et 2 sont les valeurs de lesprance et de la variance de X que lon sest donn, respectivement. Les variables alatoires X1 , . . . , X200 , qui dsignent les nombres qui seront tirs lors des 200 tirages, forment donc un chantillon 200 1 alatoire simple de X . On calcule ensuite la moyenne de ces nombres : 200 i=1 Xi . On eectue cette exprience en choisissant tour tour diverses valeurs de lesprance. Dans le tableau ci-dessous, on reproduit les rsultats obtenus. Exprience Valeur de lesprance Moyenne observe 1 10 10.50 2 5 4.75 3 1 1.20 4 0 0.03 5 1 1.08 6 5 5.08 7 10 9.94 On constate que la valeur de la moyenne varie en fonction du choix de la valeur retenue pour lesprance et, plus spciquement, que la premire est proche de la seconde. Cela illustre la dpendance de la loi dune statistique (ici la moyenne) vis vis de la loi des variables de lchantillon (en particulier lesprance de cette loi). Considrons maintenant lexprience rciproque dans laquelle on ne se donne plus diverses valeurs de lesprance , mais o on suppose plutt que celle-ci est inconnue, mais quelle est gale lune des valeurs de lensemble {10, 5, 1, 0, 1, 5, 10}. On se donne en revanche la 200 1 valeur observe de la moyenne 200 i=1 Xi des nombres qui ont t tirs, et sur cette base, on essaie de deviner (ou estimer, en langage statistique) quelle est la valeur de lesprance. Au vu de lexprience prcdente, qui illustre le fait que la moyenne a tendance tre proche de lesprance, si on observe que la moyenne vaut 10,5 on dira que la valeur de lesprance
10.3. LES PROBLMES DINFRENCE USUELS
241
est sans doute gale 10. Si la valeur observe de la moyenne est 1,08 on dira plutt que la valeur de lesprance est certainement 1, et ainsi de suite. 22. Cet exemple illustre la dmarche de linfrence statistique dans laquelle le problme consiste deviner partir dobservations la valeur inconnue dun paramtre de la loi do sont issues ces observations. La raison pour laquelle cette dmarche est base sur lutilisation dobservations est que celles-ci ont un comportement qui est entirement dtermin par la loi dont elles proviennent, et que par consquent ces observations peuvent nous restituer de linformation sur cette loi, ou plus particulirement sur un paramtre dintrt de cette loi. Il est crucial de noter limportance du modle statistique dans une dmarche dinfrence. Un modle statistique (voir plus loin pour un dnition un peu plus formelle) est une description des proprits de la loi de probabilit dont sont issues les observations, ainsi quune description de la manire dont elles en sont issues. Une telle description permettra alors ltude des proprits de la statistique forme partir des observations (par exemple, cette statistique a-t-elle tendance prendre des valeurs proches du paramtre dintrt ?). Le modle sert donc de cadre danalyse des proprits de statistiques destines approximer le paramtre dintrt. Si on ne se donne aucune information sur la manire dont les observations sont relies une loi de probabilit, il est impossible de savoir comment ces observations peuvent nous restituer de linformation propos de cette loi, ou propos de lun des paramtres dintrt de cette loi.
10.3
Les problmes dinfrence usuels
Il est commun de distinguer trois problmes dinfrence. Cette section prsente chacun deux. La notation est la suivante. Le paramtre dintrt est not . Sa vraie valeur est un nombre rel inconnu appartenant un ensemble appel ensemble des valeurs possibles du paramtre. est le paramtre dune loi de probabilit qui sera celle dune variable alatoire X, et quon notera FX ( ; ). Pour toute valeur possible 0 du paramtre , le nombre FX (x; 0 ) dsigne la probabilit de lvnement (X x), calcule lorsque la valeur du paramtre de la loi de X est 0 .
Exemple : Si on sintresse par exemple estimer la proportion p de mnages franais ayant un accs internet domicile, concide avec p : = p. Lensemble des valeurs possibles est = [0; 1]. La loi de probabilit dont est le paramtre est la loi de Bernoulli B (). Donc FX (x; 0 ) dsignera la fonction de rpartition dune variable alatoire X B (0 ) : 0, si x < 0 FX (x; 0 ) = P(X x) = 1 0 , si 0 x < 1 1, si x 1
Exemple : On sintresse la variable X qui mesure la variation du pouvoir dachat dune catgorie de franais sur une priode donne. On suppose que la distribution de cette variable au sein de la population considre suit une loi normale N (, 2 ). Cela signie quen choisissant un individu au hasard dans la population, la probabilit dobserver que la variation de son pouvoir dachat est comprise entre a et b est 1 P(a X b) = 2 2
b a
exp
(x )2 2 2
dx
242

Ici, on peut considrer que le paramtre dintrt est le couple (, 2 ), qui paramtrise la loi N (, 2 ) de la variable tudie. Lensemble sera naturellement R ]0; +[. Pour un couple 2 donn 0 = (0 , 0 ) de , la notation FX (x; 0 ) dsignera donc la fonction de rpartition de loi 2 N (0 , 0 ) : x 1 (t 0 )2 dt , xR FX (x; 0 ) = exp 2 2 20 20
On dispose de n mesures X1 , . . . , Xn de la variable X, obtenues par un procd dchantillonnage alatoire. Dans cette prsentation gnrale, on supposera que X1 , . . . , Xn constituent un chantillon alatoire simple de X : X1 , . . . , Xn sont indpendantes et suivent toutes la mme loi que X. On rappelle la distinction faite entre les variables alatoires X1 , . . . , Xn et les ralisations (ou valeurs observes) de ces variables, notes x1 , . . . , xn . Lorsquun problme dinfrence en formul, la solution quon lui apporte est appel mthode dinfrence. 9 Il est essentiel de mentionner que quel que soit le problme dinfrence considr (voir les sections qui suivent), il existe chaque fois plusieurs mthodes dinfrence. Par consquent, se posera le choix de la bonne mthode. Pour que cette question ait un sens, il faut alors tre en mesure de comparer plusieurs mthodes dinfrence disponibles pour rsoudre un mme problme dinfrence. Lorsque de tels moyens de comparaison sont tablis, on peut alors tre capable de retenir les meilleures mthodes dinfrence. Les proprits dune mthode dinfrence particulire sont tudies relativement au problme dinfrence pos. Autrement dit une mme mthode dinfrence peut tre bonne pour un problme et mauvaise pour un autre. Ceci pose donc la question du cadre dans lequel on pose le problme dinfrence et dans lequel on analyse les proprits dune mthode dinfrence destine rsoudre le problme pos. Ce cadre est appel modle statistique. Un modle statistique est dni comme lensemble des lois quon considre a priori possibles pour les variables X1 , . . . , Xn . Dans le premier exemple ci-dessus, les variables constituant lchantillon sont des variables alatoires de Bernoulli. La ie dentre elles, Xi , indique si lindividu i possde un accs internet domicile (dans ce cas on observera Xi = 1) ou non (et on observera alors Xi = 0). Le modle est lensemble des lois pour X1 , . . . , Xn telles que ces variables sont indpendantes et identiquement distribues, chacune dentre elles ayant une loi de Bernoulli B ( ), ]0, 1[. Dans le second exemple, Xi est la mesure de la variation du pouvoir dachat du ie individu de lchantillon au cous de la priode donne. Cest a priori un rel quelconque. Lensemble des loi possibles est lensemble des lois pour X1 , . . . , Xn indpendantes et identiquement distribues selon un loi normale N (, 2 ), R et 2 ]0, [.
sec:est-ponct-intro
page:modele
10.3.1
Estimation
Lobjectif dun problme destimation est dapproximer la valeur inconnue du paramtre . Cela peut se faire de deux manires : 1. on peut approximer par une valeur isole dans ; 2. on peut approximer le paramtre en cherchant une rgion de choisie de sorte quelle
9. Ces mthodes portent des noms particuliers selon la catgorie de problme dinfrence quon souhaite rsoudre (voir les sections qui suivent).
243
contienne la valeur inconnue de avec une probabilit leve, et ceci quelle que soit cette valeur inconnue. Le reste de cette section est consacr au premier type destimation. Le second sera abord la section 10.3.3. On parle destimation ponctuelle de lorsque lobjectif correspond au premier des deux cas ci-dessus. Pour estimer , on utilise un estimateur. Un estimateur est une variable alatoire Tn obtenue comme une fonction T de X1 , . . . , Xn valeurs dans et forme dans le but de fournir des approximations de . On a T : Rn
(u1 , . . . , un ) T (u1 , . . . , un ) et Tn = T (X1 , . . . , Xn ). Une approximation de obtenue en utilisant un estimateur est appele estimation de . Cest une valeur tn obtenue partir de lestimateur Tn de la manire suivante : tn = T (x1 , . . . , xn ). Cest donc la valeur prise par la variable alatoire Tn lorsque les observations sont x1 , . . . , xn .
Exemple : On reprend lexemple de laccs internet domicile. est le paramtre dune loi de Bernoulli. Pour n mnages choisis au hasard, on introduit les variables alatoires X1 , . . . , Xn de la manire suivante : Xi = 1 si le ie mnage choisi a un accs internet domicile et Xi = 0 sinon, i = 1, . . . , n. La proportion de mnages qui dans la population ont un accs internet domicile peut tre estime par la proportion de mnages qui dans lchantillon ont un accs internet n 1 domicile. Lestimateur Tn utilis dans ce cas est cette proportion : Tn = n i=1 Xi . La fonction n 1 T est donc dnie par T (u1 , . . . , un ) = n i=1 ui . Si on observe X1 = x1 , . . . , Xn = xn , alors n 1 lestimation tn obtenue partir lestimateur Tn est le nombre tn = n i=1 xi .
Pour un mme problme destimation (mme paramtre estimer partir des mmes mesures X1 , . . . , Xn ), on peut utiliser plusieurs estimateurs. On les compare usuellement au moyen de leur biais et de leur prcision. Ces notions sont dnies au moyen de lesprance de Tn (ou dune fonction de Tn ). Cette variable alatoire tant une fonction de X1 , . . . , Xn , (on rappelle que Tn = T (X1 , . . . , Xn )) lesprance E(Tn ) se calcule partir de la loi de X1 , . . . , Xn . Ces variables formant un chantillon alatoire simple de X, la loi de X1 , . . . , Xn est donne par la loi de X. Par consquent, E(Tn ) se calcule partir de la loi de X, cest dire FX ( ; ). Puisque celle-ci dpend de , il en sera de mme pour E(Tn ). Autrement dit, il existe autant de faons de calculer E(Tn ) quil y a de lois a priori possibles pour X, et donc au moins autant de faons quil y a de valeurs a priori possibles pour . Pour cette raison, on voit E(Tn ) comme une fonction de , et pour lindiquer, on note cette esprance E (Tn ). 10 Soit Tn un estimateur de . On dit que Tn est un estimateur sans biais si pour toute valeur possible 0 du paramtre on a E0 (Tn ) 0 = 0. Si ce nest pas le cas, lestimateur Tn de est biais et son biais en 0 est E0 (Tn ) 0 . Le biais dun estimateur est donc sa tendance scarter de la valeur du paramtre quil estime. Pour cette raison, on peut prfrer un estimateur sans biais un estimateur biais. Le biais fournit donc un moyen de comparer des estimateurs.
10. Lexemple du point 19 (page 239) illustre la dpendance de lesprance dune statistique envers les paramtres de la loi des variables partir desquelles elle est forme. Dans cet exemple, les variables sont de loi de Bernoulli B () n 1 et la statistique Tn = n Xi forme partir de ces variables a pour esprance , qui dpend de manire vidente i=1 de .
244
La prcision dun estimateur Tn de se mesure au moyen de son erreur quadratique moyenne. Celle-ci est dnie comme la fonction qui la valeur 0 associe le nombre E0 (Tn 0 )2 , o lesprance est calcule en utilisant la loi FX ( ; 0 ). Lerreur quadratique moyenne sinterprte donc comme une mesure de la distance attendue entre un estimateur et la valeur du paramtre quil estime. Un estimateur sera dautant plus prcis quil a tendance ne pas scarter de la valeur du paramtre estimer. Parmi deux estimateurs, on prfre donc en gnral un celui qui la plus petite erreur quadratique moyenne. Lorsque le biais ou lerreur quadratique moyenne ou tout autre proprit intressante dun estimateur sont trop complexes calculer, on examine parfois les proprits asymptotiques de Tn . Ces proprits sont celles que lon obtient lorsque la taille de lchantillon est arbitrairement grande (n ). Grace de puissants thormes (par exemple le thorme central limit ), les proprits limites (celles quon dtermine lorsque n ) de Tn sont souvent plus faciles calculer que les proprits valables pour n ni, quelconque. On dira par exemple que Tn est un estimateur convergent de si la limite en probabilit de Tn est gale : P0 |Tn 0 | > 0, n , > 0, 0 .
En conclusion, sous des conditions apropries qui permettent dutiliser des rsultats tels que le thorme central limit , si n est susamment grand, calculer les proprits asymptotiques dun estimateur revient quasiment calculer les vritables proprits de cet estimateur. La dicult de cette approche rside dans le fait quil est dicile (et mme souvent impossible) dtablir que la taille n de lchantillon dont on dispose est eectivement susamment grande pour que lapproximation faite en utilisant une loi limite est satisfaisante.
La raison pour laquelle on tudie les proprits asymptotiques dun estimateur Tn de peut tre illustre de la manire suivante. Si les conditions dapplication dun thorme central limit sont satisfaites, alors ce thorme dit typiquement que la dirence entre la fonction de rpartition de Tn et la fonction de rpartition dune loi connue. On dit que cette loi connue est la loi limite de Tn . Dans beaucoup de cas, cette loi limite est une loi normale. Par consquent, pourvu que n soit susamment grand, la dirence entre les deux fonctions de rpartition est aussi petite quon veut. Dans ce cas, sous des conditions appropries (quil faut prendre soin dtablir), les proprits quon obtient en utilisant lune des deux fonctions de rpartition est aussi proche quon le veut des mmes proprits obtenues en utilisant lautre fonction de rpartition. Ainsi, supposons quon sintresse au biais de lestimateur Tn . Selon la dnition ci-dessus, si la valeur du paramtre est 0 , le biais vaut E0 (Tn ) 0 . Plaons-nous dans le cas o on ne sait pas calculer E0 (Tn ). Sous les conditions dcrites dans ce paragraphe, pourvu que n soit susamment grand, la dirence entre cette esprance et lesprance de Tn calcule en utilisant la loi limite est aussi petite quon le souhaite. Or il est souvent tabli que lesprance calcule partir de la loi limite est gale 0 . Par consquent, si n est susamment grand, E0 (Tn ) est aussi proche que lon veut de 0 , ou encore, le biais E0 (Tn ) 0 est aussi petit que lon veut.
o la notation P0 indique que la probabilit est calcule lorsquon suppose que la valeur du paramtre est 0 , et donc que la loi de X est FX ( ; 0 ).

sec:test
245
10.3.2
10.3.2.1
Test dhypothse
Problme de test
Un problme de test est un problme dans lequel il faut dcider parmi deux hypothses mutuellement exclusives, chacune concernant la valeur du paramtre dintrt, celle quon considre comme tant vraie. Ces hypothses sont notes H0 et H1 et appeles respectivement hypothse nulle et hypothse alternative.
Exemple : Si dsigne une proportion, on peut avoir avoir choisir entre les hypothses H0 : 1 1 2 et H1 : > 2 celle quon considre comme vraie.
Quelle que soit lhypothse considre comme vraie, on suppose quil y en a toujours une (et une seule) qui est vraie en ralit, cest dire qui est compatible avec la vraie valeur . Rsoudre un problme de test se dit tester H0 contre H1 .
sec:rap_test
10.3.2.2
Test statistique
Le procd par lequel on choisit entre H0 et H1 est appel test (ou encore rgle de dcision, ou rgle de classication). Un test statistique est un test dans lequel la dcision est prise sur la base de lobservation dun chantillon X1 , . . . , Xn (de manire utiliser linformation que lchantillon apporte propos du paramtre et donc propos des hypothses formules). Les dcisions possibles sont on dcide que H0 est vraie dune part, et on dcide que H1 est vraie , dautre part. On peut alors dnir formellement un test comme une application dnie sur Rn et valeur dans {0, 1} qui indique la dcision prise en fonction de lchantillon obtenu. Plus prcisment, cette fonction est dnie ainsi : (X1 , . . . , Xn ) = k si et seulement si sur la base de lchantillon X1 , . . . , Xn on dcide que Hk est vraie, k = 0, 1. La variable alatoire n = (X1 , . . . , Xn ) sinterprte comme la rgle utilise pour prendre une dcision sur la base de lchantillon X1 , . . . , Xn . Si on a observ X1 = x1 , . . . , Xn = xn , la dcision prise au moyen du test est llment de {0, 1} quon note (x1 , . . . , xn ). Un test statistique permet de prendre une dcision propos de la vraie valeur de en utilisant certaines proprits de lchantillon. Pour construire un test, on cherche en gnral sil existe une proprit de lchantillon qui change si possible fortement selon quon considre H0 ou bien H1 comme tant vraie. Cette proprit est mesure par une statistique Tn forme partir des variables composant lchantillon : Tn = T (X1 , . . . , Xn ).
Exemple : Le paramtre est la proportion de mnages franais disposant dun accs internet domicile. Autrement dit, si on mesure cette caractristique dun mnage choisi au hasard par X , on notera X = 1 lvnement qui se ralise si le mnage dispose dun accs internet son domicile et X = 0 son contraire. On a videmment X B (). Admettons que lon veuille tester 1 contre H1 : > 1 H0 : 2 2 et que pour cela on dispose dun chantillon alatoire simple X1 , . . . , Xn de X. Les hypothses portent sur une proportion dindividus dans la population. On sait que cette proportion et la mme proportion calcule dans lchantillon ont tendance tre semblables. Autrement dit, une proprit de lchantillon qui changera selon que H0 est vraie ou pas est la proportion de variables X1 , . . . , Xn dans lchantillon qui prendront la valeur 1. En eet, si H0 1 , il est probable que cette proportion sera elle mme proche de est vraie, cest dire si 2 1 plus petite que 2 ; si au contraire H0 est fausse, alors il sera probable dobserver une valeur plus
246

1 grande que 2 pour cette mme proportion. On choisit donc de mesurer cette proprit au moyen n 1 de la statistique Tn = n i=1 Xi , cest dire de la proportion dindividus de lchantillon ayant un accs internet domicile.
Ainsi, on pourra partitionner lensemble, not T R, des valeurs possibles de la variable alatoire Tn de la faon suivante : T = T T , o T = T \ T . Lensemble T est lensemble des valeurs les plus vraisemblables de Tn lorsque H1 est vraie et lensemble T est donc lensemble des valeurs les plus vraisemblables de Tn lorsque H0 est vraie. Dans cette prsentation, on voit quil est donc souhaitable de faire dpendre le choix de Tn et de T des hypothses H0 et H1 poses. Le principe dun test consiste alors comparer le comportement probable de Tn en supposant successivement que H0 est vraie, puis que H1 est vraie, avec le comportement observ de Tn . On dcidera que H1 est vraie si le comportement observ de Tn est plus proche de celui qui est probable lorsquon suppose que H1 est vraie, que du comportement de Tn qui est probable lorsque H0 est suppose vraie. Un test sera donc de la forme (X1 , . . . , Xn ) = 1 si et seulement si Tn T , et (X1 , . . . , Xn ) = 0 sinon. Lensemble T est donc lensemble des valeurs de Tn conduisant une acceptation de H1 et donc un rejet de H0 par le test . On appelle T la rgion critique du test .
Exemple : Dans lexemple prcdent, puisquil est vraisemblable dobserver une valeur de Tn 1 grande par rapport 1 2 lorsque H1 est vraie, lensemble T peut tre choisi de la forme T = ] 2 + d; 1] pour un certain rel positif d. Le test correspondant sera donc de la forme (X1 , . . . , Xn ) = 1 ssi 1 Tn > 1 2 + d. Si cet vnement est observ, la valeur atteinte par Tn est une valeur trop peu vraisemblable au regard de ce quoi on sattendrait si H0 tait vraie. On dcide alors quelle ne lest pas, mais que cest H1 la vraie hypothse.
ce point, la question est : quand considre-t-on quune valeur donne de Tn est vraisemblable lorsque H1 (ou H0 ) est vraie ? Le critre qui permet de rpondre cette question est bas sur un calcul de risques. 10.3.2.3 Calcul des risques
sec:risques
Un test conduit forcment prendre lune des deux dcisions suivantes : on considre que H0 est vraie, ou bien on considre que H1 est vraie. videmment, lhypothse considre comme vraie lissue du test ne lest pas forcment, cest dire nest pas forcment vrie par la vraie valeur du paramtre. Autrement dit, il est possible de prendre une mauvaise dcision. Deux types derreur amenant une mauvaise dcision sont possibles : lerreur de type 1 : dcider de considrer que H1 est vraie alors que H0 est la vraie hypothse ; lerreur de type 2 : dcider de considrer que H0 est vraie alors que H1 est la vraie hypothse. Pour savoir si on a commis une erreur, il faut comparer sa dcision avec la ralit. Cela exige de connatre cette dernire et par consquent de savoir quelle est lhypothse vrie par la vraie valeur du paramtre. Or cette dernire est inconnue et par consquent on ne peut pas savoir sans ambigut quelle est, parmi H0 et H1 , lhypothse qui est vraie. Par consquent, quel que soit le test utilis, quel que soit le choix de T et quelle que soit la dcision prise, on ne peut jamais savoir si cette dcision prise conduit une erreur. On peut en revanche calculer la probabilit de commettre une erreur en envisageant tour tour que H0 , puis H1 , est vraie.
247
1. Supposons que H0 est vraie. Il y aura dans ce cas erreur (de type 1) si la dcision consiste considrer que H1 est vraie, autrement dit si lvnement Tn T se ralise. Par consquent, la probabilit de commettre une erreur de type 1 est la probabilit P(Tn T ), calcule en supposant que H0 est vraie. On appelle cette probabilit risque de type 1 (ou RT1). 2. Supposons que H1 est vraie. Par le mme argument que dans le point prcdent, la probabilit de commettre une erreur de type 2 est P(Tn T ), calcule en supposant H1 vraie. On appelle cette probabilit risque de type 2 (ou RT2). Notons que ces risques sont des nombres, compris entre 0 et 1 (ce sont des probabilits). Remarquons aussi que RT1 = 1 RT2, bien que les vnements (Tn T ) (qui sert dnir le RT1) et (Tn T ) (qui sert dnir le RT2) soient contraires. Cela provient du fait que la probabilit de lun nest pas calcule sous les mmes conditions que la probabilit de lautre. Dans le calcul de P(Tn T ) on suppose que H0 est vraie, alors que pour calculer P(Tn T ), on suppose H1 vraie. On traduit souvent cela en notant PH1 ou PH0 pour indiquer si un calcul de probabilit se fait en supposant H1 ou H0 vraie, respectivement. Ainsi, on peut crire le RT1 comme PH0 (T T ). On voit ainsi aisment que mme si PH0 (T T ) = 1 PH0 (T T ), en gnral on a PH0 (T T ) = 1 PH1 (T T ), cest--dire RT1 = 1 RT2.
sec:comp_tests
10.3.2.4
Comparaison de tests. Choix dun test
Pour un problme de test donn, il existe videmment plusieurs tests possibles. Par exemple, on peut construire un test bas sur une statistique Tn et une rgion T de valeurs possibles pour Tn , qui dcide donc H1 si Tn T . Il existe autant de tests de cette forme quil existe de choix possibles pour T . Par exemple, si T est un intervalle de la forme ]t , [, il y a autant dintervalles possibles quil y a de choix possibles pour t . Par ailleurs, on peut galement construire des tests bass sur une statistique Sn autre que Tn et utiliser un test qui dcide H1 si Sn S pour une certaine rgion S . Pour choisir entre deux tests, on se base sur leurs probabilits de commettre des erreurs. Deux tests dirents nauront en gnral pas les mmes risques. Comme des risques sont des probabilits de se tromper (de prendre de mauvaises dcisions), des deux tests on prfrera celui dont les RT1 et RT2 sont les plus petits. De manire plus gnrale, pour un problme de test donn, on sera tent de choisir parmi tous les tests possibles celui dont les risques de type 1 et de type 2 sont plus petits que ceux de nimporte quel autre test. Une telle approche butte sur la non-existence dun tel test dans les situations qui prsentent un intrt. Pour se rendre compte de cette non-existence, on peut considrer lexemple suivant.
Exemple : On reprend lexemple prcdent dans lequel on sintresse la valeur de la proportion de mnages franais ayant un accs internet domicile, propos de laquelle on souhaite n 1 1 tester H0 : 1 i=1 Xi , la proportion de mnages de 2 contre H1 : > 2 . Puisque Tn = n lchantillon ayant un accs internet domicile, a tendance tre proche de , on sattend ce que Tn prenne une valeur signicativement plus grande que 1 2 si H1 est vraie. Par consquent, on peut choisir un ensemble T (ensemble de valeurs probables pour Tn lorsque H1 est vraie) de 1 + d, 1], o d est un nombre que lon se donne. Ainsi, le test est T,T = 1 la forme T =] 2 1 Tn > 2 + d ; il consiste rejeter lhypothse que la proportion des mnages franais ayant internet 1 est plus petite que 2 lorsque cette proportion, observe sur lchantillon, est signicativement
248

1 plus grande que 2 . Pour choisir d, il est raisonnable de retenir la valeur pour laquelle les risques du test correspondant seront les plus petits possibles. Pour un choix de d donn, le RT1 est 1 + d) et le RT2 est PH1 (Tn 1 PH0 (Tn > 2 2 + d). Il est facile de voir que pour diminuer le RT1 il faut choisir de grandes valeurs de d, alors que pour diminuer le RT2, il faut choisir de petites valeurs de d. Il est donc impossible de choisir d de manire minimiser simultanment les deux risques. Autrement dit, soient d1 et d2 deux rels tels que 0 < d1 < d2 < 1 2 . On considre le test 1 dans lequel on rejette H0 lorsque Tn > 2 + d1 ainsi que le test dans lequel on rejette H0 lorsque Tn > 1 2 + d2 . Le RT1 du premier test sera plus grand que celui du second, alors que son RT2 sera plus petit.
Cet exemple montre que dans un cas particulier, si on sintresse des tests bass sur une statistique donne (la statistique Tn mesurant la proportion dans lchantillon), ayant une forme donne (le test rejette H0 lorsque la statistique prend une valeur plus grande quun certain seuil) alors il nexiste pas de test ayant des risques plus petits que les autres tests. Un rsultat plus gnral, donn par le thorme 10.1 ci-dessous, tablit que pour pouvoir minimiser simultanment les deux risques dun test, alors il faut quil existe un vnement qui soit la fois quasiment certain (de probabilit 1) lorsque H0 est vraie et quasiment impossible (de probabilit nulle) lorsque H1 est vraie. Dans un tel cas, il sut de noter si lvnement a t observ. Sil la t, il est incohrent de supposer que H1 puisse tre vraie, puisque si ctait le cas, cet vnement serait impossible observer ; or il la t et on dcide donc que H0 est vraie. On a un raisonnement semblable lorsque cet vnement nest pas observ. Pour quun tel vnement existe, il faut que les hypothses dnissant le problme de test attribuent chacune la loi des variables X1 , . . . , Xn des proprits tellement dissemblables de lautre, pour quon puisse dcider coup sr (i.e., avec une probabilit nulle de ce tromper) celle qui est vraie. 11 Des problmes dans lesquels on serait amen formuler des hypothses aussi dissemblables sont sans intrt pratique.
th:cs_zero_risque
Thorme 10.1 Soit un problme de test dni par une hypothse nulle H0 et une hypothse alternative H1 . Une condition ncessaire pour quil existe un test ayant des RT1 et RT2 infrieurs ceux de nimporte quelle autre test est quil existe un vnement A dont la probabilit vaut 1 lorsque H0 est suppose vraie, et 0 lorsque H1 est suppose vraie. Preuve : Supposons quun tel test existe et notons-le . Son RT1 est PH0 (X1 , . . . , Xn ) = 1 . Puisque son RT1 est infrieur celui de nimporte quel autre test, il est en particulier infrieur au test not 0 et qui consiste toujours accepter H0 , i.e., 0 (X1 , . . . , Xn ) = 0, X1 , . . . , Xn . Or puisquil ne rejette jamais H0 , le RT1 de 0 est nul (0 valant toujours 0, la probabilit que 0 vaille 1 est nulle). Le RT1 de vaut 0, puisque cest un nombre positif qui doit tre infrieur au RT1 de 0 . Donc PH0 ( (X1 , . . . , Xn ) = 1) = 0, ou encore PH0 ( (X1 , . . . , Xn ) = 0) = 1. On introduit prsent le test 1 qui consiste toujours rejeter H0 , i.e., 1 (X1 , . . . , Xn ) = 1, X1 , . . . , Xn . Le RT2 de 1 est nul et par un raisonnement semblable au prcdent, on doit avoir PH1 ( (X1 , . . . , Xn ) = 0) = 0. Dnissons alors lvnement A comme tant Les observations sont telles quon accepte H0 avec le test , ou encore A = {X1 , . . . , Xn | (X1 , . . . , Xn ) = 0}. Daprs ce qui prcde on voit que la probabilit de A calcule en supposant H0 vraie vaut 1, tandis que lorsquelle est calcule en supposant H1 vraie, elle vaut 0.
11. Il apparat dans la preuve du thorme 10.1 que les tests minimisant les deux risques sont ncessairement des tests pour lesquels ces risques sont nuls.
249
Jerzy Neyman (1894-1981)
Egon Pearson (1895-1980) Figure 10.1: J. Neyman et E. Pearson Lapproche usuelle utilise pour lever cette indtermination qui porte sur le choix dun test partir des RT1 et RT2 a t propose par J. Neyman et E. Pearson (voir gure 10.1). Cette approche consiste sassurer que pour un problme de test donn et pour tout test envisag pour le rsoudre, le RT1 de ce test ne dpasse pas une certaine valeur, note et appele niveau du test. La contrainte qui impose que le RT1 dun test ne dpasse pas le niveau scrit PH0 (n = 1) (10.1)
eq:np
cap:Neyman-Pearson
page:np
Si le test est construit partir dune statistique Tn et prend la forme n = 1 Tn T , lingalit (10.1) est PH0 (Tn T ) . Pour un niveau , tout test satisfaisant lingalit ci-dessus est appel test de niveau . Puisque pour tout problme de test dune hypothse H0 contre une hypothse H1 on doit se donner une valeur pour et utiliser un test de niveau , on dit quon teste H0 contre H1 au niveau . On voit alors par exemple que si le niveau est x, pour des tests de la forme n = 1 Tn T , il existe des choix de T qui ne sont pas autoriss car ils conduiraient une violation de la contrainte impose par lingalit (10.1). On note que dans lapproche de Neyman-Pearson, on ne choisit pas directement T , mais on xe dabord, et ensuite on choisit T de manire que (10.1) soit satisfaite. Le choix de reste arbitraire. Il convient cependant de noter que daprs la contrainte (10.1), reprsente la valeur maximale que le RT1 ne doit pas dpasser. Un risque tant une probabilit
250
de se tromper, on souhaite en gnral que cette probabilit ne soit pas trop leve. Aussi dans la pratique courante des tests, on retient pour les valeurs standard 0,1, 0,05 ou 0,01.
Exemple : On reprend lexemple prcdent dans lequel on sintresse la valeur de la proportion de mnages franais ayant un accs internet domicile. En suivant ce qui a t dit, on utilisera pour 1 1 tester au niveau = 0, 05 H0 : = 2 contre H1 : > 2 un test de la forme (X1 , . . . , Xn ) = 1 1 Tn ] 2 + d; 1]. La rgion critique T est de la forme ] 1 2 + d; 1] et choisir un test pour dcider entre H0 et H1 revient choisir la valeur de d. Si on veut que la contrainte (10.1) portant sur le niveau soit satisfaite, il faut que lon ait
1 PH0 (1 Tn > d + 2 ) 0, 05
(10.2)
eq:npe
ou encore PH0 (Tn > d + 1 2 ) 0, 05 puisque, Tn tant une proportion, on a toujours Tn 1. On rappelle que la notation PH0 indique que le calcul de probabilit doit se faire en supposant H0 1 , ou encore que X B ( 1 vraie, autrement dit en supposant que = 2 2 ). Avec cette supposition, la loi commune de X1 , . . . , Xn est videmment B () et il est facile den dduire la loi de Tn = n 1 1 i=1 Xi , qui nous permettra de calculer PH0 (Tn > d + 2 ) pour nimporte quelle valeur de d. n En eet
n 1 1 ) = PH0 ( n PH0 (Tn > d + 2 1 Xi > d + 2 ) = PH0 ( i=1 n i=1 n
Xi > nd + n 2)
= 1 PH0 (
i=1
Xi nd + n 2)
n
1 On sait que si H0 est vraie, X1 , . . . , Xn sont iid B ( 1 i=1 Xi B (n; 2 ). Ainsi la 2 ) et donc n n probabilit PH0 ( i=1 Xi nd + 2 ) est gale la fonction de rpartition de la loi binmiale de n paramtres n et 1 2 , value en nd + 2 . Cette fonction est parfaitement connue et cette probabilit peut donc tre calcule pour nimporte quelle valeur de d. Notons b(n, 1 cette fonction. Dans ce 2) cas, pour que lingalit (10.2) soit satisfaite, il faut que n 1 (nd + 1 b(n, 2 ) 2 ) 0, 05 n ou encore b(n, 1 (nd + n 2 ) 0, 95. Il faut donc choisir d de manire que nd + 2 soit suprieur ou 2) 1 gal au quantile dordre 95% de la loi B (n, 2 ). On constate donc que toutes les valeurs de d ne sont pas autorises si on veut quun test de la forme retenue ait un niveau 0,05. Cependant, mme si la contrainte (10.2) sur le RT1 du test exclut certaines valeurs de d, elle ne permet pas den dterminer une de manire unique. Pour cela, il faudra prolonger lapproche en considrant le RT2 : parmi toutes les valeurs de d pour lesquelles la contrainte (10.2) est satisfaite, on choisira celle pour laquelle le RT2 est le plus faible.
page:NP
Pour un problme de test donn, la comparaison de deux tests ne peut se faire que si ces deux tests satisfont la mme contrainte (10.1) sur leurs RT1. Autrement dit, dans lapproche de NeymanPearson, on ne peut comparer deux tests sils nont pas le mme niveau. Parmi deux tests de mme niveau, on prfrera celui pour lequel le RT2 est systmatiquement le plus faible. Autrement dit, si et sont deux tests pour lesquels PH0 ( n = 1) et PH0 (n = 1) , on prfre si PH1 ( n = 0) PH1 (n = 0). Cette ingalit scrit aussi PH1 (n = 1) PH1 (n = 1) et on voit que lorsque et sont deux tests de mme niveau, on prfre si la probabilit de prendre une bonne dcision lorsque H1 est vraie est plus leve avec le test quavec le test . Pour tout test , on appelle puissance la probabilit de dcider H1 calcule en supposant que H1 est vraie. Par consquent, parmi deux tests de niveau , on prfre celui ayant la plus puissance la plus grande, ou encore, le test le plus puissant.
251
Dans lapproche de Neyman-Pearson, on est donc conduit imposer sur lensemble des tests considrs la contrainte de niveau (10.1), et dans lensemble des tests satisfaisant cette contrainte, on cherche celui/ceux qui a/ont le RT2 le plus petit possible. Sil existe un test de niveau ayant un RT2 qui nest jamais strictement plus lev que celui de nimporte quel autre test de niveau , on dit quil est uniformment plus puissant (UPP) au niveau . La recherche de test UPP pour un problme de test pos est la recherche dun instrument de rsolution du problme dont les proprits sont optimales. Loptimalit est dans ce cas dnie par le niveau minimal du RT2, compte-tenu de la borne suprieure (la valeur ) impose au RT1. Pour les problmes de tests qui sont frquement poss, il nexiste pas de test UPP. Le problme du choix du meilleur (en termes de risques) test est nouveau pos. Pour pouvoir y rpondre, on restreint la famille des tests au sein de laquelle on cherche le meilleur. Les restrictions se font en imposant aux tests qui seront ligibles de satisfaire un certain nombre de bonnes proprits. Parmi celles-ci, la condition dabsence de biais est souvent impose. Cette notion est dnie de la manire suivante.
def:test_ss_biais
Dnition 10.1 Soit un test pour tester H0 contre H1 . On dit que est sans biais si PH1 (n = 1) PH0 (n = 1) (10.3)
eq:test_ss_biai
Lingalit dnissant labsence de biais revient dire quil est plus probable de dcider H1 lorsquelle est vraie que lorsquelle est fausse. Notons galement que cette mme galit scrit aussi PH0 (n = 0) PH1 (n = 0) (10.4)
eq:test_ss_biai
(en utilisant le fait que PHk (n = 0) = 1 PHk (n = 1), k = 0, 1). Labsence de biais signie donc galement quil est plus probable de dcider H0 lorsquelle est vraie que lorsquelle est fausse. Autrement dit, quelle que soit la dcision laquelle on sintresse (dcider H0 ou dcider H1 ), la probabilit de prendre cette dcision est toujours plus grande lorsque cette dcision correspond la bonne dcision. Ceci montre que labsence de biais pour un test est une proprit souhaitable puisquelle revient imposer quil est plus probable de prendre une bonne dcision quune mauvaise. On peut alors, dans les cas o il nexiste pas de test UPP, chercher le test le plus puissant parmi tous les tests sans biais. Dans cette approche, la contrainte de niveau du test continue dtre impose. Plus prcisment, on ne considre dans un tel cas que les tests sans biais de niveau niveau , cest dire les tests pour lesquels les ingalits (10.1) et (10.3) sont satisfaites. Dans lensemble de ces tests, on cherche celui dont le risque de type 2 est le plus faible (ou, de manire quivalente, la puissance est la plus leve). Un moyen dobtenir que les deux ingalits soient satisfaites consiste imposer la contrainte PH1 (n = 1) PH0 (n = 1) (10.5)
sec:est-ens-intro
eq:niv_et_ss_bi
10.3.3
Estimation par rgion de conance
Plutt que dapproximer par une seule valeur (lestimation ponctuelle de ) comme on la fait la section 10.3.1, on peut vouloir construire, en utilisant les donnes de lchantillon, une partie (ou une rgion) de ayant une grande probabilit de contenir la valeur inconnue du paramtre .
252
Dans le cas o est unidimensionnel ( R), on recherche souvent cette partie sous la forme dun intervalle. Lobjectif dans ce cas est de trouver une fourchette de valeurs ayant de grandes chances dencadrer la valeur inconnue du paramtre . On cherche donc ici un outil qui permet dapproximer la valeur inconnue dun paramtre par un ensemble de valeurs plausibles, par opposition aux estimateurs, qui ralisent une approximation de ce mme paramtre laide dune valeur isole. Cette distinction est parfois souligne en parlant destimateur ponctuel pour les estimateurs, et destimateur ensembliste pour les rgions de conance qui vont tre prsentes dans cette section. La dmarche consiste se donner une probabilit leve, quon note 1 ( ]0; 1[ est donc petit), et, en utilisant un chantillon X1 , . . . , Xn , on cherche obtenir une rgion de , note Cn = C (X1 , . . . , Xn ) telle que la probabilit que Cn contienne la valeur inconnue du paramtre est dau moins 1 , quelle que soit cette valeur inconnue : P Cn 1 , (10.6)
eq:rct
On note dans lingalit ci-dessus que la probabilit est indexe par . La raison est que la ralisation ou non de lvnement Cn dpendra des ralisations des variables X1 , . . . , Xn . Par consquent, la probabilit dun tel vnement (membre de gauche de lingalit (10.6)) sera calcule partir de la loi de X1 , . . . , Xn . Or cette dernire dpend prcisment de . Par consquent, la valeur de cette probabilit dpend galement de la valeur de , ce quon indique donc en notant P . Lingalit (10.6) sinterprte de la manire suivante. On ne connat pas la vraie valeur du paramtre , mais on peut examiner ce qui se passe pour nimporte quelle valeur possible de ce paramtre. Envisageons le cas o celle-ci est 0 , un lment quelconque de . Dans ce cas particulier, on requiert de la rgion Cn quelle contienne cette valeur 0 (qui est la bonne valeur du paramtre) avec une probabilit au moins gale 1 . Comme indiqu dans le paragraphe prcdent, cette probabilit dpend de la valeur du paramtre. On a suppos ici que cette valeur est 0 , et par consquent la probabilit que la rgion Cn contienne 0 doit se calculer avec 0 comme valeur du paramtre. Cette probabilit est donc P0 0 Cn . On impose alors la rgion Cn de satisfaire P0 0 Cn 1 . Ceci sobtient avec la supposition initiale que la valeur du paramtre est 0 . Mais comme cette dernire est en ralit inconnue, on requiert que ce raisonnement et la condition impose Cn soient valables quelle que soit la valeur possible du paramtre, cest dire pour nimporte quelle valeur 0 a priori possible pour ce paramtre. Cest exactement ce quexprime lingalit (10.6). Dnition 10.1 On appelle rgion de conance de niveau 1 pour toute partie (alatoire) Cn de pour laquelle lingalit (10.6) est satisfaite. On appelle 1 le niveau de conance de Cn . Notons que lingalit (10.6) scrit galement

inf P Cn 1
On appelle le membre de gauche de cette ingalit probabilit de couverture de la rgion Cn . Construire une rgion de conance consiste dlimiter dans lensemble des valeurs possibles du paramtre une rgion dans laquelle se trouve la vraie valeur avec une grande probabilit (1
253
page:info-rc
). tant donne cette dmarche, on peut considrer que la dlimitation opre par une rgion de conance est assimilable au montant dinformation que cette rgion apporte sur la valeur du paramtre quelle cherche recouvrir. Le nombre 1 peut alors sinterprter comme le niveau de conance quon souhaite attribuer cette information. Les points de qui ne sont pas dans une rgion de conance donne ne sont pas considrs comme des valeurs plausibles du paramtre. Le volume de points ainsi carts est dautant plus grand que celui de cette rgion est petit, et donc linformation sur lendroit de dans lequel il est plausible de trouver la valeur du paramtre est dautant plus grande que le volume de la rgion est petit. Bien quon ne formalise pas cette ide, on peut facilement en voir la raison travers lexemple suivant. Supposons que le paramtre dintrt soit la probabilit dun vnement donn (par exemple la probabilit quun mnage choisi au hasard dispose dune connexion internet son domicile). Dans ce cas, on a par construction = [0; 1]. Si on choisit Cn = [0; 1], on a videmment P ( Cn ) = 1, et il est donc clair que pour tout niveau de conance possible 1 , la rgion [0; 1] satisfait la condition (10.6). Lintervalle [0; 1] est donc une rgion de conance pour au niveau 1 . Cependant on voit bien que tout en possdant un niveau de conance aussi haut (i.e., aussi proche de 1) quon le souhaite, cette rgion concide avec lensemble des valeurs a priori possibles pour la probabilit et napporte donc aucune information sur la vraie valeur du paramtre, autre que celle dont on disposait dj, savoir que le paramtre tant une probabilit, sa vraie valeur est ncessairement dans lintervalle [0; 1]. Un autre exemple permettant dillustrer la mme ide est le suivant. Supposons que pour un paramtre et un niveau de conance donn 1 nous soyons parvenus construire une rgion de conance Cn . Il est clair que toute partie de contenant Cn est galement une rgion de conance de telle que C C , lvnement C de niveau 1 pour . En eet, pour toute partie Cn n n n et donc P C ) P C . Comme la plus petite des deux implique lvnement Cn n n probabilits est suprieure ou gale 1 pour tout , elles le sont toutes les deux. Par satisfait la condition (10.6). Cependant, si le niveau de conance requis est de consquent, Cn ayant ce niveau, on prfrera C C , puisquavec un mme 1 , parmi les deux rgions Cn et Cn n n , la rgion C dlimite dans un ensemble niveau de conance, et tout en tant contenue dans Cn n . La rgion C est donc plus informative que de valeurs possibles pour moins volumineux que Cn n Cn propos de la vraie valeur du paramtre . Mme si dans les exemples ci-dessus le volume dune rgion est une caractristique prendre en compte pour valuer le montant dinformation quune rgion de conance apporte sur la valeur du paramtre quelle cherche recouvrir, il ne constitue pas un critre utilisable de manire sufsamment gnrale pour choisir parmi plusieurs rgions de conance. En eet, dans ces exemples les rgions compares sont embotes et dans ce cas la comparaison des volumes est facile. Dans le cas gnral, cest un critre dexactitude qui est retenu pour comparer des rgions de conance (et choisir celles quil est optimal dutiliser).
def:rc_prec
deux rgions de conance de mme niveau pour . On dit que Dnition 10.2 Soient Cn et Cn est plus exacte que C si Cn n P1 (0 Cn ) P1 (0 Cn ),
0 , 1 , 0 = 1
) est la probabilit que C contienne la valeur du paramtre, calcule en Le terme P1 (0 Cn 0 n
254
supposant que celle-ci est 1 . Dans un tel calcul, si on suppose que 1 est la valeur du paramtre, se ralise, C contient une valeur du paramtre qui nest pas la alors lorsque lvnement 0 Cn n ) est la probabilit que la rgion C contienne une mauvaise valeur du bonne. Donc P1 (0 Cn n paramtre. On a la mme interprtation pour la rgion Cn . Par consquent, la dnition ci-dessus dit que parmi deux rgions de conance de mme niveau, la plus exacte est celle ayant la plus petite probabilit de contenir toute valeur errone du paramtre. On prfrera et choisira donc la plus exacte de ces deux rgions. Puisque le critre dexactitude permet de comparer des rgions de conance, il est naturel de chercher dterminer la meilleure parmi toutes les rgions dun niveau donn. Lapproche est donc semblable celle des tests, puisquici, sous la contrainte que les rgions considres aient toutes le niveau choisi 1 , on slectionnera parmi celles-ci la plus exacte (comparer cette approche avec celle de Neyman-Pearson retenue pour les tests, dcrite page 250). Plus prcisment, pour une rgion de conance Cn , lorsque 0 = 1 , on peut assimiler P1 (0 Cn ) la probabilit dune mauvaise dcision : comme on la dit dans le paragraphe prcdent, cest la probabilit que la rgion Cn contienne une mauvaise valeur du paramtre. Cette probabilit est donc assimilable aux risques dun test. La dmarche de choix dune rgion de conance consistant maximiser son exactitude est donc identique la dmarche de choix dun test par minimisation de ses risques. Dans les deux cas (test ou rgion de conance) une contrainte sur la probabilit dune bonne dcision est impose. Lanalogie entre tests et rgions de conance est formalise par des rsultats qui tablissent une correspondance entre ces deux outils dinfrence. Ils permettent notamment de calquer lanalyse des proprits des rgions de conance sur celles des tests. Le premier de ces rsultats est le thorme 10.2 ci-dessous ; il montre que construire une rgion de conance de niveau 1 pour un paramtre est quivalent construire une famille de tests de niveau pour tester des hypothses sur la valeur de ce paramtre. Le second rsultat est le corollaire 10.1, qui montre que chercher la rgion la plus exacte revient chercher le test le plus puissant.
th:rc-tests
Thorme 10.2 1. tout 0 on associe 0 , un test de niveau pour tester H0 : = 0 contre une hypothse alternative quelconque. Comme auparavant on denit 0 ,n par 0 (X1 , . . . , Xn ). La partie Cn de dnie par Cn = {0 | 0 ,n = 0} (10.7) 2. Soit Cn une rgion de conance de niveau 1 pour . Soit 0 un lment de . La fonction 0 dnie par 0 (X1 , . . . , Xn ) = est un test de niveau pour tester H0 : = 0 contre nimporte quelle alternative. 12
12. La raison pour laquelle on ne dsigne pas les hypothses alternatives dans ce thorme (et quon peut donc les choisir comme on veut) est que les rsultats quil contient ne concernent que le niveau dun test, cest dire la probabilit dun vnement, calcule en supposant vraie lhypothse nulle. Il nest donc pas ncessaire de considrer les hypothses alternatives.
eq:rc-tests1
est une rgion de conance de niveau 1 pour .
1 si C 0 n 0 sinon
(10.8)
eq:rc-tests
255
Preuve :
1. Soit 0 un lment quelconque de . Notons que par construction de Cn , on a 0 Cn 0 ,n = 0 et donc P0 (0 Cn ) = P0 (0 ,n = 0) = 1 P0 (0 ,n = 1) Comme le test est de niveau pour tester H0 , cette probabilit est suprieure ou gale 1 (voir lingalit (10.1)).
2. Soit une rgion de conance Cn de niveau 1 pour le paramtre . Soit 0 le test dni par (10.8). On a P0 (0 (X1 , . . . , Xn ) = 1) = P0 0 Cn
o lingalit est obtenue en notant que la rgion de conance Cn est de niveau 1 (voir lingalit (10.6)). Ce thorme montre qu toute rgion de conance de niveau 1 on peut associer une famille de tests de niveau et rciproquement. Plus prcisment, si Cn est une rgion de conance, le thorme montre quon peut lui associer une famille {0 | 0 } de tests de niveau pour les hypothses nulles de la forme H0 : = 0 au moyen de la relation (10.8). En particulier, si on dispose dune rgion de conance Cn de niveau 1 pour le paramtre , alors on a automatiquement un test de niveau pour tester H0 : = 0 qui consiste dcider que H0 est fausse si la rgion Cn ne contient pas 0 . Rciproquement, si pour tout 0 on dispose dun test 0 de niveau pour tester H0 : = 0 , alors on a automatiquement une rgion de conance de niveau 1 pour en formant lensemble de toutes les valeurs 0 pour lesquelles on dcide daccepter lhypothse nulle H0 : = 0 avec le test 0 . La correspondance entre tests et rgions de conance tablie par le thorme 10.2 peut sutiliser pour montrer que lapproche par laquelle on compare des rgions de conance sur la base de leur exactitude est identiques celle utilise pour comparer les tests. En eet, en utilisant la dnition 10.2 et le thorme 10.2, on peut montrer le corollaire suivant, qui tablit que pour comparer lexactitude de deux rgions de conance, il sut de comparer la puissance des tests associs.
cor:rc-tests
deux rgions de conance de niveau 1 pour un paramtre , et Corollaire 10.1 Soient Cn et Cn soient {0 | 0 } et { 0 | 0 } les familles de tests qui leur sont respectivement associes. Cn est plus exacte que Cn si et seulement si pour tout 0 , la puissance de 0 nexcde jamais celle de 0 .
Preuve : Soit 0 et le problme de test H0 : = 0 , H1 : = 0 . Si la puissance du test 0 nexcde jamais celle de 0 , la probabilit que 0 dcide H1 calcule en supposant H1 vraie doit tre suprieure ou gale la probabilit correspondante pour 0 . Dire que H1 est suppose vraie revient dire que ces probabilits doivent tre calcules pour des valeurs 1 du paramtre direntes de 0 . Par consquent, on doit avoir P1 ( 0 ,n = 1) P1 (0 ,n = 1), 1 = 0 , ou encore P1 ( 0 ,n = 0) P1 (0 ,n = 0), 1 = 0
256
CHAPITRE 10. RAPPELS SUR LA DMARCHE DE LINFRENCE STATISTIQUE Par construction des tests, on a 0 ,n = 0 0 Cn et donc lingalit ci-dessus scrit
P1 (0 Cn ) P1 (0 Cn ),
1 = 0
Comme ceci est vrai pour tout 0 , on en dduit que C est plus exacte que C .
est plus exacte que C , alors pour tout et dans on a Rciproquement, si Cn n 0 1 lingalit suivante : P1 ( 0 ,n = 1) = P1 (0 Cn ) P1 (0 Cn ) = P1 (0 ,n = 1)
o les galits proviennent de lassociation entre rgions de conance et tests (voir le thorme 10.2). Pour 0 x, cette ingalit est vraie pour tout 1 = 0 . Par consquent, on peut crire PH1 ( 0 ,n = 1) PH1 (0 ,n = 1) ce qui tablit que 0 est plus puissant que 0 . Le corollaire 10.1 sutilise surtout pour tablir que si on dispose dun test 0 de niveau pour tester H0 : = 0 contre H1 : = 0 qui est UPP, alors la rgion de conance de niveau 1 pour le paramtre 1 la plus exacte est celle associe au test 0.
On a mentionn dans la section prcdente quil est en gnral impossible de construire des tests UPP, et quon est alors amen chercher le test le plus puissant dans un ensemble donn de tests, form en imposant des proprits souhaites aux tests qui le composent. Parmi ces proprits, on a introduit labsence de biais. Soit 0 un test sans biais de niveau pour tester H0 : = 0 contre H1 : = 0 ; la rgion de conance Cn associe 0 satisfait la proprit suivante : P0 (0 Cn ) P1 (0 Cn ) 0 , 1 (10.9)
eq:rc_ss_biais
page:rc_ss_biais
Cette ingalit est lingalit (10.4) qui caractrise labsence de biais de 0 , rcrite en faisant appel lquivalence 0 Cn 0 ,n = 0 (voir le thorme 10.2) et en notant que si on suppose que = 1 , alors H1 est suppose vraie. Lingalit (10.9) peut sinterprter comme une condition dabsence de biais de la rgion Cn . Dans cette ingalit, la valeur 0 du paramtre est celle qui est utilise pour calculer les probabilits. Par consquent, cette valeur est suppose tre la vraie valeur du paramtre. La valeur 1 = 0 est donc une valeur errone. Lingalit tablit alors quil est plus probable que la rgion Cn contienne la vraie valeur du paramtre quune valeur errone de ce paramtre. Ce type de proprit fait donc partie des proprits souhaitables quon peut vouloir imposer lorsquon cherche construire une rgion de conance.

Poly

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Poly

Transféré par

Droits d'auteur :

Formats disponibles

Introduction lconomtrie

Le modle de rgression linaire

Universit Charles-de-Gaulle Lille 3

Introduction : prsentation du cours

Table des matires

Estimation des variances . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46 2.5.1 2.5.2

Tests dhypothses portant sur 0 et 1 . . . . . . . . . . . . . . . . . . . . . . . . . 62 7

Test dune hypothse jointe sur 0 et 1 . . . . . . . . . . . . . . . . . . . . . 67

4 Modle de rgression linaire simple : prvision 4.1 4.2 4.3

5 Le modle de rgression linaire standard : dnition et estimation 5.1 5.2 5.3

Valeurs ajustes. Rsidus 5.5.1

TABLE DES MATIRES 5.5.2 5.6

Estimation de sous contraintes linaires . . . . . . . . . . . . . . . . . . . . 127 ) . . . . . . . . . . . . . . . . . . . . . . . . . 132 Estimation de la variance 2 et de V( 135

Illustration de la proprit dinvariance du test de Fisher . . . . . . . . . . . 146

Autres expressions de la statistique de Fisher et interprtations du test

Rgions de conance pour . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 159 163

. . . . . . . . . . . . . . . . . . . . . . . . . 163 . . . . . . . . . . . . . . . . . . . . . . . . . 164 . . . . . . . . . . . . . . . . . . . . . . . . . 164 . . . . . . . . . . . . . . . . . . . . . . . . . 166

Proprits asymptotiques de 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 Convergence de 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 Loi asymptotique de 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 176

Utilisation des proprits asymptotiques . . . . . . . . . . . . . . . . . . . . . . . . . 177 179

8 Modles avec htroscdasticit ou corrlation 8.1 8.2

9 Complments 9.1 9.1.1 9.1.2 9.1.3

Sur les drives de fonctions matricielles . . . . . . . . . . . . . . . . . . . . . . . . . 231 9.4.1 9.4.2

10 Rappels sur la dmarche de linfrence statistique

Le modle de rgression linaire simple : prsentation

Le contexte et les objectifs

CHAPITRE 1. LE MRLS : PRSENTATION

Heuristique de la construction du modle

1.2. HEURISTIQUE DE LA CONSTRUCTION DU MODLE

CHAPITRE 1. LE MRLS : PRSENTATION

Dnition et interprtations du modle de rgression linaire simple

1.3. DFINITION ET INTERPRTATIONS

CHAPITRE 1. LE MRLS : PRSENTATION

1.3. DFINITION ET INTERPRTATIONS

18 Valeurs de la variable explique

CHAPITRE 1. LE MRLS : PRSENTATION

xi Nest pas observe. La ralisation (non observe) de i est note ei .

Relations dcoulant de la dfinition du modle Yi = 0 + 1 xi + i yi = 0 + 1 xi + ei E(Yi ) = 0 + 1 xi

Le modle de rgression linaire simple : estimation des paramtres

CHAPITRE 2. LE MRLS : ESTIMATION DES PARAMTRES

Observations de la variable explicative

Figure 2.1: Interprtation graphique de la fonction S

2.1. APPROCHE INTUITIVE

(a) (0 , 1 ) = (16.43, 0.47)

(b) (0 , 1 ) = (25.02, 0.10)

Figure 2.2: Droites et carts S1 (0 , 1 ), . . . , Sn (0 , 1 ) associs dirents choix de (0 , 1 )

On aborde prsent la rsolution du problme de minimisation de la fonction S . On doit donc rsoudre

CHAPITRE 2. LE MRLS : ESTIMATION DES PARAMTRES

25 20 S (0 , 1 ) 15 15 10 5 0 1 0.5 0 1 0.51 1.5 2 2.5 10 5 0 25 Courbes de niveau : 20 11 9 7 5 3 2 1

2(Yi 0 1 Xi ) 2Xi (Yi 0 1 Xi ).

La premire quation est quivalente

n i=1 (2)Xi (Yi

2.1. APPROCHE INTUITIVE

25 0 dans le seconde En substistuant cette expression de

1 X. 0 = Y Ce thorme est illustr par la gure 2.4.

CHAPITRE 2. LE MRLS : ESTIMATION DES PARAMTRES

(1, 0.5)). Cliquez pour lancer lanimation.

2.1. APPROCHE INTUITIVE

25 Courbes de niveau : 25 20 15 10 5 0 1 0.5 0 0.5 1 1 1.5 2 0 1 2 3 4 5 2.5 0 20 15 10 5 0 11 9 7 5 3 2 1 S (0 , 1 )

w 0i = i = 1, . . . , n. Preuve : On tablit facilement que

1 , on peut crire Par consquent, en utilisant lexpression (2.7) de 1 =

2.2. APPROCHE THORIQUE 0 , on a partir de (2.8) En ce qui concerne 1 X = 1 0 = Y n

Un critre de comparaison destimateurs est lerreur quadratique moyenne (EQM).

Les w 0i , . . . , w 0n satisfont cette condition si et seulement si ils satisfont

2.2. APPROCHE THORIQUE mme pour 0 = 0 et 1 = 1, on doit avoir vraie.