StatAppli Paris 6

Statistique applique e
Universit Pierre et Marie Curie e Ma trise de Mathmatiques e

Anne 2006/2007 e
A. Tsybakov
Prambule e
Ce polycopi sadresse aux tudiants ayant suivi un cours dintgration et un premier e e e cours de probabilits. La Partie 1 contient un bref rappel de quelques notions de base de e probabilits, souvent sans dmonstration (les manuels de probabilits conseills sont louvrage e e e e de N.Bouleau Probabilits de lingnieur, variables alatoires et simulation et le polycopi du e e e e cours de J.Lacroix et P.Priouret Probabilits approfondies, Chapitres 1 3). La Partie 1 e prsente aussi les rsultats probabilistes utiliss dans la Statistique qui gnralement ne sont e e e e e pas exposs dans les cours de probabilits (thor`mes de continuit, rgression et corrlation, e e e e e e e lois drives de la normale multivarie, etc). La Partie 2 introduit les principales notions de la e e e Statistique et dcrit quelques mthodes classiques de lestimation, de tests dhypoth`se et de e e e construction des intervalles de conance. Enn, la Partie 3 contient lapplication des mthodes e statistiques dans les 3 mod`les concrets multi-dimensionnels, a savoir, celles de lanalyse en e composantes principales, de la rgression linaire multivarie et de lanalyse discriminante e e e (classication). Les parties marques par le signe e pas lobjet de question aux examens.
peuvent tre omises en premi`re lecture et ne feront e e
Table des mati`res e
Partie 1. Rappels et complments de probabilits e e Chapitre 1. Quelques rappels de probabilits e 1.1. Caractristiques des variables alatoires e e 1.2. Rappel de quelques ingalits e e 1.3. Suites de variables alatoires e 1.4. Indpendance et thor`mes limites e e e 1.5. Thor`mes de continuit e e e 1.6. Exercices Chapitre 2. Rgression et corrlation e e 2.1. Couples des variables alatoires. Lois jointes et marginales e 2.2. Conditionnement (cas discret) 2.3. Conditionnement et projection. Meilleure prvision e 2.4. Probabilit et esprance conditionnelles (cas gnral) e e e e 2.5. Conditionnement (cas continu) 2.6. Covariance et corrlation e 2.7. Rgression e 2.8. Variance rsiduelle et rapport de corrlation e e 2.9. Rgression linaire e e 2.10. Meilleure prvision linaire e e 2.11. Exercices Chapitre 3. Vecteurs alatoires. Loi normale multivarie e e 3.1. Vecteurs alatoires e 3.2. Loi normale multivarie e 3.3. Esprance conditionnelle dun vecteur alatoire e e 3.4. Thor`me de corrlation normale e e e 3.5. Lois drives de la loi normale e e 3.6. Thor`me de Cochran e e 3.7. Exercices Partie 2. Notions fondamentales de la Statistique Chapitre 4. Echantillonnage et mthodes empiriques e 4.1. Echantillon 4.2. Reprsentation graphique de lchantillon e e 4.3. Caractristiques de lchantillon. Mthode de substitution e e e
3
7 9 9 16 18 20 22 23 25 25 26 28 30 33 35 37 37 40 42 43 47 47 54 60 62 66 68 69 73 75 75 77 80
` TABLE DES MATIERES
4.4. 4.5. 4.6. 4.7. 4.8.
Statistiques exhaustives Proprits des statistiques X et s2 ee Covariance et corrlation empiriques e Construction dun chantillon pseudo-alatoire par simulation e e Exercices
83 87 89 90 93 97 97 100 105 107 112 114 117 123 125 126 129 129 131 136 139 145 147 149 151 156 157 163 165 165 166 168 169 171 174 175 178 180 181 187 187 189 191
Chapitre 5. Estimation des param`tres e 5.1. Mod`le statistique. Probl`me destimation des param`tres e e e 5.2. Comparaison destimateurs 5.3. Mthode des moments e 5.4. Mthode du maximum de vraisemblance e 5.5. Comportement asymptotique de la fonction de log-vraisemblance 5.6. Consistance de lestimateur du maximum de vraisemblance 5.7. Mod`les statistiques rguliers e e 5.8. Normalit asymptotique de lestimateur du maximum de vraisemblance e 5.9. Comparaison asymptotique destimateurs 5.10. Exercices Chapitre 6. Tests dhypoth`ses et rgions de conance e e 6.1. Le probl`me de test dhypoth`se e e 6.2. Test dhypoth`se simple contre lalternative simple e 6.3. Tests des hypoth`ses composites e 6.4. Tests dans le mod`le normal e 6.5. Tests asymptotiques 6.6. Tests de comparaison de deux lois normales 6.7. Rgions de conance e 6.8. Mthodes de construction des rgions de conance e e 6.9. Dualit entre tests et rgions de conance e e 6.10. Exercices Partie 3. Analyse statistique multivarie e Chapitre 7. Analyse en composantes principales 7.1. Donnes multivaries e e 7.2. Lide de lAnalyse en composantes principales (ACP) e 7.3. ACP : cadre thorique e 7.4. ACP : cadre empirique 7.5. Etude des corrlations : cadre thorique e e 7.6. Etude des corrlations : cadre empirique e 7.7. Exemple dapplication numrique de lACP e 7.8. Reprsentation graphique des rsultats de lACP e e 7.9. Limites dutilisation de lACP 7.10. Exercices Chapitre 8. Rgression linaire multivarie e e e 8.1. Le probl`me destimation de rgression multivarie e e e 8.2. Mthode des moindres carrs e e 8.3. Proprits statistiques de la mthode des moindres carrs ee e e
` TABLE DES MATIERES
8.4. 8.5. 8.6. 8.7.
Rgression linaire normale e e Application au probl`me de prvision e e Application aux tests sur le param`tre e Exercices
192 193 195 199
Partie 1
Rappels et complments de probabilits e e
Quelques rappels de probabilits e

1.1. Caractristiques des variables alatoires e e Soit (, A, P ) un espace de probabilit, o` (, A) est un espace mesurable et P est e u une mesure de probabilit sur A. Une variable alatoire (v.a.) X est une fonction mesurable e e X : (, A) (R, B) o` B est la tribu borlienne de R. Parfois on crit X = X() pour u e e souligner le fait quil sagit dune fonction de . Dnition 1.1. La fonction de rpartition (f.d.r.) dune variable alatoire X est la fonction e e e F : R [0, 1] dnie par F (x) = P (X x) = P ( : X() x). e Cest une fonction monotone croissante, continue ` droite et telle que limx F (x) = 0 a et limx F (x) = 1. La fonction F sera aussi appele la loi (ou la distribution) de X. On va e distinguer entre deux principaux types de variables alatoires : les variables discr`tes et les e e variables continues. Variable discr`te : X est une variable alatoire dont les valeurs appartiennent ` un ene e a semble ni ou dnombrable. La variable de Poisson est un exemple de variable discr`te dont e e lensemble de valeurs est dnombrable : pour > 0 la loi de X est donne par e e P (X = k) = k e , k = 0, 1, 2, ... k!
On dit alors que X suit la loi de Poisson P(). La fonction de rpartition de X est reprsente e e e dans la Figure 1.1. La f.d.r. dune variable alatoire discr`te est une fonction en escalier. e e Variable continue : X est une variable alatoire dont la loi admet une densit f 0 par e e rapport ` la mesure de Lebesgue sur R, i.e. a
x
F (x) =
9
f (t)dt,
10
1. QUELQUES RAPPELS DE PROBABILITES
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0 1
Figure 1.1. La f.d.r. de la loi de Poisson
pour tout x R. Dans ce cas la f.d.r. F de X est direntiable presque partout sur R et la e densit de probabilit de X est gale ` la drive e e e a e e f (x) = F (x) presque partout. On note que f (x) 0 pour tout x R et
f (x)dx = 1.
Exemple 1.1. a) Loi normale (gaussienne) N (, 2 ) est la loi de densit e

(x)2 1 f (x) = e 22 , 2
x R,
o` R et > 0. Si = 0, 2 = 1, la loi N (0, 1) est dite loi normale standard. Dans la u suite, lcriture X N (, 2 ) signie que la v.a. X suit la loi N (, 2 ). e b) Loi uniforme sur lintervalle [a, b], < a < b < , est la loi note U [a, b], de densit e e f (x) = (b a)1 1[a,b] (x), l o` 1A () dsigne la fonction indicatrice de lensemble A : u l e 1A (x) = I{x A} = l c) Loi exponentielle E() est la loi de densit e f (x) = 1 ex/ 1[0,+[ (x), l o` > 0. La fonction de rpartition de E() est u e F (x) = (1 ex/ )1[0,+[ (x). l 1 si x A, 0 sinon. x R,
1.1. CARACTERISTIQUES DES VARIABLES ALEATOIRES
11
Les lois des variables discr`tes sont enti`rement dnies par les probabilits P (X = ), e e e e les lois des variables continues par leur densit f (). Certaines caractristiques scalaires e e de la fonction de rpartition (ses fonctionnelles) sont importantes pour la description du e comportement des variables alatoires. Des exemples de telles fonctionnelles sont les moments e et les quantiles. 1.1.1. Moments. La moyenne (ou lesprance mathmatique) dune variable alatoire e e e X est dnie par : e i iP (X = i) si X est une v.a. discr`te, e = E(X) = xdF (x) = si X est une v.a. continue. xf (x)dx Le moment dordre k (k = 1, 2, ...) de X est dni par : e k = E(X k ) = ainsi que le moment centr dordre k : e k = E((X )k ) = Un cas particulier est la variance 2 (=

xk dF (x),
(x )k dF (x).
2 = moment centr dordre 2) : e
2 = Var(X) = E((X E(X))2 ) = E(X 2 ) (E(X))2 . La racine carre de la variance sappelle cart-type de X : = e e Le moment absolu k dordre k de X est k = E(|X|k ) alors que le moment absolu centr dordre k est dni par : e e k = E(|X |k ). Bien videmment, ces dnitions supposent lexistence des intgrales respectives : par cone e e squent, toutes les lois ne poss`dent pas ncessairement des moments. e e e Exemple 1.2. Non-existence de tous les moments. Soit X une variable alatoire de densit e e de probabilit e c f (x) = , x R, 1 + |x| log2 |x| o` la constante c > 0 est telle que u f = 1. Alors E(|X|a ) = pour tout a > 0. Var(X).
La proposition suivante sobtient facilement. Proposition 1.1. Soit une variable alatoire telle que E( 2 ) < . Alors, pour tout c rel, e e E(( c)2 ) = (E() c)2 + E(( E())2 ) = (E() c)2 + Var().
12
0.4
0.35
=1
0.3
0.25
0.2
0.15
0.1
=3
0.05
0 10
=1
8 6 4 2 0 2 4 6 8 10
Figure 1.2. La loi normale N (, 2 ) ( grand beaucoup de dispersion, petit peu de dispersion)
Corollaire 1.1. (Proprit extrmale de la moyenne.) Soit une variable alatoire e e e e telle que E( 2 ) < . Alors, = E() si et seulement si E(( )2 ) = min E(( c)2 ).
cR
La moyenne est utilise pour caractriser la localisation (position) dune loi de probabilit. e e e La variance caractrise la dispersion (lchelle) dune loi. Une illustration graphique de ces e e proprits est donne dans la Figure 1.2. ee e Soit F la f.d.r. de la variable alatoire X dont la moyenne et lcart-type sont et . Par e e 2 transformation ane, on obtient la variable X0 = (X )/, telle que E(X0 ) = 0, E(X0 ) = 1 (la variable standardise). Si F0 est la f.d.r. de X0 , alors F (x) = F0 ( x ). Si X est une v.a. e continue, la densit de X scrit e e f (x) = 1 x f0 ,
o` f0 est la densit de X0 . En gnral, pour dnir la loi standardise F0 et pour avoir la u e e e e e e reprsentation F (x) = F0 ( x ), il nest pas ncessaire que la moyenne et la variance existaient. e Ceci est fait uniquement pour souligner que F dpend des param`tres de localisation (ou de e e position) et dchelle . Par exemple, pour la famille des densits de Cauchy dpendant de e e e , : 1 , f (x) = (1 + [(x )/]2 ) la densit standardise est f0 (x) = e e Cauchy nexistent pas.
1 . (1+x2 )
Pourtant, lesprance et la variance de la loi de e
13
Le probl`me danalyse suivant est li aux moments. Soit F une f.d.r. dont tous les moments e e sont nis. Etant donne la suite {k }, k = 1, 2, ..., de tous les moments de F , peut-on reconse tituer F ? La rponse est gnralement ngative. Il existe nanmoins des cas pour lesquels la e e e e e reconstitution est possible, notamment sous lhypoth`se tr`s forte que e e lim sup k k k
1/k
<
(k tant le k-`me moment absolu). Cette hypoth`se est vrie, par exemple, si X est une e e e e e variable alatoire borne. e e 1.1.2. Quantiles. Soit X une variable alatoire avec la f.d.r. F continue et strictement e croissante. Le quantile dordre p, 0 < p < 1, de la loi F est alors dni comme solution qp de e lquation e F (qp ) = p. (1.1) On remarque que, pour F strictement croissante et continue, la solution existe et elle est unique, donc dans ce cas le quantile qp est bien dni par (1.1). Si F nest pas strictement e croissante ou nest pas continue, on peut modier la dnition (1.1) de la faon suivante. e c Dnition 1.2. Soit F une f.d.r. Le quantile qp dordre p de F est la valeur e 1 qp = (inf{q : F (q) > p} + sup{q : F (q) < p}) . 2 Si p est tel que (1.1) na pas de solution (F a un saut), qp est le point de saut. Si (1.1) admet un intervalle de solutions (p correspond ` un plateau du graphique de F ), alors qp a est le milieu de cet intervalle. La mdiane M de la loi de X est le quantile dordre 1/2 : e M = q1/2 . Notons que P (X M ) 1/2 et P (X M ) 1/2. Si F est continue, F (M ) = 1/2. Les quartiles sont la mdiane et les quantiles q1/4 et q3/4 dordre 1/4 et 3/4. e Le pourcentile de l %, 0 < l < 100, de la loi F est le quantile qp dordre p = l/100. La mdiane caractrise la position (localisation) dune loi de probabilits, alors que la e e e dirence I = q3/4 q1/4 (dite intervalle interquartile) est souvent utilise comme une cae e ractristique de lchelle. Ce sont des analogues ` la moyenne et ` lcart-type respectivee e a a e ment. Mais ` la dirence de ceux-ci, la mdiane et lintervalle interquartile sont dnis pour a e e e toutes les lois F . Proposition 1.2. (Proprit extrmale de la mdiane.) Soit une variable alatoire e e e e e telle que E(||) < . Alors, E(| a|) = min E(| c|)
cR
pour tout a R vriant P ( a) 1/2 et P ( a) 1/2. En particulier, e E(| M |) = min E(| c|),
cR
14
o` M est la mdiane de la loi de . u e Preuve. Montrons que E(| c|) E(| a|) pour tout c R. Sans perte de gnralit, e e e supposons que c > a. On a alors : | c| | a| + (c a) | c| | a| | c| | a| (c a) Par consquent, e E(| c|) E(| a|) + (c a) P ( a) P ( > (a + c)/2) . Il reste ` remarquer que P ( a) P ( > (a + c)/2) pour conclure. En eet, si P ( a) < a P ( > (a + c)/2), en utilisant le fait que P ( a) 1/2, on obtient P ( a) + P ( > (a + c)/2) > 1, ce qui est impossible. si a, si a < (a + c)/2, si > (a + c)/2.
1.1.3. Mode dune loi. Si F est une loi discr`te, on appelle mode de la loi F une valeur e k telle que P (X = k ) = max P (X = k).
k
Si F admet une densit f par rapport ` la mesure de Lebesgue, le mode est dni comme une e a e valeur x telle que f (x ) = max f (x).
x
Evidemment, un mode nest pas toujours unique. Une densit f est dite unimodale si x est un e unique maximum local (et donc global) de f . De faon analogue, on appelle f densit bimodale c e (ou multimodale) si elle a deux (respectivement, plusieurs) maxima locaux. Ce lexique nest pas tr`s prcis, car mme si le maximum global de la densit f est unique (il y a un seul e e e e mode au sens propre), on appelle f multimodale ` condition quelle poss`de dautres maxima a e locaux. Ainsi que la moyenne et la mdiane, le mode renseigne sur la position (la localisation) e dune loi. Le mode peut se rvler intressant principalement au cas unimodal. e e e 1.1.4. Caractristiques dasymtrie et daplatissement. e e Dnition 1.3. La loi de X (la f.d.r. F ) est dite symtrique par rapport ` zro (ou tout e e a e simplement symtrique) si F (x) = 1 F (x) pour tout x R ( f (x) = f (x) dans le cas e continu). Dnition 1.4. La loi de X (la f.d.r. F ) est dite symtrique par rapport ` R si e e a F ( + x) = 1 F ( x) pour tout x R (f ( + x) = f ( x) dans le cas continu). Autrement dit, la f.d.r F (x + ) est symtrique par rapport ` zro. e a e Exercice 1.1. Montrer que si la loi F est symtrique par rapport ` et E(|X|) < , sa e a mdiane et sa moyenne vrient M = E(X) = . Si, en outre, F admet une densit unimodale, e e e alors moyenne = mdiane = mode. e
15
0.25
0.2
Mode Mediane
0.15
Moyenne
0.1
0.05
10
12
14
16
18
20
Figure 1.3. Le mode, la mdiane et la moyenne dune loi e
Exercice 1.2. Si F est symtrique et tous les moments absolus k existent, alors les moments e k = 0 pour tout k impair. Si F est symtrique par rapport ` et tous les moments absolus e a k existent, alors k = 0 pour tout k impair (par exemple, 3 = 0). On peut qualier les lois asymtriques comme tant proches ou loignes de dise e e e tributions symtriques. A cette n, on introduit (pour toute loi de probabilit vriant e e e E(|X|3 ) < ) le coecient dasymtrie (en anglais skewness) e = 3 . 3
On remarque que = 0 pour une f.d.r. symtrique avec E(|X|3 ) < . Notons que le e rciproque nest pas vrai : la condition = 0 nimplique pas la symtrie de la loi. e e Exercice 1.3. Donner un exemple de densit non-symtrique avec = 0. e e Notons le rle de dans la dnition de : supposons, par exemple, que la densit f0 (x) o e e de X satisfait xf0 (x)dx = 0 et x2 f0 (x)dx = 1 et 0 = 3,0 = x3 f0 (x)dx. Pour > 0, R, la fonction f (x) = 1 x f0 ,
est la densit de la variable X +. Donc Var(X +) = 2 et 3 = (x)3 f (x)dx = 3 3,0 . e En calculant = 3 on observe que = 0 . Autrement dit, le coecient dasymtrie est e 3 invariant par rapport aux transformations anes (dchelle et de position) de la variable e alatoire X. e Le coecient est une mesure controverse : on ne peut pas toujours armer que > 0 e si la loi est asymtrique vers la droite et < 0 si la loi est asymtrique vers la gauche. Les e e notions dasymtrie vers la droite ou vers la gauche ne sont pas dnies rigoureusement. e e
16
Coecient daplatissement (en anglais kurtosis) est dni de la faon suivante : si le e c 4`me moment centr 4 de la variable alatoire X existe, alors e e e 4 3. 4 Exercice 1.4. Montrer que, pour la loi normale N (, 2 ), 4 / 4 = 3 et = 0. = On note que, comme le coecient dasymtrie , le kurtosis est invariant par rapport e aux transformations anes. Le coecient est le plus souvent calcul pour avoir une ide intuitive sur les queues e e de la loi de X. On utilise le vocabulaire suivant : on dit que la loi F a les queues lourdes si Q(b) = P (|X| b) (=
|x|b
f (x)dx dans le cas continu)
dcro lentement quand b , par exemple, de faon polynmiale (comme 1/br avec r > 0). e t c o On dit que les queues sont lg`res si Q(b) dcro rapidement (exemple : dcroissance e e e t e 2 exponentielle). Pour la loi normale N (0, 1), on a : Q(b) = O(eb /2 ), ce qui correspond ` a = 0. Tr`s souvent, si > 0, les queues de la loi en question sont plus lourdes que celles e de la loi normale et, si < 0 (on dit dans ce cas que la loi est leptokurtique), elles sont plus lg`res que celles de la loi normale. e e Notons aussi que, pour toute loi de probabilit telle que est bien dni (i.e., E(|X|4 ) < e e ), on a : 2 (voir le paragraphe suivant). Exemple 1.3. a) Le kurtosis de la loi uniforme U [0, 1] est gal ` 1, 2 (queues tr`s lg`res). e a e e e Cest une loi leptokurtique. b) Si la densit de la loi f (x) |x|5 quand |x| tend vers , 2 est ni mais 4 = +, ce e qui implique = + (queues tr`s lourdes). Pour la loi de Cauchy, 2 = + et 4 = +, e donc le kurtosis nest pas dni. e 1.2. Rappel de quelques ingalits e e Proposition 1.3. (Ingalit de Markov.) Soit h() une fonction positive croissante et soit e e X une v.a. telle que E(h(X)) < . Alors pour tout a R tel que h(a) > 0, P (X a) E(h(X)) . h(a) (1.2)
Preuve. Comme h() est une fonction croissante, P (X a) P h(X) h(a) = = E(1{h(X)h(a)} ) E l 1{h(x)h(a)} dF (x) l h(X) 1 l h(a) {h(X)h(a)} E(h(X)) . h(a)
1.2. RAPPEL DE QUELQUES INEGALITES
17
Corollaire 1.2. (Ingalit de Tchebychev.) Soit X une v. a. telle que E(X 2 ) < . e e Alors, pour tout a > 0, P (|X| a) E(X 2 ) , a2 P (|X E(X)| a) Var(X) . a2
Preuve. Il sut de poser h(t) = t2 et dappliquer (1.2) aux variables alatoires |X| et e |X E(X)| respectivement. Proposition 1.4. (Ingalit de Hlder.) Soit 1 < r < , 1/r + 1/s = 1. Soient et e e o deux variables alatoires telles que E(||r ) < et E(||s ) < . Alors E(||) < et e E(||) [E(||r )]1/r [E(||s )]1/s .
Preuve. On note dabord que pour tout a > 0, b > 0, par concavit de la fonction log t, e (1/r) log a + (1/s) log b log(a/r + b/s), ce qui est quivalent ` : e a a1/r b1/s a/r + b/s. Posons ici a = ||r /E(||r ), b = ||s /E(||s ) (on suppose pour linstant que E(||r ) = 0, E(||s ) = 0), ce qui donne || [E(||r )]1/r [E(||s )]1/s (||r /rE(||r ) + ||s /sE(||s )) . On conclut en prenant lesprance et en utilisant le fait que 1/r + 1/s = 1. Si E(||r ) = 0 ou e s ) = 0, alors = 0 (p.s) ou = 0 (p.s.), et lingalit est triviale. E(|| e e Corollaire 1.3. (Ingalit de Lyapounov.) Soit 0 < v < t et soit X une variable alatoire e e e telle que E(|X|t ) < . Alors E(|X|v ) < et [E(|X|v )]1/v [E(|X|t )]1/t . (1.3)
Preuve. On applique lingalit de Hlder avec = X v , = 1, r = t/v. e e o En utilisant lingalit (1.3) avec v = 2, t = 4 et |X E(X)| au lieu de |X| on obtient e e 4 / 4 1. Le coecient daplatissement vrie donc lingalit 2. e e e Lingalit de Lyapounov implique la cha des ingalits entre les moments absolus : e e ne e e E(|X|) [E(|X|2 )]1/2 . . . [E(|X|k )]1/k . Proposition 1.5. (Ingalit de Jensen.) Soit g() une fonction convexe et soit X une e e variable alatoire telle que E(|X|) < . Alors e g(E(X)) E(g(X)).
18
Preuve. Par convexit de g, il existe une fonction g 1 () telle que e g(x) g(x0 ) + (x x0 )g 1 (x0 ) pour tout x, x0 R. On pose x0 = E(X). Alors g(X) g(E(X)) + (X E(X))g 1 (E(X)). En prenant les esprances on obtient E(g(X)) g(E(X)). e Voici un exemple dapplication de lingalit de Jensen : e e |E(X)| E(|X|). (1.4)
Proposition 1.6. (Ingalit de Cauchy-Schwarz.) Soient et deux variables alatoires e e e telles que E( 2 ) < et E( 2 ) < . Alors E|| < , (E())2 (E||)2 E( 2 )E( 2 ) (1.5)
et les galits dans (1.5) sont atteintes si et seulement si il existe a1 , a2 R tels que a1 = 0 e e ou a2 = 0 et, presque srement, u a1 + a2 = 0. (1.6)
Preuve. La deuxi`me ingalit dans (1.5) est le cas particulier de lingalit de Hlder pour e e e e e o r = s = 2. La premi`re ingalit dans (1.5) est une consquence de (1.4). Si (1.6) est vrai, il e e e e est vident que e (E())2 E( 2 )E( 2 ) = 0. (1.7)
Rciproquement, si lon a (1.7) et E( 2 ) = 0, alors E(( a)2 ) = 0 avec a = E()/E( 2 ), e ce qui implique = a presque srement. Le cas o` E( 2 ) = 0 est trivial. u u
1.3. Suites de variables alatoires e Soient 1 , 2 ... et des variables alatoires sur (, A, P ). e Dnition 1.5. On dit que la suite (n )n1 converge en probabilit vers quand n e e (et on crit n ) si e
n P
lim P (|n | ) = 0
pour tout
> 0.
Dnition 1.6. On dit que la suite (n )n1 converge en moyenne quadratique vers e quand n si E( 2 ) < et
n
lim E(|n |2 ) = 0.
1.3. SUITES DE VARIABLES ALEATOIRES
19
Dnition 1.7. On dit que la suite (n )n1 converge presque s rement (en abrg p.s.) e u e e vers quand n (et on crit n (p.s.)), si e P ( : n ()/ ()) = 0. Remarque. La Dnition 1.7 est quivalente ` la suivante : pour tout e e a
n
> 0,
lim P (sup |k | ) = 0
kn
(voir J.Lacroix, P.Priouret Probabilits approfondies, Polycopi du cours, Universit Paris 6). e e e Dnition 1.8. On dit que la suite (n )n1 converge en loi (ou en distribution) vers e quand n (et on crit n ) si e P (n t) P ( t) quand n , pour chaque point t de continuit de la f.d.r. F (t) = P ( t). e Remarque. La convergence en loi est quivalente ` la convergence troite : pour toute fonce a e tion f continue et borne e E(f (n )) E(f ()) quand n (voir Bouleau N., Probabilits de lingnieur, variables alatoires et simulation, Hermann, e e e 1986, Corollaire 3.2.1 et Proposition 3.1.3, p. 178). Liens entre les dirents modes de convergence : e convergence en moyenne quadratique convergence p.s.
D
= =
convergence en probabilit e
convergence en loi
Exercice 1.5. Soient (n )n1 et (n )n1 deux suites de variables alatoires. Dmontrer les e e rsultats suivants : e 1o . Si n a et n , o` a R est une constante et est une variable alatoire, alors u e n n a. Ce rsultat reste-t-il vrai si lon suppose que a est une variable alatoire ? e e 2o . Si a R est une constante, alors n a n a. 3o . (Thor`me de Slutsky.) Si n a et n et a R est une constante, alors e e n + n a + , n n a. Montrer que si a est une v.a., ces deux relations ne sont pas toujours vries (donner des e e contre-exemples).
D D D D D P D P D
20
1.4. Indpendance et thor`mes limites e e e Dnition 1.9. Soient X et Y deux variables alatoires sur (, A, P ). On dit que la variable e e X est indpendante de Y (et on crit X ) si e e Y P (X A, Y B) = P (X A)P (Y B) pour tous A B et B B. Si E(|X|) < , E(|Y |) < , lindpendance implique e E(XY ) = E(X)E(Y ). (1.8)
Important : le rciproque nest pas vrai ; (1.8) nest pas quivalent ` lindpendance de X e e a e et Y . Dnition 1.10. Soient X1 , . . . , Xn des variables alatoires sur (, A, P ). On dit que les e e v.a. X1 , . . . , Xn sont (mutuellement) indpendantes si, pour tout A1 , . . . , An B, e P (X1 A1 , . . . , Xn An ) = P (X1 A1 ) P (Xn An ). (1.9)
On dit que (Xn )n1 est une suite innie de variables alatoires indpendantes si (1.9) est e e vri pour tout n 1 entier. e e Remarques. 1. Le fait que les Xi soient indpendantes deux ` deux (cest-`-dire Xi j e a a X pour i = j) nimplique pas que X1 , ..., Xn soient mutuellement indpendantes. Par contre, e lindpendance mutuelle implique lindpendance deux ` deux. En particulier, si X1 , ..., Xn e e a sont mutuellement indpendantes et E(|Xi |) < pour i = 1, ..., n, alors e E(Xi Xj ) = E(Xi )E(Xj ), i = j. 2. Les transformations mesurables prservent lindpendance : si X Y , alors f (X) g(Y ), e e quelles que soient les fonctions borliennes f () et g(). e
n 1.4.1. Sommes de variables indpendantes. Considrons la somme e e u i=1 Xi , o` 2 ) < pour i = 1, ..., n (vu les variables alatoires X1 , ..., Xn sont indpendantes. Si E(Xi e e lingalit de Lyapounov, cela implique que E(|Xi |) < ), alors e e n n
E
i=1
Xi
=
i=1
E(Xi ) (vrai sans hypoth`se dindpendance) e e
(1.10)
et
n n
Var
i=1
Xi
=
i=1
Var(Xi ).
(1.11)
Dnition 1.11. On dit que les variables alatoires X1 , ..., Xn sont i.i.d. (indpendantes et e e e identiquement distribues) si elles sont mutuellement indpendantes et Xi est de mme loi e e e que Xj pour tout 1 i, j n. De faon similaire, X1 , X2 , ... sont appels i.i.d. si (Xn )n1 c e est une suite innie de variables alatoires indpendantes et de mme loi. e e e
` 1.4. INDEPENDANCE ET THEOREMES LIMITES
21
Proposition 1.7. Soient X1 , ..., Xn des v.a. i.i.d. telles que E(X1 ) = et Var(X1 ) = 2 < . Alors la moyenne arithmtique e n 1 X= Xi n
i=1
vrie e E(X) = et Var(X) = 2 1 Var(X1 ) = . n n
Preuve. On utilise (1.10) et (1.11). Proposition 1.8. (Loi forte des grands nombres de Kolmogorov.) Soient X1 , X2 , . . . , des v.a. i.i.d. telles que E(|X1 |) < et = E(X1 ). Alors, X (p.s.) quand n .
Preuve. Voir Bouleau N., Probabilits de lingnieur, variables alatoires et simulation, Here e e mann, 1986, Thor`me 2.3, p. 170. e e Exemple 1.4. Soient Xi des variables i.i.d de loi de Cauchy. La densit de X1 est e 1 f (x) = , x R. (1 + x2 ) Alors E(|X1 |) = , lesprance E(X1 ) nest pas dnie et la moyenne arithmtique X nest e e e pas convergente. Proposition 1.9. (Thor`me central limite.) Soient X1 , X2 , . . . , des v.a. i.i.d. telles que e e 2 E(X1 ) < et 2 = Var(X1 ) > 0. Alors, X D quand n , n o` = E(X1 ) et N (0, 1). u Preuve. Voir Bouleau N., Probabilits de lingnieur, variables alatoires et simulation, Here e e mann, 1986, Thor`me 4.1, p. 181. e e 1.4.2. Approximation de la loi de X par la loi limite normale. Le Thor`me e e central limite (la Proposition 1.9) scrit sous la forme quivalente : e e X P n t P ( t) quand n , pour tout t R, o` N (0, 1). Notons u (t) = P ( t) la f.d.r. normale standard. Alors X P (X x) = P n n x n x
22
quand n . Autrement dit, P (X x), la f.d.r. de X, peut tre approxime par la loi e e normale : x P (X x) n pour n assez grand. 1.5. Thor`mes de continuit e e e Proposition 1.10. (Premier thor`me de continuit.) Soit g() une fonction continue e e e et soient 1 , 2 , ... et des variables alatoires sur (, A, P ). Alors, e (i) (ii) (iii) quand n . Preuve. La partie (i) est vidente. Montrons (ii) sous lhypoth`se supplmentaire que = a, e e e o` a est une constante dterministe. En fait, cest le seul cas qui prsentera un intrt dans u e e ee le cadre de ce cours. La continuit de g implique que pour tout > 0 il existe > 0 tel que e |n a| < |g(n ) g(a)| < .
P
n (p.s.) g(n ) g() (p.s.), n n

D P
g(n ) g(), g(n ) g()

D
En particulier, P (|n a| < ) P (|g(n ) g(a)| < ). Comme n a, on a

n
lim P (|n a| < ) = 1 pour tout > 0, > 0.
ce qui implique
n
lim P (|g(n ) g(a)| < ) = 1 pour tout
(iii) Il sut de dmontrer (voir la remarque apr`s la Dnition 1.8) que, pour toute fonction e e e continue et borne h(x), E(h(g(n ))) E(h(g())) quand n . Comme g est continue, e f = h g est aussi continue et borne. Ceci dmontre (iii), car n signie que e e E(f (n )) E(f ()) quand n , pour toute fonction f continue et borne. e Proposition 1.11. (Deuxi`me thor`me de continuit.) Soit g() une fonction contie e e e nue et continment direntiable et soient X1 , X2 , ... des variables alatoires i.i.d. telles que u e e 2 E(X1 ) < avec la variance 2 = Var(X1 ) > 0. Alors g(X) g() D n g () quand n , o` X = 1 n Xi , = E(X1 ) et N (0, 1). u
n i=1 D
Preuve. Sous les hypoth`ses de la proposition, la fonction e h(x) = g (),

g(x)g() , x
si x = , si x = ,
1.6. EXERCICES
23
P est continue. Comme X (vu la Proposition 1.8) et h est continue, on obtient, dapr`s le e Premier thor`me de continuit, que e e e h(X) h() = g () quand n . Or,
P
(1.12)
g(X) g() n n = h(X)(X ) = h(X)n , D o` n = n (X ). La Proposition 1.9 implique que n N (0, 1) quand n . On u conclut en utilisant ce fait, ainsi que (1.12) et le rsultat 1o de lExercice 1.5. e
1.6. Exercices Exercice 1.6. Soient 1 , ..., n des variables alatoires indpendantes. Posons e e min = min(1 , ..., n ), 1) Montrer que
n n
max = max(1 , ..., n ).
P (min x) =
i=1
P (i x), P (max < x) =

i=1
P (i < x).
2) Supposons, de plus, que 1 , ..., n sont identiquement distribues avec la loi uniforme U [0, ]. e Calculer E(min ), E(max ), Var(min ) et Var(max ). Exercice 1.7. Soit une variable alatoire positive avec la f.d.r. F et desprance nie. e e Dmontrer que e

E() =
0
(1 F (x))dx =
0
P ( > x)dx.
Exercice 1.8. Soient X1 et X2 deux v.a. indpendantes de loi exponentielle E(). Montrer e que min(X1 , X2 ) et |X1 X2 | sont des variables alatoires de lois respectivement E(2) et e E(). Exercice 1.9. Soit X le nombre dapparitions de 6 dans 12000 tirages dun d. En utilisant e le Thor`me central limite estimer la probabilit que 1800 < X 2100. Indication : ( 6) e e e 0.9928, (2 6) 0.999999518. Utiliser lingalit de Tchebychev pour obtenir une autre e e valuation de cette probabilit et comparer les rsultats. e e e
Rgression et corrlation e e
2.1. Couples des variables alatoires. Lois jointes et marginales e Soit (X, Y ) un couple des variables alatoires. La f.d.r. jointe du couple (X, Y ) est dnie e e par FX,Y (x, y) = P (X x, Y y), x, y R. Les f.d.r. marginales sont donnes par e FX (x) = lim FX,Y (x, y) = P (X x),
y+
FY (y) = lim FX,Y (x, y) = P (Y y).

x+
Dans le cas continu on suppose que FX,Y admet une densit fX,Y 0 par rapport ` la e a mesure de Lebesgue sur R2 , autrement dit 2 FX,Y (x, y) = fX,Y (x, y) xy presque partout. La densit fX,Y (x, y) vrie e e de X et Y sont dnies par e
R2
(2.1)
fX,Y (x, y)dxdy = 1. Les densits marginales e
fX (x) =
fX,Y (x, y)dy, fY (y) =
fX,Y (x, y)dx.
Dans le cas discret X et Y prennent au maximum un nombre dnombrable de valeurs. La e loi jointe du couple (X, Y ) est dnie par les probabilits P (X = , Y = ). Les lois marginales e e
25
26
2. REGRESSION ET CORRELATION
de X et Y sont dnies par les probabilits e e P (X = k) =

m
P (X = k, Y = m), P (X = k, Y = m).
k
P (Y = m) =
Important : la connaissance des lois marginales de X et de Y nest pas susante pour la dtermination de la loi jointe du couple (X, Y ). Considrons lexemple suivant. e e Exemple 2.1. Soient deux densits de probabilit sur R2 : e e f1 (x, y) = et f2 (x, y) = 1 x2 + y 2 , exp 2 2
1 x2 + y 2 exp [1 + xy1[1,1] (x)1[1,1] (y)]. l l 2 2 Alors les densits marginales de f1 sont les mmes que celles de f2 : elles sont normales e e standard N (0, 1). Les v.a. X et Y sont indpendantes si et seulement si e FX,Y (x, y) = FX (x)FY (y) pour tout (x, y) R2 . Dans le cas continu, ceci se traduit par la dcomposition e fX,Y (x, y) = fX (x)fY (y) pour tout (x, y) R2 , et dans le cas discret par P (X = k, Y = m) = P (X = k)P (Y = m), pour tous k, m. 2.2. Conditionnement (cas discret) Soient A et B deux vnements alatoires (A, B A) tels que P (B) = 0. La probabilit e e e e conditionnelle P (A|B) de A sachant B est dnie par e P (A B) . P (B) Soient X et Y deux v.a. discr`tes. Selon cette dnition e e P (Y = k, X = m) P (Y = k|X = m) = . P (X = m) P (A|B) = (Dornavant on ne consid`re que les valeurs m telles que P (X = m) > 0.) On a alors e e P (Y = k|X = m) =
k k
P (Y = k, X = m) = 1. P (X = m)
Par consquent, les probabilits {P (Y = k|X = m)}k dnissent une loi discr`te de probabilit e e e e e (appele loi conditionnelle de Y sachant que X = m). Si X et Y sont indpendantes, e e P (Y = k|X = m) = P (Y = k)P (X = m) = P (Y = k). P (X = m) (2.2)
2.2. CONDITIONNEMENT (CAS DISCRET)
27
Rciproquement, si la relation (2.2) est vrie pour tous k, m, alors X . Lesprance e e e Y e conditionnelle de Y sachant que X = m est la quantit dterministe e e E(Y |X = m) =
k
kP (Y = k|X = m).
La condition E(|Y |) < est susante pour assurer lexistence de lesprance conditionnelle e E(Y |X = m), car P (Y = k, X = m) P (Y = k). La variance conditionnelle est dnie par e Var(Y |X = m) = E(Y 2 |X = m) [E(Y |X = m)]2 . De faon analogue on dnit les moments conditionnels, les quantiles conditionnels et autres c e caractristiques dune loi conditionnelle. e Dnition 2.1. Soient X et Y deux variables alatoires discr`tes, telles que E(|Y |) < . e e e Lesprance conditionnelle E(Y |X) de Y sachant X est la variable alatoire discr`te qui e e e ne dpend que de X et qui prend les valeurs e {E(Y |X = m)}m avec les probabilits P (X = m) respectivement. e Important : ne pas confondre la variable alatoire E(Y |X) avec la quantit dterministe e e e E(Y |X = m). 2.2.1. Proprits des esprances conditionnelles (cas discret). On suppose ici e e e que toutes les v.a. en question sont discr`tes et toutes les esprances mathmatiques quon e e e consid`re sont nies. e 1o . Linarit. Pour tout a R, b R, e e E(aY1 + bY2 |X) = aE(Y1 |X) + bE(Y2 |X). 2o . Si X et Y sont indpendantes, alors E(Y |X) = E(Y ) (vu (2.2)). e 3o . E(h(X)|X) = h(X) pour toute fonction borlienne h. e 4o . Thor`me de substitution. e e E(h(Y, X)|X = m) = E(h(Y, m)|X = m). Preuve. On pose Y = h(Y, X), cest une v.a. discr`te qui prend les valeurs h(k, m). Donc, e la loi conditionnelle de Y sachant que X = m est donne par les probabilits e e P (h(Y, X) = a, X = m) P (Y = a|X = m) = P (h(Y, X) = a|X = m) = P (X = m) P (h(Y, m) = a, X = m) = = P (h(Y, m) = a|X = m). P (X = m) Alors, pour tout m x, e E(Y |X = m) =
a
aP (Y = a|X = m) =
a
aP (h(Y, m) = a|X = m)
= E(h(Y, m)|X = m).
28
Par consquent, si h(x, y) = h1 (y)h2 (x), nous avons e E(h1 (Y )h2 (X)|X = m) = h2 (m)E(h1 (Y )|X = m), et E(h1 (Y )h2 (X)|X) = h2 (X)E(h1 (Y )|X). 5o . Thor`me de lesprance itre. e e e e e E(E(Y |X)) = E(Y ). Preuve. E(E(Y |X)) =
m
E(Y |X = m)P (X = m) =
m k
kP (Y = k|X = m)P (X = m) P (Y = k, X = m)
m
=
m,k
kP (Y = k, X = m) =
k
=
k
kP (Y = k) = E(Y ).
Exemple 2.2. Soient et deux variables alatoires indpendantes de mme loi de Bernoulli, e e e qui prennent les valeurs 1 et 0 avec les probabilits p et 1 p. Calculons les esprances e e conditionnelles E( + |) et E(| + ). En utilisant les proprits 2o et 3o on obtient E( + ee |) = E() + = p + . Cherchons maintenant E(| + ). Pour k = 0, 1, 2, k = 0, 0, E(| + = k) = P ( = 1| + = k) = 1/2, k = 1, 1, k = 2. Donc E(| + ) = ( + )/2. 2.3. Conditionnement et projection. Meilleure prvision e Considrons lensemble de toutes les variables alatoires sur (, A, P ) de carr intgrable, e e e e i.e. telles que E( 2 ) < . On dit que si = (p.s.) par rapport ` la mesure P . Ceci a dnit lensemble des classes dquivalence sur les variables alatoires telles que E( 2 ) < . e e e On dsignera la variable alatoire de carr intgrable aussi bien que sa classe dquivalence. e e e e e En utilisant cette convention, on note L2 (P ) = L2 (, A, P ) lespace de toutes les variables alatoires de carr intgrable sur (, A, P ). Cest un espace de Hilbert muni du produit scalaire e e e X, Y = E(XY ), et de la norme respective X = [E(X 2 )]1/2 . En eet, , vrie les axiomes du produit e scalaire : pour tous X, , L2 (P ) et a, b R a + b, X = E([a + b]X) = aE(X) + bE(X) = a , X + b , X , et X, X 0 ; X, X = 0 implique X = 0 (p.s.). Si les variables X et Y sont indpendantes, la connaissance de la valeur prise par X e ne donne aucune information sur Y . Mais si X et Y sont dpendantes et si lon conna la e t ralisation de X, ceci nous renseigne aussi sur Y . On pose le probl`me de meilleure prvision e e e de Y tant donn X de faon suivante. e e c
2.3. CONDITIONNEMENT ET PROJECTION. MEILLEURE PREVISION
29
Probl`me de meilleure prvision. Soit Y L2 (P ) et soit X une variable alatoire sur e e e (, A, P ). Trouver une fonction borlienne g() telle que e Y g(X) = min Y h(X) ,
h()
(2.3)
o` le minimum est recherch parmi toutes les fonctions borliennes h() et est la norme u e e de L2 (P ). La variable alatoire Y = g(X) est dite meilleure prvision de Y tant donn e e e e X. Dans le contexte du probl`me de meilleure prvision, X est appele variable explicative ou e e e prdicteur, Y est appele variable explique. e e e On peut crire (2.3) sous la forme quivalente : e e E((Y g(X))2 ) = min E((Y h(X))2 ) =
h() h():E(h2 (X))<
min
E((Y h(X))2 ).
(2.4)
Il sut ici de minimiser par rapport ` h(X) L2 (P ), car une solution g() de (2.3) est autoa matiquement dans L2 (P ). Notons que (2.4) nest que la dnition de projection orthogonale e de Y sur le sous-espace linaire LX (P ) de L2 (P ) dni par e e 2 LX (P ) = { = h(X) : E(h2 (X)) < }. 2 Cest le sous-espace linaire de L2 (P ) compos de toutes les v.a. de carr intgrable mesurables e e e e par rapport ` X. Grce aux proprits de projection orthogonale, il existe toujours une a a ee solution du probl`me de meilleure prvision : une v.a. g(X) LX (P ) vrie (2.3) et (2.4) si e e e 2 et seulement si Y g(X), h(X) = 0 pour tout h(X) LX (P ), 2
g(X)
X L2 (P)
Figure 2.1. La projection orthogonale sur LX (P ). 2
et une telle g(X) est unique ` une quivalence pr`s. En passant ` la notation avec les a e e a esprances, on crit la formule prcdente sous la forme e e e e E((Y g(X))h(X)) = 0 pour tout h(X) LX (P ), 2 ou bien, E(Y h(X)) = E(g(X)h(X)) pour tout h(X) LX (P ). 2 (2.5)
30
En particulier, E Y 1A (X) = E g(X)1A (X) l l o` B est la tribu borlienne sur R. u e Remarque. En fait, (2.6) implique (2.5), donc (2.5) et (2.6) sont quivalents. Pour sen e convaincre il sut dutiliser le fait que lespace des fonctions de la forme k ci 1Ai (x) (foncl i=1 tions en escaliers) avec ci R, Ai B est dense dans L2 (P ). On va montrer maintenant que dans le cas discret la seule variable alatoire g(X) qui e vrie (2.5) (et par consquent rsout le probl`me de meilleure prvision (2.3)) est unique, ` e e e e e a une quivalence pr`s, et gale ` lesprance conditionnelle de Y sachant X. e e e a e Proposition 2.1. Soient X et Y deux v.a. discr`tes, telles que Y L2 (P ). Alors la e meilleure prvision Y de Y tant donn X, unique ` une quivalence pr`s, est gale ` e e e a e e e a lesprance conditionnelle e Y = E(Y |X). pour tout A B (2.6)
Preuve. Pour tout h(X) LX (P ), 2 E (E(Y |X)h(X)) =

k
E(Y |X = k)h(k)P (X = k) mP (Y = m|X = k) h(k)P (X = k)

k m
= =
k,m
m h(k)P (Y = m, X = k) = E(Y h(X)).
Donc (2.5) est vri avec g(X) = E(Y |X), autrement dit, E(Y |X) est une version de la e e projection orthogonale de Y sur LX (P ). Comme la projection orthogonale dans un espace de 2 Hilbert est unique ` une quivalence pr`s, E(Y |X) est une unique solution de (2.5) presque a e e srement. u
2.4. Probabilit et esprance conditionnelles (cas gnral) e e e e On peut tendre la dnition de lesprance conditionnelle E(Y |X) au cas de deux vae e e riables alatoires gnrales X et Y . On utilise la dnition suivante. e e e e Dnition 2.2. Soient Y et X deux v. a. telles que E(|Y |) < . Lesprance conditione e nelle g(X) = E(Y |X) de Y sachant X est une variable alatoire mesurable par rapport ` e a X qui vrie e E(Y I{X A}) = E(g(X)I{X A}) pour tout ensemble borlien A. e Remarque. On passe ici de lhypoth`se Y L2 (P ) (i.e. E(Y 2 ) < ) ` lhypoth`se plus e a e faible E(|Y |) < . On peut dmontrer (voir J.Lacroix, P.Priouret, Probabilits approfondies, e e (2.7)
2.4. PROBABILITE ET ESPERANCE CONDITIONNELLES (CAS GENERAL)
31
Polycopi du cours, Universit Paris 6) que la fonction g(X) qui vrie (2.7) existe et elle est e e e unique (p.s.). Cest une consquence du Thor`me de Radon-Nikodym. e e e Si Y L2 (P ), lexistence et lunicit p.s. de la fonction g(X) vriant (2.7) dcoulent des e e e proprits de projection orthogonale dans L2 comme on la dj` vu au paragraphe prcdent. ee ea e e Comme corollaire, on obtient donc le rsultat suivant. e Thor`me 2.1. (de meilleure prvision.) Soient X et Y deux v.a., telles que Y L2 (P ). e e e Alors la meilleure prvision Y de Y tant donn X, unique ` une quivalence pr`s, est gale e e e a e e e ` lesprance conditionnelle a e Y = E(Y |X).
2.4.1. Probabilit et loi conditionnelles. Considrons le cas particulier suivant : on e e remplace Y par Y = I{Y B} o` B est un ensemble borlien. Notons que la variable Y u e est borne (|Y | 1), donc E(|Y |2 ) < . Alors, lesprance conditionnelle g(X) = E(Y |X) e e existe et elle vrie la relation (cf. (2.7)) e E (I{Y B}I{X A}) = E(g(X)I{X A}) pour tout A B. Dnition 2.3. Soit B B x. La probabilit conditionnelle P (Y B|X) est la e e e variable alatoire qui vrie e e P (Y B, X A) = E [P (Y B|X)I{X A}] pour tout A B.
Autrement dit, P (Y B|X) = E(I{Y B}|X). La Dnition 2.3 implique, en particulier : e P (Y B|X) = P (Y B) (p.s.) B B X Y. Dnition 2.4. Une fonction (B, x) P (Y B|X = x) de deux variables B et x, o` B B e u et x R, est dite loi conditionnelle de Y sachant que X = x si (i) pour tout B x P (Y B|X = x) vrie e e P (Y B, X A) =
A
P (Y B|X = x)dFX (x) pour tout A B,
(2.8)
(ii) pour tout x x P (Y B|X = x) est une mesure de probabilit comme fonction de e e B. Remarque. On sait dj` que, pour tout B B, il existe une fonction ea gB (x) = P (Y B|X = x) telle que (2.8) est vri. Est-elle une mesure de probabilit comme fonction de B ? Notons e e e que gB (x) est dnie modulo les valeurs de x dans un ensemble NB de probabilit nulle. Il e e est important que, gnralement, cet ensemble dpend de B. Il nest donc pas exclu a priori e e e que lensemble N = BB NB soit de probabilit > 0, dans quel cas P (Y B|X = x) ne e serait plus une mesure de probabilit pour x dans cet ensemble. Par exemple, on ne pourrait e pas sassurer de laxiome dadditivit de la probabilit ainsi dnie. Heureusement, dans e e e notre cas o` les v.a. en question sont relles et la tribu est borlienne, on peut choisir une u e e version (dite version rguli`re, voir M.Lo`ve, Probability Theory, 1960, 27.2, Thor`me A) e e e e e de la fonction gB () telle que P (Y B|X = x) soit une mesure de probabilit pour tout e
32
x R. Dans la suite, on suppose que cette version est choisie dans chaque cas particulier. Si les variables X et Y ont une loi jointe discr`te ou une loi jointe continue, il est facile de e construire une telle version P (Y B|X = x) de faon explicite (voir les Paragraphes 2.2 et c 2.5). On peut dnir galement FY |X (|x), la fonction de rpartition conditionnelle de Y sachant e e e que X = x : cest la f.d.r. qui correspond ` la mesure de probabilit P (Y |X = x). Pour a e trouver FY |X (|x), il sut de rsoudre lquation intgrale e e e P (Y y, X A) =
A
FY |X (y|x)dFX (x) pour tout y R, A B.
(2.9)
La recherche dune solution de lquation intgrale (2.9) est le seul moyen de calculer FY |X (|x) e e dans le cas mixte o` Y est discr`te et X est continue (ou inversement). Si les variables X et u e Y ont une loi jointe discr`te ou une loi jointe continue, le recours ` (2.9) nest pas ncessaire. e a e Dans ces cas, on caractrise la loi conditionnelle respectivement en termes de probabilits e e conditionnelles ou de densits : des formules plus simples et directes sont disponibles (voir les e Paragraphes 2.2 et 2.5). Lesprance conditionnelle de Y sachant que X = x est la fonction relle suivante de x : e e E(Y |X = x) = yFY |X (dy|x).
Pour trouver E(Y |X = x), il faut, gnralement, rsoudre lquation intgrale : e e e e e E(Y I{X A}) =
A
E(Y |X = x)dFX (x), pour tout A B.
Nanmoins, dans les cas purement discret ou purement continu le calcul de E(Y |X = x) e est beaucoup plus simple (voir les Paragraphes 2.2 et 2.5). 2.4.2. Proprits de lesprance conditionnelle. On suppose ici que, pour toutes e e e les variables alatoires en question, les esprances mathmatiques sont nies. e e e 1o . Linarit. Pour tout a R, b R, e e E(aY1 + bY2 |X) = aE(Y1 |X) + bE(Y2 |X) (p.s.) 2o . Si X et Y sont indpendantes, E(Y |X) = E(Y ) (p.s.) e Preuve. Vu la dnition (2.7) il sut de montrer que e E(Y I{X A}) = E (E(Y )I{X A}) , pour tout A B. Or, E (E(Y )I{X A}) = E(Y )P (X A), et on voit que (2.10) est une consquence de lindpendance de X et Y . e e 3o . E(h(X)|X) = h(X) (p.s.) pour toute fonction borlienne h. e 4o . Thor`me de substitution. e e E(h(Y, X)|X = x) = E(h(Y, x)|X = x). (2.10)
2.5. CONDITIONNEMENT (CAS CONTINU)
33
Si X et Y sont des v.a. discr`tes, ce rsultat est prouv au Paragraphe 2.2. Si X et Y ont la e e e loi jointe continue, la dmonstration est aussi facile (Exercice 2.1). La dmonstration au cas e e gnral nest pas donne ici. e e e 5o . Thor`me de lesprance itre. e e e e e E(E(Y |X)) = E(Y ). Preuve. On pose A = R dans la dnition (2.7), alors I(X A) = 1, et on obtient le rsultat e e dsir. e e
2.5. Conditionnement (cas continu) On suppose maintenant quil existe une densit jointe fX,Y (x, y) 0 du couple (X, Y ) e par rapport ` la mesure de Lebesgue sur R2 . Dnissons a e fY |X (y|x) =
fX,Y (x,y) fX (x) ,
fY (y),
si fX (x) > 0, si fX (x) = 0.
(2.11)
On remarque que y fY |X (y|x) est une densit de probabilit pour tout x R, car e e

fY |X (y|x)dy = 1,
fY |X (y|x) 0.
(2.12)
Ceci reste vrai si lon modie la dnition (2.11) en posant fY |X (y|x) = f (y) quand fX (x) = 0, e o` f () est une densit de probabilit quelconque. u e e Notons aussi que, vu (2.11), Y X fY |X (y|x) = fY (y). Proposition 2.2. Si la densit jointe de (X, Y ) existe, alors la loi conditionnelle de Y sae chant que X = x est donne par la formule e P (Y B|X = x) =
B
fY |X (y|x)dy,
B B, x R.
(2.13)
Preuve. Vu (2.12) la partie (ii) de la Dnition 2.4 est vrie. Il sut donc de montrer la e e e partie (i) de la Dnition 2.4, i.e. que pour tous A, B B, e P (Y B, X A) =
A B
fY |X (y|x)dy dFX (x).
Comme X poss`de une densit, dFX (x) = fX (x)dx. Dapr`s le Thor`me de Fubini, e e e e e
A B
fY |X (y|x)dy fX (x)dx =
fY |X (y|x)fX (x) dxdy
Mais fY |X (y|x)fX (x) = fX,Y (x, y) presque partout par rapport ` la mesure de Lebesgue sur a R2 (si fX (x) = 0, alors a fortiori fX,Y (x, y) = 0 ). La derni`re intgrale est donc gale ` e e e a
B A
fX,Y (x, y)dxdy = P (X A, Y B).
34
De faon similaire on obtient la formule pour lesprance conditionnelle : c e
E(Y |X = x) =
yfY |X (y|x)dy.
Dnissons aussi, comme dans le cas discret, la fonction de variance conditionnelle : e Var(Y |X = x) = E(Y 2 |X = x) (E(Y |X = x))2
2
y 2 fY |X (y|x)dy
yfY |X (y|x)dy
ainsi que la variable alatoire e Var(Y |X) = E(Y 2 |X) (E(Y |X))2 . Exercice 2.1. Montrer que le Thor`me de substitution est vri au cas continu. e e e e Remarque. Souvent on dnit la densit conditionnelle par e e fY |X (y|x) =
fX,Y (x,y) fX (x) ,
0,
si fX (x) > 0, si fX (x) = 0.
(2.14)
Cette dnition ne di`re de (2.11) que sur un ensemble de probabilit 0. Notons que la e e e Proposition 2.2 nest pas vraie si fY |X (y|x) est donne par (2.14) : en eet, la partie (ii) de la e Dnition 2.4 est vrie pour presque tout x et non pas pour tout x. Nanmoins, lesprance e e e e e conditionnelle est la mme dans les deux cas, et la dnition (2.14) est souvent tacitement e e utilise dans les calculs (cf. les Exemples 2.3 et 2.5 ci-apr`s). e e Exemple 2.3. Soient X et Y deux variables alatoires indpendantes de loi exponentielle e e de densit f (u) = eu I{u > 0} avec > 0. Calculons la densit conditionnelle f (x|z) = e e fX|X+Y (x|z) et lesprance conditionnelle E(X|X + Y ). Si z < x, e
z zu
P (X + Y < z, X < x) = P (X + Y < z, X < z) =

0 0
f (u)f (v)dudv,
et si z x,
x zu
P (X + Y < z, X < x) =
0 0
f (u)f (v)dudv.
Par consquent, pour z x la densit jointe du couple (X + Y, X) est (cf. (2.1)) e e 2 P (X + Y < z, X < x) = f (z x)f (x) = 2 ez . xz Par ailleurs, la densit de X + Y est la convolution de deux densits exponentielles, i.e. e e f (z, x) = fX+Y (z) = 2 zez . On obtient donc une version de la densit conditionnelle de la forme : e 1 f (z, x) = fX|X+Y (x|z) = fX+Y (z) z pour 0 x z et fX|X+Y (x|z) = 0 pour x > z. Cest une densit de la loi uniforme sur [0, z]. e On obtient donc E(X|X + Y ) = (X + Y )/2 (p.s.).
2.6. COVARIANCE ET CORRELATION
35
Cet exemple est li au mod`le du ux de demandes arrivant vers un syst`me de service. e e e Soit X linstant o` la premi`re demande arrive (linstant t = 0 est marqu par larrive de u e e e la demande numro zro), Y lintervalle de temps entre les arrives de la premi`re et de la e e e e deuxi`me demandes. Alors on cherche la densit de probabilit de linstant de la premi`re e e e e demande sachant que la seconde est arrive ` linstant z. e a 2.6. Covariance et corrlation e Soient X et Y deux v.a. de carrs intgrable, i.e. E(X 2 ) < et E(Y 2 ) < . Par la suite, e e on notera 2 2 X = Var(X), Y = Var(Y ). Dnition 2.5. La covariance entre X et Y est la valeur e Cov(X, Y ) = E ((X E(X))(Y E(Y ))) = E(XY ) E(X)E(Y ).
Si Cov(X, Y ) = 0 on dit que X et Y sont orthogonales et on crit X Y . e

2 2 Dnition 2.6. Soit X > 0 et Y > 0. La corrlation (ou le coecient de corrlation) e e e entre X et Y est la quantit e Cov(X, Y ) Corr(X, Y ) = XY = . X Y
2.6.1. Proprits de la covariance. e e 1o . Cov(X, X) = Var(X). 2o . Cov(aX, bY ) = abCov(X, Y ), a, b R. 3o . Cov(X + a, Y ) = Cov(X, Y ), a R. 4o .Cov(X, Y ) = Cov(Y, X). 5o . Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(Y, X). En eet, Var(X + Y ) = E((X + Y )2 ) (E(X) + E(Y ))2 = E(X 2 ) + E(Y 2 ) + 2E(XY ) E 2 (X) E 2 (Y ) 2E(X)E(Y ). 6o . Si X et Y sont indpendantes, Cov(X, Y ) = 0. e Important : le rciproque nest pas vrai. Considrons lexemple suivant. e e Exemple 2.4. Soit X N (0, 1) et Y = X 2 . Alors, Cov(X, Y ) = E(X 3 ) E(X)E(X 2 ) = E(X 3 ) = 0.
36
2.6.2. Proprits de la corrlation. e e e 1o . 1 XY 1. En eet, dapr`s lingalit de Cauchy-Schwarz, e e e |Cov(X, Y )| = |E [(X E(X))(Y E(Y ))] | E[(X E(X))2 ] E[(Y E(Y ))2 ] = X Y . (2.15) (2.16)
2o . Si les v.a. X et Y sont indpendantes, XY = 0. e 3o . |XY | = 1 si et seulement si il existe un lien linaire dterministe entre X et Y : il existe e e a = 0, b R tels que Y = aX + b (p.s.). Preuve. On remarque que |XY | = 1, si et seulement si lgalit est atteinte dans lingalit de e e e e Cauchy-Schwarz (2.16). Dapr`s la Proposition 1.6, ce nest possible que sil existe , R e tels que = 0 ou = 0 et (X E(X)) + (Y E(Y )) = 0 (p.s.). Ceci est quivalent ` lexistence de , et R tels que e a X + Y + = 0 (p.s.), avec = 0 ou = 0. Si = 0 et = 0 on a Y = X = aX + b o` a = / = 0, b = /. La situation quand = 0 ou = 0 est impossible : en eet, u dans ce cas une des variables Y ou X est constante (p.s.), alors que nous avons suppos que e X > 0 et Y > 0. 4o . La corrlation est invariante par rapport aux transformations anes : pour tout a = 0, e b, d R, aX+b,aY +d = XY . Si, de plus, , c = 0, |aX+b,cY +d | = |XY | (vriez ceci ` titre dexercice). e a On remarque que si Y = aX + b, a, b R, a = 0, les variances vrient e
2 2 Y = E((Y E(Y ))2 ) = a2 E((X E(X))2 ) = a2 X ,
alors que la covariance vaut

2 Cov(X, Y ) = E ((X E(X))a(X E(X))) = aX ,
do` XY = a/|a|. On dit que la corrlation entre X et Y est positive si XY > 0 et quelle u e est ngative si XY < 0. La corrlation ci-dessus est donc positive (= 1) si a > 0 et ngative e e e (= 1) si a < 0.
2.8. VARIANCE RESIDUELLE ET RAPPORT DE CORRELATION
37
et
2.6.3. Interprtation gomtrique de la corrlation. Soit , le produit scalaire e e e e la norme de L2 (P ). Alors, Cov(X, Y ) = X E(X), Y E(Y )
et XY = X E(X), Y E(Y ) . X E(X) Y E(Y )
Autrement dit, XY est le cosinus de langle entre X E(X) et Y E(Y ). Donc, XY = 1 signie que X E(X) et Y E(Y ) sont colinaires : Y E(Y ) = a(X E(X)) pour a = 0. e 2.7. Rgression e Dnition 2.7. Soient X et Y deux variables alatoires telles que E(|Y |) < . La fonction e e g : R R dnie par e g(x) = E(Y |X = x) est dite fonction de rgression de Y sur X. e Il sagit ici de la rgression simple (le mot simple signie que X et Y sont des v.a. relles). e e La notion de rgression stend aux v.a. X et Y multidimensionnelles, il sagit dans ce cas de e e la rgression multiple ou multivarie (voir la dnition au Chapitre 3). e e e Exemple 2.5. Soit la densit jointe de X et Y , e fX,Y (x, y) = (x + y)I{0 < x < 1, 0 < y < 1}. Explicitons la fonction de rgression g(x) = E(Y |X = x). La densit marginale de X est e e
1
fX (x) =
fX,Y (x, y)dy = (x + 1/2)I{0 < x < 1}.
Alors, une version de la densit conditionnelle est donne par e e fY |X (y|x) = et

1 1
fX,Y (x, y) x+y = I{0 < x < 1, 0 < y < 1} fX (x) x + 1/2 yfY |X (y|x)dy =
1 x+ 1 y(x + y) 3 dy = 2 1 x+ 1 x+ 2 2
g(x) = E(Y |X = x) =
0
pour 0 < x < 1. Soulignons que, dans cet exemple, g(x) est une fonction non-linaire de x. e 2.8. Variance rsiduelle et rapport de corrlation e e Dans ce paragraphe, nous supposons que Y L2 (P ). La variable alatoire = Y g(X) e reprsente lerreur stochastique de lapproximation de Y par sa meilleure prvision Y = e e g(X) = E(Y |X). On appelle rsidu de rgression. Evidemment, e e Y = g(X) + . (2.17)
38
Par dnition de lesprance conditionnelle E(|X) = 0 (p.s.), donc E() = 0. e e
E(Y|X)
X L2 (P)
Figure 2.2. Le rsidu de rgression. e e
Lerreur quadratique de lapproximation de Y par g(X) est la valeur suivante : = E((Y Y )2 ) = E((Y g(X))2 ) = E (Y E(Y |X))2 = E( 2 ) = Var(). On appelle variance rsiduelle. Elle est plus petite que la variance de Y . En eet, considrons e e h(X) E(Y ) = const. Dapr`s le Thor`me de meilleure prvision (Thor`me 2.1), e e e e e e = E (Y g(X))2 E (Y h(X))2 = E((Y E(Y ))2 ) = Var(Y ). Comme E(Y ) est un lment de LX (P ), gomtriquement cela signie que la longueur dune ee e e 2 cath`te est plus petite que celle de lhypothnuse (voir la gure suivante). e e
LX(P) 2
E(Y|X)
E(Y)
Figure 2.3. Interprtation gomtrique de la relation (2.18) e e e
On remarque que lespace de toutes les v.a. constantes not L est aussi un sous-espace linaire e e de L2 (P ). De plus, L est lintersection de tous les sous-espaces LX (P ) pour tout X. Notons 2 que E(Y ) est la projection de Y sur L : en eet, dapr`s le Corollaire 1.1, pour toute constante e c, E((Y c)2 ) E((Y E(Y ))2 ).
2.8. VARIANCE RESIDUELLE ET RAPPORT DE CORRELATION
39
Le Thor`me de Pythagore (cf. Fig. 2.3) implique e e Y E(Y )

2
= E(Y |X) E(Y )
+ Y E(Y |X) 2 ,
(2.18)
ce quon peut crire aussi de plusieurs faons quivalentes : e c e Var(Y ) = E((Y E(Y ))2 ) = = = = = E (E(Y |X) E(Y ))2 + E (Y E(Y |X))2 Var (E(Y |X)) + E (Var(Y |X)) Var(g(X)) + Var() (2.19) Var(g(X)) + variance explique par X + variance rsiduelle, e e
o` la variable alatoire Var(Y |X) est dnie au 2.5. On a donc, pour toute variable alatoire u e e e X, Var(Y ) = Var (E(Y |X)) + E (Var(Y |X)) . Exercice 2.2. Montrer (2.18) en utilisant les proprits de lesprance conditionnelle donnes ee e e au 2.4.2. Dnition 2.8. Soit Var(Y ) > 0. On appelle rapport de corrlation de Y sur X la e e 2 quantit positive Y |X donne par e e
2 Y |X =
E (E(Y ) E(Y |X))2 Var(g(X)) = . Var(Y ) Var(Y )
Notons que, vu (2.18),

2 Y |X = 1
E (Y g(X))2 . Var(Y )
2 Interprtation gomtrique : le rapport de corrlation Y |X est le cosinus carr de langle e e e e e 2 entre Y E(Y ) et E(Y |X) E(Y ), donc 0 Y |X 1.
Remarques. 2 2 (1) De faon gnrale, X|Y = Y |X (manque de symtrie). c e e e

2 2 (2) Les cas extrmes Y |X = 0 et Y |X = 1 correspondent ` des valeurs remarquables : e a 2 2 ) = 0, donc Y = g(X) (p.s.), autrement Y |X = 1 implique que E((Y E(Y |X)) dit, Y est li fonctionnellement ` X. e a 2 Dautre part, Y |X = 0 signie que E((E(Y ) E(Y |X))2 ) = 0 et E(Y |X) = E(Y ) (p.s.), donc la rgression est constante. Il est utile de noter que ceci implique e lorthogonalit de X et Y (Cov(X, Y ) = 0). e (3) La variance rsiduelle peut tre exprime ` partir du rapport de corrlation : e e e a e 2 = (1 Y |X )Var(Y ).
(2.20)
2 2 Proposition 2.3. Soit E(X 2 ) < , E(Y 2 ) < et Var(X) = X > 0, Var(Y ) = Y > 0. Alors, 2 Y |X 2 . XY
40
2 Preuve. Vu la dnition de Y |X , il sut de montrer que e
E (E(Y ) E(Y |X))2 Var(X) [E((X E(X))(Y E(Y )))]2 . Dapr`s le Thor`me de lesprance itre, e e e e ee E((X E(X))(Y E(Y ))) = E ((X E(X))E([Y E(Y )]|X)) = E ((X E(X))(E(Y |X) E(Y ))) . En utilisant lingalit de Cauchy-Schwarz, on obtient e e [E((X E(X))(Y E(Y )))]2 E((X E(X))2 )E (E(Y |X) E(Y ))2 = Var(X)E (E(Y |X) E(Y ))2 . (2.21)
2 Remarque. La condition Y |X = 0 implique que XY = 0, mais gnralement le rciproque e e e nest pas vrai.
2.9. Rgression linaire e e Si E(Y |X = x) = a + bx avec a, b R, on dit que la rgression de Y sur X est linaire. e e Cest un cas tr`s particulier, mais important, de la rgression. En utilisant (2.17), on crit e e e Y = a + bX + o` est le rsidu, E(|X) = 0 (p.s.) ( E() = 0). u e Soient = XY et X > 0, Y > 0 le coecient de corrlation entre X et Y et les carte e types de X et Y . Les coecients de la rgression linaire a et b sexpriment alors ` partir de e e a E(X), E(Y ), , X et Y . En eet, Y E(Y ) = b(X E(X)) + . En multipliant cette quation par X E(X) et en prenant lesprance, on obtient e e
2 Cov(X, Y ) = bVar(X) = bX ,
ce qui implique b= Alors, Y =a+ Or, E(Y ) = a + et a = E(Y ) Finalement, Y = E(Y ) + Y (X E(X)) + . X (2.22) Cov(X, Y ) Y = . 2 X X Y X + . X Y E(X), X Y E(X). X
2.9. REGRESSION LINEAIRE
41
2 2 Proposition 2.4. Soit E(X 2 ) < , E(Y 2 ) < et Var(X) = X > 0, Var(Y ) = Y > 0. Si la fonction de rgression g(x) = E(Y |X = x) est linaire, elle scrit ncessairement sous la e e e e forme
E(Y |X = x) = E(Y ) + et la variance rsiduelle vrie e e
Y (x E(X)) X
(2.23)
2 = (1 2 )Y ,
(2.24)
o` est le coecient de corrlation entre X et Y . u e Remarque. On peut galement crire (2.23) sous la forme e e E(Y |X = x) = E(Y ) + Cov(X, Y ) (x E(X)). 2 X (2.25)
Preuve. Lgalit (2.23) est une consquence immdiate de (2.22) et du fait que E(|X = e e e e x) = 0. Montrons (2.24). La variance de g(X) = E(Y ) + vaut Var(g(X)) = Var( et, dapr`s (2.19), e
2 = E( 2 ) = Var(Y ) Var(g(X)) = Y Var(g(X)).
Y (X E(X)) X Y 2 X) = 2 Y X
2 2 Corollaire 2.1. Soit E(X 2 ) < , E(Y 2 ) < et Var(X) = X > 0, Var(Y ) = Y > 0. Si la rgression de Y sur X est linaire, alors e e 2 Y |X = 2 . XY
(2.26)
2 Le rciproque est aussi vrai : si 2 = Y |X , alors la rgression de Y sur X est linaire. e e e XY
Preuve. Pour obtenir (2.26), il sut de comparer (2.20) et (2.24). Pour dmontrer la rciproe e que, on note que si lgalit est atteinte dans lingalit de Cauchy-Schwarz (2.21), alors il e e e e existe , R tels que = 0 ou = 0 et (X E(X)) + (E(Y |X) E(Y )) = 0 (p.s.).
2 Or, = 0 est impossible vu la condition X > 0. On a donc
E(Y |X) = E(Y ) + a(X E(X)), (p.s.) avec a = /.
42
Remarque. Les notions de lien linaire dterministe entre X et Y et de lien linaire e e e stochastique entre X et Y sont ` ne pas confondre. Un lien linaire dterministe signie que a e e Y = aX + b (p.s.) avec a = 0, ,b R, tandis quun lien linaire stochastique signie que la e rgression de Y sur X est linaire, i.e. Y = aX + b + (p.s.), o` E(|X) = 0 (p.s.) et est e e u 2 de variance strictement positive. Sil existe un lien linaire dterministe, alors 2 = Y |X = e e XY 2 X|Y = 1. Sil existe un lien linaire stochastique (i.e. seule la rgression de Y sur X est e e 2 2 2 2 linaire), alors XY = Y |X 1 et gnralement Y |X = X|Y , car la linarit de la rgression e e e e e e de Y sur X nimplique pas la linarit de la rgression de X sur Y . e e e Conclusions. (1) Le coecient de corrlation XY est particuli`rement adapt pour caractriser un e e e e lien linaire entre X et Y (la rgression linaire), si un tel lien existe. e e e
2 (2) Le rapport de corrlation Y |X est une mesure de lien entre X et Y plus gnrale e e e que XY . Elle est utile au cas o` la rgression de Y sur X est non-linaire. u e e 2 (3) Si la rgression de Y sur X est linaire, les deux mesures sont identiques : Y |X = e e 2 . XY
2.10. Meilleure prvision linaire e e Au lieu de chercher la meilleure prvision de Y parmi toutes les fonctions borliennes e e g(X), on peut poser un probl`me moins gnral : approximer Y par les fonctions de type e e e a + bX, o` a et b sont des coecients dterministes. Ce probl`me (dite de meilleure prvision u e e e linaire) est formul comme suit. e e Soit Y L2 (P ) et soit X une v.a. sur (, A, P ). Trouver les valeurs dterministes a et b e telles que Y a bX = min Y a bX ,
a,bR
(2.27)
o` est la norme de L2 (P ). La variable alatoire Y L = a + bX est appele meilleure u e e prvision linaire de Y tant donn X. e e e e
2 2 Proposition 2.5. Soit E(X 2 ) < , E(Y 2 ) < et Var(X) = X > 0, Var(Y ) = Y > 0. Alors Y a = E(Y ) E(X), X Cov(X, Y ) Y b= = 2 X X o` = Corr(X, Y), et la meilleure prvision linaire de Y tant donn X est u e e e e Y Y L = E(Y ) + (X E(X)). X
Preuve. Notons que (2.27) est quivalent au probl`me de minimisation e e E((Y a bX)2 ) = min E((Y a bX)2 ),
a,bR
2.11. EXERCICES
43
ce qui est quivalent, ` son tour, au probl`me e a e E([(Y E(Y )) a b(X E(X))]2 ) = min E([(Y E(Y )) a b(X E(X))]2 )
a ,bR
(on a fait le changement de variable a = a E(Y ) bE(X)). Or,

2 2 E([(Y E(Y )) a b(X E(X))]2 ) = Y + (a )2 + b2 X 2bCov(X, Y ), 2 do` a = 0, b = Cov(X, Y )/X . u
On peut noter la similarit des expressions prsentes dans les Propositions 2.4 et 2.5. e e Nanmoins, les deux rsultats sont bien dirents : dans la Proposition 2.4 il sagit dune e e e fonction de rgression exacte (au cas o` elle est linaire), tandis que dans la Proposition 2.5 e u e L nest quune approximation linaire da la fonction de rgression (qui peut la variable Y e e tre non-linaire). La dirence devient vidente si lon compare les erreurs quadratiques e e e e = E((Y Y )2 ) = E( 2 ) et L = E((Y Y L )2 ). En eet, dapr`s le Thor`me de Pythagore, e e e L = E((Y g(X))2 ) + E((g(X) Y L )2 ) = E( 2 ) + E((g(X) Y L )2 ) = + E((g(X) Y L )2 ), ce qui implique L avec L = si et seulement si la rgression g() est linaire. e e 2.11. Exercices Exercice 2.3. Soient deux densits de probabilit sur R2 : e e f1 (t1 , t2 ) = I{0 < t1 , t2 < 1} et f2 (t1 , t2 ) = [1 + (2t1 1)(2t2 1)]I{0 < t1 , t2 < 1}. Vrier que f2 est une densit de probabilit. Montrer que f1 et f2 ont les mmes densits e e e e e marginales. Exercice 2.4. Soient X et Y deux variables alatoires indpendantes et de mme loi. Utiliser e e e la dnition pour dmontrer que E(X|X +Y ) = E(Y |X +Y ) (p.s.). En dduire que E(X|X + e e e Y ) = E(Y |X + Y ) = X+Y (p.s.). Comparer ceci avec les Exemples 2.2 et 2.3. 2 Exercice 2.5. Soient X, Y1 et Y2 des variables alatoires indpendantes, telles que Y1 et Y2 e e sont de loi normale N (0, 1). On dnit la v.a. e Y1 + XY2 Z= . 1 + X2 Utiliser la loi conditionnelle P (Z u|X = x) pour montrer que Z N (0, 1). Exercice 2.6. Soient 1 et 2 deux variables alatoires indpendantes de mme loi telle que e e e 0 < Var(1 ) < . Montrer que les v.a. 1 = 1 2 et 2 = 1 + 2 sont non-corrles. ee Exercice 2.7. Soient X, Y, Z des variables alatoires telles que E(|Z|) < . Montrer que e E(E(Z|Y, X)|Y ) = E(Z|Y ).
44
Exercice 2.8. Soient X et N deux variables alatoires telles que N prend ses valeurs dans e {1, 2, . . .} et E(|X|) < , E(N ) < . On consid`re la suite X1 , X2 , . . . des variables e indpendantes de mme loi que X. Utilisant le conditionnement montrer lidentit de Wald : e e e si N est indpendante des Xi , alors e
N
E(
i=1
Xi ) = E(N )E(X).
Exercice 2.9. On suppose que Y = X 3 + , o` X et sont deux variables alatoires u e 2 indpendantes de loi N (0, 1) et > 0. Comparer le rapport de corrlation Y |X et le carr e e e 2 du coecient de corrlation XY pour ce mod`le. e e Exercice 2.10. Le salaire dsir dun individu scrit Y = Xb + , o` > 0, b > 0, e e e u X est une variable alatoire telle que E(X 2 ) < mesurant la capacit de lindividu, est e e indpendante de X et de loi N (0, 1). Si Y est plus grand que le SMIC S, alors le salaire reu e c , et S sinon. Calculer E(Y |X). Cette esprance est-elle fonction linaire de X ? Y est Y e e Exercice 2.11. Soient et deux variables alatoires avec E() = E() = 0, Var() = e Var() = 1 et soit le coecient de corrlation Corr(, ) = . e 1o . Montrer que E(max( 2 , 2 )) 1 + 1 2 . Indication : on remarque que max( 2 , 2 ) = 2o . Dmontrer lingalit suivante : e e e P | E()| Var() ou | E()| Var() 1+ 1 2
2
| 2 + 2 | + | 2 2 | . 2
Exercice 2.12. On consid`re une suite de variables alatoires X0 , . . . , Xn issues du mod`le e e e suivant (mod`le dautorgression) : e e Xi = aXi1 + i , i = 1, . . . , n, X0 = 0, o` les i sont i.i.d. de loi u et a IR. 1o . Ecrire Xi en fonction de la srie des v.a. (1 , . . . , n ). En dduire, selon les valeurs du e e 2 de X . param`tre a, la loi, lesprance et la variance i e e i 2o . Calculer le coecient de corrlation entre Xi et Xi+1 . e N (0, 2 ) Exercice 2.13. Soient X et deux variables alatoires indpendantes et de mme loi U [1, 1] e e e (loi uniforme sur [1, 1]). On pose Y = I{X + 0}. 1o . Chercher la fonction de rgression de Y sur X. e o . Calculer le coecient de corrlation 2 e XY . 3o . Chercher la loi conditionnelle de Y sachant X et celle de X sachant Y .
2.11. EXERCICES
45
Exercice 2.14. Soient X, Y et Z des variables alatoires telles que X et Y sont de carr e e intgrable. La covariance conditionnelle entre X et Y sachant Z est dnie par e e Cov(X, Y |Z) = E(XY |Z) E(X|Z)E(Y |Z). Montrer que Cov(X, Y ) = E(Cov(X, Y |Z)) + Cov(E(X|Z), E(Y |Z)). Exercice 2.15. Soit X N (0, 1) et Y = X 2 . Quelle est la meilleure prvision de X tant e e 2 2 donn Y ? Calculer Y |X , X|Y , XY . Indication : montrer que les v.a. |X| et sign(X) sont e indpendantes. e Exercice 2.16. Soient X, Y, Z des variables alatoires telles que E(|Z|) < . On consid`re e e les esprances conditionnelles 1 = E(Z|Y, X) et 2 = E(E(Z|Y )|X). e 1o . On suppose dabord que Z = X et que la v.a. X est indpendante de Y . Calculer 1 et 2 e et remarquer que 1 = 2 . 2o . On suppose ensuite que la loi jointe de (X, Y, Z) admet une densit par rapport ` la e a mesure de Lebesgue sur IR3 . Exprimer 1 et 2 . Obtienton 1 = 2 ? 3o . Soit EX () lesprance par rapport ` la loi marginale de X. Peuton armer que e a EX (1 ) = E(Z|Y )? EX (1 ) = EX (2 )? Que se passetil si la v.a. X est indpendante de Y ? e
Vecteurs alatoires. Loi normale multivarie e e

3.1. Vecteurs alatoires e Nous commenons par le rappel sur quelques proprits de vecteurs alatoires. Un vecteur c ee e p est un vecteur x = ( , ..., )T dont toutes les composantes , ..., sont alatoire dans R e 1 p 1 p e c e e des variables alatoires relles1) . De la mme faon on dnit des matrices alatoires : e e 11 ... 1q , ... = p1 ... pq o` les ij sont des variables alatoires relles. La fonction de rpartition du vecteur alatoire u e e e e x est dnie par e Fx (t) = P (1 t1 , ..., p tp ), t = (t1 , ..., tp )T Rp . La fonction caractristique du vecteur alatoire x est une fonction x () sur Rp ` valeurs e e a complexes dnie par e x (t) = E exp(itT x) , t Rp . Deux vecteurs alatoires x Rp et y Rq sont appels indpendants si, pour tous A e e e B(Rp ) et B B(Rq ), on a : P (x A, y B) = P (x A)P (y B) o` B(Rp ) est la tribu u borlienne de Rp . Dans ce cas on crit x e e y. Le rsultat suivant donne une caractrisation de e e x lindpendance : x si et seulement si la fonction caractristique z (u) du vecteur z = e y e y a se prsente, pour tout u = e avec a Rp et b Rq , sous la forme de produit b z (u) = x (a)y (b)
1) Par la suite, tout vecteur x Rp est un vecteur colonne et xT dsigne le transpos de x. e e 47
(3.1)
48
3. VECTEURS ALEATOIRES. LOI NORMALE MULTIVARIEE
(voir Bouleau N., Probabilits de lingnieur, variables alatoires et simulation, Hermann, e e e 1986, Proposition 5.12, p. 142). Plus gnralement, sil sagit de n vecteurs alatoires, nous e e e avons la dnition suivante de linpendance. e e Dnition 3.1. Soient x1 , . . . , xn des vecteurs alatoires sur (, A, P ), tels que xi est ` e e a valeurs dans Rpi . On dit que x1 , . . . , xn sont (mutuellement) indpendants si, pour tous Ai e B(Rpi ), i = 1, . . . , n, P (x1 A1 , . . . , xn An ) = P (x1 A1 ) P (xn An ). (3.2)
En utilisant cette dnition et (3.1), on obtient facilement que les vecteurs alatoires e e x1 , . . . , xn sont mutuellement indpendants si et seulement si la fonction caractristique du e e df e T , . . . , xT )T est gale au produit des fonctions caractristiques des vecteur compos x = (x1 e e e n vecteurs xi , i = 1, . . . , n. 3.1.1. Proprits des vecteurs alatoires au cas continu. Dans ce chapitre nous e e e considrerons principalement le cas continu, cest-`-dire nous supposerons que la loi de x e a admet une densit de probabilit fx () 0 par rapport ` la mesure de Lebesgue sur Rp . Cela e e a signie que
t1 tp
Fx (t) = pour tout t = (t1 , ..., tp ) Rp et
...

fx (u1 , ..., up )du1 ...dup
fx (t) = fx (t1 , ..., tp ) =
p Fx (t) . t1 tp
pour presque tout t. Toute densit de probabilit vrie e e e

fx (t) 0,
...

fx (t1 , ..., tp )dt1 . . . dtp = 1.
Soit x = (1 , ..., k )T (o` k < p) vecteur alatoire, une partie de x. La densit marginale u e e de x est

fx (t1 , ..., tk ) =
...

fx (t1 , ..., tp )dtk+1 . . . dtp .
Notons que la connaissance de toutes les densits marginales nest pas susante pour la e dtermination de la loi du vecteur alatoire x. Deux vecteurs alatoires dirents peuvent e e e e avoir les mmes lois marginales (voir lExemple 2.1 relatif au vecteur de dimension 2). e Soient maintenant x = (1 , ..., p )T et y = (1 , ..., q )T deux vecteurs alatoires tels que e le couple (x, y) admet une densit fy,x . La densit conditionnelle de y sachant que x = e e (t1 , ..., tp )T , pour un vecteur dterministe (t1 , ..., tp ), est dnie par e e fy|x (s1 , ..., sq |t1 , ..., tp ) =
fy,x (s1 ,...,sq ,t1 ,...,tp ) , fx (t1 ,...,tp )
fy (s1 , ..., sq ),
si fx (t1 , ..., tp ) > 0, si fx (t1 , ..., tp ) = 0.
(3.3)
3.1. VECTEURS ALEATOIRES
49
Pour p = q = 1 on retrouve la dnition (2.11) du Paragraphe 2.5 2) . La loi conditionnelle e de y sachant que x = a (avec a Rp dterministe) est la loi de densit fy|x (|a). Les e e vecteurs alatoires x et y sont indpendants si et seulement si e e fx,y (t1 , ..., tp , s1 , ..., sq ) = fx (t1 , ..., tp )fy (s1 , ..., sq ). Lindpendance signie que la densit conditionnelle (3.3) nest fonction que de (s1 , ..., sq ), e e elle ne dpend pas de la valeur (t1 , ..., tp ) prise par x. Comme dans le cas de deux variables e alatoires relles, les transformations mesurables des vecteurs alatoires x et y prservent e e e e lindpendance. e 3.1.2. Transformations des vecteurs alatoires. Soit h = (h1 , ..., hp )T une transfore mation, cest-`-dire une fonction de Rp dans Rp , a h(t1 , ..., tp ) = (h1 (t1 , ..., tp ), ..., hp (t1 , ..., tp ))T , t = (t1 , ..., tp )T Rp . Le Jacobien de la transformation est dni par e Jh (t) = Det hi (t) tj ,
i,j
pourvu que les drives partielles existent. Rappelons le rsultat suivant de lanalyse. e e e Proposition 3.1. Supposons que (i) les drives partielles de hi () sont continues sur Rp pour i = 1, ..., p, e e (ii) h est une bijection, (iii) Jh (t) = 0 pour tout t Rp . Alors, pour toute fonction f : R Rp telle que Rp |f (t)|dt < et tout ensemble borlien e K Rp , on a f (t)dt =
K h1 (K)
f (h(u))|Jh (u)|du.
Remarque. Dapr`s le Thor`me de fonction inverse, sous les conditions de la Proposition e e e 3.1 la fonction inverse g() = h1 () existe partout dans Rp et Jh1 (h(u)) = 1 , Jh (u) Jh1 (t) = 1 Jh (h1 (t)) .
On voit donc que h vrie les conditions (i)-(iii) de la Proposition 3.1 si et seulement si e g = h1 vrie ces conditions. e Proposition 3.2. Soit y un vecteur alatoire dans Rp de densit fy . Soit g : Rp Rp une e e transformation vriant les hypoth`ses de la Proposition 3.1. Alors, la densit fx du vecteur e e e alatoire x = g(y) est donne par : e e fx (u) = fy (h(u))|Jh (u)|, pour tout u Rp , o` h = g 1 . u
2) Il est possible dutiliser aussi la dnition un peu dirente de (3.3), en modiant (3.3) sur un ensemble e e de probabilit 0, par exemple, en posant fy|x (s1 , ..., sq |t1 , ..., tp ) = 0 si fx (t1 , ..., tp ) = 0, cf. (2.14). e
50
Preuve. Soit x = (1 , ..., p )T , v = (v1 , ..., vp )T et Av = {t Rp : gi (t) vi , i = 1, ..., p}. Dapr`s la Proposition 3.1 avec h = g 1 et f = fy , la f.d.r. de x scrit sous la forme e e Fx (v) = P (i vi , i = 1, ..., p) = P (gi (y) vi , i = 1, ..., p) =
Av
fy (t)dt =
g(Av )
fy (h(u))|Jh (u)|du.
Or, g(Av ) = {u = g(t) Rp : t Av } = {u = g(t) Rp : gi (t) vi , i = 1, ..., p} = {u = (u1 , ..., up )T Rp : ui vi , i = 1, ..., p}, do` on obtient u Fx (v) =
v1 vp
...

fy (h(u))|Jh (u)|du
pour tout v = (v1 , ..., vp )T Rp . Ceci signie que la densit de x est fy (h(u))|Jh (u)|. e Corollaire 3.1. Si x = Ay + b, o` y est un vecteur alatoire dans Rp de densit fy , b Rp u e e est un vecteur dterministe et A est une matrice p p telle que Det(A) = 0, alors e fx (u) = fy (A1 (u b))| Det(A1 )| = fy (A1 (u b)) . | Det(A)|
Pour prouver ce rsultat, il sut dutiliser la Proposition 3.2 avec u = g(t) = At + b e (respectivement, t = g 1 (u) = h(u) = A1 (u b)). 3.1.3. Rappel sur quelques proprits de matrices. Dans la suite, une matrice pq e e est une matrice relle ` p lignes et q colonnes. La notation Diag(1 , . . . , p ) sera utilise pour e a e une matrice diagonale dont les lments diagonaux sont 1 , . . . , p . On notera I une matrice ee unit et 0 une matrice nulle (i.e. une matrice dont tous les lments sont 0), sans indiquer les e ee dimensions lorsquil ny aura pas dambigu e. t Le dterminant et la trace dune matrice carre A = (aij )i,j=1,...,p sont dnis par e e e
p p p
Det(A) =
i=1
i ,
Tr(A) =
i=1
aii =
i=1
i ,
o` les i sont les valeurs propres de A. On a u Det(AT ) = Det(A) o` AT dsigne la transpose de A. Si A est inversible, u e e Det(A1 ) = [Det(A)]1 . Soient deux matrices A, B carres p p. Alors e Det(AB) = Det(A) Det(B). Une matrice carre A = (aij )i,j=1,...,p est dite symtrique si aij = aji , i, j = 1, ..., p (ou e e bien A = AT ). Toutes les valeurs propres dune matrice symtrique sont relles. e e
51
On dit quune matrice symtrique A est positive et on crit A 0 si xT Ax 0 pour e e tout x Rp . Si, en outre, xT Ax > 0 pour tout x = 0, on appelle A strictement positive et on crit A > 0. e Soient deux matrices symtriques A et B. On crit A B ou A > B si la matrice A B e e est positive ou strictement positive respectivement. Une matrice carre p p est dite orthogonale si e 1 = T , ce qui quivaut ` e a T = T = I, o` I est la matrice unit p p. Les colonnes (j) de la matrice orthogonale = ( (1) , ..., (p) ) u e sont des vecteurs mutuellement orthogonaux de norme 1 : T (j) = ij pour i, j = 1, ..., p, (i) de mme pour les lignes de . Ici ij est le symbole de Kronecker : ij = 1 pour i = j et e ij = 0 pour i = j. De plus, | Det()| = 1. Les matrices symtriques sont caractrises par le Thor`me de dcomposition spece e e e e e trale : Soit A une matrice p p symtrique. Alors e
p
A = =
i=1
i (i) T , (i)
(3.4)
o` u
1 0 . . . 0 . . . = Diag(1 , . . . , p ) = . . . . . . , . . . 0 0 . . . p les i sont les valeurs propres de A, les (i) sont les vecteurs propres orthonorms correspone dants et = ( (1) , ..., (p) ) est une matrice p p orthogonale. Un corollaire de ce thor`me est : e e Une matrice symtrique A est positive (strictement positive) si et seulement si toutes ses e valeurs propres sont positives (strictement positives). Remarques. (1) Une matrice symtrique peut avoir des valeurs propres multiples, mais tous les vece teurs propres (i) dans la dcomposition spectrale (3.4) sont dirents. Les (i) e e correspondant aux valeurs propres multiples ne sont pas dnis de faon unique. e c (2) Sans perte de gnralit, on supposera dans la suite que les valeurs propres i dune e e e matrice symtrique A sont ordonnes : e e 1 2 ... p . On appellera (1) premier vecteur propre de A, cest-`-dire, le vecteur propre a correspondant ` la valeur propre maximale ; (2) correspondant ` 2 sera appel a a e deuxi`me vecteur propre, et ainsi de suite. e
52
Fonctions des matrices symtriques. Pour les matrices symtriques, le calcul de e e fonctions matricielles est simpli. Par exemple, la puissance As , s > 0, dune matrice A e symtrique et positive est dnie par As = s T . La matrice As est aussi symtrique et e e e positive. Le cas particulier est la racine carre A1/2 de la matrice A qui vrie e e A = A1/2 A1/2 , A1/2 = (A1/2 )T , A1/2 0. Si, de plus, la matrice A est non-dgnre, la dnition de As stend pour s < 0. Notons que e e ee e e s ) = [Det(A)]s , vu la dnition de As et le fait que | Det()| = 1 pour toute matrice Det(A e orthogonale. Projecteurs. Une matrice P telle que P = P T (matrice symtrique) et P 2 = P (matrice idempotente) e est dite matrice de projection (ou projecteur). Toutes les valeurs propres dun projecteur P sont 0 ou 1. En eet, soit v un vecteur propre de P , i.e. P v = v, o` est la valeur propre de P correspondante. Comme P 2 = P , u (2 )v = (P P )v = (P 2 P )v = 0. Ceci implique que = 1 ou = 0. Par consquent, le rang Rang(P ) dun projecteur P est le e nombre de ses valeurs propres gales ` 1 et e a Rang(P ) = Tr(P ). 3.1.4. Matrices de covariance et de corrlation. Un vecteur = (1 , ..., p )T Rp e est la moyenne du vecteur alatoire x = (1 , ..., p )T si e j = E(j ) = ... tj fx (t1 , ..., tp )dt1 ...dtp . j = 1, ..., p,
On crit alors = E(x) (ici et par la suite on suppose que toutes les intgrales et toutes les e e esprances en question sont nies). De la mme faon, on dnit lesprance dune matrice e e c e e alatoire. Comme dans le cas de v.a. relles, lesprance est une fonctionnelle linaire : si A e e e e est une matrice p q et b Rq , alors E(Ax + b) = AE(x) + b = A + b. Cette proprit reste vraie pour les matrices alatoires : si est une matrice p m alatoire ee e e et A est une matrice q p dterministe, alors E(A) = AE(), E(T AT ) = E(T )AT . e La matrice de covariance (ou la matrice de variance-covariance) du vecteur alatoire x est une matrice p p dnie par e e = V (x) = E((x )(x )T ) = (ij )i,j o` u ij = E((i i )(j j )) = ... (ti i )(tj j )fx (t1 , ..., tp )dt1 ...dtp .
df e df e
2 Comme ij = ji , est une matrice symtrique. On note ii = i avec i 0. e
Dnissons galement la matrice de covariance (ou la matrice des covariances e e croises) des vecteurs alatoires x Rp et y Rq : e e C(x, y) = E((x E(x))(y E(y))T ).
53
Cest une matrice p q. On dit que x est orthogonal ` y (ou bien que x et y sont nona corrls) et on crit x y si C(x, y) = 0 (matrice p q nulle). ee e 3.1.5. Proprits des matrices de covariance. Soient x Rp et y Rq deux vece e teurs alatoires. Alors : e (C1) = E(xxT ) T , o` = E(x). u (C2) Pour tout a Rp , Var(aT x) = aT V (x)a. Preuve. Par linarit de lesprance, e e e Var(aT x) = E((aT x E(aT x))2 ) = E [aT (x E(x))]2 = E aT (x )(x )T a = aT E (x )(x )T a = aT V (x)a.
(C3) = V (x) est une matrice symtrique et positive. En eet, Var(aT x) 0 (variance e dune v.a. relle) et, vu (C2), V (x) 0. e (C4) Soit A une matrice q p et b Rq . Alors V (Ax + b) = AV (x)AT . Preuve. Soit y = Ax + b, alors par linarit de lesprance, e e e E(y) = E(Ax + b) = A + b et y E(y) = A(x ). Par linarit de lesprance pour les matrices alatoires, e e e e V (y) = E(A(x )(x )T AT ) = AV (x)AT .
(C5) C(x, x) = V (x). (C6) C(x, y) = C(y, x)T . (C7) Pour deux vecteurs alatoires x1 Rp et x2 Rp , on a C(x1 + x2 , y) = C(x1 , y) + e C(x2 , y). (C8) Si A est une matrice m p et B est une matrice k q, alors C(Ax, By) = AC(x, y)B T . (C9) Si x et y sont deux vecteurs alatoires de mme dimension p, e e V (x + y) = V (x) + C(x, y) + C(y, x) + V (y) = V (x) + C(x, y) + C(x, y)T + V (y). (C10) Si x y, alors C(x, y) = 0 (matrice p q nulle). Limplication inverse nest pas vraie. Un contre-exemple est dj` donn dans le cas p = q = 1 (Exemple 2.4). ea e La matrice de corrlation P du vecteur alatoire x est dnie par P = (ij )1i,jp e e e avec ij ij ij = = , ii jj i j pourvu que tous les i soient strictement positifs. On remarque que : Les lments diagonaux ii = 1, i = 1, ..., p. ee La matrice P est positive. En eet, P = 1 1 avec la matrice diagonale = Diag( 11 , . . . , pp ), donc la positivit de implique que P 0. e
54
3.2. Loi normale multivarie e 3.2.1. Loi normale dans R. On rappelle que la loi normale N (, 2 ) dans R est la loi de densit e 1 (x )2 f (x) = exp , 2 2 2 o` R est la moyenne et 2 > 0 est la variance. La fonction caractristique de la loi normale u e N (, 2 ) vaut 2 t2 (t) = exp it , 2 2 en particulier, (t) = et /2 pour la loi N (0, 1). Par convention, nous allons inclure les lois dgnres (lois de Dirac) dans la famille des lois normales. Soit R. La v.a. X suit la loi e e ee de Dirac en si P (X = ) = 1, (t) = eit . 3.2.2. La loi Np (0, I). Notons Np (0, I), o` I dsigne la matrice unit p p, la loi du u e e vecteur alatoire x = (1 , ..., p )T dont les composantes i , i = 1, ..., p, sont des variables e alatoires i.i.d. de loi N (0, 1). e Proprits de la loi Np (0, I). e e 1o . La moyenne et la matrice de covariance de x Np (0, I) sont : E(x) = 0, V (x) = I. 2o . La loi Np (0, I) est absolument continue par rapport ` la mesure de Lebesgue sur Rp de a densit e 1 fx (u) = (2)p/2 exp uT u , u Rp . 2 En eet,
p p
fx (u) =
i=1
(ui ) = (2)p/2
i=1
2 1 et /2 2
exp
u2 i 2
1 = (2)p/2 exp uT u 2
o` u = (u1 , ..., up u
)T
et (t) =
est la densit de la loi N (0, 1). e eiaj j

j=1 p
2 1 eaj /2 = exp aT a , 2
3o . La fonction caractristique de Np (0, I) vaut e x (a) = E eia

p
Tx
=E
=
j=1
E e
iaj j
=
j=1
o` a = (a1 , ..., ap u
)T
Rp .
3.2.3. Loi normale dans Rp . On dit que deux vecteurs alatoires x Rp et y Rp e sont de mme loi et on crit e e D x=y si et seulement si P (x B) = P (y B) pour tout B B(Rp ), o` B(Rp ) est la tribu u borlienne de Rp . e
3.2. LOI NORMALE MULTIVARIEE
55
On se rappelle le rsultat suivant du cours de probabilits (cf. J.Lacroix, P.Priouret Proe e babilits approfondies, Polycopi du cours, Universit Paris 6). e e e Lemme 3.1. Soient x Rp et y Rp deux vecteurs alatoires. Alors x = y si et seulement e p. si x (a) = y (a) pour tout a R Dnition 3.2. (Premi`re dnition de la loi normale multivarie.) Un vecteur alatoire x e e e e e p si et seulement si il existe A, une matrice p p, et un vecteur suit une loi normale dans R Rp tels que x = Ay + avec y Np (0, I).
D D
(3.5)
Remarque. On dit aussi que x est un vecteur normal dans Rp ou bien un vecteur gaussien dans Rp . Une loi normale est parfois appele loi de Laplace-Gauss. e Les proprits suivantes dcoulent facilement de la Dnition 3.2 : ee e e 1o . E(x) = . 2o . V (x) = AV (y)AT = AAT . On dsigne = AAT . e 3o . La fonction caractristique dun vecteur normal x vaut e x (a) = E eia = eia
Tx
df e
= E eia = eia
T (Ay+)
= eia
E eib
Ty
(avec b = AT a) (3.6)
T 1 bT b 2
T 1 aT a 2
De plus, seules les lois normales peuvent avoir une fonction caractristique de cette forme, e comme le montre le rsultat suivant. e Thor`me 3.1. Soit : Rp C une fonction ` valeurs complexes. Alors, est la fonction e e a caractristique dune loi normale si et seulement si il existe Rp et une matrice p p e symtrique positive tels que e (a) = eia
T 1 aT a 2
, a Rp .
(3.7)
Preuve. La ncessit est dmontre dans (3.6). Pour prouver la susance, il faut montrer quil e e e e existe un vecteur normal x dans Rp tel que () soit sa fonction caractristique. Considrons e e 1/2 y + , o` y N (0, I). Par Dnition 3.2, x est un vecteur le vecteur alatoire x = e u e p normal dans Rp . La moyenne et la matrice de covariance de x sont E(x) = et V (x) = 1/2 (1/2 )T = , vu la proprit (C4) des matrices de covariance. Dapr`s (3.6) la fonction ee e caractristique de x co e ncide avec la fonction donne dans (3.7). e Le Thor`me 3.1 et le Lemme 3.1 entra e e nent la consquence suivante : toute loi nore male dans Rp est enti`rement dtermine par la donne de sa moyenne et de sa matrice de e e e e covariance. Ceci explique que par la suite on utilisera la notation x Np (, )
56
pour un vecteur alatoire normal x de moyenne et de matrice de covariance . Une autre e consquence du Thor`me 3.1 et du Lemme 3.1 est que lon peut aussi dnir la loi normale e e e e de faon suivante. c Dnition 3.3. (Deuxi`me dnition quivalente de la loi normale multivarie.) Un vecteur e e e e e alatoire x suit une loi normale dans Rp si et seulement si la fonction caractristique de x e e est de la forme x (a) = eia
T 1 aT a 2
o` Rp et est une matrice p p symtrique positive. Dans ce cas est la moyenne et u e est la matrice de covariance de x, et on crit : e x Np (, ). Proposition 3.3. Soit Rp et soit une matrice p p symtrique positive. Alors e x Np (, ) x = 1/2 y + , o` y Np (0, I). u
D
Remarque. Pour une matrice symtrique positive il existe, en gnral, plusieurs matrices e e e carres A telles que = AAT . Alors, la matrice A dans (3.5) nest pas dnie de faon e e c unique : on peut obtenir la mme loi normale par plusieurs transformations quivalentes A e e du vecteur y Np (0, I). On peut prendre, par exemple, la matrice symtrique A = 1/2 , e mais aussi des matrice non-symtriques A. En eet, dapr`s le Thor`me de dcomposition e e e e e spectrale, on peut crire e
p k
= =
j=1
j (j) T (j)
=
j=1
a(j) aT = AAT (j)
o` est une matrice p p orthogonale, = Diag(i ) est une matrice p p diagonale de rang u Rang() = k p, les (j) sont les colonnes de , a(j) = j (j) et A est une matrice p p dnie par A = (a(1) , ..., a(k) , 0, ..., 0). Encore un autre exemple de matrice non-symtrique e e T est donn dans lExercice 3.6. (triangulaire) A vriant = AA e e Nous allons distinguer entre deux types de lois normales dans Rp : lois normales nondgnres et lois normales dgnres. e e ee e e ee 3.2.4. Loi normale non-dgnre dans Rp . Cest une loi normale dont la matrice e e e e de covariance est strictement positive, > 0 ( Det() > 0). Alors, il existe une matrice symtrique et positive A1 = 1/2 (racine carre de , voir la dnition au Paragraphe 3.1.3), e e e telle que = A2 = AT A1 = A1 AT . Par ailleurs, [Det(A1 )]2 = Det() > 0, donc Det(A1 ) > 0 1 1 1 et A1 est inversible. Dapr`s la Dnition 3.3, si le vecteur alatoire x suit la loi normale e e e Np (, ), sa fonction caractristique vaut e x (a) = eia et dapr`s (3.6) on a e x (a) = E eia
T (A y+) 1 T 1 aT a 2
a Rp , = A1 y+ (a),
57
o` y Np (0, I). Alors, vu le Lemme 3.1, u x = A1 y + . Dapr`s le Corollaire 3.1, la densit de x est e e fx (u) = Det(A1 )fy (A1 (u )) = 1 1 = 1 (2)p/2 1 fy (A1 (u )) 1 Det(A1 ) u Rp .
D
1 exp (u )T 1 (u ) , 2 Det()
Nous avons donc dmontr le rsultat suivant. e e e Corollaire 3.2. La loi normale non-dgnre Np (, ), o` Rp et > 0, est une loi e e e e u admettant la densit f par rapport ` la mesure de Lebesgue dans Rp de la forme e a f (t) = 1 (2)p/2 1 exp (t )T 1 (t ) , 2 Det() t Rp .
3.2.5. Loi normale dgnre dans Rp . Cest une loi normale dont la matrice de e e e e covariance est dgnre : Det() = 0 (autrement dit, Rang() = k < p). Par exemple, on e e ee peut considrer = 0 (matrice nulle), alors la fonction caractristique de x Np (, 0) est e e iaT et x suit la loi de Dirac en . x (a) = e Dapr`s la Proposition 3.3, si Rang() = k p (et donc Rang(1/2 ) = k), la loi de x e concentre toute sa masse sur un sous-espace ane de Rp de dimension k. Proposition 3.4. Soit x Np (, ) et Rang() = k < p. Alors, il existe un sous-espace linaire H Rp de dimension p k tel que, pour tout vecteur a H, la combinaison linaire e e aT x suit une loi de Dirac. Preuve. Soit H = Ker(), alors dim (H) = p k. Si a H (i.e. a = 0), la fonction caractristique de la v.a. aT x est e (u) = E ei(a
T x)u
= E ei(ua)
Tx
= ei(ua)
T 1 (ua)T (ua) 2
= eiu(a
T )
La loi de aT x est donc la loi de Dirac N (aT , 0). Par consquent, pour tout a H, la variable alatoire aT (x E(x)) suit la loi de Dirac e e en 0. La Proposition 3.4 montre alors que toute la masse dune loi normale dgnre est e e ee p de dimension k < p. Une loi normale dgnre concentre sur un sous-espace ane de R e e e ee nest pas absolument continue par rapport ` la mesure de Lebesgue sur Rp . a 3.2.6. Lois des combinaisons linaires. e Thor`me 3.2. (Troisi`me dnition quivalente de la loi normale multivarie.) Un vecteur e e e e e e alatoire x Rp suit une loi normale si et seulement si, pour tous a Rp , les combinaisons e linaires aT x sont des variables alatoires normales relles. e e e Remarque. Rappelons que, par convention, une loi de Dirac est un cas particulier de loi normale correspondant ` la variance nulle. a
58
Preuve. Tout dabord, on observe que, pour tout a Rp et tout u R, la fonction caractristique aT x (u) de la variable alatoire relle aT x est lie avec celle du vecteur x : e e e e aT x (u) = E eia
T xu
= x (ua).
(3.8)
Ncessit. Soit x un vecteur normal dans Rp . Montrons que aT x est une variable alatoire e e e normale pour tout a Rp . On utilise (3.8) pour obtenir, pour tout u R, aT x (u) = eiua
T 1 u2 aT a 2
o` et sont la moyenne et la matrice de covariance de x. Alors, u aT x (u) = ei0 u 2 u

2 avec 0 = aT et 0 = aT a. Par consquent, e 2 aT x N (0 , 0 ) = N (aT , aT a).
1 2 2 0
e Susance. Rciproquement, montrons que si aT x est une variable normale pour tout a Rp , alors x est un vecteur normal dans Rp . On remarque dabord que si aT x est une variable normale pour tout a Rp , alors E( x 2 ) < o` x est la norme Euclidienne de x (pour u le voir il sut de prendre successivement comme a les vecteurs de la base canonique de Rp ). Donc, la moyenne = E(x) et la matrice de covariance = V (x) sont bien dnies. e On xe maintenant a Rp . Par hypoth`se, il existe m R et s2 0 tels que aT x e N (m, s2 ). Vu la linarit de lesprance et la proprit (C2) des matrices de covariance, e e e ee m = E(aT x) = aT , s2 = Var(aT x) = aT a. Or, la fonction caractristique de aT x est e aT x (u) = eimu 2 s En utilisant (3.8) on obtient x (a) = aT x (1) = eia
T 1 aT a 2 1 2 2 u T 1 u2 aT a 2
= eiua
Puisque a Rp est arbitraire, on en dduit (vu la Dnition 3.3) que x est un vecteur alatoire e e e normal dans Rp de moyenne et de matrice de covariance .
3.2.7. Proprits de la loi normale multivarie. Soit x Np (, ), o` Rp et e e e u est une matrice p p symtrique et positive ( 0). Notons quelques proprits de x que lon e ee va utiliser par la suite et dont certaines ont t dmontres dans les paragraphes prcdents : ee e e e e (N1) Soit > 0, alors le vecteur alatoire y = 1/2 (x ) vrie e e y Np (0, I). (N2) Les combinaisons linaires aT x, pour tout a Rp , sont des variables alatoires e e normales relles : e aT x N (aT , aT a). En particulier, les densits marginales de la loi Np (, ) sont normales. Le rciproque e e nest pas vrai (voir lExemple 2.1).
59
(N3) Toute transformation ane dun vecteur normal est un vecteur normal : si y = Bx + c, o` B est une matrice dterministe q p et c Rq est un vecteur dterministe, u e e alors y Nq (B + c, BB T ). Preuve. La loi de y est normale car toute combinaison linaire de aT y est une v.a. e normale relle. En eet, pour tout a Rq , e aT y = aT Bx + aT c = bT x + d o` b = B T a Rp et d = aT c. Dapr`s le Thor`me 3.2 on obtient que les combinaisons u e e e linaires bT x sont des v.a. normales pour tout b Rp . Il sensuit que les combinaisons e linaires aT y sont normales pour tout a Rq et alors, dapr`s ce mme thor`me, y est e e e e e q . Sa moyenne et sa matrice de covariance sont donnes par un vecteur normal dans R e E(y) = B + c, V (y) = BB T ,
vu la proprit (C4) des matrices de covariance. ee (N4) La loi Np (0, 2 I) est invariante par rapport aux transformations orthogonales : si est une matrice orthogonale, 2 0 et x Np (0, 2 I), alors x Np (0, 2 I). Preuve. On utilise (N3) avec B = , c = 0. (N5) Tout sous-ensemble de coordonnes dun vecteur normal est un vecteur normal : soit e T , xT )T , o` x Rk et x Rpk , alors x et x sont des vecteurs normaux. x = (x1 2 u 1 2 1 2 Preuve. On utilise (N3) avec c = 0, en prenant comme B la matrice k p de la forme B = (Ik , 0), o` Ik est la matrice unit k k. On en dduit que x1 est normal. Pour x2 u e e on prend la matrice (p k) p dnie par B = (0, Ipk ). e (N6) Deux vecteurs alatoires x et y tels que la loi jointe de (x, y) est normale sont e indpendants si et seulement si C(x, y) = 0. e Preuve. La ncessit de la condition C(x, y) = 0 dcoule de la proprit (C10) des e e e ee matrices de covariance. x Susance. Soit z un vecteur normal dans Rq+p tel que z = , o` x Rp , y Rq , u y et C(x, y) = 0. Pour prouver que x et y sont indpendants, il sut de montrer (vu e (3.1)) que la fonction caractristique z (u) de z peut tre dcompose comme e e e e z (u) = x (a)y (b) avec u = Notons que E(z) = E(x) E(y) , V (z) = V (x) C(x, y) C(y, x) V (y) = V (x) 0 0 V (y) . a b , a Rp , b Rq .
La fonction caractristique z (u) est donc e 1 a z (u) = z (a, b) = exp i(aT E(x) + bT E(y)) (aT , bT )V (z) b 2 1 1 = exp iaT E(x) aT V (x)a exp ibT E(y) bT V (y)b = x (a)y (b). 2 2
60
3 3 2 1 1
2 2
=0.75
3 3
Figure 3.1. Exemple dellipses de concentration dune loi normale.
pour tout u =
a . b
On a aussi le rsultat plus gnral suivant dont la preuve est analogue ` celle de la proprit e e e a ee (N6). Proposition 3.5. Soient x1 , . . . , xJ des vecteurs alatoires tels que : e (i) la loi jointe de (x1 , . . . , xJ ) est normale, (ii) les matrices de covariance C(xk , xj ) = 0, k = j, pour k, j = 1, . . . , J. Alors, les vecteurs x1 , . . . , xJ sont mutuellement indpendants. e Gomtrie de la loi normale multivarie. Soit > 0. La densit de Np (, ) est e e e e constante sur les surfaces {x : (x )T 1 (x ) = C}, o` C 0. Gnralement, pour une densit de probabilit quelconque f , les ensembles u e e e e {x : f (x) c} avec c > 0 sont appels ensembles de niveau de la loi correspondante. Pour e une loi normale, les ensembles de niveau sont des ellipso des. On les appelle ellipso des de concentration. 3.3. Esprance conditionnelle dun vecteur alatoire e e Soient x = (1 , ..., p )T et y = (1 , ..., q )T deux vecteurs alatoires. Dans ce paragraphe, e nous supposerons que la densit jointe fx,y (t1 , ..., tp , s1 , ..., sq ) de (x, y) existe. Lesprance e e conditionnelle de y sachant x est dnie alors comme un vecteur alatoire dans Rq de la e e forme E(y|x) = (E(1 |x), . . . , E(q |x))T avec E(j |x) = gj (x) o`, pour tout t = (t1 , ..., tp ) Rp , u

gj (t) = E(j |x = t) =
sfj |x (s|t)ds =
sfj |x (s|t1 , ..., tp )ds
3.3. ESPERANCE CONDITIONNELLE DUN VECTEUR ALEATOIRE
61
et (cf. (3.3)) fj |x (s|t1 , ..., tp ) =

fj ,x (s,t1 ,...,tp ) fx (t1 ,...,tp ) ,
fj (s),
si fx (t1 , ..., tp ) > 0, si fx (t1 , ..., tp ) = 0.
Il est facile de voir que E(j |x) est ni si E(|j |) < . Toutes les proprits de lesprance ee e conditionnelle tablies au Chapitre 2 restent vraies pour des vecteurs alatoires de dimension e e quelconque, en particulier, le Thor`me de lesprance itre : e e e ee E(E(y|x)) = E(y) et le Thor`me de substitution (sous la forme matricielle) : e e E(h(x)yT |x) = h(x)E(yT |x) (p.s.) pour toute fonction borlienne h : Rp Rq . La matrice de covariance conditionnelle est e dnie par : e V (y|x) = E (y E(y|x))(y E(y|x))T |x = E(yyT |x) E(y|x)E(y|x)T . 3.3.1. Thor`me de meilleure prvision. Notons a e e e = a2 + ... + a2 la norme p 1
Euclidienne du vecteur a = (a1 , . . . , ap )T Rp . Soit L2 (P, Rq ) lespace de Hilbert de tous les vecteurs alatoires x dans Rq de carr intgrable, i.e. tels que E( x 2 ) < (cf. la dnition e e e e de lespace L2 (P ) = L2 (P, R1 ) au Chapitre 2). Dnition 3.4. Soient x Rp et y L2 (P, Rq ) deux vecteurs alatoires et soit G une e e fonction borlienne de Rp dans Rq . Un vecteur alatoire G(x) est appel meilleure prvision e e e e de y tant donn x si e e E (y G(x))(y G(x))T E (y H(x))(y H(x))T pour toutes les fonctions borliennes H de Rp dans Rq . e Exercice 3.1. Montrer que (3.9) implique E( y G(x) 2 ) = min E( y H(x) 2 ),
H()
(3.9)
o` le minimum est pris sur toutes les fonctions borliennes H de Rp dans Rq . u e Comme dans le cas p = q = 1, on obtient le Thor`me de meilleure prvision : e e e Thor`me 3.3. Soient x Rp et y L2 (P, Rq ) deux vecteurs alatoires tels que la loi e e e jointe de (x, y) admet une densit par rapport ` la mesure de Lebesgue sur Rp+q . Alors, la e a meilleure prvision de y tant donn x, unique ` une quivalence pr`s, est gale ` lesprance e e e a e e e a e conditionnelle G(x) = E(y|x).
62
Preuve. Il sut de chercher le minimum parmi les fonctions H() telles que E( H(x) 2 ) < . Pour une telle fonction H(x) : E (H(x) y)(H(x) y)T ) = E [(H(x) G(x)) + (G(x) y)][(H(x) G(x)) + (G(x) y)]T = E (H(x) G(x))(H(x) G(x))T + E (H(x) G(x))(G(x) y)T +E (G(x) y)(H(x) G(x))T + E (G(x) y)(G(x) y)T . En utilisant le Thor`me de lesprance itre et le Thor`me de substitution, on obtient e e e ee e e E (H(x) G(x))(G(x) y)T = E E (H(x) G(x))(G(x) y)T |x = E (H(x) G(x))E (G(x) y)T |x do` dcoule le rsultat du thor`me. u e e e e = 0,
3.4. Thor`me de corrlation normale e e e Les proprits tablies au Paragraphe 3.2.7 nous permettent dobtenir le rsultat suivant ee e e qui joue un rle fondamental. o Thor`me 3.4. (Thor`me de corrlation normale.) Soit un vecteur normal x e e e e e Np (, ) tel que x= , Rk , Rl , p = k + l, = , = ,
o` est une matrice k k, est une matrice l l, et = T est une matrice l k. u Supposons que > 0. Alors : (i) Presque srement, u E(|) = + 1 ( ), V (|) = 1 . (3.10)
(ii) La loi conditionnelle de sachant que = a (avec a Rk dterministe) est normale : e Nl ( + 1 (a ), V ), (iii) Les vecteurs alatoires et e
1 =
o` V = 1 . u
df e
sont indpendants. e Remarques. (1) La fonction de rgression de sur est dnie comme une fonction dterministe e e e a E(| = a), a Rk . Vu le Thor`me de corrlation normale, on peut formuler e e e la conclusion suivante. Si la loi jointe de (, ) est normale, la rgression de sur est linaire. e e
` 3.4. THEOREME DE CORRELATION NORMALE
63
Important : soulignons quon a besoin ici de la normalit de la loi jointe de e (, ). La normalit de et de ne sut pas : le fait que et soient deux vecteurs e normaux nimplique pas que la loi jointe de (, ) est normale (cf. Exemple 2.1). (2) Si > 0, la matrice V est aussi strictement positive : V > 0. En eet, comme > 0, pour tous a Rk , b Rl , on a lingalit e e (aT bT ) ce qui quivaut ` e a aT a + aT b + bT a + bT b > 0. Si lon choisit a = 1 b, alors (3.11) scrit comme e bT 1 b + bT b > 0, pour tout b Rl , do` u 1 > 0. (3) Le Thor`me de corrlation normale admet linterprtation gomtrique suivante : e e e e e e l ) le sous-espace linaire de L (P, Rl ) constitu de tous les vecteurs soit L2 (P, R e e 2 alatoires dans L2 (P, Rl ) mesurables par rapport ` . Supposons que = 0. Alors e a 1 est la projection orthogonale de sur L (P, Rl ) et le vecteur = 1 2 (le rsidu) est orthogonal ` L (P, Rl ). e a 2 Preuve du Thor`me de corrlation normale. e e e Etape 1. Calculons E() et V (). On a : E() = E( 1 ) = 1 . En utilisant les proprits (C9) et (C8) des matrices de covariance on trouve ee V () = V () C(, 1 ) C( 1 , ) + V ( 1 ) = 1 = 1 . Etape 2. Montrons que est orthogonal ` . En eet, a C(, ) = C(, ) 1 C(, ) = 1 = 0. Etape 3. Notons que la loi jointe du couple (, ) est normale. En eet, o` u A= = Ax = A , ,
T T
a b
= (aT bT )
a b
> 0,
(3.11)
1 + 1 V () 1
Ik 0 1 Il
64
o` Ik et Il sont les matrices unit k k et l l. Vu la proprit (N3) du Paragraphe 3.2.7, u e ee k+l . est un vecteur normal dans R Etape 4. Le rsultat de lEtape 3 et la proprit (N5) impliquent que est un vecteur e ee normal. En utilisant les expressions pour E() et V () de lEtape 1, on obtient Nl 1 , V . Etape 5. On conclut. La proprit (N6) et les rsultats des Etapes 2 et 3 impliquent que ee e et sont indpendants, ce qui dmontre la partie (iii) du Thor`me. Par ailleurs, notons e e e e que = + 1 , o` est indpendant de . Il sensuit que u e E(|) = E(|) + 1 = E() + 1 , V (|) = V (|) = V (), et en utilisant le rsultat de lEtape 1, on obtient la partie (i) du Thor`me. La partie (ii) est e e e une consquence directe de (3.12), de lindpendance et de la normalit de . En eet, e e e la loi conditionnelle de sachant que = a est la loi conditionnelle de + 1 a sachant que = a. Comme , cest la loi (non-conditionnelle) de + 1 a. Or, la loi de est trouve dans lEtape 4. e Remarque. Le Thor`me de corrlation normale stend au cas o` la matrice est dgnre e e e e u e e ee mais > 0. Il vient, de la dmonstration donne ci-dessus, que la partie (iii) du thor`me e e e e est valable dans ce cas. Il est facile de voir que la partie (i) lest aussi, si lon dnit lesprance e e conditionnelle E(|) pour un vecteur de loi normale dgnre comme la meilleure prvision e e ee e de tant donn . Pour obtenir la partie (ii) au cas dgnr, il sut dutiliser une modie e e e ee cation convenable de la dnition de la loi conditionnelle. En outre, on peut saranchir e mme de lhypoth`se > 0 en faisant recours ` la notion de matrice pseudo-inverse (voir e e a lExercice 3.17 ci-apr`s). e Exemple 3.1. Supposons que le couple (X, Y ) suit une loi normale dans R2 avec les moyennes 2 2 X = E(X), Y = E(Y ), les variances X = Var(X) > 0, Y = Var(Y ) > 0 et la corrlation e X = XY , || < 1. Notons x = , = V (x), alors Y =
2 X X Y 2 X Y Y
(3.12)
2 2 et Det() = X Y (1 2 ) > 0. Vu le Corollaire 3.2, la densit jointe de (X, Y ) vaut e
exp fX,Y (x, y) =
1 (x X )2 2(x X )(y Y ) (y Y )2 + 2 2 2(1 2 ) X Y X Y 2X Y 1 2
Si lon pose = X et = Y dans le Thor`me 3.4, alors e e = = X Y , 1 = Y /X .
` 3.4. THEOREME DE CORRELATION NORMALE
65
Par consquent, la fonction de rgression et la variance conditionnelle sont donnes par e e e Y (x X ), X 2 2 (x) = V (Y |X = x) = Y (1 2 ). g(x) = E(Y |X = x) = Y + La densit conditionnelle de Y sachant X est normale : e fY |X (y|x) = 1 2(1 2 )Y exp (y g(x))2 . 2 2 (x)
Cest une densit de la loi N (g(x), 2 (x)). La rgression g(x) est linaire. e e e Considrons le cas particulier o` X = Y = 0 et X = Y = 1. Alors e u =
3 3 2 1 1 1
1 1
, 1 = (1 2 )1
3
1 1
1 2
2 2
=0.75
=0.5
3 3
3 3
Figure 3.2. Ellipses de concentration : x = (1 , 2 ), y = (1 , 2 ), o` y = 1/2 x. u
Les vecteurs propres de sont (1, 1)T et (1, 1)T correspondant aux valeurs propres, respectivement, 1 = 1+ et 2 = 1. Les vecteurs propres orthonorms sont (1) = 21/2 (1, 1)T e 1/2 (1, 1)T . Si lon note = ( et (2) = 2 e e (1) , (2) ), la dcomposition spectrale de scrit sous la forme : 1+ 0 = T = T . 0 1 On peut considrer les ellipses de concentration de la densit jointe de (X, Y ). Soit, pour e e C > 0, EC = {x R2 : xT 1 x C} = {x R2 : |y|2 C}, o` y = 1/2 x. Si lon note u y= y1 y2 , x= x1 x2 ,
66
alors y1 = y2 = 1 2(1 + ) 1 2(1 ) (x1 + x2 ), (x1 x2 ),
et lellipse de concentration se prsente sous la forme e EC = {xT 1 x C} = 1 2(1 + )

2
(x1 + x2 )
1 2(1 )
(x1 x2 )
C .
3.5. Lois drives de la loi normale e e 3.5.1. Loi 2 de Pearson. Cest la loi de la somme
2 2 Y = 1 + ... + p ,
o` 1 , ..., p sont des variables alatoires i.i.d. de loi N (0, 1). On crit alors Y 2 et on dit u e e p que Y suit la loi chi-deux ` p degrs de libert. a e e
0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 1 2 3 4 5 6 7 8 9 p=1 p=2 p=3 p=6
Figure 3.3. Densit de la loi de chi-deux pour direntes valeurs de p. e e
La densit de la loi 2 est e p f2 (y) = C(p)y p/21 ey/2 I{y > 0}, p et () est la fonction gamma (x) = o` C(p) = 2p/2 (p/2) u On a E(Y ) = p, Var(Y ) = 2p si Y 2 . p
1 x1 u/2 e du, 0 u
(3.13) x > 0.
Exercice 3.2. Montrer que la densit de la loi 2 est de la forme (3.13). e p Proposition 3.6. Soit x Np (, ), > 0. Alors la variable alatoire e = 1/2 (x ) suit la loi 2 . p
2
= (x )T 1 (x )
3.5. LOIS DERIVEES DE LA LOI NORMALE
67
Preuve. On utilise la proprit (N1) de la loi normale multivarie. ee e 3.5.2. Loi de Fisher-Snedecor. Soit U 2 , V 2 , deux v.a. indpendantes. La loi e p q de Fisher-Snedecor ` degrs de libert p et q est la loi de la variable alatoire a e e e U/p Y = . V /q On crit alors Y Fp,q . La densit de Fp,q est e e fFp,q (y) = C(p, q) o` u y p/21 (q + py)
p+q 2
I{y > 0},
(3.14)
pp/2 q q/2 (p)(q) avec B(p, q) = . B(p/2, q/2) (p + q) On peut montrer que cette densit converge vers une densit de type f2 quand q . e e p C(p, q) =
1 F(10,4) F(10,10) F(10,100) 0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
10
Figure 3.4. Densit de la loi de Fisher-Snedecor. e
Exercice 3.3. Montrer que la densit de la loi de Fisher-Snedecor est de la forme (3.14). e 3.5.3. Loi t de Student. Soit N (0, 1), 2 deux v.a. indpendantes. La loi de e q Student ` q degrs de libert est celle de la variable alatoire a e e e Y = . /q On crit alors Y tq . La densit de tq est e e ftq (y) = C(q)(1 + y 2 /q)(q+1)/2 , y R, o` u 1 C(q) = . qB(1/2, q/2) (3.15)
Notons que la loi tq est symtrique, e t1 est la loi de Cauchy, le carr de la variable tq suit la loi F1,q (t2 = F1,q ), e q la densit de tq tend vers la densit de N (0, 1) quand q . e e Les queues de tq sont plus lourdes que celles de la loi normale standard.
68
Exercice 3.4. Montrer que la densit de la loi de Student est de la forme (3.15). e
0.4 N(0,1) t4 0.35
0.3
0.25
0.2
0.15
0.1
0.05
0 5
Figure 3.5. Densit de la loi de Student. e
3.6. Thor`me de Cochran e e Thor`me 3.5. Soit x Np (0, I) et soient A1 , ..., AJ , J p, des matrices p p telles que e e (1) A2 = Aj , j (2) Aj est symtrique, Rang(Aj ) = Nj , e (3) Aj Ak = 0 pour j = k et J Nj p.3) j=1 Alors, (i) les vecteurs alatoires Aj x, j = 1, ..., J, sont mutuellement indpendants de lois e e Np (0, Aj ), j = 1, ..., J, respectivement ; (ii) les variables alatoires Aj x 2 , j = 1, ..., J, sont mutuellement indpendantes de lois e e 2 j , j = 1, ..., J, respectivement. N Preuve. (i) Notons dabord que E(Aj x) = 0 et, dapr`s (C4), e V (Aj x) = Aj V (x)AT = Aj AT = A2 = Aj . j j j Par ailleurs, la loi jointe de A1 x, . . . , AJ x est normale (vriez ceci). De plus, e C(Ak x, Aj x) = E(Ak xxT AT ) = Ak V (x)AT = Ak AT = Ak Aj = 0 j j j pour j = k. Dapr`s la Proposition 3.5, on obtient alors que A1 x, . . . , AJ x sont mutuellement e indpendants. e (ii) Comme Aj est symtrique, il existe une matrice orthogonale telle que Aj = T , e o` = Diag(1 , . . . , p ) est la matrice diagonale des valeurs propres de Aj . Alors, u
p
Aj x T x
= xT AT Aj x = xT Aj x = (xT )(T x) = yT y = j
i=1
2 i i ,
o` y = u = (1 , ..., p est un vecteur normal de loi Np (0, I) (vu la proprit (N4)). Mais ee Aj est un projecteur, donc j {0, 1} et Card(j : j = 1) = Rang(Aj ) = Nj , do` dcoule que u e Aj x 2 2 j . Finalement, la partie (i) du thor`me et le fait que les transformations mesue e N rables prservent lindpendance impliquent que les variables alatoires A1 x 2 , . . . , AJ x 2 e e e sont mutuellement indpendantes. e
3) Certaines versions de ce rsultat supposent aussi que A + + A = I. e 1 J
)T
3.7. EXERCICES
69
3.7. Exercices Exercice 3.5. Soit Q une matrice q p (avec q > p) de rang p. 1o . Montrer que la matrice P = Q(QT Q)1 QT est un projecteur. 2o . Trouver le sous-espace L sur lequel projette P . Exercice 3.6. Soit la matrice de covariance = 21 12 .
Trouver 1/2 . Vrier que = U U T o` U = 1/2 est la matrice triangulaire donne par e u e 1 U= 2 2 0 1 3 .
Remarque. Ceci est un cas particulier de la dcomposition de Holesky : pour toute matrice e p p symtrique positive il existe une matrice p p triangulaire U telle que = U U T . e Exercice 3.7. Soit (X, Y ) un vecteur alatoire de densit e e f (x, y) = C exp(x2 + xy y 2 /2). 1o . Montrer que (X, Y ) est un vecteur alatoire normal. Calculer lesprance, la matrice de e e covariance et la fonction caractristique de (X, Y ). Dterminer le coecient de corrlation e e e XY entre X et Y . 2o . Dterminer la loi de X, de Y , de 2X Y . e 3o . Monter que X et Y X sont des variables alatoires indpendantes et de mme loi. e e e Exercice 3.8. Soit X une v.a. de loi N (0, 1) et Z une v.a. prenant les valeurs 1 ou 1 avec la probabilit 1 . On suppose X et Z indpendantes. On pose Y = ZX. e 2 e 1o . Montrer que Y suit la loi N (0, 1). 2o . Calculer la covariance et la corrlation entre X et Y . e 3o . Calculer P (X + Y = 0). 4o . Le vecteur (X, Y ) est-il un vecteur alatoire normal ? e Exercice 3.9. Soient et deux v.a. indpendantes de loi U [0, 1]. Prouver que les v.a. e X= 2 ln cos(2), Y = 2 ln sin(2)
sont telles que Z = (X, Y )T N2 (0, I). Indication : soit (X, Y )T N2 (0, I). Passer en coordonnes polaires. e Exercice 3.10. Soit Z = (Z1 , Z2 , Z3 )T un vecteur alatoire normal, admettant une densit e e f (z1 , z2 , z3 ) =
2 2 1 6z 2 + 6z2 + 8z3 + 4z1 z2 exp 1 32 4(2)3/2
1o . Dterminer la loi de (Z2 , Z3 ) sachant que Z1 = z1 . e
70
Soient X et Y deux vecteurs alatoires dnis par : e e 22 2 0 2 5 111 X= 0 4 10 Z et Y = 1 0 0 12 4
Z.
2o . Le vecteur (X, Y ) de dimension 6 est-il normal ? Le vecteur X a-t-il une densit ? Le e vecteur Y a-t-il une densit ? e 3o . Les vecteurs X et Y sont-ils indpendants ? e 4o . Dterminer les lois des coordonnes de Z. e e Exercice 3.11. Soit (X, Y, Z)T un vecteur alatoire normal de moyenne nulle et dont la e matrice de covariance est 211 = 1 2 1. 112 o . On pose U = X + Y + Z, V = X Y + Z, W = X + Y Z. Dterminer la loi du vecteur 1 e alatoire (U, V, W )T . e 2o . Dterminer la densit de la variable T = U 2 + V 2 + W 2 . e e Exercice 3.12. Parmi les matrices suivantes, lesquelles peuvent tre la matrice de covariance e dun vecteur alatoire x IR2 : e 12 1 1/2 1 1/2 1 1/2 , , , ? 21 1/2 1 1/2 1 1/3 1 Dans la suite, on notera les matrices rpondant ` la question et on supposera que x est de e a loi N2 (0, ). 1o . Calculer, pour chaque matrice , les valeurs propres (1 , 2 ) et les vecteurs propres associs e (v1 , v2 ). T T 2o . Donner la loi jointe de v1 x et v2 x. Exercice 3.13. Soient X1 , . . . , Xn des variables alatoires indpendantes de loi N (0, 1) et e e a1 , . . . , an , b1 , . . . , bn des rels. Montrer que les v.a. Y = n ai Xi et Z = n bi Xi sont e i=1 i=1 indpendantes si et seulement si n ai bi = 0. e i=1 Exercice 3.14. Soit X une variable alatoire normale standard. Pour tout c > 0, on pose e Xc = X (I{|X| < c} I{|X| c}) . 1o . Dterminer la loi de Xc . e 2o . Calculer Cov(X, Xc ) et montrer quil existe c0 tel que Cov(X, Xc0 ) = 0. 3o . Montrer que X et Xc0 ne sont pas indpendantes. Le vecteur (X, Xc0 ) est-il normal ? e Exercice 3.15. Soit (Y , Z , X) un vecteur alatoire normal tel que Y , Z , X sont indpene e dantes de lois N (0, 1), N (0, 1) et N (0, 2). On pose : Z = 2Y 3X + Z , Y = X + Y .
3.7. EXERCICES
71
Dterminer la loi du triplet (X, Y, Z). On notera la matrice de covariance de ce vecteur. e Calculer E(Z|Y, X). Exercice 3.16. Soit (X, Y, Z) un vecteur alatoire normal tel que : e (i) la loi conditionnelle de (X, Y ) sachant que Z = z est N2 z z1 , 31 13 ,
pour tout z IR, (ii) la loi de Z sachant que Y = y est N (y/4 + 1, 3/4) pour tout y IR, (iii) Var(Z) = 1. Trouver la loi de (X, Y, Z) et celle de Z sachant (X, Y ). Exercice 3.17. Matrice pseudo-inverse. Soit A une matrice p p symtrique de rang k < p e T sa reprsentation spectrale, o` = Diag( , . . . , , 0, . . . 0). et soit A = e u 1 k 1o . Vrier que si k = Diag(1 , . . . , k ) et k = ( (1) , ..., (k) ) est la matrice p k de k e premiers vecteurs propres orthonorms de A (qui correspondent aux valeurs propres none nulles), alors A = k k T . k 2o . Dnissons la matrice e 1 A+ = k k T k appele matrice pseudo-inverse de A. Montrer que AA+ A = A. Vrier que A+ A est le e e projecteur sur le sous-espace Im(A) et I A+ A est le projecteur sur Ker(A). 3o . Montrer que les formules (3.10) du Thor`me de corrlation normale restent valides si la e e e 1 matrice est dgnre et si au lieu de on consid`re + . e e ee e
Partie 2
Notions fondamentales de la Statistique
Echantillonnage et mthodes empiriques e

4.1. Echantillon Le matriel de dpart de la dmarche statistique sont les donnes. e e e e Du point de vue dapplications, les donnes reprsentent une suite nie de nombres obe e servs au cours dune exprience, dun essai. On dsigne ces nombres par X1 , ..., Xn . Plus e e e gnralement, les Xi peuvent tre des vecteurs, dans ce cas on parle de donnes multidimene e e e sionnelles ou multivaries. e Du point de vue mathmatique, les donnes X1 , ..., Xn sont considres comme des vae e ee riables alatoires. Cest une hypoth`se fondamentale de la Statistique. Thoriquement, on e e e suppose quil existe une loi de probabilit inconnue (loi jointe de X1 , ..., Xn ) qui explique le e comportement des donnes. Dans le mod`le le plus simple, les variables X1 , ..., Xn sont i.i.d., e e de mme loi F inconnue. Il est donc dsirable de reconstituer F pour expliquer les donnes. e e e Dans cette optique, on peut voir la Statistique comme une mati`re dont lobjectif est e destimer une loi inconnue (ou dinfrer au sujet dune loi inconnue) ` partir de variables e a alatoires X1 , ..., Xn qui suivent cette loi. e La suite de donnes Xn = (X1 , ..., Xn ) sappelle lchantillon. Le nombre n est ape e pel taille dchantillon. Au lieu du mot donnes on dit parfois observations ou points e e e dchantillon. e Dans ce chapitre, on suppose que lchantillon vrie lhypoth`se suivante. e e e Hypoth`se (E0). Soit X une variable alatoire relle, dnie sur lespace de probabilit e e e e e (, A, P ), de fonction de rpartition F (on crit X F ). Lchantillon Xn = (X1 , . . . , Xn ) e e e est une ralisation de la variable X, cest-`-dire les observations X1 , ..., Xn sont des variables e a alatoires i.i.d. de la mme loi F que X (Xi F ). e e
75
76
4. ECHANTILLONNAGE ET METHODES EMPIRIQUES
Notons quen gnral un chantillon peut contenir des donnes Xi dpendantes et/ou e e e e e non-identiquement distribues. Le fait que les Xi soient i.i.d. est formul comme lhypoth`se e e e supplmentaire (lHypoth`se (E0)). Elle sera gnralement impose par la suite. Il est utile de e e e e e noter que souvent dans la littrature statistique lhypoth`se de la structure i.i.d. des donnes e e e est prsuppose, de sorte que lchantillon signie lchantillon i.i.d., sans explication e e e e particuli`re. e Remarques. (1) Il est important de noter que dhabitude linfrence statistique est de nature asympe totique : les conclusions sont valables si la taille n de lchantillon est assez grande. e Ceci est une consquence du fait quelles sont, gnralement, bases sur les rsultats e e e e e asymptotiques de la Thorie des probabilits, tels que la loi des grands nombres et le e e thor`me central limite. La notion de n assez grand varie dun exemple ` lautre et e e a ne peut pas tre prcise une fois pour toutes. Nanmoins, n de lordre de quelques e e e e centaines est souvent considre comme une taille dchantillon confortable. Pour ee e un n petit (par exemple, n < 20) lapproximation limite est typiquement en dfaut, e et on utilise, si possible, des mthodes non-asymptotiques dont larsenal est assez rese treint. (2) Lobjectif de la Statistique est inverse de celui de la Thorie des probabilits. La e e Thorie des probabilits a pour but dtudier, tant donne une loi de probabilit, le e e e e e e comportement de ses ralisations alatoires. La Statistique va dans le sens contraire : e e tant donnes des ralisations de la variable alatoire, elle essaye de se renseigner sur e e e e sa loi de probabilit. e Exemple 4.1. Donnes de survie. Supposons quon a mesur les dures de vie (en mois depuis e e e le dbut dutilisation) de 10 ampoules lectriques : e e X1 = 4.4, X2 = 2.6, X3 = 5.4, X4 = 7.8, X5 = 0.9, X6 = 0.5, X7 = 2.7, X8 = 9.1, X9 = 2.9, X10 = 1.2. Adoptons lhypoth`se suivante souvent utilise pour les donnes de survie, ` savoir que la loi e e e a de probabilit des Xi appartient ` la famille des lois exponentielles E() de densit e a e 1 x (4.1) f (x, ) = e I{x 0}, o` > 0 est un param`tre inconnu. La f.d.r. F de Xi appartient donc ` la famille F = {F : u e a > 0}, o` F est la f.d.r. de la loi exponentielle de densit (4.1). Autrement dit, la fonction de u e rpartition F est donne par F = F o` > 0 est la vraie valeur du param`tre inconnue. e e u e Pour reconstituer F il sut destimer le param`tre . e Lchantillon (X1 , ..., X10 ) peut tre considr comme une ralisation de la variable e e ee e ). La variable X dans cet exemple est continue (la loi de X alatoire X de densit f (, e e admet une densit par rapport ` la mesure de Lebesgue sur R). e a Exemple 4.2. Notes dexamen. Cest un exemple de donnes discr`tes. Trente tudiants ont e e e reu les notes suivantes ` lexamen de statistique : c a Note (j) 3 5 8 9 10 11 12 14 15 16 Nombre dtudiants (nj ) 2 1 1 5 4 8 2 4 2 1 e
4.2. REPRESENTATION GRAPHIQUE DE LECHANTILLON
77
Notons dabord que cette table prsente les donnes rduites. Les donnes de dpart ne e e e e e sont pas les ni , mais les notes de n = 30 tudiants, de sorte que Xi {1, ..., 20} est la note e dtudiant numro i. Les Xi sont des variables alatoires discr`tes. Il est naturel dattribuer e e e e aux vingt notes les probabilits pj (j = 1, ..., 20), telles que p1 + ... + p20 = 1. Les variables e alatoires nj sont alors e
30
nj =
i=1
I{Xi = j}.
Les valeurs j non-prsentes dans la table correspondent ` nj = 0. e a On voit donc que dans cet exemple lchantillon X1 , ..., X30 peut tre considr comme e e ee une ralisation de la v.a. discr`te X dont la loi inconnue est dnie par P (X = j) = pj , e e e j = 1, ..., 20. Pour reconstituer cette loi, il sut destimer N = 20 param`tres p1 , ..., p20 . e (Comme p1 + ... + p20 = 1, en eet seuls N 1 param`tres p1 , ..., p19 sont ` estimer.) Notons e a que
N
P (X = x) =
j=1
pj
I{x=j}
N 1
= pN
j=1
(pj /pN )I{x=j} pj + ln pN , pN x = 1, . . . , N. (4.2)
N 1
= exp
j=1
I{x = j} ln
Ceci dnit une loi discr`te que lon notera D({1, . . . , N }, (p1 , . . . , pN )). Comme dans lExemple e e 4.1, on peut donc dnir une famille F ` laquelle appartient F : e a F = {toutes les lois D({1, . . . , 20}, (p1 , . . . , p20 ))}. Le param`tre inconnu ici est vectoriel : = (p1 , . . . , p20 ). e Si X1 , . . . , Xn est un chantillon i.i.d. de loi D({1, . . . , N }, (p1 , . . . , pN )), alors le vecteur e alatoire = (n1 , . . . , nN ), o` nj = n I{Xi = j}, suit la loi e u i=1 P ( = (k1 , . . . , kN )) = dite loi multinomiale de degr N . e 4.2. Reprsentation graphique de lchantillon e e 4.2.1. Fonction de rpartition empirique. La fonction de rpartition empirique e e Fn associe ` lchantillon X1 , ..., Xn est dnie par e a e e Fn (x) = 1 n
n
n! pk1 pkN , N k1 ! kN ! 1
I{Xi x},
i=1
x R.
Pour tout x x, Fn (x) est une variable alatoire. Pour tout chantillon X1 , ..., Xn x, Fn e e e e est une fonction de x en escaliers, continue ` droite, de sauts gaux ` 1/n (si tous les Xi sont a e a dirents, comme dans le cas o` X est une variable continue). De plus, limx Fn (x) = 0, e u limx+ Fn (x) = 1. Donc, pour tout chantillon X1 , ..., Xn x, Fn est une fonction de e e rpartition de la loi discr`te uniforme sur {X1 , ..., Xn }, i.e. de la loi qui attribue la masse 1/n e e a ` chaque Xi .
78
La f.d.r. empirique Fn joue un rle fondamental dans la Statistique, car elle fournit une o bonne approximation de la vraie fonction de rpartition F qui est inconnue. Un rsultat e e important est la convergence de Fn vers F . Soit x x. Alors Fn (x) est la moyenne arithmtique de n variables indpendantes de loi e e e de Bernoulli de param`tre F (x) et E(Fn (x)) = F (x). Dapr`s la loi forte des grands nombres, e e Fn (x) F (x) (p.s.), quand n . De plus, la convergence est uniforme : Thor`me 4.1. (Glivenko Cantelli) Si X1 , ..., Xn sont i.i.d., Xi F , alors e e sup |Fn (x) F (x)| 0 (p.s.)
xR
x R,
(4.3)
quand n .
Preuve. On va dmontrer ce rsultat seulement dans le cas o` F est continue. Par continuit, e e u e il existe des points x1 < < xk1 tels que F (xi ) = i/k. On pose x0 = , xk = +. Grce ` la monotonie de F et de Fn on obtient, pour tout x [xi1 , xi ], a a Fn (x) F (x) Fn (xi ) F (xi1 ) = Fn (xi ) F (xi ) + 1/k, et Fn (x) F (x) Fn (xi1 ) F (xi ) = Fn (xi1 ) F (xi1 ) 1/k. Donc |Fn (x) F (x)| Vu (4.3) ceci implique lim sup sup |Fn (x) F (x)| 1/k
n xR i=1,...,k1
max
|Fn (xi ) F (xi )| + 1/k,
x R.
(p.s.).
On conclut en faisant k tendre vers linni. Notons que la f.d.r. empirique Fn ne convient pas pour analyser visuellement le comportement dune loi de probabilit. Par exemple, il nest pas facile de comparer, en regardant e le graphique de Fn , les zones de plus forte ou de moins forte concentration des points de lchantillon. Il est plus pratique dutiliser des analogues empiriques de la densit de probae e bilit que nous allons dcrire maintenant. e e 4.2.2. Densits empiriques . Soit X une variable continue, cest-`-dire que F , la f.d.r. e a de X, admet une densit de probabilit f par rapport ` la mesure de Lebesgue. A partir dun e e a chantillon X1 , ..., Xn , on cherche ` construire une courbe fn (x) qui donnerait une bonne e a approximation de f (x). Une telle courbe est appele densit empirique ou estimateur de e e densit. Il existe plusieurs mthodes de construction de densits empiriques dont nous allons e e e dcrire ici quelques unes de plus lmentaires. e ee Histogramme et polygone des frquences. Soit A un intervalle qui contient toutes les e donnes X1 , ..., Xn et soit A1 , . . . , Am une partition de A en m sous-intervalles de longueur h e
4.2. REPRESENTATION GRAPHIQUE DE LECHANTILLON
79
chacun. Soit Nj = n I(Xi Aj ) le nombre des points Xi dans lintervalle Aj . Lhistoi=1 gramme est une fonction constante par morceaux dnie par e
H fn (x) =
Nj , nh
si x Aj , j = 1, . . . , m.
Pour tout chantillon X1 , ..., Xn x, fn est une densit de probabilit, car e e H e e

H fn 0, H fn = h j
Nj = 1. nh
Lhistogramme est une fonction discontinue, non-rguli`re. Pour obtenir un estimateur plus e e lisse de la densit f on utilise une approximation linaire : on construit un graphique linaire e e e par morceaux qui passe par les centres des plateaux de lhistogramme. Ce graphique porte le nom de polygone des frquences. e Estimateurs ` fentre mobile et ` noyau. La densit f tant la drive de la fonction a e a e e e e de rpartition F , on peut crire lapproximation e e F (x + h/2) F (x h/2) , h si h est assez petit. Puisque la f.d.r. F est inconnue, remplaons-la dans cette formule par la c fonction de rpartition empirique Fn qui est ralisable ` partir de lchantillon et proche de e e a e F pour n assez grand (vu le Thor`me de Glivenko Cantelli). Ceci fournit lapproximation e e de f (x) de la forme : f (x) = F (x) fn (x) = Fn (x + h/2) Fn (x h/2) h (4.4)
que lon appelle estimateur ` fentre mobile. Ce nom est motiv par le fait que fn fait a e e le comptage du nombre des points de lchantillon Xi qui tombent dans la fentre Ux = e e [x h/2, x + h/2[ autour du point x : Fn (x + h/2) Fn (x h/2) 1 = h nh
n i=1
1 I(Xi Ux ) = nh
K0
i=1
x Xi h
(4.5)
o` K0 (u) = I(1/2 < u 1/2). Comme lhistogramme, lestimateur ` fentre mobile est u a e une densit de probabilit pour X1 , ..., Xn xs. Notons aussi que x fn (x) est une fonction e e e constante par morceaux (pourquoi ?). Une version plus rguli`re de lestimateur ` fentre mobile est lestimateur ` noyau. Il est e e a e a obtenu quand on prend dans (4.5) au lieu de la fonction K0 indicatrice une fonction K assez rguli`re que lon appelle noyau. La dnition de lestimateur ` noyau est donne par e e e a e
N fn (x) =
1 nh
K
i=1
x Xi h
o` K est une densit de probabilit symtrique sur R. On utilise souvent le noyau gaussien u e e e 1/2 exp(u2 /2). Lestimateur ` noyau f N (x) est donc la moyenne arithmtique e K(u) = (2) a n de n fonctions-cloches 1 Xi K . h h
80
Chaque cloche est une densit de probabilit centre en Xi et dchelle h. Pour X1 , ..., Xn e e e e N e e xs, la fonction x fn (x) est une densit de probabilit, car e
N fn 0, N fn =
K = 1.
4.3. Caractristiques de lchantillon. Mthode de substitution e e e Dans les Exemples 4.1, 4.2, lestimation de la loi de probabilit inconnue se rduit ` lestie e a (Exemple 4.1) ou p , ..., p mation des param`tres e 1 20 (Exemple 4.2). Comment les estimer ? Nous disposons seulement dun chantillon, et la seule libert que nous pouvons nous pere e mettre pour estimer ces param`tres est de composer des fonctions appropries des observations e e X1 , ..., Xn . Nous arrivons donc ` la notion fondamentale suivante. a Dnition 4.1. On appelle statistique toute fonction borlienne des observations S = e e S(X1 , ..., Xn ) ` valeurs dans un espace Rl . a Une statistique S est donc une variable alatoire ou un vecteur alatoire qui ne dpend e e e que de lchantillon. e Une statistique est aussi appele estimateur si elle est utilise pour estimer des pae e ram`tres (ou dautres caractristiques) dune loi de probabilit. e e e La Dnition 4.1 est tr`s gnrale : par exemple, lchantillon (X1 , . . . , Xn ) est une statise e e e e tique, la fonction S(X1 , ..., Xn ) 0 lest aussi, mais ces deux statistiques sont sans intrt, car ee elles ne nous approchent pas de la connaissance de caractristiques de la loi F sous-jacente. e Comment trouver des statistiques qui donnent une approximation convenable des param`tres dune loi de probabilit ? On peut considrer la dmarche suivante. Souvent les e e e e param`tres dune loi F inconnue peuvent tre prsents comme fonctionnelles de cette e e e e loi : = T (F ). (4.6) En particulier, dans lExemple 4.1, o` lon suppose que la loi F est exponentielle de densit u e f (x) = ( )1 ex/ I{x 0}, il est facile de voir que =
0
xf (x)dx =
0
xdF (x).
Donc, dans ce cas particulier, (4.6) est vri avec la fonctionnelle e e T (F ) =

0
xdF (x).
(4.7)
Puisque la f.d.r. F peut tre approche par la fonction de rpartition empirique Fn , on peut e e e prendre comme estimateur de T (F ) la statistique S(X1 , . . . , Xn ) = T (Fn ). Dans notre exemple, la fonctionnelle T () est dnie par (4.7), donc e
T (Fn ) =
1 xdFn (x) = n
Xi = X.
i=1
4.3. CARACTERISTIQUES DE LECHANTILLON. METHODE DE SUBSTITUTION
81
(En eet, si lon xe X1 , ..., Xn , la f.d.r. empirique Fn est une fonction de rpartition dune e v.a. discr`te qui prend les valeurs Xi , i = 1, . . . , n, avec les probabilits 1/n.) Lestimateur e e ainsi obtenu est donc la moyenne arithmtique des Xi . e Lide de construction de lestimateur dans cet exemple peut tre appele mthode de e e e e substitution. On substitue Fn ` F . Plus gnralement, on peut lexprimer comme suit : a e e Mthode de substitution. Soit T (F ) une fonctionnelle de fonction de rpartition e e F inconnue. On prend comme estimateur de T (F ) la statistique T (Fn ) (la mme e fonctionnelle de la fonction de rpartition empirique Fn ). e Sous des hypoth`ses assez gnrales, e e e T (Fn ) T (F ) (p.s.) quand n , (4.8) ce qui justie lapplication de la mthode de substitution. Dans la suite, nous allons montrer e (4.8) pour quelques exemples. Pour viter toute confusion, la vraie fonction de rpartition F sera appele fonction de e e e e e rpartition thorique et ses caractristiques (fonctionnelles) seront appeles caractristie e e ques thoriques. Les fonctionnelles respectives de Fn seront appeles caractristiques e e e empiriques. Considrons quelques exemples de statistiques obtenues par la mthode de substitution. e e 4.3.1. Statistiques X et s2 . La moyenne empirique est la statistique 1 X= n
n
Xi .
i=1
Comme on la dj` vu, cest un estimateur par la mthode de substitution de la fonctionnelle ea e T (F ) = E(X) =
xdF (x),
i.e. de la moyenne thorique. e La variance empirique s2 est dnie par e 1 s = n

2 n i=1
1 (Xi X)2 = n
Xi2 X 2 .
i=1
Evidemment, s2 est la variance de la f.d.r. empirique Fn : s2 =

2
xdFn (x)
dFn (x) =
x2 dFn (x)
xdFn (x)
= T (Fn )
o` la fonctionnelle T est dnie par u e T (F ) = x2 dF (x)

2
xdF (x)
= Var(X).
La caractristique thorique correspondante ` s2 est la variance thorique 2 = Var(X). On e e a e appelle s, la racine carre positive de la variance, cart-type empirique. e e
82
4.3.2. Estimateurs bass sur les statistiques dordre. Rangeons les observations e X1 , ..., Xn par ordre croissant : X(1) ... X(j) ... X(n) , La variable alatoire X(j) (le j-`me plus petit lment de lchantillon) sappelle la j-`me e e ee e e statistique dordre. Le vecteur alatoire (X(1) , . . . , X(n) ) sappelle la statistique dordre e associe ` lchantillon X1 , ..., Xn . e a e Le quantile qp dordre p ]0, 1[ de la loi F est la fonctionnelle suivante (cf. Chapitre 1) : 1 (inf{q : F (q) > p} + sup{q : F (q) < p}) . 2 Dapr`s la mthode de substitution, la caractristique empirique respective est donne par e e e e 1 Qn,p = T (Fn ) = inf{q : Fn (q) > p} + sup{q : Fn (q) < p} . 2 On appelle Qn,p quantile empirique dordre p. qp = T (F ) = Notons que la fonction Fn reprsente un cas dicile pour la dnition des quantiles : son e e graphique est compos de sauts et de plateaux, donc la solution q de lquation e e Fn (q) = p nest pas unique ou nexiste pas. Par contre, si Fn est considre comme une multi-application, ee les quantiles empiriques vrient e Fn (Qn,p ) = p. Il est possible dexpliciter Qn,p ` partir des statistiques dordre : a Qn,p = X(k) si p ](k 1)/n, k/n[, (X(k) + X(k+1) )/2 si p = k/n, k = 1, . . . , n. (4.9)
Exercice 4.1. Dmontrer (4.9). e La mdiane empirique (ou mdiane de lchantillon) note Mn est dnie comme le e e e e e quantile empirique dordre 1/2. En utilisant (4.9) on obtient alors : Mn = X( n+1 ) pour n impair, 2 (X(n/2) + X(n/2+1) )/2 pour n pair.
Autrement dit, la mdiane est une solution de lquation e e 1 Fn (Mn ) = , 2
(4.10)
o` Fn est considre comme une multi-application. Si la solution de (4.10) est unique, elle u ee est prise pour mdiane. Dans le cas contraire, sil y a un intervalle de solutions, la mdiane e e est dnie comme le centre de lintervalle. La caractristique thorique correspondante est la e e e mdiane de la loi F . On dnit la fonctionnelle M = T (F ) comme solution de e e F (M ) = 1 2
si une telle M existe. Alors Mn = T (Fn ) pour ce choix de T .
4.4. STATISTIQUES EXHAUSTIVES
83
Remarque. Si la loi F est symtrique et E(|X|) < , la mdiane thorique est gale ` la e e e e a moyenne thorique (Exercice 1.1). Mais cela nimplique pas lgalit de la mdiane et de la e e e e moyenne empiriques. Intervalle interquartile empirique. Cest une mesure de dispersion des donnes base e e sur les statistiques dordre et dnie par e In = Qn,3/4 Qn,1/4 o` Qn,1/4 et Qn,3/4 sont les quartiles empiriques. Par exemple, pour la taille dchantillon n = u e 5, In = X(4) X(2) . La caractristique thorique correspondante est lintervalle interquartile e e I = q3/4 q1/4 . Remarque. Les statistiques X et Mn sont des caractristiques de la tendance centrale, elles e dnissent une valeur autour de laquelle se groupent les observations. Par contre, lcarte e type s et lintervalle interquartile In sont des caractristiques empiriques de la dispersion des e donnes. e Souvent on utilise le rsum graphique dun chantillon bas sur les statistiques dordre et e e e e appel boxplot. Il permet de reprer le centre des donnes (reprsent par la mdiane Mn ), e e e e e e la dispersion (intervalle interquartile In ), la symtrie ou dissymtrie de la loi des donnes e e e (localisation de la mdiane par rapport aux quartiles), la prsence des observations aberrantes. e e
q q q
Qn,1/4
Mn
Qn,3/4
Figure 4.1. Le boxplot.
Les param`tres dnissant le boxplot sont les statistiques Mn , Qn,1/4 , Qn,3/4 et e e 3 3 X = min{Xi : |Xi Qn,1/4 | In }, X = max{Xi : |Xi Qn,3/4 | In }. 2 2 Les observations aberrantes Xi < X et Xi > X sont reprsentes par les points isols aux e e e extrmits du graphique. e e 4.4. Statistiques exhaustives Le notion dexhaustivit est introduite pour caractriser les statistiques e e S = S(X1 , . . . , Xn ) qui rsument toute linformation sur F contenue dans lchantillon X1 , . . . , Xn . Il est clair e e quune statistique (la moins conomique) qui contient toute cette information est lchantillon e e (X1 , . . . , Xn ). Pourtant, peut-on trouver une statistique S beaucoup plus simple (par exemple, comme X, s2 , Mn ou dautres dnies ci-dessus), telle quil suse de conna uniquement e tre S, et quon puisse oublier lchantillon initial sans aucun regret ? Gnralement, la rponse ` e e e e a cette question est ngative, mais il y a des cas remarquables o` une telle statistique S existe. e u Tout dpend des hypoth`ses sur la f.d.r. F des Xi . On peut structurer ces hypoth`ses sous la e e e
84
forme : F F o` F est une famille connue de fonctions de rpartition (comme les familles F u e dans les Exemples 4.1 et 4.2). Dnition 4.2. Une statistique S(X1 , . . . , Xn ) est dite exhaustive pour la famille F si e la loi conditionnelle de (X1 , . . . , Xn ) sachant que S = s ne dpend pas de F quand F F. e Interprtation : la Dnition 4.2 dit que si lon xe la valeur de la statistique exhaustive S, e e on ne peut extraire aucune information supplmentaire sur F de lchantillon (X1 , . . . , Xn ). e e Autrement dit, toute linformation sur F est contenue dans S. Notons quelques consquences de la Dnition 4.2 : e e (1) Le concept dexhaustivit dpend de la famille F. Si S est exhaustive pour F, alors e e S est exhaustive pour toute sous-famille F F . (2) Non-unicit : si S est une statistique exhaustive pour F et lapplication s g(s) est e une bijection, alors S = g(S) est aussi une statistique exhaustive pour F. Dans ce cas on dit que S est quivalente ` S. e a (3) Lchantillon S(X1 , . . . , Xn ) = (X1 , . . . , Xn ) est une statistique exhaustive pour e toute famille F(dite statistique exhaustive triviale). Toute statistique quivalente ` e a (X1 , . . . , Xn ) est appele triviale aussi. e La statistique exhaustive minimale pour F est dnie comme une statistique S e telle que toute statistique exhaustive pour F est fonction de S. Evidemment, la statistique exhaustive minimale nest pas unique non plus. Vrions que pour les familles F relatives aux Exemples 4.1 et 4.2 il existe des statistiques e exhaustives non-triviales. Statistique exhaustive pour lExemple 4.1. Ici la famille F = {F , > 0} o` F est u la f.d.r. dont la densit est exponentielle de la forme (4.1). Si Xi F , la densit jointe de e e x = (X1 , . . . , Xn ) est
n
fx (x1 , . . . , xn ) = n exp(
i=1
xi /)I{x1 > 0, . . . , xn > 0} = (S(x))h(x)
o` (u) = u S(x) = n xi et h(x) = I{x1 > 0, . . . , xn > 0}, x = (x1 , ..., xn ). i=1 Nous allons montrer que la statistique S = S(x) = n Xi est exhaustive pour cette famille i=1 de lois. Considrons lapplication linaire x y (avec le Jacobien 1) o` le vecteur alatoire e e u e y = (Y1 , . . . , Yn ) est dni par e n exp(u/),
n
Y1 =
i=1
Xi = S, Y2 = X2 , . . . , Yn = Xn .
Utilisant le Corollaire 3.1 on trouve la densit de y : e fy (y1 , . . . , yn ) = n exp(y1 /)I{y1 > y2 + . . . + yn , y2 > 0, . . . , yn > 0} do` on obtient la densit marginale de Y1 = S : u e fY1 (y1 ) =
n fy (y1 , . . . , yn )dy2 . . . dyn = c(n)n y1 exp(y1 /)I{y1 > 0}
4.4. STATISTIQUES EXHAUSTIVES
85
(ici c(n) > 0 est une constante absolue). On en dduit que la densit conditionnelle e e fy|Y1 =s (y2 , . . . , yn ) ne dpend pas de : e fy|Y1 =s (y2 , . . . , yn ) = fy (s, y2 , . . . , yn ) 1 = I{s > y2 + . . . + yn , y2 > 0, . . . , yn > 0}. fY1 (s) c(n)sn
Alors, la probabilit P (y B|Y1 = s) nest fonction que de s pour tout B borlien. Or, e e lapplication x y est borlienne, donc aussi la probabilit P (x A|Y1 = s) nest fonction e e que de s pour tout A borlien : elle ne dpend pas de (et donc de F quand F F = e e {F , > 0}). Il sensuit que la statistique S = Y1 est exhaustive pour F. Statistique exhaustive pour lExemple 4.2. Ici la famille F est lensemble de toutes les lois D({1, . . . , N }, ) avec les param`tres = (p1 , . . . , pN ), o` N = 20. e u Pour tout vecteur x = (x1 , . . . , xn ) avec les xi appartenant ` lensemble {1, . . . , 20}, a dnissons S(x) = (n1 (x), . . . , nN 1 (x)), o` e u
n
nj (x) =
i=1
I{xi = j}.
Soit x = (X1 , . . . , Xn ). Vrions que la statistique S = S(x) est exhaustive. Vu (4.2), la loi e de x est donne par e n N 1 pj P (x = (x1 , . . . , xn )) = exp I{xi = j} ln + ln pN pN i=1 j=1 N 1 pj df e = exp nj (x) ln + n ln pN = (S(x)) pN
j=1
o` xi {1, . . . , 20}. On xe maintenant le vecteur s = (s1 , . . . , sN 1 ) appartenant ` lensemble u a des valeurs possibles de S(x). Alors P (x = (x1 , . . . , xn ), S(x) = s) = Par consquent, e P (x = (x1 , . . . , xn )|S(x) = s) = 1/M (s) si nj (x) = sj , j = 1, . . . , N 1, 0 sinon, (s) si nj (x) = sj , j = 1, . . . , N 1, 0 sinon.
o` M (s) est le nombre de tous les vecteurs (x1 , . . . , xn ) avec xi {1, . . . , 20} tels que nj (x) = u sj , j = 1, . . . , N 1. Evidemment, M (s) ne dpend pas de = (p1 , . . . , pN ) (et donc de e F F), ce qui implique lexhaustivit de la statistique S. En utilisant la notation de lExemple e 4.2, on peut crire S = (n1 , . . . , nN 1 ), o` nj = n I{Xi = j}. Lexhaustivit de S explique e u e i=1 pourquoi dans lExemple 4.2 il susait de considrer les donnes rduites (n1 , . . . , n20 ) au lieu e e e des donnes initiales (X1 , . . . , Xn ). e Les deux exemples ci-dessus sont des cas particuliers du rsultat gnral de Thorie de la e e e e mesure connu sous le nom de Thor`me de factorisation. e e Thor`me 4.2. (Thor`me de factorisation.) Soit P une famille de mesures de probae e e e bilit dnies sur (Rn , B(Rn )) telles que toute mesure P P est absolument continue par e e
86
rapport ` une mesure -nie 0 sur (Rn , B(Rn )). Soit S : (Rn , B(Rn )) (Rm , B(Rm )) une a fonction borlienne et soit x un vecteur alatoire de loi P . e e Alors, la loi conditionnelle de x sachant que S(x) = s ne dpend pas de P pour tout e P P si et seulement si il existe deux fonctions borliennes positives h() (indpendante de e e P ) et P () (dpendante de P ) telles que e dP (x) = P (S(x))h(x), (0 p.s.) d0 P P.
Dans les deux exemples ci-dessus, P est la mesureproduit qui correspond ` lchantillon a e X1 , . . . , Xn , P est un ensemble de mesuresproduits paramtres par . La mesure dominante e e 0 est la mesure de Lebesgue dans lExemple 4.1 et la mesure de comptage dans lExemple 4.2. Corollaire 4.1. Soit lHypoth`se (E0) vrie et soit F F, o` F est une famille de fonce e e u tions de rpartition sur R absolument continues par rapport ` une mesure -nie 0 sur R. e a Soit f une densit de F par rapport ` 0 . e a Alors la statistique S(X1 , . . . , Xn ) est exhaustive pour F si et seulement si il existe deux fonctions borliennes positives h() (indpendante de F ) et F () (dpendante de F ) telles e e e que
n
f (xi ) = F (S(x))h(x), (0 p.s.)

i=1
F F,
(4.11)
o` x = (x1 , . . . , xn ). u Remarque. Si F est une famille paramtre par Rk : F = {F : } et si e e f (, ) est la densit qui correspond ` F , la condition de factorisation (4.11) se traduit par e a
n
f (xi , ) = (S(x))h(x), (0 p.s.) .

i=1
Exercice 4.2. Montrer que le couple ( n Xi , n Xi2 ) est une statistique exhaustive pour i=1 i=1 la famille des lois normales {N (, 2 ), R, > 0} (par consquent, le couple (X, s2 ) est e aussi une statistique exhaustive pour cette famille). Exemple 4.3. Soit F la famille de tous les lois admettant une densit f par rapport ` la e a mesure de Lebesgue. Alors
n n
f (xi ) =
i=1 i=1
f (x(i) )
o` x(1) . . . x(n) sont les valeurs (x1 , . . . , xn ) ranges par ordre croissant. Vu le Corollaire u e 4.1, on en dduit que la statistique dordre (X(1) , . . . , X(n) ) est exhaustive pour F (et donc e pour toute sous-famille de F). Exemple 4.4. Soit F lensemble de tous les lois admettant une densit symtrique f par e e rapport ` la mesure de Lebesgue. Alors f (t) = f (|t|), et le Corollaire 4.1 permet de dduire que a e (|X1 |, . . . , |Xn |) est une statistique exhaustive. De plus, vu lExemple 4.3, (|X|(1) , . . . , |X|(n) )
4.5. PROPRIETES DES STATISTIQUES X ET S 2
87
est aussi exhaustive. Ici |X|(1) . . . |X|(n) sont les valeurs |X1 |, . . . , |Xn | ranges par ordre e croissant. Dans les Exemples 4.3 et 4.4, les statistiques exhaustives ne sont pas tr`s direntes da la e e statistique exhaustive triviale. Lexistence des statistiques exhaustives non-triviales pour une famille F nest pas toujours garantie. Exemple 4.5. Soit F lensemble des lois de Cauchy sur R avec les densits e f (t, ) = 1 , (1 + (t )2 ) R.
Alors, la factorisation de type (4.11) de la densit-produit n f (xi , ) avec une statistique e i=1 S ` valeurs dans un espace de dimension < n nest pas possible. On peut montrer que la a statistique exhaustive minimale dans cet exemple est la statistique dordre (X(1) , . . . , X(n) ). Le concept dexhaustivit est donc sans intrt pour cette famille des lois. e ee Remarque. Bien que la notion dexhaustivit soit cl`bre dans la littrature statistique, son e ee e rle rel est modeste pour les raisons suivantes : o e on peut expliciter des statistiques exhaustives non-triviales seulement dans des cas exceptionnels, pour quelques familles F remarquables, dans la pratique, la famille F nest pas donne. Le statisticien peut se tromper du e choix de F de faon quen vrit la loi sous-jacente F peut appartenir ` une famille F1 c e e a inconnue et dirente de F. Une statistique exhaustive pour F nest pas, en gnral, e e e exhaustive pour F1 . Le principe : oublier lchantillon initial et ne garder que la stae tistique exhaustive nest pas bien fond dans ce contexte. e 4.5. Proprits des statistiques X et s2 e e Proposition 4.1. Pour tout c rel, e 1 n
n i=1
1 (Xi c)2 = (X c)2 + n
(Xi X)2 = (X c)2 + s2 .

i=1
Preuve. On utilise la Proposition 1.1 pour la variable alatoire de loi discr`te uniforme sur e e {X1 , . . . , Xn }. Proposition 4.2. Si E(X 2 ) < , E(X) = , alors E(X) = , Var(X) = Var(X) 2 = , n n E(s2 ) = n1 2 . n
Preuve. On utilise la Proposition 1.7 et on note que, dapr`s la Proposition 4.1 (avec c = ), e E(s2 ) = 1 n
n
E((Xi )2 ) E((X )2 ) = Var(X) Var(X).

i=1
88
La proposition suivante est une consquence immdiate de la loi forte des grands nombres. e e 2 ) < , alors X (p.s.) et s2 2 (p.s.) quand n . Proposition 4.3. Si E(X Si les Xi sont des v.a. normales, on peut expliciter la loi jointe des statistiques X et s2 pour tout n : Proposition 4.4. Soient X1 , ..., Xn des variables alatoires i.i.d. de loi normale, Xi e 2 ). Alors, N (, (i) X s2 . (ii) X N (, 2 /n). 2 (iii) ns2 2 . n1 Preuve. Introduisons le vecteur alatoire normal e = (X1 , ..., Xn )T , Nn (m, 2 I), avec m = (, ..., )T . Soit = ( E())/ Introduisons aussi la matrice n n suivante : 1 1. A= . n . 1 = ( m)/. Evidemment, Nn (0, I). ... .. . ... 1 . . . . 1
Cette matrice est symtrique et idempotente : e 1 ... 1 n ... n 1 1 . . . . A2 = 2 . . . . . = . . . . . = A, . . . n n . 1 ... 1 n ... n donc un projecteur. Posons n(X ) X 1 1 1 . . . 1 = A = A( m) = = . . . n n(X ) X X1 X . = 1 . . . . . . Xn X
et
X1 X 1 1 1 . . 2 = (I A) = (I A)( m) = . Xn X
Notons que Rang(A) = 1 et Rang(I A) = n 1. Les matrices A1 = A et A2 = I A vrient les hypoth`ses du Thor`me de Cochran. Il sensuit que 1 et 2 sont indpendants e e e e e et 2 2 2 . Or, n1 n ns2 1 (Xi X)2 = 2 , 2 2 = 2
i=1
do` dcoule la partie (iii) de la proposition. Puisque 1 2 et vu le fait que les transforu e mations mesurables prservent lindpendance, on obtient e e ns2 X 2 et X s2 , ce qui dmontre la partie (i) de la proposition. La partie (ii) est vidente. e e
4.6. COVARIANCE ET CORRELATION EMPIRIQUES
89
Corollaire 4.2. Si X1 , ..., Xn sont des variables alatoires i.i.d N (, 2 ), alors la variable e alatoire e t = n 1(X )/s suit la loi de Student tn1 ` n 1 degrs de libert. a e e Preuve. Vu la Proposition 4.4 (ii), n(X )/ N (0, 1), alors X n(X ) (n 1) 2 = = , n1 s ns2 /(n 1) o` N (0, 1) et = ns2 / 2 2 . De plus, les v.a. et sont indpendantes dapr`s la u e e n1 Proposition 4.4 (i).
4.6. Covariance et corrlation empiriques e Considrons maintenant un couple de variables alatoires (X, Y ) et lchantillon de couples e e e (X1 , Y1 ), . . . , (Xn , Yn ), o` chaque (Xi , Yi ) suit la mme loi que (X, Y ). Introduisons les cau e ractristiques empiriques correspondant ` la covariance Cov(X, Y ) et ` la corrlation e a a e Corr(X, Y ) = XY . La covariance empirique entre X et Y est dnie par : e sXY = 1 n
n
(Xi X)(Yi Y ) =
i=1
1 n
Xi Yi X Y .
i=1
Le coecient de corrlation empirique (ou la corrlation empirique) entre X et e e Y est dni par : e sXY rXY = , sX sY o` sX = n1 n Xi2 X 2 est lcart-type de lchantillon (X1 , ..., Xn ), sY est lcart-type u e e e i=1 de lchantillon (Y1 , ..., Yn ) et lon suppose que sX > 0, sY > 0. e Proposition 4.5. Soient (X, Y ) deux v.a. telles que E(X 2 ) < , E(Y 2 ) < et soient n couples indpendants de v.a. (X1 , Y1 ), . . . , (Xn , Yn ), tels que chaque (Xi , Yi ) suit la mme loi e e que (X, Y ). Alors les covariances empiriques convergent presque srement vers les covariances u thoriques : e sXY Cov(X, Y ) (p.s.) quand n . Si, de plus, Var(X) > 0 et Var(Y ) > 0, alors les corrlations empiriques convergent presque e srement vers les corrlations thoriques : u e e rXY XY (p.s.) quand n .
Preuve. Elle est immdiate dapr`s la loi forte de grands nombres et le Premier thor`me de e e e e continuit (cf. partie (i) de la Proposition 1.10). e
90
Proprits des corrlations empiriques. e e e 1 . |rXY | 1. 2 . |rXY | = 1 si et seulement si il existe un lien linaire entre (Xi ) et (Yi ), i.e. il existe e a = 0, b R, tels que Yi = aXi + b, i = 1, ..., n. On a linterprtation gomtrique suivante de rXY : rXY est le cosinus de langle entre les e e e vecteurs (X1 X, ..., Xn X)T et (Y1 Y , ..., Yn Y )T . Alors |rXY | = 1 implique que = 0 ou = , i.e. que les deux vecteurs sont colinaires. e 3 . Si rXY = 0, alors = /2 et les deux vecteurs sont orthogonaux. 4 . La corrlation empirique est invariante par rapport aux transformations anes : pour e tout a = 0, b, d R, raX+b,aY +d = rXY . De plus, si c = 0, |raX+b,cY +d | = |rXY |. 5 . La corrlation empirique nest pas stable par rapport aux observations aberrantes, e comme le montre la gure suivante.
15 15
y
10 10
y
10
5 5 5
x
5 5
x
5
10 10 15 15
10
10
10
10
10
15
15 15
10
10
15
Figure 4.2. De gauche ` droite : les nuages des points (Xi , Yi ) avec rXY > 0, avec rXY < 0 et le nuage a perturb par une observation aberrante tel que rXY < 0 au lieu de rXY > 0. e
Remarques. (1) La relation |rXY | = 1 nimplique pas que les variables alatoires thoriques X et e e Y soient lies dun lien linaire. Elle signie seulement que les vecteurs de donnes e e e (Xi ) et (Yi ) sont lis linairement. Il ne sagit donc quune approximation, obtenue e e ` partir de donnes, de la situation thorique sous-jacente. a e e (2) Cest rare, voire impossible, davoir |rXY | = 1 ou rXY = 0 pour les donnes relles. e e Dans la pratique, il sagit plutt dgalits approximatives |rXY | 1 ou rXY 0. o e e 4.7. Construction dun chantillon pseudo-alatoire par simulation e e Dans les applications, on a souvent besoin de gnrer de faon articielle (` laide dun ordie e c a nateur) une suite X1 , ..., Xn de nombres alatoires i.i.d. suivant la loi donne F . Les mthodes e e e
4.7. CONSTRUCTION DUN ECHANTILLON PSEUDO-ALEATOIRE PAR SIMULATION
91
de simulation permettent dobtenir seulement une valeur pseudo-alatoire Xi , au lieu dune e valeur alatoire. Cela signie que les nombres X1 , ..., Xn simuls sont dterministes ils sont e e e obtenus par un algorithme dterministe mais les proprits de la suite X1 , ..., Xn sont proches e ee de celles dune suite alatoire i.i.d. de loi donne. Par exemple, pour les Xi pseudo-alatoires e e e on a la proprit de Glivenko-Cantelli : ee sup |Fn (x) F (x)| 0 quand n ,
x
mais il sagit ici de la convergence au sens dterministe. e 4.7.1. Simulation des variables uniformment distribues. La f.d.r. F U () de la e e loi uniforme U [0, 1] scrit sous la forme e 0, x < 0, F U (x) = x, x [0, 1], 1, x > 1. Le programme-gnrateur dun chantillon pseudo-alatoire U1 , . . . , Un de cette loi est dispoe e e e nible dans les nombreux logiciels. Le principe de son fonctionnement est le suivant. On se donne un rel a > 1 et un entier m (dhabitude a et m sont de tr`s grands nombres). On e e commence par une valeur z0 xe. Pour tout 1 i n on dnit e zi = le reste de division de azi1 par m azi1 = azi1 m, m o` [] dsigne la partie enti`re. Nous avons toujours 0 zi < m. On dnit u e e e azi1 azi1 zi = Ui = . m m m Alors, 0 Ui < 1. La suite U1 , ..., Un est considre comme un chantillon de la loi uniforme ee e U [0, 1]. Bien que ce nest pas une suite alatoire, on peut montrer que la f.d.r. empirique e
U Fn (x)
1 = n
I{Ui x}
i=1
U U est telle que supx |Fn F U (x)| = sup0x1 |Fn x| (n, m) avec (n, m) qui converge tr`s e vite vers 0 quand m et n . Autrement dit, on a la proprit de Glivenko Cantelli ee au sens dterministe. Divers rsultats mathmatiques permettent de justier de bons choix de e e e z0 , a et m. Les valeurs suivantes sont souvent utilises et donnent, en gnral, satisfaction : e e e 5 ), m = 2147483647(= 231 1). a = 16807(= 7
4.7.2. Simulation des variables dune loi gnrale. Etant donn un chantillon i.i.d. e e e e U1 , ..., Un dune loi uniforme, on peut obtenir un chantillon dune loi gnrale F () par la e e e mthode dinversion. Elle est oprationnelle si F 1 est disponible sous la forme explicite. e e Cette mthode est base sur la proposition suivante. e e Proposition 4.6. Soit F une f.d.r. continue et strictement croissante et soit U une variable alatoire uniformment distribue sur [0, 1]. Alors la v.a. e e e X = F 1 (U ) suit la loi F .
92
Preuve. On note que F (x) = P (U F (x)) = P (F 1 (U ) x) = P (X x).
Il en dcoule lalgorithme de simulation suivant : si F est continue et strictement croissante, e posons Xi = F 1 (Ui ), o` les Ui sont des nombres pseudo-alatoires uniformment distribus sur [0, 1] gnrs comme u e e e e ee expliqu prcdemment. On obtient ainsi un chantillon simul (X1 , ..., Xn ). e e e e e Si F nest pas continue ou strictement croissante, il faut modier la dnition de F 1 . e On pose F 1 (y) = sup{t : F (t) < y}, Alors, P (Xi x) = P (sup{t : F (t) < Ui } x) = P (Ui F (x)) = F (x). Exemple 4.6. Simulation dun chantillon de loi exponentielle E(1). On a : e f (x) = ex I{x > 0}, F (x) = (1 ex )I{x > 0}. Alors, F 1 (y) = ln(1 y) pour y (0, 1). Posons Xi = ln(1 Ui ), o` les Ui sont des u nombres pseudo-alatoires uniformment distribus sur [0, 1]. e e e Exemple 4.7. Simulation dun chantillon de loi de Bernoulli. Soit e P (X = 1) = p, P (X = 0) = 1 p, 0 < p < 1. On utilise la mthode modie : e e F 1 (y) = sup{t : F (t) < y} = 0, y [0, 1 p], 1, y ]1 p, 1].
df e
y [0, 1].
Si Ui est une v.a. de loi uniforme, alors Xi = F 1 (Ui ) suit la loi de Bernoulli. On pose alors Xi = 0, Ui [0, 1 p], 1, Ui ]1 p, 1].
4.7.3. Simulation des variables transformes. Pour simuler un chantillon Y1 , ..., Yn e e de loi F (( )/), o` > 0 et R, tant donn lchantillon X1 , ..., Xn de loi F (), il u e e e sut de prendre Yi = Xi + , i = 1, ..., n. 4.7.4. Simulation de la loi normale standard. La f.d.r. F de loi normale N (0, 1) est continue et strictement croissante, mais F 1 nest pas disponible sous la forme explicite. Alors, il est dicile dappliquer la mthode dinversion. Il existe nanmoins dautres mthodes e e e de simulation tr`s performantes du point de vue du cot de calcul. e u Utilisation du Thor`me central limite. Pour U U [0, 1] nous avons E(U ) = 1/2 e e et Var(U ) = 1/12. Vu le Thor`me central limite, e e U1 + + UN N/2 N/12 N (0, 1) quand N ,
D
4.8. EXERCICES
93
ea pour un chantillon i.i.d. U1 , . . . , UN de loi uniforme sur [0, 1]. La valeur N = 12 est dj` e susante pour obtenir ainsi une bonne approximation de la loi normale. On en dduit la e mthode de simulation suivante : on gn`re U1 , U2 , . . . , UnN , une suite de variables pseudoe e e alatoires de loi U [0, 1] et on pose ensuite e Xi = U(i1)N +1 + + UiN N/2 N/12 , i = 1, ..., n.
On obtient ainsi un chantillon simul (X1 , . . . , Xn ) de la loi N (0, 1). e e Mthode de Box et M ller. Elle dcoule du rsultat suivant (Exercice 3.9). e u e e Proposition 4.7. Soient et deux variables alatoires indpendantes de loi U [0, 1]. Alors e e les v.a. X = 2 ln cos(2) et Y = 2 ln sin(2) sont normales et indpendantes avec E(X) = E(Y ) = 0, Var(X) = Var(Y ) = 1. e Ce rsultat nous donne la mthode de simulation de (X1 , ..., Xn ) suivante : on gn`re des e e e e variables pseudo-alatoires U1 , . . . , U2n de loi U [0, 1] et on pose ensuite e X2i1 = X2i = pour i = 1, . . . , n. 4.8. Exercices Exercice 4.3. Soit X1 , . . . , Xn un chantillon i.i.d., Xi F . On consid`re la valeur de la e e fonction de rpartition empirique Fn (t) au point x t. e e 1o . Quelle est la loi de nFn (t) ? 2o . Calculer E [Fn (t) F (t)]2 et en dduire que Fn (t) converge en moyenne quadratique e vers F (t) lorsque n . 3o . Chercher la loi limite de n(Fn (t) F (t)) lorsque n . Exercice 4.4. Soient X1 , . . . , Xn des variables alatoires indpendantes et de mme loi exe e e ponentielle, ayant comme densit f (x) = exp(x)I(x > 0). e 1o . Donner la loi de X. Calculer E(1/X) et Var(1/X). Montrer que E(1/X) tend vers quand n tend vers linni. Etablir la relation 2 E (1/X )2 = Var(1/X) + E(1/X) , puis en dduire que E (1/X )2 0 quand n tend vers linni. e 1 2o . Montrer que 1/X tend en probabilit vers . Donner la loi limite de n(X ), puis celle e de n(1/X ). La variance de cette loi estelle gale ` limn nVar(1/X) ? e a 2 ln U2i sin(2U2i1 ), 2 ln U2i cos(2U2i1 ),
94
Exercice 4.5. Soit X1 , ..., Xn un chantillon i.i.d. de loi N (0, 2 ). Considrons lestimateur e e de de la forme : n = 1 n
n
Xi2 .
i=1
Utilisez les thor`mes de continuit (Propositions 1.10 et 1.11) pour montrer la convergence e e e n (p.s.) et tablir la loi limite de n(n ). e Exercice 4.6. Soient X1 , . . . , Xn des variables alatoires i.i.d. de fonction de rpartition F . e e On suppose que F admet une densit f par rapport ` la mesure de Lebesgue. On consid`re e a e la statistique dordre (X(1) , . . . , X(n) ). 1o . Dterminer la densit fk (x) de X(k) . Calculer la fonction de rpartition, note Gk (x), de e e e e X(k) . 2o . Donner la loi du couple (X(1) , X(n) ) et la loi de la statistique W = X(n) X(1) (on appelle W tendue). Les variables X(1) et X(n) sontelles indpendantes ? e e 3o . Soient les variables alatoires : e Yk = F (X(k) ) et Zk = Gk (X(k) ). Quelles lois suiventelles ? Exercice 4.7. Montrer que X(n) est une statistique exhaustive pour la famille des lois uni formes {U [0, ], > 0}. Peut-on en dduire lexhaustivit des statistiques 8X(n) , X(n) + X, e e 2 + 5? X(n) Exercice 4.8. Soient X1 , . . . , Xn des variables alatoires i.i.d. ayant le moment dordre 4 e 2 ), o` s2 est la variance empirique associe ` ni. Le but de cet exercice est de calculer Var(s u e a lchantillon (X1 , . . . , Xn ). On rappelle que n1 i = n(n1) . e i=1 2 1o . Montrer que lon peut supposer sans perte de gnralit que les Xi sont centres : E(Xi ) = e e e e 0. On fera cette hypoth`se dans la suite. e 2o . Dmontrer que : e n n1 2 2 s = Xk Xl . Xi2 2 2 n n
i=1 k<l
3o .
Montrer que
n
Cov(
i=1
Xi2 ,
k<l
Xk Xl ) = 0, Var(
k<l
Xk Xl ) = n(n 1) 4 /2.
En dduire que : e n1 4 2 (n 1)E(X1 ) (n 3)(E(X1 ))2 . n3 4o . Expliciter Var(s2 ) quand X1 N (0, 2 ). Var(s2 ) =
4.8. EXERCICES
95
Exercice 4.9. Soient (Xi , i ), i = 1, . . . , n, des couples de variables de mme loi et indpene e dantes entre elles. On suppose que Xi et i admettent des moments dordre 2 nis et que 2 E(1 ) = 0, E(X1 ) > 0. Pour un rel b, on pose Yi = bXi + i et on note e n = b 1o . En observant que n = b + b
n i=1 Yi Xi n 2 i=1 Xi
dduire que n converge presque srement vers b. On pourra utiliser pour cela la loi forte des e b u grands nombres. 2o . Trouver la loi limite de n(n b) quand n . b Exercice 4.10. Mthode de Monte-Carlo. On cherche ` calculer lintgrale I = e a e Soit X une variable alatoire de loi uniforme U [0, 1], alors e
1 1 0 f (x)dx.
n i=1 i Xi /n , n 2 i=1 Xi /n
E(f (X)) =
0
f (x)dx = I.
Soient X1 , ..., Xn des v.a. i.i.d de loi U [0, 1]. Considrons lestimateur de I de la forme : e 1 In = n
n
f (Xi )
i=1
et supposons que 2 = Var(f (X)) < . Montrer que E(In ) I et In I (p.s.) quand n . Exercice 4.11. Dcrire un algorithme de simulation dune loi de Poisson par inversion. e Indication : il ny a pas dexpression simple pour la fonction de rpartition F , et lensemble e des valeurs possibles de F est dnombrable. On peut calculer les valeurs F (k) au fur et ` e a mesure. En eet, si X suit la loi de Poisson P(), k = P (X = k 1). k! k Il en dcoule que les valeurs F (k) peuvent tre calcules de faon rcursive : e e e c e F (0) = P (0) = e , P (X = k) = P (X = k 1), F (k) = F (k 1) + P (X = k). k Voici les 6 premi`res valeurs de F (k) pour = 1 : e P (X = k) = e k 0 1 2 3 4 5 F (k) 0.3679 0.7358 0.9193 0.9810 0.9963 0.9994 Notons que dans 9994 cas sur 10000, les 6 valeurs prcalcules suront. e e
Estimation des param`tres e

Dans ce chapitre, nous supposerons que la loi de lchantillon alatoire est connue ` un e e a param`tre pr`s. Le probl`me de reconstitution de cette loi se rduit alors ` celui de lestimation e e e e a du param`tre. Nous allons tudier ici deux mthodes classiques de lestimation : la mthode e e e e des moments et celle du maximum de vraisemblance. Tout dabord, nous prciserons le mod`le e e mathmatique et introduirons quelques notions permettant de qualier des estimateurs de e bons ou de mauvais.
5.1. Mod`le statistique. Probl`me destimation des param`tres e e e Comme dans le Chapitre 4, il sagit ici dun chantillon i.i.d. Xn = (X1 , ..., Xn ). Cepene dant, les Xi peuvent tre vectoriels. Lhypoth`se dchantillonnage suivante sera postule tout e e e e au long de ce chapitre. Hypoth`se (E). Soit X un vecteur alatoire ` valeurs dans Rm dni sur lespace de proe e a e babilit (, A, P ), de fonction de rpartition F . Lchantillon Xn = (X1 , . . . , Xn ) est une e e e ralisation de X, cest-`-dire les observations X1 , ..., Xn sont des vecteurs alatoires i.i.d. e a e de la mme loi F que X (Xi F ). e Lautre hypoth`se fondamentale de ce chapitre est que la forme paramtrique de F est e e connue. Hypoth`se (P). La fonction de rpartition F des Xi appartient ` une famille F paramtrique e e a e de fonctions de rpartition : e F = {F , }, o` Rk est un ensemble connu et F (x) est connue comme fonction de x et . u
97 df e
98
` 5. ESTIMATION DES PARAMETRES
On appelle ensemble des param`teres. Sous lHypoth`se (P), F = F , o` est e e u appel la vraie valeur du param`tre. Le seul inconnu dans cette construction est . Pour e e identier F , il sut donc de trouver la vraie valeur du param`tre . e Le probl`me de lestimation statistique consiste ` construire une statise a tique (un estimateur) n = n (X1 , ..., Xn ) qui soit proche de en un sens probabiliste. Le mot estimateur dsignera aussi, pour abrger, une suite destimateurs (n (X1 , ..., Xn ))n1 e e ou bien la r`gle selon laquelle est dnie la statistique n (X1 , ..., Xn ) pour tout n donn. e e e Autrement dit, lorsque nous crirons lestimateur n (X1 , ..., Xn ), nous entendrons par l` e a la suite destimateurs (n (X1 , ..., Xn ))n1 . Cette prcision sera utile ` noter quand il sagira e a des proprits asymptotiques dun estimateur n pour n . ee Pour que soit dni de faon unique, il faut imposer la condition suivante (Hypoth`se e c e didentiabilit) sur la famille F. e Hypoth`se (Id). Pour , , e F () = F () = = . Si lHypoth`se (Id) nest pas vrie, deux valeurs direntes de peuvent donner des e e e e f.d.r. identiques, auquel cas lunicit de la vraie valeur du param`tre est compromise. e e 5.1.1. Mod`le statistique dans le cadre i.i.d. Dans ce chapitre, on supposera que e les Hypoth`ses (E) et (P) nonces ci-dessus sont vries. On adopte la dnition suivante. e e e e e e Dnition 5.1. Soient les Hypoth`ses (E) et (P) vries. Alors, la famille {F , } est e e e e appele mod`le statistique (ou mod`le statistique paramtrique). e e e e On dit quun mod`le statistique est identiable sil vrie lHypoth`se (Id). e e e Exemple 5.1. Mod`le normal ` moyenne inconnue et variance connue {N (, 2 ), R}. e a Soit 2 > 0 une valeur connue, un param`tre inconnu ` estimer. Il sagit du mod`le statise a e tique {F (x), }, o` = R et F () est la loi admettant la densit suivante par rapport u e a ` la mesure de Lebesgue sur R : (x )2 1 exp f (x, ) = . 2 2 2
2 Exemple 5.2. Mod`le normal ` moyenne et variance inconnues {N (1 , 2 ), 1 R, 2 > 0}. e a Il sagit du mod`le statistique avec le param`tre vectoriel inconnu = (1 , 2 ), lensemble des e e param`tres = R]0, [ et la loi F de densit e e
1 (x 1 )2 f (x, ) = exp . 2 22 22
` ` ` 5.1. MODELE STATISTIQUE. PROBLEME DESTIMATION DES PARAMETRES
99
Exemple 5.3. Mod`le de Poisson {P(), > 0}. e Pour ce mod`le, F est la loi de Poisson de param`tre > 0, i.e. la loi de la v.a. discr`te X ` e e e a valeurs dans lensemble des entiers positifs dnie par la fonction de probabilit e e P (X = x) = f (x, ) = Lensembles des param`tres est =]0, [. e Exemple 5.4. Mod`le de Bernoulli {Be(), 0 < < 1}. e Pour ce mod`le, F est la loi de la v.a. X prenant les valeurs 0 et 1 avec les probabilits e e P (X = 1) = et P (X = 0) = 1 , o` appartient ` lensemble des param`tres =]0, 1[. u a e Exemple 5.5. Un mod`le non-identiable. e Soit F la fonction de rpartition correspondant ` la densit e a e 1 (x 2 )2 , f (x, ) = exp 2 2 x R, x e , x = 0, 1, 2, . . . , x!
et soit = R. Alors le mod`le {F , } nest pas identiable. Nanmoins, si lon prend e e = { 0}, le mod`le devient identiable. Cet exemple montre que le choix correct de e lensemble des param`tres est important. e 5.1.2. Mod`les domins. Mod`les discrets et continus. Dans les Exemples 5.1-5.5, e e e la loi F admet une densit f (x, ) soit par rapport ` la mesure de Lebesgue (cas continu), e a soit par rapport ` la mesure de comptage (cas discret). Plus gnralement, nous supposerons a e e partout dans ce chapitre que lhypoth`se suivante (Hypoth`se de dominance) est vrie. e e e e Hypoth`se (D). Il existe une mesure -nie sur B(Rm ) telle que, pour tout , F e admet une densit f (x, ) par rapport ` . e a Si lHypoth`se (D) est vrie, on dit que {F , } est un mod`le statistique domin. e e e e e Par la suite, nous considrerons principalement les deux cas suivants : e = mesure de Lebesgue sur Rm (cas continu), mesure de comptage (cas discret).
On parlera respectivement de mod`les statistiques discrets et de mod`les statistiques continus. e e Ces mod`les sont enti`rement dnis par la donne de familles de densits correspondantes e e e e e {f (x, ), }. Par la suite, P dsignera la loi jointe de (X1 , ..., Xn ) quand les Xi sont i.i.d. e de loi F :
n
P (dx1 , ..., dxn ) =

i=1
[f (xi , )(dxi )].
(5.1)
On notera E () lesprance par rapport ` P . En utilisant ces notations, lesprance dune e a e statistique n (X1 , ..., Xn ) scrit sous la forme e n (pour un mod`le continu), e n (x1 , ..., xn ) i=1 [f (xi , )dxi ] E (n ) = n dP = n e (x1 ,...,xn ) n (x1 , ..., xn ) i=1 f (xi , ) (pour un mod`le discret).
100
Exercice 5.1. Considrons le probl`me de rgression : estimer le param`tre inconnu R e e e e a ` partir des observations alatoires X1 , . . . , Xn o` Xi = (Yi , Zi ), e u Yi = Zi + i , i = 1, ..., n, les i sont des variables alatoires i.i.d. de loi N (0, 1), les Zi sont des variables alatoires i.i.d. e e de densit p() sur R et les vecteurs alatores (1 , . . . , n ) et (Z1 , . . . , Zn ) sont indpendants. On e e e remarque que les Xi sont des vecteurs dans R2 . Quel est le mod`le statistique correspondant ? e 5.1.3. Mod`les statistiques dans le cadre non-i.i.d. . Lhypoth`se que les Xi sont e e i.i.d. nest pas toujours vrie. On peut dnir des mod`les statistiques sans cette hypoth`se. e e e e e Dans ce cadre plus gnral, un mod`le statistique est dni par {P , }, o` P est la loi e e e e u jointe de X1 , ..., Xn quand la vraie valeur du param`tre est . Cette loi peut ne pas tre de e e la forme (5.1). Une gnralisation de lhypoth`se didentiabilit est donne par la condition e e e e e suivante : P = P = = . Exemple 5.6. Mod`le dautorgression. e e Soient les observations X1 , ..., Xn telles que Xi = Xi1 + i , i = 1, ..., n, X0 = 0, o` R est le param`tre inconnu et les v.a. i sont indpendantes de mme loi N (0, 1). Bien u e e e videmment, Xi dpend de Xi1 et les Xi ne sont pas i.i.d. La loi jointe P de X1 , ..., Xn est e e de la forme
n
P (dx1 , ..., dxn ) = (x1 )

i=2
(xi xi1 ) dx1 . . . dxn ,
o` dsigne la densit de N (0, 1). Le mod`le statistique est {P , R}. u e e e 5.2. Comparaison destimateurs Dans ce paragraphe, lensemble des param`tres sera un sous-ensemble de R. On sintrese e sera aux crit`res de slection de bons estimateurs. Intuitivement, un estimateur n est bon, e e sil est proche de la vraie valeur du param`tre. Mais n est une variable alatoire, donc la e e notion de proximit peut avoir plusieurs interprtations. On peut linterprter, par exemple, e e e comme convergence en probabilit de n vers la vraie valeur du param`tre. e e Dnition 5.2. Un estimateur n (X1 , ..., Xn ) est dit convergent (ou consistant) si e n (converge vers en probabilit P ) pour tout , e i.e.
n P
lim P (|n | ) = 0 pour tout
> 0, .
Remarques. (1) Dans cette dnition : e la convergence doit avoir lieu pour tout , ce qui garantit quelle a lieu pour la vraie valeur inconnue ,
5.2. COMPARAISON DESTIMATEURS
101
la consistance est une proprit lie au mod`le statistique : un estimateur n ee e e peut tre consistant pour un mod`le et non-consistant pour un autre. e e (2) Si lon a la convergence presque sre : n (p.s.) au lieu de la convergence en u probabilit, on dit que lestimateur n est fortement consistant. e Exemple 5.7. Soit n = X. On sait que X E (X1 ) (p.s.), dapr`s la loi forte des grands e nombres, pourvu que lesprance soit nie. Par consquent, si le mod`le statistique est tel que e e e = E (X1 ), alors X est un estimateur (fortement) consistant de . Par exemple, X est un estimateur fortement consistant de dans le mod`le {N (, 1), R}. e La consistance est une proprit assez faible. Il existe un nombre inni destimateurs ee P consistants, sil en existe au moins un. En eet, si n pour tout et (an ) est une suite dterministe telle que an 1, alors e an n quand n pour tout . La suite an peut tre choisie de faon assez arbitraire. Par e c exemple, n = (1+106 [ln(max{2, ln n})]1 )n est un estimateur consistant si n est consistant. Or, |n | |n | pour toute valeur raisonnable de n. La dirence entre deux estimateurs e consistants peut donc tre norme pour n ni, et si lun de ces deux estimateurs est bon, e e lautre peut tre tr`s mauvais. On voit donc que la consistance dun estimateur nest pas du e e tout synonyme de bonne performance. La mme remarque sapplique ` la consistance forte. e a En conclusion, la notion de consistance nest pas assez informative pour nous guider dans le choix destimateurs. Nanmoins, elle nest pas compl`tement inutile, car elle permet e e de rtrcir lensemble des estimateurs que lon doit tudier. En eet, les estimateurs none e e consistants doivent tre avec certitude exclus de toute considration. e e 5.2.1. Risque quadratique dun estimateur. An de comparer les estimateurs dans un mod`le statistique pour une taille dchantillon n nie, on utilise souvent le risque quae e dratique. On appelle risque quadratique (erreur moyenne quadratique) de lestimateur n au point la quantit e Rn (, n ) = E [(n )2 ]. Le risque quadratique est bien dni pour tout estimateur n . Il peut, en particulier, prendre e la valeur Rn (, n ) = +. Le risque permet de mesurer la distance entre lestimateur n et la valeur . La proposition suivante dcoule directement de lingalit de Tchebychev. e e e Proposition 5.1. Si Rn (, n ) 0 pour tout , alors n est consistant. Plus la valeur du risque est petite, plus lestimateur n est performant. La question qui se pose alors est : existe-t-il un estimateur n qui soit meilleur que tous les autres estimateurs au sens du risque quadratique ? Autrement dit, est-il possible de concevoir un estimateur n tel que Rn (, n ) Rn (, n ) pour tout et tout estimateur n ? La rponse ` cette question est ngative. Pour xer les ides, considrons lexemple suivant. e a e e e
P
102
Exemple 5.8. Soit le mod`le normal {N (, 1), R}. Introduisons les deux estimateurs e (1) (2) suivants : n = X (estimateur consistant et tout ` fait sympathique), et n 0 (estimateur a absurde, car il prend toujours la mme valeur, indpendamment de lchantillon). Les risques e e e (1) (2) quadratiques de n et de n valent 1 (1) (1) Rn (, n ) = E (n )2 = Var(X) = , n (2) 2 2 Rn (, n ) = E ( ) = . (2) (1) Si || < 1/ n, le risque de n est infrieur ` celui de n . Donc, pour un intervalle de valeurs e a (2) (1) de , lestimateur absurde n est meilleur que lestimateur raisonnable n . Cet intervalle { : || < 1/ n} devient de plus en plus petit quand n , et pour tous les autres le (1) meilleur estimateur est n . De faon gnrale, supposons que contienne au moins 2 points distincts 1 = 2 et les c e e mesures {P , } sont deux ` deux mutuellement absolument continues. Alors, pour tout a estimateur n , lun des risques Rn (1 , n ) ou Rn (2 , n ) est non-nul. En eet, si Rn (1 , n ) = Rn (2 , n ) = 0, alors n = 1 (P1 -p. s.) et n = 2 (P2 -p. s.), ce qui contredit au fait que P1 est absolument continue par rapport ` P2 . Supposons, sans perte de gnralit, que cest le a e e e risque Rn (1 , n ) qui est non-nul et posons n 1 . Alors,
Rn (1 , n ) = 0 < Rn (1 , n ). Il nexiste donc pas destimateur n tel que Rn (, n ) Rn (, n ) pour tout et tout estimateur n . Une consquence de cette observation est quil nexiste pas dchelle de come e paraison absolue des estimateurs base sur les risques. Nanmoins, une comparaison relative e e est toujours possible : on peut utiliser le risque quadratique pour comparer les estimateurs deux ` deux. a
Dnition 5.3. Soient n et n deux estimateurs dans le mod`le statistique {F , }, e e R. Si (1) (2) Rn (, n ) Rn (, n ) pour tout , et si, de plus, il existe tel que
(1) (2) Rn ( , n ) < Rn ( , n ), (1) (2) (2) (2)
(1)
(2)
on dit que n est plus ecace que n (ou meilleur que n ) et que n est inadmissible. Un estimateur n est dit admissible sil nexiste pas destimateurs plus ecaces que n . 5.2.2. Structure du risque : biais et variance. Proposition 5.2. Le risque Rn (, n ) admet la dcomposition e
2 Rn (, n ) = b2 (, n ) + n (, n ), n
o` u bn (, n ) = E (n ) ,
2 n (, n ) = E (n E (n ))2 . df e df e
5.2. COMPARAISON DESTIMATEURS
103
Preuve. Il sut dutiliser la Proposition 1.1 avec = n et c = .

2 Dnition 5.4. On appelle bn (, n ) biais de lestimateur n et n (, n ) variance de n . e 2 On note aussi n (, n ) = Var (n ). Le carr du biais b2 (, n ) reprsente la partie e e n 2 dterministe de lerreur destimation, alors que n (, n ) mesure la contribution de sa partie e stochastique. df e
Dnition 5.5. On dit quun estimateur n est sans biais si E (n ) = (i.e. bn (, n ) = 0) e pour tout et tout n. Dans le cas contraire, on dit que n est biais. e Une approche dpasse de la dtermination dun estimateur optimal consiste ` chercher un e e e a estimateur sans biais de variance minimale. Elle est motive par le fait que la minimisation du e risque quadratique sur lensemble de tous les estimateurs sans biais se rduit ` la minimisation e a de la variance. Bien que cette approche soit souvent voque dans la littrature statistique, e e e elle ne sera pas considre ici, car son domaine de validit est tr`s limit et elle ne prsente ee e e e e pas dintrt pour les applications. En eet, ee les estimateurs sans biais nexistent que dans des cas exceptionnels, pour quelques mod`les statistiques remarquables, e si le statisticien se trompe lg`rement de mod`le (ce qui se passe souvent dans la prae e e tique), lestimateur nest plus sans biais et lapproche nest plus valide, mme pour les mod`les statistiques admettant des estimateurs sans biais, on peut soue e vent proposer des estimateurs biaiss ayant le risque quadratique plus petit. On le voit e dans lexemple suivant. Exemple 5.9. Soit le mod`le normal {N (0, 2 ), 2 ]0, [}. Considrons deux estimateurs e e (1) (2) 2 : n et n du param`tre = e
(1) n (2) n
1 =s = n
2
(Xi X)2 ,
i=1
s2
n 2 = s . n1 n1 2 , n
Dapr`s la Proposition 4.2, e

(1) E (n ) = E (s2 ) =
donc
(1) bn ( 2 , n ) = (1)
2 n1 2 2 = . n n
(2) (2)
On en dduit que lestimateur n est biais. Par contre, n est sans biais : bn ( 2 , n ) = 0 e e pour tout 2 > 0. Calculons les variances de ces estimateurs (cf. Exercice 4.8) :
2 (1) n ( 2 , n ) =
2(n 1) 4 , n2 2 4 . n1
et, comme pour tout a R et toute variable alatoire X, Var(aX) = a2 Var(X), e

2 (2) n ( 2 , n ) =
n n1
2 (1) n ( 2 , n ) =
104
Ceci nous permet de comparer les risques quadratiques :

(1) Rn ( 2 , n ) =
2 2(n 1) 4 2n 1 4 + = , n n2 n2 2 4 (2) Rn ( 2 , n ) = . n1
(2) (1) (1)
Pour tout 2 > 0 on a Rn ( 2 , n ) > Rn ( 2 , n ), i.e. lestimateur n = s2 est plus ecace (2) (2) que n = s2 . Lestimateur sans biais n = s2 est donc inadmissible. On voit quun estimateur biais peut tre plus ecace quun estimateur sans biais. e e Cet exemple rv`le aussi un dfaut du concept de ladmissibilit. En eet, la dirence e e e e e entre les estimateurs s2 et s2 est ngligeable pour n assez grand et elle dispara quand e t n . Lestimateur s2 est tout a fait honorable, mais il est inadmissible pour tout n. (2) Dautre part, pour tout n ni, lestimateur constant n de lExemple 5.8 (un estimateur absurde) est admissible : on ne peut pas lamliorer au point = 0. Par consquent, la e e proprit dadmissibilit ne peut pas servir pour slectionner de bons estimateurs. ee e e Conclusions. (1) La proprit de consistance nest pas susamment informative pour nous guider ee dans le choix destimateurs. (2) On peut comparer les estimateurs deux ` deux et chercher des estimateurs admisa sibles, mais ceci ne donne pas satisfaction, car il existe des estimateurs absurdes qui sont admissibles. (3) La recherche des estimateurs sans biais de variance minimale nest pas une solution non plus : un estimateur sans biais peut tre moins ecace quun estimateur biais. e e Autrement dit, les proprits dtre consistant, sans biais ou admissible ne sont pas suee e santes pour caractriser un bon estimateur. e On note aussi que quelques-uns des probl`mes prsents ci-dessus disparaissent si, au lieu e e e de comparer les risques pour n x, on les consid`re asymptotiquement quand n . Par e e exemple, le rapport des risques de s2 et de s2 tend vers 1 quand n , donc s2 nest pas inadmissible dans lasymptotique. De la mme faon, presque tous les estimateurs raisonnables sont asymptotiquement sans e c biais (i.e. leur biais tend vers 0 pour tout , lorsque n ). Cette proprit est proche de la ee consistance (et moins forte que la convergence du risque vers 0), donc elle est plus ou moins indispensable, ` la dirence de la proprit, tr`s contraignante, que le biais soit nul pour a e ee e tout n. Ces remarques nous am`nent ` privilgier la comparaison asymptotique destimateurs. e a e On en reviendra plus loin dans ce chapitre. Avant de le faire, dnissons quelques mthodes e e gnrales de construction destimateurs. e e
5.3. METHODE DES MOMENTS
105
5.3. Mthode des moments e La mthode des moments a t propose par Karl Pearson en 1894. e ee e Soit X1 , ..., Xn un chantillon i.i.d., Xi F , et soit {F , }, Rk , le mod`le e e statistique sous-jacent. Dans ce paragraphe, nous supposons que les Xi sont ` valeurs dans R a et que les moments dordre k de X1 existent pour tout . Notons
r r () = E (X1 ) =
xr dF (x), r = 1, ..., k.
(5.2)
Comme la forme de F est connue, r () sont des fonctions connues sur pour r = 1, ..., k. Si les vraies valeurs = r ( ), r = 1, ..., k, taient disponibles, on pourrait rsoudre e e r le syst`me de k quations e e r () = , r = 1, ..., k r pour trouver le vecteur (en supposant quune solution existe). Or, ces valeurs sont inconnues et nous disposons seulement dun chantillon X1 , ..., Xn , Xi F . Le principe de substitution e nous sugg`re dutiliser e n 1 mr = Xir n
i=1
comme un estimateur de = r ( ). Puisque mr r ( ) quand n , on peut esprer, e r quau moins pour n assez grand, une solution par rapport ` du syst`me dquations a e e r () = mr , r = 1, ..., k, soit proche de . (5.3)
Dnition 5.6. On appelle estimateur par la mthode des moments (EMM) du pae e k toute statistique M M ` valeurs dans ram`tre dans le mod`le {F , } avec R e e a n tant une solution du syst`me de k quations (5.3). Autrement dit, e e e
M r (n M ) = mr ,
r = 1, ..., k.
Il est clair que lEMM peut ne pas exister et, sil existe, il nest pas toujours unique. Remarque. Au lieu dutiliser les k premiers moments pour construire lestimateur de Rk , on peut utiliser k moments quelconques r1 , ..., rk (pourvu quils soient nis). Exemple 5.10. EMM pour le mod`le normal ` moyenne et variance inconnues {N (, 2 ), e a R, 2 > 0}. On montre facilement que X et s2 sont les estimateurs de et 2 par la mthode des moments. e Exemple 5.11. EMM pour le mod`le exponentiel {E(), > 0}. La densit de F est e e f (x, ) = 1 ex/ 1{x>0} . l Alors, 1 () = E (X1 ) = 1
0
xe dx = ,
106
(1) et la solution n = X de lquation e = X, (ou 1 () = m1 = X)
est un estimateur par la mthode des moments du param`tre . On remarque aussi que e e x 1 2 () = x2 e dx = 22 . 0 Par consquent, la solution n = e
(2) X 2 +s2 2
de lquation 22 = m2 , o` e u
n
m2 =
1 n
Xi2 = X 2 + s2
i=1
est un autre estimateur par la mthode des moments de . De plus, comme X 1 () = e 2 2 = E [(X )2 ] = 2 (p.s.), dapr`s le Premier thor`me de continuit (p.s.) et s e e e e 1 1 (Proposition 1.10), 2 () X 2 + s2 = (p.s.). 2 2 Exercice 5.2. En utilisant les thor`mes de continuit, chercher la loi limite de e e e sous les hypoth`ses de lExemple 5.11. e (2) n(n )
5.3.1. Mthode des moments gnralise. Une dmarche similaire ` la mthode des e e e e e a e moments peut tre eectue avec des fonctions gnrales r (x) au lieu de xr dans (5.2). On e e e e raisonne de la mme faon que prcdemment, sauf que lon dnit e c e e e r () = E (r (X1 )),
1 n n i=1 r (Xi )
r = 1, . . . , k,
` la place de mr dans (5.3). La mthode des moments gnralise a e e e e et on pose comme une solution = M G du syst`me consiste ` dnir lestimateur de a e e n r () = 1 n
n
r (Xi ),
i=1
r = 1, ..., k.
(5.4)
Exemple 5.12. Estimation dans le mod`le de Cauchy. e On consid`re le mod`le {F , R} o` la densit de F est donne par e e u e e 1 , x R. f (x, ) = (1 + (x )2 ) Pour cette densit, les moments nexistent pas et la mthode des moments nest pas utilisable. e e Mais il est possible dappliquer la mthode des moments gnralise avec, par exemple, k = 1, e e e e 1 (x) = sgn(x) o` u 1, si x 0, sgn(x) = 1, si x > 0, Grce ` la symtrie de la loi de Cauchy, a a e 1 () = o` u F0 (t) = f (x, ) sgn(x)dx = 1 2F0 () = 2F0 () 1 1
t
du 1 1 = arctan t + , 2 1+u 2
5.4. METHODE DU MAXIMUM DE VRAISEMBLANCE
107
et alors lquation (5.4) scrit sous la forme e e 1 2 arctan = n

n
sgn(Xi ).
i=1
Lestimateur par la mthode des moments gnralise est donc e e e e

M n G = tan
2n
sgn(Xi ) .
i=1
En utilisant la loi des grands nombres, le thor`me central limite et les thor`mes de continuit e e e e e (Propositions 1.10, 1.11), on prouve que cest un estimateur consistant et asymptotiquement normal : D M n (n G ) N (0, v( )), (5.5) lorsque n , o` v( ) > 0 est sa variance asymptotique. u Exercice 5.3. Explicitez la variance asymptotique v( ) dans (5.5). Remarque. La mthode des moments est un cas particulier de la mthode de substitution. e e En eet, supposons que lon peut crire = T (F ) pour Rk , o` e u T (F ) = T (1 (F ), ..., k (F )) avec j (F ) = xj dF (x) et T : Rk Rk . Lestimateur de = T (F ) par la mthode de e substitution est donc
M Tn = T (1 (Fn ), ..., k (Fn )) = T (m1 , ..., mk ) = n M .
5.4. Mthode du maximum de vraisemblance e Quelques cas particuliers de la mthode du maximum de vraisemblance ont t connus dee ee puis le XVIII`me si`cle, mais sa dnition gnrale et largumentation de son rle fondamental e e e e e o en Statistique sont dues ` Fisher (1922). a Dnition 5.7. Considrons un mod`le statistique {F , }, o` Rk , vriant lHye e e u e poth`se (D). On appelle fonction de vraisemblance lapplication L(Xn , ), o` e u
n
L(Xn , ) =
i=1
f (Xi , ), ,
avec Xn = (X1 , ..., Xn ). Exemple 5.13. Soient X1 , ..., Xn des variables alatoires discr`tes, ralisations i.i.d. dune e e e v.a. X ` valeurs dans un ensemble ni A. Alors, pour toute valeur xe a A, a e f (a, ) = P (X1 = a). Si lon xe lchantillon Xn = (x1 , ..., xn ), on peut crire e e
n n
L(Xn , ) = L ((x1 , ..., xn ), ) =

i=1
P (X1 = xi ) =
i=1
P (Xi = xi ).
(5.6)
108
On voit donc que L(Xn , ) est la probabilit dobtenir la ralisation (x1 , ..., xn ) quand la vraie e e valeur du param`tre est gale ` . Supposons que, pour deux valeurs 1 et 2 , e e a L ((x1 , ..., xn ), 1 ) > L ((x1 , ..., xn ), 2 ) . Alors (cf. (5.6)) la probabilit dobtenir la ralisation Xn = (x1 , ..., xn ) est plus grande si la e e vraie valeur du param`tre tait = 1 que si elle tait = 2 . Autrement dit, la valeur 1 e e e est plus vraisemblable que 2 tant donne la ralisation (x1 , ..., xn ) . En gnral, la valeur e e e e e = arg max L (x1 , ..., xn ),
est la plus vraisemblable. Ceci nous conduit ` la dnition suivante. a e

M M Dnition 5.8. Toute statistique n V = n V (Xn ) telle que e M L(Xn , n V ) = max L(Xn , )
est appele estimateur du maximum de vraisemblance (EMV) du param`tre dans le e e mod`le statistique {F , }. Autrement dit, e
M n V = arg max L(Xn , ).
Remarques. (1) LEMV peut ne pas exister (voir lExemple 5.18 ci-apr`s). e (2) Si un EMV existe, il nest pas toujours unique (voir les Exemples 5.15 5.17 ci-apr`s). e (3) La fonction 1 1 ln () = ln L(Xn , ) = n n
n
ln f (Xi , ),
i=1
bien dnie si f (x, ) > 0, est appele fonction de log-vraisemblance. Alors e e

M n V = arg min ln ().
(4) Si le maximum de L(Xn , ) (respectivement, le minimum de ln ()) nest pas atteint sur la fronti`re de et si lapplication L(Xn , ) est continue, condition ncessaire e e de maximum est lannulation du gradient :
L(Xn , )|= M V b
n
= 0,
ce qui reprsente un syst`me de k quations, car Rk . De faon similaire, condition e e e c ncessaire de minimum de la fonction de log-vraisemblance est e ln () = 0. (5.7)
On appelle (5.7) quation de vraisemblance si R et syst`me des quations e e e de vraisemblance si Rk , k > 1.
109
Dnition 5.9. On appelle racine de lquation de vraisemblance (REV) dans le e e RV a mod`le {F , } avec Rk toute statistique n ` valeurs dans tant une solution e e du syst`me de k quations (5.7). Autrement dit, e e
RV ln (n ) = 0.
Notons quen rsolvant le syst`me (5.7) on obtient tous les maxima et tous les minima e e locaux de ln (), ainsi que ses points dinexion. Il est clair que la REV peut ne pas exister et, si elle existe, elle nest pas toujours unique. Pour que les Dnitions 5.8 et 5.9 donnaient les mmes estimateurs, i.e. pour que tous e e EMV soient des REV et vice versa, il faut que les conditions suivantes soient runies. e (E1) f (x, ) > 0 pour et pour tout x. (E2) La fonction f (x, ) est direntiable sur lensemble pour tout x. e (E3) La fonction ln atteint son minimum global pour tous les tels que ln () = 0. La condition (E3) est tr`s restrictive : on ne peut eectivement la vrier que si la fonction e e ln est convexe et son minimum global nest pas atteint sur la fronti`re de . Lquivalence e e des deux dnitions na donc pas lieu que dans une situation tr`s particuli`re. Il sagit essene e e tiellement de deux estimateurs dirents, sauf cas exceptionnel. e Exemple 5.14. EMV pour le mod`le normal ` moyenne et variance inconnues {N (, 2 ), e a 2 ) est R, > 0}. La densit de la loi N (, e 1 (x )2 f (x, ) = exp , = (, ), 2 2 2 donc les fonctions de vraisemblance et de log-vraisemblance correspondantes valent 1 exp L(Xn , ) = ( 2)n ln () = 1 2 2
n
(Xi )2 ,
i=1 n
1 1 ln(2) + ln + 2 2n 2
n i=1 (Xi 1 3 n
(Xi )2 .
i=1
Les quations de vraisemblance ont la forme e 1 ln () = 0, 2 n ln () = 0.

1
) = 0, )2 = 0.
n i=1 (Xi
Pour n 2, ce syst`me admet une seule solution (, ) donne par : e e = X, = 1 n

n
(Xi X)2 = s.
i=1
La seule REV est donc (X, s). Cest aussi lEMV au sens de la Dnition 5.8. Pour n = 1 il e nexiste pas dEMV, mais ce cas nest pas intressant, car dans la pratique il sagit toujours e dun chantillon de taille n > 1. e
110
M RV Conclusion : lestimateur du maximum de vraisemblance de (, ) est n V = (X, s) = n .
Exemple 5.15. EMV pour le mod`le de Laplace. e Considrons le mod`le statistique {F , }, o` F admet la densit de Laplace e e u e 1 |x | exp , x R, 2 o` > 0 est connu, le param`tre R est inconnu et = R. Les fonctions de vraisemblance u e et de log-vraisemblance pour ce mod`le sont, respectivement, e f (x, ) = L(Xn , ) = 1 2
n
exp 1 n
n
|Xi | ,
i=1
ln () = ln(2) +
|Xi |.
i=1
Si lon cherche ` minimiser ln (), cela revient ` minimiser n |Xi |. Cette fonction est a a i=1 direntiable presque partout et sa drive admet la version suivante : e e e d d
n n
|Xi | =
i=1 i=1
sgn(Xi ) = h().
df e
M unique : n V = X( n+1 ) , mais il nexiste pas de REV.

2
Si n est pair, lEMV nest pas unique : en eet, tout point de lintervalle [X( n ) , X( n +1) ] est 2 2 un EMV et tout point de lintervalle ]X( n ) , X( n +1) [ est une REV. Si n est impair, lEMV est 2 2 Rappelons-nous que la mdiane empirique est dnie par e e Mn = X( n+1 )
X(n/2) +X(n/2+1) 2
2
pour n impair, pour n pair.
h()
(1)
X(2)
(3)
(4)
Figure 5.1. La fonction h() pour n = 4 (le mme type de graphique pour tout n pair). e Lestimateur du maximum de vraisemblance nest pas unique dans ce cas : tout point de [X( n ) , X( n +1) ] est un EMV. 2 2
111
Conclusion : dans le mod`le de Laplace, la mdiane empirique est lun des estimateurs du e e maximum de vraisemblance, au sens de la Dnition 5.8. Cest aussi une REV si n est pair. e Par contre, si n est impair, il nexiste pas de REV.
h()
(1)
X(2)
X(3)
(4)
(5)
Figure 5.2. La fonction h() pour n = 5 (le mme type de graphique pour tout n impair). e bM Lestimateur du maximum de vraisemblance est unique : n V = X( n+1 ) .
2
Exemple 5.16. EMV pour le mod`le uniforme {U (0, ), > 0}. e La densit de F vaut e 1 f (x, ) = 1[0,] (x). l
1.5
Ln()
0.5
X (n)
0.5 0 0.5 1 1.5 2 2.5
bM Figure 5.3. Mod`le uniforme : n V = X(n) . e
La fonction de vraisemblance pour ce mod`le scrit sous la forme e e 1 L(Xn , ) = n

n
I{0 Xi }.
i=1
112
Notons que 1 n
M n V
I{0 Xi } =
i=1
0 si < X(n) = max(X1 , ..., Xn ), 1 n sinon.
On voit que = X(n) est lunique EMV. Il nexiste pas de REV, car la fonction de logvraisemblance nest pas drivable. e 1 Exemple 5.17. EMV pour le mod`le de Cauchy : f (x, ) = e , R, x R. (1 + (x )2 ) La fonction de vraisemblance pour ce mod`le est e
n
L(Xn , ) =
n i=1 n
1 . 1 + (Xi )2
La fonction de log-vraisemblance correspondante est de la forme ln () = ln + 1 n ln(1 + (Xi )2 )),

i=1
et lquation de vraisemblance ln () = 0 quivaut ` e e a

n i=1
Xi = 0. 1 + (Xi )2
Gnralement, cette quation admet plusieurs solutions que lon ne peut pas trouver sous la e e e forme explicite. Il y a, en gnral, plusieurs EMV et plusieurs REV. e e Exemple 5.18. Mod`le statistique pour lequel il nexiste pas dEMV. e Considrons le mod`le {F , R} tel que F admet la densit f0 ( ) par rapport ` la e e e a mesure de Lebesgue sur R avec f0 (x) = e|x|/2 2 2|x|
n
= f2 (|x|)/2, 1
o` f2 est la densit de la loi chi-deux ` 1 degr de libert. Alors, la fonction de vraisemblance u 1 e a e e L(Xn , ) =
i=1
f0 (Xi )
e vrie limXi L(Xn , ) = + pour tout i = 1, . . . , n, ce qui implique que la borne suprieure e de la fonction de vraisemblance nest pas atteinte et alors il nexiste pas dEMV. La fonction de log-vraisemblance et ses fonctionnelles jouent un rle important en Statiso tique. Pour lucider les proprits de lEMV, il est utile de comprendre comment se comporte e ee la fonction de log-vraisemblance quand n . 5.5. Comportement asymptotique de la fonction de log-vraisemblance Soit la vraie valeur du param`tre, cest-`-dire la valeur telle que Xi F pour e a i = 1, . . . , n, et soit lhypoth`se suivante vrie : e e e | ln f (x, )|f (x, )d(x) < , . (5.8)
5.5. COMPORTEMENT ASYMPTOTIQUE DE LA FONCTION DE LOG-VRAISEMBLANCE
113
Pour tout x, les variables alatoires Zi = ln f (Xi , ) sont i.i.d. de moyenne e e E(Zi ) = E (ln f (Xi , )) = f (x, ) ln f (x, )d(x).
Dapr`s la loi des grands nombres, on obtient la convergence en P -probabilit : e e ln () J() quand n , pour tout , o` u J() =
df e P
f (x, ) ln f (x, )d(x)
est appele fonction de contraste associe ` lestimation du maximum de vraisemblance e e a dans le mod`le statistique {F , }. On voit donc que, pour n assez grand, la fonction e de log-vraisemblance ln () est susamment bien approche par la fonction de contraste J(). e Ceci nous incite ` tudier plus en dtail les proprits de la fonction de contraste. ae e ee Lemme 5.1. Supposons que la condition (5.8) est vrie. Alors e e J() J( ), . Si, de plus, lHypoth`se (Id) est vrie, alors e e e J() > J( ), = .
Preuve. Notons que, pour tout t 1, on a : ln(1 + t) t 0, avec ln(1 + t) t = 0 si et seulement si t = 0. On pose, pour abrger, f (x) = f (x, ), f (x) = f (x, ). Comme e f /f 0, on a : ln f f f 1 = ln 1 + 1 f f f f 1 0, f (5.9)
o` lgalit est atteinte si et seulement si f /f = 1 (dans ces calculs on suppose que f > 0). u e e Evidemment, f 1 f d = 0. f En utilisant (5.9) et (5.10), on obtient f f f d = f ln 1 d 0. f f f Le membre dans les crochets est ngatif, donc la derni`re ingalit se transforme en galit e e e e e e si et seulement si ce membre est nul pour -presque tous x tels que f (x) > 0, i.e. lgalit e e dans (5.9) est atteinte pour tout x tel que f (x) > 0. Mais ce nest possible que si J() J( ) = f ln f (x)/f (x) = 1 pour -presque tous x tels que f (x) > 0. pour -presque tous x. (5.11) (5.12) Notons que (5.11) est vrai si et seulement si f (x) = f (x) En eet, comme f et f sont deux densits de probabilit, la condition (5.11) implique : e e f I(f > 0)d = 1 f I(f > 0)d = 0, (5.10)
f I(f = 0)d = 1
114
do` on obtient que f = 0 pour -presque tous x tels que f (x) = 0. Donc, la condition (5.11) u implique (5.12). Limplication rciproque est vidente. e e On a alors, J() = J( ) si et seulement si f (x, ) = f (x, ) pour -presque tous x. (5.13)
Dapr`s lHypoth`se (Id), (5.13) implique que = . On voit donc que (5.13) nest pas e e possible pour = . Par consquent, J() = J( ) nest pas possible pour = . e Le rsultat du Lemme 5.1 peut tre considr comme une justication de lestimateur du e e ee maximum de vraisemblance : puisque ln () converge en probabilit vers J() pour tout , e on peut esprer que lEMV e M n V = argmin ln ()
ne soit pas loin de = argmin J().
Dans la suite, on donnera un sens mathmatique prcis ` cette ide heuristique. e e a e 5.6. Consistance de lestimateur du maximum de vraisemblance Quelquefois on peut montrer la consistance de lEMV directement, sans utiliser des thor`mes gnraux. Par exemple, pour le mod`le normal {N (, 1), R} ou pour celui e e e e e de Bernoulli {Be(), 0 < < 1}, lEMV est la moyenne empirique X, alors que la vraie va = E (X). La consistance de lEMV dcoule leur du param`tre est la moyenne thorique, e e e donc directement de la loi des grands nombres. La liste des exemples de ce genre peut tre e encore prolonge, mais ce ne sont que des cas exceptionnels. Un rsultat plus gnral est e e e e donn dans le thor`me suivant. e e e Thor`me 5.1. Supposons que est un ouvert de R et e e (i) la densit f (x, ) est continue comme fonction de , pour tout x, e (ii) lHypoth`se (Id) didentiabilit est satisfaite, e e (iii) la condition (5.8) est vrie pour tout , e e M (iv) pour tout n, lEMV n V existe et lensemble des minima locaux de la fonction de log-vraisemblance ln () est un intervalle ferm et born ` lintrieur de . e ea e M Alors n V est un estimateur consistant. Preuve. Fixons . Il faut dmontrer que e
n M lim P (|n V | ) = 0,
> 0.
(5.14)
Il sut ici de considrer seulement les valeurs > 0 telles que + , . Fixons e alors > 0 qui vrie ces hypoth`ses. Notons e e Jn () = ln () ln ( ).
5.6. CONSISTANCE DE LESTIMATEUR DU MAXIMUM DE VRAISEMBLANCE
115
Evidemment, Jn ( ) = 0. Dapr`s la loi des grands nombres, pour tout , e Jn () J() J( ) quand n . (On note ici la convergence en P -probabilit.) En particulier, pour tout > 0, e Jn ( ) E (Jn ( )) = J( ) J( ) = > 0, Jn ( + ) E (Jn ( + )) = J( + ) J( ) = + > 0,
P P P P
(5.15) (5.16)
lorsque n . La positivit des constantes et + dcoule de lhypoth`se (ii) du thor`me e e e e e et du Lemme 5.1.
M Soit lvnement alatoire A = {|n V | < }. Montrons que e e e df e
A {Jn ( ) > 0} {Jn ( + ) > 0}. En eet, la continuit de Jn () (dapr`s lhypoth`se (i)) et les ingalits e e e e e Jn ( ) > 0, Jn ( ) = 0, Jn ( + ) > 0
(5.17)
impliquent que Jn () atteint au moins un minimum local sur lintervalle ] , + [. La condition (iv) du thor`me implique que tous les minima locaux de Jn () sont ses minima e e globaux et ils forment un intervalle ferm et born. Par consquent, cet intervalle est contenu e e e M dans ] , + [. Donc, n V ] , + [, et (5.17) est dmontr. e e Dapr`s (5.17), (5.15) et (5.16), on a e
M P (|n V | ) = P (A)
P (Jn ( ) 0) + P (Jn ( + ) 0) = P (Jn ( ) E (Jn ( ) ) +P (Jn ( + ) E (Jn ( + ) + ) 0 quand n .
Remarques. (1) Les hypoth`ses (i) - (iii) sont peu restrictives. Evidemment, lhypoth`se (i) est sae e tisfaite dans plusieurs situations. Lhypoth`se (ii) est ncessaire pour lunicit de , e e e la vraie valeur du param`tre. La condition (iii) est ncessaire pour lexistence dune e e limite nie J() de la fonction de log-vraisemblance.
116
(2) Seule lhypoth`se (iv) du Thor`me 5.1 est restrictive. On peut montrer quelle nest e e e pas ncessaire. Wald (1949) a dmontr que, sous les hypoth`ses un peu direntes e e e e e de (i) - (iii), mais aussi tr`s gnrales, et sans aucune hypoth`se sur le comportement e e e e de lensemble des minima locaux de ln , lEMV est consistant. Un rsultat similaire e est vrai pour toute suite de racines de lquation de vraisemblance (voir, par exemple, e A.A.Borovkov Statistique mathmatique, 1984). e Exemple 5.19. Consistance de lEMV pour le mod`le de Laplace. e Soit {F , R} le mod`le de Laplace dni dans lExemple 5.15. Il est vident que les e e e conditions (i) et (ii) du Thor`me 5.1 sont vries. La condition (iv) aussi est vraie, vu e e e e lExemple 5.15. Pour vrier lhypoth`se (iii), il sut de noter que, pour le mod`le de Laplace, e e e E (| ln f (X, )|) < E (|X )|) < et que la derni`re ingalit est videmment e e e e satisfaite. Le Thor`me 5.1 permet donc de dduire que lEMV dans le mod`le de Laplace est e e e e consistant. Exemple 5.20. Consistance de lEMV pour le mod`le de Weibull. e Soit le mod`le statistique {F , > 1}, o` F admet la densit suivante par rapport ` la mesure e u e a de Lebesgue : f (x, ) = x1 exp(x )I{x > 0}. La fonction de vraisemblance correspondante est donne par e
n n n
L(Xn , ) =
i=1
f (Xi , ) = n exp(
i=1
Xi )
i=1
Xi1 I{Xi > 0}.
La fonction de log-vraisemblance et ses drives sont donnes par (on ne regarde que lene e e semble o` tous les Xi sont strictement positifs) : u 1 ln () = ln ( 1) n 1 1 ln () = n ln () = 1 1 + 2 n
n n i=1
1 ln Xi + n
n
Xi ,
i=1
ln Xi +
i=1 n i=1
1 n
Xi ln Xi ,
i=1
Xi (ln Xi )2 > 0, pour tout > 0.
Lexistence dune racine de lquation de vraisemblance est claire vu les convergences ln () e + quand +, et ln () quand +0. En outre, cette racine est unique car ln () > 0 pour tout et n. La condition (iv) du Thor`me 5.1 est donc satisfaite. On note e e M RV que, pour le mod`le de Weibull, n V = n . e Finalement, la condition (iii) est satisfaite, car E (| ln f (X, )|) C1 E |X| + |X| + C2 avec des constantes C1 , C2 positives (dpendantes de ) et la derni`re expression est nie pour e e tout , ce qui implique (5.8). On peut donc appliquer le Thor`me 5.1 pour en dduire que e e e lEMV dans le mod`le de Weibull est consistant. e Exemple 5.21. Un EMV non-consistant. Considrons le mod`le statistique o` X est une v.a. discr`te ` valeurs dans {0, 1}, de fonction e e u e a
` 5.7. MODELES STATISTIQUES REGULIERS
117
de probabilit P (X = x) = f (x, ) donne par e e f (x, ) = x (1 )(1x) , si est rationnel, (1x) (1 )x , si est irrationnel,
M o` x {0, 1} et 0 < < 1. LEMV de bas sur lchantillon X1 , . . . , Xn est n V = X. u e e Dapr`s la loi des grands nombres, e
P X
, si est rationnel, 1 , si est irrationnel,
M (il sagit ici de la convergence en P -probabilit) et donc lEMV n V = X nest pas consistant. e Ce contre-exemple est assez articiel, mais il montre que, pour avoir la consistance de lEMV, il faut que lapplication f (x, ) ne soit pas trop oscillante sur des petits ensembles (cf. hypoth`se (i) du Thor`me 5.1). e e e
5.7. Mod`les statistiques rguliers e e Pour le reste de ce chapitre, on supposera que R. Le cas multi-dimensionnel peut tre trait de la mme mani`re. e e e e Notre but local est dintroduire des hypoth`ses sur le mod`le statistique qui permettent e e la direntiation de J() deux fois sous le signe intgrale. On verra plus loin que, sous ces e e hypoth`ses, lEMV jouit de bonnes proprits, telles que la normalit asymptotique. e ee e Notons pour abrger e l(x, ) = ln f (x, ),
df e
l (x, ) =
df e
ln f (x, ),
df e
l (x, ) =
df e
2 ln f (x, ), 2
f (x, ), o` les notations l (x, ), l (x, ) et f (x, ) sont valables seulement si les drives en question u e e existent. f (x, ) = Dnition 5.10. Soit la fonction l(x, ) direntiable pour presque tout x par rapport e e ` la mesure . La fonction I() sur ` valeurs positives dnie par a a e I() = (l (x, ))2 f (x, )d(x) = E [l (X, )]2
est appele information de Fisher associe ` une seule observation dans le mod`le statise e a e tique {F , }. Sous les hypoth`ses de la Dnition 5.10, on peut aussi crire e e e I() =
{x:f (x,)>0}
(f (x, ))2 d(x). f (x, )
La Dnition 5.10 nexclut pas la possibilit I() = +. Cependant, par la suite, on sintressee e e ra seulement aux mod`les statistiques ayant une information de Fisher nie. Introduisons les e
118
hypoth`ses suivantes. e Hypoth`ses de rgularit. e e e (H1) Lensemble des param`tres est un intervalle ouvert de R et e f (x, ) > 0 f (x, ) > 0, , .
(H2) Pour presque tout x, les fonctions f (x, ) et l(x, ) sont deux fois continment drivables sur . u e (H3) Pour tout il existe un intervalle ouvert U contenant et une fonction borlienne (x) tels que |l (x, )| (x), |l (x, )| (x), |l (x, )|2 (x), e pour tout U et presque tout x, et (x) sup f (x, )d(x) < .
U
(H4)
Linformation de Fisher I() vrie e I() > 0, .
Remarque. Comme le voisinage U peut tre choisi aussi petit que lon veut, lhypoth`se e e (H3) nest pas beaucoup plus forte que la condition que les intgrales e |l (x, )|f (x, )d(x), soient nies pour tout . Dnition 5.11. Un mod`le statistique {F , } est appel mod`le rgulier sil vrie e e e e e e les Hypoth`ses (D), (H1) (H4). e Exercice 5.4. Montrer que les mod`les normal, de Bernoulli et de Cauchy dnis dans les e e Exemples 5.1, 5.4, 5.17 respectivement sont rguliers. e Par la suite, lappellation hypoth`ses de rgularit sera rserve aux hypoth`ses (H1) e e e e e e (H4). Notons que lhypoth`se (H3) implique que linformation de Fisher I() est nie pour tout e et sup |l (x, )|f (x, )d(x) < ,
U
(l (x, ))2 f (x, )d(x) = I( )
(5.18)
sup
U
|l (x, )|f (x, ) d(x) < .
(5.19)
5.7.1. Rgularit de la fonction de contraste. Calculons les drives dordre 1 et 2 e e e e de la fonction de contraste J(). On aura besoin du lemme suivant que lon utilisera par la suite pour justier la drivation sous le signe intgrale. e e Lemme 5.2. Soit (X , A) un espace mesurable et g : X R R une fonction mesurable de (X R, A B(R)) vers (R, B(R)), telle que g(x, ) est continment direntiable en pour u e
119
presque tout tout x X . Soit, de plus, sup

U
g(x, ) d(x) < ,
(5.20) (5.21)
|g(x, )|d(x) < , U,
o` U est un intervalle ouvert de R et est une mesure -nie sur A. Alors la fonction u G() = g(x, ) d(x)
est continment direntiable sur U et on peut driver sous le signe intgrale : u e e e d d g(x, ) d(x) = g(x, ) d(x), U.
Preuve. En utilisant (5.20) et le thor`me de Fubini, on obtient, pour tout 1 U, 2 U , e e

2 1
g(x, )d(x) d = =
2 1
g(x, )d d(x)
g(x, 2 ) g(x, 1 ) d(x) = G(2 ) G(1 ).

2
On a donc G(2 ) G(1 ) = avec G () = g(x, )d(x). g(x, ) g(x, ) d(x) G ()d.
1
Il ne reste qu` vrier que la fonction G est continue. Il vient, pour tout U, U , a e |G () G ( )|
Lexpression sous lintgrale dans le membre de droite converge vers 0 quand pour e presque tout x et elle est uniformment borne par la fonction 2 supU g(x, ) qui e e est intgrable vu (5.20). Lapplication du thor`me de convergence domine permet donc de e e e e conclure. Le Lemme 5.2 entra le rsultat suivant. ne e Lemme 5.3. Soit {F , } un mod`le rgulier. Supposons que la condition (5.8) soit e e vrie. Alors, la fonction de contraste J est deux fois continment direntiable sur un e e u e et voisinage de J ( ) = 0, J ( ) = E (l (X, )) = l (x, )f (x, )d(x). (5.22) (5.23)
120
Preuve. Montrons dabord que la fonction J est direntiable. Utilisons le Lemme 5.2 avec e = , g(x, ) = f (x, ) ln f (x, ). Les conditions (5.20) et (5.21) sont vries vu (5.18) et (5.8) respectivement. La fonction J e e est donc continment direntiable sur un voisinage U de et, pour tout U , u e J () = l (x, )f (x, )d(x). (5.24)
Dapr`s le Lemme 5.1, J() atteint son minimum pour = . Par consquent, J ( ) = 0. e e Montrons maintenant quil est possible de driver sous le signe intgrale dans (5.24) pour e e U , ce qui entra (5.23). Il sut dappliquer le Lemme 5.2 ` la fonction G() = J (). ne a Posons, dans le Lemme 5.2, g(x, ) = l (x, )f (x, ). Il est facile de voir que dans ce cas les hypoth`ses (5.20) et (5.21) du Lemme 5.2 dcoulent e e de (H3) et de (5.18) respectivement.
5.7.2. Proprits de linformation de Fisher. Donnons dabord deux exemples de e e mod`les non-rguliers pour lesquels linformation de Fisher nest pas dnie ou nest pas e e e strictement positive. Exemple 5.22. Linformation de Fisher nest pas dnie pour le mod`le uniforme e e {U [0, ], > 0}, car l(x, ) nest pas direntiable. Ce mod`le nest pas rgulier. e e e Exemple 5.23. Soit le mod`le statistique de densit e e 1 (x 2 )2 f (x, ) = exp , , 2 2 o` lensemble des param`tres = R. Alors l (x, ) = 2(x 2 ) et linformation de Fisher u e vaut I() = 42 . En particulier, I(0) = 0, donc le mod`le nest pas rgulier. Rappelons que e e ce mod`le nest pas indentiable (cf. Exemple 5.5). Par contre, le mod`le devient rgulier si e e e lon prend = { : > 0}. Lemme 5.4. Soit {F , } un mod`le rgulier. Alors e e I() = pour tout . Preuve. Comme f (x, ) est une densit de probabilit par rapport ` la mesure , e e a f (x, )d(x) = 1. (5.25) l (x, )f (x, )d(x),
Pour obtenir le lemme, on va driver cette galit 2 fois sous le signe intgrale. La dmonstrae e e e e tion utilise la double application du Lemme 5.2, avec = . Dabord, on pose dans le Lemme 5.2 g(x, ) = f (x, ).
121
Dans ce cas, la condition (5.20) du Lemme 5.2 est vrie vu (5.19). La condition (5.21) du e e Lemme 5.2 est vidente. On peut donc driver (5.25) sous le signe intgrale et, pour tout e e e , f (x, )d(x) = 0. Ceci quivaut ` e a l (x, )f (x, )d(x) = 0, . (5.27) (5.26)
Utilisons le Lemme 5.2 encore une fois pour justier la direntiation sous le signe intgrale e e dans (5.27). Posons, dans le Lemme 5.2, g(x, ) = f (x, ) = l (x, )f (x, ). Alors, g(x, ) = l (x, )f (x, ) + [l (x, )]2 f (x, ). (5.28) Vu (5.28) et lhypoth`se (H3), on obtient la condition (5.20) du Lemme 5.2. La condition e (5.21) du Lemme 5.2 dcoule de (5.19). On peut donc driver sous le signe intgrale dans e e e (5.27) et on obtient, en utilisant (5.28), g(x, )d(x) = ce qui dmontre le lemme. e 0= l (x, )f (x, )d(x) + I(),
Exemple 5.24. Information de Fisher pour le mod`le normal {N (, 2 ), R} avec 2 > 0 e connu : 1 I() 2 , R. Linformation de Fisher ne dpend donc pas de et la fonction de contraste correspondante e vaut 1 J() = J( ) + 2 ( )2 . 2 5.7.3. Interprtation graphique de linformation de Fisher. Les Lemmes 5.3 et e 5.4 impliquent que, sous les hypoth`ses de rgularit, e e e I( ) = J ( ). Dapr`s le Lemme 5.1, la fonction J atteint son minimum au point . Si la valeur I( ) est e petite, le rayon de courbure du graphique J() sur un voisinage du minimum de J est grand, donc la fonction J est plate sur ce voisinage. Si linformation I( ) est grande, la situation est dirente : J est pointue sur un voisinage de . Mais la fonction de contraste e J est la limite en probabilit de la fonction de log-vraisemblance ln . Autrement dit, ln , avec e une probabilit proche de 1 pour n assez grand, oscille dans un petit tube autour de J. Si e linformation I( ) est petite (J est plate), ses oscillations peuvent amener lestimateur du M maximum de vraisemblance n V loin de . Par contre, si I( ) est grande (J est pointue),
122
M lestimateur du maximum de vraisemblance n V est tr`s proche de , la vraie valeur du e param`tre. e
Ceci nous conduit ` la conclusion suivante : plus grande est linformation de Fisher, a plus proche est lEMV de la vraie valeur du param`tre. Le sens prcis mathmatique de e e e cette remarque sera lucid dans le rsultat sur la normalit asymptotique de lEMV (voir le e e e e Thor`me 5.2 plus loin). e e Il est utile de noter que linformation de Fisher est une caractristique locale en ce sens e quelle dcrit le comportement de la fonction de contraste J seulement sur un voisinage de son e minimum . Dans le mme esprit, la notion de mod`le rgulier est locale. Le fait quun mod`le e e e e ) globalement pour tout , ni mme statistique soit rgulier ne signie pas que J() > J( e e quil existe des estimateurs consistants de : un mod`le rgulier peut ne pas tre identiable. e e e En eet, le mod`le de lExemple 5.23 avec lensemble des param`tres = { : || < 1, = 0} e e est rgulier, mais il ne vrie videmment pas lHypoth`se (Id). e e e e Remarque. Les quantits J()J( ) et J( ) apparaissent souvent dans lusage statistique. e On appelle f (x, ) K(, ) = J() J( ) = ln f (x, )d(x) f (x, ) information de Kullback (ou divergence de Kullback) de f (x, ) par rapport ` f (x, ). Cest a ). Son interprtation est une mesure de divergence (dissymtrique) entre f (x, ) et f (x, e e similaire ` celle de linformation de Fisher : elle permet de juger si la fonction J() est a plate o` pointue. Mais, ` la dirence de linformation de Fisher, la valeur K(, ) est u a e une caractristique globale (non restreinte ` un voisinage de ) et elle est bien dnie pour e a e certains mod`les non-rguliers. e e La valeur J( ) = f (x, ) ln f (x, )d(x) est appele entropie de Shannon associe ` la densit f (x, ). Elle est parfois utilise comme e e a e e une mesure de dispersion, par exemple, quand la variance x2 f (x, )d(x) xf (x, )d(x)
2
nest pas nie, comme pour la loi de Cauchy. Lentropie de Shannon joue un rle important o dans la Thorie de lInformation. e 5.7.4. Information de Fisher du produit des densits. Linformation de Fisher e associe ` lchantillon i.i.d. X1 , ..., Xn dans un mod`le statistique rgulier {F , } est e a e e e dnie par : e L (Xn , ) 2 . In () = E L(Xn , ) (on remplace f (X, ) par la densit produit L(Xn , ) dans la Dnition 5.10). Il est facile de e e voir que In () = E ([ln ()]2 ) = nI(), o` I() est linformation de Fisher associe ` une seule observation. u e a (5.29)
5.8. NORMALITE ASYMPTOTIQUE DE LESTIMATEUR DU MAXIMUM DE VRAISEMBLANCE
123
5.8. Normalit asymptotique de lestimateur du maximum de vraisemblance e

RV Thor`me 5.2. Soit {F , } un mod`le rgulier et soit (n )n1 une suite consistante e e e e , de racines de lquation de vraisemblance. Alors, pour tout e RV D n(n ) N (0, 1/I( )). (5.30)
RV = Remarque. Dans ce thor`me, comme partout dans ce chapitre, lestimateur n e e RV (X , . . . , X ) est bas sur lchantillon (X , . . . , X ), o` X F , i.e. est la vraie n e e u i 1 n 1 n valeur du param`tre. Le rsultat (5.30) se traduit donc par la convergence e e
RV nI( ) (n ) t (t) quand n , t R, ,
o` est la fonction de rpartition de N (0, 1). u e Preuve. RV RV Etape 1. Comme n est une racine de lquation de vraisemblance, ln (n ) = 0. Il sensuit e que
RV ln ( ) = ln (n ) ln ( ) = 1 0 RV RV ln tn + (1 t) dt (n ),
donc o` u
RV n ln ( ) = An n (n ) An =
df e 0 1 RV ln tn + (1 t) dt.
(5.31)
Etape 2. On montre que D n ln ( ) N (0, I( )) quand n . En eet, 1 n ln ( ) = n o` les variables alatoires i.i.d. Zi = l (Xi u e E (Zi ) = et de variance E (Zi2 ) = Etape 3. On montre que An I( ) quand n , en P -probabilit. (La dmonstration de cette tape sera donne ci-apr`s.) e e e e e
P n
(5.32)
i=1 , )
1 l (Xi , ) = n
Zi ,
i=1
sont de moyenne
f (x, )d(x) = 0
(l (x, ))2 f (x, )d(x) = I( ).
Dapr`s le Thor`me central limite, on obtient donc (5.32). e e e
(5.33)
Etape 4. On conclut : (5.30) dcoule de (5.31) (5.33) et du rsultat 1o de lExercice 1.5. e e
124
Preuve de lEtape 3. On xe > 0. Alors P |An I( )| > P |An ln ( )| > /2 + P |ln ( ) I( )| > /2 . (5.34) Or, ln ( ) = 1 n
n i=1
l (Xi , ) I( ) quand n ,
dapr`s la loi des grands nombres. En eet, les v.a. l (Xi , ) sont i.i.d. et E (l (Xi , )) = e I( ). Il sensuit que la derni`re probabilit dans (5.34) tend vers 0 lorsque n et e e lim sup P (|An I( )| > ) lim sup P (|An ln ( )| > /2).
n n
(5.35)
On xe maintenant > 0. Evidemment,

RV P (|An ln ( )| > /2) P (|An ln ( )| > /2, |n | ) RV + P (|n | > ).
(5.36)
RV Comme n est un estimateur consistant, la derni`re probabilit dans (5.36) tend vers 0 e e lorsque n . De (5.35) et (5.36) on obtient RV lim sup P (|An I( )| > ) lim sup P (|An ln ( )| > /2, |n | ). (5.37) n n RV Si |n | , on a :
|An ln ( )| = o` u Par consquent, e
1 0
RV ln (tn + (1 t) ) ln ( ) dt
sup
:| | df e
|ln () ln ( )|
1 n
(Xi , )
i=1
(x, ) =
sup
:| |
|l (x, ) l (x, )|.
RV P (|An ln ( )| > /2, |n | ) P
1 n
(Xi , ) > /2
i=1
(2/)E ((X1 , )),
(5.38)
o` on a utilis lingalit de Markov. Or, pour tout x, (x, ) dcro de faon monotone vers u e e e e t c 0 quand 0, et 0 (x, ) 2 sup |l (x, )|.
:| |
Dapr`s lHypoth`se (H3), il existe 0 > 0 assez petit, tel que e e E sup
:| |0
|l (X1 , )|
< .
On peut donc utiliser le Thor`me de convergence domine, ce qui implique e e e

0
lim E (X1 , ) = 0.
(5.39)
On conclut en notant que (5.33) dcoule de (5.37) (5.39). e
5.9. COMPARAISON ASYMPTOTIQUE DESTIMATEURS
125
M Corollaire 5.1. Soit {F , } un mod`le rgulier et soit (n V )n1 une suite consistante e e des estimateurs du maximum de vraisemblance. Alors, pour tout ,
MV D n(n ) N (0, 1/I( )).
(5.40)
Preuve. Elle est immdiate dapr`s le Thor`me 5.2, compte tenu du fait que, sous les e e e e hypoth`ses de rgularit, tout EMV est une racine de lquation de vraisemblance. e e e e
5.9. Comparaison asymptotique destimateurs On peut proposer la dmarche asymptotique suivante pour dnir un estimateur optimal. e e Tout dabord, on consid`re uniquement les estimateurs asymptotiquement normaux, i.e. n e tels que D n (n ) N (0, v()) quand n , R, (5.41) o` v() > 0 est la variance asymptotique de n (prcisons que la convergence dans (5.41) est en u e loi P ). On dsigne par AN la classe de tous les estimateurs asymptotiquement normaux, i.e. e vriant (5.41), tels que la variance v() est une fonction continue et strictement positive sur e . Cette classe est assez large. Sous des hypoth`ses appropries, elle contient, par exemple, e e les estimateurs par la mthode des moments et ceux du maximum de vraisemblance. En e particulier, le Thor`me 5.2 montre que pour lEMV la variance asymptotique est v() = e e 1/I() et les Exercices 5.2, 5.3 montrent (5.41) pour quelques estimateurs par la mthode des e moments. Plus petite est la variance asymptotique v( ), plus proche est n de la vraie valeur du param`tre quand n est assez grand. Ceci nous conduit ` la mthode de comparaison e a e asymptotique destimateurs suivante. Dnition 5.12. Soient n et n deux estimateurs de classe AN dans le mod`le statise e (1) (2) tique {F , }, R. Notons v1 () et v2 () les variances asymptotiques de n et n (1) (2) respectivement. On dit que lestimateur n est asymptotiquement plus ecace que n si v1 () v2 () pour tout et si, de plus, il existe tel que v1 ( ) < v2 ( ). Un estimateur n est appel asymptotiquement ecace sil nexiste pas destimateurs e asymptotiquement plus ecaces que n . Cette dnition ressemble ` la Dnition 5.3 de lestimateur admissible, mais il sagit e a e ici de la proprit asymptotique. De plus, on consid`re ici la classe restreinte destimateurs ee e asymptotiquement normaux AN . Ceci permet, en particulier, dliminer les estimateurs abe surdes, comme n c, o` c est une constante. On peut montrer que, sous les hypoth`ses u e de rgularit, un estimateur asymptotiquement ecace a toujours la variance asymptotique e e
(1) (2)
126
v() = 1/I(). Par consquent, lEMV pour les mod`les statistiques vriant les hypoth`ses e e e e du Thor`me 5.2 est asymptotiquement ecace. Bien sr, il sagit ici de loptimalit de lEMV e e u e par rapport ` une classe restreinte destimateurs AN . Une approche plus ne de loptimalit a e due ` Le Cam permet de montrer que, sous des hypoth`ses assez gnrales, lEMV est aussi a e e e asymptotiquement optimal parmi tous les estimateurs. 5.10. Exercices Exercice 5.5. Soit (X1 , . . . , Xn ) un chantillon i.i.d. de loi de Bernoulli de param`tre e e (0 < < 1). 1o . Estimer par la mthode des moments et du maximum de vraisemblance. e 2o . Montrer que lestimateur du maximum de vraisemblance de est sans biais. e 3o . On cherche ` estimer la variance (1 ) ; X tant la moyenne empirique, on propose a lestimateur T = X(1 X). Vrier quil nest pas sans biais et donner un estimateur sans e biais de (1 ). Exercice 5.6. Supposons que lon observe n variables alatoires i.i.d. X1 , . . . , Xn . Calculer e lestimateur du maximum de vraisemblance lorsque la loi des variables Xi est : 1o . Une loi de Poisson P() de param`tre > 0. e 2o . Une loi exponentielle E() de param`tre > 0. e 3o . Une loi admettant la densit exp{(x )}1{x} , R. e l On vriera dans chaque cas que lon obtient bien le maximum global de la fonction de e vraisemblance. Dans quels cas EMV = REV ? Exercice 5.7. Soient n variables alatoires i.i.d. X1 , . . . , Xn , de densit uniforme U [, + 1], e e R. Montrer que tout point de lintervalle [X(n) 1, X(1) ] est un estimateur du maximum de vraisemblance de . Exercice 5.8. Soient n variables alatoires i.i.d. X1 , . . . , Xn , de loi normale N (, 2), > 0. e Calculer lestimateur du maximum de vraisemblance de et montrer quil est consistant. Exercice 5.9. Soient n variables alatoires i.i.d. X1 , . . . , Xn , de densit de Pareto e e 1 l , x+1 {x1} o` > 0 est un param`tre inconnu que lon souhaite estimer. u e 1o . On suppose dabord que lensemble des param`tres est = { > 1}. Estimer par la e mthode des moments. e 2o . On suppose maintenant que lensemble des param`tres est = { > 0}. Montrer que la e mthode des moments nest pas applicable. Estimer par la mthode des moments gnralise e e e e e et par celle du maximum de vraisemblance. 3o . Etudier la loi limite de lestimateur du maximum de vraisemblance et calculer linformation de Fisher I(). Comparer (nI())1 avec la variance asymptotique de lestimateur du maximum de vraisemblance. 4o . Le mod`le statistique en question est-il rgulier ? e e
5.10. EXERCICES
127
Exercice 5.10. Une cha de montage produit des objets, dont on veut estimer la dure ne e moyenne de fabrication. On suppose que les temps de fabrication Ti sont indpendants et de e loi exponentielle de param`tre . Le n-i`me objet est donc fabriqu ` la date T1 + . . . + Tn , e e ea et on observe le nombre dobjets Nt fabriqus ` la date t. e a 1o . Montrer que P (Nt n) = P (T1 + . . . + Tn+1 t). 2o Quelle est la loi de T1 +. . .+Tn ? On pourra utiliser les proprits des lois Gamma. Montrer, ee par intgration par parties, que Nt suit une loi de Poisson dont on donnera le param`tre. e e 3o . Construire un estimateur de par la mthode des moments et par celle du maximum de e vraisemblance. Etudier le comportement des risques quadratiques respectifs lorsque t tend vers linni. Exercice 5.11. Soient X1 , . . . , Xn des variables alatoires i.i.d., dont la densit est e e 2 x exp(x)1{x0} , l o` > 0. u 1o . Le mod`le statistique est-il rgulier ? e e o . Chercher lestimateur M M de par la mthode des moments. 2 e n M 3o . Chercher lestimateur du maximum de vraisemblance n V et donner son risque quadratique. Proposer un estimateur sans biais et comparer le ` n V . a M MV 4o . Quelle est la loi limite de n(n ) ? Exercice 5.12. Soient X1 , . . . , Xn des variables alatoires i.i.d. pouvant prendre les valeurs e 0, 1, 2 avec probabilits p/2, p/2, 1 p. Dans cet exercice, on note n0 , n1 et n2 le nombre de e 0, de 1 et de 2 dans lchantillon. e o . Dans quel intervalle de R varie p ? Proposer un estimateur p de p par la mthode des 1 1 e moments et calculer son risque quadratique. Calculer p1 en fonction de n0 , n1 , n2 et n. 2o . Calculer en fonction de n0 , n1 , n2 lestimateur p2 obtenu par la mthode du maximum e n 1{Xi =k} , k = 0, 1, 2, calculer son risque l de vraisemblance. En remarquant que nk = i=1 quadratique et comparer le ` celui de p1 . a Exercice 5.13. Mod`le de mlange. Soient X1 , . . . , Xn des variables alatoires i.i.d. de densit e e e e f qui est un mlange de deux densits gaussiennes N (0, 1) et N (0, 4) : e e 1 x2 1 x2 f (x) = p exp + (1 p) exp , 2 8 2 2 2 o` 0 < p < 1 est un param`tre inconnu que lon souhaite estimer. Quelle dicult rencontreu e e t-on pour traiter lestimateur du maximum de vraisemblance ? Expliciter pn , lestimateur de p obtenu ` laide de la mthode des moments (on utilisera 2`me moment). Montrer que a e le e p lestimateur pn est consistant et dterminer la loi limite de n(n p) lorsque n . e Exercice 5.14. Soient X1 , . . . , Xn des variables alatoires i.i.d. de densit e e f (x, ) = (1 + )1{0x1/2} + (1 )1{1/2<x1} , l l o` ] 1, 1[ est un param`tre inconnu que lon souhaite estimer. Calculer lestimateur du u e M e maximum de vraisemblance n V de . Est-il consistant ? sans bias ? Dterminer la loi limite M V de n(n ) quand n .
128
Exercice 5.15. Soit la densit de probabilit f (x) = 2(1 x)1{0x1} . On dispose dun e e l chantillon i.i.d. (X1 , . . . , Xn ) de densit f (x ), o` R est un param`tre inconnu. e e u e 1o . Le mod`le statistique est-il rgulier ? e e M 2o . Chercher n M , lestimateur de par la mthode des moments (en utilisant seulement le e premier moment). M M 3o . Lestimateur n M est-il consistant ? sans biais ? Quelle est la loi asymptotique de n M ? M 4o . Montrer que lestimateur du maximum de vraisemblance de est n V = X(1) . Exercice 5.16. Le but de cet exercice est de montrer quil existe des mod`les statistiques e non-rguliers tels que : e lEMV pour ces mod`les converge ` la vitesse plus rapide que pour les mod`les rguliers, e a e e lEMV pour ces mod`les est inadmissible. e Considrons le mod`le uniforme {U [0, ], > 0}. Soient X1 , . . . , Xn des variables alatoires e e e i.i.d. de loi U [0, ]. 1o . Calculer le biais, la variance et le risque quadratique de lestimateur du maximum de M vraisemblance n V . Noter que le risque quadratique converge vers 0 ` la vitesse 1/n2 . a o . Parmi les estimateurs de la forme c M V , c R, dterminer tel que son risque quadratique 2 e n soit minimal. On note cet estimateur n . Dduire que lestimateur du maximum de vraiseme M blance n V est inadmissible. M 3o . Chercher les lois limites de n(n V ) et de n(n ).
Tests dhypoth`ses et rgions de conance e e

6.1. Le probl`me de test dhypoth`se e e Dans ce chapitre, nous considrerons des hypoth`ses sur la valeur du param`tre inconnu e e e dune loi de probabilit et nous proposerons des mthodes permettant de dcider si celles-ci e e e sont ou non correctes. Commenons par lexemple suivant. c Exemple 6.1. Dtection de missile. Une des premi`res applications de la thorie des tests e e e statistiques tait lie au probl`me militaire de dtection de la prsence dun missile ` laide e e e e e a de radar. Lcho de radar est grand si un missile est prsent et il est petit dans le cas e e contraire. Supposons que lon observe une suite de valeurs X1 , . . . , Xn de lecho de radar aux instants 1, . . . , n. On peut supposer que les Xi sont des variables alatoires (eet de bruit de e propagation dondes, erreurs de mesures, etc.), quelles sont i.i.d. et, plus particuli`rement, e se placer dans le cadre dun mod`le paramtrique, de mme quau Chapitre 5. Notamment, e e e supposons que lon conna la famille paramtrique de fonctions de rpartition F = {F , t e e } telle que la fonction de rpartition F des Xi appartient ` F, i.e. F = F pour une valeur e a inconnue ( est la vraie valeur du param`tre). Supposons aussi que lensemble e peut tre dcompos en deux sous-ensembles disjoints 0 et 1 : e e e = 0 1 , de sorte que 0 si et seulement si un missile est prsent, e alors que 1 si et seulement si il ny a pas de missile. Notre objectif est le suivant : ` partir des observations X1 , . . . , Xn , dcider si le missile est a e prsent (i.e. 0 ) ou non (i.e. 1 ). e
129
0 1 = ,
130
` 6. TESTS DHYPOTHESES ET REGIONS DE CONFIANCE
On appelle 0 hypoth`se ou hypoth`se nulle et 1 alternative ou hypoth`se alternative e e e et on utilise lcriture symbolique suivante pour dnir le probl`me de test : e e e H0 : 0 , Remarques. (1) Par la suite, nous crirons lhypoth`se H0 et lalternative H1 aussi bien que e e lhypoth`se 0 et lalternative 1 . e (2) Lcriture 0 et 1 dans la dnition symbolique (6.1) de probl`me e e e de test est standard dans la littrature statistique, mais elle nest pas tr`s prcise. e e e Il serait plus prcis dcrire que 0 ou 1 , o` est la vraie valeur du e e u param`tre. e Lhypoth`se (ou lalternative) est dite simple si 0 (ou 1 ) ne contient quun seul lment. e ee Dans le cas contraire, on lappelle hypoth`se (ou alternative) composite (ou multiple). e Dnition 6.1. Un test dhypoth`se H0 est une r`gle qui, pour tout chantillon donn Xn = e e e e e (X1 , ..., Xn ), dit si lon accepte ou rejette H0 . Un test est donc identique ` une dcomposition de lensemble de tous les chantillons a e e possibles Xn en deux parties disjointes : la partie R o` lon rejette H0 et son complment Rc u e o` lon ne rejette pas H0 . On appelle R rgion critique du test (ou rgion de rejet) : u e e si Xn R on rejette H0 , si Xn R on accepte H0 . / Remarque. Comme un test est enti`rement dni par la donne de sa rgion critique R, on e e e e crira souvent dans la suite, pour abrger,test R au lieu de test ` rgion critique R. e e a e Exemple 6.2. Un test na Considrons le mod`le statistique {N (, 1), {0, 1}} avec f. e e = {0, 1}, 0 = {0} et 1 = {1}. Etant donn lchantillon Xn = (X1 , ..., Xn ), on souhaite e e choisir entre les hypoth`ses H0 : = 0 et H1 : = 1. Notre hypoth`se de prfrence est = 0, e e ee on cherche ` accepter ou ` rejeter cette hypoth`se. Notons que X est un bon estimateur de a a e dans le mod`le normal, i.e. il est proche de la vraie valeur du param`tre pour n assez grand. e e Ceci nous incite de construire un test qui semblerait, ` la premi`re vue, intuitif : on rejette a e lhypoth`se H0 si X > 1/2, i.e. si X est plus proche de 1 que de 0. La rgion de rejet de ce e e test est R = {Xn : X > 1/2}. On verra dans la suite quun tel test nest pas toujours tr`s adquat : il traite lhypoth`se e e e et lalternative de faon galitaire, tandis quil est souvent utile de tenir compte dune c e certaine dyssymtrie entre lhypoth`se et lalternative. En eet, lhypoth`se peut savrer e e e e plus dangereuse que lalternative, comme dans lExemple 6.1. Voici quelques exemples dhypoth`ses H0 et H1 sur le param`tre R (avec une valeur e e donne 0 R) : e H0 : = 0 , H1 : = 0 test dune hypoth`se simple contre une alternative composite ; e H0 : > 0 , H1 : 0 test dune hypoth`se composite contre une alternative e composite ; H1 : 1 . (6.1)
` 6.2. TEST DHYPOTHESE SIMPLE CONTRE LALTERNATIVE SIMPLE
131
H0 : > 0 , H1 : = 0 test dune hypoth`se composite contre une alternative e simple. Tout au long de ce chapitre on supposera que lHypoth`se (E) (hypoth`se dchantillonnage), e e e lHypoth`se (P) (hypoth`se de paramtrisation) et lHypoth`se (D) (hypoth`se de dominance) e e e e e du Chapitre 5 soient vries. e e 6.2. Test dhypoth`se simple contre lalternative simple e Dans ce paragraphe, nous tudierons le cas basique o` lhypoth`se et lalternative sont e u e simples : H0 : = 0 , H1 : = 1 . (6.2)
Ici 0 et 1 sont deux valeurs donnes. Le mod`le statistique est {F , } o` = {0 , 1 }. e e u Par la suite, P dsignera la loi jointe de (X1 , . . . , Xn ) quand les Xi sont i.i.d. de loi F (cf. e Paragraphe 5.1.2). En choisissant entre lhypoth`se et lalternative on sexpose ` deux types derreurs : e a
e Erreur de 1`re esp`ce : rejeter lhypoth`se H0 , alors quelle est vraie. e e e Erreur de 2`me esp`ce : accepter lhypoth`se H0 , alors quelle est fausse. e e
On associe ` ces erreurs les deux risques suivants. a

e Risque de 1`re esp`ce = P0 (Xn R). e
Cest la probabilit de rejeter lhypoth`se H0 , alors quelle est vraie (lindice 0 de la probabilit e e e signale quelle est calcule sous lhypoth`se que la vraie valeur du param`tre est gale ` 0 ). e e e e a
e Risque de 2`me esp`ce = P1 (Xn R). e /
Cest la probabilit daccepter lhypoth`se H0 , alors quelle est fausse (lindice 1 de la probae e bilit signale quelle est calcule sous lhypoth`se que la vraie valeur du param`tre est gale e e e e e ` 1 ). a Comment choisir la rgion critique R de faon optimale ? Il est clair que plus petits sont e c les deux risques, mieux est il. Cependant, on ne peut pas minimiser en R les deux risques e simultanment. En eet, pour minimiser le risque de 1`re esp`ce il faut choisir R aussi petit e e `me esp`ce, au contraire, il faut choisir R aussi e que possible. Pour minimiser le risque de 2 e grand que possible. Donc, il faut chercher une mthode de choix de R permettant dtablir un compromis e e entre les deux risques. Lapproche la plus courante est celle de Neyman Pearson. Elle est fonde sur lide de dissymtrie entre H0 et H1 . An de comprendre son origine, revenons ` e e e a e lExemple 6.1 (dtection de missile). Si lon commet lerreur de 1`re esp`ce (i.e. on rejette sans e e raison lhypoth`se quun missile est prsent ), cela peut nous coter beaucoup plus cher et e e u e les consquences peuvent tre beaucoup plus dangereuses que si lon commet lerreur de 2`me e e
132
esp`ce, i.e. lerreur de fausse alerte. Ceci explique le fait que dhabitude on xe une borne e e pour le risque de 1`re esp`ce : on veut que e P0 (Xn R) , o` ]0, 1[ est petit. u (6.3) Les valeurs couramment utilises de sont = 0.01, = 0.05, = 0.1. Ayant born le risque e e e e de 1`re esp`ce par (6.3), il est naturel de chercher ` minimiser le risque de 2`me esp`ce e a e = (R) = P1 (Xn R), /
e i.e. de chercher un test R tel que son risque de 2`me esp`ce soit minimal parmi tous les tests e qui vrient la contrainte (6.3). e
Dnition 6.2. Soit 0 < < 1. Un test R de lhypoth`se simple H0 : = 0 est dit test de e e niveau si P0 (Xn R) et test de taille si P0 (Xn R) = . La valeur est dite niveau (ou niveau de signication) du test. Nous pouvons donc formuler une approche suivante du choix optimal de test. Paradigme de Neyman Pearson. Soit 0 < < 1 un niveau donn. On dclare e e e optimal tout test R de niveau qui atteint le minimum du risque de 2`me esp`ce e parmi tous les tests de niveau . Dnissons la puissance du test R par e (R) = 1 (R) = P1 (Xn R). Dnition 6.3. Un test R test de niveau de lhypoth`se simple H0 : = 0 contre e e lalternative simple H1 : = 1 est appel test le plus puissant de niveau (en abrg e e e test PP de niveau ) si (R ) (R) pour tout test R de niveau . Vu cette dnition, une faon quivalente de formuler le Paradigme de Neyman Pearson e c e est la suivante : on dclare optimal tout test PP de niveau . e Il est remarquable quun test PP de niveau existe dans plusieurs situations et quon peut le trouver de faon explicite. Il appartient ` la famille de tests ayant les rgions critiques c a e de la forme : R (c) = {Xn : L(Xn , 1 ) > cL(Xn , 0 )} , n o` L(Xn , ) = i=1 f (Xi , ) est la fonction de vraisemblance et c > 0 est une constante ` u a prciser. Tout test qui correspond ` une rgion critique de cette forme sappelle test du e a e rapport de vraisemblance. Si, de plus, on a partout L(Xn , 0 ) > 0, on peut dnir la e L(Xn , 1 ) variable alatoire e appele rapport de vraisemblance et crire e e L(Xn , 0 ) R (c) = Xn : L(Xn , 1 ) >c . L(Xn , 0 )
133
Le rsultat suivant est fondamental dans la thorie des tests. e e Thor`me 6.1. (Lemme fondamental de Neyman Pearson.) Sil existe une valeur e e c > 0 telle que P0 L(Xn , 1 ) > c L(Xn , 0 ) = , R (c ) (6.4) alors le test du rapport de vraisemblance ` rgion critique a e fournit le minimum du `me esp`ce parmi tous les tests de niveau . Autrement dit, ce test est PP de e risque de 2 e niveau . Preuve. Notons pour abrger Li = L(Xn , i ), i = 0, 1. Il faut montrer que pour tout R e vriant lingalit e e e P0 (Xn R) on a : P1 (Xn R) P1 (Xn R ) / / o` u R = R (c ). Or, (6.6) quivaut ` P1 (Xn R) P1 (Xn e a P1 (Xn R ) P1 (Xn R) = =
R \R R
(6.5) (6.6) R ) et on a :
L1 d
L1 d L1 d,
L1 d
R\R
o` est la mesure dominante (voir lHypoth`se (D), Chapitre 5). Comme R \R R , on u e obtient : L1 > c L0 sur R \R. De la mme faon, L1 c L0 sur R\R . Alors, e c
R \R
L1 d
R\R
L1 d c = c
R \R
L0 d
R\R
L0 d
L0 d
L0 d
= c [P0 (Xn R ) P0 (Xn R)] 0, vu (6.5) et le fait que P0 (Xn R ) = dapr`s (6.4). e Exemple 6.3. Considrons le mod`le statistique {N (, 2 ), R} avec 2 connu. Supposons e e que lon souhaite tester lhypoth`se H0 : = 0, contre lalternative H1 : = 1 (i.e. 0 = 0, e 1 = 1). Dans ce cas la fonction de vraisemblance vaut
n
L(Xn , ) =
i=1
f (Xi , ) avec
f (x, ) = (2)1/2 1 exp
(x )2 2 2
et le rapport de vraisemblance est L(Xn , 1) = L(Xn , 0)

n
exp
i=1
1 n [2Xi 1] = exp [2X 1] . 2 2 2 2 n [2X 1] c 2 2
Le test du rapport de vraisemblance a pour rgion critique e R = exp
134
avec une constante c > 0 ` prciser. On peut lcrire sous la forme quivalente : a e e e 1 2 ln c + . R = {X c} avec c = n 2 ) = , i.e. P (X c) = . Notons Choisissons la constante c de faon ` obtenir P0 (Xn R c a 0 2 ) correspondant ` la valeur que sous P0 (i.e. sous lhypoth`se H0 ) les Xi suivent la loi N (0, e a du param`tre = 0. On a donc X N (0, 2 /n) sous P0 . Alors, e nX nc nc c) = P0 P0 (X =1 , o` () est la f.d.r. de la loi normale standard. Pour que R soit un test de taille , il faut u prendre c comme solution de c n 1 = , ce qui quivaut ` e a N c = c = q1 , n o` q1 dsigne le quantile dordre 1 de la loi N (0, 1). La rgion critique du test PP de u N e e niveau est donc N R = X q1 . n
N Considrons lexemple numrique : = 2, = 0, 05 et n = 25. Dans ce cas q0,95 1, 64, e e 2 c0,05 5 1, 64 = 0, 656. On rejette donc lhypoth`se H0 : = 0 au niveau 0, 05 si X 0, 656 e < 0, 656. et on ne rejette pas H0 au niveau 0, 05 si X Pour calculer la puissance de ce test, on remarque que sous P1 , la variable n(X 1)/ suit la loi normale N (0, 1), donc = P1 (Xn R ) = P1 (X c) n(X 1) n(c 1) = P1 n(c 1) n(1 c) = 1 = .
1.8
1.6
1.4
1.2
0.8
0.6
0.4
0.2

0.5 0 0.5
0 1
1.5
Fig. 6.1. Densit de la statistique X sous P0 et sous P1 . e
135
Remarques.
e (1) On ne peut pas simultanment diminuer le risque de 1`re esp`ce et augmenter la e e puissance (cf. Fig. 6.1).
(2) Quand n le test devient de plus en plus puissant : 1. (3) Dans les applications, on vite la formulation accepter H0 . On dit plutt ne pas e o rejeter H0 . Ceci sexplique par le fait que, dans la pratique, le statisticien nest pas toujours sr de la dnition de lhypoth`se H0 quil choisit pour tester. Sil ne rejette u e e pas H0 , il y a beaucoup dautres hypoth`ses H0 quil ne rejette pas non plus. Par e contre, si le rsultat du test est la rejection de H0 au niveau (o` est tr`s petit), e u e ceci signie que H0 est vraiment tr`s peu probable, autrement dit, la rejection est e sre. u Dans les applications, une pratique couramment rpandue consiste ` se rfrer au seuil e a ee critique (p-value) du test. Il sagit de donner, pour un chantillon x et un test x, la e e e plus grande valeur de niveau , pour laquelle lhypoth`se H0 nest pas rejete par le test. La e e donne du seuil critique permet de trouver lensemble de tous les tels que lhypoth`se H0 e e est rejete (ou ne pas rejete) au niveau , sans refaire les calculs pour chaque particulier. e e Dnition 6.4. Supposons que lchantillon Xn est x et on utilise un test x. La valeur e e e e = (Xn ) est dite seuil critique (p-value) du test si lon rejette H0 pour tout > et on ne rejette pas H0 pour tout < . N Dans lExemple 6.3, le test PP de niveau est R = {X c } avec c = q1 / n et nc 1= . Pour un X donn, on passe de lacceptation au rejet de H0 ` partir de = (X) tel que e a Ce choix correspond ` la valeur vriant c = X. a e nX . 1 = Alors, le seuil critique (p-value) de ce test est donn par e nX = 1 . On rejette lhypoth`se H0 : = 0 ` tout niveau > et on ne rejette pas H0 pour < . e a Si le seuil critique est relativement grand ( > 0.1), on peut linterprter comme une e indication en faveur de lhypoth`se H0 : par exemple, on ne peut pas rejeter H0 aux niveaux e habituels = 0.01, = 0.05, = 0.1. Le fait que soit petit ( < 0.1) sinterp`te comme e une indication contre lhypoth`se H0 . e Remarque. Dans la pratique, une question importante est de bien poser le probl`me de test, e i.e. de choisir laquelle des deux hypoth`ses en question doit tre nomme hypoth`se nulle H0 . e e e e Il y a plusieurs r`gles heuristiques de le faire, dont les suivantes. e Choisir comme H0 lhypoth`se que lon cherche ` rejeter : e.g., si lon teste un mdicament, e a e on prend comme H0 lhypoth`se que le mdicament nest pas ecace (ceci doit tre trae e e duit, bien videmment, en termes de param`tres des lois statistiques). e e
136
Si lune de deux hypoth`ses est plus simple ou de dimension plus petite que lautre, e cest elle qui est gnralement nomme H0 (exemple : H0 : = 0, H1 : = 0). e e e Tr`s souvent H0 est plus importante ou plus dangereuse que H1 (cf. Exemple 6.1 e li ` la dtection de missile). ea e 6.3. Tests des hypoth`ses composites e Considrons maintenant les tests de deux hypoth`ses composites, i.e. tels que les ensembles e e 0 et 1 peuvent contenir plus dun lment. ee H0 : 0 , H1 : 1 .
On peut alors formuler une gnralisation du paradigme de Neyman Pearson. Pour ce faire, e e e dnissons dabord le risque de 1`re esp`ce dun test R de lhypoth`se composite H0 : e e e
e Risque de 1`re esp`ce = sup P (Xn R). e 0 e Si 0 ne contient quun seul lment : 0 = {0 }, on retrouve la dnition du risque de 1`re ee e esp`ce pour lhypoth`se simple donne au paragraphe prcdent. e e e e e
Dnition 6.5. Soit 0 < < 1. Un test R de lhypoth`se composite H0 : 0 est dit test e e de niveau si
0
sup P (Xn R)
et test de taille si
0
sup P (Xn R) = .
Autrement dit, pour un test de niveau de lhypoth`se composite H0 , le maximum des e e risques de 1`re esp`ce pour toutes les hypoth`ses simples H0 : = 0 avec 0 appartenant ` e e a 0 est born par . e
e Si lalternative 1 est composite, il ny a pas de notion de risque de 2`me esp`ce : on le e remplace par la notion de fonction puissance.
Dnition 6.6. La fonction : [0, 1] dnie par e e () = P (Xn R) est appele fonction puissance du test R (ou caractristique oprationnelle du test R). e e e Quand il sagit une alternative composite 1 , lensemble des valeurs {(), 1 } joue e un rle analogue ` celui du risque de 2`me esp`ce pour le cas dalternative simple. Soulignons o a e que 0 () 1.
` 6.3. TESTS DES HYPOTHESES COMPOSITES
137
Dnition 6.7. Un test R de niveau est dit uniformment plus puissant (UPP) de e e niveau contre lalternative H1 : 1 si () = P (Xn R) P (Xn R ) = () pour tout 1 et tout test R de niveau . Le paradigme de Neyman Pearson pour des hypoth`ses composites se gnralise de la e e e faon suivante : dclarer optimal tout test UPP de niveau . c e Il est utile de noter que les tests UPP nexistent que dans quelques cas exceptionnels. Nous allons ici en dcrire un : celui du mod`le normal et dalternative unilatrale. e e e Exemple 6.4. Test UPP pour le mod`le normal {N (, 2 ), R} avec > 0 connu. e Considrons le probl`me de test de deux hypoth`ses composites suivantes : e e e H0 : 0, H1 : > 0. Introduisons le test N R = {X > c } avec c = q1 n (6.8) (6.7)
et calculons sa fonction puissance (). Notons que, pour tout R, la variable alatoire e n(X )/ suit la loi normale standard sous P . On a alors, n(X ) n(c ) n(c ) > =1 () = P (X > c ) = P n( c ) n N = = q1 (6.9) o` est la fonction de rpartition de la loi normale standard N (0, 1). En utilisant la symtrie u e e de , on obtient
N N (0) = (q1 ) = 1 (q1 ) = 1 (1 ) = .
1
()
0.5
0 3
0 0
1
3
Fig. 6.2. Fonction puissance du test R.
Vu la monotonie de , le test R est de niveau (et de taille) :

0
sup P (Xn R) = sup () = (0) = ,

0
138
e o` 0 = { 0}. Montrons que R dni par (6.8) est un test uniformment plus puissant de u e niveau . Fixons une valeur 1 = { > 0}. Considrons les hypoth`ses simples e e H0 : = 0, H1 : = . Dapr`s le lemme de Neyman Pearson et lExemple 6.3, le test R donn par (6.8) de lhye e poth`se simple H0 : = 0 contre lalternative simple H1 : = satisfait : e P (Xn R) P (Xn R) pour tout test R de niveau , i.e. tel que P0 (Xn R) . Mais si un test R vrie sup0 P (Xn R) , il vrie aussi (6.11), car 0 0 . e e Par consquent, pour tout test R de niveau de lhypoth`se composite H0 : 0 contre e e lalternative composite H1 : > 0 et pour tout > 0, on a (6.10). Ceci quivaut ` dire que e a R est un test uniformment plus puissant de niveau pour le probl`me de test (6.7). e e Il est facile de voir que le test R est aussi uniformment plus puissant de niveau pour le e probl`me de test de lhypoth`se simple H0 : = 0 contre lalternative composite H1 : > 0. e e e La fonction puissance du test R dni dans (6.8) est donne par (cf. (6.9)) : e n N () = q1 . Sa drive vaut e e n n N () = q1 , (6.11) (6.10)
o` (x) = (x) est la densit de la loi normale N (0, 1). En utilisant ces formules on peut u e analyser le comportement asymptotique quand n de la fonction puissance () (voir les graphiques suivants).
1
n=10000
n=1000
0.5
n=100
0 3
0 0
Fig. 6.3. Pour tout 1 , () 1 lorsque n .
` 6.4. TESTS DANS LE MODELE NORMAL
139
() 1
Fig. 6.4. On obtient asymptotiquement, quand n , une fonction puissance idale. e
Dnition 6.8. Un test R sappelle consistant si () 1 lorsque n pour tout e 1 . Dnition 6.9. Un test R est dit sans biais si e sup () inf ().
0 1
e Exercice 6.1. Montrer que le test R dni par (6.8) est consistant et sans biais.
1.2
1.2
0.8
( )
0.8
()
0.6
0.6
0.4
0.4
0.2
0.2
0
0 1 0.8 0.6 0.4 0.2 0 0.2
1
0.4 0.6 0.8 1 0 1 0.8 0.6 0.4
0
0.2 0 0.2
1
0.4 0.6 0.8 1
Fig. 6.5. Fonctions puissance dun test sans biais et dun test biais. e
6.4. Tests dans le mod`le normal e Le mod`le statistique que nous considrerons dans ce paragraphe est {N (, 2 ), e e R, > 0}. Soit 0 une valeur donne. On examinera dabord les tests dhypoth`se sur e e le param`tre quand est connu, en tudiant sparement le cas dalternative unilatrale e e e e H1 : > 0 ( 0 ) ou H1 : < 0 ( 0 ) et celui dalternative bilatrale H1 : = 0 . e
140
6.4.1. Alternative unilatrale, connu. Cas H0 : = 0 , H1 : > 0 avec > 0 e connu. Notons Xi = Xi 0 , = 0 , alors le probl`me de test se rcrit comme e ee H0 : = 0, H1 : > 0.
q N }, n 1
Pour ce dernier, comme on la dj` vu, le test R = {X > ea est uniformment plus puissant de niveau . Alors le test e N R = X > 0 + q1 n
o` X = n1 u
n i=1 Xi ,
est uniformment plus puissant de niveau pour le probl`me initial. e e Etudions la fonction puissance de ce test. Rappelons-nous que, sous P0 , la v.a. suit la loi N (0, 1). On a alors N n(X ) n(0 ) N > 0 + q1 = P () = P X > + q1 n n(0 ) n( 0 ) N N q1 . = 1 q1 + = Comme
N N (0 ) = (q1 ) = 1 (q1 ) = , n(X0 )
cest un test de niveau . Notons que () reprsente une translation par 0 de la fonction e puissance (6.9) du test (6.8) de lhypoth`se H0 : = 0 contre lalternative H1 : > 0. e Cas H0 : 0 , H1 : > 0 , avec connu. Le mme test e N R = X > 0 + q1 n est UPP de niveau (cf. Paragraphe 6.3). Les cas (H0 : = 0 , H1 : < 0 ) et (H0 : 0 , H1 : < 0 ) avec connu peuvent tre traits de faon similaire aux cas prcdents. Notamment, le test e e c e e N R = X < 0 q1 n est uniformment plus puissant de niveau pour ces probl`mes (dmontrez ceci ` titre dexere e e a cice). La fonction puissance du test R est N () = P X < 0 q1 = P n n(0 ) N q1 , = n(X ) n(0 ) N < q1
` 6.4. TESTS DANS LE MODELE NORMAL N et (0 ) = (q1 ) = .

1.2
141
0.8
()
0.6
0.4
0.2
1
0 2 1.5
0= 1 0.5
0
0 0.5
Fig. 6.6. Fonction puissance du test R.
Remarque. Notons que si lalternative est unilatrale, le test du rapport de vraisemblance e dans le cas gaussien scrit de mani`re tr`s simple : lalternative > 0 (ou 0 ) est associe e e e e avec la rgion critique de la forme {X > C}, alors que lalternative < 0 (ou 0 ) est e associe avec {X < C} (mme sens des ingalits dans la dnition de lalternative et de la e e e e e rgion critique), pour une constante C = C(, 0 ) que lon choisit de faon ` sassurer que le e c a test soit de niveau . 6.4.2. Alternative bilatrale, connu. Considrons lhypoth`se et lalternative e e e H0 : = 0 , Introduisons la rgion critique e R = {|X 0 | > c}, o` c > 0 est choisi de faon ` obtenir un test de taille , i.e. c = C est tel que u c a P0 (|X 0 | > C ) = . Sous P0 , la v.a. suit la loi normale N (0, 1). Donc, n(X 0 ) nC 0 | > C ) = P P0 (|X > =P 0
n(X0 )
H1 : = 0 .
nC || >
o` N (0, 1). On veut que cette derni`re expression soit gale ` , ce qui quivaut ` u e e a e a nC nC = 1 , ou bien ` a Il en dcoule que la rgion critique e e R = n |X 0 | > q1/2 n (6.12) N C = q1/2 . n
142
dnit un test de niveau de lhypoth`se H0 : = 0 contre lalternative bilatrale H1 : = e e e 0 . La fonction puissance de ce test est donne par e N () = P Xn R = P |X 0 | > q1/2 n N N = P X > 0 + q1/2 + P X < 0 q1/2 n n n(0 ) n(0 ) N N =P > + q1/2 + P < q1/2 n(0 ) n(0 ) N N = 1 q1/2 + + q1/2 n( 0 ) n(0 ) N N = q1/2 + q1/2 , (6.13) o` = n(X )/ N (0, 1) sous P . u
1.2
()
0.8
0.6
0.4
0.2
0 2 1.8 1.6 1.4 1.2 0= 1 0.8 0.6 0.4 0.2 0
Fig. 6.7. La fonction puissance du test bilatral. e
Quand n , la valeur (0 ) reste xe : (0 ) = , mais pour tout = 0 , on a e () 1, i.e. le test (6.12) est consistant. Cest aussi un test sans biais. Etant donne la valeur de la statistique X, on peut calculer la p-value = (X) e correspondant au test bilatral (6.12). Elle est dtermine par lquation e e e e n |X 0 | = q1 /2 n qui a comme solution =2 1
n |X 0 |
Notons que le test bilatral dni par (6.12) nest pas un test uniformment plus puissant e e e de niveau . En eet, il existe au moins un test de niveau qui est plus puissant que R sur un sous-ensemble de 1 . Ce test est dni par la rgion critique e e N R1 = X > 0 + q1 . n
` 6.4. TESTS DANS LE MODELE NORMAL
143
En eet, la fonction puissance correspondant ` R (cf. (6.13)) est a n( 0 ) n(0 ) N N () = q1/2 + q1/2 , alors que celle correspondant ` R1 est a n( 0 ) N 1 () = q1 .
1.2
*()
0.8
0.6
0.4
0.2
1()
0 2 1.8 1.6 1.4 1.2 0= 1
0.8 0.6 0.4 0.2 0
Fig. 6.8. Les fonctions puissance des tests R et R1 .
Les deux tests sont de niveau : (0 ) = et 1 (0 ) = , mais 1 () > () pour un intervalle de valeurs > 0 . En eet, d n n N N () (q1/2 ) (q1/2 ) = 0, o` (x) = (x), u = d =0 d n N 1 () (q1 ) > 0. = d =0 Notons que nanmoins le test R1 nest pas intressant : ce nest mme pas un test consistant, e e e car pour < 0 , 1 () 0 quand n . 6.4.3. Versions des tests avec inconnu. Si le param`tre est inconnu, on le reme place par un estimateur convenable. Dapr`s la Proposition 4.2, la statistique s2 /(n 1), e o` u n 1 (Xi X)2 , s2 = n
i=1
est un estimateur sans biais de On peut considrer mthode de construction des e une e N tests avec inconnu qui consiste ` remplacer / n par s/ n 1 et les quantiles q1 de la a loi normale par ceux de la loi de Student, dans la dntion de la rgion critique. Par exemple, e e au lieu de la rgion critique e N R = X > 0 + q1 n
2 /n.
144
du test de lhypoth`se H0 : = 0 contre lalternative H1 : > 0 , on prend e s R = X > 0 + q1 (tn1 ) , (6.14) n1 o` q1 (tn1 ) est le quantile dordre 1 de la loi de Student ` n 1 degrs de libert. Ceci u a e e donne un test de niveau (et de taille) . En eet, notons P, la loi de probabilit (dpendant e e maintenant de qui est inconnu) de (X1 , . . . , Xn o` les Xi sont i.i.d. de loi N (, 2 ). Sous ), u P, , pour tout R, > 0, la variable alatoire n 1(X )/s suit la loi de Student tn1 e (cf. Corollaire 4.2). On a alors s n 1(X 0 ) P0 , X > 0 + q1 (tn1 ) = P0 , > q1 (tn1 ) = . s n1 Si lon consid`re le probl`me de test bilatral : e e e H0 : = 0 , H1 : = 0 avec inconnu, la rgion critique dun test de niveau bas sur la mme ide est de la forme e e e e s R = |X 0 | > q1/2 (tn1 ) . n1 e e 6.4.4. Tests dhypoth`se sur la variance 2 . Considrons un chantillon i.i.d. Xn = e (X1 , . . . , Xn ) dune loi normale N (, 2 ), R, > 0. On souhaite tester au niveau dans le probl`me suivant : e 2 2 H0 : 2 0 , H1 : 2 > 0 . Cas de connu. Pour un > 0 x, considrons le test du rapport de vraisemblance e e R = {L(Xn , ) > CL(Xn , 0 )} , o` C > 0 est une constante ` prciser. Clairement, u a e 0 L(Xn , ) = exp L(Xn , 0 )
n
1 1 2 2 2 20
(Xi )2 ,
i=1
et la rgion de rejet du test est donc de la forme e R=

i=1
(Xi )2 > C ,
o` C > 0 est une constante. Choisissons C = C de faon ` obtenir u c a P0 (Xn R) = . Sous P0 la variable alatoire e
n i=1 (Xi n i=1 n 2 )2 /0 suit la loi 2 , donc n
P0 (Xn R) = P0 = P0
i=1
(Xi )2 > C C (Xi )2 > 2 2 0 0 = 1 F2 n C 2 , 0
o` F2 () est la f.d.r. de loi de u n
2 . n
On obtient alors
2 C = 0 q1 (2 ), n
6.5. TESTS ASYMPTOTIQUES
145
ce qui nous am`ne au test de la forme e

n
R=
i=1
2 (Xi )2 > 0 q1 (2 ) , n
(6.15)
o` q1 (2 ) dsigne le quantile dordre 1 de la loi 2 . Pour calculer la fonction puissance u e n n de ce test on remarque que sous P la variable alatoire n (Xi )2 / 2 suit la loi 2 et e n i=1
n
() = P (Xn R) = P
i=1 n
2 (Xi )2 > 0 q1 (2 ) n 2 0 q1 (2 ) n 2 2 0 q1 (2 ) . n 2
= P
i=1
(Xi 2
)2
>
= 1 F2 n
Notons que (6.15) dnit un test de niveau . En eet, pour tout 0 < 0 , e
2 0 q1 (2 ) 1 F2 (q1 (2 )) = . n1 n1 n1 2 Application numrique : pour n = 20, on souhaite tester au niveau = 0.05 lhypoth`se e e H0 : 2 contre lalternative H1 : > 2 avec = 0. Le quantile q0.95 (2 ) vaut 31.41 et la 20 rgion critique du test est e
1 F2 n1
20
R=
i=1
Xi2 > 125.64 .
La puissance de ce test au point = 4 est donne par : e (4) = P (2 > 125.64/16) = P (2 > 7.85) 0.9928. 20 20 Cas de moyenne inconnue. Considrons lhypoth`se et lalternative e e
2 H0 : 2 0 , 2 H1 : 2 > 0
quand est inconnu. Le param`tre est une nuisance, sa valeur ne nous intresse pas dans e e ce probl`me particulier. On peut utiliser le fait que, dapr`s la Proposition 4.4, sous P, la e e statistique ns2 / 2 suit la loi 2 . (Ici P, dsigne la loi jointe de (X1 , . . . , Xn ) quand les e n1 Xi sont i.i.d. de loi N (, 2 ).) On peut donc modier le test (6.15) de la faon suivante : c
2 R = {ns2 > 0 q1 (2 )}. n1
Cest bien un test de niveau . 6.5. Tests asymptotiques Dans la pratique, la loi des variables alatoires Xi est souvent inconnue. Supposons que e 2 ) < et que E (X ) = R. Alors, dapr`s le Thor`me central limite, sous P , E (Xi e e e i (X ) D n N (0, 1) quand n , () o` () est dni par u e
2 2 () = Var (X1 ) = E (X1 ) (E (X1 ))2
146
et on suppose que () > 0 pour tout . Si lapplication () est continue en , vu la P convergence X et le Thor`me de Slutsky, on obtient e e (X ) D n N (0, 1) quand n . (X) (6.16)
Bas sur ce rsultat donnant une approximation asymptotique de la loi de la statistique e e n(X )/(X), on peut proposer le test dhypoth`se H0 : = 0 contre lalternative e H1 : > 0 dni par e (X) N R = X > 0 + q1 . n Pour ce test lim P0 (Xn R) = .
n
En eet, compte tenu de (6.16),

n
lim P0
(X) N X > 0 + q1 n
= lim P0
n
n(X 0 ) N > q1 (X)
= .
Dnition 6.10. Un test R de lhypoth`se H0 : 0 contre lalternative H1 : 1 est e e dit test de niveau asymptotique si
0 n
sup lim P (Xn R) .
M Soit n V lestimateur de maximum de vraisemblance de dans un mod`le statistique e {F , Rk }. Si le mod`le statistique vrie les hypoth`ses du Thor`me 5.2, pour tout e e e e e , M n V , M nI()(n V ) N (0, 1) D P
quand n . Si linformation de Fisher I() est continue sur , par le Premier thor`me e e de continuit (Proposition 1.9), e
M I(n V ) I() quand n , P
et, vu le Thor`me de Slutsky, on obtient e e

M M nI(n V )(n V ) N (0, 1) quand n . D
(6.17)
On peut utiliser (6.17) pour construire un test de niveau asymptotique des hypoth`ses e classiques considres prcdemment. Par exemple, pour le probl`me bilatral, ee e e e e H0 : = 0 , H1 : = 0 , 1
M nI(n V )
on peut dnir un test de niveau asymptotique par e R=

M |n V 0 | > N q1/2 .
M M a a On remarque que cest un test de type (6.12), o` on substitue n V ` X et I(n V )1 ` 2 . u
6.6. TESTS DE COMPARAISON DE DEUX LOIS NORMALES
147
6.6. Tests de comparaison de deux lois normales Souvent on cherche ` comparer deux lois de probabilit ` partir de deux chantillons a e a e dirents. Supposons ici que ces chantillons sont i.i.d. et issus de deux lois normales : e e (1) (1) (2) (2) 2 2 (X1 , . . . , Xn1 ) de loi N (1 , 1 ), et (X1 , . . . , Xn2 ) de loi N (2 , 2 ). Supposons aussi lindpendance e (1) (1) (2) (2) des chantillons : (X1 , . . . , Xn1 ) (X1 , . . . , Xn2 ). e e e u e 6.6.1. Test dgalit des variances. On se place dans le cadre gnral, o` les esprances e e 1 et 2 sont inconnues. Considrons le probl`me de test : e e
2 2 H0 : 1 = 2 , 2 2 H1 : 1 = 2 .
Dapr`s la Proposition 4.4, e n1 s2 n2 s2 2 1 2 2 1 1 et n 2 2 n2 1 . 1 2 On en dduit que les statistiques e

2 S1
(6.18)
s2 1
n1 1 = n1 1 n1 1 1 n2 = n2 1 n2 1
(2) n2 i=1 Xi ,
n1 i=1 n2 i=1
(Xi (Xi
(1)
X1 )2 , X2 )2 ,
2 S2 = s2 1
(2)
o` X1 = n1 u 1
(1) n1 i=1 Xi ,
X2 = n1 2
vrient e
2 2 S1 2 2 2 Fn1 1,n2 1 , S2 1
o` Fp,q est la loi de Fisher-Snedecor ` degrs de libert p et q. En particulier, la statistique u a e e

2 2 U = S1 suit la loi de Fisher-Snedecor sous lhypoth`se H0 : 1 = 2 . Alors un test de niveau e 2 2 (et de taille) peut tre construit ` laide de la rgion critique e a e S2
R = {U < C1 , U > C2 } avec C1 et C2 tels que 1 = P (C1 Fn1 1,n2 1 C2 ). Un choix de = 1 + 2 avec 0 < 1 , 2 < 1 tant fait (par exemple, 1 = 2 = /2), on peut prendre C1 comme le e quantile dordre 1 de Fn1 1,n2 1 , not q1 (n1 1, n2 1) et C2 comme le quantile dordre e 1 2 de la mme loi, not q12 (n1 1, n2 1). On obtient alors la rgion critique e e e R = {U < q1 (n1 1, n2 1), U > q12 (n1 1, n2 1)}. Si n1 et n2 sont grands (par exemple, n1 , n2 20), on utilise souvent un test asymptotique construit comme suit. Notons que lindpendance de s2 et s2 et le Thor`me central limite e e e 1 2 impliquent : s2 s2 E(s2 s2 ) 1 2 1 2 Var(s2 1 Remplaons ici c
4 2i ni
s2 ) 2
2 i ,
N (0, 1) quand n1 , n2 ,
4 21 n1
(6.19) (cf. Exercice 4.8).
2 2 o` E(s2 s2 ) = 1 2 et Var(s2 s2 ) = Var(s2 ) + Var(s2 ) = u 1 2 1 2 1 2
par
2s4 i ni
car
P s2 i
4 22 n2
i = 1, 2. Vu le Thor`me de Slutsky, il en dcoule la e e e
148
convergence en loi
2 2 s2 s2 (1 2 ) 1 2 2s4 1 n1
2s4 2 n2
N (0, 1).
2 2 Puisque 1 = 2 sous H0 , on obtient un test de niveau asymptotique : |s2 s2 | N 1 2 R= q1/2 . 2s4 2s4 1 2 n1 + n2
e 6.6.2. Test dgalit des esprances. Testons maintenant lhypoth`se H0 : 1 = 2 e e e contre lalternative H1 : 1 = 2 au niveau , en supposant que 1 = 2 = avec > 0 inconnu. Puisque (X1 , . . . , Xn1 ) (X1 , . . . , Xn2 ), les variables alatoires n1 s2 / 2 et n2 s2 / 2 e 1 2 sont indpendantes. Soit n = n1 + n2 , alors vu (6.18), e n1 s2 + n2 s2 1 2 2 . n2 2 Pour i = 1, 2, notons Pi , les lois de (X1 , . . . , Xni ) quand 1 = 2 = . On a alors
(i) (i) (1) (1) (2) (2)
(6.20)
sous P1 , , sous P2 , , et respectivement
n1 (X1 1 ) N (0, 1), n2 (X2 2 ) N (0, 1),
n n n n (X1 1 ) N (0, ), (X2 2 ) N (0, ). n1 n2 Lindpendance de X1 et X2 implique que si 1 = 2 , e n n n (X1 X2 ) N 0, + . n1 n2 Par consquent, sous H0 , e n1 n2 (X1 X2 ) N (0, 1). n Vu (6.20) ceci permet de dduire que la variable alatoire e e Z= n1 n2 (n 2) (X1 X2 ) n(n1 s2 + n2 s2 ) 1 2
suit la loi tn2 (loi de Student ` n 2 degrs de libert). On peut donc considrer le test ` a e e e a rgion critique e R= |X1 X2 | > C n(n1 s2 + n2 s2 ) 1 2 n1 n2 (n 2) .
Si lon choisit ici C = q1/2 (tn2 ), le quantile dordre 1 de la loi tn2 , on obtient un test de taille .
6.7. REGIONS DE CONFIANCE
149
Comme la f.d.r. de loi de Student tn2 tend vers celle de N (0, 1) quand n , un test de niveau asymptotique est donn par la rgion critique suivante : e e |X X | 1 2 N Ra = (6.21) > q1/2 , s2 s2 1 + n2 n2 1 o` q1/2 est le quantile dordre 1 /2 de la loi N (0, 1). u N
6.7. Rgions de conance e Le mod`le statistique ici est, comme prcdemment, {F , }, Rk , et Xn = e e e (X1 , ..., Xn ) est lchantillon observ. e e Dnition 6.11. Soit 0 < < 1. Une rgion de conance de niveau 1 pour est e e un ensemble alatoire C(Xn ) Rk tel que, pour tout , e P ( C(Xn )) 1 . On dit que C(Xn ) est une rgion de conance de taille 1 pour si, pour tout , e P ( C(Xn )) = 1 .
Dans le cas unidimensionnel (k = 1) on utilise le plus souvent les rgions de conance e de forme particuli`re, notamment les intervalles de conance. Un intervalle de conance de e niveau 1 est un intervalle de la forme C(Xn ) = [a(Xn ), b(Xn )], o` a() et b() sont des fonctions borliennes ` valeurs dans R, telles que a(Xn ) < b(Xn ) pour u e a tout Xn et P (a(Xn ) b(Xn )) 1 pour tout . Exemple 6.5. Intervalle de conance de niveau 1 pour dans le mod`le {N (, 2 ), R} e avec > 0 connu. Considrons lintervalle alatoire e e N N C(Xn ) = X q1/2 , X + q1/2 , n n (6.22)
N N i.e. posons a(Xn ) = X n q1/2 et b(Xn ) = X + n q1/2 . Cest un intervalle de conance de taille 1 pour , car
N P ( C(Xn )) = P |X | q1/2 n
N = P (|| q1/2 ) = 1 .
150

0.4
0.35
0.3
0.25
0.2
0.15
0.1
/2
0.05
qN
N
qN qN 1/2
0
1/4
13/4
/2
3
0 3
q1/2
Fig. 6.9. Quantiles de la loi N (0, 1) correspondant aux intervalles symtrique et non-symtique. e e
Un autre exemple dintervalle de conance de niveau 1 est un intervalle non-symtrique e de type N N C(Xn ) = X q13/4 , X + q1/4 . n n On peut montrer que cet intervalle est de longueur plus grande que lintervalle symtrique e (6.22). Il permet donc de localiser la vraie valeur du param`tre avec moins de prcision que e e lintervalle (6.22). La mme remarque reste vraie pour dautres intervalles non-symtriques e e et ceci explique pourquoi ils ne sont pas intressants dans cet exemple. e
2.5
X +
1.5
n C (X )
1
0.5
X X
0.5
C*
1 1.5
2.5 2
1.5
0.5
0.5
1.5
Fig. 6.10. Diagramme Tests/IC : C = {(x, ) : |x | } avec =
N q1/2 .
Considrons maintenant un outil graphique que lon appelle diagramme Tests/Intervalles de e conance (en abrg diagramme Tests/IC). Sur le plan (x, ) dans R2 introduisons la rgion e e e C = {(x, ) : |x | }
N o` = n q1/2 . Les sections verticales de cette rgion par les droites x = X reprsentent u e e Les sections les intervalles de conance de niveau 1 obtenus pour direntes valeurs de X. e horizontales de C par les droites = 0 reprsentent les rgions dacceptation A(0 ) des tests e e de niveau des hypoth`ses de la forme H0 : = 0 contre H1 : = 0 . e
Remarque. Le diam`tre |C(Xn )| 0 quand n . Par contre, |C(Xn )| grandit quand e 0.
6.8. METHODES DE CONSTRUCTION DES REGIONS DE CONFIANCE
151
6.8. Mthodes de construction des rgions de conance e e Nous examinerons ici trois mthodes direntes de construction de rgions de conance e e e en dimension 1 (i.e. quand R). 6.8.1. Intervalles de conance pour n ni : mthode des fonctions pivotales. e Cete mthode ne sapplique que pour quelques mod`les statistiques tr`s particuliers. Supe e e posons quil existe Sn (X1 , . . . , Xn , ) = Sn (Xn , ) (une fonction borlienne de X1 , . . . , Xn , ) e telle que, pour tout t R, la probabilit e P (Sn (Xn , ) t) ne dpend pas de . Si cette condition est vrie, on appelle Sn (Xn , ) fonction pivotale e e e (ou pivot) pour le mod`le statistique {F , }. Notons quune fonction pivotale nest pas e une statistique, car elle dpend du param`tre . Pour une fonction pivotale Sn (Xn , ), il existe e e 1 (), 2 () ne dpendant pas de , tels que e P (1 () Sn (Xn , ) 2 ()) 1 pour tout . Cette ingalit signie que e e C(Xn ) = { : 1 () Sn (Xn , ) 2 ()} est une rgion de conance de niveau 1 pour . Dans lExemple 6.5, la fonction pivotale e est donne par Sn (Xn , ) = n(X )/. Puisque la v.a. n(X )/ est distribue selon e e la loi normale N (0, 1), sous P , indpendamment de , les quantits 1 () et 2 () peuvent e e N N tre choisies sous la forme : 1 () = q1/2 , 2 () = q1/2 . e Plus gnralement, les ingalits 1 () Sn (Xn , ) 2 () dnissent une rgion de e e e e e e conance pour de faon implicite : pour lexpliciter il faut rsoudre le syst`me de ces deux c e e ingalits par rapport ` , ce qui nest pas toujours facile. Nanmoins, il existe quelques e e a e exemples remarquables pour lesquels cette dmarche m`ne au succ`s, dont le suivant. e e e Exemple 6.6. Intervalle de conance pour dans le mod`le exponentiel E(). Soit le mod`le e e x statistique {F , > 0}, o` F est la f.d.r. de densit f (x) = 1 e I{x > 0}. Notons que la u e variable alatoire Y = 2 X suit la loi 2 . Ceci implique que la v.a. e 2 Z= 2
n
Xi =
i=1
2n X
est distribue selon la loi 2 sous P , indpendamment de . On voit donc que Sn (Xn , ) = e e 2n 2n X est un pivot et quon peut trouver 1 et 2 tels que, pour tout > 0, P (1 Sn (Xn , ) 2 ) = 1 . En eet, on peut choisir, par exemple, 1 = q/2 (2 ) et 2 = q1/2 (2 ), les quantiles 2n 2n dordre /2 et 1 /2 de la loi 2 . Alors, lensemble 2n C (Xn ) = : q/2 (2 ) 2n 2n X q1/2 (2 ) = 2n : 2nX 2nX 2 ) q 2 q1/2 (2n /2 (2n )
est un intervalle de conance de niveau (et de taille) 1 pour . La gure ci-dessous prsente e la diagramme Tests/IC pour cet exemple permettant une construction graphique de C (Xn ).
152
2.5
C*
1.5
C* (Xn)
1
0.5
X
0 0.5
x
1.5 2
0.5 0.5
Fig. 6.11. Diagramme Tests/IC : C = (x, ) :
2nx q1/2 (2 ) 2n
2nx q/2 (2 ) 2n
o .
Pour quelques exemples, on peut dnir un pivot en utilisant la dmarche suivante. Soit e e n une statistique. Posons G (x) = P (n x). Supposons que les hypoth`ses suivantes soient vries : e e e la fonction G (x) est monotone en pour tout x x ; e la fonction G (x) est continue en x pour tout x. e Dnissons la pivot Sn (Xn , ) = G (n ). La loi de Sn (Xn , ) sous P est alors uniforme. En e particulier, P G (n ) 1 = 1 . 2 2 Si G (x) est une fonction croissante de , et ceci pour tout x x, alors : e P G (n ) 1 = P b (n ) b1 (n ) , 2 2 2 2
df e
o` b (x) est tel que Gb (x) = . u

1
1/2
/2 0
b/2(x)
b1/2(x)
e Fig. 6.12. La fonction G (x) pour un x x.
153
On voit donc que C(Xn ) = [b (n ), b1 (n )] est un intervalle de conance de niveau (et de 2 2 taille) 1 pour sous les hypoth`ses ci-dessus. e Par un raisonnement similaire on obtient que si G (x) est une fonction monotone dcroissante e (n ), b (n )] est un intervalle de conance de taille 1 de pour tout x x, C(Xn ) = [b1 2 e 2 pour . Nous avons donc dmontr la proposition suivante. e e Proposition 6.1. Soit G (x) continue en x et monotone comme fonction de pour tout x. Alors lintervalle = min(b1 (n ), b (n )), 2 2 C = [, ], o` u = max(b1 (n ), b (n )) 2 2 est un intervalle de conance de taille 1 pour . Exemple 6.7. Intervalle de conance pour dans le mod`le de Bernoulli Be(). Soient e X1 , . . . , Xn des variables alatoires i.i.d. de loi de Bernoulli, Xi Be() avec 0 < < 1. e Posons n = X et k G (x) = P (X x) = Cn k (1 )nk .
knx
Il est facile de voir que G (x) est une fonction dcroissante pour tout x. Or, lapplication e x G (x) nest pas continue. Nanmoins, on peut construire des intervalles de conance de e la mme mani`re que dans la Proposition 6.1, en utilisant la monotonie. La seule dirence e e e est dans le fait que les intervalles ainsi obtenus ne sont plus de taille 1 , mais seulement de niveau 1 . Considrons lapplication numrique avec = 0.05, X = 0.3 et n = 100. e e Lutilisation des tables spciales donnant les intervalles de conance bass sur la loi exacte e e de nX (qui est la loi binomiale B(n, )) nous am`ne ` lintervalle de conance de niveau 0, 95 e a suivant : C 0 (X100 ) = [0.2124, 0.3998].
6.8.2. Intervalles de conance pour n ni : utilisation des ingalits. Cette e e mthode de construction des intervalles de conance est base sur lapplication des diverses e e ingalits probabilistes, par exemple, celle de Tchebychev. e e Plaons-nous dans le cadre de lExemple 6.7. On remarque que c P (|X | ) = 1 P (|X | > ). Cherchons un intervalle de conance de la forme C(Xn ) = [X , X + ] avec > 0. Comme les Xi sont indpendants de moyenne et de variance (1 ) sous P , lingalit de e e e Tchebychev donne la borne E (|X |2 ) 1 (1 ) P (|X | > ) = E ((X1 )2 ) = . 2 2 n n2 On obtient, pour tout tel que 0 < < 1, 1 (1 ) 1 . n2 4n2 1 Ceci nous permet de dterminer la valeur de telle que 1 4n2 = 1 et de construire e nalement un intervalle de conance de niveau 1 : C(Xn ) = [X , X + ]. P |X | 1
154
Pour la mme application numrique que dans lExemple 6.7, on a = 0.2236 et cet e e intervalle est de la forme : C T cheb (X100 ) = [X 0.2236, X + 0.2236] = [0.0763, 0.5236]. Lintervalle de conance C T cheb (X100 ) est plus conservatif (i. e. moins prcis) que lintervalle e de conance C 0 (X100 ) = [0.2124, 0.3998] obtenu dans lExemple 6.7 ` laide de la mthode des a e fonctions pivotales. 6.8.3. Intervalles de conance asymptotiques. Sous les hypoth`ses de lExemple e 6.7 on obtient : n D (X ) N (0, 1) quand n , () o` 2 () = E ((X1 )2 ) = (1). La fonction x(1 x) est continue, donc, par le Premier u P thor`me de continuit, (X) = X(1 X) () quand n . On en dduit que e e e e n D (X ) N (0, 1) quand n , X(1 X) et pour tout > 0 P n (X ) X(1 X) P (|| ) , (6.23)
N o` N (0, 1). Vu la forme du membre de droite dans (6.23), on peut choisir = q1/2 , ce u qui implique que lensemble de tous les tels que
n N (X ) q1/2 , X(1 X) est un intervalle de conance de niveau asymptotique 1 pour . On notera cet intervalle C a (Xn ) : X(1 X) N X(1 X) N C a (Xn ) = X q1/2 , X + q1/2 . n n Lintervalle de conance asymptotique C a (Xn ) vrie e
n N lim P ( C a (Xn )) = P (|| q1/2 ) = 1
pour tout
0 < < 1.
(6.24)
N N Si = 0.05, alors q1/2 = q0.975 1.96 et, pour lapplication numrique de lExemple 6.7, e
C a (X100 ) = [0.2102, 0.3898]. On voit donc que lintervalle asymptotique C a (X100 ) est essentiellement le mme que line tervalle C 0 (X100 ) bas sur la loi exacte. Ils sont plus courts que lintervalle C T cheb (X100 ). e Nanmoins C a (Xn ) nest pas ncessairement un intervalle de conance de niveau 1 pour e e n ni, i.e. il peut ne pas vrier la Dnition 6.11. Cest un intervalle de conance de niveau e e asymptotique 1 au sens de (6.24). Pour avoir une ide, ` partir de quel n les intervalles e a de conance asymptotiques deviennent valables, considrons lapplication numrique avec les e e mmes valeurs = 0.05 et X = 0.3 que prcdemment, mais avec la taille dchantillon n e e e e plus petite. Les rsultats sont donns dans le tableau suivant. e e
155
10
20
30
C 0 (Xn ) [0.0667, 0.6525] [0.1189, 0.5428] [0.1473, 0.4940] C a (Xn ) [0.0159, 0.5840] [0.0992, 0.5008] [0.1360, 0.4640] Sans surprise, les intervalles deviennent de plus en plus courts quand n cro De plus, C 0 et C a t. a sont toujours plus courts que les se rapprochent. Cependant, les intervalles asymptotiques C intervalles C 0 bass sur la loi exacte et ils sont un peu biaiss vers la gauche par rapport ` ces e e a derniers. En conclusion, lapproximation asymptotique peut savrer trompeuse pour n 30 : e il est plus prudent dutiliser lintervalle C 0 . Par contre, pour n = 100, comme on la dj` vu, ea la dirence entre les deux intervalles devient ngligeable, ce qui signie que lutilisation des e e intervalles asymptotiques est bien fonde. e Lapproche asymptotique est la plus rpandue dans la pratique, car elle permet, pour e n assez grand, dobtenir facilement de bons intervalles de conance pour plusieurs mod`les e statistiques. Nous allons maintenant donner la dnition gnrale sur laquelle est base cette e e e e approche. Dnition 6.12. Un ensemble C a (Xn ) est dit rgion de conance de niveau asymptoe e tique 1 pour si, pour tout , lim inf P ( C a (Xn )) 1 .
n
Comme pour les tests asymptotiques, on peut utiliser la normalit asymptotique des e statistiques classiques pour construire des intervalles de conance de niveau asymptotique 1 . Une approche possible est de fonder lintervalle de conance sur lestimateur du maximum M de vraisemblance n V de qui, sous les hypoth`ses de rgularit, satisfait e e e
M nI()(n V ) N (0, 1) quand n , D
pour tout (cf. Thor`me 5.2). Sous les hypoth`ses de rgularit, comme il a t expliqu e e e e e ee e au Paragraphe 6.5, nous avons aussi
M M nI(n V )(n V ) N (0, 1) quand n , D
ce qui permet dobtenir lintervalle de conance de niveau asymptotique 1 sous la forme

M C a (Xn ) = n V N q1/2 M nI(n V ) M , n V + N q1/2 M nI(n V )
M M Pour lExemple 6.7 on a : n V = X et I() = ((1 ))1 , donc I(n V ) = (X(1 X))1 .
156
6.9. Dualit entre tests et rgions de conance e e Considrons dabord le mod`le statistique {N (, 2 ), R} avec > 0 connu et e e dnissons les ensembles e N A(0 ) = X : |0 X| q1/2 , n N R(0 ) = X : |0 X| > q1/2 = Ac (0 ), n o` Ac dsigne le complmentaire de A. u e e Lensemble R(0 ) est la rgion critique dun test de niveau de lhypoth`se H0 : = 0 e e contre lalternative H1 : = 0 , A(0 ) est donc la rgion dacceptation associe ` ce test. e e a Comme il a t expliqu prcdemment, C(X n ) et A(0 ) peuvent tre obtenus ` laide de la ee e e e e a diagramme Tests/IC. Plus gnralement, on a le rsultat suivant qui explique les proprits de la diagramme e e e ee Tests/IC. Thor`me 6.2. e e (i) Si pour tout 0 il existe un test R(0 ) de niveau de lhypoth`se simple H0 : = 0 e contre lalternative H1 : = 0 , alors C(Xn ) = { : Xn A()}, o` A() = Rc (), u est une rgion de conance de niveau 1 pour . e (ii) Soit C(Xn ) une rgion de conance de niveau 1 pour . Alors pour tout 0 , le e test de lhypoth`se simple H0 : = 0 contre lalternative H1 : = 0 ayant la rgion critique e e R(0 ) = Ac (0 ), o` u A(0 ) = {Xn : 0 C(Xn )} est un test de niveau .
C (Xn)
0
0
A(0)
2 2
Fig. 6.13. Diagramme Tests/IC. Lintervalle de conance C(X n ) pour et la rgion dacceptation A(0 ) du test. e
6.10. EXERCICES
157
Preuve. (i) On vrie facilement que pour tout , e P ( C(Xn )) = P (Xn A()) = 1 P (Xn R()) 1 . (ii) Pour montrer le rciproque, il sut de noter que, pour tout 0 , e P0 (Xn R(0 )) = 1 P0 (Xn A(0 )) = 1 P0 (0 C(Xn )) , donc le test R(0 ) est eectivement de niveau .
6.10. Exercices Exercice 6.2. On observe X1 , de loi U [0, 1] sous H0 , ou U [2, 3] sous H1 . Proposer un test de lhypoth`se H0 contre lalternative H1 et calculer ses risques de premi`re et seconde esp`ce. e e e Exercice 6.3. Soit (X1 , . . . , Xn ) un chantillon i.i.d. de la loi uniforme U [0, ], > 0. On e souhaite tester lhypoth`se H0 : = 0 contre lalternative H1 : < 0 , o` 0 > 0. Montrer e u que le test ` rgion critique a e R = {X(n) 0 1/n } est UPP de niveau . Exercice 6.4. La limite lgale dun polluant contenu dans les dchets dune usine est de e e 6mg/kg. On eectue un dosage sur 12 prl`vements, pour lesquels on observe une moyenne ee de 7mg/kg avec un cart-type de 2.4mg/kg. On admet que la loi de dosage est gaussienne. e 1o . Prciser le mod`le statistique et poser le probl`me de test dhypoth`ses. e e e e 2o . Quel test ferait le directeur de cette usine ? Quelle serait sa conclusion ? 3o . Sachant que si la moyenne est suprieure ` 8 mg/kg, il y a danger, quel test ferait le e a dpute cologiste de la rgion ou se situe cette usine ? Quelle serait sa conclusion ? e e e 4o . Commenter les rsultats de 2o et 3o en utilisant la notion de p-value. e Exercice 6.5. Soient X1 , . . . , Xn des variables alatoires i.i.d. dont la loi admet la densit e e f (x ), o` f (x) = 2(1 x)I{0 x 1}. On veut tester lhypoth`se H0 : 1 contre u e lalternative H1 : < 1. Introduisons les rgions critiques e Rc = {X(1) < c} et Rc = {X(n) < c}. Le but de cet exercice est de comparer le test bas sur Rc avec celui bas sur Rc . e e 1o . Calculer la fonction puissance associe ` Rc et montrer que cette fonction est monotone. e a 2o . Quelle valeur critique c faut-il choisir pour que le test associ ` Rc soit de niveau 5% ? ea 3o Calculer la fonction puissance associe ` Rc , o` c est choisi de telle faon que le test soit e a u c de niveau 5%. 4o . Comparer les fonctions puissance et pour les tests de niveau 5%. Peuton armer quun de ces tests est plus puissant que lautre ? 5o Analyser lasymptotique de et quand n et c reste x. e
158
Exercice 6.6. Un client de supermarch a pes 16 paquets de caf de mme marque de poids e e e e nominal 500g. Les rsultats des mesures sont les suivants : e 487.5, 500.1, 480.3, 519.8, 470.3, 500.2, 485.2, 499.4, 499.7, 503.1, 504.9, 480.7, 505.1, 494.7, 488.3, 473.3 avec X = 493.29, s = 12.82. On admet que les poids des paquets forment un chantillon dune loi normale de moyenne e > 0 et dcart-type . e 1o . Faire un test de contrle de qualit sur la moyenne (H0 : = 500 ; H1 : = 500). o e Calculer le seuil critique (p-value) de ce test. Conclusion ? 2o Le client qui a pes les paquets fait son propre test dont les hypoth`ses sont H0 : 490 e e et H1 : > 490. Calculer le seuil critique de ce test et commenter le rsultat. e o . On souhaite maintenant tester si lcart-type dpasse le seuil autoris de 20g. Eectuer 3 e e e un test de niveau 0.05. Exercice 6.7. On admet que la dure de vie, exprime avec une unit de temps convenablee e e ment choisie, dun certain type de matriel est reprsente par une variable alatoire X suivant e e e e une loi de Weibull de param`tres , a et c strictement positifs. Cette loi, note W (, a, c) a e e pour fonction de rpartition e F (x) = 1 exp et donc elle admet la densit e c (x a)c f (x) = (x a)c1 exp I{x > a}. (x a)c I{x > a},
1o . Montrer que la variable alatoire Y = 2 (X a)c suit la loi 2 . e 2 o . Que reprsente le param`tre a ? Pour x > a, on appelle taux de panne instantann ` 2 e e e a linstant x la quantit e (x) = lim f (x) F (x + x) F (x) = . x0 x[1 F (x)] 1 F (x)
Quelle interprtation peuton en donner ? Dduire la valeur de (x). Pour quelles valeurs des e e param`tres et c, ce taux seratil constant ? proportionnel ` (x a) ? e a Dans la suite on supposera connus les param`tres a et c de la loi W (, a, c), le param`tre e e tant inconnu. De plus, on disposera dun chantillon (X1 , . . . , Xn ) des dures de vie observes e e e e sur n matriels du type considr, les Xi tant des ralisations i.i.d. de la variable alatoire e ee e e e X. 3o . Montrer que lestimateur du maximum de vraisemblance de est 1 M n V = n Cet estimateur estil consistant ? 4o . Construire un intervalle de conance pour de niveau 90%, puis lintervalle de conance de niveau asymptotique 90%.
n
(Xi a)c .
i=1
6.10. EXERCICES
159
5o . Considrons le probl`me de test de lhypoth`se simple H0 : = 0 contre lalternative e e e simple H1 : = 1 , vriant 1 > 0 > 0. e 5.1o . Montrer que le lemme de NeymanPearson conduit ` une rgion critique de la forme a e
n
R = {(X1 , . . . , Xn ) :
i=1
(Xi a)c k},
o` k > 0 est une constante. u 5.2o . Soit 0 < < 1 un niveau de signication donn et soit q (2 ) le quantile dordre de e 2n 2 . Dterminer, en fonction de et de q (2 ), la rgion critique dun test de niveau la loi 2n e e 0 2n . 5.3o . Exprimer, en fonction de 0 , 1 et de q (2 ) et ` laide de la fonction de rpartition F a e 2n de la loi 2 , le risque de seconde esp`ce et la puissance de ce test. e 2n 5.4o . Prciser comment varient la rgion critique, le risque de seconde esp`ce et la puissance e e e de ce test en fonction de , puis en fonction de 1 . 6o . On consid`re maintenant le probl`me de test de lhypoth`se H0 : 1 contre lalternative e e e H1 : > 1. 6.1o . Proposer un test uniformment plus puissant de niveau . e 1/2 n o . Soit a = 0, c = 1/2, n = 15 et = 20, 23. Tester H0 au niveau = 0, 05, = 6.2 i=1 Xi 0, 1. Calculer le seuil critique (p-value) de ce test. M 6.3o . En utilisant la loi limite de n V , proposer un test de niveau asymptotique . Avec les mmes valeurs numriques que dans la question 6.2o , tester H0 au niveau = 0, 05 et e e = 0, 1. Comparer les rsultats avec ceux des tests nonasymptotiques de 6.2o . e Exercice 6.8. Les rsultats dun examen not sur 20 sont les suivants. e e Filles : 2; 12, 5; 4; 4; 2; 15, 5; 10; 17, 5; 11; 12, 5; 2. Garons : 7; 6; 6; 8; 9; 10; 9; 11; 16, 5; 16, 5; 14; 12; 4; 11; 2. c On suppose que les notes sont des variables alatoires indpendantes, identiquement dise e 2 ) pour les lles et selon la loi N ( , 2 ) pour les garons. Les tribues selon la loi N (F , e c G param`tres F , G et 2 sont inconnus. Dans la suite, on notera nF et nG le nombre de lles e et de garons. c Le but de lexercice est de tester lhypoth`se que les notes des lles sont en moyenne de e mme niveau que celles des garons, i.e. e c H0 : F = G , contre lalternative H1 : F = G . 1o . Proposer un estimateur de F G . Proposer un estimateur 2 convergeant vers 2 ` la a fois sous H0 et sous H1 . Donner la loi limite de nF nG /(nF + nG )(F G )/ lorsque nF et nG tendent simultanment vers +. e 2o . A partir des rsultats de la question prcdente, proposer un intervalle de conance de e e e niveau asymptotique 1 pour F G . 3o . Construire un test de niveau asymptotique . Quelle est la p-value de ce test ? Acceptet on H0 au niveau 0,10 ; 0,05 ; 0,01 ? Commenter le rsultat. Pourraiton obtenir des rsultats e e
160
non asymptotiques ? 4o . Est-il raliste de supposer que les deux lois ont la mme variance ? e e Exercice 6.9. Test du signe. Soit F une fonction de rpartition sur R et soit R un e param`tre inconnu. On dispose dun chantillon i.i.d. (X1 , . . . , Xn ) de F ( ) et on consid`re e e e la statistique du signe
n
Wn =
i=1
I{Xi > 0}.
On suppose dabord que F est connue. 1o . Donner la loi exacte de Wn pour n x. e 2o . Montrer que la loi limite quand n de (Wn nw)/ n est normale o` w est une u constante ` prciser. Donner la moyenne et la variance de cette loi limite. a e On suppose maintenant que F est une fonction de rpartition symtrique inconnue et on e e souhaite tester lhypoth`se H0 : = 0 contre lalternative H1 : > 0. Soit 0 < < 1. e 3o . Proposer un test de niveau exact bas sur Wn . e 4o . Proposer un test de niveau asymptotique bas sur Wn . e o . Quelle est la p-value du test asymptotique si n = 16 et W = 2 ? 5 n Exercice 6.10. Soient X1 , . . . , Xn des variables alatoires i.i.d. de densit e e f (x, ) = 1 |x | exp 2 ,
o` > 0 et R sont des param`tres, = (, ). u e 1o . Trouver n , lestimateur du maximum de vraisemblance de , dans les deux cas suivants : (i) nest pas connu, (ii) est connu. Dans chacun de ces deux cas, lestimateur du maximum de vraisemblance est-il unique ? On supposera dsormais que = 0. e 2o . Chercher la loi asymptotique de n(n ) quand n . 3o . En utilisant n , construire un test de niveau asymptotique de lhypoth`se H0 : = 1 e contre lalternative H1 : 0 < < 1. 4o . Donner un intervalle de conance de niveau asymptotique 1 pour bas sur n . e Exercice 6.11. Soient X1 , . . . , Xn des variables alatores i.i.d. de densit e e f (x, ) = (2/ ) exp(x2 /)I{x > 0}, par rapport ` la mesure de Lebesgue dans R, o` est param`tre inconnu. a u un e o . Dterminer la loi de probabilit de la variable X / . Dduire de ce rsultat que la loi de 1 e e e e 1 la variable = m2 / ne depend pas de (ici m2 dsigne le moment empirique dordre 2). e 2o . Dterminer les rels a et b tels que [m2 /a, m2 /b] soit un intervalle de conance de niveau e e 1 pour (pour un 0 < < 1 donn). e o . En utilisant lapproximation de la loi de par une loi normale, chercher les rels a et b 3 e 1 1 tels que [m2 /a1 , m2 /b1 ] soit un intervalle de conance de niveau asymptotique 1 pour .
6.10. EXERCICES
161
Exercice 6.12. On dispose dun chantillon de taille n = 400 dune loi de Poisson P() de e param`tre inconnu. Proposer un intervalle de conance au niveau asymptotique 0.99 pour e bas sur lestimateur du maximum de vraisemblance. e Exercice 6.13. On souhaite comparer les moyennes et de deux chantillons de taille e n gaussiens indpendants et de mme variance connue. On utilise la dmarche suivante : si e e e deux intervalles de conance de niveau a obtenus ` partir des chantillons ont une intersection a e vide, on dcide que = . Etudier le test correspondant ` cette procdure. e a e Exercice 6.14. Soit (X1 , . . . , Xn ) un chantillon i.i.d. de la loi uniforme U [0, ], > 0. e 1o . Montrer que /X(n) est une fonction pivotale et donner sa densit de probabilit. e e o . Soit 0 < < 1. Montrer que lintervalle de conance pour le plus court de niveau 1 2 bas sur cette fonction pivotale est de la forme [X(n) , 1/n X(n) ]. e 3o . Tracer la diagramme Tests/IC. Lutiliser pour construire un test de niveau de lhypoth`se e H0 : = 1 contre lalternative H1 : = 1. Exercice 6.15. Probl`me de sondages. Soit N le nombre dhabitants dune commune. Il e sagit de faire un sondage de popularit de deux candidats (candidat A et candidat B) qui e se prsentent aux lections municipales. On choisit un chantillon de n habitants auxquels e e e on pose la question : Pour qui voteriezvous aux lections ? A lissue de ce sondage, on e obtient les donnes X1 , . . . , Xn , o` e u Xi = 1, si le i`me habitant questionn prf`re le candidat A, e e ee 0, si le i`me habitant questionn prf`re le candidat B, e e ee
i = 1, . . . , n. Pour des raisons videntes, il est impossible de questionner tous les habitants. e Donc n < N (dans la pratique, on a toujours n N ). Notons la part dhabitants de la commune qui prf`rent le candidat A. Le but du sondage est destimer et de donner un ee intervalle conance pour . 1o . Proposer un mod`le statistique pour ce probl`me. Observer quil sagit dun tirage au e e hasard sans remise dune population de taille N , car chaque habitant peut appara tre au maximum une fois dans lchantillon. Dnissons les valeurs dterministes x1 , . . . , xN par e e e xj = j = 1, . . . , N . On a alors = Dnissons aussi e 2 = 1 N
N
1, si le j`me habitant prf`re le candidat A, e ee 0, si le j`me habitant prf`re le candidat B, e ee 1 N

N
xj .
j=1
(xj )2 .
j=1
On appelle moyenne de population et 2 variance de population. 2o . Montrer que X = 1 n Xi est un estimateur sans biais de .
n i=1
3o .
Montrer que Cov(Xi , Xj ) = 2 N 1 pour i = j
162
et Var(X) =
2 n
n1 N 1
n 1 4o . Calculer E(s2 ), o` s2 = n i=1 (Xi X)2 , et proposer un estimateur sans biais v 2 de la u variance Var(X). 5o . On se place maintenant dans le cadre asymptotique o` N , n = n(N ) et u n/N 0. 5.1o . Montrer que X et v 2 sont des estimateurs consistants de et 2 . o . Dmontrer la normalit asymptotique 5.2 e e X D n N (0, 1). v En dduire lintervalle de conance de niveau asymptotique 1 pour (0 < < 1). e Application numrique : donner lintervalle de conance de niveau asymptotique 95% pour e lorsque N = 8000, n = 100, n1 = n I{Xi = 1} = 65. i=1
Partie 3
Analyse statistique multivarie e
Analyse en composantes principales

7.1. Donnes multivaries e e Soit x Rp un vecteur alatoire : x = (1 , . . . , p )T , o` vT dsigne le transpos du e u e e vecteur v. Un chantillon multidimensionnel est une suite x1 , . . . , xn de ralisations alatoires e e e du vecteur x, cest-`-dire que chaque xi est de mme loi que x pour tout i = 1, . . . , n. a e
e e Dans ce chapitre, Xij dsignera la j `me composante du vecteur xi , cest-`-dire la i `me e a ralisation de la variable alatoire j . Les Xij forment la matrice alatoire e e e T X11 X1p x1 . .. . = . . . . X= . . . . Xn1 Xnp xT n
que lon appelle matrice des donnes ou tableau des donnes. A partir de la matrice e e des donnes X, on peut calculer les statistiques suivantes : e a) Les moyennes empiriques 1 Xk = n qui forment le vecteur X1 . 1 x= . = . n Xp b) Les covariances empiriques sjk 1 = n
n n
Xik ,
i=1
k = 1, . . . , p,
1 1 T . xi = X 1 avec 1 = . Rn . . n i=1 1
n
Xij Xik Xj Xk ,
i=1 165
k, j = 1, . . . , p,
166
7. ANALYSE EN COMPOSANTES PRINCIPALES
qui forment la matrice S = (sjk )k,j=1,...,p que lon appelle matrice de covariance empirique. c) Les corrlations empiriques dnies, pour sjj > 0, j = 1, . . . , p, par e e sjk rjk = , k, j = 1, . . . , p skk sjj qui forment la matrice R = (rjk )k,j=1,...,p que lon appelle matrice de corrlation empirique. e Il est facile de voir que S= 1 n
n
xi xT xxT = i
i=1
1 T 1 1 1 X X xxT = XT X 2 XT 11T X = XT HX n n n n
o` la matrice H = In n1 11T est appele matrice centring. u e Exercice 7.1. Montrer que H est un projecteur, i. e. H = H 2 et H T = H. Sur quel sousespace vectoriel de Rn projette-t-il ? Notons que la matrice de covariance empirique S est positive, en eet pour tout vecteur a Rp on a 1 1 1 aT Sa = aT XT HXa = aT XT HHXa = yT y 0, n n n o` y = H T Xa. De plus, si lon note par D la matrice diagonale diag{ s11 , . . . , spp }, on u obtient S = DRD, donc la matrice de corrlation empirique R est aussi positive. e 7.2. Lide de lAnalyse en composantes principales (ACP) e LAnalyse en composantes principales (ACP) est une mthode de traitement des donnes e e multidimensionnelles qui poursuit les deux objectifs suivants : visualiser les donnes, e rduire la dimension eective des donnes. e e Gomtriquement, les donnes multidimensionnelles constituent un nuage de points dans e e e Rp (un point de ce nuage correspond ` un xi ). Si la dimension p est suprieure ` 3, ce qui est le a e a plus souvent le cas, on ne peut pas visualiser ce nuage. Le seul moyen de visualiser les donnes e est alors de considrer leurs projections sur des droites, sur des plans ou ventuellement sur e e des espaces de dimension 3. Ainsi, si a = (a1 , . . . , ap ) Rp est une direction de projection e e (cest-`-dire un vecteur de norme un : a 2 = a2 + + a2 = 1), les donnes projetes a p 1 T x , . . . , aT x ) forment un chantillon de dimension 1 que lon peut visualiser et qui est (a 1 e n donc plus facile ` interprter que lchantillon de dpart (x1 , . . . , xn ). a e e e Si la dimension p est grande, elle est dhabitude redondante. En ralit la vraie dimene e sion des donnes p est souvent beaucoup plus petite que p. LACP a pour objectif de trouver e un sous-espace linaire de Rp de dimension p e p tel que la projection sur ce sous-espace capte presque toute la structure des donnes. e
7.2. LIDEE DE LANALYSE EN COMPOSANTES PRINCIPALES (ACP)
167
Fig. 7.1. Bonne et mauvaise directions de projection.
Dans lexemple de la Figure 7.1, on voit que si lon projette les donnes xi (reprsentes e e e par des points noirs) sur la direction a(1) , certaines projections co ncideront. Par contre, la projection de ces donnes sur la direction a(2) donne des valeurs deux ` deux distinctes. On e a voit que la projection sur cette derni`re direction est plus informative que sur la premi`re, e e donc plus intressante. e Lide de base de lACP est de chercher la direction a Rp la plus intressante, pour e e laquelle les donnes projetes seront le plus disperses possibles, cest-`-dire la direction qui e e e a maximise en a la variance empirique de lchantillon unidimensionnel (aT x1 , . . . , aT xn ) (cf. e dnition de la variance empirique au Chapitre 4) : e
df e s2 = a
1 n
(a xi )
i=1 n
1 n
(a xi )
i=1 n n
1 T a = n
xi xT i
i=1
1 a 2 aT n
xi
i=1 i=1
xT a = aT Sa, i
o` S dsigne la matrice de covariance empirique introduite au paragraphe prcdent. Par u e e e consquent, la direction la plus intressante a est une solution de e e
aRp : a =1
max
aT Sa = aT S, a
o` u
est la norme euclidienne de Rp . On peut crire cette galit sous la forme quivalente e e e e a = arg
aRp : a =1
max
aT Sa.
(7.1)
Le vecteur a ainsi dni maximise la variance empirique unidimensionnelle s2 en a tels que e a a = 1. De la mme mani`re, on peut dnir la direction idale pour projeter les donnes, e e e e e qui maximise la variance thorique : comme le vecteur a e a = arg
aRp : a =1
max
Var[aT x].
(7.2)
Pour que cette variance soit bien nie, on suppose que E[ x 2 ] < . Dans ce qui suit, on utilisera les notations suivantes pour la moyenne et la matrice de covariance de x : E(x) = , V (x) = .
(ici est un vecteur de Rp et est une matrice symtrique et positive de dimension p p). e
168
7.3. ACP : cadre thorique e Nous nous intresserons ici ` la solution du probl`me de maximisation (7.2). Soit = e a e T une dcomposition spectrale de la matrice de covariance, o` est une matrice p p e u orthogonale et est une matrice p p diagonale. On notera 1 0 0 0 2 0 = . .. .. . , = (1) , . . . , (p) , . . . . . . 0 0 p o` les i sont les valeurs propres de ranges par ordre dcroissant : 1 2 p 0, u e e et les (i) sont les vecteurs propres orthonorms de correspondants, e (i) = 1, T (k) = 0, (j) j = k.
e Dnition 7.1. La variable alatoire j = T (x) est dite j`me composante principale e e (j) p. du vecteur alatoire x R e
Exemple 7.1. Soit x un vecteur alatoire de R2 de moyenne nulle et de matrice de covariance e = 1 1 , 0 1.
Considrons les vecteurs propres orthonorms de cette matrice e e 1 (1) = 2 1 , 1 1 (2) = 2 1 . 1
Donc si les coordonnes de x sont 1 et 2 , les composantes principales de x valent e 1 = 1 + 2 , 2 2 = 1 2 . 2
Dune part, on peut facilement vrier que la variable alatoire j est centre, cest-`-dire e e e a E[j ] = 0. Dautre part, en utilisant le fait que les (j) sont les vecteurs propres de la matrice de covariance du vecteur alatoire x, on obtient e Var[j ] = E[ T (x )(x )T (j) ] = T (j) = T j (j) = j , (j) (j) (j) o` j dsigne la valeur propre correspondant au vecteur propre (j) . De mme, pour j = k, u e e Cov(j , k ) = E[ T (x )(x )T (k) ] = T (k) = T k (k) = 0, (j) (j) (j) car les vecteurs (j) sont orthonorms. e Thor`me 7.1. Soit x Rp un vecteur alatoire tel que E( x 2 ) < . Alors a = (1) est e e e une solution du probl`me (7.2), cest-`-dire : e a Var[T x] = a
aRp : a =1
max
Var[aT x] =
aRp :
max
a =1
Var[aT (x )].
7.4. ACP : CADRE EMPIRIQUE
169
Preuve. La dcomposition spectrale de la matrice est de la forme e

p
= =
j=1
j (j) T . (j)
On a donc Var[a x] =
T
j (a
j=1
(j) )( T a) (j)
=
j=1
j c2 , j
o` cj = aT (j) est la projection du vecteur a sur la direction (j) . Puisque les vecteurs (j) u forment une base orthonorme de Rp , on a c2 + + c2 = a 2 . Comme j 1 , on en dduit e e p 1 que
p p
Var[aT x] =
j=1
j c2 1 j
j=1
c2 = 1 a j
= 1 .
Par ailleurs, si a = a = (1) , les coecients cj sont tous nuls sauf le premier c1 = 1. On a T x] = . Par consquent, a est une solution du probl`me de maximisation (7.2) donc Var[ a e e 1 et Var[T x] = 1 = Var[1 ]. a Deuxi`me composante principale. De la mme faon, on peut prouver que (2) est lun des vece e c T x] sur lensemble A = {a Rp : a = 1 et a teurs qui maximise la variance Var[a 1 (1) }. En eet, comme a est orthogonal ` (1) = a, sa projection c1 sur (1) est nulle. Par consquent, a e pour tout vecteur de A1 , on a
p p
Var[aT x] =
j=2
j c2 2 j
j=2
c2 = 2 a j
= 2 .
T On voit donc que Var[(2) x] = 2 = Var(2 ).
e e e k-`me composante principale. On dmontre de la mme mani`re que (k) est lun des vece p qui maximise Var[aT x] sur lensemble A teurs a R k1 de tous les vecteurs de norme 1 orthogonaux aux (1) , . . . , (k1) . On trouve dans ce cas maxaAk1 Var[aT x] = Var[k ]. On voit donc que, du point de vue mathmatique, lACP se rduit ` la diagonalisation de e e a la matrice de covariance de x. 7.4. ACP : cadre empirique Considrons maintenant le probl`me de maximisation (7.1). Nous pouvons obtenir une e e solution de ce probl`me par la mme mthode quau paragraphe prcdent, en remplaant la e e e e e c matrice de covariance par la matrice de covariance empirique S (il sut de noter que dans (7.2) Var[aT x] = aT a et de comparer (7.1) et (7.2)). Comme S est une matrice symtrique, il existe une matrice orthogonale G et une matrice e diagonale L telles que S = GLGT . Bien videmment, ces matrices dpendent de lchantillon e e e (x1 , . . . , xn ). Les lments diagonaux l1 , . . . , lp , de la matrice L sont alors les valeurs propres ee
170
de S. De plus, les lj sont positifs, car S est une matrice positive. On suppose que les lj sont numrots par ordre dcroissant : e e e l1 l2 . . . lp 0. On note g(j) le vecteur propre de norme 1 associ ` la valeur propre lj . ea
e Dnition 7.2. La j`me composante principale empirique associe ` lchantillon e e a e (x1 , . . . , xn ) est la fonction yj : Rp R dnie par e T yj (z) = g(j) (z x)
pour
z Rp .
Soit yij = yj (xi ). Considrons la matrice Y = (yij )i=1,...,n,j=1,...,p, de dimension n p. e Elle remplace la matrice des donnes X initiale. Les vecteurs-lignes y1 , . . . , yn de la matrice e Y peuvent tre considrs comme un nouvel chantillon de donnes transformes (il sagit e ee e e e dune transformation ane de lchantillon initial x1 , . . . , xn ). Dans la pratique, lapplication e de lACP est intressante sil sav`re que les yi rsident essentiellement dans un sous-espace e e e ane de Rp de dimension beaucoup plus petite que p. Remarques. (1) Si les variables i sont de nature dirente (par exemple, 1 est le prix dun produit e en dollars et 2 est son poids en kilogrammes), dans la pratique on utilise lACP sur la matrice de corrlation R plutt que lACP sur la matrice de covariance S, i.e. on e o cherche ` maximiser aT Ra au lieu de maximiser aT Sa. Ceci est motiv par le fait a e que les lments de R nont pas dunit de mesure. ee e (2) Si tous les lments de la matrice S sont strictement positifs, comme dans lexemple ee numrique qui sera analys ` la n de ce chapitre, toutes les coordonnes de g(1) e e a e ont le mme signe (cf. Thor`me de Perron Frobenius ci-apr`s). Dans ce cas, la e e e e premi`re composante principale empirique y1 () sappelle facteur de taille. La valeur e y1 (xi ) est alors interprte comme une caractristique de taille ou dimportance ee e de lindividu i. Ainsi, dans lexemple numrique qui sera examin ` la n de ce e e a chapitre, y1 (xi ) peut tre considre comme une caractristique du niveau gnral e ee e e e de ltudiant numro i calcule ` partir de ses notes. e e e a Proposition 7.1. (Thor`me de Perron Frobenius.) Soit A = (aij )i,j=1,...,p une mae e trice p p symtrique dont tous les lments sont strictement positifs. Alors toutes les coore ee donnes du premier vecteur propre de A ont le mme signe. e e Preuve. Soit g = (g1 , . . . , gp ) un vecteur propre orthonorm de A correspondant ` sa plus e a grande valeur propre. Notons g = (|g1 |, . . . , |gp |) le vecteur dont les coordonnes sont les e valeurs absolues des coordonnes respectives de g. Dune part, il est vident que g = g = 1 e e et g T Ag = max g T A, g
g =1
ce qui implique que positifs, on obtient
g T Ag
T
g T A. g
p
Dautre part, comme tous les lments aij de A sont ee

p
g Ag =
i,j=1
aij gi gj
i,j=1
aij |gi ||gj | = g T A. g
7.5. ETUDE DES CORRELATIONS : CADRE THEORIQUE
171
On a alors g T Ag = g T A. De plus, g T Ag = g T A, car la matrice A est symtrique. Ces deux g g e galits impliquent que e e (g g )T A(g + g ) = 0. (7.3) Soit maintenant w = A(g + g ). Comme tous les lments de A sont strictement positifs et ee gi + |gi | 0, toutes les coordonnes du vecteur w sont positives. e On peut avoir les deux cas suivants. e Cas 1 : toutes les coordonnes w1 , . . . , wp de w sont strictement positives. Dans ce cas, les relations (g g )w = 0 et gi gi impliquent que gi = gi pour tout i = 1, . . . , p. Par consquent, e tous les gi sont positifs. Cas 2 : il existe j0 tel que wj0 = 0. Comme w = A(g + g ), la coordonne wj0 vaut e wj0 =
i
g aij0 (i + gi ).
Dapr`s lhypoth`se de la proposition, tous les coecients aij0 sont strictement positifs. Il e e en rsulte que gi + gi = 0 pour tout i. On en dduit que toutes les coordonnes de g sont e e e ngatives. e
7.5. Etude des corrlations : cadre thorique e e Soit x Rp un vecteur alatoire de moyenne et de matrice de covariance . On dnit e e la variance totale de x par E( x 2 ) = E (x )T (x ) = E (x )T T (x ) . o`, dapr`s les dnitions introduites au Paragraphe 7.3, u e e T (1) (x ) 1 e . df . T . (x ) = = . = y. . . T p (p) (x )
2 e Compte tenu de ces notations et de lgalit E(i ) = i , o` i est la i`me valeur propre de , e e u on obtient lexpression suivante pour la variance totale : 2 2 E( x 2 ) = E(1 + + p ) = 1 + + p = Tr().
Rappelons que la trace Tr() est la somme de ses lments diagonaux de la matrice . ee 7.5.1. La part de variance explique. e Dnition 7.3. On appelle part de la variance totale de x explique par les k e e premi`res composantes principales (1 , . . . , k ) la quantit e e 1 + + k 1 + + k = . 1 + + p Tr()
e On appelle part de la variance totale de x explique par la j `me composante principale j la e quantit e j . 1 + + p
172
Si pour un k < p, la part de la variance totale explique par les k premi`res composantes e e principales est gale ` 1, alors on dit que la variance totale est enti`rement explique par e a e e les composantes 1 , . . . , k . Cela signie que seules les k premi`res composantes principales e contribuent ` la variance totale du vecteur x, les (p k) composantes restantes tant des a e valeurs dterministes. e
e Analysons maintenant linuence de la composante principale j sur la variable i , la i`me coordonne du vecteur alatoire x. Nous allons caractriser cette inuence par la valeur du e e e coecient de corrlation Corr(i , j ). Plus la valeur absolue de Corr(i , j ) est proche de 1, e mieux la composante principale j explique la variable i . Calculons dabord la matrice de covariance des vecteurs alatoires x et y. On a e
C(x, y) = E[(x )yT ] = E[(x )(x )T ] = = T = .

e Comme Cov(i , j ) est le (i, j)`me lment de cette matrice, on obtient ee
Cov(i , j ) = ij j . La corrlation ij = Corr(i , j ) entre i et j vaut e ij = Cov(i , j ) = ij Var(i )Var(j ) j . ii
Proposition 7.2. Soit x Rp un vecteur alatoire, tel que E( x 2 ) < et ii > 0 pour e tout i = 1, . . . , p. Alors,
p
2 = 1 ij
j=1
pour
i = 1, . . . , p.
Preuve. Soit P la matrice carre dont les lments sont les corrlations ij , i = 1, . . . , p, e ee e j = 1, . . . , p. Soit encore une matrice diagonale dont les lments diagonaux sont ii : ee = diag(11 , . . . , pp ). Il est facile alors de vrier que P = 1/2 1/2 . Par consquent, e e P P T = 1/2 1/2 1/2 T 1/2 = 1/2 1/2 = P, (7.4)
o` P est la matrice forme par les corrlations ij = Corr(i , j ) entre les coordonnes i et j u e e e de x. Pour conclure, il sut de remarquer que dune part ii = 1 et dautre part, dapr`s (7.4), e p 2. ii = j=1 ij Dnition 7.4. On appelle 2 part de variance de la variable i explique par la e ij e `me composante principale . e j j Proposition 7.3. Supposons que les hypoth`ses de la Proposition 7.2 soient vries. Alors, e e e pour tout sous-ensemble J de {1, . . . , p},
p
j =
jJ i=1
ii 2 , iJ
o` 2 = u iJ
jJ
2 . ij
7.5. ETUDE DES CORRELATIONS : CADRE THEORIQUE
173
Preuve.
ii 2 = iJ
i=1 i=1
ii
jJ
2 ij
j = ii
j
jJ i=1
2 ij . 2
Le rsultat de la proposition dcoule du fait que la derni`re somme vaut 1, car (j) e e e p 2 ij = 1. i=1
7.5.2. Disque des corrlations. Dapr`s la Proposition 7.2, la somme des carrs des e e e deux corrlations 2 + 2 est infrieure ou gale ` 1, donc tous les points de R2 ayant e i1 i2 e e a les coordonnes (i1 , i2 ) appartiennent au disque de rayon 1 centr en 0, que lon appelle e e dans le contexte de lACP disque des corrlations. Sa fronti`re est appele cercle des e e e corrlations. Plus le point (i1 , i2 ) est proche du cercle des corrlations, mieux la variable e e i est explique par les deux premi`res composantes principales. Considrons maintenant la e e e situation idale quand les points (i1 , i2 ) et (k1 , k2 ) se trouvent exactement sur le cercle, e ce qui correspond au fait que les variables i et k sont enti`rement expliques par les deux e e premi`res composantes principales. e Proposition 7.4. Soient i et k deux variables enti`rement expliques par les deux premi`res e e e composantes principales, i.e. 2 + 2 = 1 i1 i2 et 2 + 2 = 1. k1 k2 Alors, la corrlation de i et k est donne par la formule e e ik = i1 k1 + i2 k2 = cos(), o` est langle form par les vecteurs (i1 , i2 ) et (k1 , k2 ). u e Preuve. Vu que la variable i est enti`rement explique par 1 et 2 , on a im = 0, quel que e e soit m 3. De mme, pour k , on a km = 0 pour tout m 3. Comme P = P P T , cela e implique que ik = i1 k1 + i2 k2 . Soit 1 langle form par les vecteurs (i1 , i2 ) et (1, 0), et 2 langle form par les vecteurs e e (k1 , k2 ) et (1, 0). Il est vident que = |1 2 | et e i1 k1 + i2 k2 = cos(1 ) cos(2 ) + sin(1 ) sin(2 ) = cos(1 2 ) = cos().
Dapr`s cette proposition, si les variables i et k sont enti`rement expliques par les deux e e e premi`res composantes principales, langle form par les vecteurs (i1 , i2 ) et (k1 , k2 ) dcrit e e e la dpendance mutuelle de ces variables. En eet, si langle est zro, alors ik = 1, ce qui e e signie quil y a un lien linaire dterministe entre ces variables : e e a > 0, b R tels que R2 i = ak + b. Si les deux points (i1 , i2 ) et (k1 , k2 ) de sont diamtralement opposs, alors cos = e e ik = 1 et a > 0, b R tels que i = ak + b. Dans le contexte de lACP, on dit dans ce cas que les variables i et k sont opposes. Finae lement, si langle est de 90 , alors ik = 0 : les variables i et k sont non-corrles. ee
174
7.6. Etude des corrlations : cadre empirique e Dans ce paragraphe, on se place dans le cadre, habituel pour une tude statistique, o` e u la moyenne et de la matrice de covariance ne sont pas connues. Comme cela a dj` t eaee fait prcdemment, on remplace dans toutes les dnitions du Paragraphe 7.5 les param`tres e e e e , par S, (j) par g(j) , inconnus par leurs estimateurs empiriques. Ainsi, est remplac par x e j par lj et j par yj . On donne maintenant les versions empiriques des dnitions principales e du paragraphe prcdent. e e Dnition 7.5. On appelle part de la variance empirique explique par les k premi`res e e e composantes principales (y1 , . . . , yk ) la quantit suivante : e l1 + + lk l1 + + lk = . l1 + + lp Tr(S)
e On appelle la quantit li /Tr(S) part de la variance empirique explique par la i`me composante e e principale yi .
Pour introduire la dnition suivante, rappelons que les sii dsignent les lments diagoe e ee e naux de la matrice de covariance empirique S et lj est la j `me valeur propre de S. Notons gij e la i`me coordonne du vecteur propre g(j) . e
2 e Dnition 7.6. On appelle rij = gij lj /sii part de la variance empirique de la i`me e 2 `me composante principale. e variable explique par la j e
En utilisant le mme raisonnement quau paragraphe prcdent (cf. Propositions 7.2 et e e e 7.3), on trouve que
p
rij = 1 2
j=1 p
pour tout i = 1, . . . , p, sii riJ 2 avec riJ = 2

jJ
lj =
jJ i=1
rij . 2
On introduit galement le disque des corrlations auquel appartiennent les points (i1 , ri2 ) e e r pour i = 1, . . . , p. Les rsultats de lACP sont facilement interptables si ces points sont e e proches du cercle des corrlations. Linterprtation est base sur la comparaison du graphique e e e obtenu avec lune des trois congurations idales : e
e e (1) Langle form par les vecteurs (i1 , ri2 ) et (k1 , rk2 ) est zro : la i`me et la k`me e r r e variables sont lies par une relation linaire dterministe avec la pente strictement e e e positive. e e (2) Langle est de 180 : la i`me et la k`me variables sont lies par une relation linaire e e dterministe avec la pente strictement ngative. e e e e (3) Langle est de 90 : la i`me et la k`me variables sont non-corrles. ee
Il est clair que, dans la pratique, ces trois possibilits peuvent se raliser seulement de faon e e c approximative, car il sagit ici de corrlations empiriques rij qui approchent les corrlations e e thoriques ij seulement quand la taille dchantillon n est assez grande (cf. Proposition 4.5). e e
7.7. EXEMPLE DAPPLICATION NUMERIQUE DE LACP
175
7.7. Exemple dapplication numrique de lACP e Analysons ici un exemple dapplication de lACP emprunt du livre de K.V. Mardia, J.T. e Kent et J.M. Bibby Multivariate Analysis (Academic Press, London, 1992). Le tableau suivant donne les notes (sur 100) de 88 tudiants obtenues ` lissue de direntes preuves crites (E) e a e e e et orales (O). Cest un exemple de tableau des donnes X. Les n = 88 lignes de ce tableau e sont les vecteurs x1 , . . . , x88 . Il y a p = 5 variables : les notes des 5 examens. No Mcanique (O) Alg`bre lin. (O) Alg`bre (E) Analyse (E) Statistique (E) e e e 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32. 33. 34. 35. 77 63 75 55 63 53 51 59 46 62 64 52 55 50 65 31 60 44 42 62 31 44 49 12 49 54 54 44 18 46 32 30 46 40 31 82 78 73 72 63 61 67 70 52 60 72 64 67 50 63 55 64 69 69 46 49 61 41 58 53 49 53 56 44 52 45 69 49 27 42 67 80 71 63 65 72 65 68 53 58 60 60 59 64 58 60 56 53 61 61 62 52 61 61 49 56 46 55 50 65 49 50 53 54 48 67 70 66 70 70 64 65 62 41 62 62 63 62 55 56 57 54 53 55 57 63 62 49 63 62 47 59 61 57 50 57 52 59 61 54 81 81 81 68 63 73 68 56 40 70 45 54 44 63 37 73 40 53 45 45 62 46 64 67 47 53 44 36 81 35 64 45 37 61 68
176
No Mcanique (O) Alg`bre lin. (O) Alg`bre (E) Analyse (E) Statistique (E) e e e 36. 37. 38. 39. 40. 41. 42. 43. 44. 45. 46. 47. 48. 49. 50. 51. 52. 53. 54. 55. 56. 57. 58. 59. 60. 61. 62. 63. 64. 65. 66. 67. 68. 69. 70. 71. 72. 73. 74. 75. 76. 77. 78. 79. 80. 36 56 46 45 42 40 23 48 41 46 40 49 22 35 48 31 17 49 59 37 40 35 38 43 39 62 48 34 18 35 59 41 31 17 34 46 10 46 30 13 49 18 8 23 30 59 40 56 42 60 63 55 48 63 61 57 49 58 60 56 57 53 57 50 56 43 35 44 43 46 44 38 42 51 36 53 41 52 51 30 40 46 37 34 51 50 32 42 38 24 51 56 57 55 54 53 59 49 49 46 51 45 53 47 49 50 57 47 47 49 48 41 54 38 46 36 41 50 40 46 37 43 37 52 50 47 36 45 43 50 38 31 48 36 43 45 54 49 56 49 54 53 51 46 38 52 48 56 54 42 54 43 39 15 28 21 51 47 34 32 22 44 47 56 48 22 30 27 35 47 29 47 15 46 25 23 45 26 48 33 51 35 32 40 33 25 44 37 34 41 31 39 41 33 32 34 51 26 46 45 61 50 24 49 43 42 33 29 30 29 19 33 40 31 36 17 39 30 18 31 9 40 40 15 25
7.7. EXEMPLE DAPPLICATION NUMERIQUE DE LACP
177
No Mcanique (O) Alg`bre lin. (O) Alg`bre (E) Analyse (E) Statistique (E) e e e 81. 82. 83. 84. 85. 86. 87. 88. 3 7 15 15 5 12 5 0 9 51 40 38 30 30 26 40 51 43 43 39 44 32 15 21 47 17 23 28 36 35 20 9 40 22 18 17 18 21 20 14
La moyenne et la matrice de covariance empiriques associes ` ce tableau des donnes e a e sont 38.95 50.59 x = 50.60 , 46.68 42.31 305.77 127.22 S = 101.58 106.27 117.40 127.22 172.84 85.16 94.67 99.01 101.58 85.16 112.88 112.11 121.87 106.27 94.67 112.11 220.38 155.53 117.40 99.01 121.87 . 155.53 297.75
En utilisant la dcomposition spectrale de la matrice S, on trouve ses vecteurs propres orthoe norms : e 0.50 0.37 = 0.35 , 0.45 0.53 0.30 0.78 = 0.00 , 0.52 0.18 0.75 0.21 = 0.08 , 0.30 0.55 0.08 0.19 = 0.92 , 0.28 0.15 0.30 0.42 = 0.14 , 0.60 0.60
g(1)
g(2)
g(3)
g(4)
g(5)
et les valeurs propres correspondantes : l1 = 687.00, l2 = 202.11, l3 = 103.75, l4 = 84.63, l5 = 32.15.
En portant ces valeurs dans la dnition e lj , sii
rij = gij
178
on obtient le tableau des corrlations empiriques suivant : e rij 1 2 3 4 5 1 2 3 4 0.16 0.55 0.00 0.32 5 0.03 0.08 . 0.85 0.80 0.81 0.10 0.29 0.45 0.14 0.41 0.49 0.11 0.05
0.76 0.61 0.17 0.73 0.22 0.32
0.35 0.09
e Dans ce tableau, la i`me ligne correspond aux racines carres des parts de la variance de e la variable i (o`, par exemple, 2 est le vecteur des notes de lpreuve dalg`bre linaire) u e e e expliques par les composantes principales. e
7.8. Reprsentation graphique des rsultats de lACP e e 1. Scree graph. Il sagit de reprsenter dans un rep`re orthogonal linterpolation linaire des e e e e parts de la variance empirique expliques par la premi`re, deuxi`me, . . . , p`me composantes e e e principales. Pour lexemple numrique du paragraphe prcdent, p = 5 et e e e l1 5 j=1 lj l4 5 j=1 lj = 62%, = 8%, l2 5 j=1 lj l5 5 j=1 lj = 18%, l3 5 j=1 lj = 9%, (7.5)
= 3%.
Le scree graph est donc la courbe prsente dans la Figure 7.3. On utilise le scree graph e e pour choisir le nombre des composantes principales quil faut retenir. Plus prcisment, on e e se donne un seuil (par exemple, = 0, 05) et on retient toutes les composantes principales pour lesquelles la part de la variance explique est suprieure ` ce seuil. e e a 2. Projection des individus. Dans le contexte de lACP, on appelle individus les n porteurs des donnes x1 , . . . , xn . Ainsi, dans lexemple numrique du paragraphe prcdent, les e e e e individus sont les n = 88 tudiants. Le vecteur xi reprsente lensemble des caractristiques e e e observes de lindividu numro i. Si les xi sont de dimension suprieure ` deux, on ne peut e e e a pas reprsenter ces donnes de faon graphique sur le plan. An de visualiser les donnes e e c e statistiques multidimensionnelles, on les projette sur le plan engendr par les deux premiers e vecteurs propres g(1) et g(2) de la matrice de covariance empirique S. On obtient ainsi la projection bidimensionnelle de lchantillon initial : e y1 (x1 ), y2 (x1 ) , y1 (x2 ), y2 (x2 ) , . . . , y1 (xn ), y2 (xn ) , (7.6) qui peut tre visualise ` laide dun nuage de points sur le plan. Ici y1 () et y2 () sont les deux e e a premi`res composantes principales empiriques. Le graphique du nuage de points (7.6) sur R2 e sappelle projection des individus. Pour lexemple numrique du paragraphe prcdent, la e e e projection des individus est prsente sur la Figure 7.2. e e
7.8. REPRESENTATION GRAPHIQUE DES RESULTATS DE LACP
179
Projection des individus

+ + + + +
40
2me composante principale
+ + + + + + + + + + + + + + + +
+ ++ + ++ + +
+ + +
20
+ + + + + +
+ ++ + + ++ + + + + ++ + + + + + + + ++ + + + + + + + + ++ + + + + + + + + + + + + +
+ +
20
+ + 60 40 20 0 20 40 60
1re composante principale
Fig. 7.2. Projection des individus.
180
3. Projection des variables. Les deux premi`res composantes principales sont souvent les e plus importantes, en ce sens quelles expliquent la part dominante de la variance empirique. Ainsi, dans lexemple numrique du paragraphe prcdent, cette part est gale ` 80% (cf. e e e e a (7.5)). Dans ce cas, les corrlations empiriques ri1 , ri2 , i = 1, . . . , p, entre les p variables et les e deux premi`res composantes principales sont beaucoup plus informatives que les corrlations e e restantes rij pour j 3. Cette remarque justie lutilisation de loutil graphique appel e projection des variables sur le disque des corrlations (ou, en abrg, projection e e e des variables). Cest un graphique sur lequel on trace le cercle des corrlations et les p e points (i1 , ri2 ), i = 1, . . . , p, qui se trouvent dans le disque des corrlations. Si ces points r e sont proches du cercle, le graphique nous permet de juger de la dpendance linaire ou de e e e e labsence de corrlation entre la i`me et la k`me variables en utilisant les remarques faites ` la e a n du Paragraphe 7.5 (cf. Proposition 7.4) et du Paragraphe 7.6.
1
700
0.8 0.6 0.4
600
5 4 3 2 1
500
Variances
2me axe
Comp.1 Comp.2 Comp.3 Comp.4 Comp.5
0.2 0 0.2 0.4 0.6
100
200
300
400
0.8 1 1 0.5 0 1er axe 0.5 1
Fig. 7.3. Scree graph.
Fig. 7.4. Projection des variables.
7.9. Limites dutilisation de lACP Comme il a t expliqu au Chapitre 2, les coecients de corrlation sont essentiellement ee e e adapts pour dcire un lien linaire entre des variables alatoires, si un tel lien existe. LACP e e e e est aussi un outil linaire, en ce sens quelle est base sur linformation contenue dans les e e corrlations. Cest pourquoi lACP est souvent sans intrt si les donnes prsentent des liens e ee e e non-linaires, tels que, par exemple, des liens quadratiques (cf. Exercice 7.9). e De mani`re schmatique, on peut considrer que lACP fournit un bon rsultat lorsque les e e e e donnes xi forment un nuage de points dans Rp de structure ellipso e dale, alors quelle donne un rsultat peu satisfaisant si les donnes ont une structure tr`s dirente de lellipso e e e e dale,
7.10. EXERCICES
181
par exemple, celle de banane qui correspond plutt ` un lien quadratique (cf. Figure 7.5). o a
x x
xx x x x
x xx x x xx x x x x x x x x x x x x x x x
x x x xx
x x x x x x x x x xx x xx x xx x x xx x x x xx x x x x x x x xx x x x x x xx x x x x xx x x x x xx x x x x x x x x x x x x x xx x x x xx x x x x x x xx xx x x x x x x x x x x xx x xx x x x x x x xxx x x x x xx x
x x x x xx x x x xx xx xx x x x x x x x x x x x x xx x x x x x x xx x xx x xx x x x xxx x x x x x x x x x x xxx x x x x x x x x x xxx x x xx x x x xx x x x x x x x xx x x x x x x x x x x x xx xx x x x x x x x x x x xx xx x x xx x x x x xx x xx x x x xx x x x x x x xx x x x
x x x x xx
x x x x
x x xx
x x xx x x x x x x x x x xx x x xx x xx x x x xx x xx xx x x xx xx x x x x x x x x xx x x x x x x x x x x x x x
1.0
0.5
0.0
0.5
1.0
Fig. 7.5. Deux nuages de points : structure de banane et structure ellipso dale.
Finalement, il est utile de noter que, comme les corrlations empiriques ne sont pas stables e par rapport aux observations aberrantes (cf. Paragraphe 4.6), les rsultats de lACP ne le e sont pas non plus. Cela signie que la prsence dune seule observation aberrante (i.e. dune e observation xj tr`s loigne de tous les autres xi ) peut changer de faon radicale les rsultats e e e c e de lACP. 7.10. Exercices Exercice 7.2. Soit (f, u1 , u2 ) un vecteur alatoire de loi N3 (0, I) et R, 0. Posons e 1 = f + u1 , 2 = f + u2 et notons x = (1 , 2 )T . 1o . Donner la loi de x. Calculer les vecteurs propres et les valeurs propres 1 2 de la matrice de covariance de x. 2o . Calculer, en fonction de 1 et 2 , puis en fonction de f , u1 et u2 les composantes principales 1 et 2 associes ` x. Montrer que Var(i ) = i , Cov(1 , 2 ) = 0. e a o . Calculer les corrlations entre et . Montrer que 2 + 2 = 1, i = 1, 2. 3 e ij i1 i2 i j 4o . Donner le screegraph dans les cas limites = 0, = +. 5o . Tracer la projection des variables sur le disque des corrlations lorsque est proche de 0 e ou de +. Exercice 7.3. Supposons quon ait un chantillon de n individus caractriss par quatre e e e variables 1 , 2 , 3 , 4 dont les moyennes et les variances sont nies. On se propose deectuer lACP sur la matrice de covariance du vecteur alatoire x = (1 , 2 , 3 , 4 )T . Supposons que e cette matrice se met sous la forme : 1a b c a 1 c b = b c 1 a c b a1
182
o` a, b et c sont des rels. u e 1o . Quelle est la signication des coecients a, b, c et entre quelles valeurs varientils ? 2o . Trouver tous les vecteurs propres de , ainsi que les valeurs propres associes. Quelles e ingalits doivent vrier a, b, c pour que soit une matrice de corrlation ? e e e e 3o . On suppose dans toute la suite du probl`me que 0 a b c. Quelles relations doivent e satisfaire a, b, c pour que le support de x se rduise ` une droite ? ` un plan ? ` un espace e a a a de dimension 3 ? e 4o . Soit j la j `me composante principale pour lACP sur la matrice de covariance . Calculer la corrlation ij entre j et i pour i, j = 1, . . . , 4. On disposera ces corrlations dans un e e tableau carr. e 5o . Que peuton dire de la projection des variables sur le disque des corrlations lorsque e a = b = c? a = b? b = c? 6o . Application numrique : soit a = 0.1, b = 0.4, c = 0.6. Prciser les valeurs propres de e e , les composantes principales et les parts de variance expliques. Tracer le screegraph et la e projection des variables sur le disque des corrlations. e Exercice 7.4. Pendant 28 ans, un laboratoire a observ des ralisations de 4 variables e e mtorologiques suivantes : ee 1 2 3 4 = = = = prcipitations en juillet (en mm), e temprature moyenne en juillet (en degrs Celsius), e e vitesse moyenne du vent en juillet (en km/h), prcipitations en septembre (en mm) e
La matrice de covariance empirique obtenue ` partir de ces observations est la suivante : a 140, 017 107, 881 139, 068 109, 095 106, 038 110, 0439 82, 627 , S= 168, 752 125, 136 108, 960 alors que les corrlations empiriques rij entre les variables et les composantes principales e valent : 0.969 0.103 0.191 0.119 0.906 0.394 0.105 0.111 (ij )i,j=1,...,4 = r 0.970 0.160 0.156 0.090 . 0.943 0.249 0.096 0.197 1o . Calculer les variances empiriques li des composantes principales et tracer le screegraph. 2o . Calculer la part de variance de la premi`re variable explique par les deux derni`res e e e composantes principales, et la part de variance de la deuxi`me variable explique par les deux e e premi`res composantes principales. e 3o . Faire la projection des variables sur le disque des corrlations et commenter le rsultat. e e Exercice 7.5. Soit x R4 un vecteur alatoire de moyenne et de matrice de covariance e . On suppose que les lments diagonaux de sont ii = 1. On souhaite eectuer lanalyse ee en composantes principales bas sur la matrice de covariance . e 1o . Soit 0 < < 1. Lun des deux graphiques cicontre prsente la projection des variables e
7.10. EXERCICES
183
sur le disque des corrlations. Lequel ? e

Graphique a
1.0
axe 2
0.8 0.6
a a 2 ; 2
0.5
0.4
2me axe
0.0
a ;a 2 2
0.2 0 0.2
60
4 O
axe 1
0.5
2 3
0.4 0.6 0.8
1
0.5 0 1er axe 0.5 1
1.0
1.0
0.5
0.0
0.5
1.0
1 1
Fig. 7.6.
Les deux questions suivantes utilisent la projection des variables choisie en 1o . 2o . Sans eectuer les calculs donner linterprtation la plus compl`te possible de e e corrlations entre les variables, e corrlations entre les variables et les composantes principales. e Que se passe-t-il si = 1 ? 3o . Calculer la part de la variance totale explique par les deux premi`res composantes prine e cipales. Exercice 7.6. Soit un vecteur alatoire x = e covariance 1 = 0 (1 , 2 , 3 )T de moyenne 0 et de matrice de 0 1 1
o` 0 est une valeur donne. u e o . Chercher la plus grande valeur telle que soit bien une matrice de covariance quand 1 1 P = [0, 1 ]. On suppose dans la suite que P . 2o . Dterminer les composantes principales j de x, ainsi que leurs variances. e 3o . Calculer les parts de variance de chacune des variables 1 , 2 , 3 expliques par 1 , puis e par 2 . Quelle est la valeur minimale, pour P , de la part de variance de 1 explique par e le couple (1 , 2 ) ? 4o . Faire la projection des variables sur le disque des corrlations. Commenter le graphique e obtenu dans les deux cas limites : = 0 et = 1 . Exercice 7.7. Soit x R3 un vecteur alatoire de moyenne et de matrice de covariance . e On souhaite eectuer lanalyse en composantes principales bas sur la matrice de covariance e . Soit 0 < a < 1. Le graphique ci-contre prsente la projection des variables sur le disque e
184
des corrlations. e
1.0
axe 2
1
0.5
3
a 45 45
0.0
axe 1
2
0.5 1.0 1.0
0.5
0.0
0.5
1.0
Fig. 7.7.
1o .
Commenter le graphique. e e 2o . Calculer la corrlation entre la 2`me variable et la 2`me composante principale. e e e 3o . Dmontrer que la corrlation entre la 1`re et la 2`me variables est ngative. e e e Exercice 7.8. Soit x R3 un vecteur alatoire de moyenne et de matrice de covariance . e On souhaite eectuer lanalyse en composantes principales bas sur la matrice de covariance e . Soit 0 < a < 1. Le graphique ci-dessous prsente la projection des variables sur le disque e des corrlations. e
1.0
2
0.5
a a , 2 2
axe 2
a a , 2 2
0.0
axe 1
0.5
1.0 1.0
0.5
0.0
0.5
1.0
Fig. 7.8.
1o .
Calculer : e e la part de variance de la 2`me variable explique par la 3`me composante principale, e `re variable et la 2`me composante principale. e e la corrlation entre la 1 e e e e 2o . Dterminer la corrlation entre la 1`re et la 2`me variable, puis la corrlation entre la 1`re e e e `me variable. Commenter le rsultat. e et la 3 e
7.10. EXERCICES
185
3o . On suppose maintenant que la matrice se met sous la forme b 12 13 = 12 b 23 13 23 b o` les ij sont des constantes relles inconnues et b > 0. En utilisant les valeurs donnes sur u e e le graphique, dterminer les variances de deux premi`res composantes principales. e e
2 Exercice 7.9. Soit x = (1 , 2 )T , o` 2 = 1 et 1 N (0, 1). Eectuer lACP sur la matrice u de covariance de x et remarquer que la part de variance de 2 explique par la deuxi`me e e composante principale 2 = 1 vaut 0, alors que 1 et 2 sont fonctionnellement lis. e
Rgression linaire multivarie e e e

8.1. Le probl`me destimation de rgression multivarie e e e Soient x un vecteur alatoire p-dimensionnel et Y une variable alatoire relle, tels que e e e 2 ) < et E(Y 2 ) < , o` dsigne la norme Euclidienne. La fonction de rgression E( x u e e de Y sur x est une fonction g : Rp R dnie par : e g(z) = E(Y | x = z), z Rp .
Cette fonction, comme dans le cas unidimensionnel, jouit de la proprit de meilleure prvision, ee e i.e. E Y g(x)
2
= min E Y h(x)
h()
o` le minimum est cherch dans lensemble de toutes les fonctions borliennes h() (cf. Parau e e graphe 3.3). On peut alors crire e Y = g(x) + , (cf. Chapitres 2 et 3). Dans ce chapitre, nous supposerons que lon dispose dun chantillon (x1 , Y1 ), . . . , (xn , Yn ) e tel que Yi = g(xi ) + i , i = 1, . . . , n, o` E( | x) = 0 u
o` les i sont des variables alatoires centres et mutuellement indpendantes. Nous considru e e e e erons le probl`me statistique de lestimation de la fonction de rgression g ` partir de cet e e a chantillon. Plus particuli`rement, nous nous intresserons seulement ` la situation quand la e e e a rgression est linaire : e e g(x) = T x,
187
188
8. REGRESSION LINEAIRE MULTIVARIEE
o` Rp est un param`tre vectoriel : = (1 , . . . , p )T . Les observations Yi sont alors de la u e forme Yi = T xi + i , i = 1, . . . , n, (8.1)
et lestimation de la fonction g se rduit ` lestimation du param`tre inconnu . Le mod`le e a e e statistique dni par (8.1) sappelle mod`le de rgression linaire multidimensionnelle e e e e (ou multivarie). Limportance de ce mod`le pour les appications statistiques sexplique dune e e part par sa relative simplicit et dautre part par le fait quil permet dinclure comme des cas e particuliers un certain nombre de mod`les qui semblent, ` la premi`re vue, non-linaires. e a e e Exemple 8.1. Rgression linaire simple. Posons = (a, b)T et x = (1, Z)T avec a, b R, e e o` Z une variable alatoire relle. Notons que dans ce cas la premi`re composante du vecteur u e e e alatoire x est dterministe (non alatoire). Les observations Yi sont alors de la forme e e e Yi = a + bZi + i , o` les Zi sont des ralisations de la variable Z. u e Exemple 8.2. Rgression polynomiale. Soit Z une variable alatoire relle. Puisque toute e e e fonction susamment rguli`re peut tre dcompose selon la formule de Taylor, il est naturel e e e e e de chercher la dpendance entre Y et Z sous une forme polynomiale : e Z 1 + 2 Z + + p Z p1 , o` p 1 est un entier et 1 , . . . , p sont des coecients inconnus. Si lon dnit les vecteurs u e p1 )T et = ( , . . . , )T , on obtient x = (1, Z, . . . , Z 1 p g(x) = T x. On voit donc que la rgression polynomiale est un cas particulier de la rgression linaire e e e multidimensionnelle. Dans ce cas aussi, comme pour la rgression linaire simple, la premi`re e e e composante du vecteur alatoire x est dterministe. e e Exemple 8.3. Rgression non-linaire transforme. Il existe des mod`les non-linaires de e e e e e rgression qui peuvent tre rduits aux mod`les linaires par une transformation. Par exemple, e e e e e supposons que la fonction de rgression g() est de la forme e g(x) = A ev
Tx
i = 1, . . . , n,
avec x, v Rk ,
o` v est un vecteur des param`tres inconnus et A > 0 est une constante inconnue. Des u e fonctions de rgression de ce type sont utiliss, par exemple, dans les applications en conomie, e e e pour modliser la productivit des entreprises. En prenant les logarithmes, on obtient e e ln g(x) = ln A + v T x. An de se ramener ` une rgression linaire, on pose = (ln A, v T )T , x = (1, xT )T et on a e e obtient Yi = ln Yi = T xi + i , i = 1, . . . , n. (8.2) Cest un mod`le de rgression linaire par rapport ` lchantillon transform e e e a e e (x1 , Y1 ), . . . , (xn , Yn ). Notons que formellement on arrive ` (8.2) ` partir du mod`le Yi = g(xi )i de rgression o` a a e e u les erreurs i interviennent de faon multiplicative et non pas additive (on a alors i = ln i ). c
8.2. METHODE DES MOINDRES CARRES
189
Nanmoins, souvent la transformation logarithmique est utilise sans mentionner cette nuance e e de mani`re explicite. e 8.2. Mthode des moindres carrs e e Une mthode usuelle et tr`s rpandue pour estimer le param`tre Rp est celle des e e e e moindres carrs. Elle consiste ` chercher une valeur = qui minimise la somme des carrs e a e des dviations : e
n
(Yi xT )2 = min i p
R
(Yi xT )2 . i
i=1
i=1
Il est facile de voir quil existe toujours une solution de ce probl`me de minimisation que e lon appelle estimateur des moindres carrs de . On crit alors e e = argmin
Rp n
(Yi xT )2 . i
i=1
Lestimateur des moindres carrs nest pas toujours unique. La condition de lunicit est e e donne dans la proposition suivante. e Proposition 8.1. Supposons que la matrice
n
B=
i=1
xi xT Rpp i
soit strictement positive. Alors, lestimateur des moindres carrs est unique et il scrit sous e e la forme = B 1
n
xi Yi .
i=1 n i=1 (Yi
Preuve. La condition ncessaire pour que soit un point de minimum pour h() = e T )2 est (h/ )() = 0 pour tout i = 1, . . . , p. Cette condition quivaut ` xi e a i
n
2
i=1
xi (Yi xT ) = 0 i
n
ou encore B =
xi Yi .
i=1
(8.3)
Cest un syst`me de p quations linaires qui admet une solution unique car la matrice B est e e e inversible. Cette solution vaut = B 1
n
xi Yi .
i=1
Comme la fonction h() est convexe et positive, ce vecteur fournit le minimum global de h.
190
Il est convenable dcrire le mod`le de rgression linaire sous la forme matricielle : e e e e y = X + , o` y = (Y1 , . . . , Yn )T , = (1 , . . . , p )T , = (1 , . . . , p )T et X = (x1 , . . . , xn )T . Avec ces u notations, on a B = XT X, et on peut crire lestimateur des moindres carrs sous la forme e e = (XT X)1 XT y. Le syst`me des quations linaires (8.3) sappelle syst`me des quations normales pour e e e e e la mthode des moindres carrs. On peut lcrire sous la forme e e e B = XT y. Proposition 8.2. La matrice
n
B=
i=1
xi xT = XT X i
est toujours positive. An quelle soit strictement positive, il est ncessaire et susant que le e rang de la matrice X soit gal ` p. e a Preuve. Notons dabord que B est positive, car tout v Rp \ {0} vrie lingalit e e e
p
v Bv = v X Xv = w w =
i=1
2 wi 0,
o` w = Xv = (w1 , . . . , wp ). Il est vident que lingalit prcdente devient galit si et u e e e e e e e seulement si w = Xv = 0. Or, Xv = 0 pour un vecteur v dirent de 0 implique que le rang e de X est strictement infrieur ` p. On a donc montr que si B nest pas strictement positive, e a e alors Rang(X) < p. La preuve de la rciproque est similaire. Si Rang(X) < p, alors il existe un vecteur e v Rp \ {0} tel que Xv = 0. Il en rsulte que v T Bv = v T XT Xv = 0. Par consquent, la e e matrice B nest pas strictement positive. Une consquence immdiate de cette proposition est la suivante : si la taille dchantillon e e e n est strictement infrieure ` la dimension p des observations, la matrice B est dgnre. En e a e e e e eet, n < p implique que Rang(X) < p, car le rang dune matrice M est le nombre maximal des lignes de M qui forment une famille de vecteurs libre. Une autre formulation de cette proprit est : ee B > 0 = n p. 8.2.1. Interprtation gomtrique de la mthode des moindres carrs. Le probe e e e e l`me de minimisation de la somme des carrs des dviations peut scrire sous la forme suie e e e vante : min y X 2 = min y v 2 (8.4) p
R vD
o` D dsigne le sous-espace linaire de u e e
Rn
n
dni par e
D = v R : v = X, Rp .
8.3. PROPRIETES STATISTIQUES DE LA METHODE DES MOINDRES CARRES
191
En mots, D est le sous-espace linaire de Rn engendr par les p colonnes de la matrice X. Si e e X est une matrice de rang p, ce qui est vrai lorsque B > 0, alors D est un sous-espace linaire e de dimension p : Rang(X) = p B>0 dim (D) = p.
df e Si B > 0, la solution du probl`me (8.4) est v = X = X(XT X)1 XT y = Ay. e
Dnition 8.1. Soit B > 0. La matrice e A = X(XT X)1 XT Rnn est dite matrice chapeau (hat matrice). Proposition 8.3. Supposons que B > 0. Alors la matrice A est symtrique, idempotente, e Rang(A) = p et A est le projecteur dans Rn sur le sous-espace D. Preuve. Il vient AT = X[(XT X)1 ]T XT = X[(XT X)T ]1 XT = X(XT X)1 XT = A et A2 = X(XT X)1 XT X(XT X)1 XT = X(XT X)1 XT = A. Donc A est symtrique et idempotente, ce qui signie que A est un projecteur. En outre, pour e tout y Rn , on a Ay = X = v D. Donc A projette sur un sous-ensemble de D. Mais ce sous-ensemble co ncide avec D, car pour tout vecteur v D il existe Rp tel que v = X et, par consquent, e Av = X(XT X)1 XT v = X(XT X)1 XT X = X = v. Cela signie que A est le projecteur sur D. Comme D est un sous-espace de Rn de dimension p, le rang de A est gal ` p. e a
8.3. Proprits statistiques de la mthode des moindres carrs e e e e Supposons que lhypoth`se suivante soit vrie. e e e Hypoth`se (R). e (R1) Les vecteurs x1 , . . . , xn appartenant ` Rp sont dterministes. a e (R2) La matrice B est strictement positive. (R3) Le vecteur alatoire est de moyenne E() = 0 et de matrice de covariance e V () = 2 In , o` 2 > 0 et In est la matrice unit de dimension n n. u e Thor`me 8.1. Sous lHypoth`se (R), lestimateur des moindres carrs est sans biais : e e e e E() = et sa matrice de covariance V () = E ( )( )T vaut V () = 2 B 1 . (8.5)
192
Preuve. Il vient
= B 1 XT y = B 1 XT (X + ) = + B 1 XT ,
(8.6)
do` dcoule (8.5). En utilisant (8.6) on obtient aussi que u e V () = E ( )( )T = E[(B 1 XT )( T XB 1 )] = B 1 XT E[ T ]XB 1 . Comme V () = E[ T ] = 2 In , on obtient B 1 XT E[ T ]XB 1 = 2 B 1 XT XB 1 = 2 B 1 .
Thor`me 8.2. Sous lHypoth`se (R), la statistique e e e 2 =

df e
y X np
= 2
1 np :
n i=1
(Yi xT )2 i
est un estimateur sans biais de la variance
E( 2 ) = 2 . Preuve. Notons dabord que les observations y proviennent du mod`le y = X + , ce qui e = X( ) + . Vu (8.6), il en rsulte que implique que y X e y X = XB 1 XT + = (In XB 1 XT ) = (In A). Par consquent, e E[ y X 2 ] = E[ T (In A)T (In A)] = E[ T (In A)2 ] = E[ T (In A)], o` on a utilis le fait que A est une matrice idempotente. Dsignons par aij les lments de u e e ee A. On a alors
n n n
(8.7)
E[ T (In A)] =
(ij aij ) E[i j ] = 2

i,j=1
(ij aij ) ij = 2
i,j=1 i=1
(1aii ) = 2 (nTr(A)),
o` ij est le symbole de Kronecker. Comme A est un projecteur, ses valeurs propres valent u 0 ou 1. Dapr`s la Proposition 8.3, Rang(A) = p, donc il y a exactement p valeurs propres e gales ` 1. On en dduit que Tr(A) = p, do` le rsultat. e a e u e
8.4. Rgression linaire normale e e Supposons maintenant que les variables alatoires i suivent la loi normale N (0, 2 ). Dans e ce cas la condition (R3) entra lindpendance des variables alatoires i . ne e e Hypoth`se (NR). LHypoth`se (R) est vrie et est un vecteur gaussien. e e e e Sous lHypoth`se (NR), est lestimateur du maximum de vraisemblance du param`tre e e (cf. Exercice 8.2). Le thor`me suivant permet de dduire la loi jointe de (, 2 ) sous lHypoth`se (NR). Ce e e e e thor`me est une gnralisation multidimensionnelle de la Proposition 4.4. e e e e
` 8.5. APPLICATION AU PROBLEME DE PREVISION
193
Thor`me 8.3. Si lHypoth`se (NR) est vrie, alors e e e e e Np (, 2 B 1 ), (i) (ii) (iii) y X et y X X( ), 2 X( ) 2 y X 2 2 np et
2
2 . p
Preuve. Dapr`s (8.6) et (8.7), e = B 1 XT ,
(8.8) La premi`re galit, compte tenu du fait que B et X sont dterministes, implique que est e e e e un vecteur gaussien. Dapr`s le Thor`me 8.1, la moyenne de ce vecteur est et sa matrice e e e de covariance vaut 2 B 1 , do` le rsultat (i). u e Vu (8.8), le vecteur alatoire y X, ) Rn+p est gaussien comme transformation ane e du vecteur gaussien . De plus, la matrice de covariance entre et y X est C(, y X) = E[( )(y X)T ] = E[B 1 XT T (In A)] = 2 (B 1 XT B 1 XT A) = 0. En utilisant la proprit (N6) de la loi normale multidimensionnelle dmontre au Chapitre 3, ee e e on obtient la premi`re partie du rsultat (ii). Sa deuxi`me partie en dcoule vu la prservation e e e e e de lindpendance par transformations mesurables. e Pour prouver le rsultat (iii) du thor`me, introduisons le vecteur alatoire = / et e e e e appliquons le Thor`me de Cochran (cf. Chapitre 3). Dapr`s (8.8), y X = (In A) et e e e 1 XT = A . Par ailleurs, la Proposition 8.3 implique que les matrices A et X() = XB In A sont symtriques et idempotentes, (In A)A = 0, Rang(A) = p et Rang(In A) = np. e Dapr`s le Thor`me de Cochran, ceci entra le rsultat (iii). e e e ne e
y X = (In A) .
8.5. Application au probl`me de prvision e e Considrons dabord un exemple de probl`me de prvision qui motive ce qui va suivre. e e e Exemple 8.4. Prvision dans le mod`le de rgression sur le temps. Supposons que lon dise e e pose des donnes statistiques (Yi , xi ), i = 1, . . . , n, o` xi = i et > 0 est un nombre x, e u e telles que Yi = xi + i , i = 1, . . . , n, avec R. On peut penser ` Yi comme ` la vaa a leur ` linstant i dune variable Y voluant dans le temps de mani`re alatoire (exemples : a e e e la temprature, le niveau de leau dans un euve, le cours dune option nanci`re, etc). Le e e 0 qui approche bien la valeur de la probl`me de prvision consiste ` donner un estimateur Y e e a fonction de rgression g(x0 ) = x0 ` linstant donn x0 tel que x0 > xn = n. Une mthode e a e e tr`s rpandue est de chercher une prvision linaire de la forme Y0 = x0 , o` est un estie e e e u mateur convenable de . Le plus souvent on utilise = , lestimateur des moindres carrs de e . Considrons maintenant le cas gnral quand les xi sont multidimensionnels. Soit x0 Rp e e e un vecteur donn. Le probl`me est formul de mani`re similaire : trouver une prvision Y0 e e e e e T x , tant donn un chantillon (x , Y ), . . . , (x , Y ) provenant du mod`le de de g(x0 ) = 0 e e e e 1 1 n n rgression linaire e e Yi = T xi + i , i = 1, . . . , n.
194
La recherche dune prvision linaire de la forme Y0 = T x0 revient ` la recherche dun e e a du param`tre . Un choix possible est = , lestimateur des moindres carrs estimateur e e de . La valeur Y0 = T x0 est donc une prvision de g(x0 ). Les proprits de cette prvision e ee e sont donnes dans le thor`me suivant. e e e Thor`me 8.4. e e (i) Si lHypoth`se (R) est vrie, e e e E(Y0 ) = T x0 (ii) Si lHypoth`se (NR) est vrie, e e e Y0 N (T x0 , 2 xT B 1 x0 ) 0 et Y0 T x0 y X . et Var(Y0 ) = 2 xT B 1 x0 . 0
Preuve. Elle est immdiate dapr`s les Thor`mes 8.1 et 8.3. e e e e La seconde partie de ce thor`me nous permet de construire un intervalle de conance e e pour g(x0 ) = T x0 . En eet, dapr`s la partie (ii) du Thor`me 8.4, si lHypoth`se (NR) est e e e e satisfaite, Y0 T x0 df e = N (0, 1). 2 xT B 1 x0 0 Cette relation implique, en particulier, que P (g(x0 ) [g, g]) = 1 , o` u g = Y0 g = Y0 +
N 2 xT B 1 x0 q1/2 , 0 N 2 xT B 1 x0 q1/2 . 0
Donc, dans le cas o` la variance est connue, lintervalle [g, g] est un intervalle de conance u de taille exacte 1 pour g(x0 ). Lorsque la variance 2 est inconnue, il est naturel de la remplacer par son estimateur sans biais 2 dni dans le Thor`me 8.2. Pour pouvoir construire un intervalle de conance e e e exacte, il nous faut conna la loi de la v. a. tre t=
df e
Y0 T x0 2 xT B 1 x0 0
df e Dapr`s le Thor`me 8.4, les variables alatoires et = (n p) 2 / 2 = y X 2 / 2 sont e e e e indpendantes. Par consquent, la variable alatoire t peut tre reprsente sous la forme e e e e e e t= , /(n p)
e o` N (0, 1), 2 et . Il en rsulte que t suit la loi de Student tnp avec n p u np degrs de libert. On en dduit que [g , g ] est un intervalle de conance de taille exacte 1 e e e
` 8.6. APPLICATION AUX TESTS SUR LE PARAMETRE
195
pour g(x0 ) si g = Y0 g = Y0 + 2 xT B 1 x0 q1/2 (tnp ), 0 2 xT B 1 x0 q1/2 (tnp ). 0
Soulignons que lhypoth`se de normalit des erreurs i est cruciale pour que [g , g ] soit un e e intervalle de conance de taille exacte 1 .
8.6. Application aux tests sur le param`tre e Dans ce paragraphe, on supposera que les erreurs i du mod`le de rgression sont normales e e et que lHypoth`se (NR) est vrie. Notre premier objectif est de tester lhypoth`se e e e e H0 : j = a contre lhypoth`se alternative e H1 : j = a,
e o` a R est une valeur donne et j est la j `me coordonne du vecteur . Dsignons par j u e e e `me coordonne de lestimateur des moindres carrs et par b le j `me lment diagonal e e la j e e ee j de la matrice B 1 . LHypoth`se (R2) implique que bj > 0 pour j = 1, . . . , p. e
Corollaire 8.1. Si lHypoth`se (NR) est vrie, e e e j j N (0, 1). bj Preuve. Dapr`s le Thor`me 8.3, N (0, 2 B 1 ). Soit vj le vecteur de Rp dont toutes e e e `me qui vaut 1. La v. a. ( ) est donc gale ` ( )T v , j j les coordonnes sont nulles sauf la j e e e a j ce qui entra quelle est suit une loi gaussienne. An didentier cette loi, il sut de calculer ne sa moyenne et sa variance : E(j j ) = E[( )T vj ] = 0, Var(j j ) = E ( )T vj
2 T T = vj E[( )( )T ]vj = 2 vj B 1 vj = 2 bj .
On a alors j N (0, 2 bj ) ou encore ( 2 bj )1/2 (j ) N (0, 1). Si le param`tre est inconnu, nous ne pouvons pas utiliser la statistique ( 2 bj )1/2 (j ). e Dans ce cas, il faut la modier en remplaant par son estimateur dni au Paragraphe c e 8.3. Corollaire 8.2. Si lHypoth`se (NR) est vrie, e e e j j tnp . bj
196 df e
8. REGRESSION LINEAIRE MULTIVARIEE df e
Preuve. Soit = ( 2 bj )1/2 (j ) et = (n p) 2 / 2 = y X 2 / 2 . Dapr`s le e 2 Thor`me 8.3 et le Corollaire 8.1, N (0, 1), np et . Par ailleurs, e e j j = bj do` le rsultat. u e Ce corollaire implique que sous lhypoth`se H0 : j = a, la loi de la v. a. e t= j j bj /(n p) ,
est tnp (loi de Student avec n p degrs de libert). Par consquent, si lon dnit la rgion e e e e e critique du test par j a R= > c bj avec une constante c > 0 convenablement choisie, alors le risque de premi`re esp`ce est e e
0
sup P (R) = sup P

0
j a > c , bj
o` 0 = Rp : j = a (soulignons que H0 est une hypoth`se composite, car on peut la u e rcrire comme H0 : 0 ). Sur lensemble 0 le param`tre j vaut a, donc la variable t ee e suit la loi de Student tnp . On a alors sup P j a > c bj = sup P |tnp | > c = P |tnp | > c .
0
Pour avoir le risque de premi`re esp`ce gal ` , il faut choisir la valeur critique c = e e e a q1/2 (tnp ). Ainsi, on obtient la rgion critique du test de niveau (et de taille) : e R= On rejette donc lhypoth`se H0 si e j a > q1/2 (tnp ) bj et on ne la rejette pas dans le cas contraire. Dans les applications, on est souvent confront aux tests des hypoth`ses plus gnrales, e e e e en particulier, de lhypoth`se e H0 : j1 = a1 , . . . , jm = am contre lalternative H1 : k {1, . . . , m} tel que jk = ak , o` {j1 , . . . , jm } est un sous-ensemble de {1, . . . , p}. Notons que H1 est le complmentaire de u e H0 . j a > q1/2 (tnp ) . bj (8.9)
` 8.6. APPLICATION AUX TESTS SUR LE PARAMETRE
197
Exemple 8.5. Test de slection des variables dans la rgression polynomiale : e e Yi = g(xi ) + i = 1 + 2 Zi + + p Zip1 + i , On veut tester lhypoth`se e H0 : j+l = 0, l = 1, . . . , p j. i = 1, . . . , n.
contre lalternative H1 : il existe l 1 tel que j+l = 0. Pour ce faire, on peut utiliser le test de Bonferroni. 8.6.1. Test de Bonferroni. Ce test doit son nom ` lingalit suivante que lon appelle a e e ingalit de Bonferroni : soient A1 , . . . , Am des vnements alatoires, alors e e e e e
m m
P
i=1
Ai
i=1
P (Ai ).
Supposons maintenant que lon souhaite tester lhypoth`se e H0 : j1 = a1 , . . . , jm = am contre lalternative H1 : k {1, . . . , m} tel que jk = ak , o` J = {j1 , . . . , jm } est un sous-ensemble de {1, . . . , p} (notons que lhypoth`se H0 ainsi que u e lalternative H1 sont composites). Considrons la rgion critique e e
m
R=
i=1
Ri
avec Ri =
ji ai > q1/(2m) (tnp ) . bji
(8.10)
La rgion R dnit un test de niveau . En eet, dapr`s lingalit de Bonferroni, e e e e e

m 0
sup P (R)
i=1 0
sup P (Ri ) = m /m = ,
o` 0 = { Rp : ji = ai , i = 1, . . . , m}. On appelle le test bas sur la rgion critique (8.10) u e e test de Bonferroni. Remarque. A la dirence du test (8.9) pour une seule coordonne, le test de Bonferroni e e est de niveau mais il nest pas de taille . Une autre approche pour traiter des situations similaires et mme plus gnrales est la e e e suivante. 8.6.2. Hypoth`se linaire gnrale. F-test. Supposons que lon souhaite tester lhye e e e poth`se e H0 : G = b contre lalternative H1 : G = b,
198
o` G est une matrice m p et b est u 0 ... 0 1 . .. . . G = . . . . . . .

pm
un vecteur de Rm . En particulier, si lon pose ... 0 a1 . .. . m , b = . Rm , . . . . 0 ... 0 0 ... 1 am

m
on obtient lhypoth`se et lalternative dcrites dans lExemple 8.5. e e Proposition 8.4. Si lHypoth`se (NR) est vrie, e e e G Nm (G, 2 GB 1 GT ). Preuve. Elle est immdiate dapr`s le Thor`me 8.3. e e e e Dapr`s cette proposition, sous lhypoth`se H0 : G = b on a : e e G Nm (b, D) avec D = 2 GB 1 GT . Soit D > 0. Dnissons la variable alatoire e e = (G b)T D1 (G b). Dapr`s la Proposition 3.6, e 2 . m Si 2 est inconnu, on ne peut pas se servir de pour dnir la rgion critique du test. Cest e e 2 par son estimateur 2 . On obtient ainsi lestimateur de la matrice de pourquoi on replace covariance D suivant : y X 2 D = 2 GB 1 GT avec 2 = . np Introduisons maintenant la variable alatoire e T 1 df (G b) D (G b) e F = m que lon appelle F-statistique et dnissons la rgion critique du test bas sur cette statise e e tique : R = {F > c }. Ici c > 0 est ` choisir de faon que le test soit de niveau . On peut remarquer que F est a c une sorte de distance entre G et b. On dcidera donc de rejeter H0 si cette distance F est e assez grande (> c ). En utilisant le Thor`me 8.3, on peut facilement vrier que sous H0 la v. a. F suit la loi e e e de Fisher-Snedecor ` degrs de libert m et n p, ce qui nous conduit au choix suivant de a e e la valeur critique : c = q1 (m, n p), o` q1 (m, n p) dsigne le quantile dordre 1 u e de la loi de Fisher-Snedecor Fm,np ` degrs de libert m et n p. On obtient nalement la a e e rgion critique e R = F > q1 (m, n p) . Le test bas sur la rgion critique (8.11) est appel F-test. e e e (8.11)
df e
8.7. EXERCICES
199
8.7. Exercices Exercice 8.1. 1o . Soit x Rp . Quel est le rang de la matrice xxT ? Quels sont ses vecteurs propres et valeurs propres ? 2o . On suppose maintenant que x Rp est un vecteur alatoire. Mmes questions que 1o pour e e la matrice E(xxT ). 3o . Considrons le cas particulier de 2o quand e x = (1, Z, . . . , Z p1 )T , o` Z est une variable alatoire. Montrer que la matrice E(xxT ) est strictement positive si la u e loi de Z admet une densit par rapport ` la mesure de Lebesgue sur R. e a Exercice 8.2. Soient 1 , . . . , n des variables alatoires i.i.d. de densit f () par rapport ` la e e a mesure de Lebesgue sur R, et soit Xi R, i = 1, . . . , n. On observe les couples (Xi , Yi ), i = 1, . . . , n, issus du mod`le de rgression linaire e e e Yi = Xi + i , o` R est un param`tre inconnu. u e 1o . On suppose dabord que les Xi sont dterministes (mod`le de rgression ` eets xes). e e e a o . Expliciter la densit jointe de Y , . . . , Y . 1.1 e 1 n 1.2o . Montrer que si la loi de i est N (0, 1), la densit des (Y1 , . . . , Yn ) est e 1 1 exp 2 (2)n/2
n
(Yi Xi )2
i=1
En dduire lestimateur du maximum de vraisemblance M V de . Quelle est la loi de M V ? e Son risque quadratique ? 1.3o . Dans le cadre nonc en 1.2o , on tudie le cas particulier de rgression sur le temps : e e e e Xi = i. Quelle est la vitesse de convergence du risque quadratique vers 0 dans ce cas ? Proposer la prvision linaire de Yn+1 base sur (Y1 , . . . , Yn ). Donner lintervalle de conance de taille e e e exacte 1 pour Yn+1 . 2o . On suppose maintenant que les Xi sont des variables alatoires i.i.d. (mod`le de rgression e e e ` eets alatoires) et que Xi est indpendant de i , pour tout i. On note fX la densit de X1 . a e e e o . Chercher la densit conditionnelle de (Y , . . . , Y ) sachant (X , . . . , X ), puis la densit 2.1 e e 1 n 1 n jointe de (X1 , . . . , Xn , Y1 , . . . , Yn ) . Vrier que lestimateur du maximum de vraisemblance e M V de ne dpend pas de la loi des Xi . e o . Soit lestimateur des moindres carrs de . En supposant que les sont de moyenne n 2.2 e i 2 2 2 2 E(1 ) = 0 et de variance E(1 ) = et que E(X1 ) = X , donner la loi asymptotique de n(n ) quand n . 2.3o . En dduire un intervalle de conance de niveau asymptotique 1 pour et un test e de niveau asymptotique de lhypoth`se H0 : = 0 contre lalternative H1 : > 0. e 3o . On suppose que les Xi sont dterministes et que les i sont de densit f . Montrer que e e lestimateur du maximum de vraisemblance est le mme que celui trouv en 2.1o . e e
200
Exercice 8.3. Soient Z, , des variables alatoires gaussiennes mutuellement independantes e de loi N (0, 1) et soit R. On dnit X et Y par e X = Z + , Y = Z + .
Supposons que lon dispose de n observations i.i.d. (X1 , Y1 ), . . . , (Xn , Yn ), o` (Xi , Yi ) suit la u mme loi que (X, Y ), et que lon veut estimer le param`tre ` partir de ces observations. e e a Soit n Xi Yi n = i=1 2 n i=1 Xi lestimateur des moindres carrs de . Montrer que n nest pas consistant. Modier n pour e . Chercher la loi limite de n( ) obtenir un estimateur consistant que lon notera n n quand n . Exercice 8.4. Soit le mod`le de rgression linaire simple e e e Yi = 1 + 2 Xi + i , i = 1, . . . , n,
o` i sont des variables alatoires gaussiennes indpendantes, de moyenne 0 et de variance u e e 2 > 0 inconnue, Xi R sont des valeurs dterministes et 1 et 2 sont des param`tres rels e e e inconnus. On note n n = 1 = 1 X Xi , Y Yi , n n
i=1 i=1
et on suppose dans la suite que

n
S2 =
i=1
(Xi X)2 > 0.
1o . Expliciter 1 et 2 , les estimateurs des moindres carrs de 1 et 2 respectivement. Explie 2 de 2 . citer galement lestimateur e 2o . Trouver les variances de 1 , 2 , ainsi que les covariances Cov(1 , 2 ) et Cov(Y , 2 ). Montrer que 1 2 si et seulement si X = 0. o . Donner la loi de la statistique 3 (2 2 )S . 4o . Soit 0 < < 1. Proposer un test de taille exacte de lhypoth`se H0 : 2 > 0 contre e lalternative H1 : 2 0. Exercice 8.5. Soit R un param`tre inconnu. Supposons que lon dispose de n observae tions (X1 , Y1 ), . . . , (Xn , Yn ) telles que Yi = Xi + i , i = 1, . . . , n,
o` les i sont des variables alatoires i.i.d. N (0, 1) et les Xi sont des variables alatoires i.i.d. u e e de loi de Rademacher : Xi = 1 avec la probabilit e 1 avec la probabilit e 1 p, p,
8.7. EXERCICES
201
o` 0 < p 1/2. Supposons de plus que (X1 , . . . , Xn ) est indpendant de (1 , . . . , n ). u e M M 1o . Soit n C lestimateur des moindres carrs de . Est-il biais ? Dterminer la loi de n C . e e e o . Considrons lestimateur de dni par 2 e e n =
n i=1 Yi n i=1 Xi n
I
i=1
Xi = 0 .
Calculer le biais de n lorsque n = 2. 3o . Trouver la loi limite de n(n ) quand n et 0 < p < 1/2. Quelle dicult e rencontre-t-on au cas p = 1/2 ? M 4o . Comparer les variances asymptotiques de n C et n . Lequel de ces deux estimateurs est asymptotiquement le plus ecace ?

StatAppli Paris 6

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

StatAppli Paris 6

Transféré par

Droits d'auteur :

Formats disponibles

Statistique applique e

Universit Pierre et Marie Curie e Ma trise de Mathmatiques e

peuvent tre omises en premi`re lecture et ne feront e e

Table des mati`res e

` TABLE DES MATIERES

4.4. 4.5. 4.6. 4.7. 4.8.

` TABLE DES MATIERES

8.4. 8.5. 8.6. 8.7.

192 193 195 199

Rappels et complments de probabilits e e

Quelques rappels de probabilits e

1. QUELQUES RAPPELS DE PROBABILITES

Figure 1.1. La f.d.r. de la loi de Poisson

Exemple 1.1. a) Loi normale (gaussienne) N (, 2 ) est la loi de densit e

1.1. CARACTERISTIQUES DES VARIABLES ALEATOIRES

2 = moment centr dordre 2) : e

1. QUELQUES RAPPELS DE PROBABILITES

Pourtant, lesprance et la variance de la loi de e

1.1. CARACTERISTIQUES DES VARIABLES ALEATOIRES

1. QUELQUES RAPPELS DE PROBABILITES

1.1. CARACTERISTIQUES DES VARIABLES ALEATOIRES

Figure 1.3. Le mode, la mdiane et la moyenne dune loi e

1. QUELQUES RAPPELS DE PROBABILITES

f (x)dx dans le cas continu)

1.2. RAPPEL DE QUELQUES INEGALITES

1. QUELQUES RAPPELS DE PROBABILITES

1.3. SUITES DE VARIABLES ALEATOIRES

1. QUELQUES RAPPELS DE PROBABILITES

E(Xi ) (vrai sans hypoth`se dindpendance) e e

` 1.4. INDEPENDANCE ET THEOREMES LIMITES

vrie e E(X) = et Var(X) = 2 1 Var(X1 ) = . n n

1. QUELQUES RAPPELS DE PROBABILITES

n (p.s.) g(n ) g() (p.s.), n n

g(n ) g(), g(n ) g()

En particulier, P (|n a| < ) P (|g(n ) g(a)| < ). Comme n a, on a

lim P (|n a| < ) = 1 pour tout > 0, > 0.

lim P (|g(n ) g(a)| < ) = 1 pour tout

Preuve. Sous les hypoth`ses de la proposition, la fonction e h(x) = g (),

max = max(1 , ..., n ).

P (i x), P (max < x) =

FY (y) = lim FX,Y (x, y) = P (Y y).

fX,Y (x, y)dxdy = 1. Les densits marginales e

fX,Y (x, y)dy, fY (y) =

fX,Y (x, y)dx.

de X et Y sont dnies par les probabilits e e P (X = k) =

2.2. CONDITIONNEMENT (CAS DISCRET)

= E(h(Y, m)|X = m).

2.3. CONDITIONNEMENT ET PROJECTION. MEILLEURE PREVISION

Figure 2.1. La projection orthogonale sur LX (P ). 2

Preuve. Pour tout h(X) LX (P ), 2 E (E(Y |X)h(X)) =

E(Y |X = k)h(k)P (X = k) mP (Y = m|X = k) h(k)P (X = k)

m h(k)P (Y = m, X = k) = E(Y h(X)).

2.4. PROBABILITE ET ESPERANCE CONDITIONNELLES (CAS GENERAL)

P (Y B|X = x)dFX (x) pour tout A B,

FY |X (y|x)dFX (x) pour tout y R, A B.

E(Y |X = x)dFX (x), pour tout A B.

2.5. CONDITIONNEMENT (CAS CONTINU)

si fX (x) > 0, si fX (x) = 0.

fY |X (y|x)dy dFX (x).

fY |X (y|x)fX (x) dxdy

fX,Y (x, y)dxdy = P (X A, Y B).

De faon similaire on obtient la formule pour lesprance conditionnelle : c e

si fX (x) > 0, si fX (x) = 0.

P (X + Y < z, X < x) = P (X + Y < z, X < z) =