Vous êtes sur la page 1sur 4
Chapitre 9 Estimateurs au maximum de vraisemblance Avec ce chapitre nous commençons l’étude de quelques outils centraux de la statistique. 9.1 Estimateur Définition : Soit n > 0 un entier. Nous appellerons n-échantillon d’une loi L toute suite X1 , . . ., Xn de v.a. indépendantes de loi L. La statistique-pratique est un ensemble de techniques de traitement de données qui, face à la donnée de n nombres (ou plus généralement vecteurs) x1 , . . ., xn produits par “échantillonage” - c’est-à-dire selon un protocole expérimental propre au domaine considéré (sociologie, contrôle de qualité, etc.) - choisit un n-échantillon au sens de la définition ci-dessus pour modèle mathématique suggérant un traitement de ces données. Prenons l’exemple d’un référendum (ou d’un plébicite) où les électeurs ne peuvent que répondre par “oui” ou “non” (les abstentions étant sans influence sur le résultat, ce qui exclut les cas où il y a un quorum à atteindre). Choisissons n = 1000, et posons xi = 1 si la i-ème personne interrogée déclare savoir ce qu’elle ira voter et vouloir voter “oui” (si elle déclare ne pas savoir ou ne pas envisager de voter, on écarte cette réponse de la présente analyse) et xi = 0 si elle déclare vouloir voter “non”. Cette situation simple est généralement modélisée par un 1000-échantillon X1 , . . ., X1000 d’une loi de Bernoulli B(1, p), et on considère que l’opinion est en faveur du “oui” si et seulement si p ≥ 0.5. On est alors confronté au problème “d’estimer” la valeur de p. Dans le modèle condisidéré ici (Bernouilli) la loi des grands nombres vient à notre secours : elle assure que limn→+∞ (X1 + . . .+ Xn )/n = E(X1 ) = p ; on dit dans ce cas que p̂ := (X1 + . . . + Xn )/n est un estimateur du paramètre p ; en pratique, on choisit alors p = p∗ := (x1 + . . . + x1000 )/1000. Nous nous intéresserons ici à la statistique paramétrique, où la loi L = L(θ) retenue peut être car- actérisé par un paramètre θ, qui est un nombre ou un vecteur. Ainsi, par exemple, si Xi ; B(1, p), alors θ = p est un nombre, mais si Xi ; N (µ, σ), alors θ = (µ, σ) est un vecteur, tout comme dans le cas d’un dé pipé où l’on peut choisir θ = (p1 , . . . , p5 ) (et p6 = 1 − (p1 + . . . + p5 )) et pk := Pθ ({Xi = k}). Définition : On dit que θ̂ : (x1 , . . . , xn ) 7→ θ̂n := θ̂(x1 , . . . , xn ) est un estimateur convergeant vers θ si et seulement si , en loi, on a θ = limn→+∞ θ̂(X1 , . . . , Xn ) pour toute suite de v.a. Xi indépendantes, de loi L(θ). 9.2 Vraisemblance 9.2.1 Heuristique et définition Nous avons vu que la loi des grands nombres fournit “spontanément” un estimateur de l’espérance d’une loi, mais si l’on recherche une méthode un peu générale pour deviner un estimateur, la méthode du maximum de vraissemblance est une stratégie souvent efficace. En voici le principe : Si un échantillonage a produit la suite finie x∗1 , . . ., x∗n de nombres et qu’on a choisit de modéliser cette situation par un n-échantillon X1 , . . ., Xn de v.a. indépendantes de loi L(θ), et si le choix de la 43 44 CHAPITRE 9. ESTIMATEURS AU MAXIMUM DE VRAISEMBLANCE valeur du paramètre θ est le problème auquel on est confronté, on peut considérer l’évènement E ∗ = {X1 = x∗1 , . . . , Xn = x∗n }, et plus généralement E(x1 , . . . , xn ) = {X1 = x1 , . . . , Xn = xn } = {X1 = x1 } ∩ . . . ∩ {Xn = xn } et sa probabilité L(x1 , . . . , xn ; θ) := Pθ (E(x1 , . . . , xn )) = Pθ ({X1 = x1 }∩. . .∩{Xn = xn }) = Pθ ({X1 = x1 })·. . .·Pθ ({Xn = xn }), cette dernière égalité résultant de l’hypothèse d’indépendance des v.a. Xi . L’idée très heuristique est alors que le choix θ∗ qu’il convient d’effecteur pour θ, est celui pour lequel cette probabilité est maximale pour les valeurs x∗1 , . . ., x∗n obtenues, et donc de poser θ∗ = Argmax θ {L(x∗1 , . . . , x∗n ; θ)}, c’est-à-dire la valeur (si elle existe et est unique) de θ pour laquelle la fonction θ 7→ L(x∗1 , . . . , x∗n ; θ) est maximale. Souvent, ceci peut se ramener à résoudre en θ l’équation ∂L ∗ ∗ ∂θ (x1 , . . . , xn ; θ) = 0. Qn Définition : La fonction Ln : (x1 , . . . , xn ; θ) 7→ Ln (x1 , . . . , xn ; θ) = i=1 Pθ ({Xi = xi }) pour des Xi ; L(θ) s’appelle la vraisemblance de la loi L. La v.a. obtenue en appliquant la fonction (x1 , . . . , xn ) 7→ Argmax θ {L(x1 , . . . , xn ; θ)} appliquée au n-échantillon (X1 , . . . , Xn ) s’appelle l’estimateur au maximum de vraisemblance du paramètre θ de la loi discrète L(θ). 9.2.2 Exemples Referendum Reprenons l’exemple où les Xi suivent une loi de Bernoulli B(1, p), et donc θ = p. Introduisons la notation s := x1 + . . . + x1000 pour la somme des valeurs observées sur l’échantillon x1 , . . ., x1000 , c’est-à-dire le nombreQde personnes interrogées qui ont déclaré qu’elles voterons “oui”. Nous avons donc n Ln (x1 , . . . , xn ; θ) = i=1 Pθ ({Xi = xi }) = θs (1 − θ)n−s , pour θ = p, n = 1000, et s = x1 + . . . + xn , puisque θ = p = Pθ ({Xi = 1}) et 1 − θ = 1 − p = Pθ ({Xi = 0}). Les extrémités de l’intervalle [0, 1] auquel appartient θ ne peuvent être des extrema (sauf si s = 0 ou s = n) et le maximum θ∗ de la fonction concave θs (1 − θ)n−s est donc un zéro de la dérivée ∂ ∂θ Ln (x1 , . . . , xn ; θ) = θ s−1 (1−θ)n−s−1 (s−nθ), d’où θ∗ = ns = x1 +...+x n n . En d’autres termes, l’estimateur X1 +...+Xn au maximum de vraisemblance p̂ de p est donc θ̂ := n , c’est à dire le même estimateur que l’estimateur de l’espérance E(X1 ) trouvé en appliquant la loi des grands nombres, ce qui convient, puisque p = E(Xi ). Variables poissoniennes Supposons que le tirage d’un n-échantillon X1 , . . . , Xn de v.a. suivant une loi de Poisson P(λ), xi λ > 0 inconnu, ait produit l’échantillon x1 , . . . , xn . Ici θ = λ, et Pθ ({Xi = xi }) = e−θ xθ i ! ; la vraisem- Pn Q xi xi blance de l’échantillon x1 , . . . , xn est donc ici Ln (x1 , . . . , xn ; θ) = ni=1 e−θ xθ i ! = e−nθ θQn i=1x ! , et donc i i=1 s Ln (x1 , . . . , xn ; θ) = e−nθ Qnθ xi ! , où l’on a une nouvelle fois posé s := x1 + . . . + xn . Il est un peu plus i=1 commode de calculer avec le logarithme de cette expression est comme ln est une fonction croissante, il nous suffit de rechercher le maximum θ∗ de n X ln (x1 , . . . , xn ; θ) = ln(Ln (x1 , . . . , xn ; θ)) = −nθ + s ln(θ) − ln(xi !). i=1 ∂ Cette fonction est concave et son extremum θ∗ est donc le zéro de la dérivée ∂θ ln (x1 , . . . , xn ; θ) = −n+ θs , c’est à dire θ∗ = ns . X1 +...+Xn Nous trouvons donc une nouvelle fois θ̂ := n comme estimateur de λ, ce qui convient, puisque λ = E(Xi ) pour toute v.a. Xi ; P(λ). 9.3. CAS D’UNE LOI CONTINUE 45 9.3 Cas d’une loi continue 9.3.1 Heuristique et définition Si la loi L(θ) suivie par les Xi est une loi continue, comme U[a,b] ou N (µ, σ), on a Pθ ({Xi = xi }) = 0, et la vraisemblance que nous avons considérée jusqu’ici est tout bonnement (ou plutôt “mauvaisement”) nulle, et tous les θ sont des extrema, ce qui ne nous avance guère. L’idée est alors de remplacer Pθ ({Xi = xi }) par Pθ ({|Xi − xi | ≤ ε}) pour une ε > 0 suffisamment petit, puis de rechercher θε maximisant Q n i=1 Pθ ({|Xi − xi | ≤ ε}). On peut se débarasser du ε qui est arbitraire par la remarque suivante dans le cas où la densité x 7→ fθ (x) caractérisant la loi L(θ) est une fonction continue au point xi : dans ce cas le théorème de la moyenne assure l’existence de fonctions ε 7→ αi,θ (ε) telles queQ Pθ ({|Xi − xi | ≤ ε}) = 2ε(fθ (xi ) + αi,θ (ε)), avec limε→0 αi,θ (ε) = 0 ; le (ou les) θε rendant maximal ni=1 Pθ ({|Xi − xi | ≤ ε}) sont les même que ceux maximisant Yn Yn 1 Pθ ({|Xi − xi | ≤ ε}) = (fθ (xi ) + αi,θ (ε)) ; i=1 2ε i=1 en faisant tendre ε vers 0, cette expression devient n Y Ln (x1 , . . . , xn ; θ) := fθ (xi ) (9.1) i=1 que nous adoptons comme vraisemblance dans ce cas : Définition : Si la loi L(θ) des Xi est une loi continue de densité fθ , on appelle vraisemblance de Q l’échantillon (x1 , . . . , xn ) pour la loi continue L(θ) la fonction Ln (x1 , . . . , xn ; θ) := ni=1 fθ (xi ) . 9.3.2 Exemples Distribution uniforme On suppose que l’échantillon x1 , . . ., xn est tiré de manière uniforme entre 0 et a, mais a et b sont inconnus. On modélise donc le problème par une loi uniforme U[a, b] dont la densité est f(a,b) := 1 b−a I[a,b] et on va chercher un estimateur de θ = (a, b) par la méthode du Qn maximum de vraisemblance. La Qn 1 vraisemblance de l’échantillon x1 , . . ., xn est donc Ln (x1 , . . . , xn ; θ) := i=1 fθ (xi ) = i=1 b−a I[a,b] (xi ) = 1 (b−a)n si tous les x i ∈ [a, b] et vaut 0 si un des x i ∈ / [a, b]. On voit donc que L (x n 1 , . . . , x n ; θ) est maximal ∗ ∗ ∗ si θ = θ = (a , b ) = (Min {x1 , . . . , xn }, Max {x1 , . . . , xn }), puisque ceci nous donne la plus petite valeur de b − a sans annuler la vraisemblance. Ceci nous conduit à considérer l’estimateur θ̂ = (â, b̂) = (Min {X1 , . . . , Xn }, Max {X1 , . . . , Xn }) . Il reste à montrer que si X1 , . . ., Xn est un n-échantillon de loi U[a, b], alors Min {X1 , . . . , Xn } converge bien, en probabilité, vers a et que Max {X1 , . . . , Xn } converge en probabilité vers b. Considérons par exemple le cas de Min {X1 , . . . , Xn }. On a {a + ε < Min {X1 , . . . , Xn }} = {a + ε < X1 , . . . , a + ε < Xn }, d’où, comme les Xi sont indépendants, P({a + ε < Min  {X1 ,. . . , Xn }}) = P({a + ε < X1 } ∩ . . . ∩ {a + ε < n b−a−ε Xn }) = P({a + ε < X1 }) · . . . · P({a + ε < Xn }) = b−a , qui tend bien vers 0 lorsque n tend vers +∞. On montrerais de même que Max {X1 , . . . , Xn } converge en probabilité vers b. Variables normales On suppose à présent que l’échantillon x1 , . . ., xn est tiré de manière normale avec une espérance µ et un écart-type σ, mais µ et σ sont inconnus. On modélise donc le problème par une loi normale N (µ, σ) (x−µ)2 dont la densité est f(µ,σ) (x) := √12π e− 2σ2 et on va chercher un estimateur de θ = (µ, σ) par la méthode du maximum de vraisemblance. La vraisemblance de l’échantillon x1 , . . ., xn est donc n Y n Y 1 (xi −µ)2 Ln (x1 , . . . , xn ; θ) : = fθ (xi ) = √ e− 2σ2 i=1 i=1 σ 2π  n Pn 2 (xi −µ) 1 i=1 = √ e− 2σ2 . σ 2π 46 CHAPITRE 9. ESTIMATEURS AU MAXIMUM DE VRAISEMBLANCE Ici, il est une nouvelle fois plus agréable de considérer la log-vraisemblance n √ 1 X ln (x1 , . . . , xn ; θ) := ln(Ln (x1 , . . . , xn ; θ)) = −n(ln(σ) + ln( 2π)) − 2 (xi − µ)2 . 2σ i=1 Pour que θ∗ = (µ∗ , σ ∗ ) soit un extremum sur R × R+ ∂ ∗ il faut que les deux dérivées ∂µ ln (x1 , . . . , xn ; θ) = 1 Pn 1 Pn ∂ n 1 Pn σ2 i=1 (xi − µ) = σ 2 (s − nµ) où s = i=1 xiP θ) = − σ + σ3 i=1 (xi − µ)2 s’annulent , et ∂σ ln (x1 , . . . , xn ;P pour θ = θ∗ , ce qui implique que µ = ns = n1 ni=1 xi , et σ 2 = n1 ni=1 (xi − µ)2 . Ceci nous conduit donc à envisager l’estimateur  P Pn  12  1 n 1 θ̂ = (µ̂, σ̂) = n i=1 Xi , n i=1 (xi − µ)2 . En ce qui concerne la première composante µ̂, nous retrouvons une nouvelle fois la moyenne comme estimateur de l’espérance µ = E(Xi ), quant-à la seconde composante, nous trouvons c2 = 1 Pn σ n i=1 (xi − µ)2 ) dont nous verrons qu’il s’agit bien, pour toute loi, d’un estimateur de la variance σ 2 .