Vous êtes sur la page 1sur 28

Statistique applique la gestion et au marketing

http://foucart.thierry.free.fr/StatPC

Chapitre 5

ESTIMATION
La statistique infrentielle regroupe un ensemble de mthodes consistant prendre en compte le hasard dans lanalyse des donnes. Elle est fonde sur lhypothse que les observations proviennent de tirages alatoires dans une population statistique, constituant ce que lon appelle couramment un chantillon, et que la proportion dans laquelle un vnement est ralis se rapproche de sa probabilit lorsque le nombre dobservations augmente indfiniment. La dmarche est inverse par rapport celle des probabilits : les paramtres des lois de probabilits sont inconnus, et leur estimation consiste en donner une approximation la meilleure possible sous la forme dune valeur prcise ou d'un intervalle. Nous suivrons lhabitude de plus en plus frquente dutiliser des caractres grecs pour les paramtres thoriques, majuscules latins pour les variables alatoires et minuscules latins pour les valeurs observes.

1. DES PROBABILITS LA STATISTIQUE.


La statistique infrentielle repose sur une hypothse intuitive labore partir dexpriences diverses : celle de la convergence de la proportion dans laquelle un vnement est ralis au cours dexpriences rptes vers sa probabilit telle que nous lavons dfinie dans le chapitre prcdent.

Chapitre 5

Estimation

1.1 Simulation.
Les expriences montrant cette convergence sont nombreuses : les jeux de hasard (jeux de casino, loto, etc.) en produisent un grand nombre, et le calcul des gains est fond sur cette convergence. Certains jeux de stratgie sont fonds aussi sur le calcul des probabilits, comme le bridge. Nous utilisons dans cet ouvrage des expriences virtuelles, effectues laide dun ordinateur1 et de logiciels spcifiques2 : ces expriences relvent ce que lon appelle la simulation. Cette dmarche, qui consiste gnrer des nombres pseudo-alatoires 3, est frquemment utilise dans le cas o il est difficile ou impossible deffectuer un calcul numrique (ce sont les mthodes de Monte Carlo , appliques par exemple au calcul dintgrales). Ces nombres pseudo-alatoires peuvent tre considrs comme des observations dune v.a. suivant la loi uniforme, et, laide de transformations mathmatiques (donnes dans les exercices 1 et 2), on peut en dduire des observations dune v.a. suivant une loi quelconque. Ce qui nous intresse particulirement ici, cest la facilit avec laquelle on peut observer une variable alatoire autant de fois que lon veut sans problme matriel. On cre ainsi des donnes vrifiant les proprits que lon a choisies et que lanalyse statistique permet de dtecter. Inversement, lorsquune mthode nest efficace que si les donnes possdent des proprits particulires, on pourra vrifier quelle ne donne pas de bon rsultat dans le cas o les donnes ne les possdent pas. Exemple de tableau de donnes simules (ou table de nombres au hasard) : 1 0.833 0.518 0.863 2 0.275 0.936 0.195 3 0.972 0.341 0.187 4 0.004 0.333 0.439 5 0.978 0.177 0.436 6 0.532 0.879 0.870 7 0.376 0.010 0.226 8 0.516 0.090 0.374

1 2 3

Tableau 1.5 : nombres pseudo-alatoires

Une calculatrice munie de la touche Rnd (ou Random) peut suffire pour des expriences simples. Nous avons aussi utilis des logiciels publis dans Introduction aux tests statistiques, Enseignement Assist par Ordinateur, de T. Foucart, dit par Technip, Paris, 1991. 3 Ces nombres ne sont pas tirs au hasard au sens strict du terme, do le prfixe pseudo.
2

Chapitre 5

Estimation

On dduit facilement de ces nombres compris entre 0 et 1 (exclus) des nombres pseudo-alatoires variant entre deux valeurs a et b fixes, ou des nombres entiers. Par exemple, on obtiendra des nombres compris entre 1 et 2 en effectuant la transformation suivante, pour toute valeur x du tableau prcdent : y=3x1 Pour obtenir des nombres entiers compris entre 1 et 6, on pose : y = Int(6 x +1) Int(z) dsignant le plus grand entier infrieur ou gal z : Int(5.456) = 5, Int(4) = 4.

1.2 Loi des grands nombres.


Considrons le cas dun d 6 faces, que lon suppose parfaitement quilibr : la population est P = {1, 2, 3, 4, 5, 6}. Lquilibre parfait de ce d signifie quil ny a aucune raison physique dobserver une face plus quune autre dans une srie de lancers. En jetant le d n fois, on obtient bien sr n faces : chaque jet, la probabilit dobtenir {1} est gale 1/6, et la face obtenue au ie jet na aucune incidence sur les autres faces obtenues : il y a quiprobabilit, et les lancers sont indpendants. Dans ces conditions, lexprience montre que, pour n suffisamment grand, la proportion de faces {1} va tourner autour de 1/6. De mme la proportion de faces {2}, de faces {3} etc. Considrons les faces 1 4 du d. On dfinit ainsi un vnement A = {1, 2, 3, 4}dont la probabilit est gale 4/6 = 2/3. Lvnement A se produit dans une proportion gale la somme des proportions de chaque face et est donc de lordre de 4 proportion est l aussi de lordre de la probabilit.
x

1/6 soit 2/3. Cette

Exemple : nous avons effectu n = 600 lancers dun d parfaitement quilibr. Les numros ont tous t observs dans une proportion voisine de 1/6. Lvnement A = {1,2,3,4} et lvnement B = {5,6} ont t observs dans des proportions proches de 2/3 et de 1/3 de leffectif total : P(A) = 2/3, P(B) = 1/3. n 1 102 numros n 2 n 3 n 4 n 5 n 6 103 99 92 102 102 vnements A B 396 204

Chapitre 5

Estimation

Lexprience du d peut tre schmatise laide dune urne contenant six boules numrotes de 1 6. Pour que les tirages soient indpendants, il suffit de remettre chaque boule tire dans lurne : les tirages sont donc effectus avec remise . On peut gnraliser lexprience en tirant dans une urne contenant un nombre quelconque de boules numrotes partir de 1.

Axiome de la loi des grands nombres : On considre une population contenant N units statistiques. On y effectue n tirages avec remise et on compte le nombre nA de ralisations dun vnement A donn deffectif NA. La proportion observe nA / n converge vers la probabilit NA / N de lvnement A lorsque le nombre de tirages augmente indfiniment.

Dans la pratique des sondages, on vite dinterroger deux fois une mme personne. Les tirages dunits statistiques sont donc effectus sans remise, et, par suite, ne sont pas indpendants. Mais on montre que si la taille de la population dans laquelle on effectue les tirages est grande par rapport au nombre dunits statistiques que lon tire au hasard, on peut considrer les tirages comme indpendants. Comme nous supposerons toujours cette condition ralise, il nest pas gnant de supposer que les tirages sont effectus avec remise.

1.3 Notion de convergence.


La loi des grands nombres utilise une notion de convergence particulire qui demande des explications. Considrons lensemble des 6 faces du d. La loi de probabilit de la v.a. X dfinie par le numro de la face obtenue est la loi uniforme sur {1, 2, 3, 4, 5, 6} : Pour tout i de 1 6 P(X=i) = 1/6

Les proportions dans lesquelles les faces ont t observes en jetant le d plusieurs fois est une approximation de cette loi, chacune tant plus ou moins proche de 1/6. Nous avons ralis cette exprience en lanant 100 fois le d. On constate (figure 1.5) une proximit entre ces proportions et ces probabilits. Les proportions observes des faces 1, 4, 5 et 6 sont infrieures aux probabilits.

Chapitre 5

Estimation

Ces carts sont compenss par des carts opposs concernant les faces 2 et 3. Cela sexplique par le fait que la somme des proportions comme la somme des probabilits est toujours gale 1. Effectuons la mme exprience, mais en lanant le d 1000 fois : il est clair que les proportions sont plus proches des probabilits que prcdemment (figure 2.5).

Chapitre 5

Estimation

En augmentant le nombre de tirages, les proportions donnent gnralement une meilleure approximation des probabilits. Mais ce nest pas toujours vrai : on aurait pu obtenir des proportions plus proches de 1/6 en lanant le d 100 fois, et mme il nest pas exclu quen lanant le d 6 fois seulement, on obtienne les six faces une fois chacune et par suite des proportions strictement gales 1/6 (la probabilit de cet vnement est toutefois faible : 6!/66 = 0.0154). En conclusion, dans le cas dune variable alatoire discrte, il y a convergence des proportions vers les probabilits, mais cette convergence dpend elle-mme du hasard. Elle nest pas systmatique.

Dfinition : la convergence de la proportion de ralisations dun vnement au cours dune suite dexpriences vers sa probabilit est appele convergence en probabilit .

Proprit fondamentale : la densit observe dune variable qualitative ou discrte converge en probabilit vers la densit de la v.a. lorsque le nombre dobservations augmente indfiniment.

Les densits observes et thoriques sont en effet dfinies par les suites des proportions et des probabilits. Cette convergence apparat dans les diagrammes : les figures 1.5 et 2.5 en donnent une illustration.

Remarque : La convergence des proportions vers les probabilits ne signifie pas quil y ait convergence des effectifs. Dans le cas du d par exemple, la convergence de la proportion de lvnement {1, 3, 5} vers 1/2 ne montre pas que le nombre dobservations de cet vnement tend vers la moiti du nombre dexpriences. Une explication est donne par les deux formules : n1 = 0.5 n + n n2 = 0.5 n n La somme n1 + n2 est gale n , et les proportions n1/n et n2/n tendent vers 0.5 lorsque n tend vers linfini : lim(n1/n ) = lim (0.5 + 1/n) = 0.5 lim(n2/n ) = lim (0.5 1/n) = 0.5

Chapitre 5

Estimation

Pourtant, la diffrence n1 0.5 n, gale n, tend vers linfini : il y a divergence entre les valeurs 0.5 n et n1 (de mme entre n2 et 0.5 n). On peut vrifier aussi que n1 n2 = 2n augmente indfiniment.

1.4 Densit et histogramme.


Nous avons vu dans le chapitre 1 comment construire lhistogramme dune variable statistique quantitative continue dfinie par n observations (xi) i = 1, , n. : on choisit k intervalles I1, I2, , Ii, , Ik, de longueur l1, l2, , lk, et on dnombre les observations appartenant chaque intervalle : n1, n2, , nk. On en dduit enfin la densit observe d1, d2, , dk par la formule : Pour tout i de 1 k di = [ni / n] / li Pour chaque intervalle Ii, la proportion ni / n est une approximation de la probabilit P(XIi), et la densit observe di est une valeur approche de la densit par intervalle i que nous avons dfinie dans le chapitre prcdent. La densit observe est donc une approximation de la densit par intervalle et par suite de la densit thorique lorsque le nombre dobservations augmente indfiniment et que les longueurs des intervalles deviennent de plus en plus petites. Lhistogramme, qui reprsente la densit observe, est une approximation de la reprsentation graphique de la densit thorique.

Proprit fondamentale : la densit observe dune variable quantitative converge en probabilit vers la densit de la v.a. lorsque le nombre dobservations augmente indfiniment et que la longueur des intervalles tend vers 0.

Exemple : Considrons une srie de 100 nombres pseudo-alatoires compris entre 0 et 1. Lhistogramme (figure 3.5) apparat de faon vidente comme une approximation de la courbe reprsentant la densit thorique de la loi uniforme continue sur [0, 1]. En gnrant 10 000 valeurs comprises entre 0 et 1, nous pouvons diminuer la taille des intervalles en augmentant leurs effectifs pour observer la convergence. Lhistogramme est alors plus proche de la densit thorique de la loi uniforme sur [0, 1].

Chapitre 5

Estimation

On examinera aussi la figure 6.5 du chapitre 4.

2. ESTIMATEUR DUN PARAMTRE


Lestimation statistique est un chapitre fondamental de la statistique mathmatique. Son objectif est daffecter aux paramtres thoriques des lois de probabilit des valeurs numriques, ou estimations, vrifiant des proprits prcises. Ces valeurs numriques sont les observations de variables alatoires appeles estimateurs.

2.1 Estimations empiriques.


Considrons tout dabord la v.a. discrte X dfinie par la face obtenue en lanant le d. En relanant le d 100 fois puis 1000 fois, nous avons obtenu les rpartitions suivantes :

Chapitre 5

Estimation

Faces 1 Probabilits 1/6 Proportions (100 valeurs) 0.16 Proportions (1000 valeurs) 0.175

2 1/6 0.12 0.162

3 1/6 0.16 0.154

4 1/6 0.14 0.164

5 1/6 0.21 0.162

6 1/6 0.21 0.183

Tableau 2.5 : rsultats des lancers dun d quilibr 6 faces Les moyennes sont donc : Moyenne thorique : = p1 x x1 = (1/6) x 1 + p2 x x2 + (1/6) x 2 + p3 x x3 + (1/6) x 3 + p4 x x4 + (1/6) x 4 +p5 x x5 + (1/6) x 5 + p6 x x 6 + (1/6) x 6

Moyenne observe m = f1 x x1 = 0.16 x 1 + f2 x x2 + 0.12 x 2 + f3 x x3 + 0.16 x 3 + f4 x x4 + 0.14 x 4 + f5 x x5 + 0.21 x 5 + f6 x x6 + 0.21 x 6

sur les 100 valeurs : m100

sur les 1000 valeurs : m1000 = 0.175 x 1 On trouve : = 3.5 m100= 3.75 m1000 = 3.525 + 0.162 x 2 + 0.154 x 3 + 0.164 x 4 + 0.162 x 5 + 0.183 x 6

La proximit entre la moyenne thorique (3.5) et les moyennes observes (3.75 et 3.525) est due la convergence des proportions observes fi vers les probabilits pi. Plus les effectifs sont importants, plus ces proportions sont proches des probabilits, et plus la moyenne observe est proche de la moyenne thorique (au sens de la convergence en probabilit). Il y a galement convergence dans le cas dune v.a. continue. Examinons le cas de la loi uniforme que nous avons simule dans le paragraphe prcdent (figure 3.5). Toutes les valeurs observes appartenant la premire classe sont proches du centre de cette classe, soit 0.1. De mme pour les autres classes. Classe Centre Proportion [0, 0.2 [ [0.2, 0.4 [ [0.4, 0.6 [ [0.6, 0.8 [ [0.8, 1 [ 0.1 0.3 0.5 0.7 0.9 0.23 0.19 0.15 0.22 0.21

Tableau 3.5 : Classification des 100 observations dune v.a. de loi uniforme sur ]0, 1[

Chapitre 5

10

Estimation

Une valeur approximative de la moyenne est donc donne par : m = 0.23 x 0.1 + 0.19 x 0.3 +0.15 x 0.5 +0.22 x 0.7 +0.21 x 0.9 = 0.498 La moyenne observe m (= 0.498) est trs proche de la moyenne thorique (= 0.5). Cette proximit est dautant plus forte que les nombres dobservations et de dintervalles augmentent, puisque, comme nous lavons vu sur la figure 4.5 : la proportion dans chaque intervalle converge vers la probabilit thorique ; les longueurs des intervalles tendent vers 0 et les valeurs sont de plus en plus proches du centre de la classe laquelle elles appartiennent. . La limite de la moyenne observe dans ces conditions est par dfinition lintgrale de la fonction x f(x) : on retrouve la moyenne dune v.a. continue.

Le calcul dtaill que nous avons effectu pour montrer la convergence de la moyenne empirique vers la moyenne thorique peut tre applique au cas de la variance : Variance thorique : 2 s2 = p1 x x12 =f1 x x12 + p2 x x22 + f2 x x22 + p3 x x32 + f3 x x32 + p4 x x42 + f4 x x42 + p5 x x52 + f5 x x52 + p6 x x62 2 + f6 x x62 m2 Variance observe :

On trouve, en notant s1002 et s10002 les variances des chantillons de taille 100 et 1000 : 2 = 2.917 s1002= 3.0008 s10002 = 3.045

Les convergences des proportions fi vers les probabilits pi et de la moyenne empirique m vers la moyenne thorique assurent celle de la variance empirique vers la variance thorique. Mais cette convergence en probabilit est soumise au hasard, et cest pour cela que la variance empirique s1002 prcdente est plus proche de la variance thorique 2 que s10002. Naturellement, les v.a. continues vrifient la mme proprit.

Dfinition : On appelle estimation empirique de la moyenne dune variable alatoire la

moyenne calcule sur les observations effectues. On appelle estimation empirique de la variance dune variable alatoire la

variance calcule sur les observations effectues.

Chapitre 5

11

Estimation

Proprit : Les estimations empiriques de la moyenne et de la variance convergent en probabilit vers les paramtres thoriques lorsque le nombre dobservations augmente indfiniment.

2.2 Estimateurs de la moyenne et de la variance.


On peut formaliser la notion dchantillon et destimation. En effet, une suite dobservations xi dune v.a. X peut tre considre comme une suite dobservations de n variables alatoires Xi suivant la loi de X, correspondant chacune un tirage au hasard dans la population. Il existe donc deux notions dchantillons :

Dfinitions : Lchantillon de v.a. Xi, i = 1, , n, est une suite de v.a. indpendantes et de mme loi que X, la v.a. Xi reprsentant simplement la v.a. X au iime tirage. Lchantillon observ xi, i = 1, , n, est une suite de valeurs observes de la v.a.

X ou de chaque v.a. Xi, i = 1, , n. Dfinition : on appelle estimateur dun paramtre dune loi de probabilit dune v.a. X une v.a. calcule sur un chantillon Xi, i = 1, , n de X, dont la valeur observe est une approximation de ce paramtre, et qui vrifie certaines proprits doptimalit. Les estimateurs les plus utiliss sont les estimateurs empiriques de la moyenne et de la variance. La moyenne observe de la suite xi, i = 1, , n est par dfinition le nombre m : m= 1 n n xi i=1

La moyenne de lchantillon Xi, i = 1, , n, est par dfinition la v.a. M : M= 1 n n Xi i=1

En conclusion, M est une v.a. dont la valeur observe lissue dune suite de n tirages au hasard est gale m : la v.a. M est antrieure aux tirages, et m en est une valeur observe, postrieure aux tirages.

Chapitre 5

12

Estimation

On peut dfinir de la mme faon lestimateur de la variance : 1 n V = (Xi )2 n i=1 dont la valeur observe v est la variance de lchantillon observ : 1 n v = (xi )2 n i=1 On ne peut toutefois calculer cet estimateur que si lon connat la moyenne thorique , ce qui nest pas le cas en gnral. On considre donc souvent lestimateur ci-dessous : 1 n S = (Xi )2 n i=1
2

dont la valeur observe s2 est la variance de lchantillon observ : 1 n s2 = (xi m)2 n i=1 Dfinitions : Lestimateur empirique de la moyenne thorique dune v.a. est la v.a. M : M= 1 n n Xi i=1

Lestimateur empirique de la variance thorique est la v.a. S2 : 1 n S = (Xi M)2 n i=1


2

2.3 Proprits caractristiques des estimateurs.


Ce que lon appelle estimation en statistique infrentielle regroupe des mthodes beaucoup plus gnrales que celles que nous avons prsentes dans les paragraphes prcdents. Les estimateurs empiriques comme M et S2 ne sont pas toujours les meilleurs pour estimer la moyenne et la variance thoriques dune loi de probabilit. Dans le cas dune v.a. qui suit la loi de Poisson P() par exemple, le paramtre est la fois la moyenne et la variance de la v.a. : lestimateur de quil faut choisir est-il M ou S2 ?

Chapitre 5

13

Estimation

Pour rpondre ce genre de question, il est ncessaire de formaliser la dmarche et de prciser ce que lon entend par meilleur . On cherche donc des estimateurs possdant certaines proprits. En voici quelques-unes : Un estimateur dun paramtre est : infrieure. Les estimateurs empiriques prcdents possdent des proprits particulires : Lestimateur empirique de la moyenne est sans biais. Lestimateur empirique de la variance est asymptotiquement sans biais. Ils sont convergents. Lorsque les v.a. Xi suivent la loi normale, lestimateur empirique de la moyenne sans biais si son esprance est gale , et biais dans le cas contraire ; asymptotiquement sans biais si son esprance converge vers lorsque le nombre convergent si sa valeur observe converge en probabilit vers lorsque le nombre efficace sil nexiste pas destimateur sans biais de de variance strictement

dobservations tend vers linfini ;

dobservations tend vers linfini ;

est efficace. En ce qui concerne le second des quatre points prcdents, on montre que lestimateur empirique de la variance a pour esprance (n1) 2/n. Cela explique que, surtout pour des chantillons de taille faible, on choisit souvent comme estimateur ponctuel de 2 la statistique S2 = n S2/(n1). On a en effet (ex. 3) : E(S2) = E[ n S2/(n1) ] = n E(S2) /(n 1) = 2

2.4 Loi de lestimateur de la moyenne (thorme de la limite centre).


Thorme de la limite centre : on considre une suite de n v.a. Xi indpendantes et de mme loi de probabilit, desprance et de variance 2. La loi de probabilit de lestimateur M est, pour une valeur suffisante de n, la loi normale desprance et de variance 2/n.

Lexpression valeur suffisante de n est vague : cela vient du fait que le nombre n partir duquel on peut considrer que la loi de M est normale dpend de la loi des v.a. Xi.

Chapitre 5

14

Estimation

Par exemple, si les v.a. Xi suivent elles-mmes la loi normale, il suffit que n soit suprieur ou gal 1 : la proprit est toujours vraie. Pour une loi uniforme, on considre en gnral n = 12, ou n = 24. Dans le cas de lois non symtriques comme la loi exponentielle, la valeur minimale de la taille de lchantillon assurant la convergence vers la loi normale peut tre beaucoup plus grande (>50). tudions le cas de v.a. Xi suivant la loi uniforme sur ] 0, 1 [. La moyenne thorique est gale = 0.5 et la variance 2 = 1/12. Un chantillon de cette loi, pour une taille suffisante, n = 24 par exemple, aura pour moyenne une valeur m proche de 0.5 et pour variance une valeur s2 proche de 1/12. Ces valeurs m et s2 sont les valeurs observes des estimateurs M et S2 : 0.628 0.247 0.308 0.923 0.781 0.891 0.935 0.715 0.003 0.397 0.493 0.271 0.955 0.853 0.094 0.133 0.379 0.427 0.978 0.914 0.962 0.491 0.161 0.946

Tableau 4.5 : 24 observations de la loi uniforme sur ] 0, 1 [ m = 0.5785487, s2 = 0.1043021 Le thorme de la limite centre dit que la variable M suit la loi normale de moyenne et de variance 2/n. La simulation par ordinateur concrtise cette proprit : en gnrant 100 chantillons de taille 24, on obtient 100 valeurs observes m1, m2, , m100 de M.

Chapitre 5

15

Estimation

On constate effectivement, sur la figure 5.5, la proximit de lhistogramme de ces 100 valeurs avec la densit thorique de la loi normale. On pourra, en simulant des chantillons de taille 12 dune v.a. suivant la loi exponentielle par le logiciel TESTEAO4, constater que la taille de ces chantillons est trs insuffisante pour que leur moyenne suive la loi normale. Ce thorme est vrai aussi lorsque la v.a. est discrte, avec les mmes rserves sur la taille n de lchantillon ncessaire pour que la convergence de la v.a. M vers la loi normale soit acceptable.

Une premire application est de permettre une prvision de la valeur moyenne observe si lon connat les paramtres thoriques de la loi de probabilit des Xi.

Exemple : on lance 100 fois le d. Daprs le thorme de la limite centre, la moyenne empirique M dfinie par la moyenne des 100 chiffres obtenus suit approximativement la loi normale desprance = 3.5 et de variance 2/n = 0.0292. On peut donc effectuer des calculs de probabilits sur cette v.a. :

Introduction aux tests statistiques, Enseignement Assist par Ordinateur, de T. Foucart, Technip, Paris, 1991.

Chapitre 5

16

Estimation

La probabilit de lintervalle [ 1.96 /n, + 1.96 /n] = [3.165, 3.835] est gale 0.95. Il est donc trs probable que la valeur moyenne obtenue en lanant le d 100 fois soit comprise entre ces deux valeurs.

La probabilit de lintervalle ] , 1.6449 /n] = ] , 3.219 ] est gale 0.05. On est presque sr dobtenir une valeur moyenne suprieure 3.219.

2.5 Loi de lestimateur de la variance.


Ltude de lestimateur de la variance est fonde sur une proprit supplmentaire : la loi des v.a. Xi doit tre la loi normale. Thorme : si les v.a. Xi , i = 1, , n sont indpendantes et suivent la loi normale desprance et de variance 2, la v.a. n S2/2 suit la loi du 2 de degr de libert n 1. Ce thorme est une consquence de la dfinition de la loi du 2. La v.a. n S2/2 est une somme de carrs de variables qui suivent approximativement la loi normale centre rduite, si les Xi suivent la loi normale : n S2 (X1 M)2 (X2 M)2 (X3 M)2 (Xn M)2 = + + + 2 2 2 2 2 Le degr de libert est diminu de 1 pour tenir compte du fait que les variables de la forme (Xi M) / , ne sont pas indpendantes puisquelles dpendent toutes de M, et quelles ne sont pas exactement de variance 1. On notera que la connaissance de la moyenne thorique nest pas ncessaire pour appliquer le thorme. Nous avons simul, pour visualiser la loi de probabilit de la v.a. n S2/2, 1000 chantillons de taille n de la loi des Xi, construit lhistogramme des valeurs n s2/2 obtenues, et superpos la loi du 2 correspondante. En figure 7.5, la loi des v.a. Xi simule est la loi normale et chaque chantillon de taille 10. On constate la proximit entre lchantillon et la loi du 2, ce qui confirme le thorme. Lhistogramme est par contre diffrent de la densit de la loi du 2 lorsque ces variables suivent la loi uniforme (figure 8.5).

Chapitre 5

17

Estimation

Comme dans le cas de lestimateur M, on peut prvoir dans quel intervalle se trouvera probablement la variance calcule sur n observations dune v.a. qui suit la loi normale de moyenne et de variance 2. Exemple : supposons n = 50 et 2 = 25. La v.a. X2 = 50 S2/25 = 2 S2 suit la loi du 2 de degr de libert 49 (on suppose donc que les v.a. Xi suivent la loi normale). La table statistique pour = 49 degrs de libert donne les valeurs suivantes :

Chapitre 5

18

Estimation

P(2 S2 < 31.55) = 0.025 P(2 S2 > 70.22) = 0.025 On en dduit la probabilit ci-dessous : P(31.55 <2S2 <70.22) = 0.95 La variance de lchantillon sera trs probablement comprise entre 15.78 et 35.36 : P(15.78 < S2 < 35.36) = 0.95

3. ESTIMATION PAR INTERVALLE DE CONFIANCE.


Nous avons calcul prcdemment des intervalles contenant probablement la moyenne et la variance dun chantillon gnr suivant une loi dont les paramtres sont connus. Nous abordons maintenant le problme inverse : la moyenne et la variance de la loi sont inconnues, et nous cherchons des intervalles contenant vraisemblablement leurs vraies valeurs.

3.1 Intervalle de confiance. Proprits des estimateurs empiriques.


La notion de niveau de confiance est indispensable pour construire un intervalle de confiance. Nous avons dj abord ce problme dans le paragraphe prcdent, en choisissant des probabilits (0.95) associes aux intervalles contenant trs probablement les valeurs calcules sur lchantillon. Il faut en effet fixer une probabilit suffisamment grande pour que lon puisse considrer que la ralisation dun vnement est trs probable. Habituellement, on choisit les valeurs 0.90, 0.95, ou 0.99, que lon note 1 pour des raisons expliques dans le chapitre 6. Dfinition : le niveau de confiance 1 , not aussi (100 ) %, est la probabilit dun vnement que lon considre comme trs probable.

Son choix est raisonn ; on doit leffectuer en fonction du contexte dans lequel les estimations sont effectues. On ne peut gure donner plus de prcisions ce stade. On considre un paramtre de la loi de probabilit d'une v.a. X, et un chantillon Xi, i = 1, , n de cette v.a. .

Chapitre 5

19

Estimation

Dfinition : lintervalle de confiance du paramtre est dfini au niveau de confiance 1 par lobservation de deux v.a. B1 et B2 dpendant de lchantillon Xi, i = 1, , n et vrifiant la proprit suivante : P( [B1, B2 ]) = 1

Les bornes B1 et B2 de lintervalle dpendent du hasard. Chaque chantillon observ donne donc un intervalle de confiance [b1, b2] diffrent. Lintervalle de confiance est finalement lensemble des valeurs vraisemblables du paramtre compte tenu de lchantillon observ.

On donne en figure 9.5 une suite dintervalles de confiance de la moyenne thorique dune v.a. X. Chaque intervalle [m1, m2] rsulte de lobservation dun chantillon de X et est la ralisation de lintervalle alatoire [M1, M2] contenant le paramtre thorique m avec la probabilit 0.95. Les v.a. M1 et M2 sont dfinies dans le paragraphe 3.2.

3.2 Intervalle de confiance de la moyenne (variance connue).


Nous cherchons valuer la moyenne de la population (figure 9.5). Pour cela, on choisit un niveau de confiance gal (100)%, qui permet de dfinir lintervalle de confiance. On suppose tout dabord que la variance thorique 2 est connue.

Proprit : lorsque les v.a. Xi sont indpendantes et suivent la loi normale, la

Chapitre 5

20

Estimation

statistique U dfinie par U = [M ]/[2/n ]1/2 suit la loi centre rduite. On sait que la v.a. M suit la loi normale de moyenne et de variance 2/n. La variable U ci-dessus est obtenue en centrant et en rduisant M.

On peut donc dterminer le nombre u tel que : P(u < U < u ) = 1 Pour obtenir un intervalle symtrique, on pose : P(U < u ) = /2 Exemple (figure 10.5) : = 1% = 5% = 10% On en dduit : P( u /n < M < u /n ) = 1 P(M u /n < < M + u /n ) = 1 On obtient lintervalle ci-dessous : IC = [M u /n, M + u /n] = [M1, M2] avec : 1 = 99% 1 = 95% 1 = 90% u = 2.58 u = 1.96 u = 1.65 P(U > u ) = /2

Chapitre 5

21

Estimation

M1 = M u /n M2 = M + u /n ce niveau, les bornes de lintervalle IC dpendent de la v.a. M et sont alatoires : on peut donc dire que la moyenne thorique appartient lintervalle de confiance IC avec la probabilit 1 . Par contre, aprs observation de lchantillon, on connat la valeur observe m de M : on ne peut tenir le mme discours que prcdemment puisque les bornes de lintervalle ne dpendent plus du hasard. La moyenne thorique est trs vraisemblablement comprise entre les deux valeurs numriques. Dfinition : lorsque la variance thorique 2 est connue, lintervalle de confiance de la moyenne au niveau de confiance (100)% est lintervalle : [m u /n , m + u /n ] le nombre u tant choisi dans la table de la loi normale centre rduite U de faon que P( u < U < u ) = 1 . Remarques : Les bornes de lintervalle de confiance sont symtriques par rapport la moyenne

observe. Il est possible de les choisir diffremment. Par exemple, on choisit la valeur u telle que : P(U < u ) = 1 Lintervalle de confiance est alors de la forme ] , M + u /n ] : la moyenne thorique est trs vraisemblablement infrieure m + u /n. La longueur de lintervalle alatoire tend vers 0 lorsque le nombre dobservations

augmente indfiniment. On retrouve la convergence de lestimateur M vers la moyenne thorique . suffisante. Le thorme de la limite centre permet de calculer cet intervalle de confiance

mme lorsque la v.a. X ne suit pas la loi normale, condition que lchantillon soit de taille

Chapitre 5

22

Estimation

3.3 Intervalle de confiance de la moyenne (variance inconnue).


Lestimation de la moyenne est plus frquemment effectue sans que lon connaisse la variance thorique. On ne peut donc plus effectuer les calculs prcdents. Le calcul de lintervalle de confiance est fond sur la proprit suivante :

Proprit : lorsque les v.a. Xi sont indpendantes et suivent la loi normale, la statistique T dfinie par : T = [M ]/[S2 / (n1) ]1/2 suit la loi de Student de degr de libert n1. Une dmarche analogue la prcdente nous donne lintervalle de confiance. Dfinition : lorsque la variance thorique 2 est inconnue, lintervalle de confiance de la moyenne au niveau de confiance (100)% est lintervalle : [m t s/(n 1)1/2 , m + t s/(n 1) 1/2 ] Pour dterminer t, on utilise : si n 120, la table de la loi de probabilit de Student de degr de libert = n1 ; pour n > 120 la table de la loi normale centre rduite. Nous donnons ci-dessous quelques valeurs de t : n = 10 n = 20 n = 20 n = 50 =9 = 19 = 19 = 49 = 5% = 5% = 10% = 5% t = 2.26 t = 2.09 t = 1.73 t = 2.02

Remarque : les remarques du paragraphe prcdent restent vraies.

Exemple : nous avons calcul dans le chapitre 1 la moyenne et la variance des 50 achats de lchantillon tir au hasard : m = 316.945F, s = 207.1291, s2 = 42902.472. On a, pour = 5%, t = 2.02. Lintervalle de confiance de la moyenne est gal : [316.945 2.02 x 207.1291/49 , 316.945 + 2.02 x 207.1291/49 ]

Chapitre 5

23

Estimation

Soit : [ 257.173, 376.717 ] Dans le calcul de lintervalle de confiance de la moyenne, le manque de symtrie de la rpartition, constat prcdemment par ltude de lhistogramme et la valeur du coefficient dasymtrie (1.16, est compens par le nombre dobservations (50).

3.4 Intervalle de confiance de la variance.


En ce qui concerne la variance, le principe est le mme, mais la loi de probabilit utilise est la loi du 2 de degr de libert = n1.

Proprit : lorsque les v.a. Xi sont indpendantes et suivent la loi normale, la v.a. n S2/2 suit la loi du 2 de degr de libert n1. La loi du 2 nest pas symtrique (figure 11.5), puisque les valeurs appartiennent lintervalle [0, + [. Pour obtenir un intervalle de confiance de niveau de confiance 1 symtrique en probabilit, il faut dterminer deux bornes (figure 11.5) : 2 telle que P(n S2 / 2 < 2) = /2 12 telle que P(n S2/2 > 12) = /2

Chapitre 5

24

Estimation

Les valeurs ci-dessous sont obtenues dans la table de la loi du 2 : n 10 20 20 50 50 9 19 19 49 49 5% 5% 10% 5% 10% 2 2.700 8.907 10.117 31.555 33.93 12 19.023 32.852 30.144 70.222 66.34

On en dduit la probabilit de lintervalle [2, 12 ] suivant la loi du 2 : P(2 < n S2/2 < 12) = 1 Un calcul simple donne : P(n S2/12 < 2 < n S2/2) = 1 Dfinition : lintervalle de confiance de la variance au niveau de confiance (100 )% est lintervalle : [n s2/12 , n s2/2 ]

Le calcul de lintervalle de confiance de la variance est plus compliqu pour n>100 et nous nen parlerons pas (la procdure est explique dans la plupart des tables du 2). Remarques : Les bornes 2 et 12 respectent la symtrie en probabilit. On aurait pu les choisir de faon diffrente, la seule condition tant : P(n S2/2 < 2) + P(n S2/2 > 12) =

En choisissant 2= 0, on obtient une valeur minimale de la variance puisque lintervalle de confiance est de la forme [n s2/12 , + [ En choisissant 12= + , on obtient une valeur maximale de la variance puisque lintervalle de confiance est de la forme [0, n s2/2 [

La v.a. n S2/2 ne suit la loi du 2 que lorsque la v.a. X suit la loi normale. Lintervalle de confiance peut toujours tre calcul, mais son intrt est limit lorsque cette proprit nest pas vraie, mme lorsque leffectif de lchantillon est lev. On remarquera que lintervalle de confiance de la variance ne dpend pas de la moyenne thorique de la v.a. Plus prcisment, les v.a. M et S2 sont indpendantes, ce qui signifie que lapproximation faite sur un paramtre na pas deffet sur lapproximation faite

Chapitre 5

25

Estimation

sur lautre.

Exemple : calculons lintervalle de confiance de la variance des achats des clients dEuromarket. Lestimation est s2 = 42902.472. Le degr de libert est gal 49 pour 50 observations. On a, en choisissant un niveau de confiance gal 95% :

2 = 31.555 12 = 70.222
Do lintervalle de confiance de la variance des achats : [50 x 42 902.472/70.222 , 50 x 42 902.472/31.555 ] IC = [30 547.74, 67 980.47] On sait que le montant des achats nest pas rparti suivant la loi normale dans la population. On accordera donc un intrt limit lintervalle de confiance ci-dessus que nous navons calcul qu titre dexemple numrique.

3.5 Autres intervalles de confiance.


Les lois des estimateurs M et S2 nous ont permis de calculer les bornes des intervalles de confiance des paramtres et 2. On ne peut pas toujours effectuer ce calcul, et la recherche des bornes doit parfois tre mene diffremment. tudions les cas particuliers dune probabilit et du paramtre dune loi de Poisson. 3.5.1 intervalle de confiance dune probabilit . La dmarche repose sur la loi de Bernoulli de paramtre (qui nest videmment pas gal ici 3.14) et la loi binomiale. Cette probabilit est la probabilit dun vnement E, par exemple la proportion de femmes dans la clientle dEuromarket.. On calcule, en effectuant une suite de n tirages, le nombre de ralisations nE de lvnement E : on sait que le rapport p = nE/n est une estimation de la probabilit , et que nE est la valeur observe x dune variable alatoire X qui suit la loi binomiale B(n, ). Lorsque le nombre de tirages est suffisant (n>100) on utilise une approximation de cette loi par la loi normale : Dfinition : pour n >100, on appelle intervalle de confiance dune probabilit au niveau de confiance (100)%, lintervalle :

Chapitre 5

26

Estimation

[ p u [p (1 p)/n]1/2 , p + u [p (1 p)/n]1/2 ]
dans lequel p est la frquence observe dans lchantillon et u est choisi dans la table de la loi normale suivant le niveau de confiance fix. Exemple : pour n =200, x= 130 et = 0.05, on a u = 1.96. On en dduit p = 0.65 et lintervalle de confiance :

[ 0.65 1.96 x [ 0.65 x 0.35/200 ] 1/2 , 0.65 + 1.96 x [ 0.65 x 0.35/200 ] 1/2 ]
IC = [ 0.584 , 0.716] Pour les petites valeurs de n, la procdure consiste dterminer pour x connue les valeurs a et 1 telles que : P(X>x/ = ) = /2 P(X<x/ = 1) = /2 Cela revient calculer la plus grande et la plus petite des valeurs possibles de . On peut utiliser un abaque5, une table statistique ou un logiciel. Exemple : examinons le cas pour n = 10, p = 0.6 et = 0.05. Nous donnons cidessous les probabilits P(X<=6) et P(X>=6) pour = 0.3 et = 0.8.

Loi Binomiale B(10,0.3) P(X<=6) 0.989408 P(X>=6) 0.047349

Loi Binomiale B(10,0.8) P(X<=6) 0.120874 P(X>=6) 0.967207

On peut considrer que les valeurs = 0.3 et = 0.8 appartiennent lintervalle de confiance puisque les probabilits sont suprieures 0.025. On constate aussi que plus la valeur de est leve, plus la probabilit P(X<=6) est faible et plus la probabilit P(X>=6) est grande. On cherche donc la valeur de la plus grande possible, jusqu obtenir P(X<=6) = 0.025. On trouve = 0.88 Rciproquement, plus la valeur de est faible, plus la probabilit P(X<=6) est grande et plus la probabilit P(X>=6) est petite. On cherche donc la valeur de la plus petite

Graphique donnant par simple lecture la solution approche d'un problme numrique. On trouvera un

abaque dans louvrage de G. Saporta.

Chapitre 5

27

Estimation

possible, jusqu obtenir P(X>=6) = 0.025. On trouve = 0.26. La lecture de labaque donne le mme intervalle de confiance: [0.26, 0.88]. 3.5.2 intervalle de confiance du paramtre de la loi de Poisson. Dfinition : lintervalle de confiance du paramtre dune v.a. de loi P() au niveau de confiance (100 )% est lintervalle : [2/2n , 12/2n ] o n est le nombre dobservations, s leur somme et o les valeurs 2 et 12 vrifient les proprits : 2 telle que P(X12 < 2) = /2, X12 tant une v.a. suivant la loi du 2 de degr de libert 1 = 2 s 12 telle que P(X22 > 12) = /2, X22 tant une v.a. suivant la loi du 2 de degr de libert 2 = 2 (s+1) On peut utiliser aussi les tables statistiques ou un logiciel pour calculer lintervalle de confiance comme prcdemment. Exemple : pour calculer lintervalle de confiance du paramtre dune loi de Poisson dont la valeur estime sur 10 observations est l = 2.5, on cherche les valeurs 2 et 12 pour les degrs de libert 50 et 52 et pour le niveau de confiance choisi (95%). La table donne :

2 = 32.357, 12 = 73.810. On en dduit lintervalle de confiance :


[1.618, 3.691]

CONCLUSION
Lestimation est un chapitre important de la statistique infrentielle dont nous navons donn quun aperu limit aux proprits fondamentales. Elle donne les outils ncessaires une approximation contrle des paramtres statistiques habituels. On peut ainsi dterminer la prcision dune estimation, et inversement, calculer le nombre dobservations ncessaires pour obtenir une prcision donne. Ce dernier point est utile en particulier dans les sondages.

Chapitre 5

28

Estimation

TABLE DES MATIRES 1. DES PROBABILITS LA STATISTIQUE........................................................... 1 1.1 Simulation............................................................................................................. 2 1.2 Loi des grands nombres........................................................................................ 3 1.3 Notion de convergence. ........................................................................................ 4 1.4 Densit et histogramme. ....................................................................................... 7 2. ESTIMATEUR DUN PARAMTRE....................................................................... 8 2.1 Estimations empiriques. ....................................................................................... 8 2.2 Estimateurs de la moyenne et de la variance...................................................... 11 2.3 Proprits caractristiques des estimateurs. ....................................................... 12 2.4 Loi de lestimateur de la moyenne (thorme de la limite centre). .................. 13 2.5 Loi de lestimateur de la variance. ..................................................................... 16 3. ESTIMATION PAR INTERVALLE DE CONFIANCE......................................... 18 3.1 Intervalle de confiance. Proprits des estimateurs empiriques. ........................ 18 3.2 Intervalle de confiance de la moyenne (variance connue). ................................ 19 3.3 Intervalle de confiance de la moyenne (variance inconnue). ............................. 22 3.4 Intervalle de confiance de la variance. ............................................................... 23 3.5 Autres intervalles de confiance. ......................................................................... 25 3.5.1 intervalle de confiance dune probabilit . ................................................ 25 3.5.2 intervalle de confiance du paramtre de la loi de Poisson. ...................... 27 CONCLUSION ............................................................................................................ 27