Vous êtes sur la page 1sur 8

R esum e du cours 01 - Moyenne et ecart-type : estimation et param` etres, moments et indicateurs

Pr eambule
Ce chapitre ` a forte teneur math ematique pr esente un certain nombre de concepts n ecessaires ` a la compr ehension de plusieurs notions fondamentales en statistique. A de nombreux egards, il se rapproche dun cours acc el er e de statistique math ematique ; son but est de familiariser le lecteur avec une certaine gymnastique fr equemment utilis ee dans les publications. Bien que le chapitre ait et e ecrit sans pr erequis particulier, des notions danalyse, comme la di erentiabilit e et lint egration sont fr equemment utilis ees dans ce qui suit. Le lecteur ne devra pas h esiter ` a consulter dautres sources dinformation si le besoin sen fait sentir. De m eme, nous ne couvrons ici que le strict minimum en mati` ere de th eorie. Un grand nombre de mat eriaux en ligne peuvent etre r ecup er es gratuitement, qui couvrent en d etail les liens entre les statistiques, les probabilit es et lanalyse, ainsi que les domaines connexes tels que la th eorie de la mesure 1 .

0.1

La notion de distribution

Nous avons introduit au cours pr ec edent la notion fondamentale de variable al eatoire, et avec elle celle de distribution. Nous avions d eni une distribution comme etant lensemble des P (X = A), A . Or, nous disions plus haut que pour une distribution continue, P (X = A) = 0, A en raison de lind enombrabilit e des ensembles continus 2 . Ainsi pour ce type de loi, on pr ef` ere ecrire P (X A). Il est ais e de v erier que ces deux ecritures d esignent bien la m eme chose ; en eet pour une distribution discr` ete, on peut ecrire P (X A) P (X A 1) = P (X = A). De m eme pour une loi continue, P (X A) P (X A ) se rapproche dune probabilit e ponctuelle au fur et ` a mesure que lon rapetisse . La seule di erence est que dans le cas discret, le plus petit ecart non nul possible est 1, alors que dans le cas continu, il nexiste pas de valeur minimale non nulle pour : cest une autre d enition de lind enombrabilit e. Cette ecriture am` ene la repr esentation la plus naturelle en termes math ematiques epartition cumul ee. Elle d esigne le dune distribution, ` a savoir la fonction de r cumul de toutes les probabilit es portant sur une valeur inf erieure ` a celle qui est
1. Voir en particulier les excellents cours danalyse de C. Villani, de luniversit e de Lyon, accessibles ` a ladresse http ://math.univ-lyon1.fr/homes-www/villani/Cours/, ainsi que les polycopi es de probabilit es dO. Fran cois, de lENSIMAG, accessibles via http ://membrestimc.imag.fr/Olivier.Francois/teaching.html. 2. Pour rappel, cela sexplique par le fait que dans un ensemble continu, il est impossible de mesurer exactement A : il existera toujous une innit e de nombres plus pr ecis que notre mesure de A dans lequel le v eritable A pourra se trouver. Si par exemple nous mesurons pour A 3.3229, nous mesurons en r ealit e un intervalle dans lequel A = 3.32291 et A = 3.233966 peuvent repr esenter la v eritable valeur de A. Cette valeur, en raison de notre incapacit e ` a r ealiser une mesure de pr ecision innie, nous reste toujours inaccessible : cest par ce que le nombre de possibilit es de nous tromper est inni que nous disons P (X = A) = 0.

consid er ee, on l ecrit : FX (A) = P (X A) = P (X = x), pour une distribution discr` ete pour une distribution continue
x A A P (x) dx, 0

Cette fonction est fr equemment appel ee cdf dans la litt erature, dapr` es son nom anglais de cumulative distribution function 3 . Remarque 1. La formule pr ec edente illustre tr` es bien le fait que lorsquon parle de variables discr` etes, les formules feront en g en eral intervenir des sommes ou des s eries, alors que les variables continues se calculent ` a laide dint egrales : ces deux notions sont extr emement proches. Au lyc ee, on d enissait en eet lint egrale comme une somme continue ( equivalent de la somme sur un intervalle continu) ou bien somme innit esimale (on ne somme plus par pas de 1, mais par de tr` es petits intervalles de taille dx ). Remarque 2. Prenons lexemple classique du d e. Nous aurons FX (1) = P (X = 1) = 1/6, FX (2) = P (X = 1) + P (X = 2) = 1/3 et ainsi de suite : on voit bien que la fonction de r epartition cumul ee est strictement croissante. De plus, FX (0.5) = FX (0) = 0, et FX (6) = FX (10) = 1 (il est impossible dobtenir un r esultat du jet de d es inf erieur ` a 0.5, mais il sera toujours inf erieur ` a 10). Cela met en lumi` ere une propri et e int eressante et bien connue des probabilit es : la somme des probabilit es pour toutes les valeurs possibles vaut toujours 1( P (X = x) = P () = 1) et la cdf prend ses valeurs dans [0, 1].
x

Remarque 3. Dans lexemple pr ec edent, on voit bien que la cdf reste constante sur de longs intervalles : sur [1, 2[ par exemple elle vaut 1 (m eme si dans les faits il est impossible dobtenir un score de 1.5 aux d es), sur [2, 3[ elle vaut 2, etc... Cela nous donne une apparence caract eristique en escalier pour les fonctions de r epartition cumul ees qui d erivent de lois discr` etes. Pour les cdf continues, la courbe est bien plus liss ee, puisquelle prend des valeurs a priori di erentes pour chaque el ement de son ensemble de d enition. La gure 1 pr esente quelques fonctions de r epartition, qui correspondent toutes ` a des variables al eatoires di erentes. On peut y remarquer sa forme tr` es caract eristique qui rappelle le signe int egrale ( ) 4 . Pourtant, cette similarit e daspect est plut ot un fardeau quun avantage : lexp erience montre que m eme lorsque deux variables al eatoires sont tr` es di erentes lune de lautre, leurs cdf sont tr` es semblables et ne permettent souvent pas de les di erencier ` a vue de nez. 0.1.1 densit e de probabilit e

Pour mieux distinguer les types de distributions, nous introduisons la d eriv ee de la fonction de r epartition : f (x) = dF (x) dx

3. A ne pas confondre avec la fonction caract eristique, qui est parfois mentionn ee dans la litt erature, et qui d esigne tout autre chose. 4. Un bon moyen mn emotechnique pour se rappeler a ` la fois de la forme et de la formule est de se dire que la fonction cumul ee est une int egrale et ressemble ` a une int egrale.

Figure 1 Exemple de fonctions de r epartition cumul ees. Le graphique de droite consid` ere des variables discr` etes, celui de gauche des variables continues.

cest la densit e de probabilit e ou fonction de masse (pour les variables discr` etes), parfois egalement not ee (x). Rappelons que pour une variable continue :
x

F ( x) =
0

P (x) dx et donc f (x) =

d dx

P (x) dx
0

La d eriv ee dune int egrale etant la fonction elle-m eme, on voit que la fonction f (x) est assimilable ` a la fonction P (x) d enie pr ec edemment. Cette fonction est l equivalent de P (X = x) pour les variables continues : elle donne la probabilit e dobtenir une valeur dans un intervalle tr` es petit autour de x 5 . Remarque 4. Il est facile de montrer que laire sous la courbe entre f (a) et f (b) correspond ` a la probabilit e P (X [a, b]) 6 . Attention cependant, les propri et es de lint egration font que contrairement aux probabilit es proprement dites, f (x) peut prendre des valeurs plus grandes que 1. Les contraintes des probabilit es sappliquent en eet ` a son int egrale, et non a ` f (x) directement, et il est tout ` a fait possible davoir un intervalle [a, b] dans lequel f (x) > 1 mais pour lequel on b a bien a f (x)dx 1.
dF dx

5. Nous sommes en train de faire de lanalyse sans le savoir :au lyc ee, on ecrivait F (x) = F (x)F (x ) P (X x)P (X x ) = lim , ce qui est pr ecis ement egal dans notre cas ` a lim ,
0 0

une quantit e que nous avions introduite en d ebut de chapitre. 6. Lint egrale dune fonction correspond ` a laire sous sa courbe : si F (x) = f (x) dx, alors dF (x) f (x) = dx et par produit en croix, dF (x) = f (x) dx. f (x) correspond ` a lordonn ee, donc ` a la hauteur sous la courbe Cf , dx est la variation dabscisse, cest-` a-dire une largeur innit esimale. En faisant le produit de ces deux quantit es, on obtient laire innit esimale dF (x) (Nous venons de faire du calcul di erentiel !).

Figure 2 Trac e des densit es de probabilit e correspondant aux cdf continues pr ec edentes. Remarquer les courbes bleues et violettes pour lesquelles f (x) > 1.

La repr esentation de f (x) pour une distribution est la plus connue : la fameuse courbe en cloche de la loi normale est de ce type. En plus de donner une id ee des probabilit es ponctuelles, elle permet souvent de d eterminer rapidement les caract eristiques ou le type dune distribution. 0.1.2 Loi de probabilit e

Pour des raisons qui d epassent largement le cadre de ce cours, il est en g en eral plus facile de donner lexpression de f (x) que celle de F (x) pour une variable al eatoire X . Lorsque lon peut exprimer f (x) sous forme dune fonction susamment simple, on parle de loi de probabilit e pour X . Toutes les lois qui ne di` erent entre elles que par le changement dune ou eatoires. Les constantes en plusieurs constantes constituent une famille de lois al question permettent de d ecrire tous les membres dune famille de lois : on les appelle les param` etres. Par exemple, les lois normales constituent une famille de lois, leur densit e est
1 de la forme f (x) = ependante des valeurs e 22 . Cette formule est ind 2 de (, ) qui sont donc les param` etres de cette loi. On d esigne en g en eral les familles de loi par une lettre majuscule cursive, si X suit une loi normale de ecrira par exemple X N (, 2 ). param` etres (, 2 ) on
(x)2

0.1.3

Esp erance

A ce point du chapitre, nous poss edons assez de pr erequis pour introduire la erance, ou expected value en notion la plus compliqu ee du chapitre, ` a savoir lesp anglais. Il ny a pas de fa con simple de d enir lesp erance ; tout au plus peuton dire quil sagit de la valeur attendue obtenue en pond erant les r esultats dun nombre inni de tirages de la m eme variable al eatoire. Il est possible que lesp erance ait une valeur impossible ` a atteindre, par exemple lesp erance de la variable X repr esentant un jet de d e equilibr e (not ee E[X ] ou X ) vaut 3.5. Cette valeur repr esente le centre pond er e de la distribution, mais il nest pas toujours possible de lobtenir ` a travers un tirage de la variable X , comme cest le cas ici. Elle est d enie comme suit : E[X ] = X =

X dP =

X ( ) P (d ) =

xf (x) dx

Pas de panique, il nest pas n ecessaire de retenir cette formule, ni m eme den comprendre les d etails, elle nest donn ee ici qu` a titre informatif 7 . 0.1.4 Moments statistiques

A partir de lesp erance, il est possible de d enir dautres quantit es extr emement en eral, dune int eressantes, les moments. Les moments dune distribution (ou en g courbe), sont des nombres qui nous donnent des informations pr ecieuses sur son aspect : son centre de masse, la largeur de ses extr emit es, etc. Ils sont donc utiles pour donner un aper cu rapide de la distribution, mais ils ne permettent en g en eral pas de la red enir compl` etement, ` a la mani` ere des param` etres : le calcul des moments implique le plus souvent une perte dinformation. Un moment est d eni de la sorte : mr = E[X r ] Le nombre r est particulier : il est choisi par le math ematicien selon linformation quil souhaite obtenir, on dit quil sagit de lordre du moment. En g en eral, plus on choisit de calculer un moment dordre elev e, plus linformation donn ee devient subtile. Par exemple le moment dordre 1 repr esente le centre de la distribution, alors que le moment dordre 4 mesure la tendance de la distribution ` a etre pointue et ramass ee sur elle-m eme. Remarque 5. A noter que lon retrouve dans le moment dordre 1 m1 = E[X ] lesp erance d enie pr ec edemment. Il est parfois plus utile de calculer les moments plus elev es en supprimant linuence des moments dordre inf erieur. Le moment centr e elimine linuence
7. Il est toutefois int eressant de comprendre comment on passe dune d enition a ` lautre : il sut de bien faire attention ` a la quantit e quon int` egre, et par rapport a ` quelle variable. Dans la premi` ere on int` egre X ( ), autrement dit x, sur lensemble des possibles par rapport ` a la variable P , cest ` a dire P ( ). dP repr esente la variation innit esimale de P ( ) lorsque varie lui-m eme tr` es peu, ce qui s ecrit dP = P (d ). Nous venons de passer de la premi` ere dF (x) d enition a ` la deuxi` eme. Si lon se rappelle de la d enition de la densit e f (x) = dx , on peut ecrire dF (x) = f (x)dx. Or F (x) repr esente bien une probabilit e, nous sommes en r ealit e en train dutiliser le fait que P ([a, b]) = F (b) F (a) est laire sous la courbe Cf . Cela nous permet d ecrire que dF (x) = P (dx), et nous retrouvons la troisi` eme d enition.

du moment dordre 1 (E([X E(X )]r )) et le moment centr e r eduit saranchit en plus du moment (centr e) dordre 2 (E
X E[X ] E[(X E[X ])2 ] r

). On note fr equemment

Var[X ] le moment centr e dordre 2, qui nous donne une information sur la dispersion (i.e. l etalement) de notre distribution.

0.2
0.2.1

Statistiques et estimateurs
G en eralit es

Nous avons fait le tour des notions ` a conna tre en mati` ere de statistiques, il est maintenant temps de nous int eresser aux donn ees. Rappelons que notre objectif est de relier la notion abstraite de distribution ` a notre jeu de donn ees. Nous avons dit quune distribution pouvait etre d enie enti` erement par lattribution de ses param` etres et lappartenance ` a une famille : nous cherchons donc un moyen dexprimer ou dapprocher ces param` etres ` a travers une fonction des enit donn ees. Un synonyme de fonction des donn ees est statistique, on d formellement une statistique t comme suit : t : Rn Rm (x1 , . . . , xn ) t(x1 , . . . , xn )

On le voit, une statistique se d enit comme fonction des r ealisations dune ou plusieurs variables al eatoires, elle est donc elle-m eme une r ealisation de la v.a. t(X1 , . . . , Xn ) que lon note Tn et que par abus, on nomme aussi statistique. Une statistique permettant de calculer un param` etre de loi est appel ee un estimateur. Le processus par lequel on d emontre ce calcul ainsi que lerreur quon commet en le faisant est appel ee lestimation. On note en g en eral le param` etre estim e` a laide dune lettre grecque (par exemple ), tandis que son estimateur et sa r ealisation prennent un chapeau ( ) ou une tilde ( ). Remarque 6. Une statistique de dimension 1, cest a ` dire qui r esume lensemble des donn ees sous la forme dun seul nombre est appel e un indicateur. La moyenne et la m ediane empiriques sont deux exemples dindicateurs. 0.2.2 Moyenne et variance empiriques comme estimateur de moments

Les deux estimateurs les plus connus sont la moyenne empirique et la variance empirique. Ils estiment respectivement lesp erance dune variable al eatoire (E[X ]), cest-` a-dire son moment dordre 1, et sa variance (Var[X ] = E[(X )2 ]), soit son moment centr e dordre 2. En statistiques, on utilise plus g en eralement l ecart type, qui est simplement la racine carr ee de la variance. enit par la formule La moyenne empirique (sample mean en anglais) se d bien connue xi n = =X n
in

Remarquer l ecriture : il faut faire tr` es attention lorsquon ecrit sans accent. Dans la plupart des cas, comme on la vu, la moyenne empirique nest que lestimation de lesp erance, et d esigne E[X ], ce qui comme on la vu 6

repr esente la position du centre de masse de la distribution, mais ne nous permet pas de la d enir compl` etement. 0.2.3 Moyenne et variance comme estimateurs de param` etres

Dans le cas particulier o` u X suit une loi normale, X N (, 2 ) a pour param` etres et 2 . Cette notation nest pas anodine, on peut d emontrer que dans ce cas pr ecis et dans ce cas seulement, la moyenne empirique est un bon estimateur du param` etre de la loi. De m eme, la variance ou moment centr e dordre 2 ( 2 ) est estim ee par la variance empirique
2 2 = Sn = in

(xi )2 n

qui permet egalement destimer l ecart-type par passage ` a la racine carr ee 2 = . Il est int eressant que dans la formule pr ec edente, on ait ecrit et non . Cela signie quil est n ecessaire de poss eder un excellent estimateur de la moyenne pour esp erer pouvoir calculer . Remarque 7. De fa con g en erale, il est pr ef erable de nutiliser la notation / ou 2 / 2 que si lon a aaire ` a des v.a. distribu ees normalement. n pour la moyenne et S 2 Dans le cas contraire, toujours privil egier l ecriture X n pour la variance. Ces ecritures d esignent les indicateurs, non les estimateurs dun quelconque param` etre, et peuvent etre calcul es pour nimporte quelle loi sous-jacente. Lesp erance donne une information sur lemplacement autour duquel les tirages sont le plus susceptibles de tomber, et la variance/l ecart type nous pr ecise l ecart moyen attendu par rapport ` a cette valeur. On peut faire conance ` a ces informations vu quelles sont issues du calcul abstrait ` a partir de la fonction de masse 8 . Par contre, les estimateurs de ces quantit es sont moins ables, puisquelles se basent sur une sorte destimation de la distribution par nos donn ees dexp erience. Si nos donn ees sont en faible nombre, il y a des chances que toutes nos mesures soient des mesures marginales qui nont pas grand chose ` a voir avec la r epartition th eoriquement attendue. La moyenne empirique sera donc tr` es eloign ee de lesp erance r eelle ; comme la variance empirique se base sur lestimateur de la moyenne, elle sera dautant plus erron ee. Remarque 8. Ce que nous nommons estimation de la distribution par nos donn ees dexp erience sappelle en r ealit e la distribution empirique. Cette quantit e est ce que lon repr esente lorsquon trace un histogramme ou un diagramme en b atons (que nous verrons en d etail dans le chapitre suivant). Le fait de superposer une distribution th eorique (souvent continue) a ` un ensemble de mesures suppos ement issues de cette distribution rel` eve de la mod elisation. Remarque 9. Dapr` es ce que nous venons de dire, nous pouvons deviner que plus un moment est dordre elev e, plus il est dicile ` a estimer. Cest un ph enom` ene d emontrable par le calcul, mais il sut de bien le comprendre : il a deux causes principales. Premi` erement, on cherchera souvent ` a eliminer
8. ...mais elles nont pas dusage pratique car souvent, on ne conna t pas les param` etres des lois que lon manipule.

linuence des moments dordre inf erieur lorsquon calcule mr . Cela n ecessite comme on la vu une bonne estimation de tous les moments {mk<r }, ce qui demande un bon jeu de donn ees. Deuxi` emement, lexpressions des moments dordre elev e fait intervenir des puissances dordre elev e. Lorsquon fait varier ne serait ce quun petit peu x, x5 variera beaucoup plus rapidement que x2 ou x lui-m eme. Cette nervosit e des indicateurs de haut niveau est elle aussi ` a la source dune plus grande exigence concernant la robustesse des donn ees.