Vous êtes sur la page 1sur 18

Statistiques - leon 4

Variables alatoires et lois usuelles

4.

Variables alatoires et lois usuelles ..................................................................... 2 4.1 4.2 Histoire ........................................................................................................... 2 Variable alatoire discrte ............................................................................ 2 Dfinition. Loi. Fonction de rpartition .................................................... 2 Esprance et Variance .............................................................................. 4 Ingalit de Bienaym-Tchebycheff ........................................................ 5 Couple de V.A. discrtes. Indpendance ................................................ 5 Loi uniforme .............................................................................................. 6 Loi gomtrique ........................................................................................ 7 Modle binomial ........................................................................................ 7 Modle hypergomtrique ........................................................................ 9 Loi de Poisson.......................................................................................... 10

4.2.1 4.2.2 4.2.3 4.2.4 4.2.5 4.2.6 4.2.7 4.2.8 4.2.9 4.3

Variable alatoire continue ......................................................................... 10 Dfinition. Densit et fonction de rpartition. Moments...................... 10 Couple de V.A. continues ....................................................................... 12 Loi uniforme ............................................................................................ 13 Loi de Laplace-Gauss .............................................................................. 13 Loi du Chi-2 ............................................................................................. 15 Loi de Student ......................................................................................... 16 Loi de Fisher-Snedecor ........................................................................... 17

4.3.1 4.3.2 4.3.3 4.3.4 4.3.5 4.3.6 4.3.7

2004 - Michel Armatte

Statistiques - leon 4

4. Variables alatoires et lois usuelles 4.1 Histoire

La notion de variable alatoire est ne en mme temps que le calcul des probabilits sans toutefois tre repre comme telle. C'est dans le cadre de la thorie des erreurs de mesure, en Astronomie et Godsie que les savants du XVIIIme sicle ont dcouvert les principales proprits d'une variable alatoire : comment les erreurs se distribuent-elles entre valeurs ngatives et valeurs positives, entre petites et grandes valeurs ? Quel milieu d'erreur peut on choisir qui fasse au mieux concider observations errones et vraie grandeur du phnomne mesur ? La loi binomiale a jou un rle central dans les dbats sur la loi des grands nombres c'est dire la convergence des frquences vers une limite appele probabilit. Newton, Pascal, Jacques Bernoulli ont contribu sa connaissance. Mais ce sont de Moivre, Laplace et Gauss qui ont vers fond la thorie analytique des probabilits, donn au dbut du XIXme des solutions aux questions de la thorie des erreurs, et permis l'tude de lois continues. La plus clbre est la loi en e-x dite loi de Laplace-Gauss qui joue le rle fondamental en statistique mathmatique de loi limite de toute somme de variables alatoire : c'est le thorme de la limite centrale (Laplace 1810). Cette loi a t enrle par Quetelet comme symptme de l'homognit d'une population et condition d'mergence de l'homme moyen, et par Lexis et Galton comme symptme de l'htrognit d'une population, opposant les tars aux gnies , dixit ce dernier qui l'a rebaptise loi normale . Cette section est dveloppe et illustre dans le diaporama Histoire .

4.2

Variable alatoire discrte

4.2.1 Dfinition. Loi. Fonction de rpartition Une preuve alatoire donne lieu des rsultats qui sont trs souvent des nombres, ou auxquels on peut faire correspondre sans quivoque des nombres, c'est dire des lments d'une chelle de mesure ou plus gnralement d'une structure algbrique ayant certaines proprits : modalits formant des classes d'quivalence, vrifiant une relation d'ordre, et susceptibles d'oprations comme l'addition, la multiplication Par exemple si je lance un d, le rsultat qui m'intresse est directement un chiffre entier entre 1 et 6 et chacune de ces valeurs a la mme probabilit. Si je lance 3 ds, et m'intresse la somme des points obtenus, les rsultats possibles sont tous les nombres entiers entre 3 et 18, et ils ne seront pas quiprobables (cf. L3). Si je tire une personne au hasard dans un groupe, et m'intresse son ge en annes rvolues, le rsultat sera un nombre entier. Bien sr plusieurs personnes pourront avoir le mme ge, et si je tire 10 personnes, j'aurai au plus 10 valeurs de l'ge, tandis que les valeurs possibles seront plus nombreuses. Un rsultat de l'preuve est une personne, et chacune a par hypothse la mme probabilit d'tre tire, mais chaque personne je ferai correspondre un ge et toutes les valeurs de l'ge n'auront pas la mme probabilit. Plus gnralement une variable alatoire X peut tre considre comme le rsultat d'une application X d'un ensemble probabilis {, P(), p} dans un nouvel ensemble probabilis {E,P(E),p'} o E est l'ensemble des valeurs possibles de la variable X, P(E) l'ensemble des parties de E (si E est fini) ou encore des vnements relatifs X, et p' la mesure de probabilit dfinie sur ces vnements.

2004 - Michel Armatte

Statistiques - leon 4

R sultat 1 R sultat 2 R sultat 3 R sultat 4.


*** *** *** . *** *** ***

p p1 p2 p3 p4
*** *** *** *** *** ***

E x1 x2 x3
*** *** ***

P' p'1 p'2 p'3 p'n


*** *** ***

xn

R sultat N

pN

En fait, grce aux rgles du calcul des probabilits, on sait que la probabilit de tout vnement peut se dfinir partir de la probabilit des vnements lmentaires, composs d'une seule valeur de E. Il suffit donc de connatre les probabilits de ces valeurs pour connatre ce que nous appelons la loi de la variable X. Une telle loi, pour une variable alatoire discrte, est donne par le tableau : Valeurs de x Probabilits x1 p1 x2 p2 xi pi xn pn

Ce tableau traduit une fonction f qui toute valeur xi fait correspondre la probabilit pi = f(xi) . Cette fonction prend le nom de densit de probabilit. Si les valeurs xi sont ordonnes, c'est dire sont les lments d'une chelle de mesure munie d'une relation d'ordre, ce qui est le cas usuel d'une variable entire, alors on peut comme en statistique dfinir les probabilits cumules :

P ( xi ) = prob( X xi ) = k =1 pk
k =i

Si l'on veut rpondre la question : que vaut prob (Xx) pour toute valeur de x (les valeurs observes xi mais toute autre valeur aussi), alors on est conduit dfinir la Fonction de rpartition de la variable X note FX et qui pour la valeur quelconque x prend la valeur :

FX ( x) = prob( X x) = P( xi / xi = max{xk / xk x})


C'est la valeur de la probabilit cumule jusqu' la dernire valeur possible infrieure ou gale x. Pour une variable discrte cette fonction est discontinue ( gauche) aux points x = xi. On peut reprsenter ces deux fonctions - densit et rpartition par deux graphiques, le premier sous forme de btons, le second sous forme descalier. Soit par exemple la petite loi suivante (3 n'est pas une valeur possible) : Les fonctions densits et rpartitions sont les suivantes :
x p 1 0,2 2 0,3 4 0,4 5 0,1

5
3

2004 - Michel Armatte

Statistiques - leon 4

4.2.2 Esprance et Variance

Comme nous avions dfini la moyenne et la variance d'une variable statistique dont les valeurs taient observes avec certaines frquences, nous pouvons dfinir la moyenne thorique et la variance thorique d'une variable alatoire dont les valeurs possibles ont certaines probabilits. La moyenne thorique prend le nom d'esprance mathmatique, du latin expectatio, que l'on peut traduire aussi bien par esprance que par anticipation. Elle reprsente la valeur certaine quivalente la loterie que traduit la variable alatoire. Elle en est le juste prix comme le disaient les inventeurs du calcul des probabilits dans le cadre des contrats alatoires de type vie espre, prime d'assurance, rente viagre, etcFormellement c'est une simple moyenne des valeurs de la variable, pondres par leurs probabilits :

E ( X ) = pi xi
i

L'esprance est, comme la moyenne, un oprateur linaire : si je multiplie toutes les valeurs de x par a, l'esprance est multiplie par a; si j'ajoute b toutes les valeurs de x, l'esprance est augmente de b : E(aX) = a.E(X) E(X+b) = E(X) +b E(aX+b) = a.E(X)+b Mais il n'est pas vrai en gnral que E[f(X)] = f[E(X)]. Par exemple E(X) [E(X)]. La diffrence entre ces deux quantits dfinit d'ailleurs la variance. La variance de X se dfinit en effet comme moyenne (thorique) des carrs des carts la moyenne thorique :

V ( X ) = E [ X E ( X )] = pi ( xi E ( X ) )
2 i

Mais en dveloppant le carr on aboutit une formule plus simple (moyenne des carrs moins carr de la moyenne) :

V ( X ) = E X [E ( X )] = p x pi xi i i
2 2 2 i i

[ ]

X = V (X )

est l'cart-type de la variable X.

Variance et cart-type vrifient les proprits suivantes : V(aX) = a.V(X) et aX=aX (Si je multiplie les valeurs par a la variance est multiplie par a et l'cart-type par a.) V(b) = 0 et b = 0 (une constante, cela ne varie pas) V(aX+b) = aV(X) et aX+b = aX

2004 - Michel Armatte

Statistiques - leon 4

4.2.3 Ingalit de Bienaym-Tchebycheff Etablie vers 1850, cette formule donne la probabilit qu'une variable alatoire soit dans un certain intervalle quand on ne connat que sa moyenne et sa variance : Prob{ X-E(X) t } 1- 1/t Cette probabilit est toujours sous-value et si on connat la loi de X le calcul exact aboutit des valeurs assez diffrentes : Prenons par exemple une loi uniforme (cf. 4.3.3.) entre 0 et 1 : m = E(X) = 0,5 et V(X) = 1/12, donc = 1/23. Pour t = 3 on obtient 3 = 3/2 = 0,866 et l'ingalit de BT donne : Prob { X-0,5 Prob { X-0,5 0,866 } 8/9 mais cette probabilit est gale en fait 1. 0,433 } 5/9 = 0,555 X-0,5 0,433 }= F(0,933) F(0,067) = 0, 866. Pour t = 1,5 on obtient 3/2 = 3/4 = 0,433 et l'ingalit de BT donne : Mais en fait prob {

L'ingalit ne donne qu'une estimation par dfaut trs grossire de cette probabilit. 4.2.4 Couple de V.A. discrtes. Indpendance Supposons que l'on dfinisse deux variables alatoires X et Y sur la mme preuve alatoire. Par exemple si nous lanons deux ds, un rsultat est le couple (X1,X2), et nous pouvons dfinir X = somme des points = X1 + X2 ; Y = diffrence absolue des points = |X1-X2|. On encore nous tirons des personnes adultes au hasard dans une population et nous mesurons X = nombre d'enfants et Y = nombre de frres et soeurs. Pour chaque rsultat de l'preuve alatoire, le couple (X,Y) prend des valeurs (xi, yi) et de la probabilit des rsultats nous pouvons dduire la probabilit de ces couples, c'est--dire : pij = prob [(X=xi) et (Y=yj)]. La loi du couple (X,Y) est donne par un tableau double entre o l'on trouve pij l'intersection de la ligne i et de la colonne j, comme on l'a vu pour deux ds discernables dans la leon 3. De ce tableau on peut dduire trs facilement la loi de toute nouvelle variable Z fonction de X et Y. Par exemple pour le jet de 2 ds nous obtenons la loi de la somme S par le biais de ce tableau des couples ordonns (X1,X2) qui ont chacun une probabilit 1/36 :

X1 X2 1 2 3 4 5 6

/ 1 2 3 4 5 6 7

2 3 4 5 6 7 8

3 4 5 6 7 8 9

4 5 6 7 8 9 10

5 6 7 8 9 10 11

6 7 8 9 10 11 12

2004 - Michel Armatte

Statistiques - leon 4

Loi de la somme S = X1 + X2 : S prob 2 1/36 3 2/36 4 3/36 5 4/36 6 5/36 7 6/36 8 5/36 9 4/36 10 3/36 11 2/36 12 1/36

La loi d'un couple peut tre rsume par 5 paramtres : les esprances et variances de X et Y, et la covariance du couple (X,Y) qui est dfinie par moyenne des produits moins produit des moyennes : Cov(X,Y) = E[(X-E(X)][(Y-E(Y)] = E(XY) E(X)E(Y) Il est facile de montrer que : E(X+Y) = E(X) + E(Y) En reprenant la formule de la variance, montrez que : V(X+Y) = V(X) + V(Y) + 2 Cov(X,Y) Deux variables X et Y sont indpendantes en probabilit si tous les vnements relatifs l'une et l'autre sont indpendants, donc si : i,j, prob {(X = xi) et (Y=yj)} = prob (X = xi) . prob (Y=yj) On peut alors montrer que dans ce cas de l'indpendance : E(XY) = E(X).E(Y) , Cov(X,Y) = 0 , et V(X+Y) = V(X) + V(Y)

4.2.5 Loi uniforme Nous passons maintenant en revue les lois discrtes les plus usuelles. Lorsque les valeurs d'une variable ont toutes la mme probabilit on parle de loi uniforme. C'est le cas par exemple de la loi des points amens par le d. C'est aussi le cas d'un tirage au hasard dans une population. En effet cette expression au hasard signifie prcisment que nous donnons chaque individu de la population la mme chance d'tre tir, soit 1/N si N est la taille de cette population. Il n'est pas si facile que cela de tirer des individus au hasard. On a besoin pour cela d'une part d'une liste complte et numrote de ces individus, d'autre part d'un processus de gnration de nombres au hasard. C'est si dlicat produire physiquement que les ingnieurs et statisticiens on produit dans les annes 1940-1950 (par exemple la RAND Corporation) des tables de nombres au hasard que l'on peut utiliser. Aujourd'hui on se contente d'un gnrateur de nombres au hasard programm sur l'ordinateur. Tout langage de programmation en inclut un. En fait il fournit des pseudo nombres alatoires puisqu'ils sont issus d'un procd dterministe (une suite d'oprations arithmtiques). La forme commune de la loi uniforme entre 1 et n, note U(n) est la suivante (on pourrait la gnraliser comme loi uniforme entre a et b en crant la variable Y = X+a-1) :

2004 - Michel Armatte

Statistiques - leon 4

X p

1 1/n

2 1/n

3 1/n

k 1/n

n 1/n

Prob (X=k) = 1/n


1/n

E(X) = (n+1)/2 V(X) = (n-1)/12


1 2 3 4 5 6 .. n

Exemple : tirage au hasard dans une urne avec n boules numrotes

4.2.6 Loi gomtrique Dans une population, on a une proportion p d'individus A et (1-p) d'individus B. On tire au hasard avec remise jusqu' ce que l'on obtienne un individu A. Ou bien encore on rpte une preuve quelconque dont les deux issues sont A (probabilit p) et B (probabilit (1-p) jusqu' ce que l'on obtienne A. X = nombre de tirages ncessaires suit une loi gomtrique de paramtre p note G(p). L'arbre des possibilits est le suivant :

1 p

k (1-p)k-1p

A p A p 1-p B

(1-p)p (1-p)p

1-p B

A p A p A 1-p B
Remarque : les valeurs possibles de la variable sont les valeurs entires de 1 l'infini. Mais l'esprance et la variance sont finies

1-p B 1-p B Prob (X=k) = E(X) = 1/p V(X) = (1-p)/p (1-p)k-1p

4.2.7 Modle binomial Le point de dpart est le mme que prcdemment : dans une population, on a une proportion p d'individus A et (1-p) d'individus B. On tire encore au hasard, mais cette fois-ci, on rpte n fois ce tirage avec remise. Ou bien encore on rpte n fois indpendamment une preuve quelconque dont les deux issues sont A (probabilit p) et B (probabilit (1-p). X n'est plus le nombre de tirages (fixe = n) mais le nombre d'individus (ou d'issues) A obtenus dans l'chantillon de taille n. X suit une loi Binomiale de paramtre n et p note B(n,p).

2004 - Michel Armatte

Statistiques - leon 4

Dans le cas n=3, l'arbre des possibilits est le suivant :

3me tirage 2me tirage 1er tirage A


p 1-p p p

A B A B A B A B

AAA

p3

X = nombre de A

1-p

AAB p2(1-p) ABA p2(1-p) ABB p(1-p)2 BAA p2(1-p) AAA p(1-p) AAA p(1-p) AAA

p 1-p p

3 p3 2 3p2(1-p) 1 3p(1-p) 0 (1-p)3


Loi de X = B(3,p)

1-p

1-p

B
1-p p

1-p

(1-p)3

Plus gnralement c'est un arbre 2n branches qui gnre autant d'chantillons ordonns possibles. Chacun d'eux comprend un nombre X de rsultats A . Ce nombre prend toutes les valeurs entires entre 0 et n. La probabilit associe la valeur k est gale la probabilit d'un rsultat comprenant k fois A soit pk(1-p)n-k que multiplie le nombre de chemins (d'chantillons) comprenant k fois A. Ce nombre est le nombre de faons de choisir k tirages parmi n soit le nombre de combinaisons Cnk. Finalement la loi d'une variable binomiale B(n,p) se rsume par ce tableau : X prob 0 (1-p)n 1 p(1-p)n-1 k Cnkpk(1-p)n-k n pn Xi Prob 1 p 0 1-p

On pourrait calculer l'esprance partir de ce tableau. Mais le calcul est beaucoup plus simple en considrant que X est la somme de n variables de Bernoulli Xi qui valent 1 au ime tirage si on a obtenu A, et 0 sinon (le nombre total de A dans l'chantillon est bien la somme de ceux que j'ai obtenus chaque tirage). Or la loi de cette variable de Bernoulli Xi (ci-dessus) conduit : E(Xi) = 1.p + 0.(1-p) = p E(Xi) = 1.p + 0.(1-p) = p V(Xi) = E(Xi)-[E(Xi)] = p-p = p(1-p) Donc puisque la variable binomiale est une somme de n variables bernoulliennes indpendantes de ce type, nous avons : E(X) = np V(X) = np(1-p) La somme de deux variables binomiales indpendantes B(n1,p) et B(n2,p) est encore une variable binomiale B(n1+n2,p). Le calcul des probabilits binomiales tant un peu fastidieux, nous verrons que l'on peut trs souvent utiliser des lois approches tabules pour y remdier.

2004 - Michel Armatte

Statistiques - leon 4

4.2.8 Modle hypergomtrique C'est le mme modle que celui de la binomiale ceci prs que l'on opre un tirage sans remise ce qui a pour consquences que la probabilit va changer chaque tirage en fonction des tirages prcdents, et que ceux-ci ne sont plus indpendants. Commenons par un exemple avec un tirage de 3 individus dans une population comprenant 12 A et 8 B :

3me tirage 2me tirage 1er tirage A


12/20 8/19 11/19 10/18

A B A B A B A B

AAA:12.11.10/20.19.18 AAB:12.11.8/20.19.18 ABA : 12.8.11/20.19.18 ABB:12.8.7/20.19.18 BAA : 8.12.11 /20.19.18 BAB : 8.12.7 /20.19.18 BAA : 8.7.12 /20.19.18 BBA : 8.7.6 /20.19.18

8/18

11/18 7/18 11/18

8/20

12/19

7/18

B
7/19 12/18

6/18

Plus gnralement nous devons considrer le tirage de n individus dans une population de N individus dont la proportion p a la caractristique A . Le nombre de A dans l'chantillon suit alors une loi hypergomtrique 3 paramtres note H(N,n,p). La loi de cette variable est : X Prob 0
n AN (1 p ) n AN

k
k n C NpC N1k p ) ( n CN

...

n
n ANp n AN

On peut montrer que : E(X) = np

V (X ) =

N n np(1 p) N 1

On voit que ce sont presque les mmes caractristiques que pour la loi binomiale au facteur (N-n)/(N-1) prs (dit facteur d'exhaustivit). Notons que ds que n est faible devant N (disons < 1/100) ce facteur est proche de 1 ( 1% prs) et les probabilits donnes par la formule hypergomtriques sont trs proches de celles qui sont donnes par la formule binomiale. En pratique nous considrons donc dans ce cas que B(n,p) est une loi approche de H(N,n,p) qui en offre une bonne approximation.

2004 - Michel Armatte

Statistiques - leon 4

4.2.9 Loi de Poisson Cette loi dcouverte par Simon-Denis Poisson, et redcouverte la fin du XIXme par Bortkiewicz propos d'une statistique des dcs annuel dans l'arme prussienne dus une ruade de cheval (!) est typiquement la loi d'vnements rares, c'est dire de probabilit faible : erreur de frappe, impuret dans un produit, panne, achat pour une personne touche par une publicit Partons du modle binomial et supposons que n est assez grand (disons suprieur 30) et que p est faible (disons infrieur ), alors on peut montrer que la probabilit binomiale tend vers celle d'une loi de Poisson de paramtre = np, note P(). Comme pour la loi gomtrique, les valeurs possibles d'une variable de Poisson sont les nombres entiers de 0 l'infini, mais bien sr ces probabilits dcroissent assez vite pour devenir ngligeables. Les caractristiques de la loi de Poisson P() sont les suivantes : X Prob 0 e- 1 k 0

e-

pk =

k e
k!

Cette loi est tabule sous la forme d'un tableau de ce type pour diffrentes valeurs de et sous la forme plus pratique de probabilits cumules pour les mmes valeurs de . Un calcul classique de somme en srie d'une infinit de termes montre que la somme des pk vaut 1 et que : E(X) = V(X) = La somme de deux variables de Poisson indpendantes de paramtres 1 et 2 est encore une loi de Poisson de paramtre 1+2. 4.3 Variable alatoire continue

4.3.1 Dfinition. Densit et fonction de rpartition. Moments. La considration de variables alatoires valeurs dans l'ensemble continu des nombres rels pose quelques difficults thoriques pour dfinir l'espace probabilisable et pour mener bien certains calculs qui ncessitent des connaissances de calcul diffrentiel. Faisons simple en sacrifiant la rigueur la pertinence du raisonnement. Reprenons les exemples de variable alatoire du 4.2.1. Si je tire une personne au hasard dans une population, et m'intresse l'ge exact de la personne, ou sa taille, ou son revenu annuel, la variable n'aura plus un nombre fini de valeurs possibles discrtes (entires dans le cas de l'ge en annes rvolues) mais un nombre infini (en thorie) ou innombrable (en pratique) de valeurs appartenant une chelle continue, parce que la grandeur mesure est elle mme continue, et que seule la prcision limite de l'instrument de mesure transforme le nombre rel de la mesure en nombre dcimal (par exemple 1,82m pour la taille). Le modle thorique de l'ensemble E des valeurs possibles de la variable X est maintenant l'ensemble R des rels (qui comprend, rappelons-le, les entiers, les rationnels, et les irrationnels), et qui est tel que entre 2 nombres quelconques il en existe toujours une infinit. Cette proprit du continu interdit de procder une dfinition de la variable alatoire en termes de valeurs et probabilit de ces valeurs car les valeurs sont en nombre infini et la probabilit d'une valeur possible (infiniment prcise est nulle).

2004 - Michel Armatte

10

Statistiques - leon 4

Ce qui n'est pas nul est la probabilit que la variable appartienne un certain intervalle de valeurs de type [a b] ou [a ]ou ]- b]. On privilgie en fait le dernier type qui permet le calcul de toute autre probabilit. (Notons qu'il n'est plus ncessaire de faire attention distinguer < et puisque la probabilit d'une valeur est nulle.) On peut donc entirement dfinir la loi d'une V.A. continue par la donne de sa Fonction de rpartition (FR) : FX(x) = prob(X<x) = prob {X]- x]} C'est une fonction ncessairement non dcroissante qui varie de 0 1. Elle permet de calculer la probabilit de tout intervalle [a b] : Prob [a< X< b] = prob [X<b] prob [X<a] = FX(b) FX(a) Si cet intervalle est infiniment petit de la forme [x x+dx] nous obtenons : Prob [x< X< x+dx] = prob [X<x+dx] prob [X<x] = FX(x+dx) FX(x) = [(FX(x+dx) FX(x))/dx]. dx Or la quantit entre crochets, qui reprsente la pente de la courbe F au point x, a pour limite quand dx tend vers zro ce qu'on appelle la drive de FX en x, soit fX(x). Cette fonction f s'appelle la densit de probabilit. Comme drive d'une fonction croissante, elle est toujours positive. Une seconde faon de dfinir une V.A. continue est donc de se donner sa densit. La relation prcdente s'crit la limite : fX(x) Prob [x< X< x+dx]= fX(x).dx = surface du rectangle de largeur dx et de hauteur

Plus gnralement la probabilit que la variable X soit infrieure b apparatra comme la somme (intgrale) des surfaces de tels rectangles, soit encore la surface qui est sous la courbe gauche de b. Et la surface totale sous la densit est gale 1 puisqu'elle reprsente la probabilit de l'ensemble des valeurs possibles de la variable.

Pr ob( X < b) = FX (b) =

f X ( x)dx
b a

Pr ob(a < X < b) = FX (b) FX (a ) = f X ( x)dx

Densit f - positive - d'intgrale = 1 a


1

F(c) 0

Fonction de rpartition F - non dcroissante - de 0 1 c

L'esprance mathmatique de X est encore dfinie comme moyenne des valeurs pondre par les probabilits (la densit) mais la somme est maintenant une somme intgrale.

2004 - Michel Armatte

11

Statistiques - leon 4

E ( X ) = xf X ( x)dx

E ( X 2 ) = x 2 f X ( x)dx

V(X) = E(X)-[E(X)] Pas de souci cependant : vous n'aurez pas de calcul intgral et diffrentiel effectuer. La seule chose est de bien comprendre le rapport entre densit et fonction de rpartition. Une ordonne de la seconde correspond une surface de la premire. 4.3.2 Couple de V.A. continues Comme pour les variables discrtes, la loi d'un couple de VA continues X,Y pourrait tre donne par un tableau crois des valeurs possible avec dans chaque case la probabilit de ce couple. Mais le tableau aurait un nombre infini de lignes et de colonnes, et les probabilits seraient remplaces par une fonction densit qui est une fonction de deux variables fX,Y(x,y). Cette fonction reprsente maintenant non plus une courbe mais une surface dans l'espace 3 dimensions, dont l'altitude au point de coordonnes (x,y) est z = f(x,y), et tel que le volume enferm sous cette surface soit gal l'unit. f(x,y)dxdy reprsentera la probabilit que X et Y soient l'intrieur du rectangle [x x+dx].[y y+dy]. On peut dfinir des courbes de niveau de densit constante sur cette surface comme sur notre terre en faisant z = constante. On peut aussi dfinir une partie du volume sous cette courbe qui est FX,Y(x,y) = prob{X<x et Y<y} que l'on dfinira comme fonction de rpartition du couple X,Y. Si l'on projette ce volume sous la surface f(x,y) sur le plan y=0 on obtiendra la densit marginale de X seule. Si l'on coupe ce volume par un plan y=k on obtiendra la densit conditionnelle de x pour y=k. Nous n'crirons pas les diffrentes formules correspondantes qui font appel des connaissances sur les intgrales doubles. Voici une image 3D due S. Stigler (1986) d'une loi d'un couple de variables normale (cf. infra).

2004 - Michel Armatte

12

Statistiques - leon 4

4.3.3 Loi uniforme La loi continue uniforme sur un intervalle [a b] est une loi de densit constante : tout intervalle lmentaire de largeur dx a la mme probabilit.

1/(b-a)

Densit : f(x) = 1/(b-a) si a<x<b = 0 sinon a b Fonction de rpartition F(x) = (x-a)/(b-a) si a<x<b E(X) = (b-a)/2 V(X) = (b-a)/12
x

F(x)

4.3.4 Loi de Laplace-Gauss Cette loi apparat pour la premire fois chez de Moivre puis chez Laplace (1774) puis chez Gauss (1800) comme loi des erreurs. Ce dernier montre en particulier que cette loi est associe au choix de la moyenne comme milieu si l'on prend le critre du maximum de vraisemblance. Mais c'est Laplace qui lui donne ses lettres de noblesses en dmontrant en 1810 le thorme le plus fameux de la statistique mathmatique : le Thorme Central limite (TCL) dit parfois thorme de la limite centrale. Ce thorme dit que si l'on fait la somme de n variables Xi indpendantes et de mme loi, alors pour n assez grand, cette somme suit une loi de Laplace quelle que soit la loi de dpart des Xi. La loi de Laplace-Gauss est donc la loi limite de toute somme (ou moyenne) de variables, du moins celles qui ont une variance finie ce que l'on a dcouvert par le contre-exemple de Cauchy. Prenons par exemple des variables Xi indpendantes qui suivent la loi uniforme prcdemment dfinie sur [a b]. On peut montrer que la densit de (X1 + X2)/2 est triangulaire, puis que celle de (X1+X2+X3+X4+X5)/5 est dj plus arrondie, et que la densit de la moyenne de 20 variables Xi est une belle courbe en cloche trs proche de celle d'une loi normale. Et ceci serait vrai en partant d'une autre loi, par exemple dissymtrique :

2004 - Michel Armatte

13

Statistiques - leon 4

n=1

n=2

n=5

n=20

Le Thorme central limite peut s'appliquer aussi une somme de variables de Bernoulli, donc la loi binomiale dont la loi de Laplace Gauss est une bonne approximation si n est assez grand (n>20) et p moyen . Finalement on a le schma suivant d'approximation des lois binomiale et hypergomtrique :

Loi Hypergomtrique H(N,n,p)


n faible devant N

Loi Binomiale B(n,p)


p faible (<1/4)

n grand (>20)

p moyen (1/4<p<3/4)

Loi de Poisson P(=np)

> 20

Loi L-G Normale N(np,np(1-p))

La loi de Laplace-Gauss, rebaptise loi normale la fin du sicle a t utilise comme modle de distribution normale des caractristiques humaines. Non sans critiques. Cette loi dpend de deux paramtres, m et , respectivement moyenne thorique (ou esprance) et cart-type. Elle est note N(m, ). Il est pratique de se ramener toujours la loi normale centre (c'est dire de moyenne 0) et rduite (c'est dire d'cart-type 1) que l'on note N(0,1) et qui est la seule tre tabule. Voici ses proprits :

2004 - Michel Armatte

14

Statistiques - leon 4

Densit :

1 2 f ( x) = e 2
-4 -2 0 2 4

Fonction de rpartition
F (u ) =
u

1,2 1

F(u)

0,8 0,6 0,4 0,2 0

f ( x) dx =

1 x / 2 e dx 2
u

Elle est tabule


0

-4

-2

La table (cf Infra) donne F(u) = prob (XN(0,1)<u) pour u>0. Il faut utiliser la symtrie de la densit pour calculer certaines probabilits. Exemple ; pour u = 1,23 la table donne F(u) = 0,8997 0,90. On en dduit : prob (XN(0,1)>1,23) = 0,10 prob (XN(0,1) <-1,23) = 0,10 prob (-1,23< XN(0,1)<1,23) = 0,80

La lecture inverse de la table s'apparente une table de la fonction inverse F-1 et permet connaissant p = F(u) de trouver u = F-1(p). Par exemple, p = 0,975 correspond u = 1,96. Enfin il est possible de rpondre toute question relative une variable normale N(m, ) en centrant (retirer la moyenne) et rduisant (diviser par l'cart-type) la variable pour se ramener N(0,1). Par exemple calculer prob (Y>5) sachant que Y N(3,2). Y est une variable plus disperse et dcentre puisque sa moyenne est 3. Mais (Y-3)/2 est une variable normale centre rduite et nous nous y ramenons en faisant les mmes oprations des deux cts du signe ">" : Prob (Y>5) = prob {(Y-3)/2 > (5-3)/2} = 1-prob(XN(0,1)<1) = 1- FN(0,1)(1) = 10,8413 = 0,1587

4.3.5 Loi du Chi-2 C'est la loi d'une quantit qui se prsente comme une somme de carrs de variables normales centres et rduites : Si X1, X2, , Xi,. Xn sont indpendantes et suivent une loi N(0,1), alors S = X1+ X2 + + Xi + + Xn suit la loi di Chi-2 : (n) La loi du

donne par F. R. Helmert en 1875 fut redcouverte par Karl Pearson

en 1900. Elle nous sera utile un peu plus tard pour la mesure du dsaccord entre lobservation et lhypothse (test dadquation du , test dindpendance du ). Elle dpend du seul paramtre appel degr de libert.

2004 - Michel Armatte

15

Statistiques - leon 4

Voici ses principales proprits : La loi du chi-deux degrs de libert, X de densit :

2 ( ) ,

est la loi dune variable alatoire

f ( x ) = K e ( x

2 ) ( 2 ) 1

, x>0

K n est la constante 1 2 n 2 ( n 2 )

L a l

La loi de X 2 est une loi Gamma : Si

( 2 ) .
x 2

= 2 , la loi ( )

est une loi exponentielle de densit e

2.

Mode( X ) = 2 si > 2 , E ( X ) = et V ( X ) = 2 .
Si X et X ' sont deux variables indpendantes suivant une loi du

'

degrs de libert, alors X + X ' suit une loi du

+'

et

degrs de

libert. Si n 30 alors

2 X 2 n 1 suit approximativement la loi normale N ( 0,1 ) .

Si n 50 , alors X suit approximativement la loi normale N ( n , 2 n ) .

4.3.6 Loi de Student Cette loi a t mise en avant par William S. Gosset qui, travaillant dans la clbre brasserie Guiness, a publi en 1908 sous le pseudonyme de Student . Elle nous sera utile pour les tests de moyenne sur petits chantillons. Elle dpend d'un seul paramtre, son degr de libert, . Elle survient comme rapport d'une variable normale et de la racine d'une variable du Chi-2 : Si Y suit N(0,1) et Z suit () et qu'elles sont indpendantes, alors T =

Y suit Student() de densit : Z


t2 f T ( t ) = K' 1 +

+1
2

, t IR avec K' = 1 / B( 1 , ) 2 2

Ces courbes de densit sont en forme de cloche centre en 0, lgrement plus 1 vases que pour la loi normale N ( 0 , ) .

2004 - Michel Armatte

16

Statistiques - leon 4

Mode( T ) = 0 , E ( T ) = 0 si > 1 et V ( T ) = ( 2 ) si > 2 .


Si

> 30 , alors T

suit approximativement la loi normale N ( 0, ) . 1

4.3.7 Loi de Fisher-Snedecor La loi de Fisher-Snedecor 1 et 2 degrs de libert, F ( 1 , 2 ) , dcouverte par le statisticien anglais Ronald Fisher dans le cadre de recherches sur l'analyse de variance, est la loi d'un rapport de deux variables du Chi-2, ou plus exactement de :

F=

Z1 1 Z2 2

Z1 ;

2 ( 1 )

et

Z2 ;

2 ( 2 ) ,

par exemple le rapport des

variances empiriques corriges de deux chantillons gaussiens, indpendants et de mme variance. Elle a pour densit :

f F ( x ) = K' '

x v1

2 1 ( 1 + 2 ) 2

( 2 + 1 x )

, x > 0 avec K' ' = 1 1 2 2 2

/ B( 1 2 , 2 2 )

Si

1 = 1 , alors F1, = T2 , carr dune variable de Student.


( 1 2 ) 2 1( 2 + 2 )

1 / F 1 , 2 = F 2 , 1

Mode( F ) =
V( F ) =

si si

2 > 2, 2 > 4.

E( F ) =

2 2

si

2 > 2

et

1 ( 2 4 ) ( 2 2 )2

2 2 2 ( 2 + 2 2 )

(Pour les lois du Chi-2, de Student et de Fisher, on ne retiendra pas autre chose que leur dfinition et la forme de leur densit.)

2004 - Michel Armatte

17

Statistiques - leon 4

Table de la Loi Normale N(0,1) u 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3 3,1 3,2 3,3 3,4 3,5 4 F(u) 0,5 0,5398279 0,57925969 0,61791136 0,6554217 0,69146247 0,72574694 0,75803642 0,78814467 0,81593991 0,84134474 0,8643339 0,88493027 0,90319945 0,91924329 0,93319277 0,94520071 0,95543457 0,96406973 0,97128351 0,97724994 0,98213564 0,9860966 0,98927592 0,99180247 0,99379032 0,99533878 0,99653298 0,99744481 0,99813412 0,99865003 0,99903233 0,9993128 0,99951652 0,99966302 0,99976733 0,99996831

Nous ne donnons que la table de la loi Normale. Les autres tables peuvent tre gnres la demande avec les fonctions d'Excel. (Voir Simul1)

2004 - Michel Armatte

18