Vous êtes sur la page 1sur 10

Esnard Aurlien

Statistique

ENSERB Informatique

Statistique inductive
Introduction
Introduction
On tudie le caractre dune population. tant donn une variable alatoire X, on examine un chantillon X1
Xn. Lors dune preuve, cette chantillon donne les valeurs relles x1 xn, encore appel srie statistique.
Observe (variable alatoire)
Moyenne

De la srie statistique (rel)

1
X Xi
n i

Variance

SX

1
Xi X
n i

X2 X

Vx

1
xi
n i

1
xi x
n i

x2 x

Pour les sries statistiques doubles1, on donne le formulaire suivant.


Observe (variable alatoire)
Covariance

S XY

De la srie statistique (rel)


1
C xy xi x y i y
n i

S XY
S X SY

R XY
2

S XX S X

xy x. y

XY X Y

Corrlation

On remarquera que

1
X i X Yi Y
n i

rxy

C xy
V xV y

Introduction la statistique des donnes

X1 X m
Considrons lchantillon X :
. Soit e e

x1 xm
1

les valeurs prises par les x i .

1. Cas de n petit (loi discrte)


On suppose que le nombre de valeurs prises par la srie statistique est petit, cest--dire n est petit. On note la

nombre de x gal ei
, et pi P X ei .
m
Thorme : moins de ne pas avoir de chance, les p i sont proches des p i .
frquence de la valeur ei , p i

Diagramme bton :

p3
p1
p2

Comprenant toutes deux


e1 n chantillons
e2

pn

e3

en
Page 1 sur 10

Esnard Aurlien

Statistique

ENSERB Informatique

2. Cas de n grand (loi diffuse)


Dans le cas dune loi diffuse, on partage lintervalle des valeurs prises en classe Ai. On exige que chaque classe
comporte au moins 3 lments.
On redfinit la frquence de la classe Ai comme p i

nombre de x Ai
, et pi P X Ai .
m

Histogramme :

Densit de la loi X
A1

A2

A3

An

Les pi reprsentent les aires et non pas les hauteurs !


De la mme faon, on a que les p i sont proches des p i ; ce qui se traduit sur le graphique, pour une classe
donne, par des aires grises proches de lintgrale de la densit.
Grce au dessin par histogramme, on peut approcher la densit de la loi X.

3. Vocabulaire
On appelle mode, la valeur ou la classe ayant la frquence la plus importante.
La mdiane est telle quelle partage galement en deux le nombre des xi.
On nomme tendue la diffrence entre la plus grande valeur prise et la plus petite.

Rgression linair
Cf. TD
Estimation ponctuelle
On souhaite estimer une grandeur a inconnue. Le plus souvent, a est le paramtre dune loi de probabilit.

Considrons un chantillon

X1 X m
. On cherche un estimateur
X :
x1 xm

A X 1 X m , tel quon espre que

A x1 x m soit proche de a.

4. Dfinitions

Un estimateur est sans biais si E A a .

Un estimateur est convergent si A X 1 X m converge en probabilit vers a lorsque

m.

Un estimateur sans biais et convergent est dit correct. X est un estimateur correct de lesprance de X.
Un estimateur est dit de variance minimum, si pour tout autre estimateur B on
2
2
E A a E B a . Un estimateur de variance minimum est sans biais.

Page 2 sur 10

a:

Esnard Aurlien

Statistique

ENSERB Informatique

Un estimateur est exhaustif si la loi de X 1 X m A ne dpend pas de a. ? ? ?


Un estimateur est robuste si il est insensible aux donnes aberrantes.

5. Estimateur au maximum de vraisemblance

On dfinit la fonction de vraisemblance v : x1 x m

v : x1 x m

P X 1 x1 X m x m dans le cas discret, et

f x1 x m dans le cas diffus avec densit f. La fonction de vraisemblance caractrise la


vraisemblance des donnes. On va donc chercher a x1 x m qui rend v maximum, cest--dire tel que
v
0 2. On prend A X 1 X m , lestimateur au maximum de vraisemblance.
a
6. Ingalit de Frechet-Cramer-Rav

Soit X une loi de densit f x1 x m , a avec a le paramtre estimer. On appelle la borne de Cramer-Rav, le
rel

B x, a

1
log f x, a
m.E

Soit A un estimateur sans biais, on dmontre :


E A a ;
-

Var A E A a
Var A B x, a .

7. Efficacit dun estimateur


On dfinit alors le coefficient defficacit dun estimateur : 0

B x, a
1 . Le coefficient defficacit
Var A

maximum est 1. On cherche toujours un estimateur qui soit le plus prcis possible, tel donc que sa variance soit
la plus petite possible. On dit que lestimateur a une efficacit maximum lorsque Var A B x, a ; la borne
est atteinte. Par consquent, on ne peut pas trouver destimateur qui soit plus prcis !
Estimation par intervalle de confiance

X1 X m
Considrons un chantillon X :
. On cherche un estimateur A X X

x1 xm
1

dune grandeur a.

Soit > 0, on cherche un intervalle de confiance autour de lestimateur A x1 x m qui soit de la forme

A x1 xm , A x1 xm .

A x1 x m

On se donne gnralement un seuil gal 0,05 ou 0,01, ce qui garantit un niveau de confiance de 95% ou 99%
dans lintervalle.

on vrifiera que lon a bien faire un maximum.


Page 3 sur 10

Esnard Aurlien

Statistique

ENSERB Informatique

Lestimation par intervalle de confiance est telle que P A x1 x m a 1 (niveau de confiance)

ou encore P A x1 x m a (seuil).

Plus le seuil est petit, plus le niveau de confiance exig est lev, et plus lintervalle de confiance va tre large.

Quelques lois de probabilits utiles en statistique


Loi du chi-deux
Soient X 1 X n indpendants, qui suivent N 0,1 .

U n X i suit la loi du 2 , n degrs de libert.


2

i 1

Estimateur de variance dune loi normale, et intervalle de confiance


Soient X qui suit N m, , et un chantillon X 1 X n .
8. Cas o m est connue
On a

*2

Vn n


nVn
n n
2

1
X i m 2 l'estimateur

nn

de la variance, sans biais car

Var X .

E Vn

Alors

suit la loi du

2 , n degrs de libert.

r *

Dterminons l'intervalle de confiance pour ,au seuil . Seule la partie droite de l'intervalle de confiance est
significative (pas de valeur absolue). On cherche r tel que P r * ou P r * 1 , ce qui

n
n

U n 1 . La table du 2 n degrs de libert nous donne 2 . On dduit r.


2
r
r

donne P

9. Cas o m est inconnue

*2

V n1

On remplace m par son estimateur X . Par consquent, on a n 1


variance, sans biais. Notons bien que si l'on prenait

2
1
X

X
i
n 1 n

l'estimateur de la

1
1
plutt que
dans l'expression de cet estimateur,
n
n 1
2

n 1*

on introduirait un biais. Ce point est sans importance ds que n devient grand. Alors n 1

du

suit la loi

2 , n - 1 degrs de libert.

Dterminons l'intervalle de confiance pour ,au seuil . On cherche r tel que P r n 1

, ce qui donne

n 1
n 1

U n 1 1 . La table du 2 n - 1 degrs de libert nous donne


. On dduit r.
2
r2
r

Page 4 sur 10

Esnard Aurlien

Statistique

ENSERB Informatique

Loi de Student
10. Dfinition
Soient X 0 X n indpendants, un chantillon de N 0,1 . Alors

St

X0
1 n 2
Xi
n i 1

X0
X 2 suit la loi de

Stundent n degrs de libert.


Les tables de Student donne P St x . Ces tables ne sont tablies que pour n 30 , aprs on considre que
St suit peu prs N 0,1 . En effet, la loi des grands nombres montre que St converge en probabilit vers la loi
normale rduite.
11. Application de cette loi

X m

n 1

Soient X 1 X n indpendants, un chantillon de N m, . Alors


de libert.

n suit Student n - 1 degrs

Intervalle de confiance pour l'esprance m dune loi normale


Dterminons l'intervalle de confiance pour m ,au seuil .

12. Cas o est connu


On cherche tel que

P X m

la loi normale rduite :

X m

ou

P X m 1

n 1

. X suit N m,

et on dduit


. On se ramne
n

n.

13. Cas o est inconnu


Comme est inconnue, on ne peut pas se ramener la loi normale rduite. On va donc utiliser lestimateur de

X m

*
lcart-type n 1 et la loi de Student : cest--dire, on cherche tel que P

X m

n 1

avec

*
n 1

n*1

n ,

n qui suit Student n - 1 degrs de libert.


14. Proprit importante, cas o est inconnu, grand chantillon

X m

n 1

Dans le cas dun grand chantillon n 30 , on a

n qui suit la loi normale rduite. Cest encore

vrai si X 1 X n est un chantillon quelconque (pas forcment une loi normale) ! Ce thorme est une
consquence de la loi des grands nombres, et du thorme central limite.

Page 5 sur 10

Esnard Aurlien

Statistique

ENSERB Informatique

Loi de Snedecor

X1 X m
Considrons

Y1 Yn
S m,n

deux chantillons indpendants, qui suivent la loi normale rduite. Par dfinition, on a

1
2
Xi

X2
m m

qui suit la loi de Snedecor


2
1
2
Y
Yi
n n

degrs de libert.
n

Tests dhypothses
Gnralits
On cherche tester une hypothse.
1.

Le bon choix de l'hypothse : Considrons le problme classique du critre de qualit : par exemple, le
vendeur vient de recevoir un lot de 1000 pices et il souhaite qu'il y ait moins de 50 pices dfectueuses
dans le lot. L'hypothse H tester est celle dont on a confiance dans le rejet , c'est--dire "Il y a plus de 50
pices dfectueuses dans le lot". Il ne faut pas confondre avec l'hypothse contraire H qui reprsente ce en
quoi on a confiance dans l'acceptation. Soit un paramtre de la loi de X sur lequel doit portee le test. Par
exemple, X suit N m, et m . On distingue deux sortes dhypothses : les hypothses composes
(" m m0 ") et les hypothses simples (" m m0 ").

2.

3.

4.

La condition de rejet de l'hypothse : On dfinit alors une condition ou rgion de rejet de l'hypothse H.
Par exemple X a pour " m m0 ", et X m a pour " m m0 ".

Condition de seuil : On cherche dterminer a tel que P rejet H / H vraie (risque de 1re
espce) avec un seuil donn. On exprime que la probabilit que l'on se trouve dans la rgion de rejet de H,
sachant que H est vraie, est infrieure au seuil . En effet, le seuil reprsente le niveau de confiance que l'on
souhaite avoir dans le rejet, qui est en gnral de 0.05, 0.01 ou 0.1. Plus est petit, et plus le niveau de
confiance exig pour l'acceptation de H est lev.
Principe de la puissance maximum : On obtient en rsultat une ingalit sur a, le plus souvent
a a 0 ou a a 0 . On applique le principe de la puissance maximum, qui cherche grandir au maximum
la rgion de rejet. Ce qui impose a a 0 .

5.

Interprtation du rsultat : Il faut envisager deux cas. Ainsi, si on a effectivement X a 0 alors on peut
rejeter l'hypothse H avec un niveau de confiance de 90%, 95% ou 99% , ce qui revient accepter H . En
revanche, si X a 0 n'est pas vrifi, alors il n'y a pas de rejet.
15. Test de Bayes

On affecte au risque de 1re espce P1 P rejet H / H vraie un cot C1 et au risque de 2nde espce

P2 P accepter H / H faux un cot C2. On dfinit le cot moyen d'erreur par C C1 P1 C 2 P2 . On

cherche le minimum de C.

Page 6 sur 10

Esnard Aurlien

Statistique

ENSERB Informatique

Comparaison de deux moyennes

X : X1 X m
Considrons
deux chantillons indpendants.

Y : Y1 Yn
16. Grands chantillons (taille 30)
On ne suppose rien sur X et Y. On pose m X E X et mY E Y .

Y X m

1
1 2
2
S X SY
m
n

prs la loi normale rduite.


On veut tester l'hypothse H :" m X mY ". On prend la condition de rejet

Y X

Y X

point de vue strictement calculatoire, il serait plus habile de prendre

1
1
2
2
S X SY
m
n

mX
suit peu

. Seulement d'un

a . On cherche

dterminer a pour un seuil donn. On crit P rejet H / H vraie , c'est--dire P T a avec T


qui suit N 0,1 . On en dduit a a 0 . Le principe de la puissance maximale impose a a 0 .

17. Petits chantillons


On suppose en plus que X et Y suivent des lois normales de mme cart-type. On dfinit

mn m n 2 Y X mY m X
2
2
mn
mS X nS Y

. U suit la loi de Student m n 2 degrs de libert.

On veut tester l'hypothse H :" m X mY ". Comme prcdemment, on cherche se ramener au thorme ;

donc, on prend la condition de rejet

mn m n 2
mn

YX
2

mS X nSY

a . On cherche dterminer a pour

un seuil donn. On crit P rejet H / H vraie , c'est--dire P U a avec U qui suitla loi de
Student m n 2 degrs de libert. En application du principe de la puissance maximale, on dduit a a 0 .
Test des longueurs (comparaison de deux lois)

Considrons

X : X1 X m

Y : Y1 Yn

deux chantillons indpendants. On veut tester l'hypothse H :" X et Y suivent la

mme loi". On classe par ordre croissant


(ou dcroissant) les x et les y en les regroupant :
xx, y, xxx, yyyy, x . On appelle L le nombre des longueurs. Ici, L 5 . Si L est petit, cela signifie que les X
et les Y ne se mlange pas bien ; par consquent, il ne s'agira pas de la mme loi. On traduit l'hypothse H dans
cette mme ide, en disant que tous les ordres possibles sont quiprobables. La condition de rejet est L l .
On cherche dterminer l tel que P L l / H vraie .
18. Petits chantillons
Supposons m n . On s'intresse au X, les rsultats sont symtriques pour Y. Soit s le nombre de longueurs
relatif au X. On a :
-

2C ms 11C ns11
P L 2 s
pour 1 s m
C mm n
Page 7 sur 10

Esnard Aurlien

Statistique

ENSERB Informatique

C ms 1C ns11 C ms 11C ns1


P L 2 s 1
pour 1 s m
C mm n

P L 2m 1

C mn 1
C mm n

19. Grands chantillons ( m, n 7 ou 8 )


L suit

N mL , L

avec m L 1

2mn m 2 n 2 m n
2mn
et L
.
mn
m n 2

Test du rang (comparaison de deux lois)

Considrons

X : X1 X m

Y : Y1 Yn

deux chantillons indpendants. On veut tester l'hypothse H :" X et Y suivent la

mme loi". On classe par ordre croissant (ou dcroissant) les x et les y :
somme des rangs de X. Ici, T 1 2 4 5 6 11 29 .

x x y x x x y y y y x . Soit T la

20. Dfinition du test

Y est stochastiquement suprieure X, not Y X si et seulement si z , P Y z P X z . On teste


l'hypothse H : "X et Y suivent la mme loi" contre K : "Y est stochastiquement suprieur X". La condition de
rejet de H est T t . On cherche dterminer t tel que P T t / H vraie .
21. Thorme
Si H est vraie, si n et m sont "grands", alors T suit peu prs

T 2

N mT , T

avec mT

m
m n 1 et
2

mn
m n 1 .
12

Test du 2
Considrons un chantillon X : X 1 X n . partir de l'histogramme, on imagine la loi P de X. On teste
l'hypothse H : "X suit la loi P". Ce test va permettre de vrifier si un chantillon est conforme une loi. On
effectue un partage de la droite relle en q classes. Chaque classe doit comporter un nombre suffisant de xi.

A1

A2

On rappelle :
-

1.
2.

la frquence de la classe des Aj : p j

Aq

Card A j

n
la frquence thorique de la classe des Aj : p j P X A j calcul avec la loi P
22. Rgle heuristique pour le partage en classe
Le nombre de classes doit tre suprieure 4 fois le nombre de paramtre de la loi. Par exemple pour la
loi normale, il faudra au moins 8 classes.
Le nombre d'lments attendus pour la classe A j doit tre telle que np j 5 , sauf ventuellement
pour deux classes o il doit tre > 1.

Page 8 sur 10

Esnard Aurlien

Statistique

ENSERB Informatique

23. Thorme
Si H est vraie, Yn n

p p
q

j 1

p j converge en loi vers la loi du 2 q 1 degrs de libert.


2

24. Condition de rejet

La condition de rejet de H est Yn ou Yn

. Si Yn , la frquence des p j est trop diffrente des

frquences thoriques p j pour que X suivent la loi P. Si Yn , l'chantillon est trop bon, et il a
certainement t truqu !

Analyse de la variance
Test de comparaison de S moyennes (S 3)

X 1 , X 2 X S suivent des lois normales avec mme cart-type : N mi , pour 1 i s . On souhaite


tester l'hypothse H : " m1 m2 m S ". Pour chaque Xi, on dispose d'un chantillon Xi,j avec j 1 ni .
Soit n la somme des ni. On suppose tous les Xi,j indpendants.
On dfinit :
-

1
ni

Xi

Vi

V*

X
j 1

i, j

, l'estimateur de Xi ;

1
1
X i , j n i ni X i , la moyenne estime globale ;
n i, j

ni

2
1 ni
X i , j X i , l'estimateur de variance de Xi ;

ni 1 j 1

2
1
ni 1Vi* 1 X i , j X i

nS i
n S i, j
2
1

ni X i X , l'estimateur de 2 (si H vraie).

S 1 i

25. Thorme
*

2
Si H est vraie, W
suit Snedecor
V*

S 1

degrs de libert. La condition de rejet de H est W w .


nS

Donc on cherche w tel que P W w / H vraie .

Test de linteraction et de linfluence de deux facteurs A et B sur un caractre X


26. Prliminaires
Soit X un caractre sur lequel peuvent agir deux facteurs A et B. A peut prendre des tats A1 Ap, B peut prendre
des tats B1 Bq. Lorsque A Ai et B B j , le caractre obtenu est X i , j . i reprsente l'influence de la
cause A Ai , j reprsente l'influence de la cause B B j , i , j reprsente l'influence de l'interaction

2
entre les deux causes. On suppose que X i , j suit N mi , j , , avec 2 fix.

Considrons l'quation i j i , j mi , j pour i 1 p et j 1 q . La somme des i est nulle,


de mme que la somme des j . La somme des i , j est nulle par rapport i et par rapport j. On a m ,

i mi , m ,

m, j m .

Page 9 sur 10

Esnard Aurlien

Statistique

ENSERB Informatique

On dfinit les hypothses suivantes :


- HI : "Il n'y a pas d'interaction.", c'est--dire i, j , i , j 0 .
-

HA : "Le facteur A n'a pas d'influence.", c'est--dire i, i 0 .


HB : "Le facteur B n'a pas d'influence.", c'est--dire j , j 0 .
27. Cas o il n'y a pas d'interaction

On se place dans le cas o il n'y a pas d'interaction entre les facteurs A et B : i, j , i , j 0 . Cf. Notations

pq 2
~ 2 2 S ,

est un estimateur sans biais de 2 , et il suit la loi du 2

p 1 q 1

degrs de libert.

Par consquent, on peut effectuer une estimation par intervalle de confiance de 2 .


Test de HA : Si HA est vraie, alors
libert. La condition de rejet est

W A q 1

SA

S ,

suit la loi de Snedecor

W A w A . On cherche w

tel que

28. Cas plus gnral (avec chantillons)


()

Page 10 sur 10

p 1

p 1 q 1

degrs de

PW A w A / H vraie 0.05 .