Vous êtes sur la page 1sur 35

Cours de Statistique Licence 2-S4 SI-MASS

Pierre DUSART 3 avril 2012

1 Introduction
Nous allons voir que si une variable alatoire suit une certaine loi, alors ses ralisations (sous forme d'chantillons) sont encadres avec des probabilits de ralisation. Par exemple, lorsque l'on a une norme urne avec une proportion tillon de taille

de boules blanches alors le nombre de boules blanches tires sur un chan-

est parfaitement dni. En pratique, la frquence observe varie autour de

avec des

probabilits fortes autour de

et plus faibles lorsqu'on s'loigne de

p.

Nous allons chercher faire l'inverse : l'infrence statistique consiste induire les caractristiques inconnues d'une population partir d'un chantillon issu de cette population. Les caractristiques de l'chantillon, une fois connues, retent avec une certaine marge d'erreur possible celles de la population.

1.1 Fonction de rpartition


La densit de probabilit variable alatoire continue

p(x) ou la fonction de X . Elles donnent lieu

rpartition

F (x)

dnissent la loi de probabilit d'une

aux reprsentations graphiques suivantes :

Figure 1  fonction rpartition


La fonction de distribution cumule

F (x)

exprime la probabilit que

n'excde pas la valeur

F (x) = P (X x).
De mme, la probabilit que X soit entre

et

b (b > a )

vaut

P (a < X < b) = F (b) F (a).

LOIS USUELLES

1.2 Grandeurs observes sur les chantillons


L'esprance

E (X )

d'une variable alatoire discrte

est donne par la formule

E (X ) =
i

xi P (xi ). X .

L'esprance est galement appele moyenne et note dans ce cas

2 Sa variance X est l'esprance des carrs des carts avec la moyenne : 2 X = E [(X X )2 ] = i
Son cart-type

(xi X )2 P (xi ) =
i

2 x2 i P (xi ) X .

est la racine positive de la variance.

2 Lois usuelles
2.1 Loi normale ou loi de Gauss
Une variable alatoire relle

suit une loi normale (ou loi gaussienne, loi de Laplace-Gauss) d'esprance

et d'cart type

(nombre strictement positif, car il s'agit de la racine carre de la variance

2 )

si cette

variable alatoire relle rel

admet pour densit de probabilit la fonction


1 x 2 1 e 2 ( ) . 2

p(x)

dnie, pour tout nombre

x,

par :

p(x) =

Une telle variable alatoire est alors dite variable gaussienne. Une loi normale sera note de la manire suivante moyenne) et

(l'cart-type).

Ainsi si une variable alatoire

N (, ) car elle dpend de X suit N (, ) alors V (X ) = 2 . N (0, 1)

deux paramtres

(la

E (X ) =
Lorsque la moyenne

et

vaut 0, et l'cart-type vaut 1, la loi sera note

et sera appele loi normale

standard. Seule cette loi est tabule car les autres lois (c'est--dire avec d'autres paramtres) se dduise de celle-ci l'aide du thorme suivant : Si On note

suit

N (, )

alors

Z=

Y suit

N (0, 1).

la fonction de rpartition de la loi normale centre rduite :

(x) = P (Z < x)
avec

une variable alatoire suivant

N (0, 1).

Proprits et Exemples :

(x) = 1 (x), (0) = 0.5, (1.645) 0.95, (1.960) 0.9750

Pour

|x| < 2,

une approximation de

peut tre utilise ; il s'agit de son dveloppement de Taylor

l'ordre 5 au voisinage de 0 :

1 (x) 0.5 + 2
eective.

x3 x5 + 6 40

Inversement, partir d'une probabilit, on peut chercher la borne pour laquelle cette probabilit est

Cours Statistique / Pierre DUSART

Notation : on notera

z/2

le nombre pour lequel

P (Z > z/2 ) = /2
lorsque la variable alatoire suit la loi normale standard.

valeur critique coecient de

0.01 z/2 2.58 scurit c 99%


risque

0.02 2.33 98%

0.05 0.10 1.96 1.645 95% 90% z/2


vrie galement

A l'aide des proprits de la loi normale standard, on remarque que le nombre

P (Z < z/2 ) P (Z < z/2 ) P (z/2 < Z < z/2 ) P (|Z | > z/2 )

= = = =

La somme de deux variables gaussiennes indpendantes est elle-mme une variable gaussienne : Soient X et Y deux variables alatoires indpendantes suivant respectivement les lois N (1 , 1 ) 2 + 2 ). N (2 , 2 ). Alors, la variable alatoire X + Y suit la loi normale N (1 + 2 , 1 2 et

2.2 Loi du 2 (khi-deux)


Soient

variables alatoires

X1 , . . . , Xk

indpendantes, de mme loi normale centre et rduite, alors par

dnition la variable

dnie par

X=
suit une loi du

2 Xi

degrs de libert. On notera

(k )

i=1 2

la loi de

X.

On peut trouver une tabulation de la fonction inverse de la fonction de rpartition de cette loi dans une table (en annexe) ou sur un logiciel tableur :

2 ;
2 c'est--dire la valeur de ; telle que
Exemple : Pour

(Fonction

KHIDEUX.inverse(; )),

P ( ( ) > 2 ; ) = .

= 0.990

et

2 = 5, 2 = 0.554 = 0.99;5 .

Figure 2  fonction 2 inverse

2.3 Autres lois


Loi Gauss Khi-Deux Student Fisher Notation
Variable

Fct Rpartition

V. critique

Fonction inverse

N (0, 1) 2 ( ) St( ) F (1 , 2 )

Z K2 T F

loi.normale.standard(z ) khideux(k; ; 1) Loi.student(t; ; 1) Loi.f(f ; 1 ; 2 ))

z 2 ; t; f;1 ,2

loi.normale.standard.inverse(1 )

khideux.inverse(; ; 1) Loi.student.inverse(; ) inverse.Loi.f(; 1 ; 2 ))

INTERVALLES DE CONFIANCE

3 Intervalles de conance
3.1 Ingalit de Bienaym-Tchebychev
Soit

une variable alatoire d'esprance

et de variance nie

(l'hypothse de variance nie garantit

l'existence de l'esprance). L'ingalit de Bienaym-Tchebychev s'nonce de la faon suivante : Thorme : Pour tout rel strictement positif

, 2 . 2

P (|X | )

3.2 Estimation d'une proportion par intervalle de conance


p d'une certaine catgorie p de cette population partir d'un chantillon de taille n dont la frquence de la catgorie tudie est f . Soit F la variable alatoire qui chaque chantillon de taille n associe la frquence du nombre d'lments qui appartiennent la catgorie choisie. On sait que F suit approximativement la loi N (p; ) avec = pq/n, pour n susamment grand (n > 30). On dispose
On considre une population telle que pour le caractre observ la proportion est inconnue. On souhaite estimer cette proportion de

=
l'cart type associ la frquence

f (1 f ) n n.
On se sert de l'estimation ponctuelle de

de l'chantillon de taille

puisque

est inconnue :

=
Donc la variable alatoire

n = n1

f (1 f ) n

n = n1

f (1 f ) . n1

dnie par :

Z=
suit approximativement une loi normale centre de la proportion

F p rduite N (0; 1).

On cherche un intervalle de conance

p n'appartienne pas o [0; 1]. On appelle cet intervalle de conance avec le risque ou avec le coecient de conance c = 1 . Le risque que l'on prend dire que p appartient cet intervalle est donc de ou encore la probabilit que p n'appartienne pas cet intervalle est le risque .
c'est--dire un intervalle tel que la probabilit que la proportion cet intervalle soit gale Dterminons cet intervalle de conance : On rappelle que l'on a dni que

p,

z/2

comme tant la valeur telle

P (Z > z/2 ) = /2
o

Z suit N (0; 1). A l'aide des proprits de P (z/2 < Z < z/2 ) = 1 2 2 = 1 .

la loi normale centre rduite, on a

P (Z < z/2 ) = /2

et

P (z/2 < Z < z/2 ) = 1

F p < z/2 = 1 P (z/2 < F p < z/2 ) = 1 P z/2 < f (1 f ) < p < F + z/2 n1 f (1 f ) n1

P (F z/2 < p < F + z/2 ) = 1 P F z/2 =1

Cours Statistique / Pierre DUSART

5
p
avec un coecient de conance de

L'intervalle de conance de la proportion

est :

f z/2
Remarque : lorsque

f (1 f ) ; f + z/2 n1

f (1 f ) . n1

n est grand, la dirence entre n et n 1 devient ngligeable, aussi la formule devient f z/2 f (1 f ) ; f + z/2 n f (1 f ) . n

C'est la formule la plus couramment utilise. On peut encore simplier : Avec un risque

= 5%,

et

f 0.5,

la formule peut tre approche par

1 1 f ;f + . n n

3.3 Moyenne
On considre une variable alatoire mme loi que

X
n

suivant

N (, )

et

X1 , ..., Xn , n
n

variables indpendantes et de

X.

On dnit respectivement la moyenne empirique et la variance empirique modie par :

1 X= n
Soit

Xi
i=1

et

Sn

1 = n1

(Xi X )2 .
i=1
On sait que la variable alatoire

z/2

le nombre rel positif tel que

suit la loi normale

N (; / n) 1 = = =

P (z/2 < Z < z/2 ) = 1 .

d'o

P (z/2 < Z < z/2 ) X < z/2 ) / n P X z/2 / n < < X + z/2 / n P (z/2 < 2
connue est donn par

L'intervalle de conance pour la moyenne d'une population de variance

x z/2 < < x + z/2 n n


soit

I = x z/2 ; x + z/2 . n n

Cet intervalle reste valable lorsque la variance est inconnue et l'chantillon trs grand. Lorsqu'on ne dispose que de

n observations d'une population de distribution normale d'cart-type inconnu,


de la population. On a

cet intervalle est modi. En eet, on se base sur la moyenne de l'chantillon et l'cart-type estim de la population pour donner un intervalle de conance sur la moyenne

X Sn / n

St(n 1)

(loi de Student

n1

degrs de libert).

Ainsi cet intervalle est donn par :

s s x t/2 < < x + t/2 n n


o t/2

= t/2;(n1) c'est--dire = n 1 degrs de libert.

que ce nombre sera lu dans la distribution de Student au risque

/2

avec

NOTION DE TEST D'HYPOTHSE

3.4 Variance
On considre la variance empirique modie

Sn

. On sait que

(n 1)Sn 2
De plus,

2 (n 1).
D'o

(Loi du

=n1

ddl)

2 2 P (2 1/2 < < /2 ) = 1 ,

= P

2 1/2 < (n 1)

Sn < 2 /2 2

= P
o

(n 1)s2 (n 1)s2 < 2 < 2 /2 2 1/2 2


avec

2 2 /2 = /2;(n1)

sera lu dans la table de

=n1
2

degrs de libert. On cherchera donc les

valeurs telles que

P K >

2 /2;(n1)

= /2,

et

P K <

2 1/2;(n1)

= /2.

4 Notion de test d'hypothse


La description de la ralit en statistiques se fait l'aide de variables qui sont des colonnes de valeurs numriques. On se pose souvent la question de comparer ces variables, de tester si elles sont gales ou direntes, de savoir si on peut considrer qu'elles correspondent ou non une mme population [sousjacente], si elles correspondent une distribution donne, si elles sont conformes un modle prcis etc. sachant que ces variables et leurs donnes ne correspondent qu' un chantillon de valeurs. Etant donn qu'on ne peut jamais tre sr que le rsultat des calculs correspond la ralit, les statisticiens et statisticiennes ont dvelopp un cadre d'analyse qui permet de prendre de telles dcisions tout en disposant d'une estimation du risque de ces dcisions. Les tests d'hypothses ont pour buts de  clarier et dnir le cadre rigoureux de ces tudes,  fournir un formalisme prcis pour toutes les situations,  savoir si les dirences mises en jeu sont importantes (signicatives pour un seuil donn) ou non.

4.1 Hypothse nulle, risques de premire et deuxime espce


Le cadre mathmatique est celui des vnements probabiliss o l'hypothse, la comparaison de dpart est convertie en un vnement intgr un modle probabiliste rfutable. On distingue en gnral deux hypothses seulement : la premire, galement nomme

hypothse nulle, note H0 est celle o justement

la dirence est considre comme nulle (on dira en fait non signicative, par rapport un seuil dni plus loin comme risque de premire espce) ; la seconde, complmentaire de la premire, regroupant tous les autres cas, est nomme

hypothse alternative et parfois note H1 .


0
pour un paramtre

Une hypothse doit spcier une valeur, disons

de la population. On testera donc

H0 : = 0 .
Une possibilit classique pour l'hypothse alternative est

H1 : = 0 ,
qui teste chaque ct de l'galit (on parlera de test bilatral).

Cours Statistique / Pierre DUSART

Mais on peut crire galement un autre choix d'hypothse :

H0 : 0 ,

parfois not encore

H0 : = 0

et l'hypothse alternative conrrespondante sera

H1 : < 0 ,
qui teste un seul ct de l'galit (on parlera de test unilatral). Le dernier cas est facile trouver :

H0 : 0

et

H1 : > 0

(unilatral galement).

On peut soit rejeter l'hypothse nulle, soit ne pas la rejeter alors qu'en fait, soit cette hypothse est vraie soit elle ne l'est pas ce qui oblige utiliser un tableau 4 cases qui rsume l'ensemble des couples (dcisions/ralit) :

Dcision / Ralit ne pas rejeter rejeter

H0

est vraie

H0

est fausse

H0

Vrai Positif Faux Ngatif

Faux Positif Vrai Ngatif

H0

Les cas VN (Rejeter

H0

quand elle est Fausse) et VP (Ne pas rejeter

espce et FP (Ne pas rejeter H0

bonnes dcisions. Par contre, FN (Rejeter

H0

quand elle est Vraie) est nomme

quand elle est Fausse) est nomme

erreur de premire erreur de deuxime espce. A


pour FP, = 5% (ou .
La probabilit de

H0

quand elle est Vraie) sont des

chacune de ces erreurs, on associe un risque li la probabilit de la dcision : on le nomme pour FN. Il n'y a aucune raison de supposer ces risques quivalents et souvent on prend 1% quand on veut tre plus strict) alors qu'il est "habituel" de prendre 0.20 pour rejeter

H0

alors qu'elle est vraie vaut

et est appel niveau du test (ou seuil). La probabilit de rejeter

une fausse hypothse nulle est

(1 )

qui est appele la

puissance du test.

Il faut bien comprendre que les tests d'hypothse ne permettent pas d'accepter rejeter

H0

mais seulement de

H0 .

Ne pas rejeter

H0

ne signie pas que

H0

est vraie mais seulement que la probabilit qu'elle

soit fausse est trs petite. On n'est donc en fait jamais vraiment totalement sr de rien. Ce qui nous donne en tableau :

rejet de

H0

non rejet de cohrent

H0

H0 est vraie H0 est fausse

Erreur type I (rejet tort) : risque cohrent

Erreur type II (non rejet tort) : risque

Dans le cadre de tests statistiques, on doit dcider si on peut considrer par exemple que 0.21 et 0.22 sont proches, si 15% et 20% peuvent tre considrs comme peu loigns etc., la loi statistique de la dirence entre ces lois tant suppose connue, tabule et consultable.

4.2 Mcanique des tests d'hypothse


Pour raliser un test d'hypothse, il y a un enchanement strict d'actions eectuer. Cela commence par la formulation de l'hypothse dans le domaine considr (mdical, conomique, social...) et sa traduction en vnements probabilistes lis

H0 .

On doit ensuite considrer la statistique d'cart (la loi thorique

de la dirence) et choisir un seuil (alpha) de dcision. On doit ensuite calculer la valeur de la statistique d'cart pour les valeurs observes puis comparer la valeur thorique de la statistique d'cart pour le seuil choisi et en dduire si on refuse dirence est signicative ou non.

H0

ou non. Enn, le calcul (ou la lecture) de la  p-value associ

au dpassement de la valeur de la statistique d'cart permet de conclure de faon ne sur le fait que la

TEST D'INDPENDANCE

5 Test d'indpendance
Dans la plupart des tests que nous venons de prsenter, on suppose toujours les valeurs de l'chantillon indpendantes. C'est une condition ncessaire. Il est donc souvent utile de vrier cette hypothse par un test. Ce test met en place une variable alatoire qui suit une loi du d'indpendance du

2 ,

aussi ce test est appel Test

Ce test permet de contrler l'indpendance de deux caractres dans une population donne. On dispose de deux variables alatoires (ou classes) et

et

Y,

les valeurs possibles de

sont rparties en

modalits

Yj ,

un

X1 , . . . , Xl , celles de Y en k eectif ni,j est observ. Ainsi

modalits

Y1 , . . . , Yk .
k

Pour chaque intersection de modalits

Xi

n=
i=1 j =1
Hypothse teste

ni,j .

H0

:  Les variables

et

sont indpendantes .

Droulement du test : On cre le tableau des eectifs qui est un tableau double-entre. A l'intersection de la

i-me ligne et de la j -ime colonne, on crit l'eectif ni,j . On calcule les eectifs marginaux : Si = j ni,j est la somme des termes sur la i-me ligne, Tj = i ni,j est la somme des termes sur la j -ime colonne. Yj
. . .

Xi

ni,j
. . .

Si n

Tj
On calcule les eectifs thoriques :

Ci,j =
Remarque : Sous l'hypothse

Si Tj . n

H0 ,

on a

Ci,j = ni,j . (ni,j Ci,j )2 . Ci,j 2

On calcule la valeur de la variable de test :

2 c =
i,j
On cherche la valeur critique

dans la table de la loi du

= (l 1) (k 1) i, j .

degrs de libert.

2 2 Dcision : si c < , on accepte l'hypothse H0 , sinon on la rejette. Vrication a posteriori des conditions d'application : il faut Ci,j 5 pour tous

Exemple : Pour comparer l'ecacit de deux mdicaments agissant sur la mme maladie, mais aux prix trs dirents, la Scurit Sociale a eectu une enqute sur les gurisons obtenues en suivant chacun des traitements. Les rsultats sont consigns dans le tableau suivant : Mdicament Gurisons Non Gurisons Les eectifs marginaux sont les suivants : Mdicament Gurisons Aucun Eet Gnrique Gnrique

48 6

158 44

48 6 54

158 44 202

206 50 256

Cours Statistique / Pierre DUSART

Les eectifs thoriques sont : Mdicament Gurisons Non Gurisons Gnrique

20654 256 5054 256

206202 256 50202 256

54
On calcule

202 +
(4439,45)2 39,45

206 50 256

2 c =

(4843,45)2 43,45

(158162,55)2 162,55

(610,55)2 10,55

3, 1.

La variable de test

2 c

vaut approximativement 3,1, alors que la valeur critique, pour un niveau de risque

de 5%, est 3,84 (on explore la table du

un degr de libert). On peut donc raisonnablement estimer ici

que le taux de gurison ne dpend pas du prix du mdicament et se poser des questions sur l'opportunit de continuer vendre le mdicament cher.

6 Tests de conformit en loi


6.1 Cas gnral
6.1.1 Test d'adquation du 2
Soit

une variable alatoire de loi

L (le plus souvent inconnue). On souhaite tester l'ajustement de cette


contre l'hypothse

loi une loi connue

L0

(Poisson, Exponentielle, normale, etc) retenue comme tant un modle convenable.

On teste donc l'hypothse Les

H0 : L = L0

H1 : L = L0 . Oi
l'eectif observ de la classe

observations de

sont partages en

classes. On dsigne par

i.

Ainsi

Oi = n.

Pour chaque classe, l'eectif thorique est dni :

Ci = n p(X Classei /X L0 ).

Classe Eectif observ Eectif thorique

1 O1 C1

2 O2 C2

i Oi Ci

k Ok Ck

On calcule la valeur

(Oi Ci ) 2 2 . On compare cette valeur la valeur thorique lue dans la c = i=1 Ci 2 table du = k 1 r degrs de libert o r est le nombre de paramtres de la loi L0 qu'il a fallu estimer. (Exemples : r = 0 si la loi est connue ou impose, r = 1 pour une loi de Poisson, r = 2 pour une k
loi normale sans autre prcision) On rejette

H0

lorsque

2 2 c > .

Exemple : Un pisciculteur possde un bassin qui contient trois varits de truites : communes, saumones et arc-en-ciel. Il voudrait savoir s'il peut considrer que son bassin contient autant de truites de chaque varit. Pour cela, il eectue, au hasard 399 prlvements avec remise et obtient les rsultats suivants :

Varits Eectifs

commune 145

saumone 118

arc-en-ciel 136

On cherche savoir s'il y a quirpartition des truites entre chaque espce c'est--dire on suppose de est la loi uniforme, une probabilit de

L0

1/3

pour chaque classe (soit

Ci = 399

1 3

= 133).

10
Varits Eectifs Eectifs On obtient commune 145 133

TESTS DE CONFORMIT EN LOI

saumone 118 133

arc-en-ciel 136 133

Oi Ci

2 c =
5.99.

(118 133)2 (136 133)2 (145 133)2 + + 2.84 133 133 133 2
au risque de 5% avec

La valeur thorique lue dans la table du

= 310 = 2

degrs de libert vaut

On ne peut rejeter l'hypothse que son bassin contient autant de truites de chaque varit car

2 2 c < .

6.1.2 Test de Kolmogorov-Smirnov


Comme prcdemment, l'objectif est d'tablir la plausibilit de l'hypothse selon laquelle l'chantillon a t prlev dans une population ayant une distribution donne. Le test de Kolmogorov est "nonparamtrique" : il ne place aucune contrainte sur la distribution de rfrence, et ne demande pas qu'elle soit connue sous forme analytique (bien que ce soit pourtant le cas le plus courant). Etant donns : 1. Un chantillon de taille

d'observations d'une variable,

2. Et une fonction de rpartition de rfrence le test de Kolmogorov teste l'hypothse de fonction de rpartition

F (x),

H0

selon laquelle l'chantillon a t prlev dans une population

F (x). D,
appele "statistique de Kolmogorov", dont la

Pour cela, il calcule sur l'chantillon une quantit distribution est connue lorsque

H0

est vraie. La statistique de Kolmogorov-Smirnov

Dn

est dnie par

Dn = sup |Fn (x) F (x)|,


x R
o

Fn (x)

est la proportion des observations dont la valeur est infrieure ou gale

(fonction de rpar-

tition empirique).

Figure 3  Test de Kolmogorov-Smirnov


Une valeur leve de

est une indication que la distribution de l'chantillon s'loigne sensiblement de la

distribution de rfrence

F (x),

et qu'il est donc peu probable que

H0

soit correcte. Plus prcisment,

c sup |Fn (x) F (x)| > n x

n (c) = 2
r =1

(1)r1 exp(2r2 c2 )

Cours Statistique / Pierre DUSART

11
(c)
n
vaut

pour toute constante

c > 0.

Le terme

0.05

pour

c = 1.36.

Pour

n > 100,

la valeur critique du

c test est approximativement de la forme . Les valeurs usuelles de

en fonction de

sont :

c
Si

0.20 0.10 1.073 1.223

0.05 1.358

0.02 0.01 1.518 1.629

Dn >

c , on rejette n

H0 .

Exemple :

http://www.jybaudot.fr/Tests/kolmogorov.html

Une nouvelle clientle trangre est attendue dans une station balnaire. An de mieux connatre leurs gots, des brasseurs ont command une tude de march. En dbut de saison, on demande vingt de ces nouveaux touristes de donner leur prfrence parmi cinq types de bires, de la moins amre (bire 1) la plus amre (bire 5). A l'aide d'un test de K-S, le charg d'tudes dcide de comparer les rsultats avec une loi uniforme, c'est--dire une situation o chaque bire aurait eu la prfrence de quatre rpondants. Les rsultats de l'enqute sont les suivants : 1 3 2 5 1 2 2 4 1 2 2 1 3 3 2 4 5 1 1 2 On se xe un risque d'erreur de 5%. L'hypothse

H0

tester est celle de l'galit avec une loi uniforme.

Rsumons les carts entre observations et rpartition uniforme : Classe 1 2 3 4 5 Eectif 6 7 3 2 2 Uniforme 4 4 4 4 4 Cumul rel 0,30 0,65 0,80 0,90 1,00 Cumul thorique 0,20 0,40 0,60 0,80 1,00 D 0,10 0,25 0,20 0,10 0,00

La distance la plus leve s'tablit On calcule pour

d = 0, 25.

n = 20

et

= 5%

la valeur de

c/ 20 = 0, 303.

Bien que ces touristes semblent prfrer

la bire amre, on ne peut pas rejeter l'hypothse selon laquelle ils n'ont pas de prfrence particulire.

6.2 Test de normalit


Les tests prcdents sont des tests gnraux s'appliquant sur n'importe quelle loi. Lorsque la loi tester est la loi normale, on parle de test de normalit. On cherche se dterminer entre :

H0 H1

: les donnes suivent une loi normale. : les donnes ne suivent pas une loi normale.

6.2.1 Mthodes graphiques : Droite de Henry


La droite de Henry est une mthode pour visualiser les chances qu'a une distribution d'tre gaussienne. Elle permet de lire rapidement la moyenne et l'cart type d'une telle distribution. Principe : On reprsente les quantiles thoriques en fonction des quantiles observs (Diagramme Q-Q). Si

est une variable gaussienne de moyenne

et de variance

et si

est une variable de loi normale

centre rduite, on a les galits suivantes :

P (Y < t) = P

Y y ty <

= P (Z < x) = (x)

12
o

TESTS DE CONFORMIT EN LOI

x=

ty . (on note

la fonction de rpartition de la loi normale centre rduite).

Pour chaque valeur de la fonction

yi

de la variable

, x i

tel que

Y , on peut (xi ) = P (Y < yi ).

calculer

P (Y < yi ) ( xi ; yi )

puis en dduire, l'aide d'une table

Si la variable est gaussienne, les points de coordonnes

y=

xy .

sont aligns sur la droite d'quation

Exemple numrique Lors d'un examen not sur 20, on obtient les rsultats suivants :  10% des candidats ont obtenu moins de 4  30% des candidats ont obtenu moins de 8  60% des candidats ont obtenu moins de 12  80% des candidats ont obtenu moins de 16 On cherche dterminer si la distribution des notes est gaussienne, et, si oui, ce que valent son esprance et son cart type. On connat donc 4 valeurs

yi ,

et, pour ces 4 valeurs, on connat

P (Y < yi ).

En utilisant la table Table de la fonction de rpartition de la loi normale centre rduite, on dtermine les

xi

correspondants :

yi P (Y < yi ) = (xi ) xi 4 0, 10 1, 282 8 0, 30 0, 524 12 0, 60 0, 253 16 0, 80 0, 842

Figure 4  Droite de Henry


Les points paraissent aligns. La droite coupe l'axe des abscisses au point d'abscisse 11 et le coecient directeur est 0.18 environ, ce qui donnerait un cart type de

1/0.18 = 5, 6. = 11
et

Cela laisse penser que la distribution est gaussienne de paramtres

= 5.6.

Remarque : On peut faire de mme en comparant sur un graphique les probabilits cumules thoriques et les probabilits cumules empiriques (comparaison des fonctions de rpartition : Diagramme P-P). On est alors dans une sorte de validation type Kolmogorov-Smirnov mais graphique.

Cours Statistique / Pierre DUSART

13

6.2.2 Test Jarque-Bera (ou test de Bowman-Shelton)


Le test de Jarque-Bera est un test de normalit. On pose

S K

=E =E

X X

3
Coecient d'asymtrie : Moment d'ordre 3 d'une variable centre-rduite

4
Kurtosis : Moment d'ordre 4 d'une variable centre-rduite

On rappelle qu'une loi normale a un coecient d'asymtrie = 0 et une kurtosis = 3. On peut traduire les hypothses sous la forme :

H0 : S = 0 H1 : S = 0

et ou

K=3 K = 3.

On remarque ainsi que s'il y a rejet, le test ne permet pas d'en connatre la raison principale (asymtrie ou applatissement). On calcule

JB =
o

n 6 n

S2 +

(K 3)2 4
2

, > 50). .

est le nombre d'observations. Il faut que

soit susamment grand (n

La statistique

JB

suit asymptotiquement une loi du

2 degrs de libert. Si les donnes suivent une

loi normale, le test s'approche alors de 0 et on accepte (ne rejette pas)

H0

au seuil

7 Test sur les pourcentages


7.1 Relation test et intervalles de conance
Un test correspond construire un intervalle de conance autour d'une valeur partir d'un chantillon et de regarder si sa valeur suppose sous

H0

est nalement dans cet intervalle, construit partir d'un

certain risque. La valeur intressante pour un test est le risque pris pour rejeter s'assurer de la pertinence (vraisemblabilit) de

H0 .

Cela permet de

H0

ou de

H1 .

Les lois qui interviennent dans les calculs

sont les mmes mais au lieu de construire un intervalle de conance pour chaque risque pris, on compare une partie xe (calcule partir des observations) avec une partie ne dpendant que du risque pris.

7.2 Test de conformit


Soit

pr

la proportion (valeur connue) possdant le caractre considr dans une population de rfrence.

Il s'agit de tester si la proportion et observ une frquence

d'une autre population, dont on a extrait un chantillon de taille

pour ce caractre, correspond celle d'une population de rfrence, soit

H0 H1
On considre loi de

: p = pr : p = pr H0 ,
la

la variable alatoire qui suit les frquences observes dans les chantillons. Sous

peut tre approche par

pr ,

pr (1pr ) n

On se xe

le risque que p = pr , P (p I ) = 1 c'est--dire

ce qui revient rechercher un intervalle

centr sur

pr

tel que

P z/2 <

F pr
pr (1pr ) n

< z/2 = 1 .

14
On teste donc si la valeur calcule

TEST SUR LES POURCENTAGES

z=
appartient l'intervalle Dcision : on accepte

f pr
pr (1pr ) n

] z/2 ; z/2 [.
si

H0

z ] z/2 ; z/2 [

au risque

et on rejette

H0

sinon.

Figure 5  test bilatral pour = 5%


Lorsque une partie de l'hypothse

H1

est a priori carter (non sens, impossibilit), alors le risque ne

rpartit plus de chaque ct de l'ingalit mais est rparti sur une seule partie (on parle alors de test unilatral). On teste donc uniquement on rejettera

H0 : p = pr

contre

H1 : p > pr ,

ou

H0

lorsque

sera bien plus grand que

pr

ou respectivement

H0 : p = pr contre H1 : p < pr . p sera bien plus petit que pr .

Les hypothses considres sont donc dans un cas :

H0 H1
ce qui revient rechercher un intervalle

: p = pr : p > pr

F pr P

tel que

< z = 1 .

pr (1pr ) n

On compare donc la valeur calcule

z=
avec une valeur

f pr
pr (1pr ) n

lue dans la table de l'cart-rduit (lire au risque

2). > z ).

Dcision : on accepte

H0

si

z ]0; z [

au risque

et on rejette

H0

sinon (z

Figure 6  test unilatral pour = 5%


Les hypothses considres sont donc dans un second cas :

H0 H1

: p = pr : p < pr

Cours Statistique / Pierre DUSART

15
I
tel que

ce qui revient rechercher un intervalle

P z <

F pr = 1 .
pr (1pr ) n

On compare donc la valeur calcule (lire au risque

z=

f p r pr (1pr ) n

avec une valeur

lue dans la table de l'cart-rduit

2,

et mettre un signe moins)

Dcision : on accepte

H0

si

z ] z ; 0[

au risque

et on rejette

H0

sinon (z

< z ).

Figure 7  test unilatral pour = 5%


Exemples : 1. test bilatral (Un test bilatral rejette les valeurs trop cartes) On dsire tester le chire annonc de 20% des personnes qui coutent une certaine mission radiophonique correspond la ralit. Une sondage de 1000 auditeurs donne une proportion de 0.1875.

H0 H1

: p = 0.2 : p = 0.2 (z 0.99)

On choisit un test bilatral car on n'a aucune ide du pourcentage rel.

2. test unilatral droite (Un test unilatral droite rejette les valeurs trop grandes de la statistique de test) Un magicien prtend qu'il peut souvent deviner distance la couleur d'une carte tire au hasard d'un jeu de cartes bien battu et comportant des cartes de deux couleurs direntes en nombre gal. Sur un chantillon de taille 100, la magicien a obtenu 64 succs. Quel niveau de risque prend-t-on pour dclarer que le magicien n'est pas un imposteur ?

H0 H1 (z 2.8)

: p = 0.5 : p > 0.5

3. test unilatral gauche (Un test unilatral gauche rejette les valeurs trop petites) On sait que la grippe touche 30% d'une population lors d'une pidmie. Pour tester l'ecacit d'un vaccin antigrippal, on vaccine pralablement 300 personnes. A la n de la saison grippale, on dnombre cinquante personnes qui ont t atteintes par la grippe parmi les vaccins. Ce rsultat permet-il d'apprcier l'ecacit du vaccin ?

H0 H1 (z 5.04)

: p = 0.3 : p < 0.3

16

TEST SUR LES POURCENTAGES

7.3 Test d'homognit


Soit

une variable qualitative prenant deux modalits (succs

X = 1,

chec

X = 0)

observe sur deux

populations et deux chantillons indpendants extraits de ces deux populations. On observe une frquence

f1

dans la population 1 de taille

n1

et

f2

dans la population 2 de taille

n2 .

On fait l'hypothse que les deux chantillons proviennent de deux populations dans lesquelles les probabilits de succs sont identiques.

H0 H1

: p1 = p2 : p1 = p2 F1
suit la loi binomiale

La distribution d'chantillonnage de la frquence de succs dans la population 1,

B (p1 ;

p1 q1 /n1 )

et de mme

F2

suit la loi binomiale

B (p2 ;

p2 q2 /n2 ).

Comme

F1

et

F2

sont deux

variables alatoires indpendantes, on a

= E (F1 ) E (F2 ) = p1 p2 p1 q1 p2 q2 V (F1 F2 ) = V (F1 ) + V (F2 ) = + n1 n2


Dans les conditions d'approximation de alatoire

E (F1 F2 )

par

N (n1 p1 , n1 q1 , n2 p2 , n2 q2 > 5
p1 q 1 n1

et

n1 , n2 > 30),

la variable

F1 F2

suit la loi normale

N p1 p2 ; Z=

p2 q2 n2

et ainsi la variable normale centre rduite

(F1 F2 ) (p1 p2 )
p1 q1 n1

p2 q 2 n2

devient sous

H0 , Z= F1 F2 pq
1 n1

.
1 n2

La valeur

p, probabilit du succs commune aux deux populations n'est en ralit pas connue. On l'estime n 1 f1 + n 2 f2 n1 + n2

partir des rsultats observs sur les deux chantillons :

p =
o 2. Une valeur observe

f1

et

f2

reprsentent les frquences observes respectivement pour l'chantillon 1 et pour l'chantillon

de la variable alatoire

est calcule de la faon suivante :

z=

f1 f2 p q
1 n1

1 n2

avec

q = 1p . z
lue sur la table de la loi normale centre rduite

Cette valeur sera compare avec la valeur seuil pour un risque d'erreur Dcision :  si

N (0; 1)

x.

z ] z/2 ; z/2 [, l'hypothse H0

est accepte : les deux chantillons sont extraits de deux populations

ayant mme probabilit de succs

p.

Cours Statistique / Pierre DUSART

17
z ] z/2 ; z/2 [)
l'hypothse

 si

z > z/2

ou

z < z/2 p1
et

(ou encore

H0

est rejete au risque d'erreur

: les deux chantillons sont extraits de deux populations ayant des probabilits de succs direntes

respectivement

p2 . p1 = p2 )
: on calcule de la mme

Remarque : on peut aussi tester un seul ct de l'ingalit (H0 restant faon

z=

f1 f2 p q
1 n1

1 n2

puis on dcide et conclut selon le cas  Si l'hypothse alternative est  Si l'hypothse alternative est tique. groupe 1 Nbre d'heures en TD Nbre d'tudiants Nbre d'tudiants ayant russi l'examen Qu'en concluez-vous ? On choisit un test unilatral car on suppose que la russite est meilleure avec plus d'heures de TD. Ainsi on teste l'hypothse : Calculs : 18 h 180 126 groupe 2 30 h 150 129

H1 : p1 > p2 H1 : p1 < p2

(cas unilatral) : rejet de (cas unilatral) : rejet de

H0 H0

au risque au risque

si si

z > z . z < z .

Exemple : on veut tester l'impact de l'assiduit aux travaux dirigs dans la russite l'examen de statis-

H0 : p1 = p2 z=

contre

H1 : p1 < p2 . = 3, 45
1 n2
avec

f1 f2 p q
1 n1

p = 0, 773

Dcision : avec

(il s'agit d'un test unilatral). Comme

= 0, 05, la valeur thorique, lue dans la table de l'cart centr rduit, vaut z = 1, 64 z < z , H0 est rejete au risque d'erreur 0,05. H0 .
La correspond une probabilit critique

On peut regarder le risque critique, c'est--dire le risque minimal qu'il faut prendre pour rejeter valeur

z = 3, 45

0, 001 (p-value). H0
alors qu'elle est vraie, est trs

Comme

< 0, 001,

le risque d'erreur de type I, c'est--dire de rejeter

faible. On peut donc rejeter l'hypothse

H0

avec un risque pratiquement nul de se tromper.

Comme espr, le taux de russite est signicativement plus grand lorsque l'assiduit aux TD est plus lev.

8 Test sur les moyennes


8.1 Test de conformit
On se donne un chantillon de l'hypothse nulle

observations extrait d'une population gaussienne de moyenne

On

souhaite tester cette moyenne vis--vis de la valeur

0 .

Le test de conformit d'une moyenne relatif

H0 : = 0
sera ralis en utilisant la moyenne

et l'cart-type estim

s.

On a

T =

X 0 S/ n

suit une loi de Student

=n1

degrs de libert.

18
On calcule donc la valeur

TEST SUR LES MOYENNES

t=
Dcision :  Si l'hypothse alternative est avec

x 0 . s/ n H0
au risque

H1 : = 0

(cas bilatral) : rejet de

si

t ] t/2 ; t/2 [
si

=n1

degrs de libert.

 Si l'hypothse alternative est

H1 : > 0 H1 : < 0

(cas unilatral) : rejet de (cas unilatral) : rejet de

H0

au risque

t > t

avec avec

=n1 =n1

degrs de libert.

 Si l'hypothse alternative est degrs de libert.

H0

au risque

si

t < t

Pour la dcision, il y a deux faons de procder :  Soit on dnit un risque a priori : on utilise assez systmatiquement un risque pourrait avoir des consquences juges graves)  Soit on se dcide sur le risque a posteriori : la plupart des logiciels de statistique donne le risque minimal qu'il faut prendre pour rejeter

= 5%

dans beaucoup

de domaines (biologie, mdecine). On l'abaisse si ncessaire aprs (dans le cas o une erreur de type I

H0 .

On note par valeur

(en anglais :

niveau de risque auquel on rejette l'hypothse nulle. En d'autres termes, la valeur d'obtenir un faux ngatif. Par exemple dans le cas d'un test bilatral,

p-value), le plus petit p est la probabilit

de commettre une erreur de premire espce, c'est--dire de rejeter tort l'hypothse nulle et donc

p-value = 2P
La rgle de dcision en sera simplie :

x 0 > tp/2 | H0 : = 0 . s/ n
sera rejete lorsque

H0

p-value < .

Si la variance de la population est connue, l'cart-type estim est remplac par sa vraie valeur et la valeur thorique est lue dans la table de l'cart rduit au lieu de la table de Student (cela correspond un degr de libert inni). Dans ce cas,

Z=
On comparera Dcision :  Si l'hypothse alternative est  Si l'hypothse alternative est  Si l'hypothse alternative est Dans le dernier cas, la valeur

X 0 / n

suit la loi normale centre rduite.

z=

x 0 une valeur lue dans la table de l'cart rduit. / n

H1 : = 0 H1 : > 0 H1 : < 0
sera

(cas bilatral) : rejet de (cas unilatral) : rejet

(cas unilatral) : rejet de

H0 au risque si z ] z/2 ; z/2 [. H0 au risque si . de H0 au risque si .

p-value = P
Exemple :

x 0 < tp | H0 : = 0 / n

Une compagnie de vente de licences de nouveaux logiciels e-commerce fait la publicit que les entreprises utilisant ce logiciel peuvent obtenir, en moyenne pendant la premire anne, un rendement de 10% sur leurs investissements initiaux. Les rendements achs pour un chantillon alatoire de 10 de ces franchises pour la premire anne de fonctionnement sont les suivants :

6, 1
la compagnie. (n accepte

9, 2

11, 5

8, 6

12, 1

3, 9

8, 4

10, 1

9, 4

8, 9

En supposant que les rendements de la population sont normalement distribus, tester l'armation de

H0

au risque

= 10, x = 8.82, s = 2.4, t = 1.55, p-value = 5% car p-value .

= LOI.STUDENT(1.55 ; 9 ;2)=0.1546). On

Cours Statistique / Pierre DUSART

19

8.2 Test d'homognit : populations indpendantes


On s'intresse la dirence entre les moyennes chantillons indpendants. On suppose que les deux chantillons, respectivement de gaussiennes qui ont une variance (inconnue) commune

et

au sein de deux populations au travers de deux

galit de variance si elle ne peut tre suppose.


(1 2 )
et de variance

n1 et n2 observations, sont extraits de populations 2 2 = 2 . On testera cette 2 c'est--dire 1 = 2 X


et

On considre la variable qui suit les dirences entre

Y.

Elle suit une loi normale de moyenne

V (X Y ) = V (X ) + V (Y ) =
Ainsi

2 1 2 2 2 + 2 = + . n1 n2 n1 n2

Z=

(X Y ) (1 2 )
2 n1

2 n2

suit la loi normale centre rduite.

Lorsque la variance commune est inconnue, on l'estime par

s 2 =
Le test d'hypothse utilisera alors une loi

2 (n1 1)s2 1 + (n2 1)s2 . n1 + n2 2

de Student :

T =

(X1 X2 ) (1 2 ) s
1 n1

1 n2

suit une loi de Student

= n1 + n2 2

degrs de libert.

L'hypothse nulle (l'hypothse tester) et l'alternative sont les suivantes :

H0 : 1 = 2
La statistique

ou

1 2 = 0

est la suivante :

t=

(x1 x2 ) s
1 n1

1 n2

Dcision :

H1 : 1 = 2 (cas bilatral) : rejet de H0 au risque si t ] t/2 ; t/2 [ = n1 + n2 2 degrs de libert.  Si l'hypothse alternative est H1 : 1 > 2 (cas unilatral) : rejet de H0 au risque si .  Si l'hypothse alternative est H1 : 1 < 2 (cas unilatral) : rejet de H0 au risque si . Dans le cas o les variances sont inconnues mais supposes direntes, le test reste le t de Student avec
 Si l'hypothse alternative est o

t/2

sera lu avec

un degr de libert gal

=
On comparera

2 s2 1 /n1 + s2 /n2 s2 1 n1 2

2 2

/(n1 1) +

s2 2 n2

. /(n2 1)

t=
au risque libert.

(x1 x2 ) (1 2 )
s2 1 n1

s2 2 n2

avec une valeur

ou

t/2

selon le cas (test unilatral ou bilatral) lue avec

degrs de

20

TEST SUR LES VARIANCES

8.3 Test d'homognit : populations apparies


On observe un chantillon de populations de moyennes

n
et

paires d'observations que l'on notera

(x1 , y1 ), , (xn , yn ),

extraites de

Y .

Soit

D =X Y
et

SD

les variables alatoires respectivement de la moyenne observe et de l'cart-type estim des di-

rences entre les paires des chantillons. On suppose que la distribution des dirences est gaussienne. On se ramne tester une moyenne observe et une moyenne thorique : l'hypothse nulle sera

H0 : X Y = D0
et la variable

D D0 SD / n
On calculera

suit une distribution

de Student

=n1

degrs de libert.

t=
Dcision :  Si l'hypothse alternative est

d D0 . sD / n
(cas bilatral) : rejet de

H1 : X Y = D0 H1 : X Y > D0 H1 : X Y < D0

H0

au risque

si

si

] t/2 ; t/2 [
avec avec

avec

=n1

degrs de libert. (cas unilatral) : rejet de (cas unilatral) : rejet de

 Si l'hypothse alternative est

H0

au risque

t > t

=n1 =n1

degrs de libert.

 Si l'hypothse alternative est

H0

au risque

si

t < t

degrs de libert.

9 Test sur les variances


9.1 Test de conformit
Il s'agit d'une comparaison d'une variance exprimentale et d'une variance thorique, ou encore de l'tude de l'inuence d'un facteur

sur une population

et sur un chantillon.

Dans la population, on connat la variance Soit un chantillon mentales. Hypothse nulle : population) Hypothse alternative

2 0

des valeurs.

de taille

n.

On calcule dans cet chantillon, la moyenne

et la variance

s2

expri-

2 H0 : 2 = 0

(la variance exprimentale de l'chantillon est conforme celle de la

2 H1 : 2 = 0 2 2 H1 : > 0 2 H1 : 2 < 0

(test bilatral) (test unilatral) (test unilatral)

Sous l'hypothse que la distribution des donnes dans la population est normale, la variable alatoire

Y2 =
suit une loi du

n1 2 2 S 0

=n1

degrs de libert.

Cours Statistique / Pierre DUSART

21
2

On calcule de libert. Dcision

y2 =

n1 2 2 s et on compare cette valeur une valeur lue dans la table du

= n 1 degrs

Dans le cas d'un test bilatral, Si n 30 (la table ne contient pas des degrs de libert suprieurs 30), on P (2 < a) = /2 (ou P (2 a) = 1 /2 et b tel que P (2 b) = /2. Ainsi cherche

tel que

Figure 8  Loi 2 : Zones de rejet de l'hypothse nulle


 Si

y 2 ]a; b[,

on rejette

H0

(la variance exprimentale n'est pas conforme la variance thorique :

la variance exprimentale est dirente de celle de la population).  Sinon Si

H0 n'est pas rejete. Rien ne permet de dire que la variance exprimentale n'est pas conforme

n > 30, la variable alatoire Z = 22 2 1 suit peu prs une loi normale centre rduite. On rejettera H0 lorsque z = 2y 2 2n 3 ] z/2 , z/2 [. 2 2 Si H1 : > 0 , on cherche b tel que P (2 b) = . Si y 2 > b, on rejette H0 : la variance exprimentale
est suprieure celle de la population.

la variance de la population.

Si

2 2 2 H1 : 2 < 0 , on cherche a tel que P ( a) = . Si y < a, on rejette H0 : la variance exprimentale

est infrieure celle de la population. Exemple : Une socit produit des dispositifs lectriques grs par un contrle thermostatique. L'carttype de la temprature laquelle ces contrles fonctionnent ne devrait en ralit pas excder 2.0 degrs. Pour un chantillon alatoire de 20 de ces commandes, l'cart-type d'un chantillon alatoire de tempratures d'exploitation tait 2.36 degrs. Eectuer un test au seuil de 5 % de l'hypothse nulle selon laquelle l'cart-type de population est 2.0 contre l'alternative selon laquelle cet cart est en ralit plus grand (Vous noncerez et supposerez les hypothses ncessaires au test) (c

= 26.45, 2 = 30.14 ;

on ne peut pas rejeter

H0 )

9.2 Test d'homognt


Ce test est ncessaire pour valider l'hypothse d'galit des variances du paragraphe 8.2. On souhaite comparer les variances de deux populations

P1

et

P2 .

On dispose de deux chantillons. Soit

s2 1 s2 1

la variance d'un chantillon alatoire de

n1

observations extrait d'une population gaussienne

P1

de

variance

2 . 1

On dispose indpendamment d'un deuxime chantillon alatoire de taille

n2

et de variance

extrait d'une population gaussienne

P2

de variance

2 2 .

Alors la variable alatoire

F =
suit une distribution du

2 2 S1 /1 2 2 S2 /2

F,

construite comme le rapport de deux variables alatoires suivant chacune une loi

2 ,

avec un degr de libert au dnominateur gal

gal Soit

(n2 1).

On notera

F1 ,2

avec

1 = n1 1

et

(n1 1) et 2 = n2 1.

un degr de libert au dnominateur

H0

l'hypothse nulle

2 2 1 = 2 . Sous H0

(lorsque les variances des populations sont gales), la variable

22
alatoire devient

10

TESTS NON PARAMTRIQUES

F =
Ainsi, on calcule le rapport

2 S1 2. S2

f=

s2 1 . s2 2

Dans les applications pratiques, pour comparer correctement avec les valeurs thoriques limites de la table

F,

on s'arrange pour que ce rapport soit suprieur 1 en changeant le rle des deux chantillons

si ncessaire. Dcision

2 2 H1 : 1 > 2 , on cherche f tel que P (F(n1 1,n2 1) f ) = . Si f > f , on rejette H0 . 2 2 Si H1 : 1 = 2 , on cherche f/2 tel que P (F(n1 1,n2 1) f/2 ) = /2. Si f > f/2 , on rejette H0 (la rgle semble tre une rgle pour un test unilatral mais il s'agit bien d'un test bilatral au risque , le complmentaire tant test avec la rgle du rapport f > 1).
Si

Exemple : On suppose que le total des ventes d'une socit devrait varier plus dans une industrie o la concurrence des prix est active que dans un duopole avec la collusion tacite. Dans une tude de l'industrie de production de marchandises, il a t constat que, sur une priode de quatre ans de concurrence active des prix, la variance du total des ventes d'une compagnie tait de 114,09. Au cours des sept annes suivantes, dans laquelle on peut supposer collusion tacite, la variance tait de 16,08. Supposons que les donnes peuvent tre considres comme un chantillon alatoire indpendant de deux distributions normales. Tester au seuil de 5 %, l'hypothse nulle selon laquelle les deux variances de population sont gales contre l'hypothse alternative que la variance du total des ventes est plus leve dans les annes de concurrence active des prix. (f

= 7.095 ; f = 4.76 (1 = 3, 2 = 6)

=INVERSE.LOI.F(0,05 ;3 ;6) ;

H0

rejete)

10 Tests non paramtriques


Contrairement aux tests paramtriques qui ncessitent que les donnes soient issues d'une distribution paramtre, les tests non paramtriques ne font aucune hypothse sur la distribution sous-jacente des donnes. On les qualie souvent de tests distribution free. L'tape pralable consistant estimer les paramtres des distributions avant de procder au test d'hypothse proprement dit n'est plus ncessaire (test de conformit en loi). En contrepartie, ils sont moins puissants que les tests paramtriques lorsque les hypothses sur les donnes peuvent tre valides. Lorsque les donnes sont quantitatives, les tests non paramtriques transforment les valeurs en rangs. L'appellation tests de rangs est souvent rencontre. Lorsque les donnes sont qualitatives, seuls les tests non paramtriques sont utilisables.

10.1 Test de Mann-Whitney


Le test de Mann-Whitney est un test non paramtrique qui permet de tester si deux chantillons issus de populations indpendantes ont mme moyenne. Les valeurs doivent tre numriques (i.e. pouvoir tre ordonnes). Il ne ncessite pas de connatre les valeurs des chantillons mais leurs rangs. On suppose donc toujours que l'on dispose de deux chantillons ordinales indpendantes, de lois respectives aux fonctions de distribution

x1 , . . . , xn et y1 , . . . , ym issus de variables numriques ou LX et LY . On teste H0 : LX = LY ou encore par rapport

H0 : FX = FY .

Cours Statistique / Pierre DUSART

23
Xi < Yj . L'alternance des Xi et si les Yj sont plutt plus grands

Le test de Mann-Whitney compte le nombre de couples pour lesquels des

Yj

devrait tre assez rgulire sous

H0 .

On aura des doutes sur

H0

que les

Xi ,

ou plus petits ou plus frquents dans une certaine plage de valeurs.

Statistique du test de Mann-Whitney :

Un,m =
i=1 j =1
o

1{x<y} (Xi , Yj ),
et 0 sinon.

1{x<y} (Xi , Yj )

vaut 1 si

Xi < Yj , Yj xi

0.5 si

Xi = Yj

C'est le nombre de termes

suprieurs la mdiane de

X Y. yj
du deuxime chan-

On comptera, pour chaque valeur tillon telles que

du premier chantillon, le nombre de valeurs

yj xi

(On comptera 0.5 pour chaque

yj

est gal

xi ).

On notera

U1

cette valeur

obtenue partir du premier chantillon et

U2

la valeur trouve en changeant les rles des chantillons.

Seule la plus petite des deux valeurs trouves sera compare aux tables. On peut galement calculer cette statistique en considrant la somme nancement des observations de la premire population. On a alors

R1

de tous les rangs aprs ordon-

U1 = R1
On aura de mme,

n1 (n1 + 1) . 2 n2 (n2 + 1) 2
, on trouve que

U2 = R2
o

R2

est la somme des rangs du deuxime chantillon.

En sachant que

R1 + R2 = N (N + 1)/2

avec

N = n1 + n2

U1 + U2 = n1 n2 .
Cela permet de vrier le calcul des valeurs

U1 , U2

ou de calculer l'une partir de l'autre.

Rgle de dcision : dans le cas d'un test bilatral, on prend avec

u = min(u1 , u2 ).

On rejette

H0

si

u [0, m ]

donn par la table de Mann et Whitney.

En supposant l'hypothse nulle que les positions centrales des deux populations sont les mmes, la variable

de Mann-Whitney vrie

E (U ) =

n1 n2 2

Var(U )

n1 n2 (n1 + n2 + 1) . 12

Ainsi pour des chantillons de grande taille, la distribution de la variable alatoire

Z=

n1 n2 2

n1 n2 (n1 +n2 +1) 12


est approximativement la loi normale centre rduite. Remarques : Le test de Mann-Whitney a donc le mme objectif qu'un autre test d'identit important, le "Test du Chi-2 d'identit", dans sa version pour variable numrique. Si les populations sont supposes normales et de mme variance, le test

aura la prfrence.

Le test de Kruskal-Wallis peut tre peru comme une extension du test de Mann-Whitney plus de deux chantillons (de mme que ANOVA univarie est une extension du test t plus de deux chantillons). Exemple : La taille des feuilles de ronces ont t mesures pour voir si il y a une dirence entre la taille des feuilles qui poussent en plein soleil et celles qui poussent l'ombre. Les rsultats sont les suivants (Largeur des feuilles en cm)

24
Soleil Ombre Valeurs ordonnes 6.0 6.5 4.8 5.5 5.1 6.3 5.5 7.2 4.1 6.8

10

TESTS NON PARAMTRIQUES

5.3 5.5

4.5 5.9

5.1 5.5

E1 E2 rang rang moyen

4.1 1 1

4.5 2 2

4.8 3 3

5.1 4 4.5

5.1 5 4.5

5.3 5.5 6 6 7 8.5

5.5 5.5 8 8.5 9 8.5 5.5 10 8.5 5.9 11 11

6.0 6.3 12 12 13 13 6.5 14 14 6.8 15 15 7 16 16

U1 U2 R1 R2

= = = =

8 + 8 + 8 + 8 + 8 + 8 + 6.5 + 4 = 58.5 1.5 + 1.5 + 1.5 + 1 + 0 + 0 + 0 + 0 = 5.5 1 + 2 + 3 + 4.5 + 4.5 + 6 + 8.5 + 12 = 41.5 8.5 + 8.5 + 8.5 + 11 + 13 + 14 + 15 + 16 = 94.5 U = min(U1 , U2 ) = 5.5. = 8, n2 = 8),
pour obtenir une valeur

Dans tous les cas, on obtient la valeur

Ensuite on utilise la table de Mann-Whitney au risque de 5% (n1

m = 13.
On rejettera l'hypothse nulle si U est infrieure la valeur on rejette

m . Dans le cas de l'exemple, comme U < m , H0 . La dirence entre la taille des feuilles l'ombre et au soleil est donc signicative au risque

= 5%.

10.2 Test de Wilcoxon (

Wilcoxon signed rank test )


n
dirences non nulles (on enlve les lments

Le test de Wilcoxon est un test non paramtrique qui permet de tester si deux populations apparies ont mme moyenne en se basant sur deux chantillons. Sur les

N di

paires observes, il reste qu'un chantillon de

de dirence nulle) Soient (pour

i=1

n)

les dirences entre chaque paire d'observations. Nous classons les rangs des

valeurs absolues de ces dirences. La statistique de Wilcoxon tient compte uniquement des rangs des observations. La statistique de rangs signs de Wilcoxon s'crit :

W = min(
di >0
Rgle de dcision : On ne peut rejeter tables ne donnent que

ri ,
di <0

ri ).

W/2

: on rejette

H0 si W ]W/2 , W1/2 [ avec W1/2 = n(n + 1)/2 W/2 . H0 lorsque W < W/2 dans le cas bilatral. n

Les

Dans le cas des  grands  chantillons, lorsque

est suprieur 25, il peut tre dmontr que la somme

des rangs est pratiquement normale ; on utilise alors l'approximation normale

Z=

n(n+1) 4

N (0, 1).

n(n+1)(2n+1) 24
Remarque : Il existe d'autres tests. Par exemple, le test des signes n'utilise que l'information sur la direction des dirences entre paires. Si nous pouvons prendre en compte, en plus, la grandeur des

Cours Statistique / Pierre DUSART

25

dirences, un test plus puissant peut tre utilis : le test de Wilcoxon donne plus de poids une paire qui montre une large dirence entre les deux conditions, qu' une paire ayant une faible dirence. Cela implique que l'on puisse dire quel membre d'une paire est plus grand que l'autre (donner le signe de la dirence), mais aussi que l'on puisse ranger les dirences en ordre croissant. Exemple : Un chantillon alatoire de dix tudiants est consult pour noter, dans un test l'aveugle, la qualit de deux types de bire, l'une locale, l'autre importe. Les notes sont sur une chelle de 1 (pas bon) 10 (excellent). Utiliser le test de Wilcoxon pour tester l'hypothse nulle la distribution des dirences entre paires est centre sur zro contre l'hypothse alternative "`La population des tudiants buveurs de bires prfre la catgorie d'importation. Etudiant A B C D E Locale 2 3 7 8 7 Import 6 5 6 8 5 Etudiant F G H I J Locale 4 3 4 5 6 Import 8 9 6 4 9

Dirences : -4 ; -2 ; 1 ; 0 ; 2 ; -4 ; -6 ; -2 ; 1 ; -3 Tri rang rang moyen 0 1 1 1,5 1,5 1 2 1,5 1,5 4 (test unilatral). -2 3 4 2 4 4 4 4 6 7,5 7,5 9 -2 5 4 -3 6 6 -4 7 7,5 -4 8 7,5 -6 9 9 Ainsi

W = min(7, 38) = 7

ri > 0 ri < 0
On a

W0.05 = 8

11 Rgression simple
11.1 Test de corrlation nulle
Soit

le coecient de corrlation de l'chantillon compos de

paires d'observations extrait de popula-

tions gaussiennes. Il s'agit de tester l'hypothse nulle :

H0 : = 0
au risque

(corrlation nulle entre les populations)

On peut montrer sous

H0

que la variable alatoire

T =

=n2

R n2 suit une loi de Student 1R2

degrs de libert.

On calculera donc

puis on cherchera la valeur que

ou

t/2

dans

R n2 t= , 1 r2 la table de loi t

de Student

=n2

degrs de libert tel

P (tn2 > t ) =
et on adoptera la rgle de dcision suivante :  Si l'hypothse alternative est avec

H1 : = 0

(cas bilatral) : rejet de

H0

au risque

si

t ] t/2 ; t/2 [
si

=n2

degrs de libert.

 Si l'hypothse alternative est

H1 : > 0 H1 : < 0

(cas unilatral) : rejet de (cas unilatral) : rejet de

H0

au risque

t > t

avec avec

=n2 =n2

degrs de libert.

 Si l'hypothse alternative est degrs de libert.

H0

au risque

si

t < t

26

12

RGION CRITIQUE, RISQUE

11.2 Corrlation de rang de Spearman


Pour valider l'existence d'un lien entre deux variables, on ralise ordinairement une rgression linaire simple, voire une rgression non linaire. La qualit du lien suppos est mesure par le coecient de corrlation (dit  de Pearson ). Cependant, il existe des situations pour lesquelles une mesure de la corrlation sur les valeurs est inadapte. Si les variables sont ordinales, discrtes, ou si des valeurs extrmes risquent de biaiser les rsultats, ou encore que les valeurs en elles-mmes n'ont que peu d'importance, ou enn qu'elles ne suivent pas une loi normale, il nous reste un joker : les corrlations des rangs. On n'utilise alors pas les VALEURS des observations dans les calculs mais leur RANG. Le rang de chaque lment dans la srie croissante de X et de Y sera calcul. On calcule ensuite le coecient de corrlation cette valeur ainsi : 1. calculer la dirence de classement 2. la valeur

rs

entre la srie des rangs de X et la srie des rangs de

Y.

On peut retrouver

di

pour chaque couple de valeur

(rxi , ryi ).

rs

sera donne par

rs = 1
La variable variance Si

6 n(n2 1)

d2 i.
i=1

Rs sous l'hypothse 1 V (Rs ) = n 1.


alors

d'indpendance des deux variables a pour esprance

E (Rs ) = 0 n 30,

et pour

n > 30

s E (Rs ) Z = R = Rs n 1
V (Rs )

suit la loi normale centre rduite. Si

les valeurs

thoriques sont donnes dans la table du coecient

de Spearman.

Exemple : Placez les enfants dans une classe, par ordre ascendant en fonction de leur taille, en prenant note du rang de chaque enfant (premier, deuxime, troisime, etc.), du plus court au plus grand. Vous les placez ensuite en fonction de leur poids, puis vous prenez note de leur rang. Est-ce que chaque enfant occupe le mme rang, dans chacune des mesures ? Peut-tre que oui, dans l'ensemble, bien qu'un enfant court puisse galement tre au-dessus de son poids ou qu'un enfant grand, tre, lui aussi, en-dessous de son poids, ce qui les classerait dans un rang dirent pour chaque variable. La corrlation des rangs dmontre le degr de correspondance entre le classement hirarchique d'un chantillonnage d'observations sur deux variables. Les formules de Kendall ou Spearman sont les varits communes de ce type de corrlations, car elles donnent toutes les deux une valeur de -1,0 (classement inverse parfait) 0,0 (aucun accord) +1,0 (classement identique des deux variables). On ordonne la taille et le poids sur 10 enfants. On obtient les rsultats suivants : Enfant n Taille Poids On trouve 1 1 5 2 5 3 3 3 9 4 8 10 5 10 2 6 4 1 7 2 6 8 7 8 9 6 7 10 9 4

rs = 0, 07.

On accepte

H0

: indpendance des deux caractres.

12 Rgion critique, risque


Ref : Statistique, exercices corrigs, Tome 3, Christian Labrousse

Soit une variable alatoire probabilit est

dont la loi de probabilit

L(X )

dpend d'un paramtre

La densit de

f (xi , ).

Le paramtre

inconnu peut prendre deux valeurs

et

1 .
Cet chantillon peut

On dispose d'un chantillon de la variable alatoire tre reprsent par un point Les hypothses

de coordonnes

X de taille n (x1 , x2 , , xn ).

x1 , x2 , , xn .

H0

et

H1

peuvent tre caractrises par les fonctions de vraisemblance :

Cours Statistique / Pierre DUSART

27
n

H0 , L0 (M ) = L(x1 , x2 , . . . , xn , 0 ) = i=1 f (xi , 0 ); n  Pour H1 , L1 (M ) = L(x1 , x2 , . . . , xn , 1 ) = i=1 f (xi , 1 ). La rgion critique 0 est dnie par et . Or
 Pour

= P (dcider H1 /H0 = P (dcider H0 /H1

vraie)

= P (M 0 /H0 = P (M 0 /H1

vraie)

=
0

L0 (M )dM ; L1 (M )dM ;
0

vraie)

vraie)

Principe de la mthode de Neyman et Pearson.


On xe le risque de premire espce puissance du test. Or, celle qui minimise le risque de seconde espce

= 0 . Parmi toutes les rgions critiques possibles, on choisit , ou encore qui maximise la quantit 1 = , appele

= =

1 =1
0

L1 (M )dM =
0

L1 (M )dM,

L1 (M ) L0 (M )dM. L0 (M ) 0 .
A chaque point de

Construction pratique de la rgion critique

Rn

est attach l'indicateur

r(M ) =
Pour maximiser

L1 (M ) . L0 (M )

on recherche les points

tels que

r(M ) C,
soit

L1 (M ) L0 (M )

ou encore

L0 ( M ) L1 ( M )

1 C

= k. H0
et

La rgion critique

est dnie, selon un test de Neyman et Pearson, par le rapport des fonctions de

vraisemblance associes aux deux hypothses

H1 .

La constante

k = 1/C

est dtermine par

L0 (M )dM = .
r (M )C
Remarquons que les risques quement.

et

sont antagonistes car plus

est petit, plus

est grand, et rcipro-

Exemple (Dcision par test de Neyman et Pearson) : On se propose de tester la qualit d'un lot important
de pices mcaniques. Soit loi normale de moyenne ces pices, on ignore si

X une caractristique alatoire de ces pices dont la loi de probabilit est une m et d'cart-type = 4. A la suite d'erreurs survenant lors de la fabrication de m gale 20 ou si m gale 22. On doit nanmoins prendre une dcision. Pour cela (x1 , x2 , . . . , xn )
est de taille

on prlve dans un lot un chantillon alatoire de 25 pices. Quelle dcision doit-on prendre ?

Solution.

L'chantillon

n = 25.

Soit

Construisons un test selon la mthode de Neyman et Pearson. Soit

x la moyenne de 0 la rgion critique

cet chantillon. dnie par :

L0 (M ) k, L1 (M )
o

L0 (M )
:

et

L1 (M )

sont les fonctions de vraisemblance, associes respectivement aux hypothses

H0

et

H1

H0 H1

: m = m0 = 20 : m = m1 = 22.

28
La densit de probabilit

12

RGION CRITIQUE, RISQUE

f (x, m)

d'une loi normale, de moyenne

et d'cart-type

est :

f (x, m) =
La fonction de vraisemblance

1 (x m)2 exp 2 2 2

L0 (M )

est :

L0 (M ) = f (x1 , m0 ) f (x2 , m0 ) f (xn , m0 ),


soit

L0 (M ) =
La fonction de vraisemblance

1 2

exp

1 2 2

(xi m0 )2
i=1

L1 (M )

est :

L1 (M ) = f (x1 , m1 ) f (x2 , m1 ) f (xn , m1 ),


soit

L1 (M ) =
Formons le rapport :

1 2

exp

1 2 2

(xi m1 )2
i=1

L0 (M ) 1 = exp 2 L1 (M ) 2
La rgion critique, tant dnie par

(xi m1 )2
i=1 i=1

(xi m0 )2

L0 (M ) k, L1 (M )
l'est encore par

loge
Il vient ici :

L0 (M ) loge k. L1 (M )
n

loge exp
soit

1 2 2

(xi m1 )2
i=1 n i=1

(xi m0 )2

loge k,

(xi m1 )2
i=1
En dveloppant les sommations :

(xi m0 )2 2 loge k.
i=1

2 n(m2 1 m0 ) + 2(nx)(m0 m1 ) 2 loge k,


soit

n(m0 m1 )[2x (m0 + m1 )] 2 loge k.


La quantit

(m0 m1 )

est ngative :

m0 m1 = 20 22 = 2.
Il est alors ncessaire de changer le sens de l'ingalit, en isolant la moyenne

de l'chantillon :

2x (m0 + m1 )

2 2 loge k , n(m0 m1 )

Cours Statistique / Pierre DUSART

29

d'o

x
Dsignons cette dernire quantit par

m0 + m1 2 loge k + . n(m0 m1 ) 2 .
Avec les donnes numriques :

m0 = 20 m1 = 22 = 4 n = 25,
la rgion critique

est dtermine par :

x ,
La quantit

avec

= 21 0.32 loge k.

s'appelle le seuil critique.

La loi de probabilit de la moyenne

de l'chantillon alatoire est une loi normale de moyenne

m0

ou

m1

et d'cart-type

4 4 = = 5 n 25 f ( x)
la densit de probabilit correspondante.

Dsignons par

La rgle de dcision, du test de Neyman et Pearson est :  dcider  dcider Pour que

H0 (m = m0 = 20), si M 0 ; H1 (m = m1 = 22), si M 0 . M appartienne 0 , il faut que

la moyenne

soit suprieure ou gale

x 21 0.32 loge k.
L'erreur de premire espce

est gale la probabilit de dcider H1 , alors que l'hypothse H0 = P ({dcider H1 / H0 = P ({M 0 / H0


vraie});

est vraie :

vraie});

= P ({M 0 / m = m0 = 20}); = P ({x / m = 20}).


4 N (m; 5 ),
faisons le changement de variable

La loi de probabilit de

tant la loi

Z=
soit :

X moyenne
cart-type

Z=
d'o

X m
n

X 20
4 5

=
La variable alatoire

4 z + 20; 5 = 0 = 0.05
:

suit la loi

N (0; 1).

Selon le principe de la mthode de Neyman, xons

= 0, 05 =
z
ou encore

2 1 eU /2 dU, 2

0, 95 =

2 1 eU /2 dU = (z ). 2

30
Dans la table intgrale de la loi

12

RGION CRITIQUE, RISQUE

N (0; 1),

on trouve

(z = 1.65) = 0, 9505.
Il vient alors

z = 1.65.

Nous dterminons le seuil critique


La rgion critique

= =

4 (1.65) + 20, 5 21, 32.

est donc dtermine par :

x = 21, 32.
La rgle de dcision est ainsi :  si  si

x < 21.32, x 21.32,

on dcide on dcide

Calculons la puissance

H0 (m = m0 = 20) ; H1 (m = m1 = 22). du test : = 1 ,

est l'erreur de seconde espce :

2 1 eU /2 dU = ( ). 2

La loi de probabilit correspondante tant

4 N (22; 5 ),

il vient :

z z
d'o la valeur de

= =

22
4 5

21.32 22 , 0.8

0.85,


le risque de seconde espce est :

= =

(0.85) = 1 (0.85) = 1 0.8023, 0.1977 0.20.

La puissance du test est :

0.80.
A titre indicatif, dterminons la constante

= 21 0.32 loge k = 21.32, loge k =


soit

21 21.32 = 1, 0.32

k = e1 = 0.368.
La rgion critique

est ainsi dnie par :

L0 (M ) 0, 368. L1 (M )

Cours Statistique / Pierre DUSART

31

A Table de Mann-Whitney
Rfrence : Table A5.07 : Critical Values for the Wilcoxon/Mann-Whitney Test (U)

n1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

n2

2 0 0 0 0 1 1 1 1 1 2 2 2 2

3 0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8

4 0 1 2 3 4 4 5 6 7 8 9 10 11 11 12 13 14

5 0 1 2 3 5 6 7 8 9 11 12 13 14 15 17 18 19 20

6 1 2 3 5 6 8 10 11 13 14 16 17 19 21 22 24 25 27

7 8 9 10 11 12 0 0 0 0 1 1 2 2 3 3 4 3 4 4 5 6 7 5 6 7 8 9 11 6 8 10 11 13 14 8 10 12 14 16 18 10 13 15 17 19 22 12 15 17 21 23 26 14 17 20 23 26 29 16 19 23 26 30 33 18 22 26 29 33 37 20 24 28 33 37 41 22 26 31 36 40 45 24 29 34 39 44 49 26 31 37 42 47 53 28 34 39 45 51 57 30 36 42 48 55 61 32 38 45 52 58 65 34 41 48 55 62 69 = .05
(Unilatral

13 1 4 8 12 16 20 24 28 33 37 41 45 50 54 59 63 67 72 76

14 1 5 9 13 17 22 26 31 36 40 45 50 55 59 64 67 74 78 83

15 1 5 10 14 19 24 29 34 39 44 49 54 59 64 70 75 80 85 90

16 17 1 2 6 6 11 11 15 17 21 22 26 28 31 34 37 39 42 45 47 51 53 57 59 63 64 67 70 75 75 81 81 87 86 93 92 99 98 105

18 19 20 2 2 2 7 7 8 12 13 13 18 19 20 24 25 27 30 32 34 36 38 41 42 45 48 48 52 55 55 58 62 61 65 69 67 72 76 74 78 83 80 85 90 86 92 98 93 99 105 99 106 112 106 113 119 112 119 127

Bilatral

= .025)

n1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

n2

2 0 0

3 0 0 0 1 1 1 2 2 2 2 3 3

0 0 1 1 2 2 3 3 4 5 5 6 6 7 8

6 7 0 0 0 1 1 1 2 3 1 3 4 2 4 6 3 5 7 4 6 9 5 7 10 6 9 12 7 10 13 7 11 15 8 12 16 9 13 18 10 15 19 11 16 21 12 17 22 13 18 24
Bilatral

8 1 2 4 6 7 9 11 13 15 17 18 20 22 24 26 28 30

9 0 1 3 5 7 9 11 13 16 18 20 22 24 27 29 31 33 36

10 0 2 4 6 9 11 13 16 18 21 24 26 29 31 34 37 39 42

11 0 2 5 7 10 13 16 18 21 24 27 30 33 36 39 42 45 46

12 1 3 6 9 12 15 18 21 24 27 31 34 37 41 44 47 51 54

13 1 3 7 10 13 17 20 24 27 31 34 38 42 45 49 53 56 60

14 1 4 7 11 15 18 22 26 30 34 38 42 46 50 54 58 63 67

15 2 5 8 12 16 20 24 29 33 37 42 46 51 55 60 64 69 73

16 2 5 9 13 18 22 27 31 36 41 45 50 55 60 65 70 74 79

17 2 6 10 15 19 24 29 34 39 44 49 54 60 65 70 75 81 86

18 2 6 11 16 21 26 31 37 42 47 53 58 64 70 75 81 87 92

19 0 3 7 12 17 22 28 33 39 45 51 56 63 69 74 81 87 93 99

20 0 3 8 13 18 24 30 36 42 46 54 60 67 73 79 86 92 99 105

= .01

(Unilatral

= .005)

32

TABLE DE WILCOXON

B Table de Wilcoxon
Critical Values of the Wilcoxon Signed Ranks Test bilatral Test unilatral

n
5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 Ref :

= 0.05
0 2 3 5 8 10 13 17 21 25 29 34 40 46 52 58 65 73 81 89 98 107 116 126 137

= 0.01
0 1 3 5 7 9 12 15 19 23 27 32 37 42 48 54 61 68 75 83 91 100 109

= 0.05
0 2 3 5 8 10 13 17 21 25 30 35 41 47 53 60 67 75 83 91 100 110 119 130 140 151

= 0.01
0 1 3 5 7 9 12 15 19 23 27 32 37 43 49 55 62 69 76 84 92 101 110 120

http://facultyweb.berry.edu/vbissonnette/tables/wilcox_t.pdf http://comp9.psych.cornell.edu/Darlington/wilcoxon/wilcox0.htm

Calcul des valeurs sur :

Cours Statistique / Pierre DUSART

33

C Table du coecient de rang de Spearman


Valeurs critiques pour un test unilatral utilisant

. n 18 19 20 21 22 23 24 25 26 27 28 29 30 40 5% .401 .391 .380 .370 .361 .353 .344 .337 .331 .324 .318 .312 .306 .264 1% .550 .535 .522 .509 .497 .486 .476 .466 .457 .449 .441 .433 .425 .368

n 5% 4 1.000 5 .900 6 .829 7 .714 8 .643 9 .600 10 .564 11 .536 12 .503 13 .484 14 .464 15 .446 16 .429 17 .414

1% 1.000 .943 .893 .833 .783 .745 .709 .678 .648 .626 .604 .582 .566

Les donnes de la table sont les plus petites valeurs de (jusqu' 3 dcimales) qui correspondent une probabilit 5% (ou 1%) sur un seul ct. La valeur observe est signicative si elle est suprieure ou gale la valeur de la table. Le niveau de signication exact ne dpasse jamais la valeur nominale (5% ou 1%). La table peut galement tre utilise pour les valeurs critiques 10% et 2% d'un test bilatral. L'toile indique que la signication associe au risque propos ne peut tre calcule dans ce cas.
Valeurs critiques pour un test bilatral utilisant

. n 18 19 20 21 22 23 24 25 26 27 28 29 30 40 5% .472 .460 .447 .436 .425 .416 .407 .398 .390 .383 .375 .368 .362 .313 1% .600 .584 .570 .556 .544 .532 .521 .511 .501 .492 .483 .475 .467 .405

n 5% 4 5 1.000 6 .886 7 .786 8 .738 9 .700 10 .648 11 .618 12 .587 13 .560 14 .538 15 .521 16 .503 17 .488

1% 1.000 .929 .881 .883 .794 .755 .727 .703 .679 .654 .635 .618

Les donnes de la table sont les plus petites valeurs de (jusqu' 3 dcimales) qui correspondent une probabilit 5% (ou 1%) sur les deux cts. La valeur observe est signicative si elle est suprieure ou gale la valeur de la

table. Le niveau de signication exact ne dpasse jamais la valeur nominale (5% ou 1%). La table peut galement tre utilise pour les valeurs critiques 2.5% et 0.5% d'un test unilatral. L'toile indique que la signication associe au risque propos ne peut tre calcule dans ce cas.
Ref : http://www.answers.com/topic/critical-values-for-spearman-s-rank-correlation-coefficient

34

TABLE DES MATIRES

Table des matires


1 Introduction
1.1 1.2 Fonction de rpartition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Grandeurs observes sur les chantillons . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1
1 2

2 Lois usuelles
2.1 2.2 2.3 Loi normale ou loi de Gauss . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Loi du

2
2 3 3 (khi-deux) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Autres lois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3 Intervalles de conance
3.1 3.2 3.3 3.4 Ingalit de Bienaym-Tchebychev . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Estimation d'une proportion par intervalle de conance

4
4 4 5 6

Moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Variance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4 Notion de test d'hypothse


4.1 4.2 Hypothse nulle, risques de premire et deuxime espce . . . . . . . . . . . . . . . . . . . Mcanique des tests d'hypothse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

6
6 7

5 Test d'indpendance 6 Tests de conformit en loi


6.1 Cas gnral 6.1.1 6.1.2 6.2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Test d'adquation du

8 9
9 9 10 11 11 13

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Test de Kolmogorov-Smirnov

Test de normalit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2.1 6.2.2 Mthodes graphiques : Droite de Henry . . . . . . . . . . . . . . . . . . . . . . . .

Test Jarque-Bera (ou test de Bowman-Shelton) . . . . . . . . . . . . . . . . . . . .

7 Test sur les pourcentages


7.1 7.2 7.3 Relation test et intervalles de conance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Test de conformit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

13
13 13 16

Test d'homognit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

8 Test sur les moyennes


8.1 8.2 8.3 Test de conformit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Test d'homognit : populations indpendantes . . . . . . . . . . . . . . . . . . . . . . . . Test d'homognit : populations apparies . . . . . . . . . . . . . . . . . . . . . . . . . .

17
17 19 20

Cours Statistique / Pierre DUSART

35 20

9 Test sur les variances


9.1 9.2 Test de conformit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Test d'homognt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

20 21

10 Tests non paramtriques


10.1 Test de Mann-Whitney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.2 Test de Wilcoxon (Wilcoxon signed rank test ) . . . . . . . . . . . . . . . . . . . . . . . . .

22
22 24

11 Rgression simple
11.1 Test de corrlation nulle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Corrlation de rang de Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

25
25 26

12 Rgion critique, risque A Table de Mann-Whitney B Table de Wilcoxon C Table du coecient de rang de Spearman

26 31 32 33
Dure : 12h de cours 12 h TD + 6h TP

TP n1 : Tests de normalit TP n2 : Tests moyennes, pourcentages TP n3 : Test non-paramtriques. TP n4 : Sur le risque