Vous êtes sur la page 1sur 5

7- Tests dajustement, dindpendance et de corrlation - 1

Chapitre 7 : Tests dajustements, dindpendance et de corrlation



7.1 Test dajustement du Khi-deux ..............................................................................................1
7.2 Test dajustement de Kolmogorov-Smirnov..........................................................................2
7.2.1 Test de Kolmogorov-Smirnov pour deux populations....................................................3
7.3 Test dindpendance entre deux variables (test du Khi-deux) ...............................................4
7.4 Test sur le coefficient de corrlation simple entre deux variables quantitatives suivant une
distribution binormale ..................................................................................................................5
7.5 Test sur le coefficient de corrlation de rang (Spearman) entre deux variables quantitatives
......................................................................................................................................................5



Souvent, nous cherchons ajuster une distribution nos donnes. Une fois la distribution connue, il est
possible de calculer toute probabilit dintrt.

7.1 Test dajustement du Khi-deux

Soit H
0
: La population suit la distribution x
H
1
: la population ne suit pas la distribution x

Lide est de dcouper le domaine de la distribution en intervalles. Dans chaque intervalle, on calcule
partir de la loi spcifie sous H
0
la frquence thorique attendue. On compte ensuite combien
dobservations lon retrouve dans chaque intervalle. Il suffit alors de comparer les frquences observes
aux frquences thoriques.

Supposons que lon divise la distribution en k intervalles. Soit un intervalle i donn. La frquence
thorique attendue pour lintervalle i est E
i
=np
i
. La statistique

=
k
i
p k
i
i i
E
E O
Q
1
2
1
2
) (

o p reprsente le nombre de paramtres estims de la loi de distribution teste sous H
0
.

Note : On recommande gnralement de choisir les intervalles de sorte que i E
i
5 .

Note : Pour un mme jeu de donnes, il est courant que plusieurs distributions ne puissent tre rejetes
par ce test.

Exemple : On a 50 donnes dont la rpartition est la suivante :

Intervalle [0, 0,5[ [0,5 1,0[ [1,0 1,5[ [1,5 2,0[ [2,0 2,5[ [2,5 3,0[ [3,0 , [
Nombre observ 2 23 17 4 2 0 2

Les moyenne et cart-type de lchantillon sont : x =1,168 et s=0,591
Les frquences thoriques pour une loi normale de moyenne 1,168 et de variance 0,591
2
sont :

Intervalle <0 [0, 0,5[ [0,5 1,0[ [1,0 1,5[ [1,5 2,0[ [2,0 2,5[ [2,5 3,0[ [3,0 [
Nombre thorique (E
i
) 1,20 5,25 12,94 16,23 10,38 3,38 0,559 0,05
7- Tests dajustement, dindpendance et de corrlation - 2

On regroupe les classes pour avoir E
i
>5

Intervalle - , 0,5[ [0,5 1,0[ [1,0 1,5[ [1,5
Nombre thorique (E
i
) 6,45 12,94 16,23 14,37
Nombre observ (O
i
) 2 23 17 8

On calcule : Q= 13,75 comparer une
2
1 2 4
. Au niveau =5%, on lit 84 , 3
2
05 ,. 1
= . On rejette H
0
: la
distribution suit une loi normale. (Incidemment, les donnes de cet exemple ont t gnres suivant une
loi lognormale de paramtres logarithmiques (0, 0,25)).
7.2 Test dajustement de Kolmogorov-Smirnov

Lide du test est de comparer la fonction de distribution exprimentale la fonction de rpartition
thorique. On mesure la diffrence maximale entre ces deux fonctions (en valeur absolue).

La fonction de rpartition exprimentale sobtient facilement en classant les valeurs par ordre croissant, x
1
,
x
2
,...x
n
, puis en notant :

<
<
=
+
n
i i e
x x
x x x n i
x x
x F
1
/
0
) (
1
1
.

On calcule la diffrence maximale par :
( ) ) ( ) ( max
max
x F x F D
e t
= , le maximum se trouvant ncessairement un des x
i
d la forme en
escalier de la fonction ) (x F
e
. F
t
(x) est la distribution thorique de la distribution entirement spcifie
sous H
0
.

Les valeurs critiques de D
max
ont t tabules par divers auteurs
1
.

n =0.10 =0.05 =0.01
5 0.51 0.56 0.67
10 0.37 0.41 0.49
15 0.30 0.34 0.40
20 0.26 0.29 0.35
25 0.24 0.26 0.32
30 0.22 0.24 0.29
40 0.19 0.21 0.25
n>40
1.22/ n 1.36/ n 1.63/ n

Le test K-S permet de tester nimporte quelle distribution. Il est normalement plus puissant que le test du
Khi-deux (i.e. il permet de rejeter plus facilement H
0
) et il a lavantage de ne pas requrir de sparer
arbitrairement le domaine en intervalles.

Note : Lorsque les paramtres spcifiant la distribution sont estims des mmes donnes que celles
utilises dans le test, il sensuit un ajustement aux donnes que les valeurs critiques devraient
reflter (ces valeurs critiques devraient tre revues la baisse). Des tables rvises existent

1
Lindgren, 1962. Statistical Theory. MacMillan, New York
7- Tests dajustement, dindpendance et de corrlation - 3
pour certaines distributions particulires. Dans la pratique, lorsque n est grand, on peut
utiliser la table prcdente comme test (trs) approximatif (i.e. si on rejette H
0
on aurait rejet
aussi avec la bonne valeur critique; si on ne rejette pas H
0
on ne peut pas conclure).

Exemple : Mmes donnes que prcdemment :
x=0.27 0.68 0.78 0.92 0.96 1.05 1.16 1.26 1.47 1.91
0.45 0.68 0.82 0.92 0.96 1.08 1.18 1.28 1.49 2.02
0.52 0.69 0.84 0.93 0.98 1.09 1.22 1.33 1.56 2.03
0.61 0.69 0.85 0.94 0.99 1.10 1.23 1.34 1.69 3.33
0.65 0.69 0.91 0.96 1.00 1.14 1.25 1.44 1.72 3.37

On obtient :
0 0.5 1 1.5 2 2.5 3 3.5 4
0
0.2
0.4
0.6
0.8
1
D
max
=0.16507
Normale(1.17,0.59
2
)
Exprimentale

Ici n=50, de la table on tire D
table
=1,36/50
0.5
=0,192. D
max
<D
table
ici, on arrive la conclusion contraire
celle obtenue avec le test Khi-deux, i.e. on ne peut pas rejeter lhypothse que la distribution soit
normale
2
. Par contre, Si lon fait le test aprs correction pour lestimation des paramtres de la loi
normale, on rejette H
0
.

7.2.1 Test de Kolmogorov-Smirnov pour deux populations

Si lon a deux chantillons diffrents et que lon veut tester si les deux chantillons peuvent provenir de la
mme population, on peut utiliser le test K-S avec les mmes valeurs critiques que prcdemment. Il suffit
de construire les deux fonctions de distribution exprimentales, de calculer lcart maximal entre les deux
distributions (ncessairement une des valeurs observes) et de comparer lcart la valeur critique
correspondante avec cette fois
2 1
2 1
n n
n n
n
+
= .



2
Si lon adapte les valeurs critiques pour tenir compte que les paramtres de la loi normale ont t estims, on
devrait utiliser la valeur L
table
=0,886/50
0,5
=0,125. Dans ce cas, on rejetterait H
0
. La modification la statistique
calcule dans le cas spcifique de la loi normale a t obtenue par Lilliefors par simulation.
7- Tests dajustement, dindpendance et de corrlation - 4
7.3 Test dindpendance entre deux variables (test du Khi-deux)

Un tableau de contingence est un tableau croisant les valeurs de deux variables (qualitatives ou
quantitatives, discrtes ou continues. Lon note la frquence dobservation des diffrentes valeurs des
deux variables. Pour une variable continue, celle-ci est dcoupe en intervalles. Il sagit en quelque sorte
de la gnralisation deux variables du concept dhistogramme.

Exemple :
Variable 2
Valeur
(ou intervalle)
1
Valeur
(ou intervalle)
2
Valeur
(ou intervalle)
3


Valeur (ou intervalle) 1 n
11
n
12
n
13
n
1.
Variable 1
Valeur (ou intervalle) 2 n
21
n
22
n
23
n
2.
n
.1
n
.2
n
.3
n
..

Sous hypothse dindpendance, la distribution conjointe est simplement le produit des distributions
marginales, i.e.
j i ij
f f f = . Si lon estime f
ij
par n
ij
/n
..
et f
i
par n
i.
/n, on devrait donc avoir
..
. .
n
n n
n
j i
ij
.
Lide est de calculer lcart entre les deux termes, le n
ij
observ (not O
ij
) et le n
ij
prdit ou thorique
(not E
ij
), si cet cart devient trop important, on devra rejeter lhypothse que les variables sont
indpendantes. On calcule :
( ) ( )

= = = =

=
r
i
c
j ij
ij ij
r
i
c
j j i
j i ij
E
E O
n n n
n n n n
Q
1 1
2
1 1 .. . .
2
.. . .
/
/

La statistique Q est distribue approximativement suivant une
2
) 1 )( 1 ( c r
o r et c dsignent le
nombre de valeurs ou intervalles des deux variables.

Note : Comme pour le test dajustement, il faut que la frquence thorique j i E
ij
, 5 pour que le
test soit valide.

Exemple : Une flotte dautobus est quipe de 4 types de pneus (A, B, C ,D). On mesure le kilomtrage
parcouru avant usure du pneu. On construit 3 classes de kilomtrage (en milliers) <20, [20,30],
>30 . On a obtenu les rsultats suivants :

Observ A B C D Total
<20 26 23 15 32 96
[20,30] 118 93 116 121 448
>30 56 84 69 47 256
Total 200 200 200 200 800

Les deux variables sont-elles indpendantes?

On calcule le tableau des frquences thoriques :

Thorique A B C D Total
<20 24 24 24 24 96
[20,30] 112 112 112 112 448
>30 64 64 64 64 256
Total 200 200 200 200 800
7- Tests dajustement, dindpendance et de corrlation - 5

et Q=(26-24)
2
/24+(23-24)
2
/24+....+(69-64)
2
/64+(47-64)
2
/64=22,82.
On compare une 59 , 12
2
05 ,. 6
2
05 ),. 1 3 )( 1 4 (
= =

. Q>12,59, donc on rejette lhypothse que le kilomtrage
obtenu soit indpendant de la marque de pneus.

7.4 Test sur le coefficient de corrlation simple entre deux variables quantitatives suivant
une distribution binormale

Soit lhypothse H
0
: 0 = . Sous cette hypothse, on a :
2 , 1
2
2
~
1
) 2 (

n
F
r
n r

De faon quivalente, on a aussi :
2
2
~
1
2

n
t
r
n r

Cette dernire statistique permettant un test unilatral ou bilatral.

Le test dcoule directement.

Note : Si H
0
est plutt du type
0
= alors il faut recourir un autre test. On utilise alors le fait que :
|
|

\
|

|
|

\
|

+
|

\
|

+
3
1
,
1
1
ln 2 / 1
1
1
ln 2 / 1
0
0
n
N
r
r

pour construire le test.



Exemple : Dix chantillons de sols ont t prlevs pour lesquels on a mesur la porosit (n) et la
conductivit hydraulique (K) en laboratoire. On a obtenu une corrlation de 0,6 entre log(K)
et n. Cette corrlation est-elle significative au niveau 05 , 0 = ?

Ici, on pouvait prvoir que la corrlation serait positive, il semble donc plus indiqu deffectuer un test
unilatral. on calcule 12 , 2
6 , 0 1
8 6 , 0
1
2
2 2
=

r
n r
. Comme t
8,.05
=1,86, on rejette H
0
, i.e. la corrlation
observe est significative.

7.5 Test sur le coefficient de corrlation de rang (Spearman) entre deux variables
quantitatives

Le coefficient de corrlation de rang nest rien dautre que le coefficient de corrlation usuel calcul sur
les rangs plutt que les donnes brutes. Lavantage est que ce coefficient nexige pas une relation linaire
entre les deux variables (il faut nanmoins que les deux variables soient relies de faon monotone). Les
tests prcdents sappliquent ce coefficient pour fournir un test approximatif. Les cas dgalit sont
traits de diffrentes faons dans la littrature, une de celles-ci consistant octroyer le rang moyen aux
valeurs gales.