Vous êtes sur la page 1sur 8

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE

U.F.R. SEGMI Année universitaire 2014 – 2015


L2 Économie Cours de B. Desgraupes

Méthodes Statistiques

Séance 11: Tests d’adéquation II

Table des matières


1 Test de Kolmogorov-Smirnov 1
1.1 Fonction de répartition empirique . . . . . . . . . . . . . . . . . . 1
1.2 Procédure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Exemples 5

3 Table de Kolmogorov-Smirnov 7

1 Test de Kolmogorov-Smirnov
Le test de Kolmogorov-Smirnov est un test d’ajustement. La différence avec le
test du χ2 est qu’il est fondé sur les fonctions de répartition plutôt que sur les
densités.

L’hypothèse nulle est:


H0 : la loi P a la même fonction de répartition F qu’une loi continue
donnée.

L’idée est que, si l’hypothèse nulle H0 est vraie, la fonction de répartition


empirique Fb de l’échantillon doit être “proche” (en un sens qui va être précisé)
de F .

1.1 Fonction de répartition empirique


On cherche à obtenir une estimation de la fonction de répartition à partir de
l’échantillon observé afin de la comparer ensuite à la fonction de répartition de
la loi théorique.

1
Pour cela, on commence par trier par ordre croissant les valeurs Xi de
l’échantillon. On les appelle traditionnellement des statistiques d’ordre.
La fonction de répartition empirique est définie par:

0 pour x < X1





Fb(x) = i
pour Xi ≤ x < Xi+1


 n

1 pour x ≥ Xn

On estime donc F (x) = P (X ≤ x) au moyen de la proportion Fb(x) d’éléments


de l’échantillon qui sont inférieurs ou égaux à x.
Exemple
Considérons la séquence de nombres suivante :
0.06 0.11 0.29 0.63 0.94 1.15 1.69 2.66 3.45

On peut la visualiser comme ceci :

0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5

2
Fonction de répartition empirique

1.0
0.8
0.6
0.4
0.2
0.0

|| | | | | | | |

0 1 2 3 4

Il faut donner maintenant un sens à la “distance” entre la fonction de répar-


tition empirique et la fonction de répartition de la loi théorique.
On mesure l’adéquation de la fonction Fb à la fonction F au moyen d’une dis-
tance particulière dite de Kolmogorov-Smirnov, qui est la distance de la norme
uniforme entre fonctions de répartition. Graphiquement, c’est le plus grand
écart vertical en valeur absolue entre la valeur empirique et la valeur théorique.
Pour obtenir cette distance, on calcule la différence entre Fb et F aux points
Xi et on cherche le maximum selon la formule:
n i i − 1 o
DKS (F, Fb) = max F (Xi ) − , F (Xi ) −

n n

i=1,...,n

Sur le graphique suivant, la courbe continue représente une hypothétique


fonction de répartition, croissant de 0 à 1.

3
Distance de Kolmogorov−Smirnov

1.0
0.8
0.6
0.4
0.2

xi
0.0

|| | | | | | | |

0 1 2 3 4

Sous l’hypothèse H0 , la loi de la variable de décision DKS (F, Fb) ne dépend


pas de F . On compare la valeur obtenue à une valeur critique Dα (n) fournie
par les tables de Kolmogorov-Smirnov (voir à la fin de ce document). Le test
est unilatéral.
Si DKS > Dα (n), on rejette l’hypothèse H0 avec un risque α de se tromper.

1.2 Procédure
Voici une description détaillée de la procédure d’exécution du test de Kolmogorov-
Smirnov
1. classer les valeurs observées par ordre croissant ;
i
2. calculer les nombres , c’est-à-dire les valeurs supérieures de la distribu-
n
tion empirique ;
i
3. calculer les valeurs absolues des écarts F (Xi ) − entre F et les valeurs

n
précédentes ;
i−1
4. calculer les nombres , c’est-à-dire les valeurs inférieures de la distri-
n
bution empirique ;
i − 1
5. calculer les valeurs absolues des écarts F (Xi ) − entre F et les

n
valeurs précédentes ;
6. la distance de Kolmogorov-Smirnov est le plus grand de tous ces écarts ;

4
7. on conclut le test en acceptant l’hypothèse H0 si la distance calculée est
inférieure à la valeur critique donnée dans la table et en la rejetant sinon.

2 Exemples

Exercice 1
On a testé un échantillon de 5 appareils et noté leurs durées de vie en heures :

Appareil 1 2 3 4 5
Durée de vie 133 169 8 122 58
On voudrait savoir si la durée de vie suit une loi de probabilité exponentielle.
On dispose de n = 5 observations.
On estime le paramètre λ de la loi exponentielle par la moyenne empirique
X̄ de l’échantillon car X̄ est un estimateur de E(X) = λ1 .

On trouve X̄ = 98 et donc on fera les calculs avec λ = 1/98.

La fonction de répartition de la loi exponentielle est donnée par la formule :

F (x) = 1 − e−λ x

Voici comment il faut disposer les calculs :

i 1 2 3 4 5
Xi 8 58 122 133 169
F (Xi ) 0.078 0.447 0.712 0.743 0.822
i
n 0.2 0.4 0.6 0.8 1.0
i
|F (Xi ) − n| 0.122 0.047 0.112 0.057 0.178
i−1
n 0.0 0.2 0.4 0.6 0.8
i−1
|F (Xi ) − n | 0.078 0.247 0.312 0.143 0.022

La distance de Kolmogorov-Smirnov est le plus grand des écarts en valeur


absolue. On trouve ici DKS = 0.312.

La table de Kolmogorov-Smirnov pour n = 5 au seuil α = 0.05 donne la


valeur critique 0,565.
Puisque 0.312 < 0, 565, on accepte l’hypothèse H0 .
Voici la sortie du logiciel R pour le test précédent :
One-sample Kolmogorov-Smirnov test

5
data: duree
D = 0.312, p-value = 0.6165
alternative hypothesis: two-sided

On retrouve bien la valeur de la distance D = 0.312. La p-valeur 0.6165 est


nettement supérieure à 0.05, donc on accepte effectivement l’hypothèse H0 .

Exercice 2
Un calculateur a simulé un échantillon de n = 10 valeurs distribuées selon
une loi normale. Les valeurs Xi produites sont rangées par ordre croissant :

X 10.8 10.9 11.9 13.5 15.9 16.6 17.4 17.9 18.7 23.0

On va chercher à vérifier si cet échantillon est correct.


a) Donner une estimation de la moyenne et l’écart-type de l’échantillon.
On trouve :
X̄ = 15.66 et s(X) = 3.90
b) Calculer, au moyen d’une table de la loi normale, les valeurs de la fonction
de répartition F pour l’échantillon.

Il faut calculer les quantités F (Xi ) pour la loi normale N (15.66 , 3.90). On
Xi − 15.66
doit donc centrer et réduire les observations en calculant Zi = :
3.90

Zi -1.25 -1.22 -0.96 -0.55 0.06 0.24 0.45 0.57 0.78 1.88
F 0.106 0.111 0.167 0.290 0.525 0.595 0.672 0.717 0.782 0.970

c) Exécuter un test de Kolmogorov-Smirnov au seuil de 5% pour décider si


la distribution de l’échantillon est en adéquation avec la loi normale.
Voici le détail des calculs :

i 1 2 3 4 5 6 7 8 9 10

Xi 10.8 10.9 11.9 13.5 15.9 16.6 17.4 17.9 18.7 23.0

F (Xi ) 0.106 0.111 0.167 0.290 0.525 0.595 0.672 0.717 0.782 0.970
i
n 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
i
|F (Xi ) − n| 0.007 0.089 0.132 0.110 0.025 0.005 0.028 0.083 0.118 0.030
i−1
n 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
i−1
|F (Xi ) − n | 0.107 0.011 0.032 0.010 0.125 0.095 0.072 0.017 0.018 0.070

La distance de Kolmogorov-Smirnov est le plus grand des écarts en valeur


absolue. On trouve ici DKS = 0, 132.

6
La table de Kolmogorov-Smirnov pour n = 10 au seuil α = 0.05 donne la
valeur critique 0,410.
Puisque 0, 132 < 0, 410, on accepte l’hypothèse H0 .
Voici la sortie du logiciel R pour le test précédent :
One-sample Kolmogorov-Smirnov test

data: obs
D = 0.1322, p-value = 0.9851
alternative hypothesis: two-sided

On retrouve bien la valeur de la distance D = 0.1322. La p-valeur 0.6165


est nettement supérieure à 0.05, donc on accepte effectivement l’hypothèse H0 .

3 Table de Kolmogorov-Smirnov
Seuils critiques Dα (n)
n α = 0.20 α = 0.15 α = 0.10 α = 0.05 α = 0.01
1 0.900 0.925 0.950 0.975 0.995
2 0.684 0.726 0.776 0.842 0.929
3 0.565 0.597 0.642 0.708 0.828
4 0.494 0.525 0.564 0.624 0.733
5 0.446 0.474 0.510 0.565 0.669
6 0.410 0.436 0.470 0.521 0.618
7 0.381 0.405 0.438 0.486 0.577
8 0.358 0.381 0.411 0.457 0.543
9 0.339 0.360 0.388 0.432 0.514
10 0.322 0.342 0.368 0.410 0.490
11 0.307 0.326 0.352 0.391 0.468
12 0.295 0.313 0.338 0.375 0.450
13 0.284 0.302 0.325 0.361 0.433
14 0.274 0.292 0.314 0.349 0.418
15 0.266 0.283 0.304 0.338 0.404

7
Seuils critiques Dα (n)
n α = 0.20 α = 0.15 α = 0.10 α = 0.05 α = 0.01
16 0.258 0.274 0.295 0.328 0.392
17 0.250 0.266 0.286 0.318 0.381
18 0.244 0.259 0.278 0.309 0.371
19 0.237 0.252 0.272 0.301 0.363
20 0.231 0.246 0.264 0.294 0.356
25 0.210 0.220 0.240 0.270 0.320
30 0.190 0.200 0.220 0.240 0.290
35 0.180 0.190 0.210 0.230 0.270
√ √ √ √ √
> 35 1.07/ n 1.14/ n 1.22/ n 1.36/ n 1.63/ n

Vous aimerez peut-être aussi