Vous êtes sur la page 1sur 7

TEST DE DIXON

RECHERCHE DE VALEURS ABERRANTES


Extrait du rfrentiel du BTSA ANABIOTEC, module M53 :
Objectif 4.5 : Reprer des valeurs aberrantes, test de Dixon.
Recommandation pdagogique : ce test permet dcarter des valeurs
aberrantes. On traitera le cas dune valeur aberrante ou de plusieurs.

Prambule
Quiconque voulant dcouvrir le test de Dixon va vite se trouver confront un obstacle : la
multiplicit des sources, des mthodes, notations et tables.
L'objectif de cet article est de proposer une mthode simple comprendre et utiliser au
niveau BTSA, afin duniformiser les pratiques pdagogiques ce niveau.

Un petit peu dhistoire


En 1951, R. B. DEAN, and W. J. DIXON dans leur article Simplified Statistics for small
Numbers of Observations sintressent ce quils appellent les "extraneous values".
Traduisons "extraneous" : "sans grande porte", "superflu", "tranger". Ces "extraneous
values" sont ce que nous appelons de nos jours les valeurs aberrantes. Quelques annes plus
tard (1969), dans les travaux de Grubbs, nous pouvons trouver une dfinition de cette notion,
"outlier " dans le texte :
Valeur aberrante : observation qui semble dvier de faon marque par rapport lensemble
des autres membres de lchantillon dans lequel elle apparat.

Le contexte
Au cours d'une exprimentation, il peut arriver qu'un des rsultats semble s'carter
notablement des autres. Un graphique peut tre dune grande utilit pour sen apercevoir.
Une attitude classique, que l'on rencontre trop souvent, consiste liminer cette valeur en la
considrant comme aberrante. Une bonne attitude avoir est dessayer de trouver la cause
de l'cart (erreur de lecture, faute de calcul, etc) ; dans ce cas, il est tout fait normal de
l'liminer. En revanche, si aucune cause accidentelle n'a pu tre dtecte, on sabstiendra
d'liminer brutalement la valeur incrimine. Pour cela, il faut avoir recours un test
statistique permettant de justifier l'limination de la valeur aberrante avec un risque de se
tromper choisi au pralable. Le test de Dixon, que nous allons exposer, permet de raliser
cela, sous condition de normalit du caractre.

Principe du test
Notons tout dabord quil peut sappliquer aussi bien pour une srie statistique une variable
(xi) que pour une srie statistique bivarie (xi ; yi).
Dans le premier cas, les valeurs xi tant ranges dans lordre croissant, le test de Dixon va
dtecter la (ou les) valeur(s) aberrante(s), aux extrmits de la distribution.

?
x1

x2

x3 x4 x5

ENFA - Bulletin n 22 du groupe PY-MATH - Juin 2013


Contact : Conf PY-MATH@educagri.fr

xn

57

Si la valeur aberrante suspecte est trs suprieure aux autres ( droite du graphique), les
valeurs peuvent tre alors classes dans lordre dcroissant.
Dans le second cas, les observations sont reprsentes par un nuage de points disperss
autour de la droite de rgression de y en x d'quation y = a x + b (obtenue par la mthode
des moindres carrs), le test est bas sur la distribution des rsidus.

Ces derniers sont nots, pour tout entier i, ei = yi yi, cest--dire ei = yi (a xi + b).
8
7
6
5
4

3
2
1
0
0

I. Cas dune seule valeur aberrante


Les valeurs observes sont classes par ordre croissant et notes x1, x2, ..., xn.
x2

x1

x3 x4 x5

xn

Hypothses
H0 : "La valeur douteuse nest pas une valeur aberrante."
H1 : "La valeur douteuse est une valeur aberrante."

Variable de dcision utilise


Il faut comparer la distance entre la valeur suspecte aberrante et une valeur des plus
proches, avec la distance entre la valeur suspecte aberrante et une des valeurs les plus
loignes de l'chantillon.
Notons R la variable alatoire prenant pour valeur le rapport de ces distances. Sa valeur
observe est donne dans le tableau ci-dessous selon la valeur de n et la position de la
valeur suspecte aberrante :

n 10
n > 10

la valeur suspecte aberrante est x1


x x
Robs = 2 1
xn x1
Robs =

x3 x1
xn 2 x1

la valeur suspecte aberrante est xn


x x
Robs = n n 1
xn x1
Robs =

xn xn 2
xn x3

Remarque
-

58

Plus la valeur observe de R est leve, plus la valeur suspecte est aberrante.
On distingue n 10 et n > 10 pour dtecter les cas o il y a plus d'une valeur
aberrante (voir troisime exemple suivant).
ENFA - Bulletin n 22 du groupe PY-MATH - Juin 2013
Contact : Conf PY-MATH@educagri.fr

Valeur critique
On se fixe un seuil de risque . La valeur critique est note r1 , elle est dfinie par :
P(R r1 ) = 1 et elle est donne par la table en fin d'article.
Exemple dutilisation de la table : n = 8 et = 0,01.
Dans le cas de la recherche dune valeur aberrante, la table de Dixon indique que pour
n = 8 et = 0,01, la valeur critique est r0,99 = 0,59.
Cela signifie que si lon prlve alatoirement un chantillon de taille 8 dans une
population dans laquelle les donnes sont distribues normalement alors la probabilit
que R prenne une valeur infrieure ou gal 0,59 est 0,99.

Rgle de dcision
Si Robs > r1 , on rejette H0, donc la valeur suspecte est aberrante.
Si Robs r1 , on n'est pas en mesure de rejeter H0.

II. Un peu de pratique


Voici trois exemples dapplication.
- Un premier sur une situation classique dans laquelle la valeur la plus leve apparat
aberrante.
- Un second montrant un point aberrant au sein dun nuage.
- Puis un troisime exemple dont le but est de montrer une situation dans laquelle on
justifie la distinction entre n 10 et n > 10 et qui montre quil peut exister deux valeurs
aberrantes (cas trait dans la seconde partie de larticle).

Exemple 1
Dans la fabrication de comprims effervescents, il est prvu que chaque comprim doit
contenir 1 625 mg de bicarbonate de sodium. Afin de contrler la fabrication de ces
mdicaments, on a prlev un chantillon de 10 comprims et on a mesur la quantit de
bicarbonate de sodium en mg pour chacun deux. Les rsultats obtenus sont rsums dans le
tableau suivant:
1 620

1 621

1 623

1 628

1 633

1 635

1 637

1 641

1 643

1 659

On peut demander aux tudiants de raliser un graphique sur un axe gradu pour dtecter
quelle(s) valeur(s) semble(nt) aberrante(s).
On effectue un test de Dixon au seuil de risque 0,05 pour tester si la valeur suprieure 1 659
est aberrante.
On teste les deux hypothses :
H0 : "1 659 nest pas une valeur aberrante."
H1 : "1 659 est une valeur aberrante."
n = 10 donc on utilise la variable alatoire R qui prend comme valeur observe
x x
x x
Robs = n n 1, soit Robs = 10 9 qui est gale 0,410.
xn x1
x10 x1
Daprs la table, la valeur critique est r0,95 = 0,412. Comme 0,41 < 0,412 : on n'est pas en
mesure de rejeter H0. La valeur 1 659 ne peut pas tre considre comme aberrante, au seuil
de 0,05.

ENFA - Bulletin n 22 du groupe PY-MATH - Juin 2013


Contact : Conf PY-MATH@educagri.fr

59

Exemple 2
Lors dun dosage de sodium par photomtrie de flamme, on a procd un talonnage (fond
de flamme 0 et solution concentre 100).
Les mesures figurent dans le tableau suivant :
0
0

Concentration de sodium (en mg/L) : X


Indication du photomtre : Y

5
18

10
34

15
55

20
70

25
70

30
100

La valeur observe pour une concentration de 25 mg/L peut-elle tre considre comme
aberrante ?
Un petit coup dil sur le graphique :
y = 3,1429x + 2,4286
100
90
Indication photomtre

80
70
60
50
40
30
20
10
0
0

10

15

20

25

30

Concentration de sodium (en m g/L)

On dtermine lquation de la droite dajustement de Y en X par la mthode des moindres


carrs : y = 3,1 x + 2,4.
0
0

5
18

10
34

15
55

20
70

25
70

30
100

Estimation : Y

2,4

17,9

33,4

48,9

64,4

79,9

95,4

Rsidus : e

2,4

0,1

0,6

6,1

5,6

9,9

4,6

X
Y

Classons les rsidus par ordre croissant :


i
ei

1
9,9

2
2,4

Valeur observe de R : Robs =

3
0,1

4
0,6

5
4,6

6
5,6

7
6,1

e2 e1
0,75.
e7 e1

Valeur critique au seuil de 0,05 : r0,95 = 0,507.


Dcision : 0,75 > 0,507, on rejette H0 au seuil de 0,05 ce qui justifie que la valeur
suspecte est aberrante.

60

ENFA - Bulletin n 22 du groupe PY-MATH - Juin 2013


Contact : Conf PY-MATH@educagri.fr

Exemple 3
Une entreprise tudie la possibilit de lancer sur le march un yaourt la rhubarbe. Elle
ralise des mesures de pH sur un chantillon de 11 pots. Les mesures observes sont les
suivantes :
5,40

5,70

6,15

6,16

6,18

6,25

6,43

6,45

6,45

6,60

6,75

Existe-il une valeur aberrante ?


Dans un premier temps, nous allons effectuer un test de Dixon au seuil de risque 0,05 sur
la valeur x1 = 5,40 de manire ensuite justifier la distinction qui doit tre faite entre
n 10 et n > 10 pour la valeur observe de R.
Le nombre d'observations est ici 11 qui est suprieur 10, que se passerait-il si on
utilisait la valeur observe du cas n 10 ?
x2 x1
0,222 ( 10 3 prs).
x11 x1
Bien que nous ne disposions pas de la valeur tabule pour n = 11, il semble vident que la
valeur critique r0,95 serait largement suprieure 0,222. Il faudrait donc en conclure que
5,40 nest pas une valeur aberrante.
Cependant, si on limine cette valeur de lchantillon et que lon effectue un test de
Dixon au seuil 0,05 sur la valeur x2 = 5,70 en considrant les 10 valeurs restantes, on
observe alors que 5,70 est une valeur aberrante (Robs
0,429 et r0,95 = 0,412)
Cette situation invite les tudiants sinterroger sur cette anomalie car il parait vident
que si la deuxime valeur est aberrante, la premire lest tout autant. Lerreur de dcision
x x
qui est faite en utilisant 2 1 se justifie par le fait que les deux premires valeurs sont
x11 x1
proches et toutes deux aberrantes.
x3 x1
permet de conclure laberration de la
x10 x1
0,714 et r0,95 = 0,637).
premire valeur (Robs
On vrifie alors que lutilisation de

x3 x1
xn 2 x1
prend en compte la possibilit davoir deux valeurs aberrantes infrieures (x1 et x2).

Pour des chantillons de taille strictement suprieure 10, le calcul de Robs =


Cette situation est plus rare avec des tailles dchantillon faibles (n 10).

III. Cas de deux valeurs aberrantes


Pour appliquer la mthode, il faut dans ce cas que n > 10.
Plusieurs situations sont possibles :
1) Si les rsultats douteux sont x1 et xn, on applique successivement le test de Dixon aux
deux valeurs sparment.
2) Si les deux rsultats douteux sont "du mme ct", on applique le test lavant dernire,
aprs avoir limin provisoirement la dernire (comme dans lexemple 3).
Concrtement, sil sagit de x1 et x2, aprs avoir limin x1, on applique le test x2 en
x x
prenant Robs = 4 2
xn 2 x2

ENFA - Bulletin n 22 du groupe PY-MATH - Juin 2013


Contact : Conf PY-MATH@educagri.fr

61

Sil sagit de xn 1 et xn, aprs avoir limin xn, on applique le test xn 1en prenant
x x
Robs = n 1 n 3.
xn 1 x4
Si le test conduit considrer x2 (respectivement xn 1) comme aberrantes, alors x1
(respectivement xn) lest aussi. Sinon on lui applique le test son tour.

Complment : Test de Grubbs (hors programme)


Cest un test beaucoup plus puissant dans le cas des petits chantillons.
Il permet de rejeter deux valeurs aberrantes dans une srie de mesures, ou encore de rejeter
une ou deux moyennes par rapport la moyenne gnrale.

Il est bas sur le calcul des rsidus normaliss : G =

x x1
x x
ou G = n
.
s
s

Mais ceci est une autre histoire

Une ide, pour finir


On peut proposer ce test dans le cadre de l'objectif 4.1 du module M42 : Explorer et mettre
en uvre les fonctions avances du tableur pour rsoudre un problme, notamment dans le
domaine professionnel de l'option du BTSA.
Cette sance de TD pourrait tre loccasion d'utiliser les fonctions RECHERCHEV(),
NBVAL et SI, ainsi que des commandes de tri.
En guise dexemple, vous pouvez trouver le fichier nous ayant permis de faire les calculs
dans cet article, ladresse suivante : http://www.enfa.fr/r2math

Bibliographie
Article de Dean et Dixon :
http://depa.pquim.unam.mx/amyd/archivero/ac1951_23_636_13353.pdf

62

ENFA - Bulletin n 22 du groupe PY-MATH - Juin 2013


Contact : Conf PY-MATH@educagri.fr

Table de la loi de Dixon


Valeur de r1

n
3
4
5
6
7
8
9
10

0,01

0,05

0,988
0,889
0,780
0,698
0,637
0,590
0,555
0,527

0,941
0,765
0,642
0,560
0,507
0,468
0,437
0,412

11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30

0,745
0,704
0,670
0,641
0,616
0,595
0,577
0,561
0,547
0,535
0,524
0,514
0,505
0,497
0,489
0,486
0,475
0,469
0,463
0,457

0,637
0,600
0,570
0,546
0,525
0,507
0,490
0,475
0,462
0,450
0,440
0,430
0,421
0,413
0,406
0,399
0,393
0,387
0,381
0,376

ENFA - Bulletin n 22 du groupe PY-MATH - Juin 2013


Contact : Conf PY-MATH@educagri.fr

63