Vous êtes sur la page 1sur 7

Algorithme des K plus proches voisins pondrs (WKNN)

et
Application en diagnostic

Eve MATHIEU-DUPAS
Responsable Plate-forme bioinformatique & biostatistique
UMR SysDiag, Modlisation et ingnierie des systmes complexes biologiques pour le diagnostique

eve.dupas@sysdiag.cnrs.fr
SysDiag, Unit Mixte de Recherche CNRS-BIO-RAD
1682 Rue de la valsire, CS61003
34184 Montpellier Cedex 4

Rsum : La mthode des k plus proches voisins pondrs est une mthode de classification
supervise offrant des performances trs intressantes dans la recherche de nouveaux biomarqueurs
pour le diagnostic. Nous prsentons le fondement thorique de cette mthode et illustrerons cette
technique dapprentissage statistique au travers du problme diagnostique dune pathologie
complexe.

Summary : The Weighted k-nearest neighbor method is a supervised classification approach which
provides very interesting results in the identification of new biomarkers for the diagnostic research.
The theory is shown and illustrated through a complex pathology.

Mots-cls : Apprentissage statistique. Clasiification supervise. Mthode base de voisinage.
Diagnostic et dcouverte de biomarqueurs.

1- Introduction

Les mthodes dapprentissage statistique et de classification [1] sont dun intrt majeur en
recherche diagnostique, plus prcisment dans lidentification des combinaisons de biomarqueurs
qui constitueront les futurs tests de diagnostic in vitro. La mthode des k plus proches voisins
pondrs [2], figurant parmi les mthodes base de voisinage, offre dans ce contexte des
performances trs intressantes.

2- Mthodologie

2.1- Lalgorithme KNN

Lalgorithme KNN figure parmi les plus simples algorithmes dapprentissage artificiel. Dans un
contexte de classification dune nouvelle observation x, lide fondatrice simple est de faire voter
les plus proches voisins de cette observation. La classe de x est dtermine en fonction de la classe
majoritaire parmi les k plus proches voisins de lobservation x.
La mthode KNN est donc une mthode base de voisinage, non-paramtrique ; Ceci signifiant que
lalgorithme permet de faire une classification sans faire dhypothse sur la fonction y=f(x
1
,x
2
,x
p
)
qui relie la variable dpendante aux variables indpendantes.

Algorithme 1-NN
i
n
r
i
a
-
0
0
4
9
4
8
1
4
,

v
e
r
s
i
o
n

1

-

2
4

J
u
n

2
0
1
0
Manuscrit auteur, publi dans "42mes Journes de Statistique (2010)"
La mthode du plus proche voisin est une mthode non paramtrique o une nouvelle observation
est classe dans la classe dappartenance de lobservation de lchantillon dapprentissage qui lui est
la plus proche, au regard des covariables utilises. La dtermination de leur similarit est base sur
des mesures de distance.
Formellement, soit L lensemble de donnes disposition ou chantillon dapprentissage :

( ) { }
L i i
n i x y L ,..., 1 , , = =

o { } c y
i
,..., 1 dnote la classe de lindividu i et le vecteur ) ,..., (
1
'
ip i
x x =
i
x reprsente les variables
prdictrices de lindividu i. La dtermination du plus proche voisin est base sur un fonction
distance arbitraire d(.,.) .
La distance euclidienne ou dissimilarit entre deux individus caractriss par p covariables est
dfinie par:

( ) ( ) ( )
2 2
2 2
2
1 1 2 1 2 1
) ( ... ) ( ) ( ,..., , , ,..., ,
p p p p
u x u x u x u u u x x x d + + + =

Ainsi, pour une nouvelle observation (y,x) le plus proche voisin (y
(1)
,x
(1)
) dans lchantillon
dapprentissage est dtermin par :

( ) ) , ( min ) , (
i (1)
x x x x d d
i
=

et
) 1 (
y y = , la classe du plus proche voisin, est slectionne pour la prdiction de y. Les notations x
(j)

et y
(j)
reprsentent respectivement le j
me
plus proche voisin de x et sa classe dappartenance.

Parmi les fonctions distance types, la distance euclidienne est dfinie comme suit :
( )
2
1
1
2
) , (

=

=
p
s
js is
x x d
j i
x x
et plus gnralement la distance de Minkowski :
q p
s
q
js is
x x d
1
1
) , (

=

=
j i
x x

La mthode est justifie par loccurrence alatoire de lchantillon dapprentissage. La classe Y
(1)
du
voisin le plus proche x
(1)
dun nouveau cas x est une variable alatoire. Ainsi la probabilit de
classification de x dans la classe y
(1)
est P[Y
(1)
/ x
(1)
]. Pour de grands chantillons dapprentissage, les
individus x et x
(1)
coincident de trs prs, si bien que [ ] [ ] x x
(1)
/ /
) 1 (
y P y P . Ainsi, la nouvelle
observation (individu) x est prdite comme appartenant la vraie classe y avec une probabilit gale
approximativement P[y/x].

Algorithme KNN

Une premire extension de cette ide, qui est largement et communment utilise en pratique, est la
mthode des k plus proches voisins. La plus proche observation nest plus la seule observation
utilise pour la classification. Nous utilisons dsormais les k plus proches observations. Ainsi la
dcision est en faveur de la classe majoritairement reprsente par les k voisins. Soit k
r
le nombre
dobservations issues du groupe des plus proches voisins appartenant la classe r
i
n
r
i
a
-
0
0
4
9
4
8
1
4
,

v
e
r
s
i
o
n

1

-

2
4

J
u
n

2
0
1
0

=
=
c
r
r
k k
1


Ainsi une nouvelle observation est prdite dans la classe l avec :

) ( max
r r
k l =

Ceci vite que la classe prdite ne soit dtermine seulement partir dune seule observation. Le
degr de localit de cette technique est dtermin par le paramtre k : pour k=1, on utilise la
mthode du seul plus proche voisin comme technique locale maximale, pour
l
n k on utilise la
classe majoritaire sur lensemble intgral des observations (ceci impliquant une prdiction constante
pour chaque nouvelle observation classifier).

Quelques rgles sur le choix de k :
Le paramtre k doit tre dtermin par lutilisateur : kN. En classification binaire, il est utile de
choisir k impair pour viter les votes galitaires. Le meilleur choix de k dpend du jeu de donne.En
gnral, les grandes valeurs de k rduisent leffet du bruit sur la classification et donc le risque de
sur-apprentissage, mais rendent les frontires entre classes moins distinctes. Il convient donc de
faire un choix de compromis entre la variabilit associe une faible valeur de k contre un
oversmoothing ou surlissage (i.e gommage des dtails) pour une forte valeur de k. Un bon k peut
tre slectionn par diverses techniques heuristiques, par exemple, de validation-croise. Nous
choisirons la valeur de k qui minime lerreur de classification.


2.2 - Mthode des k plus proches voisins pondrs et classification ordinale

Similarit entre voisins

Cette technique tend la mthode des k plus proches voisins selon deux voies :
1) Tout dabord, un schma de pondration des plus proches voisins est introduit en fonction de
leur similarit avec la nouvelle observation classer
2) Bas sur le fait que le vote des plus proches voisins est quivalent au mode de la distribution
de la classe, la seconde extension utilise la mdiane ou la moyenne de cette distribution, si la
variable cible est relative une chelle ordinale ou de niveau plus lev.
Cette extension est fonde sur lide que les observations de lchantillon dapprentissage, qui sont
particulirement proches de la nouvelle observation (y,x), doivent avoir un poids plus lev dans la
dcision que les voisins qui sont plus loigns du couple (y,x).
Ce nest pas le cas avec la mthode KNN : en effet seuls les k plus proches voisins influencent la
prdiction, mais linfluence est identique pour chacun des voisins, indpendamment de leur degr
de similarit avec (y,x). Pour atteindre ce but, les distances, sur lesquelles la recherche des voisins
est fonde dans une premire tape, sont transformes en mesures de similarit, qui peuvent tre
utilises comme poids.

Standardisation des covariables (afin dhomogniser le calcul des distances)

Dans une premire tape, les k plus proches voisins sont slectionns selon la distance de
Minkowski, en supposant que les deux paramtres k et q aient t fixs par lutilisateur.

Afin de pondrer de faon quitable chacune des covariables pour le calcul des distances, les
valeurs doivent tre standardises. Dans un contexte de ratio ou de diffrence, cet objectif est atteint
i
n
r
i
a
-
0
0
4
9
4
8
1
4
,

v
e
r
s
i
o
n

1

-

2
4

J
u
n

2
0
1
0
en divisant simplement les variables par leur dviation standard.

Systme de pondration pour le voisinage : la fonction Noyau

La transition de distances en poids se fait dans une deuxime tape selon une fonction noyau
arbitraire. Les noyaux sont des fonctions K(.) maximales en d=0 et dcroissantes avec des valeurs de
d grandissantes en valeur absolue. La fonction noyau K(x) est gnralement symtrique et doit tre
telle que

+

=1 ) ( dx x K
Elle doit vrifier les proprits suivantes :

K(d) 0 pour tout d
K(d) atteint son maximum pour d=0
K(d) dcroissante pour d


Suivent des exemples typiques de fonctions noyaux :
Rectangulaire (loi uniforme): ) 1 (
2
1
d I
Triangulaire : ) 1 ( ) 1 ( d I d
Epanechnikov : ) 1 ( ) 1 (
4
3
2
d I d
Bi-poids : ( ) ) 1 ( 1
16
15 2
2
d I d
Tri-poids : ( ) ) 1 ( 1
32
35 3
2
d I d
Cosine ) 1 (
2
cos
4

d I d


)
2
1
exp(
2
1
:
2
d gaussien


Inverse
d
1

sinon 0 , 5 d si
5
5
d
- 1
4
3
:
2
<

ov Epanechnik Barlett




i
n
r
i
a
-
0
0
4
9
4
8
1
4
,

v
e
r
s
i
o
n

1

-

2
4

J
u
n

2
0
1
0

Dans le cas de distances, qui sont dfinies comme fonctions positives, bien sr seul le domaine
positif de K peut tre utilis. En ce sens, le choix du noyau est le troisime paramtre de cette
technique. Mais, le choix de ce noyau (except pour le cas rectangulaire, o tous les poids sont
gaux) ne se rvle pas tre crucial dans lobtention des rsultats.
Le but de la fonction noyau est de pondrer les observations par rapport un point de rfrence de
sorte que plus une observation est proche de la rfrence, plus son poids sera important. On donne
ainsi plus de poids aux observations proches de celle quon cherche estimer quaux autres
observations.

Chaque fonction noyau ncessite soit une largeur de fentre, si les valeurs deviennent nulles partir
dune certaine distance de la valeur maximale, soit un paramtre de dispersion si les valeurs sont
strictement positives pour tout d . Dans la procdure KKNN, les deux sont slectionns
automatiquement en fonction de la distance du premier voisin x
(k+1)
qui nest plus pris en
considration. Ceci est fait implicitement en standardisant tous les autres distances par la distance
du (k+1)
me
voisin :

k i
x x d
x x d
x x D
k
i
i
,..., 1 pour
) , (
) , (
) , (
) 1 (
) (
) (
= =
+


Ces distances standardises prennent ainsi toujours des valeurs dans lintervalle [0,1]. Dans notre
implmentation, nous ajoutons une constante >0 d(x,x
(k+1)
) pour viter des poids de 0 pour
certaines des plus proches voisins.

Rgle de classification dune nouvelle observation
Aprs dtermination des mesures de similarits entre observations, chaque nouveau cas (y,x) est
attribu la classe l de poids maximal, dans son voisinage k voisins :

( ) ( ) ( )

= =

=
k
i
i i r
r y I x x D K l
1
) ( ) (
, max

Les algorithmes KNN et 1-NN peuvent tre vus comme cas particuliers : noyau rectangulaire pour
KNN , et k=1 indpendamment du noyau choisi pour 1-NN

Le principal objectif de cette extension de mthode est dobtenir une mthode qui jusqu un certain
degr est indpendante dun mauvais choix de k gnrant un taux lev derreur de classification. Si
k est choisi trop grand, les poids rduisent linfluence des voisins qui sont trop loigns de la
nouvelle observation.


Les tapes de la classification wkNN

1. Soit L un chantillon dapprentissage constitu des observations x
i
relatives une classe y
i
:
( ) { }
L i
n i y L ,..., 1 , , = =
i
x

Soit x une nouvelle observation, dont la classe y doit tre prdite :

Poids cumul des voisins parmi les kNN qui
appartiennent la classe r
i
n
r
i
a
-
0
0
4
9
4
8
1
4
,

v
e
r
s
i
o
n

1

-

2
4

J
u
n

2
0
1
0
? = y

2. slection des (k+1) plus proches voisins de x selon une fonction distance d( .,.)
pralablement choisie :
d(x,x
i
)

3. Standardisation des k plus petites distances via le (k+1)
me
voisin :

( )
) , (
) , (
,
) (
1) (k
(i)
(i)
x x
x x
x x
+
= =
d
d
D D
i


4. Transformation des distances normalises D
(i)
en poids w
(i)
partir dune fonction noyau
K(.) :

w
(i)
= K(D
(i)
)

5. La classe de x est choisie daprs la majorit pondre des k plus proches voisins :

( )

= =

=
k
i
i i r
r y I w y
1
) ( ) (
max



Evaluation de la mthode : taux derreur ou de mauvaise classification

Lvaluation de la mthode KKNN est base sur le taux derreur de classification :

( )

=
=
n
i
i i
y y I
n
1

1


Nous pourrions montrer que si on disposait dun trs gros volume de donnes dapprentissage et en
utilisant une rgle de classification arbitrairement sophistique, nous ne diminuerions lerreur de
mauvaise classification que dun facteur 2 par rapport une mthode 1-NN

Bayes erreur NN erreur
2
1


Slection chantillons dapprentissage et tests :
Lensemble des donnes est divis alatoirement en deux parties, consistant respectivement en les
2/3 et 1/3 des donnes. Lchantillon dapprentissage est utilis comme un ensemble de prototypes
et les observations de lchantillon test sont prdites. Nous utilisons 50 tirages alatoires
dchantillons dapprentissages et tests et calculons la moyenne des taux derreurs sur ces 50
tirages.

i
n
r
i
a
-
0
0
4
9
4
8
1
4
,

v
e
r
s
i
o
n

1

-

2
4

J
u
n

2
0
1
0
3- Application

La mthode des k plus proches voisins pondrs sera illustre dans le cadre de la recherche de
nouveaux biomarqueurs pour le diagnostic dune pathologie complexe.

Bibliographie

[1] Hastie, T. & al. (2001) The Elements of Statistical Learnng, Springer, Canada.
[2] Hechenbichler, K. Et Schliep K. (2004) Weighted k-nearest-neighbor techniques and ordinal
classification. Sonderforschungsbereich 386, paper 399..


i
n
r
i
a
-
0
0
4
9
4
8
1
4
,

v
e
r
s
i
o
n

1

-

2
4

J
u
n

2
0
1
0