Vous êtes sur la page 1sur 9

Segmentation dimages en couleurs par rseau de neurones :

application au domaine vgtal.


Philippe FOUCHER
1,2
, Paul REVOLLON
1
, Bertrand VIGOUROUX
2
1- UMR SAGAH (Sciences AGronomiques Appliques lHorticulture)
Institut National dHorticulture
2 rue Le Ntre
49045 ANGERS CEDEX 01
Tlphone 02 41 22 54 36
Tlcopie 02 41 22 54 62
2 - LISA (Laboratoire dIngnierie des Systmes Automatiss)
Institut Universitaire de Technologie dAngers
4 boulevard Lavoisier
BP 2018
49016 ANGERS CEDEX
Tlphone 02 41 73 53 20
Tlcopie 02 41 73 53 30
Adresses lectroniques philippe.foucher@iut.univ-angers.fr
revollon@angers.inra.fr
bertrand.vigouroux@univ-angers.fr
Mots-cls
Images couleurs, segmentation, rseaux de neurones, application agronomique.
Rsum
La segmentation en deux classes (classe vgtal et classe substrat de culture) dimages en couleurs de
plants de forsythias est ralise laide dun rseau de neurones (perceptron une couche cache). La
segmentation est nettement amliore lorsque le vecteur dentre du perceptron comprend non seulement les
trois composantes des pixels de limage dans lespace colorimtrique choisi, mais aussi la moyenne et lcart-
type de ces composantes au voisinage immdiat du pixel classifier. Le nombre de neurones de la couche
cache est ajust en fonction des rsultats obtenus sur un ensemble dapprentissage. La qualit de la
segmentation est value laide de trois paramtres : la spcificit, la sensitivit et lerreur globale, par
comparaison avec une segmentation effectue par un expert.
1 - Introduction
Lemploi de la couleur en segmentation dimages est relativement rcent, et constitue un sujet de recherche
encore en dveloppement. La classification des mthodes de segmentation des images colores peut tre
calque sur la classification tablie pour la segmentation des images en niveaux de gris [1], avec deux
complications supplmentaires : (i) les rsultats de la segmentation dpendent de lespace colorimtrique utilis,
et (ii) lorsquune mtrique est ncessaire pour raliser la segmentation, son choix dpend non seulement de la
prcision souhaite (comme pour les images en niveaux de gris) mais aussi de lapprciation psychovisuelle de
la distance entre deux couleurs [2].
Une des stratgies possibles pour la segmentation est celle de la classification de pixels. Les rseaux de
neurones se prtent bien une telle classification [3], [4], [5]. Ils ont t utiliss, dans le domaine vgtal, pour
classifier les folioles daprs leur gomtrie [6] ou pour valuer la vitesse de croissance de plants de laitue [7].
Par contre, il semble que la segmentation dun couvert vgtal par rseau de neurones nait pas encore t
envisage. Cest aux premiers rsultats obtenus dans cette voie quest consacre la prsente communication. Le
rseau a pour fonction de classer les pixels de limage selon deux catgories : la catgorie vgtal (forsythia)
et la catgorie substrat de culture.
Bien sr, dautres stratgies de segmentation sont envisageables, parmi lesquelles deux ont t testes, sur les
mmes images de forsythias. La premire consistait dterminer un seuil de binarisation partir de
lhistogramme bi-dimensionnel, dans lespace colorimtrique rouge-vert, par un algorithme de poursuite des
minima locaux [8]. La deuxime mettait en uvre une analyse discriminante des triplets (R,V,B) de chaque pixel
de limage [9]. Ces deux voies se sont avres moins performantes [9] que celle expose ici.
Le paragraphe 2 prsente le rseau de neurones utilis (il sagit dun perception multicouche), ainsi que la
mthode dapprentissage mise en uvre (rtro-propagation du gradient). Le paragraphe 3 dcrit le matriel
utilis et prcise la dimension des images, les espaces colorimtriques utiliss, la nature des vecteurs dentre du
rseau de neurones et la mthode dvaluation de la qualit de la segmentation. Dans le paragraphe 4 les
rsultats obtenus sont analyss.
2 - Le perceptron
Quelques exemples de segmentation dimages colores par rseaux de neurones ont t publis rcemment.
Les rseaux utiliss taient des rseaux de Hopfield, configurs laide de lhistogramme des couleurs [3] ou
des rseaux auto-organiss du type Kohonen [4], [5]. Nous proposons ici dutiliser un autre modle de rseau:
le perceptron.
Le perceptron multicouche est une structure constitue dune couche dentre, dune ou plusieurs couches
caches, et dune couche de sortie. Dans de nombreux cas [10], une couche cache suffit pour obtenir du
perceptron des rsultats satisfaisants (figure 1).
Figure 1 : perceptron une couche cache et un neurone de sortie.
e
1
e
j
e
E
w
1,1
w
E,N
w
j,k
n
N
n
k
n
1

w
N,s
w
k,s
w
1,s
n
s
Lentre du perceptron est un vecteur e de dimension E, et de composantes e
j
o j est un entier de lensemble
{1, , E}. La couche cache comporte N neurones ; le k-ime neurone de la couche cache est dsign par
n
k
, o k est un entier de lensemble {1, , N}. Le perceptron tant destin classifier des donnes suivant
deux catgories, la couche de sortie ne contient quun neurone, not n
s
, qui fournit une sortie gale 0 ou
1. Chaque composante de e est connecte aux N neurones de la couche cache, et chaque neurone de cette
couche est connect au neurone de sortie. Les connexions sont affectes de poids synaptiques nots w
j,k
pour
la connexion de la composante dentre e
j
avec le neurone n
k
, et w
k,s
pour la connection entre le neurone n
k
et le neurone de sortie n
s
. Le signal de sortie s
k
du neurone n
k
scrit
Le signal de sortie s du neurone n
s
scrit

= f x
s
avec x
s
= w
k,s
s
k

k = 1
N
+
s
o les constantes
k
et
s
sont les polarisations des neurones n
k
et n
s
. Elles peuvent tre considres comme les
poids synaptiques dune entre unit, ce qui permettra leur mise jour lors de lapprentissage. La fonction f(u)
est la fonction dactivation, qui doit tre drivable pour pouvoir mettre en uvre un apprentissage par rtro-
propagation du gradient. La fonction la plus couramment utilise est la fonction sigmode
Les poids synaptiques du rseau de neurones sont ajusts au cours dune phase dapprentissage, laide dun
lot de A vecteurs dentre, jugs reprsentatifs de lapplication. Lensemble de ces vecteurs, rangs sous la
forme [e
1
e
i
e
A
] constitue une matrice M de E lignes et A colonnes, appele matrice dapprentissage du
perceptron. Une poque est la prsentation, au rseau de neurones, de la matrice M. Une poque est
repre par lentier t appartenant lensemble {1, , Q}. A lpoque t, le neurone k de la couche cache
fournit A sorties (t) s
i
k
, o i est un entier de lensemble {1, , A}. De mme, le perceptron fournit A sorties

i
(t). Un expert charg doprer la classification fournit A rponses h
i
, o les h
i
appartiennent lensemble {0,
1}. Lajustement des poids synaptiques sopre par minimisation du carr de lerreur

i
t =
i
t h
i
considre comme une fonction des poids synaptiques des connexions, par un algorithme de rtro-propagation
du gradient [11], [12]. Lalgorithme supporte un certain nombre de variantes. Dans celle que nous avons
utilise, les poids synaptiques sont initialiss de faon alatoire. A lpoque t, pour chaque vecteur e
i
de
lensemble dapprentissage, les carts de poids w
i
k,s
(t) et w
i
j,k
(t) sont calculs selon les formules

w
k,s
i
t =
i
t

i
t
x
s
i
t
s
k
i
t ; w
j,k
i
t =
i
t

i
t
x
s
i
t
w
k,s
t
s
k
i
t
x
k
i
t
e
j
i
t
o est le rythme dapprentissage. A la fin de lpoque t, lactualisation des poids synaptiques seffectue
laide des formules
w
k,s
t + 1 = w
k,s
t + w
k,s
i
t

i = 1
A
; w
j,k
t + 1 = w
j,k
t + w
j, k
i
t

i = 1
A
(1)
(2)
f u =
1
1 +exp u
s
k
= f x
k
avec x
k
= w
j,k
e
j

j = 1
E
+
k
(3)
(4)
(5)
(6)
La polarisation est mise jour suivant le mme principe. La procdure est itre jusqu ce que lerreur de
classification devienne infrieure une consigne fixe lavance, ou jusqu un nombre maximal Q dpoques
autoris. En fin dapprentissage, les poids synaptiques et les polarisations sont dfinitivement fixs.
3 - Matriel et mthodes
Les images sont acquises en serre, au format RVB, au moyen dune camra tri-CCD en vise verticale de 24
plants de forsythias. Chacun des plans colorimtriques R (rouge), V (vert) et B (bleu) est numris sur 758 x
576 pixels, quantifis sur 256 niveaux. Des 24 images ainsi obtenues sont extraites 16 imagettes de rsolution
180 x 180 pixels, constituant le lot dapprentissage (figure 2). A chaque pixel des imagettes du lot
dapprentissage peut tre associ un vecteur dentre du rseau de neurones. Ce vecteur peut prendre en
compte : ou bien les seules composantes du pixel dans lespace colorimtrique choisi (alors chaque vecteur
dapprentissage a pour dimension E = 3) ; ou bien ces mmes composantes colorimtriques, associes des
paramtres caractristiques des pixels voisins (alors E > 3).
Figure 2 : les 16 imagettes constituant le lot dapprentissage.
Les composantes colorimtriques peuvent tre les trois composantes R, V, B des images fournies par la
camra, ou tout autre ensemble de composantes obtenues par changement despace colorimtrique. Nous
avons test, outre lespace RVB, lespace HSI dans lequel les composantes colorimtriques H (teinte), S
(saturation) et I (intensit) sexpriment selon [13] :
H= cos
1
2R V B
R
2
+ V
2
+ B
2
RV + VB +BR
si V B ; H = 2 Hsinon
S = 1
3 min (R,V, B)
R+ V+ B
I =
R + V+ B
3
La prise en compte du voisinage de chaque pixel a t ralise en ajoutant aux composantes colorimtriques
leur moyenne et leur cart-type dans une fentre de dimension 7 x 7 pixels centre sur le pixel dintrt. Chaque
vecteur dapprentissage a alors pour dimension E = 9.
Pour effectuer lapprentissage, 10 pixels slectionns sur la premire imagette I
1
permettent de dfinir la
premire matrice dapprentissage M
1
. A lissue de ce premier apprentissage, les poids synaptiques et les
polarisations du rseau de neurone sont fixs, et limagette I
1
est prsente au rseau pour tre segmente. Le
rsultat est compar avec une segmentation manuelle ralise par un expert, pour en tirer une image derreur de
segmentation. Dix pixels mal classs sont slectionns et ajouts aux pixels du premier apprentissage, pour
effectuer un second apprentissage. Le processus est itr jusqu ce que lerreur globale de segmentation se
stabilise. Soit P
1
lensemble des pixels utiliss pour la dernire itration sur limagette I
1
. On opre de mme
partir des 15 autres imagettes du lot dapprentissage, puis on effectue un dernier apprentissage laide des
pixels de lensemble P dfini par
P = P
1
P
16
Le rseau de neurones est alors dfinitivement fig. Les 24 images globales lui sont ensuite prsentes pour
segmentation.
La qualit de la segmentation, juge par comparaison avec une segmentation experte, est quantifie laide de
3 paramtres : la spcificit et la sensitivit, dfinies par Littman et Ritter [4], et lerreur globale. Soient N
E
lensemble des pixels appartenant au couvert vgtal aprs segmentation experte, et N
N
lensemble des pixels
appartenant au couvert vgtal aprs segmentation neuromimtique. On a
spcificit = 100
cardinal N
E
N
N
cardinal N
N
; sensitivit = 100
cardinal N
E
N
N
cardinal N
E
La spcificit prcise, parmi les pixels assigns la classe vgtal, le pourcentage de ceux correctement
assigns cette classe. La sensitivit prcise, parmi les pixels appartenant effectivement la classe vgtal, le
pourcentage de ceux correctement assigns cette classe. Lerreur globale de classification donne le
pourcentage de pixels mal classs :
erreur globale = 100
cardinal N
E
N
N
cardinal N
E
N
N
N
I
o N
I
dsigne le nombre total de pixels de limage.
4 - Rsultats et discussion
4.1 - Phase dapprentissage
Le perceptron dcrit dans le paragraphe 2 prsente, sur sa couche cache, un nombre de neurones N
non dfini. La premire tape du travail consiste tudier linfluence de N sur la qualit de la segmentation. De
mme, le choix du nombre dpoques Q de la phase dapprentissage doit tre optimis. Les rsultats obtenus
sont prsents dans le tableau 1, pour diffrentes valeurs de N et Q. La spcificit, la sensitivit et lerreur
(7)
(8)
(9)
(10)
globale indiques dans le tableau reprsentent la moyenne observe sur les 16 imagettes de lensemble
dapprentissage. Dans tous les cas, le rythme dapprentissage du rseau a t fix la valeur = 0,9. Les
vecteurs dentre du rseau ont pour composantes les 3 composantes colorimtriques des pixels
dapprentissage dans lespace RVB.
N Q Spcificit (%) Sensitivit (%) Erreur globale (%)
5 10 99,12 96,82 1,56
10 10 98,71 98,11 1,56
10 50 98,47 98,46 1,55
10 100 98,36 98,57 1,59
20 50 98,85 97,55 1,79
Tableau 1 : influence de N et Q sur la qualit de la segmentation.
Pour un nombre dpoques identique (Q = 10) les rseaux 5 et 10 neurones prsentent la mme erreur
globale (1,56%). Cependant, le rseau 5 neurones prsente une plus grande disparit, entre spcificit et
sensitivit, que le rseau 10 neurones. Le rseau 5 neurones ne sera donc pas retenu pour la suite de
ltude. De mme, pour un nombre dpoques identique (Q = 50), le rseau 20 neurones prsente une erreur
globale (1,79%) suprieure lerreur globale (1,55%) du rseau 10 neurones. Seuls les rseaux 10
neurones seront donc retenus pour la suite de ltude.
A nombre de neurones identique (N = 10), les apprentissages 10, 50 et 100 poques prsentent des rsultats
sensiblement voisins. Cest cependant lapprentissage 50 poques qui prsente la plus faible erreur globale
(1,55%) et la plus grande similitude entre spcificit et sensitivit (98,47% et 98,46%). Lapprentissage sera
donc effectu dornavant sur 50 poques.
Linfluence de lespace colorimtrique (RVB ou HSI) et de la dimension des vecteurs dentre (E = 3 ou 9) sur
les rsultats de la segmentation apparat dans le tableau 2. La prise en compte du voisinage de chaque pixel (E
= 9) fournit une plus faible erreur globale dans chacun des deux espaces colorimtriques tests. Cest donc ce
type de vecteur dentre que nous retiendrons par la suite, en adoptant lespace RVB qui fournit une erreur
globale de 1,55%, infrieure celle obtenue dans lespace HSI (1,83%).
Tableau 2 : influence de la dimension du vecteur dentre et de lespace colorimtrique
sur la qualit de la segmentation.
Finalement, la segmentation sera effectue sur un perceptron dont la couche cache contient 10 neurones,
lapprentissage tant effectu sur 50 poques. Le vecteur dentre du rseau sera constitu des 3 composantes
colorimtriques des pixels de limage, dans lespace RVB, en y ajoutant la moyenne et lcart type de chacune
de ces composantes, dans un voisinage de taille 7 x 7 pixels autour du pixel classifier.
4.2 - Phase de segmentation
Les rsultats de la segmentation des 24 images disponibles sont prsents dans le tableau 3, et un exemple de
segmentation est fourni sur la figure 3 (image 6 du tableau 3).
Espace E Spcificit (%) Sensitivit (%) Erreur globale (%)
RVB 3 95,20 95,45 5,20
9 98,47 98,46 1,55
HSI 3 98,49 95,58 2,98
9 98,25 98,54 1,61
(a) (b)
Figure 3: exemple dimage segmenter (a) et rsultat de la segmentation (b).
Dans tous les cas, lerreur globale est trs faible : elle schelonne de 0,71% 1,75%, avec une moyenne de
1,06% sur lensemble des 24 images. Les spcificits et sensitivits obtenues sont galement satisfaisantes, lune
et lautre prsentant une moyenne de 98,82% et 98,80% sur lensemble des 24 images.
5 - Conclusion
Ainsi est dmontre la pertinence de lutilisation dun perceptron une couche cache pour la segmentation
dimages en couleurs de couverts vgtaux. La prise en compte du voisinage de chaque pixel dans l'espace
colorimtrique, pour dfinir le vecteur d'entre du perceptron, accrot sensiblement les performances de la
segmentation. Le choix du nombre dpoques optimal pour lapprentissage du rseau nest pour linstant justifi
que par les rsultats obtenus. Nous pensons proposer ultrieurement une mthode automatise du choix du
nombre dpoques, permettant de saffranchir de la srie des images segmenter. Dautres espaces
colorimtriques que les espaces RVB et HSI pourraient tre galement essays, en particulier les plus proches
de la perception psychovisuelle, dans la mesure o la qualit de la segmentation est value par comparaison
avec une segmentation effectue par un oprateur humain.
Une analyse en composantes principales [13] des images pourrait galement permettre de choisir un espace
colorimtrique plus favorable.
Image n Spcificit (%) Sensitivit (%) Erreur globale (%)
1 99,35 99,15 0,75
2 99,50 99,04 0,73
3 99,40 99,15 0,71
4 99,44 98,17 1,17
5 99,74 97,39 1,35
6 99,67 98,40 0,89
7 99,62 98,13 1,06
8 99,70 97,17 1,46
9 99,20 99,10 0,87
10 99,78 98,71 0,78
11 99,60 98,95 0,75
12 98,29 99,34 1,05
13 98,02 99,71 0,99
14 98,79 98,99 0,97
15 98,28 99,19 1,14
16 97,62 99,54 1,27
17 97,38 99,84 1,23
18 98,70 98,99 1,00
19 98,12 99,62 0,98
20 98,15 98,89 1,12
21 98,31 97,09 1,75
22 98,33 98,62 1,16
23 97,34 99,10 1,36
24 99,31 98,90 0,81
Tableau 3 : rsultats de la segmentation.
Rfrences
[1] Cocquerez J.-P., Philipp S. : Analyse dimages: filtrage et segmentation. Masson, Paris (1995).
[2] Lezoray O. : Segmentation dimages couleur par morphologie mathmatique et classification de donnes par
rseaux de neurones: application la classification de cellules en cytologie des sreuses. Thse de doctorat,
Universit de Caen, France (2000).
[3] Campadelli P., Medici D., Schettini R. : Color Image Segmentation using Hopfield Networks. Image and
Vision Computing, 1997, vol. 15, n 3, pp. 161-166.
[4] Littman E., Ritter E. : Adaptative Color Segmentation - A Comparison of Neural and Statistical Methods.
IEEE Transactions on Neural Networks, 1997, vol. 8, n 1, pp. 175-185.
[5] Papamarkos N., Strouthopoulos C., Andreadis I. : Multithresholding of color and gray-level images through
a neural network technique. Image and Vision Computing, 2000, vol. 18, pp. 213-222.
[6] Oide M. : Discrimination of soybean leaflet shape by neural networks with image input. Computers and
electronics in agriculture, 2000, vol. 29, pp. 59-72.
[7] Zaidi M.A., Murase H., Honami N. : Neural network model for the evaluation of lettuce plant growth.
Journal of Agricultural Engineering Research, 1999, vol. 74, pp. 237-242.
[8] Mougin S. : Segmentation dimages couleur applique un couvert vgtal. Rapport de stage ingnieur
systmes electronique et informatique industrielle, Universit de Nantes, IRESTE (1999).
[9] Revollon P., Foucher P., Boumaza R. : Etude compare de trois techniques de segmentation dimages de
vgtaux : seuillage dhistogramme, analyse discriminante et rseaux de neurones. Communication soumise
aux XXIIImes Journes de Statistiques, ENITIAA, Nantes, 14-18 mai 2001.
[10] Hrault J., Jutten C. : Rseaux neuronaux et traitement du signal. Herms, Paris (1994).
[11] Rumelhart D.E., Hinton G.E., Williams R.J. : Learning representations by back-propagating errors.
Nature, 1986, vol. 323, pp. 533-536.
[12] Vogl T.P., Mangis J.K., Rigler A.K., Zink W.T., Alkon D.L. : Accelerating the Convergence of the Back-
Propagation Method. Biological Cybernetics, 1988, vol. 59, pp. 257-263.
[13] Gonzalez R.C., Woods R.E. : Digital Image Processing. Addison-Wesley Publishing Company (1993).

Vous aimerez peut-être aussi