Académique Documents
Professionnel Documents
Culture Documents
Belacel Nabil
INTRODUCTION ...................................................................................................................... 2
PRESENTATION DE LA THESE......................................................................................... 5
3
BIBLIOGRAPHIE .................................................................................................................. 141
Liste des abréviations
Introduction générale
De nombreux problèmes pratiques peuvent se ramener à l’affectation de différents objets à des
classes prédéfinies. Par exemple dans le cas du diagnostic médical, il s’agit de reconnaître la
pathologie d’un patient donné, les objets correspondent aux patients et les classes aux différentes
pathologies. D’autres problèmes de diagnostic peuvent être vus de façon similaire : pannes des
machines et défaillances des entreprises. Les méthodes de classification aident à traiter ce type de
problèmes.
En général les méthodes de classification sont constituées en plusieurs étapes. L’étape la plus
importante consiste à élaborer des règles de classification à partir des connaissances disponibles a
priori ; il s’agit de la phase d’apprentissage. Cette dernière utilise soit l’apprentissage déductif ou
inductif. Les algorithmes d’apprentissage inductif dégagent un ensemble de règles (ou de normes) de
classification à partir d’un ensemble d’exemples déjà classés. Le but de ces algorithmes est de
produire des règles de classification afin de prédire la classe d’affectation d’un nouveau cas. Parmi
les méthodes de classification utilisant ce type d’apprentissage, citons les méthodes des k plus
proches voisins, la méthode bayésienne, la méthode d’analyse discriminante, l’approche des réseaux
de neurones et la méthode d’arbre de décision (cf. McLachlan, 1992 ; Michie et al., 1994 ; Duda et
Hart, 1973 ; Bishop, 1973). Dans les algorithmes d’apprentissage déductif, les règles d’affectation
sont déterminées a priori par l’interaction avec le décideur, ou l’expert. A partir de ces règles on
détermine les classes d’affectation des objets. Parmi les méthodes utilisant ce type d’apprentissage,
signalons à titre d’exemples les systèmes experts et les ensembles approximatifs (Waterman, 1985 ;
Chandrasekaran, et al., 1988 ; Pawlak, 1991 ; Pawlak, et al., 1986).
En pratique pour résoudre certains problèmes de classification il est souvent nécessaire de combiner
les deux types d’apprentissages (inductif et déductif). C’est le cas par exemple des problèmes de
défaillances des machines ou du problème de diagnostic des leucémies aiguës. Le besoin de
méthodes de classification qui combinent les deux types d’apprentissage constitue l’une des raisons
qui nous a incité à développer de nouvelles méthodes de classification.
L’aide multicritère à la décision, quant à elle, s’adresse généralement à trois problématiques : les
problématiques du choix, du rangement et du tri. La première consiste à sélectionner au sein d’un
ensemble d’objets, un sous-ensemble aussi restreint que possible des objets les plus satisfaisants. La
problématique du rangement consiste à ranger les objets selon leurs mérites relatifs. La
problématique du tri quant à elle consiste à formuler le problème en terme d’affectation d’objets à
des classes prédéfinies. Les deux premières problématiques ont été largement étudiées et appliquées
dans plusieurs domaines : l’environnement, les finances, la production, la localisation, (Vincke,
1987 ; Roy et Bouyssou, 1993 ; Pomerol et al., 1993 ; Mayster et al., 1994) alors que relativement
peu de travaux ont été consacrés à la problématique du tri.
La problématique du tri est subdivisée en deux groupes : le tri ordinal, si les classes sont
complètement ordonnées et le tri nominal dans le cas contraire. Un exemple d’application de tri
ordinal est celui de l’octroi de crédits (Moscarola, 1978 ; Massaglia et al. 1991 et Wei, 1991)
tandis qu’un exemple d’application de tri nominal est celui du diagnostic médical, où les classes sont
représentées par la symptomatologie typique. Dans notre étude, nous nous somme intéressés, tout
particulièrement, à la problématique du tri nominal.
3
Introduction
Tout au long de cette thèse nous appellerons “méthodes de classification multicritère” les
méthodes de classification utilisant l’approche d’aide multicritère à la décision.
Les méthodes de classification multicritère utilisent uniquement des comparaisons entre l’individu à
affecter et les objets de référence des classes. Cette comparaison se fait par le biais d’un modèle
relationnel de préférence. Ainsi ces méthodes évitent le recours à des distances et permettent
d’utiliser des critères quantitatifs et/ou qualitatifs. De plus elles permettent d’éviter les problèmes
rencontrés lorsque les données sont exprimées dans des unités différentes. Ces avantages constituent
une autre raison qui nous a motivé à développer de nouvelles méthodes de classification multicritère.
L’introduction des ordinateurs dans le milieu médical a permis d’utiliser des méthodes de
classification pour les différentes pathologies et aider au diagnostic médical. Cependant, très peu de
méthodes de classification utilisant l’approche d’aide multicritère à la décision ont été appliquées
dans le domaine du diagnostic médical. Ce fait nous a encouragé à développer et implémenter de
nouvelles méthodes de classification multicritère pour traiter les problèmes de classification médicale.
Le but d’une classification médicale de pathologies est de rassembler les cas qui ont des similitudes
biologiques et qui sont susceptibles de partager certains facteurs étiopathologiques. L’identification
des classes est importante car elle permet, d’une part de comprendre le processus de la maladie et
d’autre part d’instaurer l’approche thérapeutique adéquate. En outre, elle permet de dégager le
pronostic global de la maladie. Plusieurs méthodes de classification comprenant les statistiques, la
reconnaissance des formes, l’intelligence artificielle et les réseaux de neurones ont été utilisées pour
l’aide au diagnostic médical (Bartels et al., 1989 ;1996 ; Decaestecker, 1997 ; Jelonek et al.,
1994 ; 1997).
Notre étude a donc pour principal objectif de contribuer à développer de nouvelles méthodes de
classification multicritère et de les appliquer dans le domaine du diagnostic médical. Les leucémies
aiguës et les tumeurs astrocytaires1 ont été choisies comme exemples d’applications. Ces méthodes
de classification sont basées d’une part, sur la modélisation de préférence floue et d’autre part sur le
domaine de l’aide multicritère à la décision. Elles se situent, par conséquent, à l’intersection de
nombreux domaines de recherche liés, d’une manière générale, à la classification. L’apprentissage, la
modélisation des préférences, les fonctions de choix, le diagnostic médical, sont autant de thèmes de
recherche que nous allons aborder dans cette thèse pour tenter d’introduire des nouveaux outils pour
aider au diagnostic médical.
1
Les tumeurs astrocytaires font partie des tumeurs du cerveau.
4
Introduction
Présentation de la thèse
Cette thèse s’organise en huit chapitres classés en trois parties.
La Partie A est réservée aux concepts fondamentaux sur lesquels se base notre étude. Elle est
divisée en deux chapitres. Afin de situer notre problématique, nous présentons dans le Chapitre 1
les principales approches classiques utilisées en classification de données. Le Chapitre 2 est
consacré à la présentation de notions générales sur le domaine de l’aide multicritère à la décision sur
lequel s’appuie le présent travail.
La Partie B présente de nouvelles méthodes de classification multicritère. Elle est divisée en quatre
chapitres. Dans le premier chapitre (Chapitre 3) nous proposons une définition générale d’une
procédure de classification multicritère ainsi que ses différentes propriétés. Le deuxième chapitre
(Chapitre 4) détaille une procédure de choix dans le cadre de la problématique du tri nominal
(PROCTN), le principe de base est de choisir un sous-ensemble de prototypes les plus proches d’un
objet à affecter. Ce choix se base sur le calcul de flux nets utilisés dans la méthode PROMETHEE
(Brans et al., 1985). Le troisième chapitre (Chapitre 5) traite une procédure d’affectation floue
dans le cadre de la problématique du tri nominal (PROAFTN) (Belacel, 1998 ; 1999). Elle consiste
à construire des relations d’indifférence floues en généralisant les indices (de concordance et de
discordance) utilisés dans la méthode ELECTRE III (Roy, 1978). Ensuite elle détermine la classe
d’affectation d’un objet donné sur base de ces relations floues. Après l’introduction des concepts
associés à la théorie des sous-ensemble flous, nous décrivons les différentes étapes de la procédure
PROAFTN. Le dernier chapitre de cette partie (Chapitre 6) est consacré à la présentation d’une
procédure de choix flou dans le cadre de la problématique du tri nominal (PROCFTN) (Belacel et
al. 1999e). Cette procédure combine le principe de choix utilisé par PROCTN et les relations
d’indifférence floues calculées par PROAFTN. Nous décrivons alors les fonctions de score flou
utilisées dans la littérature et leur application dans les problèmes de classification multicritère.
La Partie C présente et discute les résultats obtenus par l’application de ces trois procédures dans
le domaine de l’aide au diagnostic médical (cf. Belacel et al., 1999a, 1999b, 1999d). Après une
brève introduction générale sur les problèmes de classification médicale, une application de ces
méthodes dans le domaine cytopathologique des leucémies aiguës est présentée dans le Chapitre 7 .
Dans le Chapitre 8 nous présentons l’application des procédures développées dans le domaine
histopathologique des tumeurs astrocytaires. Ces applications montrent en particulier que les
méthodes de classification utilisant le domaine d’aide multicritère à la décision constituent une autre
approche pour résoudre certains problèmes de classification médicale. Nous nous sommes aussi
intéressés à l'application de la procédure PROAFTN dans le domaine histopathologique des tumeurs
superficielle de la vessie. Les résultats sont présentés dans l’Annexe C. Ils montrent la capacité de
cette procédure à séparer entre le haut et le bas grades de malignité de ces tumeurs en se basant
uniquement sur les paramètres générés par microscopie assistée par ordinateur. Cette séparation est
capitale de point de vue thérapeutique et pronostic de ces tumeurs.
5
PARTIE A
ETUDES PRÉLIMINAIRES
Cette partie est divisée en deux chapitres. Elle est réservée aux concepts fondamentaux sur lesquels
se base notre travail. Afin de situer notre problématique, nous présentons dans le chapitre 1 les
différentes approches utilisées en classification de données. Le chapitre 2 sera consacré à la
présentation du domaine de l’aide multicritère à la décision sur lequel s’appuie le présent travail.
Panorama des méthodes de classification
1. Introduction
La problématique du tri consiste à affecter les objets d’un ensemble A à des catégories ou classes
prédéfinies. Ce type de question fait partie des problèmes de classification. Avant d’aborder les
méthodes d’affectation dans le cadre de l’aide multicritère à la décision, nous donnerons un
panorama des méthodes de classification.
Les méthodes de classification font référence à l’existence de groupes ou classes de données et elles
se divisent en deux groupes :
• Les méthodes d’affectation (aussi appelées «classificateurs») basées sur la notion d’apprentissage
supervisé : méthodes utilisant un ensemble d’exemples où les classes d’appartenance sont connues
au préalable. A partir de cet ensemble, des normes (ou règles) d’affectation seront définies.
Nous développerons plus loin ces différentes méthodes en soulignant certains de leurs avantages et
inconvénients.
L’objectif de ces méthodes est de regrouper les individus en un nombre restreint de classes
homogènes. Dans ce type de méthodes les classes seront obtenues à l’aide des algorithmes
formalisés et non par des méthodes subjectives.
On distingue aussi les méthodes de classification non hiérarchiques et les méthodes de classification
hiérarchiques.
Cette méthode considère chaque objet une seule fois. Lorsque le premier objet arrive, on lui attribue
la première classe et il devient le leader de celle-ci. Ensuite, chaque fois qu’un nouvel objet se
présente, on calcule sa distance par rapport aux leaders de chacune des classes existantes à cet
instant, et on compare cette distance à un seuil. Si cette distance est inférieure au seuil fixé, on
attribue au nouvel objet la classe du premier leader trouvé (pour lequel la distance calculée est
7
Panorama des méthodes de classification
inférieure au seuil), sinon une nouvelle classe est créée et le nouvel objet devient le leader de cette
classe (Späth, 1980).
Cette méthode dépend de l’ordre de présentation des objets. Lorsque cet ordre n’est pas optimal, le
nombre de classes augmente sensiblement. Par ailleurs, pour définir des nouveaux leaders, cette
méthode utilise des distances, ce qui nous ramène au problème de la définition des métriques.
Cette méthode est encore appelée algorithme des centres mobiles (Benzécri, 1973). Ce type
d’algorithme, où la classe est représentée par son centre de gravité, a été étudié par plusieurs
auteurs, à savoir (Bonner, 1964 ; MacQueen, 1967 ; Celeux et al., 1989).
L’algorithme k-means mis au point par McQueen en 1967 est l’un des algorithmes de clustering les
plus connus. Il est basé sur la méthode des centroïdes (ou centres de gravité). Le principe de cette
méthode est le suivant :
On se donne pour commencer, k centres arbitraires c1, c2,..., ck où chaque ci représente le centre
d’une classe Ci. Chaque classe Ci est représentée par un ensemble d’individus plus proches de ci
que de tout autre centre. Après cette initialisation, on effectue une deuxième partition en regroupant
les individus autour des mj qui prennent alors la place des cj (mj est le centre de gravité de la classe
Cj, calculé en utilisant les nouvelles classes obtenues). Le processus est ainsi réitéré jusqu’à
atteindre un état de stabilité où aucune amélioration n’est possible.
Cette méthode est convergente et surtout avantageuse du point de vue calcul mais elle dépend
essentiellement de la partition initiale. Il existe donc un risque d’obtenir une partition qui ne soit pas
optimale mais seulement meilleure que la partition initiale. De plus, la définition de la classe se fait à
partir de son centre, qui pourrait ne pas être un individu de l’ensemble à classer, d’où le risque
d’obtenir des classes vides.
Cette méthode a été proposée par (Diday, 1972). Elle peut être considérée comme une
généralisation de la méthode des centres mobiles. Le principe de la méthode est le suivant : on tire au
hasard k noyaux parmi une famille de noyaux (chaque noyau contient un sous-ensemble d’individus).
Puis chaque point de l’ensemble d’apprentissage est affecté au noyau dont il est plus proche. On
obtient ainsi une partition en k classes dont on calcule les noyaux. On recommence le processus avec
les nouveaux noyaux et ainsi de suite jusqu’à ce que la qualité de la partition ne s’améliore plus.
Cette méthode a l’avantage de traiter rapidement de grands ensembles d’individ us. Elle fournit une
solution dépendant de la configuration initiale et nécessite le choix du nombre de classes. En général
le nombre de classes est fixé par l’utilisateur et l’initialisation est faite par un tirage au hasard. Pour
comparer l’individu avec les noyaux, cette méthode utilise des distances, ce qui a l’inconvénient
d’établir des métriques.
8
Panorama des méthodes de classification
l’ensemble d’individus (d’où le risque d’obtenir des partitions de valeurs douteuses), il faut presque
toujours tester diverses valeurs de k, ce qui augmente le temps de calcul. C’est pourquoi, lorsque le
nombre des individus n’est pas trop élevé, on préfère utiliser les méthodes hiérarchiques.
Cette approche utilise la notion de distance, qui permet de refléter l’homogénéité ou l’hétérogénéité
des classes. Ainsi, on considère qu’un élément appartient à une classe s’il est plus proche de cette
classe que de toutes les autres.
La figure 1.1 est une illustration du principe des méthodes hiérarchiques. Dans cette figure, on
représente la suite de partitions d’un ensemble {a, b, c, d, e} :
distance
P4 5
P3 4
P2 3
P1 2
P0 0
a b c d e individus
Figure 1.1. La partition hiérarchique
9
Panorama des méthodes de classification
La principale difficulté présentée par cette méthode est la définition du critère de regroupement de
deux classes, c’est-à-dire la détermination d’une distance entre les classes.
Les méthodes de classification automatique ont apporté une aide précieuse, notamment par leurs
applications médicales en exploitant les informations et les données dans le domaine de la santé
publique, de la recherche clinique, de l’épidémiologie, de la documentation ou de la décision
médicale. L’une des plus importantes applications de la classification automatique dans le domaine
médical est la nosologie (science de la classification des maladies).
L’exemple de classification le plus connu est la Classification Internationale des Maladies « CIM »
(en anglais, “International Classification of Diseases” « ICD ») (OMS, 1977). Les différentes
partitions de la Classification Internationale des Maladies sont résumées dans le tableau 1.1
(Degoulet P. et Fieschi M., 1994).
Partitions Noms
I. Maladies infectieuses et parasitaires
II. Tumeurs (malignes, bénignes, ...)
III. Maladies endocriniennes, maladies de la nutrition et du métabolisme,
troubles immunitaires.
IV. Maladies du sang et des organes hématopoïétiques
V. Troubles mentaux
VI. Maladies du système nerveux et des organes des sens
VII. Maladies de l’appareil circulatoire
VIII. Maladies de l’appareil respiratoire
IX. Maladies de l’appareil digestif
X. Maladies des organes génito-urinaires
XI. Complications de la grossesse, de l’accouchement et des suites de
couches
XII. Maladies de la peau et du tissu cellulaire sous-cutané
XIII. Maladies du système ostéo-articulaire, des muscles et du tissu conjonctif
XIV. Anomalies congénitales
XV. Certaines affections dont l’origine se situe dans la période périnatale
XVI. Symptômes, signes et états morbides mal définis.
XVII. Lésions traumatiques et empoisonnements
E. Causes extérieures de traumatisme et empoisonnements
V. Facteurs influant sur l’état de santé et motifs de recours aux services de
santé
M. Morphologie des tumeurs
Tableau 1.1. Les chapitres de la Classification Internationale des Maladies
3. Méthodes d’affectation
Les méthodes d’affectation ou “classificateurs” sont caractérisées par la phase d’apprentissage qui
consiste à établir des règles de classification à partir des connaissances disponibles a priori. Cette
phase peut être réalisée à partir d’un apprentissage inductif ou déductif. Le premier type
d’apprentissage permet de passer de cas particuliers à des lois plus générales «si les hommes x, y, z,
10
Panorama des méthodes de classification
etc. sont mortels, alors on peut poser comme hypothèse d’induction que l'homme est mortel». Par
contre le deuxième type permet de passer d’un cas général à un cas plus particulier «si l’hypothèse
que tous les hommes sont mortels, est vrai, alors en conclusion Socrate, qui est un homme, est
mortel». Les méthodes présentées dans ce chapitre utilisent soit l’apprentissage inductif soit
l’apprentissage déductif mais pas les deux à la fois. Ces méthodes interviennent dans plusieurs
domaines tels que la reconnaissance des formes, les statistiques, les réseaux connexionistes (réseaux
de neurones artificiels), l’intelligence artificielle et l’aide multicritère à la décision. Nous aborderons
ici quelques-unes de ces méthodes dans chacun de ces domaines.
Les méthodes d’apprentissage inductif consistent à inférer des règles de décision à partir d’exemples
des différentes classes. Ceci se fait dans le but d’une généralisation afin de prédire des nouveaux cas,
sur base des paramètres les décrivant. Parmi les méthodes utilisant ce type d’apprentissage on
trouve :
Fix et Hodges (Fix et Hodges, 1951) sont à l’origine de l’approche des k-ppv. Ce procédé a été
largement étudié notamment par Hart (Hart, 1967) qui en présente une description détaillée ainsi
qu’une amélioration. L’application pratique a été discutée par Fukunaga et Hummels en 1987.
Une variante de la règle de la majorité consiste à prévoir un seuil s au-dessus duquel une décision de
rejet est prise. Ainsi, on peut rencontrer des cas où l’individu n’est affecté à aucune classe.
Soit l’exemple de la figure 1.2 avec deux dimensions correspondant aux attributs e1 et e2, et avec
k=3
11
Panorama des méthodes de classification
b3
b2 b1
b4
a
b5
Dans cet exemple les trois plus proches voisins de a sont b4, b 2 et b 5, donc a sera affecté à la classe
majoritaire parmi ces trois points.
La méthode des k-ppv a l’avantage d’être très simple à mettre en œuvre et d’utiliser directement
l’ensemble d’apprentissage T. Elle ne fait aucune hypothèse a priori sur les données. La qualité de la
discrimination par cette méthode dépend du choix du nombre k de voisins considérés. Il est
cependant souvent nécessaire de faire varier ce nombre k pour obtenir les meilleurs résultats
possibles. Un autre problème important de la méthode des k-ppv est qu’elle nécessite un espace
mémoire très important pour stocker les données et pour faire les différents calculs dans la phase de
classification. De plus, elle a l’inconvénient d’utiliser les distances pour déterminer les voisins de
l’individu à affecter, ce qui peut poser des problèmes si les dimensions à agréger ne sont pas
homogènes. Afin de remédier à l’inconvénient de l’utilisation de distances, on a recours à l’utilisation
des relations de ressemblances floues (Perny et Henriet, 1996).
Decaestecker et al. ont appliqué la méthode des k-ppv dans le diagnostic médical. Cette méthode a
permis de différencier les tumeurs astrocytaires typiques des cas atypiques (Decaestecker et al.,
1997).
Une caractéristique importante des données soumises à la méthode est la probabilité P(Ci) avec
laquelle les différentes classes apparaissent dans la population considérée. Elle est appelée
probabilité a priori. En pratique, cette distribution est estimée à partir des fréquences observées
dans les données, sauf si une connaissance a priori du domaine peut les fournir.
12
Panorama des méthodes de classification
Considérons un vecteur x composé des valeurs des différentes variables descriptives attribuées à l'un
des cas de la base de donnée. Cette information peut être cette fois utilisée pour prédire la classe du
cas considéré. La règle de classification assurant une probabilité d'erreur minimum (1) est dans ce
cas celle qui classe la donnée x dans la classe pour laquelle la probabilité conditionnelle de la classe
étant donné x, P(C i/ x), est maximum:
P(C i/x) : est la probabilité conditionnelle d’appartenance à la classe Ci, sachant qu’on est au point
x. Elle est appelée probabilité a posteriori et elle peut être calculée grâce au théorème de Bayes,
sur base de la probabilité a priori P(C i) et de la probabilité conditionnelle P(x/Ci) (distribution dans
chaque classe) :
P ( C i )× P ( x / C i )
P(Ci/x) = P (x ) (3)
Remarquons que la classe dont la probabilité a posteriori est maximum peut être déterminée sans
connaître P(x) qui est indépendante des classes.
Les méthodes de classification bayésienne ont été étudiées par plusieurs auteurs (Weiss et al., 1991
; McLachlan, 1992 ; Michie et al., 1994 ; Lebart et al., 1998). Elles ont été largement utilisées dans
le domaine de diagnostic médical et en particulier pour évaluer les probabilités des différentes
hypothèses de diagnostic (Salamon et al., 1976 ; Zagoria et al., 1983 ; Degouflet et al., 1994).
Les méthodes d'analyse discriminante ont été largement étudiées ; la littérature à ce sujet est très
abondante. Nous présentons dans ce paragraphe une brève description de ces méthodes. Pour plus
de détails, nous renvoyons le lecteur à des ouvrages spécifiques tels que : l'ouvrage de Tomassone et
al. (1988), les ouvrages édités par Celeux (1990) et Celeux et al. (1994) et l'ouvrage de synthèse
de McLachlan (1992).
Le but de ces méthodes est de produire des décisions concernant l’appartenance ou non d’un objet
à une classe en utilisant des fonctions discriminantes appelées également fonctions de décisions. Ce
genre de méthodes se base sur les travaux de Fisher (1936). Suivant les formes des classes, on peut
trouver différents types de discrimination :
13
Panorama des méthodes de classification
• Discrimination linéaire
Elle consiste à séparer les classes par des frontières linéaires afin de regrouper les points à classer
autour du centre de gravité de la classe (la moyenne de la classe) et à créer aussi des frontières
linéaires entre les classes.
Cette fonction dépend de paramètres w1, ..., wn, w n+1. La détermination de ces paramètres se fait
par un algorithme d'apprentissage qui vise à satisfaire le critère associé au modèle. En fonction des
données, le critère le plus utilisé pour ajuster ces paramètres est celui qui vise généralement à
minimiser l'erreur de classification (McLachlan, 1992 ; Anderson, 1984 ; Devijver et Kitller, 1982).
d i(a) = W i.X t avec Wi = (wi1, w i2, ..., w in) et X =(x1, x2, ..., x n, 1)
d1
C2
C1 d2
C3
d3
Le principe de cette méthode est le même que celui développé précédemment excepté qu’au lieu de
séparer les classes par des hyperplans, on les sépare par des surfaces qui ont généralement la forme
ellipsoïde. La discrimination quadratique utilise plusieurs métriques (une par classe) pour mesurer la
dispersion de chaque classe et la règle de décision est donnée comme suit :
14
Panorama des méthodes de classification
où: x : est un vecteur composé des valeurs des différentes variables descriptives attribuées à l'objet
a.
Les méthodes d’analyse discriminante ont comme difficulté le choix de la métrique à utiliser afin
d’obtenir des classes où les points d’une même classe soient les moins dispersés possibles autour du
centre de gravité de la classe. Ce sont des méthodes totalement compensatoires qui appliquent une
agrégation globale sur les performances des attributs de l'objet. Ceci a pour conséquence un côté
arbitraire de la méthode vu l’hétérogénéité des données.
L’analyse discriminante peut être utilisée dans le diagnostic médical en affectant un patient à une
classe diagnostic en fonction de la valeur de ses paramètres xi, i=1,...,n. L’ensemble
d’apprentissage permet de trouver la fonction discriminante en estimant les coefficients wi. A partir
de cette fonction de décision, on peut affecter n’importe quel patient.
Si un patient ne présente pas de signe de défense et présente les signes de douleur des fosses
iliaques droite et gauche on aura :
Les réseaux de neurones sont à l’origine d’une tentative de modélisation mathématique du cerveau
humain. Le principe général consiste à définir des unités simples appelées neurones, chacune étant
capable de réaliser quelques calculs élémentaires sur des données numériques. On relie ensuite un
nombre important de ces unités formant ainsi un outil de calcul puissant.
L’étude de réseaux de neurones artificiels a débuté au début des années 1940 par les travaux de
McCulloch et Pitts (McCulloch et Pitts, 1943) et a été étendue aux problèmes de classification et
reconnaissance des formes par Rosenblatt (1962). Commençons d’abord par donner quelques
définitions relatives à la théorie des réseaux de neurones.
15
Panorama des méthodes de classification
• Neurone artificiel
Un neurone est une unité de traitement de l’information. La figure 1.4 en donne une représentation
schématique.
S
E1
∑ ϕ(⋅) S’
E2
En
Les valeurs des entrées E1,…, En représentent en général les attributs d’un objet à classer et les
poids W1,…,Wn (ou coefficients synaptiques) associés aux entrées sont des variables de la fonction
score du poids, appelée aussi fonction d’activation du neurone (la fonction d’activation la plus
utilisée est la somme pondérée des valeurs d’entrée). La valeur d’activation est ensuite passée
comme argument à la fonction de sortie qui détermine la valeur de sortie du neurone S’. L’entrée
supplémentaire S sert à indiquer au neurone la valeur de sortie attendue pour qu’il puisse corriger ses
coefficients synaptiques et s’approche de cette valeur.
• Réseau de neurones
Un réseau de neurones se compose de neurones connectés de façon à ce que la sortie d’un neurone
puisse être l’entrée d’un ou plusieurs autres neurones. Les connexions entre les neurones sont dotées
de poids (cf. figure 1.5) :
16
Panorama des méthodes de classification
Poids Poids S1
E1 θ1
W’
W1
S2
θ2
E2
Sn
θn
En
L’objectif de ces algorithmes est de minimiser une mesure d’erreur. La mesure la plus utilisée est
celle de l’erreur des moindres carrés, ce qui revient à minimiser l’expression :
k m
E=∑ ∑ ( S il − S 'il )2 (6)
l =1 i =1
où E est la variable à minimiser, S il la sortie i attendue et S’il la sortie i du réseau pour l’exemple l.
Parmi les méthodes de réseaux de neurones utilisées dans le cadre des problèmes d’affectation nous
citerons :
Cette méthode, due à Rossenblatt (1962), consiste à donner une décision d’appartenance ou non
d’un objet à une classe (cf. figure 1.6).
17
Panorama des méthodes de classification
E1
E2
θ
En
avec : n
1 Si ∑ wi× E i +θ > 0
i =1
S= (7)
0 Sinon
L’équation (7) du perceptron a la même forme que la fonction de discrimination linéaire donnée par
l’équation (4) utilisée dans les méthodes d’analyse discriminante, ce qui signifie que les méthodes du
perceptron sont utilisées pour discriminer des individus linéairement séparables.
Les limites de cette méthode sont décrites par Minsky et Papert (1969).
Afin de traiter les problèmes de classification à plus de deux classes qui ne sont pas obligatoirement
linéairement séparables, on utilise les réseaux à couches. Les réseaux à couches sont connus sous le
nom de perceptron multicouches. Ce sont des réseaux où les neurones sont regroupés en couches
connectées entre elles. On distingue trois types de couches : la couche d’entrée, la couche de sortie
et les couches cachées (figure 1.7).
18
Panorama des méthodes de classification
Couche de
sortie
Wj1
Couche
cachée θ1 θi θj
Wnj
En
Couche E1
d’entrée
Les perceptrons multicouches utilisent le principe de rétro-propagation back -propagation qui est
une généralisation de la méthode de l’erreur des moindres carrés proposée par P.Werbes puis par
D.Rumelhart et al. (1986).
Dans le cas où les classes ne seraient pas linéairement séparables, la méthode de rétro-propagation
ne peut pas utiliser la fonction à seuil, comme celle utilisée dans l’équation (7). Dans ce cas, elle
utilise une fonction dérivable connue comme fonction sigmoïde. Parmi ces fonctions on trouve la
fonction logistique (figure 1.8).
19
Panorama des méthodes de classification
f(x)
f(x) = 1/(1 + e-ax)
où a est un paramètre de pente de f.
1 df(x)/dx = f(x)(1-f(x)) et df(0)/dx = a/4
x
0
Pour plus de détails sur l’approche des réseaux de neurones et leurs applications aux problèmes de
classification, on peut se référer à : Weiss S.M. et Kulikowski (1991), à Hertz. J. et al (1991) et à
l’ouvrage de Bishop (1995).
Au départ, les systèmes connexionistes ont été appliqués dans les domaines de reconnaissance des
formes. Ils peuvent aussi êtres appliqués dans les problèmes de classification des diagnostics
médicaux, lorsqu’on dispose d’un nombre de cas suffisant. La couche d’entrée du réseau
correspond aux symptômes (ou signes cliniques) et la couche de sortie aux différents diagnostics (ou
différents pronostics). Plusieurs applications médicales de l’approche des réseaux du perceptron
multicouches, ont été publiées parmi lesquelles l’application de Sushmita dans le cas de diagnostic
des maladies hépato biliaires (Sushmita M., 1994). Pour d’autres applications des réseaux de
neurones dans le domaine de classification médicale on peut se référer à: Errington et Graham
(1993) ; Sharpe et al. (1993) ; Weinsten et al. (1992) ; Decaestecker (1997).
20
Panorama des méthodes de classification
• Principe
Soit un ensemble d’individus {x 1, x2, …, xn} que l’on veut étudier du point de vue de certaines
variables ou caractéristiques f j avec j ∈ J pour J = {1, ..., n}. Suivant les valeurs f j(xj) de ces
variables en xj, on est amené à effectuer telle ou telle décision sur ces individus. Par exemple :
Où: f 1 désigne la température, f 2 la tension et x1 ∈ C1 indique que le patient est affecté à la classe des
malades.
(f 1(x 1) > 39) et (f 2(x 2) ≠ 12/8) expriment les règles de décision alors que x1∈ C1 représente la
décision.
Pour l’ensemble d’apprentissage T = {(x i,Cj) / i =1,..., m; j=1,..., k} qui contient l’ensemble des
règles initiales, on souhaite obtenir un nouvel ensemble de règles qui soit aussi concis que possible.
Cela peut se faire au moyen d’un arbre que nous appellerons arbre de décision.
Un arbre de décision est une structure simple récursive permettant d’exprimer un processus de
classification séquentiel au cours duquel une correspondance est établie entre un objet décrit par un
ensemble de caractéristiques (attributs), et un ensemble de classes disjointes. Chaque feuille de
l’arbre dénote une classe et chaque nœud intérieur un test portant sur un ou plusieurs attributs,
produisant un sous-arbre de décision pour chaque résultat possible du test.
Soit un ensemble d’apprentissage T = {(xi, Cj) / i =1,...,m; j=1,...,k}. L’idée de construction d’un
arbre de décision utilisant T est de raffiner T en des sous-ensembles successifs menant à des
collections d’objets comportant au plus une classe. On choisit pour cela un test portant sur un ou
plusieurs résultats {R1, R2, ..., RL}.
T est ensuite partitionné en sous-ensembles T1, T2, ..., TL où Ti contient tous les individus de T
présentant le résultat Ri par le test choisi. L’arbre résultant consiste en un nœud de décision
identifiant le test et une branche pour chaque résultat possible. L’étape la plus importante pour la
construction des arbres de décision consiste à choisir le meilleur test. Ceci permet de diminuer le plus
possible le mélange des classes au sein de chaque sous -ensemble créé par le test. Ainsi, le critère de
sélection le plus souvent utilisé est basé sur la théorie de l’information de Shannon (1948). Ce type
de critère est utilisé pour sélectionner les différents tests en utilisant le critère du gain d’entropie
connu sous l’appellation information mutuelle (Quinlan, 1986, 1993). Le processus de division des
cas d’apprentissage se poursuit de manière successive jusqu’à ce que tous les sous-ensembles ne
comportent plus que des individus à classe unique.
21
Panorama des méthodes de classification
La construction par partitionnement peut conduire à des arbres extrêmement complexes qui ne
permettent pas d’extraire les structures significatives des données. Afin d’obtenir un arbre plus
simple et plus précis pour la classification de nouveaux cas on peut appliquer le principe d’élagage
(en anglais, pruning). L’objectif de ce principe est d’améliorer les qualités de généralisation et de
prédiction de l’arbre. Le principe d’éla gage consiste à supprimer les parties de l’arbre jugées inutiles
(ou non performante pour prédire la classe de nouveaux cas). Les sous arbres élagués sont
remplacés par un nœud terminal. Par exemple pour élaguer un arbre de décision l’algorithme C4.5
développé par Quinlan en 1993, part des feuilles vers la racine et calcule pour chaque sous arbre
rencontré, le taux d’erreurs prédit obtenu en le remplaçant par une feuille. Si le taux s’avère inférieur,
l’arbre est élagué (Quinlan, 1993).
Pl ≥ 1.90
Pl < 1.90
Seto=49 Seto=1
Vers=1 Vers=1
Virg=0 Virg=50
Pw<1.70 Pw ≥1.70
Seto=0 Seto=1
Vers=48 Vers=1
Virg=6 Virg=44
Sp<4.90 Sp≥4.90
Seto=0 Seto=0
Vers=46 Vers=2
Virg=2 Virg=4
22
Panorama des méthodes de classification
Dans cet exemple, sept individus sont mal classés : un Sétosa, quatre Versicolore et deux Viginica.
Cet arbre permet de fournir des règles très claires, par exemple :
Si la longueur du pétale est plus grande que 1.9 et si la largeur du pétale est plus grande que 1.7,
alors l’iris est du type Virginica.
Considérons un échantillon de 100 patients dont 50 en bonne santé (bs) et 50 malades. Chaque
patient est caractérisé par deux variables (ou signes cliniques) : la température et la tension. On
notera P1 et P2 les probabilités a priori d’appartenance aux classes C1 et C 2 respectivement (avec :
P1 + P2 = 1).
Dans notre exemple, nous supposerons que : P1 = P2 = 1/2. Les résultats obtenus sont présentés
dans la figure 1.11.
bs=50;m=50
p(bs)=1/2;p(m)=1/2
bs=5;m=40 bs=45;m=10
p(bs)=0.12;p(m)=0.88 p(bs)=0.9; p(m)=0.2
tension ≠ 12/8
tension ≈ 12/8
bs=3;m=8 bs=42;m=2
p(bs)=0.06;p(m)=0.8 p(bs)=0.93;p(m)=0.2
La connaissance de ces probabilités ainsi que les coûts de mauvaise classification nous permettent
d’évaluer les mauvaises classifications et l’espérance de coût associée à chaque feuille.
23
Panorama des méthodes de classification
Les avantages procurés par les méthodes utilisant l’arbre de décision sont leur rapidité et, surtout,
leur facilité quant à l’interprétation des règles de décision. La clarté des règles de décision rend
possible le dialogue homme machine. En outre, elles ne font aucune hypothèse sur les données
(méthodes non paramétriques). Par ailleurs, elles ont l’inconvénient d’être extrêmement complexes si
le nombre d’attributs et de classes augmentent.
Pour les détails de l’approche d’arbre de décision et ses applications cliniques, nous renvoyons les
lecteurs aux travaux de Decaestecker et al. Ces derniers ont appliqué cette méthode dans le
diagnostic des tumeurs Gliales (Decaestecker, 1997) et des tumeurs de la vessie (Decaestecker et
al., 1996).
Les méthodes d’apprentissage déductif utilisent un raisonnement analytique qui est basé sur des
inférences déductives dans le but est de transformer un ensemble de connaissance sous une forme
désirée par l’utilisateur. Parmi les exemples utilisant ce type d’apprentissage on a les systèmes
experts et la théorie des ensembles approximatifs (rough sets). Cette dernière est proposée par
Pawlak au début des années quatre vingt (Pawlak et al., 1986 ; Pawlak, 1991). Dans ce type
d’apprentissage on présentera seulement les méthodes de classification utilisant les systèmes experts.
Interface homme-machine
(logiciel de communication)
24
Panorama des méthodes de classification
Les connaissances sont représentées par une base de règles et une base de faits. Les règles sont des
assertions données sous formes d’implications. Elles peuvent être interprétées comme des conditions
à réaliser pour déclencher une action donnée, et elles ont la forme suivante :
La base des faits contient des assertions qui ne sont pas exprimées sous formes d’implications. Elle
représente une connaissance relevant du cas particulier de l’individu à traiter, laquelle peut être
fournie au système ou bien déduite par celui-ci.
Pour affecter les individus aux différentes classes, le système cherche l’ensemble de règles
applicables en effectuant un choix puis il applique la règle choisie et recommence le cycle. Le
processus s’arrête lorsqu’il n’y a plus de règle applicable ou lorsque le but est atteint. Ce traitement
est appelé moteur d’inférence. L’efficacité de ce raisonnement dépend de la pertinence du choix des
règles.
L’affectation des individus se fait à l’aide d’un ensemble de règles comme dans les méthodes utilisant
l’arbre de décision. Dans les systèmes experts, les classes et les règles d’affectation sont données
par une expertise et non pas par un ensemble d’exemples (à l’inverse, les arbres de décision utilisent
un ensemble d’exemples pour déterminer les classes et les règles d’affectation).
Règle 9 : Si quadrilatère et côtés deux à deux égaux et angles droits Alors rectangle
L’un des avantages des systèmes experts est qu’il est très facile d’exprimer des connaissances
certaines et précises. Leur principal inconvénient réside dans la difficulté de l’expert à exprimer sa
connaissance et du grand nombre de règles nécessaires pour la plupart des applications d’intérêt
pratique. En outre, les systèmes experts sont adaptés pour traiter des problèmes utilisant uniquement
des variables qualitatives et à des problèmes pour lesquels il n’existe pas de solution algorithmique.
25
Panorama des méthodes de classification
Les systèmes experts ont été appliqués dans plusieurs domaines médicaux. Parmi ces systèmes de
diagnostic, nous citerons le système MYCIN. Ce dernier est appliqué pour diagnostiquer les
infections bactériennes du sang (ou les septicémies) en décrivant les liens entre les symptômes et les
causes possibles de la maladie. Ce système de diagnostic utilise des connaissances codées sous
forme de règles de productions (Shortliffe, 1976). Les connaissances MYCIN tentent de modéliser
à haut niveau conceptuel les déductions qu’un expert utilise dans son processus diagnostic. MYCIN
donne des solutions auxquelles est associé un degré de crédibilité. Ce degré de crédibilité est
compris entre –1 et 1. Plus la valeur de crédibilité est proche de un, plus on affirme la conclusion
avec certitude. Les valeurs négatives expriment de la même manière la crédibilité de négation de la
conclusion. Une des règles de production du système MYCIN fournies par les spécialistes en
médecine tropicale et infectieuse est illustrée dans la figure 1.13 (Degoulet et Fieschi, 1994). Un
autre système d’aide au diagnostic médical est le système développé récemment par l’équipe de
Bartels (Bartels et al., 1996). Ce système est basé sur la logique floue pour aider au diagnostic et
pronostic des lésions prostatiques tumoral.
En pratique pour résoudre certains problèmes de classification (par exemple le diagnostic des
défaillances des machines et celui de leucémies aiguës), le décideur a besoin d’une méthode qui
utilise deux types d’apprentissages inductif et déductif à la fois. En effet, à notre connaissance aucune
méthode de classification décrite dans la littérature n’arrive à combiner les deux types
d’apprentissages. Ce besoin constitue la deuxième raison qui nous a poussé à développer de
nouvelles méthodes de classification.
Par ailleurs, très peu de méthodes utilisant le domaine d’aide multicritère à la décision ont été
appliquées dans le domaine d’aide au diagnostic médical (Du Bois et al., 1989). Ce fait nous a
encouragé à développer de nouvelles méthodes de classification multicritère pour traiter les
problèmes de classification médicale.
26
Panorama des méthodes de classification
Parmi les méthodes de classification utilisant le domaine d’aide multicritère à la décision, nous
mentionnons la méthode Trichotomique décrite par Moscarola et Roy en 1977 et est limitée au
problème à trois classes. La généralisation de la problématique à plus de trois classes peut être
traitée par les méthodes N-TOMIC (Massaglia et Ostanello, 1991), ELECTRE TRI (Yu, 1992) , la
technique des robots (Bana e Costa, 1992) et plus récemment les méthodes de filtrages flous
développées par Perny (1998). Ces méthodes déterminent des points de référence des catégories à
partir d’un ensemble d’apprentissage. Ce qui implique que ces méthodes utilisent uniquement
l’apprentissage inductif.
La plus part des méthodes de classification mentionnées dans ce chapitre ont été largement
appliquées dans plusieurs domaines y compris les problèmes de classification médicale. La question
qu’on peut se poser est la suivante : comment évaluer les performances d’une méthode de
classification ? En général, on divise l’ensemble de données disponible en deux sous-ensembles : l’un
servira pour l’apprentissage et l’autre pour le test. L’ensemble d’apprentissage est utilisé pour
déterminer les paramètres du modèle de classification, par exemple les poids dans le cas d’un réseau
de neurones ou les prototypes des catégories dans le cas des méthodes de classification multicritère.
L’ensemble de test sert pour tester les performances de la méthode en calculant le taux de
classification correcte de l’ensemble des cas. Ce taux est déterminé en divisant le nombre de cas
bien classés sur le nombre des cas testés.
Parfois on est confronté à des problèmes où l'ensemble de données est restreint et on veut exploiter
ces données disponibles pour construire le classificateur d’une part et tester les performances de la
méthode d’autre part. Pour cela on fait appel aux techniques de rééchantillonage (resampling
techniques) ; parmi lesquelles la technique de validation croisée (cross-validation) est la plus utilisée.
Le principe de cette technique consiste à diviser aléatoirement l’ensemble des données en m
partitions mutuellement exclusives (m -fold cross-validation). Ensuite la méthode est construite à
partir de l’ensemble des partitions moins une qui servira de test. Après on réitère le processus en
introduisant la partition testée dans l’ensemble d’apprentissage et en prenant une autre partition
d’apprentissage pour tester la méthode et ainsi de suite jusqu'à ce que toutes les données seront
utilisées tantôt pour l’apprentissage et tantôt pour le test. La moyenne des taux de classification
correcte sur toutes les partitions de test correspond au taux de prédiction.
27
Panorama des méthodes de classification
concernant les techniques de rééchantillonages le lecteur peut se référer à (Weiss et al., 1991 et
Kohavi, 1995).
Leave-One-Out 10-fold Cross Validation
Nombre de cas utilisaient pour
l’apprentissage dans chaque n- 1 90%
itération
Nombre de cas utilisaient pour le
1 10%
test dans chaque itération
Nombre d’itérations n 10
Tableau 1.2. Techniques de validation croisée
28
Aide multicritère à la décision et problématique du tri
Cette partie vise à définir quelques notions et concepts de base nécessaires pour mieux cerner notre
domaine de recherche.
1. Aide à la décision
Vu la grande complexité des problèmes de décision, un individu ou un groupe d’individus fait le plus
souvent recours à une aide extérieure afin de prendre une décision. Cette aide est dirigée par des
analystes spécialistes du domaine ou experts : les “hommes d’études”. Ces derniers prennent en
charge l’aide à la décision en donnant des conseils sur la formulation du problème et les démarches à
suivre pour aboutir à une décision finale.
L’aide à la décision a connu une grande ampleur dans la deuxième moitié de ce siècle. C’est en effet
après la deuxième guerre mondiale qu’un très grand nombre de travaux ont été développé. Ces
travaux peuvent être subdivisés en trois grandes familles correspondant à trois démarches différentes
(Roy B., 1985 ; 1990). La première voie vise à la recherche d’une meilleure décision correspondant
à une solution optimale. Ainsi les analystes utilisant cette démarche, formulent le problème et utilisent
les méthodes et les techniques de la recherche opérationnelle pour le résoudre. La deuxième voie
consiste à concevoir un ensemble de règles, constituant un ensemble d’axiomes ou d’exigences. Il
caractérise le comportement rationnel en matière de décision. L’analyste conçoit un ensemble
raisonnable de postulats afin que le décideur puisse tirer les conclusions adéquates concernant sa
décision. Parmi les travaux utilisant cette démarche la théorie de l’utilité espérée de Von Neumann-
Morgenstern (1954) et l’utilité multiattribut de Keeney et Raïffa (1976). La troisième voie a pour
objet de fournir au décideur des conseils et des recommandations. Elle ne cherche pas à donner une
décision optimale du fait des conflits et des transformations qui interviennent pendant le déroulement
de la procédure de décision. Mais elle fournit plutôt une décision appropriée résultant d’une action
de compromis. De plus, elle permet d’impliquer le décideur dans la phase de la construction du
modèle afin qu’il puisse y intégrer ses préférences. Par opposition aux deux premières grandes
familles, cette troisième ne considère pas le décideur comme rationnel. Pour plus de détails
concernant cette démarche ainsi que les critiques des deux premières approches nous renvoyons le
lecteur aux références de Roy (1968 et 1985), Bouyssou (1984) et Moisdon (1986).
C’est cette dernière démarche que nous suivrons dans la réalisation de notre travail.
L’ensemble des actions potentielles A, est défini comme un ensemble d’objets qui contribuent à la
décision globale ou envisageable dans la perspective décisionnelle (Roy, 1985). Cet ensemble peut
être défini de deux manières :
En extension, c’est-à-dire par énumération de ses éléments ceci n’est possible que dans le cas où
A serait fini et de cardinal relativement faible. Dans cette forme, l’ensemble A est représenté par une
liste {a 1, a2,..., an} d’actions potentielles.
29
Aide multicritère à la décision et problématique du tri
En compréhension, c’est-à-dire lorsque A est défini par un système de contraintes, dans le cas où
A est infini ou de cardinal très élevé. Dans cette forme, l’ensemble A est représenté par un sous -
ensemble de Rk où chaque action est définie par un vecteur (x1, x2 , ..., xk ).
Lorsque l’ensemble A est défini a priori sans modification durant le processus, nous dirons qu’il est
stable. Dans le cas contraire, nous dirons qu’il est évolutif. Dans le processus d’aide à la décision, on
est souvent amené à utiliser des actions fictives ou imaginaires. Elles sont considérées soit comme
une action idéalisée, pour connaître la réaction du décideur, soit comme un objet de référence (ou
prototype) dans les problèmes de classification multicritère.
Les études d’aide à la décision se basent sur la comparaison des actions. Cette comparaison fait
apparaître diverses situations de préférences qui peuvent être modélisées par des relations binaires2.
Le modèle classique ne distingue que deux situations différentes : la préférence et l’indifférence. Afin
d’éviter les inconvénients et le manque de réalisme de ce modèle, Roy propose quatre situations
fondamentales de préférence : l’indifférence, la préférence stricte, la préférence faible et
l’incomparabilité (Roy, 1985). Ces structures sont représentées par les relations binaires suivantes :
• a R b : «a est incomparable à b», dans le cas où les trois situations précédentes seraient
absentes. R est irréflexive et symétrique.
A partir de ces quatre situations de préférence, on peut former les regroupements de relations
suivantes :
• ∼ « Non-préférence » : ∼ = I ∪ R
Ces relations constituent une structure de préférence sur A si elles sont exhaustives et mutuellement
exclusives. Elles sont dites “exhaustives” si pour une paire d’actions quelconques une au moins est
vérifiée. Elles sont dites “mutuellement exclusives” pour une paire d’actions quelconques, deux
relations distinctes ne sont jamais vérifiées en même temps.
2
H est une relation sur A Ssi H ⊆ A×A = { (a, b) / a∈A et b∈A}.
3
on dit que H est :
- réflexive ssi a H a ∀ a ∈ A ;
- irréflexive ssi non(a Ha) ∀ a ∈ A ;
- symétrique ssi a H b ⇒ b H a ;
- asymétrique ssi a H b ⇒ non( b H a).
4
a (H ∪ T) b ⇒ a H b ou a T b.
30
Aide multicritère à la décision et problématique du tri
Dans la formulation du problème, il est nécessaire de prendre en compte les conséquences des
actions potentielles. En général, les circonstances réelles de décision sont multiples et variées. A
partir d’évaluations des conséquences, nous pouvons comparer les actions en terme de préférence.
Devant un nombre généralement vague et lourd de conséquences, les préférences fournies par le
décideur ne sont pas toujours bien définies et stables.
Nous appellerons critère une fonction réelle g qui permet de déterminer le résultat de la
comparaison de tous les paires d’actions de sorte que :
Si (g(a) = g(b)), alors l’action a est indifférente à l’action b selon le point de vue modélisé par
le critère g, et on note : a Ig b.
Si (g(a) > g(b)), alors l’action a est strictement préférée à l’action b selon le point de vue
modélisé par le critère g, et on note : a Pg b.
Si g(a) ≥ g(b), alors l’action a est au moins aussi bonne que l’action b, selon le point de vue
modélisé par le critère g, et on note : a Sg b.
En pratique le modèle précédant ne reflète pas en général la réalité parce que les petits écarts positifs
(g(a) - g(b)) ne peuvent pas être considérés comme des préférences strictes. L’exemple de la tasse
de café montre les limites de ce modèle (Luce, 1956). Afin de remédier à ces inconvénients, nous
introduirons deux seuils de discrimination pg et qg, avec pg ≥ qg, et nous aurons le modèle de
préférence suivant :
•g(a) - g(b) ≤ qg ⇔ a Ig b
. vrai critère si qg = pg = 0 ;
. pseudo-critère si qg ≠ 0 et p g ≠ 0 ;
. quasi critère si qg = pg ≠ 0 ;
. pré-critère si qg = 0 et p g ≠ 0.
La structure associée à (Ig, Qg, >g) est nommée “pseudo-ordre” (Roy et Vincke, 1984, 1987 ;
Vincke, 1988).
31
Aide multicritère à la décision et problématique du tri
La structure associée à (Ig, >g) porte le nom de “quasi-ordre”, (Jacquet lagrèze, 1975 ; Fishburn,
1977 ; Vincke, 1978 ; Roubens et Vincke 1985 ; Doignon, 1988 ; Abbas, 1994 ; Pirlot et Vincke,
1997).
L’analyse multicritère consiste à construire des modèles qui traitent les problèmes de décision en
tenant compte de plusieurs critères. Chaque critère traite un ensemble de conséquences homogènes.
Il est difficile de trouver une solution unique parce qu’il est rare qu’il n’y ait pas de conflit entre les
critères.
L’analyse multicritère consiste à prendre appui sur une famille cohérentes de critères F={g1,g2,...,
gn} construite à partir d’un ensemble de conséquences.
A propos de la définition d’une famille cohérente de critères ainsi que les tests opérationnels pour
vérifier qu’une famille de critères est cohérente nous renvoyons le lecteur aux travaux de Roy
(1985) ; Bouyssou (1990) ; Bouyssou et Roy (1993).
L’évaluation (ou la performance) de chaque action de A = {a1, a2, ..., an} sur une famille de critères
F est donnée par gj(ai). Ces évaluations peuvent être résumées par le tableau 2.1.
g1 G2 ........... gj ............. gn
a1 g 1(a1) g2(a1) ........... g j(a1) ............. gn(a1)
a2 g 1(a2) g2(a2) ........... g j(a2) ............. gn(a2)
.... ............ ........... ........... .......... ............. ...........
ai g 1(ai) g2(ai) ........... g j(ai) ............. gn(ai)
.... ............. ............ ........... ............. ............. ............
am g 1(am) g2(am) ........... g j(am) ............. gn(am)
Tableau 2.1. Tableau de performances
4. Problématiques de référence
La mise en évidence de façon systématique et formalisée des informations relatives à l’ensemble des
actions de A et de leurs conséquences est appelée “problématique de description”. Celle -ci
terminée, on s’intéressera à la manière de juger les actions. Comme l’a souligné Bana e Costa, il
32
Aide multicritère à la décision et problématique du tri
existe deux types de jugements : les jugements absolus et les jugements relatifs (Bana e Costa,
1993).
Un jugement absolu porte sur une seule action de l’ensemble A, en la comparant avec des actions de
référence (ou prototypes), indépendamment des autres actions de A. Par exemple, «la tumeur est
maligne » constitue un jugement absolu.
Le jugement relatif quant à lui, porte sur au moins deux actions de l’ensemble A, soit en les
comparant les unes avec les autres dans le but de choisir la meilleure, soit en les rangeant de
meilleure au pire (ou le contraire). Par exemple, «l’étudiant a est meilleur que l’étudiant b» constitue
un jugement relatif.
Il n’existe aucun lien entre un jugement absolu et un jugement relatif. Dans une classe, où la meilleure
note est par exemple de 5 sur 20, on jugera que le meilleur étudiant est mauvais. Le premier
«meilleur » est un jugement relatif alors que le jugement «mauvais » est un jugement absolu.
Cette problématique d’évaluation contient trois autres problématiques décisionnelles, qui sont :
Problématique du choix (P. α ) : elle consiste à sélectionner les meilleures actions. Cette
problématique cherche un ensemble aussi réduit que possible, contenant la ou les meilleures actions
(voir figure 2.1).
A
a. b. t. v. b. x.
d. k. x. l. k.
Problématique du rangement (P. γ ) : elle consiste à ranger les actions selon un ordre de préférence.
Cette problématique cherche à obtenir un préordre complet ou partiel sur l’ensemble A, c’est-à-dire
un ordre complet ou partiel entre les classes d’équivalences. Etant donné qu’il est difficile de
comparer certaines actions entre elles, l’ordre obtenu entre les classes est souvent partiel (voir figure
2.2).
33
Aide multicritère à la décision et problématique du tri
t. b. f.
s. n. l.
n. d. g. a.
k. s. f. t. c.
w. b. l. a.
c. k.
w.
d. g.
Problématique du tri (P. β ) : elle consiste à affecter les actions à des catégories (ou classes)
prédéfinis. Cette problématique affecte les actions à des catégories en examinant leur valeur
intrinsèque (voir la figure 2.3).
o. a. C1
A
z. C2
d. s. n. o. z.
r. t. w. x.
a. m.
r. x. C3
d.
n. x. C4
r. m. C5
34
Aide multicritère à la décision et problématique du tri
La problématique du tri peut être soit ordinale, dans le cas où les classes seraie nt complètement
ordonnées soit nominale dans le cas où il serait difficile d’établir un ordre entre les catégories. Cette
problématique sera l’objet de notre travail.
Problématique de
description
Problématiques d’évaluation
Problématique Problématique
d’évaluation
absolue d’évaluation
relative
Problématique
du choix
Problématique
du tri nominal
Problématique
du tri ordinal Problématique
du rangement
35
Aide multicritère à la décision et problématique du tri
5.1. Définition
Le décideur est parfois confronté à des problèmes d’évaluation absolue. Dans ce cas, l’homme
d’étude peut opter pour la problématique du tri. Cette dernière, consiste à poser le problème en
terme d’affectation de chaque action de A (ou d’une action isolée) à une ou plusieurs catégories
(minimum deux). Ceci se fait à travers un examen de la valeur intrinsèque de l’action en se référant à
des normes préétablies. Roy (1978) a proposé la définition de base de la problématique du tri
comme suit : “La problématique du tri P.β consiste à poser le problème en terme de tri des
actions par catégories, celles-ci étant conçues relativement à la suite à donner aux actions
qu’elles sont destinées à recevoir, c’est à dire à orienter l’investigation vers la mise en
évidence d’une affectation des actions de A à ces catégories en fonction de normes portant
sur la valeur intrinsèque de ces actions et ce compte tenu du caractère révisible et/ou
transitoire de A ; cette problématique prépare une forme de recommandation ou de simple
participation visant :
soit à préconiser l’acceptation ou le rejet pour certaines actions, d’autres pouvant donner lieu
à des recommandations plus complexes compte tenu de la conception des catégories ;
soit à proposer l’adoption d’une méthodologie fondée sur une procédure d’affectation à des
catégories de toutes les actions convenant à une éventuelle utilisation répétitive et/ou
automatisée”.
Dans le cas où l’action ne vérifie pas les normes ou les règles d’affectation, elle sera affectée à une
classe à part connue sous l’appellation “classe poubelle”. En plus, une action peut être affectée à
plusieurs classes ; on parle alors d’une “multi-affectation”.
Les cas où les catégories sont ordonnées et sont caractérisées par une séquence d’actions de
référence limite. Chacune de catégories est représentée par deux familles d’actions de référence, une
inférieure (constituant la borne inférieure) et une supérieure (constituant la borne supérieure). Cette
classe de problématique est connue sous le nom de la “problématique du tri ordinal” (ou
“segmentation multicritère”). Parmi les exemples de problèmes traités par la problématique du tri
ordinal, on peut citer :
l’octroi de crédits, où les actions sont les dossiers des demandeurs de crédits et les catégories sont
les différentes classes de décisions : “Crédit accordé immédiat” ; “crédit plutôt favorable” ; “crédit
défavorable” ; “crédit refusé”.
l’évaluation des étudiants, les actions représentent les étudiants et les catégories sont les différentes
mentions : “très bon” ; “bon” ; “assez bon” ; “plutôt bon” ; “mauvais” ; “plutôt mauvais” ; “très
mauvais” ; “incertain”.
36
Aide multicritère à la décision et problématique du tri
Les cas où les catégories ne sont pas ordonnées et sont caractérisées par une ou plusieurs actions
types (actions de référence centrale ou prototypes). Cette classe de problématique est connue sous
le nom de la “problématique du tri nominal” (ou “discrimination multicritère”). Parmi les exemples de
problèmes traités par la problématique du tri nominal, on peut citer :
le diagnostic médical ou de défaillances des machines : les actions sont caractérisées par les
symptômes présents chez le patient (ou chez une machine) et les catégories sont représentées par la
symptomatologie typique d’une pathologie (ou d’une panne).
Dans la suite de nos travaux, tous les problèmes d’affectation caractérisés par les actions de
référence limites seront considérés comme des problèmes de tri ordinal tandis que les problèmes
caractérisés par les actions de référence type (ou prototypes) seront considérés comme problèmes
de tri nominal.
En général, pour résoudre les problèmes de tri, on suit les deux phases suivantes :
Les catégories sont conçues pour recevoir des actions potentielles, conformes aux normes
d’affectation (on entend par norme d’affectation les actions de référence et la procédure
d’affectation). Cette phase est distinguée par deux étapes l’une de structuration et l’autre de
validation :
• Etape I : Structuration
Dans cette étape les différentes actions de référence ainsi que leurs paramètres (critères, seuils,
coefficients d’importance,...) sont tirés à partir des connaissances disponibles au préalable (formées
d’un ensemble d’exemples et/ou un ensemble de règles logiques) et généralement donnée par le
décideur.
• Etape II : Validation
Il s’agit de valider ou inférer les paramètres trouvés dans l’étape précédente à travers les exemples
d’affectation donnés par le décideur. Pour cela, on utilise l’une des deux techniques suivantes :
Technique directe : elle consiste à inférer directement les paramètres à travers un ensemble
d’exemples d’affectation. Avec l’intervention du décideur, on opère selon l’organigramme présenté
par la figure 2.5.
37
Aide multicritère à la décision et problématique du tri
Structuration
test *? non
oui
Validation
Technique indirecte : elle consiste à ajuster les paramètres sans l’intervention directe du décideur.
Cette technique nécessite un effort cognitif beaucoup plus faible que la première. On demande
seulement au décideur une information globale (étape de structuration), puis on utilise une méthode
automatique qui détermine directement les paramètres optimaux, en minimisant les erreurs
d’affectation. Cette méthode automatique utilise des procédures d’inférence. La technique indirecte a
été utilisée par Mousseau et Slowinski (1996) afin d’ajuster les paramètres d’une méthode du tri
ordinal Electre tri en se basant sur une information globale donnée par le décideur. Ces auteurs ont
essayé de déterminer les paramètres de référence en résolvant un programme mathématique.
38
Aide multicritère à la décision et problématique du tri
Phase II : Affectation
Après la détermination des normes d’affectation, on procède à l’affectation des nouvelles actions
aux différentes catégories. La plupart des méthodes de classification supervisée utilisent ces mêmes
techniques de structuration/validation.
Les catégories sont modélisées par des actions de référence limites constituant les frontières inter-
catégories. Chaque catégorie est limitée par deux familles d’actions de référence : une inférieure et
une supérieure. De ce fait, la règle d’affectation est formulée de la manière suivante : toute action qui
est jugée comme étant entre les deux frontières d’une catégorie, doit être affectée à la catégorie en
question.
- Hypothèses du problème
Hypothèse 1 : Les catégories sont ordonnées et notées Ch, avec h variant de 1 à k. C1 est la
catégorie la plus basse et Ck est la catégorie la plus haute. C1 est délimitée par b 0 et b 1 ; C i par bi-1 et
bi (avec i variant de 1 à k).
Hypothèse 2 : Pour délimiter les catégories on introduit k+1 profils de référence tel que : g(bh)=
(g1(bh), g 2(bh), ..., g n(bh)), avec h variant de 0 à k, et vérifiant :
Hypothèse 3 : La catégorie Ch (h = 1, ..., k) est fermée en bas par l’action de référence b h-1,
autrement dit :
Unicité : chaque action doit être affectée à une et une seule des catégories ordonnées.
39
Aide multicritère à la décision et problématique du tri
Indépendance : l’affectation d’une action quelconque de A ne dépend pas de l’affectation des autres
actions.
Conformité aux profils limites : l’affectation des actions aux catégories doit être conforme à la
conception des actions de référence.
Formellement ;
si [{(a S bh-1) et (non(b h-1 S a))} et {(b h S a) et (non (a S bh ))} ], alors a ∈ Ch.
Monotonicité : Si l’action a’ domine l’action a (a’ ∆F a ), alors a’ doit être affectée à une catégorie
supérieure ou égale à celle de a. Formellement,
Où : a’ ∆ F a ⇔ g j (a’) ≥ gj (a) ∀ g j ∈ F.
Homogénéité : l’affectation de l’action a à l’une des catégories se fait uniquement à partir d’une
relation de surclassement. De plus, toutes les actions de A qui vérifient les conditions suivantes
doivent être affectées à la même catégorie Ch (avec : j ≤ h ≤ k) :
- Procédures d’affectation
Les procédures proposées dans ce paragraphe, sont appliquées aux problèmes du tri ordinal et
vérifient les hypothèses citées ci-dessus. Elles se basent sur l’approche de surclassement qui est
fondée sur une logique compensatoire locale et non totale. De plus, elle accepte l’incomparabilité
dans la modélisation des préférences globales et n’impose pas la propriété de transitivité a priori.
Moscarola et Roy (1977) sont les premiers à utiliser l’approche de surclassement dans les méthodes
de classification supervisée. Les travaux de Massaglia et Ostanello (1991) et de Yu (1992) ont
permis l’application de l’approche de surclassement à plus de trois classes. Nous présenterons les
procédures de Yu (1992) suivantes:
Pour pouvoir affecter une action a de A à une catégorie, il est nécessaire que l’action a surclasse
l’action de référence basse de la catégorie. Ceci se fait en commençant par comparer l’action a à
la plus haute action de référence bk (avec b k S a, ∀ a ∈ A). Ensuite on descend échelon par
échelon jusqu’à trouver la bonne catégorie.
40
Aide multicritère à la décision et problématique du tri
Procédure :
Pour pouvoir affecter une action a à une catégorie, il est nécessaire que l’action de référence haute
soit strictement préférée à l’action a. Ici en commence par la première action de référence b0 (avec a
S b0) puis en grimpe les échelons.
Procédure :
Les méthodes développées ainsi que les propriétés concernant cette classe de problématique seront
détaillées dans la prochaine partie.
41
PARTIE B
MÉTHODES
DÉVELOPPÉES
Cette partie est divisée en quatre chapitres. Elle est consacrée à la présentation des nouvelles
méthodes de classification multicritère dans le cadre de la problématique du tri nominal. Dans le
premier chapitre de cette partie (Chap. 3) nous présentons la description générale de la
problématique du tri nominal ainsi que les différentes propriétés des méthodes d’affectation. Le
deuxième chapitre (Chap. 4) détaille la procédure de choix dans le cadre de la problématique du tri
nominal PROCTN. Le troisième chapitre (Chap. 5) traite la procédure d’affectation floue dans le
cadre de la problématique du tri nominal PROAFTN. Enfin, le dernier chapitre de cette partie
(Chap. 6) est consacré à la présentation de la procédure de choix flou dans le cadre de la
problématique du tri nominal PROCFTN. Cette dernière procédure combine le principe du choix
utilisé dans la méthode PROCTN et les indices d’indifférence floue déterminés par la procédure
PROAFTN.
PROCTN
PROCFTN
PROAFTN
Abréviation
1. Introduction
Nous considérerons dans la suite de nos travaux par problématique du tri nominal, tous les
problèmes d’affectation qui seront caractérisés par des actions de référence centrales (ou
prototypes). Ainsi, si on est devant un problème d’affectation dont les classes ont une signification
ordinale et qu’on ne parvient pas à les cerner par des actions de référence limites, on considérera ce
problème comme étant une problématique du tri nominal. Le diagnostic des tumeurs astrocytaires5 en
est un exemple où les classes représentent les degrés de malignité. Puisqu’on peut pas représenter
les classes par les actions de référence limites, alors le problème de diagnostic des tumeurs
astrocytaires sera traité comme une problématique du tri nominal.
Les catégories sont modélisées par des actions de référence qui représentent les types d’actions liées
à chaque catégorie. Ces actions sont connues sous le nom actions de référence centrales ou
prototypes. Chaque catégorie Ch, h = 1,…, k, est représentée par Lh actions de référence
centrales, formant une famille Bh d’actions de référence centrales tel que : B h = b1h , b2h ,..., b Lhh { }
avec : L h ≥ 1 et h = 1, …, k .
La règle d’affectation, dénommée ci-après : règle TRIN, associée à une catégorie, est formulée de
la manière suivante :
“Toute action qui est jugée comme étant indifférente ou sensiblement équivalente à au moins
l’une des actions de référence centrales doit être affectée à la catégorie correspondante”
• Profils de référence
Les méthodes développées ont pour objet de résoudre les problèmes d’affectation
multidimensionnel. De ce fait, les actions seront représentées par une famille cohérente de critères ou
un ensemble d’attributs ; F = {gj / j = 1, ..., n} avec n ≥ 3. Chaque action de référence centrale est
définie par ses performances qui sont évaluées sur une famille de critères F. Ces performances
définissent un profil de référence qui est représenté par un vecteur de valeurs g(bih) :
∀ h ∈ {1, …, k} et ∀ i ∈ {1, ..., Lh} ; g(bi ) = (g1(bi ), g2(bi ), ..., gn(bi )).
h h h h
5
Le problème du diagnostic des tumeurs astrocytaires (font partie des tumeurs cérébrales) sera traité dans la troisième partie de ce
travail.
6
La fonction d’appartenance est utilisée dans la théorie des ensembles flous pour refléter le degré d’appartenance d’un objet à une
classe en le graduant sur une échelle de 0 à 1. Pour plus de détails concernant les sous-ensembles flous nous renvoyons le lecteur à
consulter les références de Zadeh (1965), de Kaufmann (1975) et l’ensemble des revues Fuzzy sets and systems.
44
Description générale de la problèmatique du tri nominal
Condition 1. Les actions de référence d’une même catégorie sont incomparables7 entre elles : ∀ bih
∈ B et ∀ bj ∈ B on a : bi R bj .
h h h h h
Condition 2. Pour toute paire de catégories, au moins une action de référence d’une catégorie est
incomparable à toutes les actions de référence de l’autre catégorie. Formellement ;
La méthode du tri nominal traite les problèmes de classification multicritère qui consistent à affecter
les objets à des catégories représentées par des actions de référence centrales. Formellement on
peut définir la méthode du tri nominal par la définition suivante :
Définition 1. Soient
I : une relation d’indifférence utilisée pour comparer les actions à affecter et les actions de
référence centrale ;
f : une fonction de l’ensemble des actions A vers l’ensemble des parties de Ω , ℘ (Ω ) telle
que :
ai f(a i) ∈ ℘ (Ω )
f :A ℘ (Ω )
Une méthode de tri nominal est définie comme étant une fonction ℑ de quadruple (A, B, I, Ω ) vers
une relation R qui associe à chaque action a de A un élément de ℘ (Ω ). Donc on aura :
ℑ : (A, B, I, Ω ) R ⊆ A×℘ (Ω )
Pour qu’elle soit conforme à l’objectif de la problématique du tri nominal d’une part et à la
conception des actions de référence d’autre part la méthode du tri nominal doit satisfaire certaines
propriétés fondamentales. En se référant aux propriétés de la méthode du tri ordinal de Yu (Yu,
7
La définition de la relation d’incomparabilité est donnée dans la partie A, ch. 2, § 2.2.
45
Description générale de la problèmatique du tri nominal
1991) on a pu définir six principes fondamentaux qui caractérisent une méthode du tri nominal. Ces
principes sont regroupés sous forme d’axiomes définit ci- dessous :
Axiome 1 : l’universalité,
Formellement ;
ℑ(A, B, I, Ω ) = {(aj, f(aj)), ∀ aj ∈ A} tel que (aj, f(aj)) est l’unique couple de R d’origine a j.
Axiome 2 : l’indépendance,
L’affectation d’une action de A ne dépend pas de l’affectation des autres actions.
Formellement ;
Soit A’ l’ensemble d’actions A auquel on a ajouté ou enlevé une action. L’axiome 2 est formulé
comme suit :
∀ a k ∈ A ∩ A’
Cet axiome indique que l’affectation de chacune des actions est fondée sur leur valeur intrinsèque.
C’est-à-dire l’ajout ou le retrait d’une action de A ne doit pas remettre en cause les affectations
opérées antérieurement.
Axiome 3 : la neutralité,
Formellement ;
si on note, a σ(i) l’action obtenue en permutant l’indice de l’action i∈{1,…, m}, en indice σ (i) ≠ i et
σ(i) ∈ {1,…, m} et A’ la permutation de A ; on aura :
46
Description générale de la problèmatique du tri nominal
Autrement dit, la méthode du tri ne dépend pas du label attaché à chaque action.
Axiome 4 : la nominalit é,
Formellement ;
Si on note, Cσ(h) la catégorie obtenue en permutant l’indice h ∈ {1, …, k}, en indice σ (h) ≠ h et
σ(h) ∈ {1, ..., k}, et si on note aussi Ω ’ la permutation de Ω telle que : ∀ C ∈ Ω ⇒ C σ ∈ Ω ’, on
h (h)
aura :
Cet axiome traduit le fait que les catégories sont numérotées d’une manière arbitraire.
Formellement ;
(aj, C h) ∈ ℑ(A, B, I, Ω ).
Autrement dit, une action est affectée à une catégorie si elle est indifférente à au moins une action de
référence, i.e., la méthode vérifie la règle d’affectation TRIN.
Axiome 6. la stabilité,
Formellement ;
Si on note par Ω ’ = {C 1, C2, ..., CH, …, Ck} l’ensemble des catégories obtenu à partir de
l’ensemble Ω en regroupant les deux catégories C h1 et C h2 en CH, on aura :
[(a ∈ C ) et (a ∉ C , ∀ l ≠ H)]
H l
Cet axiome est à vérifier à chaque étape afin d’éviter les contradictions. Par exemple, les leucémies
aiguës8 se divisent en deux groupes : les leucémies aiguës lymphoblastiques (LAL) et les leucémies
aiguës myéloblastiques (LAM). Selon la classification F.A.B9 les LAL se subdivisent en trois classes
(LAL L1, LAL L2 et LAL L3) et les LAM en six classes (LAM M1, LAM M2, LAM M3, LAM
M4, LAM M5 et LAM M6). En ignorant les subdivisions des deux groupes et en appliquant la
méthode, le patient est affecté par exemple à la classe LAL. Une fois la méthode réappliquée en
incluant les subdivisions, le même patient sera affecté à une sous-classe de LAL.
8
Le problème de classification de leucémie aiguës sera traité dans la partie C, chap. 7, de ce travail.
9
F.A.B : c’est une proposition de classification des leucémies aiguës élaborée en 1976 par le groupe Franco -Américano-Britanique.
48
Procédure de choix dans le cadre de la problématique du tri nominal
1. Introduction
2. Données et notations
A : l’ensemble des actions potentielles à affecter aux différentes catégories (cf. partie A,
chap. 2, §2.1).
Ω : l’ensemble de k catégories ou classes / Ω ={C , C , ..., C }.
1 2 k
En pratique, les performances des actions de référence centrale sont généralement données sous
formes d’intervalles. Par exemple, dans le diagnostic médical de leucémies aiguës 10 les critères de
classification sont donnés sous forme d’intervalles et non pas sous forme de valeurs précises. Ainsi
pour chaque critère g j on associe à chaque action de référence centrale b ih l’intervalle [S1j(bih),
S2j(bih)] avec S1j(bih) ≤ S 2 j(bih), j=1,…,n, h=1,…,k et i=1,..,Lh. .
Pour chaque critère on définit une échelle notée E j. Cette dernière est un sous -ensemble de
l’ensemble des nombres réels R (E j ⊆ R) et ses éléments correspondent aux valeurs que peuvent
prendre les performances des actions de  sur le critère gj. Dans cette section on supposera que les
critères sont quantitatifs.
Le principe de la procédure PROCTN est de déterminer un sous-ensemble aussi réduit que possible
d’actions de référence centrale qui ont le meilleur écart avec l’action a à affecter. A partir de ce
sous-ensemble d’actions de référence centrale la décision concernant l’affectation d’une action à une
10
Le problème de la classification des leucémies aiguës sera traité dans la partie C de ce travail.
49
Procédure de choix dans le cadre de la problématique du tri nominal
catégorie peut être prise en utilisant la règle majoritaire (comme celle utilisée dans la méthode des k
plus proches voisins11). La PROCTN détermine une matrice de performances des actions de
référence des catégories par rapport à l’action a à affecter. Chaque composante de la matrice
correspond à l’écart absolu (ou à la distance) entre l’action a à affecter et l’action de référence de la
catégorie donnée selon le critère g j. A partir de cette matrice de performances on va choisir les
actions de référence centrale qui sont les plus proches de l’action a à affecter (cf. figure 4.1).
Action a à Prototypes
affecter
Données d’entrées :
1. Performances de l’action a
2. Performances des prototypes
3. Poids d’importance des critères
Relation de surclassement
entre les prototypes
Décision
d’affectation
Fin
11
La méthode des k plus proches voisins (k -ppv) est détaillée dans le chapitre I de la partie A (§3.1 .1).
50
Procédure de choix dans le cadre de la problématique du tri nominal
La matrice de performances a pour but d’évaluer les actions de référence centrale à partir d’une
famille de critères. Les composantes de la matrice de performances sont déterminées de la manière
suivante :
Pour chaque critère comparer l’évaluation de l’action a à affecter avec l’évaluation de l’action de
référence centrale bih.
Déterminer la valeur de dijh(a, bih). Elle représente l’écart absolu entre la performance de l’action a à
affecter et la performance de l’action de référence bih selon le critère gj.
Cet écart absolu d ijh(a, bih) est formulé à partir des trois situations suivantes :
dijh (a, bih) = max {0; S1j(bih) - g j(a); gj(a) - S 2 j(bih)} (4.1)
avec :
Le tableau 4.1 illustre la matrice de performances des actions de référence centrale. Les lignes
représentent les actions de référence centrale et les colonnes représentent les critères. L’intersection
d’une ligne avec une colonne correspond à l’évaluation dijh(a, bih).
g1 g2 ......... gj ......... gn
1
B1 d (a,b11)
1
11 d 21(a,b11)
1
......... d j1(a,b 11)
1
......... d n1(a,b11)
1
Afin d’élaborer un système relationnel de préférence sur l’ensemble des actions de référence
centrale, la procédure PROCTN se base principalement sur la matrice des performances citée ci-
dessus et les informations préférentielles représentées par les poids d’importance des critères.
51
Procédure de choix dans le cadre de la problématique du tri nominal
En utilisant le tableau ci-dessus, la relation de surclassement entre les différentes actions de référence
centrale b ih peut être définie de la manière suivante :
h l h a l
Définition 4.1. L’action de référence bi surclasse l’action de référence bt “b i S bt ” si et
seulement si l’écart entre l’action a et l’action de référence b ih est au moins aussi bon que l’écart
entre l’action a et l’action de référence b tl sur l’ensemble des critères, i.e., l’action a est plus proche
de l’action de référence centrale b ih que de l’action de référence b tl.
La relation de surclassement est basée sur l’introduction des indices de surclassement partiels Sja.
Chaque indice indique si la proposition suivante selon le critère gj est vraie ou fausse : “L’écart entre
l’action ‘a’ à affecter et une action de référence centrale donnée est au moins aussi bon que
l’écart entre celle-ci et une autre action de référence centrale selon le critère gj”.
si d jh (a, bi ) ≤ d jl (a, b t )
i h t l
1
a h l
S j ( bi , b t ) = (4.2)
0 sinon
A partir de ces indices de surclassement par critère et en tenant compte de l’importance relative de
chaque critère, on détermine pour chacune des paires d’actions de référence (bih, b tl) l’indice de
surclassement global Sa( bih, btl) qui est déterminé comme suit :
n
Sa( bih, b tl) = ∑ (w j × S j(bi , bt )), h =1,…,k ; l = 1,…,k
a h l
(4.3)
j =1
i=1,…,Lh et t = 1,…,Ll
Où
Sa(bih, btl) traduit dans quelle mesure b ih est au moins aussi bon que btl sur l’ensemble des critères.
C’est-à-dire, dans quelle mesure le prototype bih est plus proche de l’action a que le prototype
btl ;
wj : est un nombre positif qui représente l’importance intrinsèque relative que le décideur attache au
n
critère gj. On suppose que les coefficients sont normalisés, i.e., ∀ g j ∈ F, w j ∈ [0,1], ∑w
j =1
j = 1 et
qu’ils sont évalués sur une échelle absolue [0, 1] en tenant compte des conventions suivantes :
wj = 1 signifie que le critère gj est le seul critère pertinent pour l’affectation de l’action a.
52
Procédure de choix dans le cadre de la problématique du tri nominal
Le graphe de surclasement valué offre une information précieuse au décideur concernant les
distances entre l’action a à affecter et les différentes actions de référence centrale. Ce graphe est
utilisé pour choisir un sous-ensemble d’actions de référence (éventuellement réduit à une seule action
de référence centrale) qui ont le meilleur écart avec l’action a à affecter. Pour déterminer ce sous -
ensemble nous avons employé la méthode de flux proposée par Brans et Vincke en 1985.
En utilisant le graphe de surclassement on détermine pour chaque sommet du graphe les deux
flux suivants :
φ (bi ) représente le nombre relatif d’actions de référence centrale surclassées par l’action de
+ h
φ (bi ) représente le nombre relatif d’actions de référence centrale qui surclassent l’action de
- h
Les deux flux déterminés ci- dessus permettent de calculer le flux net :
Le flux net φ(bih) est appelé aussi le score de l’action de référence centrale bih par rapport à la
relation Sa. A partir de ce flux on détermine la relation S f comme suit :
La relation S f va servir pour déterminer l’ensemble C(B) qui est donné par :
Par conséquent le sous-ensemble C(B) contient les actions de référence centrale qui ont le plus
grand score et il peut être donné aussi comme suit :
C(B) contient l’ensemble des prototypes les plus proches de l’action a à affecter. Ainsi, la procédure
PROCTN est une généralisation de la méthode des k plus proches voisins (k-ppv) (Cover et Hart,
1967 ; Dasarathy, 1991). Ceci peut s’expliquer par le fait que le nombre k des plus proches voisins
53
Procédure de choix dans le cadre de la problématique du tri nominal
est déterminé directement par la procédure PROCTN, ce qu’il n’est pas le cas dans la méthode des
k-ppv où le nombre k est déterminé a priori. Dans la procédure PROCTN le nombre k des plus
proches voisins correspond au cardinal de l’ensemble C(B), i.e., le nombre de prototypes
appartenant à l’ensemble C(B). Ceci constitue un avantage de la procédure PROCTN par rapport à
la méthode des k-ppv.
Pour affecter une action a à une catégorie on utilise l’une des deux règles suivantes :
On applique la même règle d’affectation utilisée par la méthode des k-ppv, en affectant l’action a à
la classe majoritaire parmi les k meilleurs prototypes (cf. Dasarathy, 1991).
L’ensemble C(B) contient l’ensemble de prototypes qui ont le meilleur écart avec l’action a. Donc
les classes qui contiennent ces prototypes sont les plus plausibles pour l’affectation. Ainsi, l’action a
sera affectée aux classes qui sont représentées par les prototypes appartenant à C(B).
La procédure PROCTN utilise les flux nets pour déterminer un sous-ensemble de prototypes qui
ressemblent le plus à l’action a à affecter. Ce flux net déterminé sur l’ensemble de prototypes n’est
rien d’autre que le score de Borda calculé sur les relations S a (Marchant, 1996). Le flux net est
utilisé pour déterminer une fonction de choix sur l’ensemble de prototypes afin de sélectionner les
meilleurs parmi ceux-ci pour chaque action a à affecter. On appelle fonction de choix sur A, toute
fonction C qui, à chaque sous-ensemble non vide B de A, associe un sous-ensemble non vide C(B)
de B. A partir d’une relation H définie sur un ensemble A on peut associer une fonction de choix C,
afin de déterminer le sous-ensemble C(B, H), comme par exemple :
Proposition 4.2. Soit le sous-ensemble C(B, H) déterminé à partir de (4.8), alors C(B, H) ≠ ∅ ⇔
H est acyclique.
Pour plus de détails concernant les fonctions de choix ainsi que leurs analyse et rationalisation, le
lecteur peut se référer aux travaux de Sen (1971, 1977), Fishburn (1977, 1990) et de Bordes
(1983).
54
Procédure de choix dans le cadre de la problématique du tri nominal
Proposition 4.3. La relation Sf est une relation asymétrique et transitive sur B. Elle est donc
acyclique.
Par conséquent, la relation Sf est utilisée pour déterminer une fonction de choix C qui associe un
sous-ensemble C(B) = C(B, Sf) calculé à partir de la formule (4.6). Donc, l’ensemble C(B, Sf) est un
ensemble de choix de B défini par la fonction de choix C.
Propriété. D’après la proposition 4.4, la procédure PROCTN affecte une action a à une ou
plusieurs catégories. Donc l’axiome 1, qui correspond à l’universalité (cf. chapitre 3) n’est pas
complètement vérifié, du fait que la PROCTN ne tient pas en compte les cas qui ne sont pas affectés
à aucune catégorie.
Preuve. PROCTN détermine C(B) à partir de la matrice de performances des actions de référence
centrale. Donc l’affectation d’une action aux différentes catégories se fait uniquement en comparant
l’action a à affecter avec les actions de référence centrale. D’où le principe d’indépendance est
vérifié.
Preuve. Elle est vérifiée par les conséquences de la proposition 4.5 et par la définition de la relation
Sa.
où : Cσ(h) la catégorie obtenue en permettant l’indice de la catégorie Ch, h ∈ {1,…,k}, en indice σ (h)
≠ h et σ(h) ∈ {1, …, k}.
12
Les principes d’une méthode du tri nominal sont donnés dans le chapitre 3 de la partie B.
13
Les principes d’une méthode du tri nominal sont donnés dans le chapitre 3 de la partie B.
14
Les principes d’une méthode du tri nominal sont donnés dans le chapitre 3 de la partie B.
55
Procédure de choix dans le cadre de la problématique du tri nominal
Proposition 4.8. La procédure PROCTN vérifie le principe de la stabilité 15, en appliquant la règle
d’affectation 2.
donc les actions b ih1 et bih2 représentent les actions de référence centrale de la classe C H.
15
Les principes d’une méthode du tri nominal sont donnés dans le chapitre 3 de la partie B.
56
Procédure d’affectation floue dans le cadre de la problématique du tri nominal
1. Introduction
En général, les méthodes de classification, décrites aux chapitres 1, utilisent soit l’apprentissage
inductif soit déductif mais pas el s deux à la fois. Par contre, PROAFTN peut combiner les deux
types d’apprentissage à la fois. En outre, la majorité des méthodes de classification considèrent des
degrés d’appartenance aux classes égaux à 0 ou à 1, on parle d’une affectation nette. En revanche,
PROAFTN détermine des degrés d’appartenance aux classes, qui sont des éléments de l’intervalle
[0,1], on parle d’une affectation graduelle. Par ailleurs, elle utilise l’approche du système relationnel
de préférence (Roy, 1985 et Vincke, 1988) et est caractérisée par les trois étapes suivantes :
Elle consiste à élaborer à partir d’un tableau de performances17, un profil de relations binaires
<Hj>j=1...n. Ce profil permet de rendre compte des préférences partielles selon chaque critère de la
famille F. Dans cette étape les relations seront modélisées par des sous -ensembles flous afin de
prendre en compte l’imperfection de l’information qui affecte les évaluations des actions.
Elle consiste à dégager sur la base des profils < H j> j=1...n et d’un ensemble de paramètres (seuils de
veto et coefficients d’importance) un modèle relationnel global sous la forme de relations globales.
Pour cela on déterminera des opérateurs d’agrégation M définis comme suit:
Dans cette étape une procédure d’affectation est élaborée en utilisant les relations globales
déterminées dans l’étape 2.
16
Ce chapitre est en partie basé sur les résultats présentés dans Belacel (1998 ; 1999).
17
Cf. Partie A, Chap. 2 ; § 3.
57
Procédure d’affectation floue dans le cadre de la problématique du tri nominal
En général, les préférences sont modélisées en utilisant deux approches opérationnelles (Perny,
1992) : la première approche consiste à traiter des données nettes à partir de l’information
initialement floue (dissolution du flou ou “défuzzification”). La deuxième consiste à traiter
l’information floue pour fournir un résultat flou également.
La première approche est moins intéressante dans la mesure où elle comporte une part arbitraire
d’information. Ceci est dû à la construction d’un modèle net à partir d’information floue. Pour pallier
cet inconvénient nous appliquerons la deuxième approche qui permet d’obtenir des résultats flous en
sortie en traitant les informations floues.
Avant d’appliquer cette dernière approche dans le cadre de notre problématique ; Nous introduirons
brièvement la théorie des sous-ensembles flous.
2. Sous-ensemble flou
2.1. Généralités
Le concept de sous -ensemble flou “fuzzy set” a été introduit par Zadeh (1965). Il peut être défini de
la manière suivante :
Etant donné un ensemble de référence X, il est possible de désigner les éléments de X qui
appartiennent ou non à l’ensemble A. Nous représentons l’appartenance ou non d’un élément de X à
l’ensemble A par une fonction caractéristique µA. Cette dernière prend la valeur 1 pour les éléments
de X qui appartiennent à A et la valeur 0 pour ceux qui ne l’appartiennent pas :
µA : X {0,1}
x µA (x) avec :
1 si x∈A
µA(x )=
0 si x∉A
Parfois l’appartenance des éléments de X à A n’est pas nette. C’est-à-dire un élément de X peut
appartenir à A avec un certain degré. Dans ce cas, la fonction indicatrice est remplacée par la
fonction d’appartenance qui prend ses valeurs entre 0 et 1.
Définition 5.1. Un sous-ensemble flou A de X est défini par une fonction d’appartenance qui
associe à chaque élément x de X le degré µA(x), compris entre 0 et 1, avec lequel x appartient à A :
µA : X [0,1]
x µA(x)
L’ensemble vide défini par la fonction d’appartenance µ∅(x) = 0, ∀ x ∈ X.
58
Procédure d’affectation floue dans le cadre de la problématique du tri nominal
Définition 5.2. Soit A un sous-ensemble flou, on appelle support de A l’ensemble défini par :
supp(A) est l’ensemble des éléments de X qui appartiennent au moins un peu à l’ensemble A.
Définition 5.3. On appelle hauteur de A notée h(A) le plus haut degré avec lequel un élément de X
appartient à A et définie par : h(A) = Supx ∈ X (µA(x)).
Définition 5.4. On appelle noyau de A noté noy(A) l’ensemble de tous les éléments de X qui
appartiennent de façon absolue à A et défini par :
noy(A) = { x ∈ X / µA(x) = 1 }.
Définition 5.6. Soient A et B deux sous-ensembles flous de X, on dit que A est inclu dans B (A ⊆
B) au sens de Zadeh si et seulement si µA(x) ≤ µB(x).
En utilisant l’inégalité précédente on peut définir l’égalité de deux sous-ensembles flous A et B par :
La notion des sous-ensembles flous est une généralisation de la notion d’ensemble classique de X.
De ce fait, on est conduit à introduire des opérations sur les sous -ensembles flous qui sont
équivalentes aux opérations classiques sur les ensembles. Dans la théorie des sous -ensembles
classique (nette) on définit l’intersection (∩), l’union (∪) et la complémentation ( c ) comme suit :
∀ A, B ⊆ X, A ∩ B = {x ∈ X / x ∈ A ∧ x ∈ B}
A ∪ B = { x ∈ X / x ∈ A ∨ x ∈ B}
Ac = { x ∈ X / x ∈ A }
Ces opérations ensemblistes sont déterminées de manière unique. Cette unicité est due au fait que
ET «∧ » , OU «∨ » et NON « » prennent une des deux valeurs VRAI ou FAUX. Ce qui revient à
utiliser une fonction de valuation ν tel que pour chaque proposition P on a :
A l’aide de cette valuation, on représente les opérations des sous-ensembles flous comme suit :
59
Procédure d’affectation floue dans le cadre de la problématique du tri nominal
Dans ce qui suit, nous donnerons une généralisation de ces opérateurs dans le cas d’évaluation floue
(ν (P) ∈ [0,1] ) en préservant la structure de la théorie classique.
Les opérations d’intersection, d’union et de négation ont été définies par Zadeh (1965) de la façon
suivante :
µAc(x) = 1 - µA(x), ∀ x ∈ X
Ces opérations vérifient tous les propriétés classiques à l’exception des lois du tiers exclus (A∪ Ac =
X) et de non-contradiction (A ∩ A c = ∅ ).
Si on veut que les propriétés de lois de tiers exclus et de non-contradiction soient vérifiées, il faut
utiliser les opérateurs suivants :
µAc(x) = 1 - µA(x), ∀ x ∈ X
En général, il est préférable de définir l’opérateur d’intersection comme une norme triangulaire (t-
norme). L’opérateur de complémentation est défini par une fonction de négation (N). L’opérateur
d’union est défini par une conorme triangulaire (t-conorme).
60
Procédure d’affectation floue dans le cadre de la problématique du tri nominal
T : [0,1]× [0,1] à [0,1 ] qui vérifie pour tous x, y, z et t de [0,1 ] les propriétés suivantes :
a- A’ ⊆ A ⇒ A’ ∩T B ⊆ A ∩T B
b- A ∩ T X = X
T(x,y) = min(x, y)
La t-norme du produit :
T(x,y) = x.y
La t-norme de Lukasiewicz
T(x,y) = max(x+y-1,0).
La t-norme faible :
Propriété 5.2.
61
Procédure d’affectation floue dans le cadre de la problématique du tri nominal
Définition 5.9. Une conorme triangulaire est une fonction V de [0,1]2 vers [0,1 ] vérifiée pour tous
x, y, z et t de [0,1] :
Propriété 5.3.
A ∪v ∅ = A (conséquence de (iv’))
V(x, y) = max(x, y)
La t-conorme de produit :
La t-conorme de Lukasiewicz :
Vn(x 1,x 2, ..., xn, xn+1 ) = V(Vn-1(x1, x 2, ..., xn), x n+1), n est un entier / n ≥ 2 .
62
Procédure d’affectation floue dans le cadre de la problématique du tri nominal
Définition 5.11. Un opérateur de négation N est une fonction définie sur [0,1] à valeurs dans [0,1]
continue et strictement décroissante vérifiant : N(0) = 1 et N(1)=0. Elle est involutive si et seulement
si N(N(x))= x. N est aussi appelée une négation forte.
Exemples 5. N(x) = 1-x est une négation stricte et involutive dite négation de Zadeh.
N(x) = (1-x 1/k)k est une négation stricte et involutive avec k ∈N*.
La t-norme T et la t-conorme V sont dites duales pour la négation N si elles satisfont les relations
suivantes pour tout x et y de [0,1 ] :
Définition 5.12. Le triplet (T, S, N) est appelé triplet de De Morgan si et seulement si T est une t-
norme, S est une t-conorme et N une négation stricte et involutive tel que :
Le triplet de DeMorgan est dit continu si T et V sont des fonctions continues sur l’intervalle [0,1].
µAc(x) = N( µA(x) )
La liaison entre deux éléments x et y peut être difficilement représentée par une relation nette parce
qu’elle est imprécise ou mal définie. Par exemple, la relation de proximité «x est plus proche que y »
est de nature imprécise. De ce fait pour décrire ces relations, on introduit des indices qui prennent
des valeurs entre 0 et 1 traduisant le degré de crédibilité de ces relations. Ces indices sont appelés
des relations binaires floues.
Définition 5.13. Nous appellerons relation binaire floue H définie sur A des sous-ensembles flous
µH du produit cartésien A tel que :
2
µH : A [0,1]
2
(a,b) µH(a,b).
63
Procédure d’affectation floue dans le cadre de la problématique du tri nominal
Le tableau suivant résume les propriétés des relations binaires floues (Roubens et Vincke, 1985 ;
Fodor et Roubens, 1994).
Propriété Relation floue H∈[0,1]
Réflexive H(a, a) =1
Irréflexive H(a, a) =0
Symétrique H(a, b) = H(b, a)
Antisymétrique T(H(a, b),H(b, a)) = 0, a≠b
Asymétrique T(H(a, b),H(b, a)) = 0
Complet V(H(a, b),H(b, a)) = 1, a≠ b
Complète fortement V(H(a, b),H(b, a))=1
Transitive T(H(a, b), H(b, c)) ≤H(b, c)
Négativement transitive H(a, c) ≤ V(H(a, b),H(b, c))
Relation de ferrers T(H(a, b), H(c, d)) ≤ S(H(a, d), H(c, d))
Semi-transitive T(H(a, b),H(c, d))≤ S(H(a, d), H(c, b))
Tableau 5.1. Propriétés de relations floues
3. La procédure PROAFTN
3.1. Introduction
64
Procédure d’affectation floue dans le cadre de la problématique du tri nominal
paramètres utilisés dans la procédure PROAFTN seront détaillés dans le prochain paragraphe. Le
schéma général de la méthode est présenté par la figure suivante :
Données d’entrées :
1. Performances de l’action a
Principe de
concordance et de
Indice de discordance global non -discordance
Décision d’affectation
65
Procédure d’affectation floue dans le cadre de la problématique du tri nominal
Compte tenu de l’aspect nominal des catégories, on introduit un nombre positif wjh pour déterminer
l’importance du critère g j. Ce nombre représente l’importance intrinsèque relative que le décideur
attache au critère gj de la catégorie Ch indépendamment des autres catégories. Nous sommes donc
devant une matrice de poids Wn×k où chaque composante wjh (j = 1, ..., n ; h = 1, ..., k) est
n
normalisée, c’est-à-dire w jh ≥ 0 et ∑ w jh = 1 pour h = 1,..., k.
j =1
On suppose que les wjh sont évalués sur une échelle absolue [0,1] avec les conventions suivantes :
- wjh = 0 signifie que le critère g j n’est pas pertinent pour l’affectation de l’action a à la
catégorie C h.
- wjh = 1 signifie que le critère g j est le seul critère pertinent pour l’affectation de a à la
catégorie C h (ce que signifie que les actions de référence de la catégorie C h sont définie
par un seul critère).
Pour plus de détails sur les évaluations des coefficients d’importance, nous renvoyons le lecteur aux
travaux de Bouyssou et Roy (1993).
• Seuils de discrimination
Dans la pratique, les performances des actions de référence centrales sont généralement données
sous forme d’intervalles (cf. Chap. 4, § 2). Ainsi, pour chaque critère gj, on associe à chaque action
de référence centrale b ih l’intervalle [S1j(bih),S2j(bih)] avec : S 1j(bih) ≤ S 2j(bih).
Et par conséquent, la règle d’affectation TRIN (cf. Chap. 3, § 2.1.) peut se formuler ainsi :
L’indice d’indifférence global est déterminé par agrégation des indices d’indifférence partiels.
Chacun de ces indices indique si l’action a est indifférente ou non à l’action de référence bih selon le
critère gj. Cet indice est donné comme suit :
66
Procédure d’affectation floue dans le cadre de la problématique du tri nominal
Notons que, si au départ l’évaluation de l’action a est égale à S1j(bih) ou à S2j(bih), alors l’action a
sera donc indifférente à l’action de référence bih selon la règle (5.1). Cependant, vu l’imperfection de
l’information et la part arbitraire qui affectent les évaluations des actions, on pourrait bien évaluer
l’action a sur le critère gj par une performance g j(a) = S 1j(bih) - ε 1 ou gj(a) = S2j(bih) + ε2 où ε 1 et
ε2 sont deux nombres réels positifs qui prennent des valeurs très petites. Dans ce cas, l’application
de la règle (5.1) conduirait à transformer une situation d’indifférence en situation de non-indifférence
entre l’action a et l’action de référence bih selon le critère g j malgré le fait que cette variation est
insignifiante.
Afin de remédier à cet inconvénient, on introduit deux seuils de discrimination d +j(bih)≥ 0 et d-j(bih)≥
0 ; qui correspondent respectivement à deux fonctions de S2j (bih) et de S 1j (bih).
Les seules périodes de t qui restent sont : 21 heures 45 mn < t < 22 heures et 4 heures < t < 5
heures qui correspondent respectivement au passage flou du jour vers la nuit (crépuscule) et de la
nuit vers le jour (aube).
Nous appliquons ce même phénomène dans notre problématique. Considérons que g j(a) = t et la
performance de b ih selon le critère gj correspond à la période de la nuit. g j(bih) = “la période de la
nuit”.
Formellement, l’utilisation des deux seuils de discrimination permet d’obtenir trois situations
comparatives des actions a et b ih selon un critère.
Si [S 1j(bih) - dj-(bih) < gj(a) < S1j(bih)] ou [ S 2j(bih) < gj(a) < S2j(bih) + d j+(bih)]
67
Procédure d’affectation floue dans le cadre de la problématique du tri nominal
La figure 5.1, illustre les différentes zones créées par l’introduction des seuils de discrimination.
IV III I II V
En se basant sur les seuils de discrimination donnés ci- dessus, on définit l’indice d’indifférence partiel
Cj(a, b ih) qui traduit le degré de validité des trois situations précédentes et qui vérifie les propriétés
suivantes :
L’indice d’indifférence partiel C j(a, bih) est généralement représenté entre les valeurs : S 1j(bih)-d j-(bih)
et S1j(bih) d’une part, et S2j(bih) et S2j(bih)+ dj+ (bih) d’autre part, par une fonction d’interpolation
linéaire (voir figure 5.2).
68
Procédure d’affectation floue dans le cadre de la problématique du tri nominal
Cj(a, b ih)
IV III I II
gj(a)
1 h - h 1 h 2 h 2 h + h
S (b ) – d (b )
j i j i S (b )
j i S (b )
j i S (b ) + d (b )
j i j i
A partir de la figure 5.2, on peut déduire la valeur de Cj(a, b ih) de la manière suivante :
g j ( a ) + d j − (bih ) − S 1 j (bih )
. Cj(a, bih) = Si S 1j(bih) - dj-(bih) < gj(a) < S1j(bih)
d j − (bih )
h
S 2 j (bih ) + d j + (bih ) − g j (a )
. Cj(a, bi ) = Si S 2j(bih) < gj(a) < S2j(bih) + dj+ (bih)
d j + (bih )
L’indice C j(a, bih) est composé de deux indices : Cj+ (a, b ih) (figure 5.3) et C j-(a, bih) (figure 5.4).
. 0 < C j+(a, bih) < 1 Si S1j(bih) - dj-(bih) < gj(a) < S1j(bih)
69
Procédure d’affectation floue dans le cadre de la problématique du tri nominal
C j+(a, b ih)
1
g j(a)
0 1 h - h 1 h 2 h 2 h + h
S j(b )-d (b )
i j i S j(b )
i S j(b )i S (b )-d (b )
j i j i
+ h
Figure 5.3. Représentation de Cj (a, bi )
. 0 < C j-(a, bih) <1 Si S2j(bih) + dj+ (bh) < g j(a) < S2j(bih) + d j+(bih)
0 g j(a)
1 h - h 1 h 2 h 2 h + h
S j(b )-d (b )
i j i S j(b )
i S j(b ) i S (b )-d (b )
j i j i
- h
Figure 5.4. Représentation de l’indice Cj (a,bi )
Remarque 5.1. Dans notre cas la relation de surclassement est définie comme suit (cf. Chap. 2, §
2.1 et 2.2 ) :
a Sj b ⇔ a (Pj ∪ Qj ∪ Ij) b
70
Procédure d’affectation floue dans le cadre de la problématique du tri nominal
Ceci implique que l’indice d’indifférence partiel Cj(a,bih) est le résultat de l’intersection entre
Cj+(a,bih) et Cj-(a,bih) et on obtient :
Preuve.
Ceci peut être facilement démontré ; d’après (5.6) et (5.7) on déduit que :
Cj(a, a) = min(S j(a, a), Sj(a, a)) et Sj(a, a) = 1, ce qui implique Cj(a, a) = 1 et donc Cj(a, b ih) est
une relation réflexive floue.
Puisque min(Cj+ (a,bih) , Cj-(a,b ih)) = min(Cj-(a,bih) , Cj+(a,b ih)) et C j(a,bih) = min(C j+ (a,bih) , Cj-
(a,b ih)), et on sait que Cj+(a,b ih) = S j(a,b ih) et Cj-(a,b ih) = S j(bih,a),
h h h
Alors C j(bi , a) = Cj(a,bi ), ce qui permet de conclure que Cj(a,bi ) est une relation symétrique.
n
Corollaire 5.1.
Preuve. Evidente. n
Par conséquent la performance de l’action b ih selon le critère gj est donnée par : [S1j(bih), +∞[,
l’indice d’indifférence partiel est représenté par la figure (5.5).
71
Procédure d’affectation floue dans le cadre de la problématique du tri nominal
C j(a, b ih)
g j(a)
0
S 1j(b ih)-dj- (bih) S1j(bih)
Figure 5.5. Représentation graphique de Cj(a,bih) dans le cas où S2j(bih) = +∞.
ii). S 1j(bih) - dj-(bih) < gj(a) < S1j(bih) ⇒ 0 < C j(a,b ih) < 1
ii). S 1j(bih) - dj-(bih) < gj(a) < S1j(bih) ⇒ 0 < C j+ (a,bih) < 1
Proposition 5.2.
Si S2j(bih) = +∞, alors l’indice d’indifférence partiel est égal à Cj+ (a,bih).
Preuve.
Cj-(a,bih) = 1 ∀ g j(a) ∈ E j
Et d’après (5.7) on a :
Par conséquent la performance de l’action de référence bih selon le critère gj est donnée par : ]- ∞,
S2j(bih)], l’indice d’indifférence partiel est représenté par la figure (5.6) :
72
Procédure d’affectation floue dans le cadre de la problématique du tri nominal
Cj(a,b ih)
g j(a)
0
2
S (b )
j
h
i S 2j(b ih)-dj+(bih)
h
Figure 5.6. Représentation graphique de Cj(a,bi ) dans le cas où S1j(bih) = -∞
Proposition 5.3. Si S 1j(bih) = -∞, alors l’indice d’indifférence partiel est égal à Cj-(a, b ih).
Preuve.
Cj+(a,bih) = 1 ∀ gj(a) ∈E j
Et d’après (5.8) on a
alors on a
L’indice C j(a, bih) est une relation binaire floue qui vérifie les propriétés suivantes :
1. Le calcul de C j(a,bih) ne fait intervenir que les actions a et b ih et ceci à travers leurs performances
g j(a) et g j(bih) en utilisant les seuils de discriminations.
2. . C j(a,b ih) = 0 si et seulement si la proposition a Ij bih (a est indifférente à bih) est jugée
inacceptable traduisant l’existence d’arguments suffisamment forts pour interdire la
validation de la proposition a Ij b ih ou soit l’absence totale de preuves en faveur de la
proposition.
73
Procédure d’affectation floue dans le cadre de la problématique du tri nominal
avec :
Avant de prouver un résultat sur la signifiance, nous rappelons la définition suivante due à Roberts
(1979).
Définitio n 5.14. Un indice associé à une échelle de mesurage « measurement scale » E est qualifié
de signifiant « meaningful » si sa valeur demeure inchangée chaque fois qu’on utilise des
transformations admissibles le long de l’échelle E.
Nous avons :
- h + h
Proposition 5.4. L’indice Cj (a, bi ) (resp. C j (a,bi )) est signifiant si les conditions suivantes sont
vérifiées :
ii). la fonction S 1j(bih) (resp. S2j(bih)) prend ses valeurs sur une échelle d’intervalle ;
iii).d j-(bih) (resp. dj+ (bih)) est une valeur constante ou une valeur proportionnelle à S 1j(bih)
(resp. S 2j(bih)).
Preuve.
Nous démontrons ceci uniquement pour l’indice Cj-(a,bih). Le même raisonnement s’applique à
l’indice Cj+(a, bih).
Nous avons :
1 si g j(a) ≥ S 1j(bih)
- h
g j (a) + d −j (bih ) − S1j (bih ) si S 1j(bih) - dj-(bih)<gj(a)< S1j(bih)
Cj (a,bi ) = −
d (b ) h
j i
en remplaçant les valeurs de S1j(bih) et gj(a) respectivement par S’1j(bih) et g j’(a), nous obtenons :
1 β 1 β
g j ( a) = g ' j (a ) − ; S 1j (bih ) = S '1j (bih ) − et d ' j (bih ) = α × µ × S 1j (b ih )
α α α α
1 β 1 β
g j (a ) + d −j (bih ) − S 1j (bih ) g ' j ( a ) − + µ × S 1j (bih ) − S '1j (bih ) +
=α α α α
d −j (bih ) µ × S 1j (bih )
1 1
g ' j (a ) + µ × S 1j (bih ) − S '1j (bih )
=α α
µ × S 1j (bih )
Preuve.
Conséquence de (5.7), on a :
Dans le paragraphe précédent, nous avons déterminé n relations d’indifférence partielles floues
Cj : A× B → [0,1], j = 1, ..., n.
75
Procédure d’affectation floue dans le cadre de la problématique du tri nominal
Le concept de concordance est fondé sur le principe de majorité. Nous allons redéfinir ce concept
dans notre contexte, ce qui permet d’obtenir ce qui suit :
Définition 5.14. Une relation binaire floue CI définie sur  est nommée relation de concordance
globale associée à la relation I s’il existe une fonction d’agrégation M définie sur [0,1]n à valeur dans
[0,1] vérifiant :
iii). ∀ (a, bih) ∈ A ×B, CI(a, bih) = M(C 1(a, bih), C2(a, bih), ..., Cn(a, b ih)).
Pour le calcul de l’indice d’indifférence global, notre démarche peut être décrite comme suit :
Pour calculer CI(a, bih), on doit choisir un opérateur d’agrégation M qui vérifie les propriétés
données par la définition 5.14 et qui réalise un compromis entre les relations d’indifférence partielles
et la relation d’indifférence globale. Parmi ces opérateurs, on trouve la moyenne pondérée
généralisée qui est donnée comme suit :
n
CI(a, b ih) = φ-1( ∑ ( w jh×φ ( Cj(a,bih))),
j =1
φ est une fonction croissante de [0,1] vers [0,1] avec φ (0) = 0 et φ(1) = 1.
n
CI(a,bih) = ∑ ( wjh×Cj(a, bih) ).
j =1
Dans le cas où les Cj(a,bih) sont purement ordinaux, on utilisera les médianes pondérées (Fodor et
Roubens, 1994 ; Perny, 1992), et C I(a,b ih) sera donné comme suit :
x si x≤y≤α
med(x, y, α ) = α si x≤α ≤y
y si α≤x≤y
76
Procédure d’affectation floue dans le cadre de la problématique du tri nominal
Proposition 5.6.
i). Le calcul de CI(a, bih) ne fait intervenir que les actions a et bih et ceci à travers leurs
vecteurs de performances ;
iii). min j=1, ..., n{Cj(a, b ih)} ≤ C I(a, bih) ≤ max j=1, ...,n{Cj(a, bih)} ;
(∀ j = 1, ..., n et ∀ bih ∈ B, Cj(a, b ih) ≥ Cj(a' , b ih)) ⇒ (C I(a,b ih) ≥ CI(a' ,bih))
C j(a, bih) = 0 ⇔ ou
gj(a) ≤ S1j(bih) - d -j(bih)
+ h
Par définition nous appellerons seuil de veto à droite vj (b i ) (resp. seuil de veto à gauche
- h 2 h 1 h
vj (b i )) pour le critère gj la valeur minimum de la différence gj(a) -S j(bi ) (resp. S j(bi ) -
h
gj(a)) qui est considérée comme étant incompatible avec la proposition a I bi .
77
Procédure d’affectation floue dans le cadre de la problématique du tri nominal
+ h - h
Les seuils de veto v j (bi ) et v j (bi ) doivent vérifier les conditions de cohésion
suivantes :
ou ⇒ non (a I bih)
g j(a) ≤ S1j(bih) - v j-(bih)
L’indice de discordance Dj(a, bih) du critère g j vise à appréhender le fait que ce critère est plus ou
moins discordant avec la proposition a I bih. Cette discordance est maximum (Dj(a, bih) = 1)
lorsque le critère gj met son veto à l’indifférence. Elle est minimum (Dj(a,bih) = 0) lorsque le critère
n’est pas en discordance avec l’indifférence. Si le critère gj est en discordance (Cj(a,bih) = 0) avec
l’indifférence mais qu’il ne met pas son veto à l’indifférence, alors on aura : 0<Dj(a,bih)<1, qui
représente les zones intermédiaires entre la discordance et la non-discordance (voir figure 5.7).
78
Procédure d’affectation floue dans le cadre de la problématique du tri nominal
Dj(a,b hi)
gj(a)
1 h - h 1 h - h 1 h 2 h 2 h + h 2 h + h
S (b ) - v (b ) S (b ) - d (b ) S (b ) S (b ) S (b )+d (b ) S (b )+v (b )
j i j i j i j i j i j i j i j i j i j i
+ h
g j ( a ) − min{g j (a ), S 2j (bih ) + d +j (bih )}
Dj (a,b i ) =
− d +j (bih ) + max{− S 2j (bih ) + g j (a ), v +j (bih )}
Dj(a, b i ) = Dj ( a, bi ) ∪ Dj (a, b i )
h + h - h
h + h - h
Dj(a, b i ) = max {D j ( a, b i ), D j ( a, bi )}
Définition 5.16. Une relation DI définie sur A× B est appelée relation de discordance globale avec la
relation I, s’il existe une fonction d’agrégation h définie sur [0,1] n à valeurs dans [0,1] et vérifiant les
points suivants :
18
∀ j= 1, ..., n ; on a : Dj-(a, bih) > 0 ⇔ D j+(a, bih ) = 0 ; Dj-( a, bih) = 0 ⇒ D j(a, bih ) = Dj+( a, bih)
Dj+( a, bih ) = 0 ⇒ Dj(a, bih) = D j-( a, bih ) ; Dj+( a, bih ) > 0 ⇔ D j-(a, bih ) = 0
79
Procédure d’affectation floue dans le cadre de la problématique du tri nominal
La famille de critères F est jugée discordante avec la proposition: “a est sensiblement équivalente
ou indifférente à l’action de référence bih ” dès qu’un critère est totalement discordant avec cette
affirmation.
DI(a, b ih) reflète l’existence d’un critère qui met son veto contre l’affirmation a I bih.
Ainsi, pour déterminer l’indice de discordance global DI(a, bih), on utilise un opérateur d’agrégation
disjonctif pour lequel la valeur “1” est absorbante (Perny, 1992) :
n h
DI(a, b ih) = 1 − ∏ (1 − D j ( a , bih ))nw j (5.9)
j =1
n h
DI(a, b ih) = 1 − ∏ (1 − D j ( a , bih )) w j (5.10)
j =1
Nous construisons la relation binaire floue synthétique d’indifférence notée I à partir d’une agrégation
d’indices de concordance et de discordance selon la formule suivante :
I(a, bih) = ϕ (C1(a, bih), C 2(a, bih), ..., Cn(a, bih), D1(a, bih), ..., Dn(a, bih))),
où ϕ est une fonction croissante des n premiers arguments et décroissante des n derniers arguments
avec :
La construction de la relation d’indifférence I(a, b ih) doit satisfaire les principes suivants :
1- Si l’action a est indifférente à l’action de référence b ih sur tous les critères de F, alors cette famille
F est concordante avec l’affirmation a I b ih, et on aura :
2- L’action a est indifférente à l’action de référence bih si la famille F est en concordance avec cette
affirmation et si aucun critère de F n’est discordant avec cette affirmation.
3- Lorsqu’un critère discordant g k met son veto à la proposition a I b ih, le degré de crédibilité I(a,
bih) devient nul.
∃ gk ∈ F, Dk(a, b i ) = 1 ⇒
h
I(a, b ih) = 0.
80
Procédure d’affectation floue dans le cadre de la problématique du tri nominal
A partir de ces trois principes, la relation d’indifférence globale sera définie comme suit :
Définition 5.17. Nous appellerons “relation d’indifférence globale” une relation binaire floue
définie sur A×B et obtenue à partir de l’indice de concordance global CI et à partir de l’indice de
discordance global DI en posant :
Si nous prenons T(x, y) comme l’opérateur min(x, y) et l’opérateur de négation N(x) comme 1-x
pour x, y ∈ [0,1] (cf. Chap. 5.2 ; sous-ensemble flou), nous obtiendrons :
ou encore
n n h
I(a, bih)= min( ∑ ( wjh×φ ( C j(a, b ih)), ∏ (1 − D j (a , bih )) w j ) (5.11)
j =1 j =1
Si nous prenons : T(x,y) = x.y et N(x) = 1-x pour tout x, y de [0,1], nous trouvons que
L’indice d’indifférence I peut être déterminé d’une autre manière en utilisant le principe de la
méthode ELECTRE III (Roy, 1978), qui est formulé comme suit :
4. La valeur I(a, bih) n’est autre que la valeur CI(a, bih) affaiblie par les indices de discordance
lorsque ces derniers sont suffisamment grands. Nous aurons alors :
1 − D j ( a, bih )
I(a, bih) = C I (a , b ih ) × ∏ (5.13)
j ∈F 1 − C I (a , bih )
i). Le calcul de I(a, bih) ne fait intervenir que les actions a et bih et ceci à travers leurs vecteurs de
performances;
v). (∀ j = 1,...,n, Cj(a, bih) > Cj(a’, bih) ) ⇒ (I(a, b ih) > I(a’, bih))
81
Procédure d’affectation floue dans le cadre de la problématique du tri nominal
L’affectation des actions aux différentes catégories se fait différemment selon que le problème est
mono-profil (chaque catégorie est représentée par une seule action de référence) ou multi-profils
(chaque catégorie est représentée par plusieurs actions de référence).
Les classes sont représentées par l’action de référence centrale b h pour h variant de 1 à k. Donc la
règle d’affectation TRIN est formulée de la manière suivante :
Si a I bh, alors a ∈ Ch
A partir de d(a, Ch) on déterminera l’ensemble de catégories d’affectations pour l’action a comme
suit :
Ω 1 = {C / d(a, C ) ≥ λ } avec λ est une valeur de coupe tel que λ > 1/2.
h h
Une autre façon de déterminer l’ensemble des classes d’affectation pour l’action a est de retenir les
catégories qui ont un degré maximum. Formellement ;
∀ C ∈ Ω1 ⇒ a ∈ Ch.
h
Les catégories sont représentées par un ensemble d’actions de référence centrale Bh avec Bh={bih ∈
Ch / i = 1, ..., Lh }, ∀ Ch ∈ Ω .
Pour affecter l’action a à la catégorie correspondante, il faut suivre les étapes suivantes :
1- Calculer l’indice d’indifférence global entre l’action a et toutes les actions de référence centrales
bih de la catégorie Ch : I(a, b ih) avec i variant de 1 à Lh et h variant de 1 à k.
82
Procédure d’affectation floue dans le cadre de la problématique du tri nominal
3- A partir du degré d’appartenance floue d’une action a à la classe Ch, h=1,…,k, l’affectation nette
d’une action a peut être obtenue par l’une des deux règles suivantes :
a ∈ Ch ⇔ d(a,Ch) ≥ λ ,
En générale les méthodes de classification, décrites au chapitre 1, affectent les actions de manière
nette en considérant que le degré d’affectation à la catégories est égal à 0 ou à 1. Par contre, notre
approche affecte graduellement les actions aux différentes catégories en déterminant des degrés
d’affectation qui varient entre 0 et 1. On parle dans ce cas d’affectation floue ou graduelle.
83
Procédure de choix flou dans le cadre de la problématique du tri nominal
1. Introduction
19
Ce chapitre est en partie basé sur les résultats présentés dans Belacel et al. (1999e).
84
Procédure de choix flou dans le cadre de la problématique du tri nominal
Données d’entrées :
-Performances de l’action et des prototypes
-Seuils de discrimination
-Seuils de veto
- Poids d’importance des critères
Procédure de classification
PROAFTN
Matrice de performances
Décision d’affectation
Stop
85
Procédure de choix flou dans le cadre de la problématique du tri nominal
1. Matrice de performances
4. Choix de prototypes
La matrice de performances est déterminée afin d’évaluer les prototypes à partir d’une famille
cohérente de critères ou d’un ensemble d’attributs. Les lignes de cette matrice représentent les
prototypes des catégories et les colonnes représentent les critères. L’intersection entre une ligne et
une colonne correspond au degré de ressemblance Rijh(a, bhi) d’un prototype avec une action a à
affecter selon le critère g j. Pour calculer la valeur de Rijh(a, bhi) on doit déterminer les indices20
d’indifférence partiels Cj, de discordance partiels Dj et de discordance global DI entre les actions a
et bhi. Une fois les indices sont déterminés on calcule la relation de ressemblance floue en se basant
sur les principes suivants :
i. Si l’un des critères de l’ensemble F met son veto contre l’affirmation “a est indifférente au
prototype bhi”, alors les relations de ressemblance partielles entre les actions a et b hi seront
nulles. Formellement ;
Si (DI(a, bhi) > Cj(a, b hi)), Alors Rijh(a, b hi) = Cj(a, bhi)×(1-DI(a, b hi))
Où Cj(a, bhi) et DI(a, bih) sont respectivement l’indice de concordance partiel et l’indice de
discordance global entre les actions a et b hi calculés par la procédure PROAFTN.
20
Les indices Cj et D I sont calculés à l’aide de la procédure PROAFTN.
86
Procédure de choix flou dans le cadre de la problématique du tri nominal
D’après les principes i) et ii), le degré de ressemblance entre une action a et un prototype bih selon
le critère g j, peut être donné comme suit :
Rijh(a, b hi )= (6.1)
En utilisant la matrice de performances calculée dans l’étape 1, la relation de préférence valuée entre
les différents prototypes peut être définie de la manière suivante :
h l h l
Définition 6.1. Le prototype b i est préféré au prototype bt (bi P a b t ) si et seulement si la
ressemblance entre les actions a et b ih est plus forte que la ressemblance entre les actions a et btl sur
l’ensemble de critères.
La relation de préférence valuée Pa est basée sur l’introduction des indices de crédibilité partiels Pja,
j=1,…, n. Chaque indice de crédibilité permet de prendre en compte le degré de validité de la
proposition : “la ressemblance entre l’action a à affecter et un prototype donné est plus forte
que la ressemblance entre a et un autre prototype selon le critère gj”. L’indice de préférence
partiel Pja entre les prototype b ih et b tl est donné comme suit :
A partir de ces indices de préférence par critère et en tenant compte de l’importance relative de
chaque critère, on détermine pour chacune des paires de prototypes (bih, b tl) l’indice de préférence
global Pa(bih, b tl).
{ }
n
Pa(bih, btl) = ∑ w j × Pja (bih , b tl ) , h=1,…,k ; l=1,…,k ; (6.3)
j =1
i=1,…,Lh ; t=1,…,L l,
où w j, j =1,…, n, sont des coefficients positifs dont la somme est égale à 1 et traduisant
l’importance relative des critères.
87
Procédure de choix flou dans le cadre de la problématique du tri nominal
Soient A ={a1, a2,…, am} un ensemble d’actions et R une relation de préférence floue sur A. Nous
appelons fonction de score sur A pour une relation R, une fonction réelle valuée f définie sur [0,1]2m,
non décroissante par rapport à ses m premiers arguments, non croissante par rapport à ses m
derniers arguments et telle que :
Notons que la fonction de score flou d’une action a permet de déterminer le degré avec lequel
l’action a domine les autres actions de l’ensemble A. Quelques unes des fonctions de score utilisées
dans la littérature sont données ci-dessous :
• flux sortant (Roy (1978), Brans et Vincke (1985), Bouyssou (1992b, 1992c)).
• Le flux rentrant complémentaire (Roy (1978), Brans et Vincke (1985), Bouyssou (1992b,
1992c)).
• Le flux net (Roy (1978), Brans et Vincke (1985), Bouyssou (1992b, 1992c)).
• Le flux rentrant maximum complémentaire (Orlovski (1978), Bouyssou (1991), Pirlot (1994)).
• La fonction de score d’Orlovski (Orlovski (1978), Barrett et al. (1990), Banerjee (1993),
Bouyssou (1995)).
D’autres types de fonctions de score basées sur les t-normes et les t-conormes ont été proposées,
entre autres, par Roubens (1989), Barett et al. (1990), Fodor et Roubens (1994).
Nous allons donner dans cette section la fonction de choix flou C s utilisée pour sélectionner le(s)
prototype(s). Elle est obtenue à partir d’une fonction de score flou21 s comme suit :
µ Cs ( X ) ( a ) = s(a, X, R), ∀ X ⊂ A.
21
Comme exemple de fonctions de score flou on a les fonctions de scores données par les équations (6.7), (6.8) et (6.9).
88
Procédure de choix flou dans le cadre de la problématique du tri nominal
L’ensemble de choix flou Cs(X) peut être obtenu à partir de l’ensemble flou µ Cs ( X ) ( a ) et telle que :
Notons que la fonction C s ne permet pas de définir réellement une fonction de choix dans la mesure
où l’ensemble Cs(X) peut être vide. Afin de remédier à cette difficulté, nous définissons une fonction
de choix proposée par Orlovski (1978) :
Pour plus de détails concernant les fonctions de score à partir d’une relation de préférence floue, le
lecteur peut se référer aux travaux : Nurmi (1981), Basu (1984), Dutta et al. (1986), Ovchnnikov et
Ozernoy (1988), Roubens (1989), Bouyssou (1992).
Vu la caractéristique de la relation Pa qui est une relation cardinale, on peut utiliser les fonctions22
(6.4), (6.5), (6.6) ou (6.9). Nous avons choisi la fonction de score d’Orlovski donnée par l’équation
(6.9) car elle semble bien adaptée aux applications que nous avons testé.
L’ensemble de choix qui est utilisé par PROCFTN est donné par :
Avec (
µCs (B ) (b ih ) = min min 1 − P a ( x, bih ) + P a (bih , x);1
x∈B
)
L'ensemble Cs(B) contient k (k ≥ 1) prototypes les plus ressemblants à l’action a à affecter.
L’avantage de la procédure PROCFTN est qu’elle détermine le degré de dominance pour les
prototypes de l’ensemble B. Plus précisément, µC s ( B ) (bih ) est le degré avec lequel le prototype bih
domine les autres prototypes du point de vue de leur ressemblance avec l’action a à affecter.
La procédure PROCFTN que nous venons de décrire respecte les principes d’indépendance, de
neutralité, de nominalité et de stabilité, cités au chapitre 3 (cf. §2.3). Ceci peut être prouvé à partir
des propositions 4.5, 4.6, 4.7 et 4.8 (cf. Chap.4, § 4). Par contre, le principe d’universalité n’est
pas complètement vérifié, du fait que la procédure PROCFTN sélectionne k (k ≥ 1) prototypes le
plus ressemblant à l’action a à affecter. Donc, elle ne tient pas compte les cas qui ne sont pas
affectés à aucune catégorie.
22
Dans le cas où la relation de surclassement Pa est ordinale on utilise les fonctions de score (6.7) ou (6.8).
89
PARTIE C
APPLICATION À L’AIDE
AU DIAGNOSTIC MÉDICAL
Cette partie est consacrée à l’application des méthodes développées dans le domaine de
l’aide au diagnostic médical. Après une brève introduction générale sur les problèmes de
classificat ions médicales, une application de ces méthodes dans le domaine cyto-
pathologique des leucémies aiguës est présentée dans le Chapitre 7. Dans le Chapitre 8
nous présentons une application dans le domaine histopathologique des tumeurs
astrocytaires
Application à l’aide au diagnostic médical
Introduction
Les classifications médicales des pathologies ont pour but de rassembler en classes les cas qui ont
des similitudes biologiques fondamentales et qui sont susceptibles de partager certains facteurs
étiopathologiques. L’identification de ces classes est importante car elle permet d’une part de
comprendre le processus de la maladie et d’autre part d’instaurer l’approche thérapeutique
adéquate. De plus, elle permet de dégager le pronostic global de la maladie. Plusieurs méthodes de
classification comprenant les statistiques, la reconnaissance des formes, l'intelligence artificielle et les
réseaux de neurones ont été utilisées pour l’aide au diagnostic médical (cf. Chap. 1). Notre ultime
but dans cette partie est de montrer que l’approche d’aide multicritère à la décision peut être aussi
appliquée avec succès pour résoudre certains problèmes de classification médicale (cf. Belacel et
al., 1999d). Dans ce contexte, nous avons développé trois nouvelles méthodes de classification
utilisant cette approche et nous les avons appliqué dans le domaine de l’aide au diagnostic médical.
La première application concerne le diagnostic cytopathologique des leucémies aiguës (Belacel et
al., 1999b). Ces dernières ont été choisies parce qu'elles sont plus adaptées à nos méthodes
développées. Sachant que les règles de classification des leucémies aiguës sont données sous formes
d’intervalles, ceci nous facilite la détermination des prototypes des classes. La deuxième application
concerne le diagnostic histo-pathologique des tumeurs astrocytaires 23 (Belacel et al., 1999a). Nous
nous sommes intéressés à ces tumeurs afin de comparer les performances de nos méthodes avec
celles déjà existantes dans la littérature et en utilisant les mêmes données.
Nous avons appliqué aussi la méthode PROAFTN pour diagnostiquer les tumeurs superficielles de la
vessie. Les résultats sont présentés dans l’Annexe C (Belacel et al., 1999e). Ils montrent la capacité
de la procédure à séparer entre le haut et le bas grades de malignité des tumeurs superfic ielles de la
vessie en se basant uniquement sur les paramètres générés par microscopie assistée par ordinateur.
Cette séparation est capitale de point de vue thérapeutique et pronostic de ces tumeurs.
91
Application dans le domaine cytopathologique des leucémies aiguës
1. Introduction
Les leucémies aiguës (LA) font parties des hémopathies malignes qui constituent un groupe
hétérogène de maladies onco-hématologiques. Elles sont caractérisées par une prolifération
médullaire anarchique de cellules blastiques (cellules immatures) avec ou sans passage dans le sang
périphérique. Le clone cellulaire anormal se distingue par le type et le degré de différentiation
cellulaire. Les LA sont d’origine inconnue mais plusieurs facteurs étiologiques ont été incriminés dont
les plus importants sont : les radiations ionisantes, les oncogènes viraux et certains produits chimiques
et agents pharmacologiques. Ces affections sont répandues mondialement, touchent tous les âges et
sans prédominance du sexe. Le taux d’incidence varie de un à trois cas pour cent mille personnes
par années selon le type de leucémies (Zittoun, 1986). Le diagnostic de ces affections est basé
essentiellement sur l’examen cytologique des ponctions médullaires. Le traitement repose sur la
polychimiothérapie associée ou non à la radiothérapie. Il est généralement complété par la greffe de
la moelle osseuse allogénique ou autologue et plus récemment celle des cellules souches du sang
périphérique ou du sang de cordon ombilical (Encyclopédie médicale, sang, 1998)
Les LAL sont rencontrées beaucoup plus chez l’enfant, avec une pic de fréquence maximale entre 2
et 6 ans et constituent à cet âge près de 50 % des cancers de l’enfance. Selon la classification FAB
trois types morphologiques de LAL peuvent être distingués : LAL L1, LAL L2 et LAL L3. Divers
critères morphologiques (taille de la cellule, rapport nucléo-cytoplasmique, aspect de la chromatine,
contour du noyau, présence du nucléole, abondance du cytoplasme et présence de vacuoles), sont
généralement utilisés pour distinguer ces trois types (cf. tableau 7.1). D’autres paramètres
complémentaires sont parfois nécessaires pour affiner le diagnostic ; il s’agit des examens
cytochimiques, immunologiques et histopathologiques.
24
Ce chapitre est en partie basé sur les résultats présentés dans Belacel et al. (1999b).
92
Application dans le domaine cytopathologique des leucémies aiguës
Les LAM sont rencontrées beaucoup plus chez l’adulte jeune que chez les enfants (Bennett et al.,
1982). Selon le degré de la différentiation et de la maturation des cellules blastiques, huit types de
LAM (de M0 à M7) sont reconnus par la classification FAB (cf. Annexe B). Les différents types de
LAM sont résumés au tableau 7.2. Le type M0 ou leucémie aiguë indifférenciée est difficile à
distinguer d’une LAL L2 sur les frottis médullaires. Les types LAM M1, LAM M2 et LAM M3 ont
une différentiation granulocytaire. Le type M4 ou leucémie aiguë myélomonocytaire a une double
composante granulocytaire et monocytaire. Le type M5 est essentiellement monocytaire et le type
M6, ou erythroleucémie, a une double composante granulocytaire et érythroblastique. Enfin le type
M7 a une composante mégacaryocytaire.
LAM M6 Erythroleucémie
93
Application dans le domaine cytopathologique des leucémies aiguës
Les LA peuvent être découvertes fortuitement lors d’un examen de santé ou suite à une
symptomatologie clinique dominée par des syndromes hémorragiques, infectieux et anémiques. Ces
signes cliniques sont révélateurs d’une insuffisance médullaire. Les manifestations tumorales sont
représentées par une hépato-splénomégalie (augmentation du volume du foie et de la rate). Un bilan
est effectué pour affirmer le diagnostic et préciser le type de leucémie aiguë. Ce bilan englobe en plus
de l’hémogramme et du médullogramme, des examens complémentaires qui incluent des réactions
cytochimiques, certains dosages biochimiques l’immunophénotypage, l’établissement du caryotype et
des examens radiologiques.
Médullogramme (ou Myélogramme) : consiste à déterminer le pourcentage des cellules sur un frottis
confectionné à partir du produit de la ponction médullaire. Cet examen est indispensable au
diagnostic des LA. Il permet de confirmer le diagnostic et d’établir la classification
cytomorphologique. C’est aussi sur cette ponction que sont réalisées les examens complémentaires à
savoir les tests cytochimiques, cytogénétiques et immunologiques. Le diagnostic de LA est retenu
lorsque le pourcentage des cellules blastiques (cellules immatures) est supérieur à 30 % des cellules
médullaires (cf. figure 7.1).
94
Application dans le domaine cytopathologique des leucémies aiguës
Noir Soudan + + - -
Myélopéroxydase + + - -
Chloracétate estérase + - - -
Butyrate estérases - + - -
+
dysplasique
Periodic acid Schiff + - -
ou
leucémique
Tableau 7.3. Réactions cyto-chimiques
Les critères de classification sont obtenus à partir des données de la ponction médullaire. Ils sont
regroupés en trois grands types de paramètres qui sont : les paramètres du médullogramme (cf.
figure 7.1), les paramètres cytochimiques (cf. tableau 7.3) et les paramètres morphologiques pour
LAL (cf. tableau 7.1).
Les paramètres morphologiques du médullogramme : Ils sont au nombre de trente -quatre , ils sont
classés en cinq groupes : (cellules blastiques, lignées granulocytaires, érythrocytaires, lymphocytaires
et monocytaires).
Les paramètres cytochimiques : Ils sont représentés par six réactions : le noir Soudan, le
myélopéroxydase, le chloracétate estérase, le butyrate estérase, le PAS « Periodic Acid Schiff » et
les lysozymes. La positivité ou la négativité de chaque réaction chimique est observée sur les cellules
médullaires et le pourcentage de cellules positives est déterminé. Le lysozyme est dosé dans le sérum
et l’urine et est souvent élevé dans le cas de LAM M4 ou LAM M5.
Les paramètres morphologiques pour LAL : sept paramètres morphologiques ont été utilisés pour
discriminer les différents types de LAL (cf. tableau 7.1).
4. Résultats
Les données cliniques ont été recueillies au laboratoire d’hématologie (Cliniques Universitaires Saint-
Luc, Bruxelles, Belgique). Ces données contiennent 191 cas de LA incluant : 129 cas de LAM et 62
cas de LAL. Chaque cas a été identifié selon son groupe cyto-pathologique comme il était établi
précédemment par le diagnostic hématologique. Toutes les données ont été établies selon la
classification FAB. Le tableau 7.4 récapitule le nombre de cas de LA utilisés dans l’apprentissage et
95
Application dans le domaine cytopathologique des leucémies aiguës
le test. L’ensemble d’apprentissage a servi pour ajuster les performances et les paramètres des
prototypes des classes. L’ensemble de test a été utilisé pour déterminer les performances des
méthodes développées. Chaque cas de LA est décrit par quarante-sept paramètres. Neuf classes
de LA (LAM M1, LAM M2, LAM M3, LAM M4, LAM M5, LAM M6, LAL L1, LAL L2 et
LAL L3) ont été utilisées dans cette application. Les classes LAM M0 et LAM M7 n’ont pas été
prises en considération du fait que la LAM M0 est morphologiquement difficile à distinguer de la
LAL L2 et son diagnostic nécessite la recherche de marqueurs immunologiques myéloïdes. La LAM
M7 représente une forme rare de leucémie aiguë myéloblastique. Elle nécessite la microscopique
électronique et la mise en évidence de marqueurs immunologiques spécifiques pour l’individualiser.
LAM M1 12 11
LAM M2 10 11
LAM M3 14 7
LAM M4 11 11
LAM M5 13 9
LAM M6 13 7
LAL L1 11 13
LAL L2 12 10
LAL L3 12 4
Les procédures décrites dans la partie B de la thèse ont été programmées en langage C sur un
Pentium 90. Les résultats obtenus ont été comparés à ceux obtenus précédemment par les
hématologistes afin de déterminer le taux de classification correcte pour chaque type de LA. Ce taux
est calculé en divisant le nombre de cas bien classés par le programme par le nombre total des cas
testés.
Les résultats obtenus par PROAFTN sont donnés sous forme de degrés d’appartenance floue. Le
plus haut degré d’appartenance correspond à la classe d’affectation du cas donné (cf. Chap. 5). Les
résultats du PROCTN sont présentés par des flux nets. Chacun de ces flux représente le score du
prototype d’une classe. La plus haute valeur est associée à la classe la plus favorable (cf. Chap. 4).
Dans PROCFTN les résultats sont exprimés sous forme de valeurs de scores flous (cf. Chap. 6). La
plus haute valeur du score correspond à la classe la plus plausible.
96
Application dans le domaine cytopathologique des leucémies aiguës
4.3. Exemple
Afin d’illustrer nos résultats, nous proposons le cas suivant diagnostiqué comme LAM M2 par
l’hématologiste. Les valeurs des critères de ce cas sont données dans les tableaux 7.5 et 7.6
Groupes % des cellules Groupes % des cellules
Cellules Blastiques Lignée monocytaire
Blaste I 48 Monoblastes 0
Blaste II 35 Promonocytes 0
Blaste avec corps d’Auer 0 Monocytes 1
Total des blastes 83 Total de la lignée monocytaire 1
Lignée granulocytaire Lignée lymphocytaire
Myéloblastes 0 Lymphoblastes 0
Promyélocytes I 0 Lymphocytes peu différenciés 0
Promyélocytes II 1 Lymphocytes mûrs 1
Myélocytes neutrophiles 2 Lymphocytes atypiques 0
Myélocytes éosinophiles 0 Total de la lignée lymphocytaire 1
Métamyélocytes neutrophiles 2
Métamyélocytes éosinophiles 0
Neutrophiles 5
Eosinophiles 0
Basophiles 0
Total de la lignée granulocytaire 10
Lignée érythroblastic
Pronormoblastes 0
Normoblastes basophiles 1
Normoblastes polychromatophiles 3
Normoblastes acidophiles 0
Normoblasts pycnotic 0
Promégaloblastes 0
Mégaloblastes basophiles 0
Mégaloblastes polychromatophiles 0
Mégaloblastes acidophiles 0
Mégaloblastes pycnotic 0
Total de la lignée érythroide 4
Tableau 7.5. Valeurs des critères morphologiques
Noir Soudan +1 10
Myélopéroxydase +1 5
Chloro-acétate estérase +1 20
Butyrate estérase +1 1
97
Application dans le domaine cytopathologique des leucémies aiguës
Après introduction des valeurs des critères, nous avons obtenu les résultats suivants :
Les différentes valeurs du degré d’appartenance floue aux différents types de leucémies aiguës sont :
Résultats de la PROAFTN
LAM
LAL
La plus haute valeur du degré d’appartenance floue (0.983333) correspond à la LAM M2 ; donc ce
cas sera affecté à la classe LAM M2.
Les différentes valeurs des flux nets de chaque prototype de chaque classe de LA sont :
Résultats de la PROCTN
LAM
Le flux net de la classe LAM M1 est : phin(M1) = 0.472126
Le flux net de la classe LAM M2 est : phin(M2) = 1.315875
Le flux net de la classe LAM M3 est : phin(M3) = 0.246438
Le flux net de la classe LAM M4 est : phin(M4) = -0.105103
Le flux net de la classe LAM M5 est : phin(M5) = -0.304242
Le flux net de la classe LAM M6 est : phin(M6) = -0.254869
LAL
Le flux net de la classe LAL L1 est : phin(L1) = -0.864250
Le flux net de la classe LAL L2 est : phin(L2) = -0.446068
Le flux net de la classe LAL L3 est : phin(L3) = -0.059905
98
Application dans le domaine cytopathologique des leucémies aiguës
La plus haute valeur du flux (1.315875) correspond à la classe LAM M2. Donc le plus proche
voisin à ce cas est le prototype de la classe LAM M2. Ainsi, le type LAM M2 est le plus favorable
à ce cas.
Les différentes valeurs des fonctions de score flou de prototype de chaque type de LA sont :
Résultat de la PROCFTN
LAM
Le score de la classe LAM M1 est : s(M1) = 0.154950
Le score de la classe LAM M2 est : s(M2) = 1.000000
Le score de la classe LAM M3 est : s(M3) = 0.013889
Le score de la classe LAM M4 est : s(M4) = 0.015873
Le score de la classe LAM M5 est : s(M5) = 0.015873
Le score de la classe LAM M6 est : s(M6) = 0.016949
LAL
Le score de la classe LAL L1 est : s(L1) = 0.018868
Le score de la classe LAL L2 est : s(L2) = 0.018868
Le score de la classe LAL L3 est : s(L3) = 0.019231
La plus haute valeur du score flou est s(M2) = 1, qui correspond à la classe LAM M2. Donc le plus
proche voisin à ce cas est le prototype de la classe LAM M2. Ainsi, le type LAM M2 est le plus
favorable à ce cas.
Les procédures ont été testées sur 83 nouveaux cas de LA (cf. tableau 7.4, ensemble de test)
diagnostiquées au laboratoire d’hématologie. Les pourcentages de classification correcte et
incorrecte de chaque méthode sont donnés dans le tableaux 7.7. Les résultats obtenus par la
procédure PROCFTN sont les mêmes que ceux obtenus par la procédure PROAFTN ; on a trouvé
96.4 % de cas bien classés. 90% de cas ont été bien classé par la procédure PROCTN. Ce
pourcentage est inférieur à celui obtenu par les deux autres procédures.
99
Application dans le domaine cytopathologique des leucémies aiguës
Les 3.6 % de cas mal classés par les procédures PROAFTN et PROCFTN correspondent à trois
cas de type LAM M3. Sur ces trois cas, on a deux cas qui ont été classés comme LAM M1 et un
cas qui a été classé comme LAM M2. Les 10 % d’erreurs obtenus par PROCTN correspondent à
sept cas : trois cas de LAM M3, un cas de LAM M4, un cas de LAM M5 et deux cas de LAM
M6. Sur les trois cas de LAM M3 on a deux cas qui ont été classés LAM M1 et un cas qui a été
classé comme LAM M2. Le cas de LAM M4 a été classé comme LAM M1 et le cas de LAM M5
a été classé comme LAL L2. Sur les deux cas de LAM M6 on a un cas qui a été classé comme
LAM M2 et l’autre comme LAL L3.
En observant les degrés d’appartenance floue obtenu par la procédure PROAFTN dans certains cas
de LA (LAM M1 et LAM M2 d’une part, et LAM M4 et LAM M5 d’autre part), nous constatons
que le degré d’appartenance floue du type effectif dépasse légèrement ceux des autres types. Ceci
montre la difficulté de prendre une décision claire concernant la classe d’affectation dans ces cas.
Par contre, la valeur du score flou de prototype de la classe effective obtenu par PROCFTN est
strictement supérieur aux valeurs des scores des prototypes des autres classes. Ceci montre que la
procédure PROCFTN discrimine mieux entre les différents types de LA.
5. Discussion et conclusion
Les méthodes développées produisent de bons résultats en terme de discrimination entre les
différents types de LA. Les résultats obtenu avec les procédures PROAFTN et PROCFTN sont
légèrement supérieurs à ceux de la procédure PROCTN. Ceci peut s’expliquer par le fait que la
procédure PROCTN ne tient pas en compte des seuils de discrimination et de veto. Par opposition à
d’autres approches de classification nos procédures offrent plusieurs avantages. Le premier avantage
est que nos procédures peuvent combiner les deux types d’apprentissages à savoir l’apprentissage
inductif (cas cliniques) et l’apprentissage déductif (ensemble de règles de classification, e.g., critères
de classification F.A.B). Ceci facilite la construction des prototypes et l’interprétation des résultats
par l’utilisateur. Le deuxième avantage est que ces procédures sont explicatives dans la mesure où
elles sont susceptibles de donner une argumentation compréhensible de leurs résultats au décideur.
Le troisième avantage, est spécifique aux procédures PROCFTN et PROAFTN ; il découle de
100
Application dans le domaine cytopathologique des leucémies aiguës
l’utilisation des seuils de veto et des indices de discordance. Ceci permet de prendre en
considération la compensation entre les différents critères quand ils sont en conflit. De plus,
l’avantage principal qu’on peut tirer de cette application est que les procédures développées peuvent
être combinées avec la microscopie assistée par ordinateur pour analyse d’images cellulaires. Ceci
pourrait permettre d’automatiser la lecture des frottis médullaires et identifier automatiquement les
différents types de LA.
En conclusion, ces résultats montrent que les procédures développées peuvent être appliquées avec
succès dans le problème de l’aide au diagnostic des LA.
101
Application dans le domaine cytopathologique des leucémies aiguës
Les tumeurs gliales font partie des tumeurs du cerveau. Elle comprennent trois types histologiques à
savoir les tumeurs astrocytaires, les tumeurs oligodendrogliales et les tumeurs épendymaires (Daumas
et al., 1987 ; Kleihues et al., 1993). Ces tumeurs sont détectées par diverses techniques d’imagerie
médicale réalisées suite à une symptomatologie évocatrice. Parmi les techniques d’imagerie les plus
utilisées, nous citerons la résonance magnétique nucléaire et la tomographie à positron (PET-SCAN)
(Appuzo, 1995). L’image produite par ces images sert à localiser la tumeur afin que le
neurochirurgien réalise l’exérèse ou la biopsie stéréotactique. Cette dernière consiste à introduire
une aiguille jusqu’à la masse tumorale comme c’est illustré dans la figure 8.1 (Appuzo, 1995). Il en
résulte l’obtention d’un matériel qui est soumis au pathologiste pour l’analyse histologique du tissu
tumoral et la détermination de niveau d’agressivité de la tumeur.
Un très grand nombre de recherches ont focalisé leur travaux sur la caractérisation du niveau
d’agressivité des tumeurs du cerveau. Plusieurs domaines incluant l’histologie, l’intelligence artificielle,
les statistiques, l’analyse de données et l’analyse d’images ont été utilisés dans le but de déterminer
les groupes de tumeurs de degré d’agressivité similaire (Bartels et al., 1989 ; 1996 ; Jelonek et al.,
1997 ; Decaesteker et al., 1996 ; 1997).
Figure 8.1. L’approche de la biopsie stéréotactique associée à l’imagerie assistée par ordinateur
(d’après Appuzo, 1995)
La reconnaissance de ces groupes est importante dans la mesure où elle permet de comprendre la
progression de la tumeur, de déterminer le pronostic global de l’atteinte cérébrale et de dégager une
classification. En pratique la classification histopathologique est de loin la plus utilisée. Elle consiste à
25
Ce chapit re est en partie basé sur les résultats présentés dans Belacel et al. (1999a).
102
Application dans le domaine histopathologique des tumeurs Astrocytaires
subdiviser chacun des groupes histopathologiques en grades. Chaque grade est défini par un degré
de malignité particulier. A chacun de ces degrés de malignité est associé un pronostic. Ainsi, dans le
cas des tumeurs astrocytaires, qui font l’objet de cette application, la classification proposée par
l’Organisation Mondiale de la Santé (OMS) distingue les tumeurs de grade II (astrocytomes, notés
AST), les tumeurs de grade III (astrocytomes anaplasiques, notés ANA) et les tumeurs de grade IV
(glioblastomes, notés GBM ) (Kleihues et al., 1993). Dans cette application les tumeurs de grade I
(astrocytomes pilocytique) n’ont pas été prise en considération par manque de données. Les trois
groupes de tumeurs (AST, ANA et GBM) sont divisés en deux niveaux d’agressivité (ou grading).
Les AST sont considérées comme étant des tumeurs de bas grade de malignité tandis que les ANA
et les GBM sont des tumeurs de haut grade de malignité. Les critères de classification utilisés par les
pathologistes pour définir ces grades histopathologiques sont de nature morphologique. Ils incluent
les caractéristiques cytologiques et histologiques (cf. tableau 8.1, Decaestecker, 1997). Ces critères
sont de nature qualitatifs, c’est-à-dire, ils sont donnés sous forme d’appréciation ou de valeurs
linguistiques comme «faible » ou «élevé », et non pas sous forme de valeurs quantitatifs. Ainsi, la
détermination du degré de malignité d’une tumeur astrocytaire s’effectue d’une manière subjective, et
par conséquent une imprécision des valeurs pronostics associées aux grades histopathologiques. Afin
de remédier à cette difficulté beaucoup de travaux récent ont développé des méthodologies qui
permettent de décrire de manière quantitative les critères cytologiques (Jelonek et al., 1997 et
1998). Cette méthodologie est basée sur l’utilisation de la microscopie assistée par ordinateur qui
permet de générer des variables quantitatives. Nous avons utilisé ces variables pour déterminer les
performances des procédures développées dans les chapitres précédents.
Grade des Critères histologiques Critères cytologiques
tumeurs
astrocytaires
Nous allons présenter dans ce paragraphe la technique utilisée pour le diagnostic des tumeurs
astrocytaires à l’aide de la microscopie assistée par ordinateur. Cette technique est employée au
laboratoire d’Histologie de la faculté de Médecine à l’Université Libre de Bruxelles.
103
Application dans le domaine cytopathologique des leucémies aiguës
Après prélèvement du tissu (biopsie stréotactique ou exérèse) celui-ci est coloré par la technique
dite de Feulgen. Cette coloration permet de décrire de manière quantitative le contenu
stoechiométrique de l’acide désoxyribonucléique (ADN). De cette façon, lors de la numérisation de
l’image seule la chromatine du noyau cellulaire est prise en considération. En générale la chromatine
constitue l’un des critères les plus fiables pour évaluer le degré de malignité des tumeurs. Une fois
que l’échantillon a été traité selon la coloration de Feulgen, l’image analogique, telle qu’elle est
perçue par l’œil humain à travers le microscope, est transformée à l’aide d’une caméra en une image
segmentée. Ensuite, un processus de traitement d’image va générer sur base de l’image segmentée et
de l’image analogique, un certain nombre de paramètres morphonucléaires décrivant le noyau de la
cellule (la taille, la quantité de la chromatine, etc.). La figure 8.2 schématise les différentes étapes
réalisées par la microscopie assistée par ordinateur. Les principales étapes sont :
La segmentation qui consiste à discerner les différents objets qui composent l’image c’est-à-dire les
noyaux cellulaires.
La paramétrisation qui génère une série d’attributs (ou critères) décrivant les objets pour constituer
les fichiers de données quantitatives.
104
Application dans le domaine histopathologique des tumeurs Astrocytaires
Figure 8.2. Différentes étapes du diagnostic des tumeurs astrocytaires par microscopie assistée par
ordinateur (d’après puech, 1996)
Les critères de classification sont générées par microscopie assistée par ordinateur de type SAMBA
(Système d’Analyse Microscopique à Balayage Automatique, Alcatel- TITN, Grenoble, France).
Les mesures sont réalisées sur une sélection de 600 à 1600 noyaux par tumeurs, dont l’image
analogique est soumise à une numérisation. Chaque pixel i de l’image nucléaire sera caractérisé par
une valeur numérique de densité optique (ODi, optical density) s’échelonnant de 1 à 255 niveaux de
105
Application dans le domaine cytopathologique des leucémies aiguës
gris et quantifiant l’intensité de la coloration. Cette numérisation permet de dégager des variables
cytologiques quantitatives pour chaque tumeur. Ces variables sont données comme suit :
Les critères morphonucléaires sont au nombre de quinze. Ils décrivent d’une manière quantitative la
morphologie des noyaux cellulaires. Parmi ceux-ci on distingue un paramètre morphométrique
décrivant la taille du noyau, deux paramètres densitométriques décrivant la qualité et la concentration
de l’ADN et douze paramètres texturaux, décrivant l’organisation, la distribution et la texture de la
chromatine nucléique.
Ce critère décrit la taille du noyau par l’évaluation du nombre de pixels occupés par le noyau. Il est
noté NA pour Nuclear Area. Le critère NASD est la déviation standard de NA qui est calculé sur la
population de noyaux décrivant d’une manière quantitative le degré d’anisonucléose (i.e., la variation
des tailles des noyaux cellulaires).
Ces critères sont relatifs à la densité optique des noyaux. Il sont en nombre de cinq :
- Indice d’asymétrie (SK) : donne une indication sur la densité globale du noyau.
Ces critères caractérisent l’organisation des tâches denses dans les noyau. Ils témoignent de la
condensation de la chromatine. Ils sont en nombre de neuf :
- Critère SRL (Short run length) : évalue la fréquence des longues sections de la chromatine
au sein du noyau.
- Critère LRL (long run length) : évalue la fréquence des longues sections de chromatine au
sein du noyau.
- Critère GLD (gray level distribution) : exprime l’uniformité des niveaux de gris dans le
noyau.
- Critère RLD (run length distribution) : caractérise la distribution des longueurs de sections.
106
Application dans le domaine histopathologique des tumeurs Astrocytaires
- Critère RLP (run length percentage) : mesure le nombre de longueurs de section par unité de
surface.
- Critère C (contrast) : donne l’importance des frontières entre les régions nucléaires
d’intensité différentes.
Le taux de ploïdie est défini par le nombre de fois que le noyau cellulaire contient la garniture
chromosomiale haploïde spécifique de l’espèce (23 chromosomes pour l’humain). Les critères
caractérisant le taux de ploïdies sont définies à partir de l’histogramme d’ADN. Ces critères
comportent deux paramètres décrivant la forme globale de l’histogramme DHT (DNA histogram
type et DI, DNA index) et sept autres précisent les proportions des différentes sous-populations de
noyaux constituant l’histogramme. Le pourcentage de cellules diploïdes (%2C), hyperdiploïdes
(%H2C), triploïdes (%3C), hypertriploïdes (%H3C), tétraploïdes (%4C), hypertétraploïdes
(%H4C) et polyploides (%H5C) (cf. figure 8.3).
Figure 8.3. Caractérisation des sous-populations cellulaires au sein d’un histogramme d’ADN grâce
aux variables décrivant le taux de ploïdie (d’après Decaesteker, 1997)
L’ensemble des critères de classification générés par microscopie assistée par ordinateur sont
résumés dans le tableau 8.2.
107
Application dans le domaine cytopathologique des leucémies aiguës
Tableau 8.2. Critères de classification générés par microscopie assistée par ordinateur.
4. Résultats
108
Application dans le domaine histopathologique des tumeurs Astrocytaires
glioblastomes (grade IV, GBM). Chaque cas est décrit par 26 critères quantitatifs générés par
microscopie assistée par ordinateur (cf. tableau 8.2) .
Les méthodes développées dans la partie B de la thèse ont été programmées en langage C sur un
Pentium 90. Elles ont été ensuite testées en utilisant la technique de validation croisée en 10 blocs
(10-fold cross validation) (cf. Partie A, chap. 1 ; § 4). Les résultas de performances obtenus par les
procédures développées ont été comparés aux résultats donnés précédemment par
l’histopathologiste et le pourcentage moyen de cla ssification correcte de chaque grade a été
déterminé. Les résultats obtenus par PROAFTN sont donnés sous forme de degré d’appartenance
floue. Le plus haut degré correspond à la classe d’affectation du cas donné (cf. Chap. 5). PROCTN
détermine un sous ensemble de prototypes les plus proches d’un cas donné à affecter en calculant
les flux nets sur chaque prototype (cf. Chap. 4). PROCFTN détermine un sous ensemble de
prototypes les plus ressemblants à un cas donné en calculant la fonction du score flou pour chaque
prototype (cf. Chap. 6).
4.3. Exemple
Afin d’illustrer nos résultats, nous proposons le cas suivant diagnostiquer par l’histopathologiste
comme étant une tumeur astrocytaire du grade III (ANA). Les valeurs des critères de ce cas sont
données dans les tableaux 8.3.
109
Application dans le domaine cytopathologique des leucémies aiguës
Après introduction des valeurs des critères dans le software, nous avons obtenu les résultats
suivants :
Les différentes valeurs du degré d’appartenance floue aux différents grades de tumeurs astrocytaires
sont :
Le degré d’appartenance floue au grade II (AST) est : d(AST) = 0.955556
Le degré d’appartenance floue au grade III (ANA) est : d(ANA) = 0.992857
Le degré d’appartenance floue au grade IV (GBM) est : d(GBM) = 0.905263
La plus haute valeur du degré d’appartenance floue (0.992857) correspond au grade ANA ; donc
ce cas sera affecté à la classe ANA.
110
Application dans le domaine histopathologique des tumeurs Astrocytaires
La plus haute valeur du flux net de chaque grade sont donnés comme suit :
Le flux net max du grade AST est : phin(AST) = 4.107143
Le flux net max du grade ANA est : phin(ANA) = 5.678572
Le flux net max du grade GBM est : phin(GBM) = 4.857143
La plus haute valeur du flux (5.678572) correspond au grade III (ANA). Donc le grade ANA est le
grade favori pour affecté ce cas.
Les valeurs les plus élevées du score flou des prototypes de chaque grade sont données ci-dessous :
Le score flou max du grade II (AST) est : s(AST) = 0.937786
Le score flou max du grade III (ANA) est : s(ANA) = 1.000000
Le score flou max du grade IV (GBM) est : s(GBM) = 0.942857
La valeur la plus élevée du score flou (1.000000) correspond au grade III (ANA). Donc le grade
ANA est la classe favorite pour affecter ce cas.
Comme montre le tableau 8.4, 67 % des cas du grade II ont été bien classés par la procédure
PROAFTN. Sur les 33 % d’erreurs, 8 % de cas ont été classés comme grade III, 20 % comme
grade IV et 5 % comme grades II et III. Ces derniers cas ont été désignés comme étant des cas
non-discriminants du fait que la méthode attribue la même valeur de degré d’appartenance floue pour
les grades II et III ; donc il etait difficile de connaître le grade prédit par la méthode. Par ailleurs,
nous constatons que les degrés d’appartenance floue des cas mal classés, i.e., 28 %, dépassent
légèrement ceux du grade effectif obtenu par l’histopathologiste (i.e., grade II). Cette même
remarque a été notée avec les cas mal classés des grades III et IV. 68 % de cas de grade III ont été
bien classés par la procédure PROAFTN, 28 % ont été mal classés et 4 % de cas ont été
considérés comme étant non discriminants. Aucun cas du grade III n’a été classé comme grade II.
62 % de cas de grade IV ont été bien classés par la procédure PROAFTN, 15 % de cas ont été
classés comme grade II, 11 % de cas ont été classés comme grade III et 12 % de cas ont été
désignés comme étant non discriminants.
Comme montre le tableau 8.5. 62 % de cas du grade II ont été bien classés par la procédure
PROCTN. Sur les 38 % de cas mal classés, 8 % de cas ont été classés comme grade III, 27 %
comme grade IV et 3 % ont été désignés comme étant des cas non-discriminants. 62 % de cas de
grade III ont été bien classés par PROCTN, 30 % de cas ont été mal classés et 2 % de cas ont été
considérés comme étant des cas non-discriminants. Dans le grade IV, 66 % de cas ont été bien
111
Application dans le domaine cytopathologique des leucémies aiguës
classés par PROCTN et 34 % de cas ont été mal classés. Notons qu’aucun cas du grade IV n’a été
considéré comme étant non-discriminant par PROCTN.
Comme montre le tableau 8.6, 66 % des cas du grade II ont été bien classés par PROCFTN. Sur
les 34 % de cas mal classés 8 % ont été classés comme grade III, 21 % comme grade IV et 5 %
des cas ont été considérés comme étant non-discriminants. Dans le grade III, 68 % de cas ont été
bien classés par PROCFTN. Sur les 32 % de cas mal classés 28 % ont été classés comme grade
IV et 4 % comme grades II et III. Dans le grade IV 64 % de cas ont été bien classés par
PROCFTN, 12 % de cas ont été classés comme grade II, 13 % comme grade III et 11 % ont été
considérés comme étant des cas non discriminants.
Grade II III IV II+III * II+IV* III+IV* II+III+IV
*
II 67 8 20 5 0 0 0
III 0 68 28 0 2 0 2
IV 15 11 62 1 2 3 6
Tableau 8.4. Matrice de confusion indique en ligne les grades histopathologiques et en colonne les
grades prédits par PROAFTN. Les résultats sont exprimés en taux moyens (%) de
classification observés sur les 10 tests de la validation. * cas non-discriminant
Grades II III IV II+III * II+IV* III+IV* II+III+I
V*
II 62 8 27 0 3 0 0
III 6 62 30 0 2 0 0
IV 12 22 66 0 0 0 0
Tableau 8.5. Matrice de confusion indique en ligne les grades histopathologiques et en colonne
grades prédits par PROCTN. Résultats sont exprimés en taux moyens (%) de classification
observés sur les 10 tests de la validation. * cas non-discriminant.
Grades II III IV II+III * II+IV* III+IV* II+III+IV
*
II 66 8 21 5 0 0 0
III 0 68 28 4 0 0 0
IV 12 13 64 0 2 3 6
Tableau 8.6. Matrice de confusion indique en ligne les grades histopathologiques et en colonne les
grades prédits par PROCFTN. Les résultats sont exprimés en taux moyens (%) de
classification observés sur les 10 tests de la validation. * cas non-discriminant.
112
Application dans le domaine histopathologique des tumeurs Astrocytaires
Tableau 8.7. Résultas de classification des trois procédures évalués par validation croisée en 10
blocs. Les chiffres sont exprimés en pourcentage moyen de classification correcte et
incorrecte.
Dans l’ensemble les pourcentages moyens obtenus avec les procédures PROAFTN et PROCFTN
sont presque identiques. Un pourcentage un peu plus faible a été obtenu avec la procédure
PROCTN (cf. tableau 8.7).
Dans le but de situer nos méthodes développées par rapport à ceux déjà existantes, nous avons
comparé les performances de nos méthodes avec ceux publiés dans la littérature en utilisant les
mêmes données. Cinq classificateurs à savoir l’approche des réseaux de neurones (Perceptron
multicouches, MLP), la régression logistique 26, la méthode d’arbre de décision (C4.5) et la
méthodes des k plus proches voisins (cf. Partie A, Chap. 1) ont été utilisés pour classés les tumeurs
astrocytaires. Ces classificateurs ont été testés par Decaestecker (1997) sur les mêmes données
cliniques. Comme montre le tableau 8.8., aucun classificateurs n’a dépassé le taux moyen de 65 %
de classification correcte. On remarque que les meilleures performances ont été obtenues par les
méthodes de règles de production (système expert) et de régression logistique. Nos résultats sont
comparables à ceux obtenus par ces classificateurs27.
Classificateurs % de classifications correctes
Arbre de décision 53
Règle du production 65
Plus proche voisin 60
3-plus proches voisins 58
Régression logistique 65
Perceptron multicouche 64
Tableau 8.8. Résultats de classifications correctes de six classificateurs. Pour chaque classificateur
est indiqué le taux moyen de classification correcte observé sur les 10 tests de la validation.
Dans l’ensemble les performances de classification obtenues par les trois procédures développées
sont insuffisantes. En effet, les procédures PROAFTN et PROCFTN produisent les meilleures
performances en terme de pourcentage moyen de cas bien classés. Les résultats obtenus par
PROCFTN et PROAFTN sont comparables à ceux obtenus par les classificateurs règle de
26
La régression logistique s’appuie sur un modèle de fonctions discriminantes utilisant une fonction exponentielle normalisée.
27
Nous n'avons pas pu appliquer les tests statist iques pour étudier la signification des différences entre nos résultats et ceux publiés
dans la littérature par manque de détails sur ces derniers.
113
Application dans le domaine cytopathologique des leucémies aiguës
production et régression logistique. Ces résultats montrent que les méthodes utilisant l’approche
d’aide multicritère à la décision sont en même rang que ceux utilisant d’autres algorithmes de
classification.
Cependant, les résultats de performances obtenus que ce soit avec nos méthodes développées ou
avec les classificateurs utilisés par Decaestecker (1997) sont en générale faibles. En effet, aucune
méthode n’a pu discriminer parfaitement les différents grades de tumeurs astrocytaires. Cette
difficulté peut être liée entre autre à l’hétérogénéité cytologique de ces tumeurs. Nos procédures
développées définissent de nouvelles classes (cas non discriminants) dont la signification clinique
n’est pas connue. D’autre part, notons que nos méthodes n’arrivent pas à séparer entre le haut et le
bas grade de malignités en se basant sur les paramètres générés par microscopie assistée par
ordinateur. Nous pensons que l’utilisation d’autres paramètres cliniques permettront de mieux
discriminer ces grades et ainsi améliorer le taux de classification. Des études réalisées par Jalonek et
al. (1997) ont montré que le fait de combiner les critères générés par microscopie assistée par
ordinateur avec les données cliniques permet d’améliorer d’une façon remarquable les performances
de classification.
De façon générale nos procédures offrent plusieurs avantages. Le premier avantage est qu’elles
peuvent combiner les deux types d’apprentissages à savoir l’apprentissage inductif (cas cliniques) et
l’apprentissage déductif (ensemble de règles de classification). Cet avantage facilitera la construction
des prototypes et l’introduction aisé des paramètres histologiques. Le deuxiè me avantage est que ces
procédures sont explicatives dans la mesure où elles sont susceptibles de donner une argumentation
compréhensible de leurs résultats au décideur. Le troisième avantage, est spécifique aux procédures
PROCFTN et PROAFTN. Il découle de l’utilisation des seuils de veto et des indices de
discordance. Ces seuils permettent de prendre en considération la compensation entre les différents
critères quand ils sont en conflit. Le dernier avantage provient de l’utilisation des sous-ensembles
flous. Cet avantage donnera la possibilité de prendre en considération les nuances qui existent entre
les différents grades de tumeurs.
Dans cette application nous avons attribué les mêmes poids d’importance aux différents critères. En
raison de la structure de données nous n’avons pas pris en considération l’effet du veto. Par ailleurs,
Il serait intéressant d’attribuer différents valeurs de poids d’importance aux différents critères et ainsi
vérifier leur importance dans chaque grade de tumeur astrocytaire.
Nous avons appliqué aussi la méthode PROAFTN pour diagnostiquer les tumeurs superficielles de la
vessie. Les résultats sont présentés dans l’Annexe C. Ils illustrent la capacité de la procédure à
séparer entre le haut et le bas grades de malignité des tumeurs superficielles de la vessie en se basant
uniquement sur les paramètres générés par microscopie assistée par ordinateur (Belacel et al.,
1999d). Cette séparation est capitale de point de vue thérapeutique et pronostic de ces tumeurs.
De façon générale, malgré que le taux d’erreur de classification de ces tumeurs soit élevé, les
résultats préliminaires sont encourageants et montrent que le domaine de l’aide multicritère à la
décision peut être appliqué avec succès pour résoudre certains problèmes de classification médicale.
114
CONCLUSION
115
Conclusion et perspectives
Conclusion et perspectives
Le travail présenté dans cette thèse a montré le bien fondé des nouvelles procédures basées sur le
domaine de l’aide multicritère à la décision pour résoudre certains problèmes de classification. Notre
contribution dans le domaine de la classification a été d’abord de proposer de nouvelles méthodes
de classification multicritère, puis de les appliquer dans le domaine de l’aide au diagnostic médical.
Après une description générale des procédures de classification multicritère ainsi qu’une série de
principes fondamentaux caractérisant ces procédures, nous avons proposé trois nouvelles
procédures de classification. Ces procédures sont :
Ces nouvelles méthodes se distinguent de celles déjà publiées dans la littérature par le fait qu’elles
utilisent une modélisation fine des préférences pour décider d’affecter ou non un objet à une cla sse
prédéfinie. De plus, elles sont explicatives dans la mesure où elles sont susceptibles de donner une
argumentation compréhensible de leurs résultats au décideur.
Un autre aspect très motivant de ce travail concerne les applications de ces procédures dans le
domaine de l’aide au diagnostic médical. Nous avons appliqué ces trois procédures dans le domaine
cytopathologique des leucémies aiguës et histopathologique des tumeurs astrocytaires. Les résultats
obtenus sont satisfaisants et montrent la capacité de ces procédures à résoudre certains problèmes
de classification médicale (cf. Belacel et al., 1999a ; b ; c ; d).
q Améliorant les performances de ces méthodes par optimisation des paramètres et en les
combinant à d’autres méthodes de classification, telle que l’arbre de décision.
116
Conclusion et perspectives
q Adaptant les méthodes développées à des situations plus complexes où les objets sont
représentés par des intervalles flous et non pas par des nombres réels (Mudry et al., 1994 ;
Roubens et Vincke, 1988). Par exemple dans l’application des tumeurs astrocytaires, les
critères histopathologiques sont flous par nature puisque s’exprimant selon des termes
linguistiques ‘faible’, ‘moyen’, ‘fort’ (cf. tableau 8.1, Chap. 8 ; § 1). L’adaptation de nos
méthodes à ces situations permettrait d’intégrer à la fois des données histopathologiques,
telles que les pathologistes les utilisent, aux informations cytologiques quantitatives obtenues
par microscopie assistée par ordinateur.
117
ANNEXES
Annexe A
Annexe A.
{ } { { } { }}
max i =1... LH I (a , biH ) = max max i =1 ... Lh I ( a, bih1 ) , max i =1... Lh I (a , bih2 ) ,
1 2
Preuve. Immédiate du fait que l’ensemble des actions de référence centrale est fini.
Théorème A.1.
La procédure PROAFTN que nous venons de décrire respecte les principes d’universalité,
d’indépendance, de neutralité, de nominalité et de stabilité, cités au chapitre 3 (Partie B, Chap. 3,
§2.3).
Preuve.
d(a, Ch) ≥ λ ⇒ Ω 1 ≥ 1.
Donc l’action a est affectée à une, plusieurs ou aucune catégorie, par conséquent la propriété
d’universalité est vérifiée.
119
Annexe A
Neutralité : Elle est vérifiée par les conséquences de l’axiome 2 et par la définition du degré
d’appartenance d(a, Ch).
Nominalité : Le degré d’appartenance de l’action a à la catégorie Ch, d(a, Ch) est déterminé
indépendamment des autres catégories.
où C σ(h) la catégorie obtenue en permutant l’indice de la catégorie h∈{1,…, k}, en indice σ(h) ≠ h et
σ(h) ∈{1,…, k}.
Stabilité :
Pour la preuve de la condition nécessaire, qui peut s’interpréter comme étant la condition permettant
la division d’une catégorie, nous démontrons d’abord l’implication suivante :
(a ∈ C H) ⇒ (a ∈ C h et/ou a ∈ C h ),
1 2
l’affectation de l’action a à la catégorie CH implique que le degré d(a, CH), est égale au maximum
des indices d’indifférence I(a, biH) de l’action a avec les actions de référence biH, i = 1, …, LH, (H
est l’indice de la catégorie regroupant C h et C h ) est supérieur ou égale à λ . Ainsi, d’après le
1 2
lemme A.1, on a :
{ } { { }
max i =1... LH I (a , biH ) = max max i =1 ... Lh I ( a, bih1 ) , max i =1... Lh I (a , bih2 ) .
1 2
{ }}
{ { }
Puisque d(a, CH) ≥ λ, alors max max i =1... L I (a, bih1 ) , max i =1... L I (a, bih2 ) ≥ λ.
h1 h2
{ }}
Autrement dit
Si l’action a n’est pas affectée à la classe Cl , alors pour tout l ≠ H le degré d’appartenance à la
classe Cl ; d(a, C l) est strictement inférieur à la valeur λ. De plus, pour tout l ≠ H on a l ≠ h1 et l ≠
h2. Donc pour tout l différent de h 1 et de h 2 l’action a n’est pas affectée à la catégorie Cl. Ainsi, la
condition nécessaire est vérifiée. Pour la condition suffisante, qui peut s’interpréter comme étant la
120
Annexe A
(a ∈ C h1 et/ou a ∈ C h2 ) ⇒ (a ∈ C )
H
Par définition on a
Autrement dit
{ { }} {
[ max i =1 ... L I ( a , bih1 ) ≥ λ et/ou max i =1... L I (a , bih2 ) ] ≥ λ ,
h1 h 2
{ }}
cela entraîne que
{ 1
{ }} { h 2
{
[ max i =1 ... L I ( a , bih1 ) ≥ λ et/ou max i =1 ... L I ( a, bih 2 ) ≥ λ ] ⇒
h
}}
{ { }} {
[max( max i =1... Lh I (a , bih1 ) , max i =1... Lh I (a , bih2 ) ) ≥λ ].
1 2
{ }}
Ainsi d’après le lemme A.1 on a :
{ 1
{ }} { 2
{
[max ( max i =1... Lh I (a , bih1 ) , max i =1... Lh I (a , bih2 ) ) ≥ λ ] ⇒ }}
{
max i =1... LH I (a , biH ) ≥ λ . }
D’où
On sait que
(l ≠ h 1 et l ≠ h2) ⇒ (l ≠ H).
Ce qui implique
On déduit que
121
Annexe A
CQFD
122
Annexe B
Annexe B.
o Lignée prépondérante
123
Annexe B
o Lignée prépondérante.
124
Annexe B
o Lignée prépondérante.
125
Annexe B
o Lignée prépondérante.
126
Annexe B
o Lignée prépondérante
127
Annexe B
o Lignée prépondérante
128
Annexe B
o Lignée prépondérante.
129
Annexe B
o Lignée prépondérante.
130
Annexe C
Annexe C.
Publié dans Foundations of Computing and Decision Sciences (2000), 25 (1) :24-33.
131
Annexe C
Abstract. We recently developed a new fuzzy classification method named PROAFTN, which uses
the multicriteria decision aid approach. The aim of this paper is to evaluate the performance of the
proposed method to grade bladder cancer malignancy. For this purpose, 292 cases of bladder tumors,
classified according to the old World Health Organization classification by a pathologist on three
subjective levels of malignancy (137 low grade, 124 intermediate grade and 31 high grade) were tested
using the 10-fold cross-validation technique. The features were generated by means of computer-
assisted microscope analysis of cell images and submitted to the PROAFTN method, which determines
the membership degrees of each case in each grade. In order to determine the accuracy of the
classification, results obtained by the method were compared to the subjective grading made by the
pathologist. The PROAFTN method yielded good results in terms of discrimination between low and
high grades, while it was unable to provide a satisfying discrimination within the heterogeneous
intermediate grade II group. These results seem to be in agreement with the literature concerning the
clinical heterogeneity of the intermediate grade. From these results, it will be essential in the future to
see whether any combination of other sets of features, such as clinical data, can better discriminate
between the grades.
1. Introduction
Since the introduction of computer-based methods for cell and tissue analysis to aid in medical
diagnosis, a number of important approaches have emerged in the classification of tumor malignancy.
Most attempts have been made using pattern recognition, statistics, machine learning, neural network,
rough sets and expert system methods [3,7,8,10,14,17,25]. Multicriteria decision aid (MCDA)
constitutes another approach to help medical classification problems. The MCDA approach can use the
preference relational system described by Roy in 1996 [20] and Vincke in 1992 [24]. It employs the
comparison between the alternatives through the scores of different attributes. Thus, the MCDA
approach avoids resorting to distance and allows using qualitative and/or quantitative attributes.
Besides, it helps to overcome some difficulties encountered when the data are expressed in different
units. However, only a few studies using MCDA approaches have been reported in medical
applications. In this context, we have recently developed a classification method called PROAFTN,
which belongs to the MCDA area. This method is part of the supervised learning algorithms, which all
follow the same scheme described by Perny in 1998 [19]. In this paper, we present the performances
of the proposed method in the grading of bladder cancer malignancy. The method and the
corresponding software were tested using the 10-fold cross-validation technique described by Weiss
and Kulikowski [25] on 292 cases of bladder tumors. According to the old WHO classification, bladder
tumors can be divided into three grades: grade I, grade II and grade III. Grade I covers low grade
tumors, whereas grade II and III include intermediate and high grades respectively. Most grade I
tumors are considered to have a good prognosis, while grade III is associated with a bad prognosis. In
contrast, grade II tumors are very heterogeneous in terms of their clinical behavior [18].
28
Institute of Statistical and Operational Research and Service de Mathématiques de la Gestion, Université Libre de Bruxelles, Bd.
Du Triomphe, C.P. 210/01, B-1050 Brussels, Belgium, e-mail: nbelacel@smg.ulb.ac.be.
29
Laboratory of Auto-immunity, Saint-Luc Hospital, Université Catholique de Louvain, Av. Hippocrate 54/5490, 1200 Brussels,
Belgium, e-mail: Rachid.Boulassel@mblg.ucl.ac.be.
132
Annexe C
All the microscope data used in this study were kindly provided by Dr. Decaestecker (Laboratory of
Histology, Faculty of Medicine, Université Libre de Bruxelles). The parameters were generated by
computer-assisted microscope analysis of cell images of Feulgen-stained sections from 292 bladder
tumors. The subjective grading made by the pathologists on the data set was: 137 grade I (low grade),
124 grade II (intermediate grade) and 31 grade III (high grade). The classification was made according
to the old World Health Organization (WHO) classification. The clinical characteristics related to this
data set as well as the parameter determination can be found in Decaestecker et al. [11, 12]. Each
case was defined by twenty-four parameters, which include nine parameters for nuclear
deoxyribonucleic acid measurements and fifteen others for quantitatively describing chromatin pattern
texture. Table 1 shows the quantitative description of the features generated by means of image
analysis (SAMBA 200 microscope image processor, Grenoble France). For each of the 292 cases of
bladder tumor under study, 400-1200 cell nuclei were analysed in the high-resolution mode described by
Kiss et al. [15-16]. The DNA ploidy level was assessed by means of the DNA types as described in
references [11,21,22]. The percentages of diploid, hyperdiploid, triploid, hypertriploid, tetraploid,
hypertetraploid and hyperpentraploid cell nuclei were determined by the DNA histograms as detailed
elsewhere [11]. The quantitative description of the morphonuclear features and chromatin texture
parameters can be found in [21-22].
This chapter briefly describes the fuzzy assignment procedure PROAFTN (for more details see Belacel
[1, 2]). This procedure is part of the supervised learning algorithms and starts with a set of cases
designated as the training set. These cases are partitioned into mutually exclusive classes (e.g. grade -
related to bladder tumors) and are described by their values for a set of attributes (e.g. features
generated by means of computer-assisted microscope analysis of cell image). The rule for assigning
actions (i.e., cases) to classes is formulated as follows: “action ‘a’ is assigned to a class if and only
if ‘a’ is indifferent or (roughly) equivalent to at least one of the prototypes of this class”.
133
Annexe C
1 k
Let {g1,…,g n} be the set of attributes. Let us denote by Ω = {C ,…,C } the set of classes. Given an
action a, described by the score of n attributes, the different steps of the procedure are as follows:
0)- Initialization :
h h
{ h h h
}
For each class C , h=1,…,k, we determine a set of Lh prototypes B = b1 , b 2 ,..., b Lh by combining
the available knowledge (e.g., classification rules) with the data set (e.g., clinical cases). The
prototypes are considered as a good representative of their class and are described by the score of
h
each of the n attributes. More precisely, to each prototype b i and each attribute gj, j=1,…,n, an
1 h 2 h 2 h 1 h
interval [S j (bi ),S j (bi )] is defined, with Sj (bi )≥ Sj (b i ), j=1,…,n, h = 1,…,k and i= 1,…,L h. For
determining these intervals we follow the general scheme of the discretization technique described by
Ching et al. [6]. In addition, we determine the parameter values (weights, thresholds,…), which are
used to calculate the membership degree (MSD) of the action into classes. An initialization strategy is
used to propose the initial parameters (discrimination thresholds), which is adapted during the
optimization process. This strategy enables us to minimize the classification errors. The strategy
operates as shown in Figure 1.
Start
+ -
Set thresholds (qj and q j , j=1,…,n)
h
Set weights (wj , j=1,…,n and h= 1,…,k )
Yes
Parameter validation
Stop
The parameter values are obtained from the available knowledge and after discussion with the
decision-maker.
134
Annexe C
h
The method calculates the indifference indices I(a,bi ), h=1,…,k and i=1,…,L h, on the so-called
concordance and non-discordance principles [2, 19]. More precisely,
n n
I(a, bi ) = ( ∑ (Wj × Cj(a, bi ) )× ∏ (1 − D j (a , bih )) j ),
h h h wh
(1)
j =1 j =1
Where
h
Wj is the positive coefficient reflecting the relative importance attached by the decision-maker to an
h
attribute g j of the category C . It is not restrictive to normalize these coefficients for each category:
n
∑W
j =1
j
h
= 1 , ∀ h =1,…,k.
h
Cj(a, bi ), j=1,…,n, is the degree with which attribute g j is in favor of the indifference relation
h
between a and b i . Figure 1 illustrates how it is calculated. In this figure, two positive discrimination
+ h - h
thresholds d j(b i ) and d j(bi ), are used for taking into account the imperfection and the imprecision of
the data.
h
Dj(a, b i ), j = 1,…,n, is the degree with which attribute g j is against the indifference relation between
h - h + h
a and b i . Figure 2 illustrates how it is calculated. In this figure, veto thresholds v j(bi ) and v j(b i ), j=
h
1,…,n, are used to define the values for which a is considered as very different to b i for attribute g j.
h h
Expression (1) defining I(a, bi ) shows that this index increases with the quantities Cj(a, bi ) and
h
decreases with the quantities D j(a, bi ). For a more detailed analysis of all these indices, see
references [1,2, 4,5, 19].
C j(a, b ih)
g j(a)
1 h - h 1 h 2 h 2 h + h
S (b ) – d (b )
j i j i S (b )
j i S (b )
j i S (b ) + d (b )
j i j i
Figure 1: Graphical representations of the partial indifference index between the action a and the
h
prototype bi . This graph assumes continuity and linear interpolation.
135
Annexe C
Dj(a,b hi)
g j(a)
S j1(b ih) - v j- (b ih) S j1(bih) - dj- (bih) S j1(b ih) S j2(b ih) S j2(bih)+dj+(bih) S j2(b ih)+v j+(b ih)
Figure 2: Graphical representation of the partial discordance index with regard to the indifference
h
relation between the action a and the prototype bi . This graph assumes continuity and linear
interpolation.
h
2). Evaluating the MSD d(a, C ):
h h h
The MSD d(a, C ) of an action a to the class C , h=1,…,k, is defined by a set of prototypes B ,
h
h=1,…,k, and it is measured by the indifference degree between a and its nearest neighbor in B
according to the fuzzy indifference relation I:
{
d ( a, C h ) = max I (a , b1h ), I ( a, b2h ),..., I (a , b Lhh ) }
3). Assigning the action a:
h h
Once the MSD d(a, C ) has been computed for an action a and for classes C , h=1,…, k, a crisp
assignment decision of an action a is easily derivable using the following rule:
h h l
a∈C ⇔ d(a, C ) = max{d(a, C ) / l ∈ {1,…, k} }
The method was tested using the 10-fold cross-validation technique as described previously by Weiss
and Kulikowski [25]. Briefly, the cases were randomly divided into 10 mutually exclusive test partitions
of approximately equal size. Training and testing are repeated ten times. In each iteration, nine
partitions constitute the training set and the remaining one plays the role of the testing set. The
percentage of correctly classified cases from the testing set is determined for all iterations. After
submitting the twenty-four parameter values to the PROAFTN method, it determines the MSD values
of the case for each grade. The highest MSD value corresponds to the favorite grade. Note that the
MSD value can vary between 0 and 1. The classification results obtained by the method were
136
Annexe C
compared to the subjective grading made by the pathologist and the correct classification percentages
were determined for each grade.
3 Results
3.1 Classification results
Table 2 summarizes the results obtained on the three histopathological grades of bladder tumors. The
results are recorded solely on the basis of the parameters generated by computer-assisted microscope
analysis of cell image. The average percentages of correct classification, misclassification and non-
discriminated cases were 59 %, 39 % and 2 % respectively. Two percent of the cases were
designated as non-discriminatory by the method because such cases presented the same highest MSD
value in at least two grades, hence, it was impossible to determine the effective grade. It follows that
additional grades can be defined by our method. These cases were observed in the grades I and III and
represent one case (3%) in each grade.
As shown in Table 2, 69 % of grade I cases were correctly classified, 28 % were classified as grade II
and 0 % were classified as grade III. The grade I cases which were classified as grade II present a
MSD value close to the MSD value of the effective grade (i.e. grade I). In fact, when we analyze the
MSD values of the misclassified cases (i.e. 28 %), we note that the difference between the MSD
value of such cases and the MSD value of the effective grade (i.e. grade I) do not exceed 0.04. This
indicates that it is very difficult for the decision-marker to discriminate clearly these cases from the
effective grade. However, there was no case belonging to the grade I group which was classified as
grade III, thereby indicating that the method discriminates sharply between grades I and III. In the
grade II group, 52 % of the cases were correctly classified, 39 % were classified as grade I and 9 %
were classified as grade III. Consequently 48 % of the cases were not correctly classified, suggesting
that the method yields poor results in terms of discrimination within the heterogeneous middle grade II
group. Moreover, with regard to the MSD values of the misclassified cases (48%), we note that their
MSD values slightly exceed the MSD values of the effective grade (intermediate grade), hence, it is
very difficult for the decision-marker to interpret these results. In the grade III group, 56% of the cases
were correctly classified, 38% were classified as grade II, and 3% were classified as grade I. Only
one case (3%) belonging to the high grade group was classified as low grade, suggesting that the
method produces very good results in terms of discrimination between grades III and I. This appears
very encouraging since the results are recorded solely on the basis of the features generated by means
of computer-assisted microscope analysis of cell image. However, the fact that 38% of grade III cases
were classified as grade II shows that there is a close resemblance between the parameters generated
by computer-assisted analysis of cell image in grades III and II. On the other hand, the results obtained
in the grade II group are, in general, worse than the corresponding ones in the grade I and III groups.
137
Annexe C
PROAFTN method
Effective grades according
Grade Grade Grade Grade* Grade*
to
I II III I+II+III II+III
WHO classification
Grade I 69 28 0 0 3
Grade II 39 52 9 0 0
Grade III 3 38 56 3 0
* Non-discriminatory cases.
Table 2: Indicates the average of the percentage of the correctly classified, incorrectly classified and
non-discriminated cases of bladder tumors estimated by the 10-fold cross-validation technique. Note
that, the last two columns correspond to the non-discriminated cases.
4 Discussion
Today the old WHO grading system ha s been substituted by a new one. Actually there are two new
virtually identical WHO grading systems: the new WHO system and the WHO/ISUP system [14].
Other systems of classification have tried to divide the bladder tumors into low and high grade, i.e., 1
and 2A on one hand and 2B and 3 on the other [13]. In this study the data sets were recorded using the
old WHO system as the base line. The complexity of bladder tumors, especially grade II, is such that
the method was unable to provide a full classification of all cases. However, despite the low average
percentage (59 %) of correctly classified cases, the method was able to distinguish between the low
and high grades solely on the basis of parameters generated by computer-assisted microscope analysis
of cell images. This is very encouraging since only one case belonging to the grade III group was
classified as grade I. In addition the MSD value of this case was close to the MSD value of the
effective grade, i.e., grade III. Our results also indicate that the sets of features computerized by
means of image analysis are reasonably discriminated for grades III and I. Thus, it should be possible
to use these features to achieve more objective malignancy grading of low and high grade bladder
tumors. Otherwise, 2% of the cases were designated non-discriminated by our method (see Table 2),
for which the effective grade cannot be determined because the same MSD value is given in at least
two grades. Consequently, additional grades can be defined by our method but with no identical
correlation to the conventional subjective malignancy grading of bladder tumors. From this, it clearly
appears that the features generated by means of computer-assisted image analysis are not sufficient
for a good discrimination between these cases. Thus, it would be interesting to see whether any
combination of other sets of parameters such as clinical features, could improve discrimination in such
cases. Our results also show that of the 124 grade II tumors under study, only half of them were
correctly classified, indicating that the method is unable to provide a satisfactory discrimination within
this intermediate grade. However, this result seems to be in concordance with the literature concerning
the clinical heterogeneity of the intermediate grade. The data reported in the literature agrees on
considering grades I and III as two distinct histopathological entities, while grade II tumors seem to be
a continuum between grades I and III [9, 23]. In the future, it would be worth testing whether any
combination of other features can subdivide the middle group cases into low grade II and high grade
II classes using clinical outcome as the endpoint without any concern as to whether we can fit our
results to the subjective grade II or not. In general, we believe that the results presented here are not
satisfactory, since the error rate was around 39 percent for all the test sets. However, it is important to
remember that we have only used the features generated by means of computer-assisted image
analysis. We think that it is essential that these features must be combined with other clinical data in
order to be of some relevance for analysis. Compared to other classification approaches, our method
offers several advantages. The first advantage is that the prior knowledge (i.e., classification rules) and
138
Annexe C
data (clinical cases) can be combined without any difficulty by our method, so it should be quite easy to
introduce new features in order to improve the accuracy of classification. The second advantage is that
it provides representative information about the different steps for calculating the MSD values. The
third advantage is that it offers the possibility to modify easily the classification criteria (prototypes) for
each grade and to assess the importance of the weight of each feature by interaction with the decision-
maker (pathologist). In this study, we attributed the same weight value to each feature.
5. Conclusion
The present study shows that it is possible to distinguish between grades I and III of bladder tumors
solely on the basis of the parameters generated by means of computer-assisted microscope analysis of
cell image. The main difficulties of classification are encountered in the grade II group where the
method yields poor results, but the histopathological heterogeneity of the middle WHO grade II group
may be one of the reasons of this difficulty. The introduction of other clinical features should be of
great value to further discriminate between the different grades. These preliminary results also show
that the multicriteria decision aid approach will play an important role in clinical classification problems.
Acknowledgments
The authors would like to thank Pr. Vincke from the Institute of Statistics & Operational Research for
his guidance and encouragement. We are deeply indebted to Dr Decaestecker for providing the clinical
data. This research was supported by a grant from the International Department of the Université
Libre de Bruxelles.
References
Belacel N.: “La méthode PROAFTN d’affectation multicritère : fondement et application dans le
domaine d’aide au diagnostic médical”, Research Report IS-MG 98/05, Université Libre de
Bruxelles, CP 210/01, B-1050 Bruxelles, Belgique, 1998.
Belacel N.: Multicriteria Assignment Method PROAFTN: Methodology and Medical Application,. Eur J
Operational Res .25(1) (2000) 24-33.
Bartels PH., Weber JE.: Expert systems in histopathology. I. Introduction and overview, Anal. Quant.
Cytol. Histology 11 (1989) 1-7.
Bouyssou D.: On some properties of outranking relations based on concordance-discordance principle.
In: Springer-Verlag, eds. multiple criteria decision making. Berlin (1992), 93-106.
Bouyssou D., Roy B.: Aide multicritère à la décision: Méthodes et Cas. Economica, Paris 1993.
Ching J.Y., Wong A.K.C., Chan K.C.C., “Class-Dependent Discretization for Inductive Learning from
Continuous and Mixed-Mode Data”, IEEE Transaction on pattern analysis and machine intelligence, 7
(1995) 641-651.
Cover T., Hart P.G.: Nearest neighbour pattern classification, IEEE Trans. Inf. theory, IT-13 (1967)
21-27.
Dasarathy BV.: Nearest Neighbour (NN) norms: NN Pattern Classification Technique. IEEE
Computer Society Press, Los Alamitos, CA, 1991.
De Meester U., Young IT., Lindeman J., Van der Linden HC.: Towards a quantitative grading of
bladder tumors. Cytometry 12 (1991) 602-613.
Decaestecker C., “Développements méthodologiques pour la classification de données réelles.
Application à l’aide au diagnostic et au pronostic de tumeurs gliales”. Aggregation thesis at the
Université Libre de Bruxelles, Belgium, 1996.
139
Annexe C
Decaestecker C., Van Velthoven R., Petein M., et al.: The use of the decision tree technique and
image cytometry to characterize aggressiveness in World Health Organization (WHO) grade II
superficial transitional cell carcinomas of the bladder. Journal of pathology 178 (1996) 274-283.
Decaestecker C., Van Velthoven R., Petein M., et al.: The computer-assisted microscope analysis of
Feulgen-stained nuclei linked to a supervised learning algorithm as an aid to assessment prognosis in
invasive transitional bladder cell carcinomas. Annals of Cell Pathology 10 (1996) 263-280.
Jarkrans T., Vasko J., Bengtsson E., Choi HK., Malmstrom PU., Wester K., Bush C.: Grading of
transitional cell bladder carcinoma by image analysis of histological sections. Analytical and Cellular
and Pathology 8 (1995) 135-158.
Jelonek J., Krawiec K., Slowinski R., Stefanowski J., Szymas J.: Neural networks and rough sets-
comparison and combination for classification of histological pictures, In: Proceedings of the first
National Conference Neural Networks and their Applications, Kule, Czqstochawa, (1994), 268-
273.
Kiss R., Gasperin P., Verhest A., et al.: Modification of the tumour ploidy level by the choice of the
tissue taken as diploid reference in digital cell image analysis of Feulgen-stained nuclei. Mod Pathol 5
(1992) 655-660.
Kiss R., Salmon I, Camby I., et al.: Characterization of factors in routine laboratory protocols which
significantly influence the Feulgen reaction. J Histochem Cytochem 41 (1993) 935-945.
Michalski RS.: A theory and methodology of inductive learning. In: Machine Learning, An Artificial
Intelligence approach Vol I (Ryszard S. Michalski, Jaime G. Carbonell and Tom M. Mitchell, eds).
Tioga Publishing, Palo Alto, 1983.
Murphy WM., Beckwith JB., Farrow GM.: Atlas of Tumour Pathology. Tumours of the Kidney,
Bladder, and related Urinary Structures. Washington, DC: Armed Forces Institute of Pathology,
Third Series, 1994.
Perny P.: Multicriteria filtering methods based on concordance and non-discordance principles, Annals
of Operations Research 80 (1998) 137-165.
Roy B.: Multicriteria methodology for decision aiding. Kluwer Academic, 1996.
Salmon I., Kruczynski A., Camby I., et al.: DNA histogram typing in a series of 707 tumors of the
central and peripheral nervous system. Am J Surg Pathol 17 (1993) 1020-1028.
Salmon I., Gasprein P., Remmelink M., et al.: Ploidy level and proliferative activity measurements in a
series of 407 thyroid tumours or other pathological conditions. Human Pathol 24 (1993) 912-920.
Van Velthoven R., Petein M., Zlotta, et al.: Computer-assisted chromatin texture characterization of
Feulgen-stained nuclei in a series of 331 transitional bladder cell carcinomas. Journal of Pathology
173 (1994) 235-242.
Vincke Ph.: Multicriteria decision aid. J. Wiley, New York, 1992.
Weiss SM., Kulikowski CA.: Computer Systems that learn, Classification and Prediction methods
from Statistics, Neural Nets, Machine Learning and Expert Systems . Morgan Kaufmann
Publishers, San Mateo, CA, 1991.
140
BIBLIOGRAPHIE
Bibliographie
142
Bibliographie
23. Bennett J.M., Catovski D., Daniel MT., et al. (1985) “Proposed revised criteria for the classification of
acute myeloid leukemia”, Annals of internal Medicine 103:626-629.
24. Benzécri J.P. (1973) L’analyse des données. Dunod, Paris.
25. Bishop CM. (1995) Neural networks for pattern recognition. Oxford Clarendon Press.
26. Bonner R.H. (1964) “On some clustering techniques”, IBM Journal. V. 22.
27. Bordes G.A. (1983) “On the possibility of reasonable consistent majoritarian choice: some positive
results”, Journal of Economic Theory, 31:122-132.
28. Bouyssou D (1984) Approches descriptives et constructives d’aide à la décision : Fondements et
comparaison, thèse de Doctorat, Méthodes scientifiques de gestion , Université de Paris Dauphine.
29. Bouyssou D. (1990) “Building criteria: a prerequisite for MCDA”, dans C.A. Bana e Costa (Eds.),
Readings in Multiple criteria Decision Aid , Springer-Verlag: 58-80, Berlin.
30. Bouyssou D. (1991) “A note on the min in favor ranking method for valued preference relations”, In: M.
Cerny, D. Gluckaufova and D. Loula (Eds), Proc. International Works hop on Multicriteria Decision
Making-Methods-Algorithms -Applications:16-25, Czechoslovak.
31. Bouyssou D. (1992a) “On some properties of outranking relations based on concordance-discordance
principle”, dans Multiple Criteria Decision- Making, eds. A. Goicoechea, L. Duckstein and S. Zionts,
Springer: 93-106.
32. Bouyssou D. (1992b) “Ranking methods based on valued preference relations: a characterization of the
net flow method”, European Journal of Operational Research 60:61-68.
33. Bouyssou D. (1992c) “A note on the sum of differences choice function for fuzzy preference relations”,
Fuzzy sets and systems 47:197-202.
34. Bouyssou D. (1995) “Acyclic fuzzy preferences and the Orlovski choice function: a note”, Rapport de
recherche IS-MG 95/05, Université Libre de Bruxelles, C.P. 210/01, B-1050 Bruxelles, Belgique.
35. Bouyssou D., Roy B. (1985) “La notion de seuils de discrimination en analyse multicritère”, INFOR,
24:302-313.
36. Bouyssou D., Roy B. (1993) Aide multicritère à la décision: Méthodes et cas, Economica, Paris.
37. Brans J.P., Vincke Ph. (1985) “A preference ranking organization methods”, Management science, 31:647-
656.
38. Caillez F., Pages J.P. (1976). Introduction à l’analyse de données . S.M.A.S.H.
39. Celeux G. (1990) Analyse discriminante sur variables continues. INRIA, Roquencourt (ed.).
40. Celeux G., Nakache J.-P (1994) Analyse discriminante sur variables qualitatives. Polytchnica (eds.),
Paris.
41. Celeux G., Diday E., Govaert G., et al. (1989). Classification automatique de données environnement
statistique et informatique, Dunod, Informatique.
42. Chandrasekaran B., Goel A. (1988) “From numbers to Symbols to Knowledge Structures: Artificial
Intelligence Perspectives on the Classification Task”, IEEE Transactions on systems, Man and
Cybernetics 18, 3:415-424.
43. Chateau F. (1994) "Probabilités a priori inégales dans la règle des k plus proches voisins. Actes des
XXVIèmes Journées de Statistiques (Neuchâtel):195-198.
44. Civco D.L. (1991) “Landsat TM image classification with an artificial neural network”, Proceedings,
ASPRS-ACSM Annual meeting, Baltimore, MD, 3:67-77.
45. Cover T., Hart P.G. (1967). “Nearest neighbour pattern classification”, IEEE Trans. Inf. theory, IT-13, 21-
27.
46. Dasarathy BV., Nearest Neighbour (NN) norms: NN Pattern Classification Technique , IEEE Computer
Society Press, Los Alamitos, CA, 1991.
47. Decaestecker C.(1997). Développements méthodologiques pour la classification de données réelles.
Application à l’aide au diagnostic et au pronostic de tumeurs gliales. Thèse d’agrégation, Faculté de
Médecine, Laboratoire d’Histologie. Université Libre de Bruxelles. Belgique.
143
Bibliographie
48. Decaestecker C., Salmon I., Camby I., et al. (1997) “Nearest-neighbor classification for agressive versus
nonagressive low-grade astrocytic tumors by means of image cytometry-generated variables” Journal of
Neurosurgery 86:532-537.
49. Decaestecker C., Salmon I., Camby S., et al. (1995) “Identification of high versus lower risk clinical
subgroups in a group of adult patients with supratentorial anaplastic astrocytomas”, Journal of
Neuropathology and Experimental Neurology, vol. 54, 3:371-384.
50. Decaestecker C., Remmelink M., Salmon I., et al. (1996) “The use of decision tree technique and image
cytometry to characterize aggressiveness in world health organization (WHO) grade II superficial
transitional cell carcinomas of the Bladder”, Journal of pathology , (78): 274-283.
51. Degoulet P., Fieshi M. (1994). Informatique médicale. MASSON, Paris.
52. Devijver P.A., Kitteler J. (1982) Pattern Recognition and Statistical Approach. Pentice Hall,
Inglewood, N.J., U.S.A.
53. Diday E. (1972) “Optimisation en classification automatique et reconnaissance de formes”, Note Scient.
IRIA n° 6.
54. Doignon J.P. (1988) “Partial structures of preferences”, In: non -conventionnal preference relations in
Decision-Making, J. Kacprzyck, M. Rroubens (eds), LNEMS 301: 22-35, Springer-Verlag Berlin.
55. Dombi J. (1982a.) “A general class of fuzzy operators, the DeMorgan class of fuzzy operators and
fuzziness measures induced by fuzzy operators”, Fuzzy sets and systems:150-163.
56. Dombi J. (1982b.) “Basic concepts for theory of evaluation: the aggregative operator”, European
Journal of Operational Research, 10, 282-293.
57. Du Bois Ph, Brans JP, Cantraine F, et al. (1989) “MEDICIS: An expert system for computer-aided
diagnosis using the PROMETHEE multicriteria method”, European Journal of Operational Research ,
39:284-292.
58. Dubois D., Prade H. (1985) Théorie des possibilités Applications à la représentation des
connaissances en informatique , Masson, Paris.
59. Duda R., Hart P. (1973) Pattern classification and scene analysis . New York: Wiley.
60. Dutta B, Panda S., Pattanaik P.K. (1986) “Exact Choice and Fuzzy Preferences”, Mathematical Social
Sciences 11:53-68.
61. Errington PA, Graham J (1993) “Application of Artificial Neural Networks to Chromosome Classification”,
Cytometry, 14: 627-639.
62. Fodor J., Orlovski S., Perny P., Roubens M. (1998) “The use of Fuzzy Preference Models in Multiple
Criteria Choice, Ranking and Sorting”, In: Fuzzy sets in Decision Analysis, Operational Research and
Statistics, Edited by Roman Slowinski, (Dubois D and Prade H.) Kluwer Academic Publishers, London.
63. Fodor J., Roubens M. (1994) Fuzzy Preference Modelling and Multicriteria Decision Support, Kluwer
Academic Publishers, Dordrecht.
64. Fishburn P.C. (1977).“Condorcet Social Choice functions”, SIAM Journal of Applied Mathematics ,
33:469-489.
65. Fisher R. A. (1936) "The use of multiple measurements in taxonomic problems", Ann. Eugenics, 7:179-
188.
66. Fukunaga K., Hummels D. (1987) “Bayes error estimation using Parzen and k-NN procedure”, IEEE
Transactions on Pattern Analysis and Machine Intelligence. 634-643.
67. Galaz G, Lapparent V. (1998) “The ESO-Sculptor Survey: spectral classification of galaxies with z< ≈0.5”,
Astron. Astrophys., 332: 459-478.
68. Gallant S.I.(1993) Neural Network learning. MIT Press, Cambridge, Mass.
69. Hart P. (1967) “The condensed Nearest neighbor Rule”, Transactions on Information Theory. IT-14. pp.
515-516.
70. Henriet L., Perny P. (1996) Méthodes multicritères non-compensatoire pour la classification floue
d'objets. LFA'96, 4-5 December, 9-15.
144
Bibliographie
71. Hertz J., Krogh A. Palmer RG. (1991) Introduction to the theory of neural computation. Addison -
Wesley.
72. Huurneman G., Gens R., Broekema L. (1996) “Thematic Information Extraction in a neural Network
Classification of Multi-Sensor Data Including Microwave Phase Information”, International Archives of
Photogrammetry and Remote Sensing , V. XXXI, B2:170-175.
73. Jacquet-Lagrèze E. (1975) “How we can use the notion of semi-orders to build outranking relations in:
multicriteria decision Making”, In: Utility, Subjective Probability Human Decision making, D.went et C.
Vlek (Eds), D. Reidel Publishing Company.
74. James M. (1985) Classifiction algorithms. New York: Wiley.
75. Jelonek J., Krawiec K., Slowinski R., et al. (1994) “Neural networks and rough sets-comparison and
combination for classification of histological pictures”, In: Proceedings of the first National Conference
Neural Networks and their Applications, Kule, Czqstochawa, 268-273.
76. Jelonek J., Krawiec K., Slowinski R., et al. (1998) “Grizzly-an Image Analysis and Classification System
Oriented Towards Medical Applications”, To appear in: Journal of Decision Systems.
77. John B. M. (1977) Laboratory medicine Haematology. Third edition.
78. Kaufmann A.(1977) Introduction à la théorie des sous-ensembles flous. Tome 1, Masson, Paris.
79. Keeny R., Raïffa H. (1976) Decisions with multiple objectives: preferences and values tradeoffs. John
Willey and Sons.
80. Kohavi R. (1995) “A study of cross-validation and bootstrap for accuracy estimation and model
selection”. In: Cs Mellosh (ed.) Proceedings of the 14th International Joint Conf of Artificial
Intelligence, Morgan Kaufmann publishers, Inc: 1137-1143.
81. Krantz D.H, Luce R.D., Suppes P., et al. (1971) Foundations of Measurement , Volume 1, Academic press
Inc. New york.
82. Lebart L., Morineau A., Piron M. (1998) Statistique exploratoire multidimensionnelle . DUNOD, Paris.
83. Luce R.D (1956) “Semi-orders and a theory of utility discrimination”, Econometrica, 24:178-191.
84. MacQueen J.B (1967) “Some methods for classification and analysis of multivariate observations”, Proc.
of the 5th Berkeley Symposium on Math. Statistics and probability. Vol 1. Berkeley: University of
California Press.
85. Marchant Th. (1996) Agrégation de relations valuées par la méthode de Borda, en vu e d’un rangement:
Considérations axiomatiques. Thèse de Doctorat, Sciences appliquées. Université Libre de Bruxelles.
86. Massaglia R., Ostanello A.(1991) “N-Tomic: A support system for multicriteria segmentation problems”.
In: P.Korhonen, A Lewandowski and J.wallenius (Eds) Multiple criteria Decision Support: 167-174.
Springer–Verlag.
87. Maystre L., Pictet J., Simos (1994) Méthodes multicritère ELECTRE. Lausanne: Presses polytechniques
et universitaires Romandes.
88. McCulloch W., Pitts W. (1943) “A logical calculus of the ideas Immanent in nervous activity”, Bulletin
of Math Biophysics. 5: 115-133.
89. MCLachlan G.J.(1992) Discriminant Analysis and statistical Pattern Recognition, Wiley et Sons, Inc.
90. Michalski R.S.(1983) “A theory and methodology of inductive learning”, In: Artificial Intelligence
Approach Vol I (Ryszard S. Michalski, Jaime G. Carbonell and Tom M.Mitchell, Eds, eds).Tioga
Publishing, Palo Alto.
91. Michie D., Spiegelhlter DJ., Taylor C (1994). Machine learning, Neural and Statistical classification .
Ellis Horwood series in artificial intelligence, Ellis Horwoord.
92. Minsky M, Papert S. (1969) Perceptrons. Cambridge, MA: MIT Press.
93. Moisdon J.C. (1986) "Faut-il croire encore en la recherche opérationnelle?" AFCET/INTERFACE, 44:4-10.
94. Moscarola J., Roy B.(1977). “Procédure automatique d’examen de dossiers fondée une segmentation
trichotomique en présence de critères multiples”, R.A.I.R.O. Recherche Opérationnelle, 11, 2:145-173.
95. Moussou V., Slowinski R (1996) “Infering an ELECTRE TRI model from assignement examples”, cahier
du LAMSADE N°:40. Université Paris Dauphine.
145
Bibliographie
96. Mudry L., Perny P., Chauvel P. (1994) “An approach to design support using fuzzy models of
architectural objects”, In: Artificiel Intelligence in design ’94, eds. J.S. Gero and F. Sudweeks: 697-714.
97. Nurmi H. (1981) “Approaches to collective decision making with fuzzy preference relation”, Fuzzy sets
and systems 6:249-259.
98. OMS (1977) Classification internationale des Maladies. Genève: Organisation Mondiale de la Santé
(OMS).
99. Orlovski S.A (1978) “Decision-making with a fuzzy preference relation”, Fuzzy sets and systems 1: 155-
167.
100. Ovchinikov S. (1991) “Social choice and Lukasiewicz logic”, Fuzzy Sets and Systems 43 : 275-289.
101. Ovchinikov S., Ozernoy V.R. (1988) “Using fuzzy binary relations for identifying noninferior decision
alternatives”, Fuzzy sets and systems 25:21-32.
102. Pawlak Z. (1991) Rough sets: theoretical aspects of reasoning about data. Klwer academic Publishers.
103. Pawlak Z., Slowinski K., Slowinski R. (1986) “Rough classification of patients after highly selection
vagotomy for duodenal ulcer”, International journal Man-Machine Studies, 24:413-433.
104. Perny P. (1992) Modélisation, agrégation et exploitation de préférences floues dans une
problématique de rangement. Thèse de Doctorat, Méthodes scientifiques de gestion , Université de
Paris Dauphine.
105. Perny, P. (1998) “Multicriteria filtering methods based on concordance and non-discordance principles”,
Annals of Operations Research 80:137-165.
106. Perny P., Roy (1992) “The use of fuzzy outranking relations in preference modelling”, Fuzzy sets and
systems 49:33-53.
107. Pirlot M. (1994) “A characterization of min as a procedure for exploiting valued preference relations and
related results”, Working paper (Faculté Polytechnique de Mons.
108. Pirlot M, Vincke Ph. (1995) SEMIORDERS: Properties, Representations, Applications. Theory and
Decision Library. Kluwer Academic Publishers.
109. Pomerol J., Barba-Romero S. (1993). Choix multicritère dans l’entreprise. Paris: Hermes.
110. Puech M (1996) Standardisation de la mesure du contenu nucléaire en ADN par microscopie
quantitative. Thèse de doctorat, Université Joseph Fourier-Grenoble I, France.
111. Quinlan JR (1986) “Induction of Decision Trees”, Machine Learning , 1(1): 81-106.
112. Quinlan JR (1987) “Generating production rules from decision trees”, In: Proceeding of the 10th
International joint Conference on Artificial Intelligence, San Mateo, CA: Morgan Kaufmann, 304-307.
113. Quinlan JR (1988) “Decision Trees and multi-valued attributes”, In: Machine Intelligence 11, JE Hayes,
D. Michie, J. Richard, eds., Oxford, UK: Oxford University Press, 305-318.
114. Quinlan JR (1993) C4.5: Programs for Machine Learning. Morgan Kaufmann publishers, San Mateo,
California.
115. Roberts F.S. (1979) Measurement theory with applications to décision -making, utility and the social
sciences, Addison Wesley Pub., Reading.
116. Roberts F.S., Rosenbaum Z.(1986). “Scale type, Meaninfulness and the possible psychophysical Laws”,
Mathematical social sciences12: 77-95.
117. Rosenblatt F. (1962) Principles of Neurodynamics: Perceptrons and the theory of Brain Mechanisms .
Washington, DC: Spartan Books.
118. Roubens M. (1989) “Some properties of choice functions based on binary relations”, European Journal
of Operational Research 40:309-321.
119. Roubens M., Vincke Ph (1985) Preference mo delling, LNEMS 250, Springer-Verlag Berlin.
120. Roubens M., Vincke Ph (1988) “Fuzzy possibility graphs and their application to ranking fuzzy numbers”,
In: non -Conventional Preference Relations in Decision Making , J.Kacprzyck, M. Roubens (Eds.),
LNEMS 301, Springer-Verlag, Berlin, 119-128.
121. Roux M. (1986) Algorithmes de classification. Masson, Paris.
146
Bibliographie
122. Roy B. (1968) “Classement et choix en présence de points de vue multiples”, Cahiers du Centre
d’Etudes de Recherche Opérationnelle 8:57-75.
123. Roy B. (1978) “ELECTRE III : un algorithme de classement fondé sur une représentation floue des
préférences en présence de critères multiples”, Cahier du Centre d’Etude de Recherche
Opérationnelle, 20: 3-24.
124. Roy B. (1985) Méthodologie multicritère d’aide à la décision , Economica, Paris.
125. Roy B. (1990) “Science de la décision ou science de l’aide à la décision”, cahier du LAMSADE, No 97,
Université de Paris Dauphine.
126. Roy B., Skalka J.M. (1984) “ELECTRE IS aspects méthodologique et guide d’utilisation”, Document
LAMSADE No 30, Université de Paris Dauphine.
127. Roy B., Vincke Ph. (1984) "Relational systems of preference with one or more pseudo-criteria: some new
concepts and results”, Management Science, 30:1323-1335.
128. Royer P., Vreux J.-M., Manfroid J. (1998) “Adedicated photometric system for the classification of Wolf-
Rayet Stars”, Astron. Astrophys. Suppl. Ser. 130:407-414.
129. Rumelhart D., Hinton G., Williams R. (1986) Learning internal representations by error propagation. In:
parallel distributed processing: explorations in the microstructure of cognition. Eds Cambridge, MA:
MIT Press.
130. Salamon R, Bernadet M, Samson M, et al. (1976) “Bayesian method applied to decision making in
neurology: Methodological considerations”, Methods Inf. Med. 15:174-179.
131. Sen A.K., (1971) “Choice functions and revealed preferences”, Econometrica, 53-89.
132. Sen A.K. (1971) “Social choice theory: A re-examination”, Economitrica, 53-89.
133. Shannon C.E. (1948) "A mathematical theory of communication", Bell Sys Tech Journal 27:379-423 and
623-656.
134. Sharlig A. (1985) Décider sur plusieurs critères, panorama de l’aide à la décision multicritère , Press
polytechniques Romandes, Lausanne.
135. Sharpe P.K, Solberg E, Rootwelt K, Yearwoth M (1993) Artificial Neural Networks in Diagnosis of
Thyroid Function from in vitro Laboratory test. Clinical Chemistry 39(11): 2248-2253.
136. Shortliffe E. (1976) Computer-based Medical consultations: MYCIN . New York : American Elsevier.
137. Späth H. (1980) Cluster Analysis Algorithms for data reduction and classification of objects. Ellis
Horwood, Willy & Sons, New York.
138. Sushmita M. (1994) “Fuzzy MLP based expert system for medical diagnosis”, Fuzzy Sets and Systems 65,
pp. 285-296.
139. Thayer D.N., Webster J.A, Larsen J.A, et al. (1996) “Classification of Blended Images with an Artificial
th
Neural Network”, Bulletin of the American Astronomical Society, V.28, N. 2. AAS 188 Meeting,
Madison WI.
140. Tomassone R., Danzart M., Daudin J.J., Masson J.P. (1988) Discrimination et classement. Masson, Paris.
141. Vincke Ph. (1978). “Quasi-Ordres généralisés et représentation numérique”, Mathématiques et
sciences Humaines, 62:35-60.
142. Vincke Ph. (1988) “(P, Q, I) - Preference structures”, In: Non conventional preference Relations in
Decision Making”, J. Kacprzyk, M. Roubens (Eds), LNEMS 301: 72-81, Springer-Verlag.
143. Vincke Ph.(1989). L’aide multicritère à la décision, Ellipses, Paris.
144. Von Neumann J., Morgenstern O. (1954) Theory of games and economic behavior, John Wiley and
Sons, New-York.
145. Waterman DA. (1985) “A Guide to Expert Systems”, Reading, Massachusetts:Addison -Wesley,1986.
146. Weber S. (1983) “A general concept of fuzzy connectives, negation and implications based on t-norms”,
Fuzzy sets and systems, 11: 115-134.
147. Weinstein JN, Kohn KW, Grever MR, et al. (1992) “Neural computing in cancer Drug Developme nt:
Predicting Mechanism of action”, Science 258:447-451.
147
Bibliographie
148. Weiss SM, Kulikowski CA (1991) Computer systems that learn, classification and prediction methods
from Statistics, Neural Nets, Machine learning and Expert systems. San Mateo, California Morgan
Kaufmann Publishers.
149. Yu Wei (1992) Aide multicritère à la décision dans le cadre de la problématique du tr : concepts,
méthodes et applications. Thèse de Doctorat, LAMSADE, Université de Paris Dauphine.
150. Zadeh L.(1965) “Fuzzy sets”, Information and control, 8: 338-353.
151. Zagoria R. J., Reggia J. A. (1983) “Transferability of Medical Decision Support Systems Based on
Bayesian Classification”, In: Medical Decision 3: 501-509.
152. Zittoun R. (1986) Hémopathies malignes. Encycloppédie des Cancers dirigée par Bernard Hoerni.
Flammarion médecine sciences.
153. Zwingelstein G. (1995) Diagnostic des défaillances, théorie et pratique pour les systèmes industriels,
HERMES, Paris.
148