Méthodes de Classification Multi Critère

UNIVERSITE LIBRE DE BRUXELLES
INSTITUT DE STATISTIQUE ET DE RECHERCHE

OPERATIONNELLE
Méthodes de Classification Multicritère

Méthodologie et Applications à l’Aide au
Diagnostic Médical
Belacel Nabil
Thèse présentée en vue de l’obtention du grade de

Docteur en Sciences orientation Recherche Opérationnelle
Année académique 1999-2000

TABLE DES MATIERES
LISTE DES ABREVIATIONS ............................................................................................... 1
INTRODUCTION ...................................................................................................................... 2
INTRODUCTION GENERALE ............................................................................................ 3
PRESENTATION DE LA THESE......................................................................................... 5
PARTIE A ETUDES PRÉLIMINAIRES..................................................................................... 6

CHAPITRE 1 : PANORAMA DES METHODES DE CLASSIFICATION ............................................... 7
1. Introduction................................................................................................................... 7
2. Méthodes de classification automatique ....................................................................... 7
2.1. Méthodes non hiérarchiques..................................................................................... 7
2.1.1. Méthode de leader ............................................................................................ 7
2.1.2. Méthode de k-means ........................................................................................ 8
2.1.3. Méthode des nuées dynamiques ........................................................................ 8
2.2. Méthodes hiérarchiques........................................................................................... 9
3. Méthodes d’affectation ...............................................................................................10
3.1. Méthodes d’apprentissage inductif..........................................................................11
3.1.1. Méthode des k plus proches voisins (k-ppv) ...................................................11
3.1.2. Affectation par la méthode bayésienne .............................................................12
3.1.3. Méthodes d’analyse discriminante....................................................................13
3.1.4. L’approche des réseaux de neurones ...............................................................15
3.1.5. Affectation par l’approche d’arbre de décision.................................................21
3.2. Méthodes d’apprentissage déductif.........................................................................24
3.2.1 Affectation par système expert..........................................................................24
3.3. Méthodes de classification multicritère....................................................................26
4. Performance des méthodes de classification ..............................................................27
CHAPITRE 2 : AIDE MULTICRITERE A LA DECISION ET PROBLEMATIQUE DU TRI ......................29
1. Aide à la décision ........................................................................................................29
2. Modélisation des préférences ......................................................................................29
2.1. Définitions des actions potentielles ..........................................................................29
2.2. Système relationnel de préférence...........................................................................30
3.3. Le concept de critère .............................................................................................31
3. Analyse monocritère et multicritère............................................................................32
4. Problématiques de référence.......................................................................................32
5. Problématique du tri (P.β )..........................................................................................36
5.1. Définition...............................................................................................................36
5.2. Différents types de la problématique du tri...............................................................36
5.3. Différentes phases de la problématique du tri...........................................................37
5.4. Méthodes d’affectation...........................................................................................39
5.4.1. Cas de la problématique du tri ordinal..............................................................39
5.4.1.1. Modélisation des catégories......................................................................39
5.4.1.2. Procédures d’affectation...........................................................................39
5.4.2. Cas de la problématique du tri nominal.............................................................41
PARTIE B MÉTHODES DÉVELOPPÉES................................................................................42
CHAPITRE 3 : DESCRIPTION GENERALE DE LA PROBLEMATIQUE DU TRI NOMINAL...................44
1. Introduction.................................................................................................................44
2. Modélisation des catégories et procédures d’affectation............................................44
2.1. Modélisation des catégories....................................................................................44
2.2. Définition d’une méthode du tri nominal...................................................................45
2.3. Principes fondamentaux d’une méthode du tri nominal.............................................45
CHAPITRE 4 : PROCEDURE DE CHOIX DANS LE CADRE DE LA PROBLEMATIQUE DU TRI NOMINAL
.............................................................................................................................................49
1. Introduction.................................................................................................................49
2. Données et notations ...................................................................................................49
3. Procédure d’affectation PROCTN..............................................................................49
3.1. Matrice de performances des actions de référence des catégories............................51
3.2. Relation de surclassement entre les actions de référence ..........................................52
3.3. Graphe de surclassement valué ...............................................................................52
3.4. Exploitation du graphe de surclassement .................................................................53
3.5. Calcul de flux à partir du graphe de surclassement ...................................................53
3.6. Affectation des actions aux différentes catégorie s ....................................................54
4. Analyse des propriétés de la procédure PROCTN ......................................................54
CHAPITRE 5 : PROCEDURE D’AFFECTATION FLOUE DANS LE CADRE DE LA PROBLEMATIQUE DU
TRI NOMINAL........................................................................................................................57
1. Introduction.................................................................................................................57
2. Sous-ensemble flou ......................................................................................................58
2.1. Généralités.............................................................................................................58
2.2. Connecteurs logiques flous .....................................................................................59
2.3. Relations binaires floues..........................................................................................63
3. La procédure PROAFTN.............................................................................................64
3.1. Introduction...........................................................................................................64
3.2. Les paramètres utilisés dans PROAFTN .................................................................66
3.3. Calcul de l’indice d’indifférence partiel....................................................................68
3.4. Propriétés de l’indice d’indifférence partiel Cj(a,bih)................................................69
3.4.1. Les cas particuliers de C j(a,b ih) .......................................................................71
3.4.2. Propriétés générales de Cj(a,bih) .....................................................................73
3.5. Relation d’indifférence globale basée sur le principe de concordance.......................75
3.6. Calcul de la relation d’indifférence de synthèse........................................................77
3.6.1. Indices de discordance....................................................................................77
3.6.2. Indice de discordance global ...........................................................................79
3.6.3. Construction de la relation d’indifférence de synthèse.......................................80
3.7. Affectation des actions aux différentes catégories ....................................................82
CHAPITRE 6 : PROCEDURE DE CHOIX FLOU DANS LE CADRE DE LA PROBLEMATIQUEDU TRI
NOMINAL..............................................................................................................................84
1. Introduction.................................................................................................................84
2. Description de la procédure PROCFTN .....................................................................86
2.1. Matrice de performances........................................................................................86
2.2. Relation de préférence valuée entre les prototypes ..................................................87
2.3. Fonction de score flou............................................................................................87
2.4. Choix des prototypes .............................................................................................88
2.5. Décision d'affectation .............................................................................................89
3. Analyse des propriétés de la procédure PROCFTN....................................................89
PARTIE C APPLICATION À L’AIDE AU DIAGNOSTIC MÉDICAL....................................90
INTRODUCTION .....................................................................................................................91
CHAPITRE 7 : APPLICATION DANS LE DOMAINE CYTOPATHOLOGI QUE DES LEUCEMIES AIGUËS92
1. Introduction.................................................................................................................92
2. Classification morphologique des leucémies aiguës ...................................................92
2.1. Leucémies aiguës lymphoblastiques (LAL)..............................................................92
2.2. Leucémies aiguës myéloblastiques (LAM)..............................................................93
3. Diagnostic des leucémies aiguës .................................................................................94
3.1. Diagnostic positif....................................................................................................94
3.2. Critères de classification .........................................................................................95
4. Résultats ......................................................................................................................95
4.1. Données cliniques...................................................................................................95
4.2. Evaluation des performances et interprétation des résultats ......................................96
4.3. Exemple.................................................................................................................97
4.4. Résultats de classification........................................................................................99
5. Discussion et conclusion............................................................................................ 100
CHAPITRE 8 : APPLICATION DANS LE DOMAINE HISTOPATHOLOGIQUE DES TUMEURS
ASTROCYTAIRES ................................................................................................................. 102
1. Généralités et classification histopathologique ........................................................ 102
2. Approche diagnostic des tumeurs astrocytaires par microscopie assistée par
ordinateur...................................................................................................................... 103
3. Critères de classification des tumeurs astrocytaires générés par microscopie assistée
par ordinateur ............................................................................................................... 105
3.1. Variables morphonucléaires.................................................................................. 106
3.1.1. Critère morphométrique ................................................................................ 106
3.1.2. Critères densitométriques .............................................................................. 106
3.1.3. Critères texturaux.......................................................................................... 106
3.2. Critères décrivant le taux de ploïdies..................................................................... 107
4. Résultats .................................................................................................................... 108
4.1. Données cliniques................................................................................................. 108
4.2. Evaluation des performances et interprétation des résultats .................................... 109
4.3. Exemple............................................................................................................... 109
4.4. Résultats de classification...................................................................................... 111
5. Discussion et conclusion............................................................................................ 113
CONCLUSION ....................................................................................................................... 115
CONCLUSION ET PERSPECTIVES ............................................................................................ 116
ANNEXES ............................................................................................................................. 118
ANNEXE A. ......................................................................................................................... 119
ANNEXE B........................................................................................................................... 123
ANNEXE C. ......................................................................................................................... 131
3
BIBLIOGRAPHIE .................................................................................................................. 141
Liste des abréviations
TRIN Règle d’affectation de la problématique du tri nominal

PROCTN Procédure du choix dans le cadre de la problématique du tri nominal
PROAFTN Procédure d’affectation floue dans le cadre de la problématique du tri
nominal
PROCFTN Procédure du choix flou dans le cadre de la problématique du tri
nominal
F.A.B. Proposition de classification des leucémies aiguës faite par le groupe
Franco-Americano-Britanique
OMS Organisation mondiale de la santé
LA Leucémie aiguë
LAL Leucémie aiguë lymphoblastique
LAM Leucémie aiguë myéloblastique
AST Astrocytomes (tumeur astrocytaire de grade II)
ANA Astrocytome anaplastique (tumeur astrocytaire de grade III)
GBM Glioblastomes (tumeur astrocytaire de grade IV)
INTRODUCTION
Introduction
Introduction générale
De nombreux problèmes pratiques peuvent se ramener à l’affectation de différents objets à des
classes prédéfinies. Par exemple dans le cas du diagnostic médical, il s’agit de reconnaître la
pathologie d’un patient donné, les objets correspondent aux patients et les classes aux différentes
pathologies. D’autres problèmes de diagnostic peuvent être vus de façon similaire : pannes des
machines et défaillances des entreprises. Les méthodes de classification aident à traiter ce type de
problèmes.
En général les méthodes de classification sont constituées en plusieurs étapes. L’étape la plus
importante consiste à élaborer des règles de classification à partir des connaissances disponibles a
priori ; il s’agit de la phase d’apprentissage. Cette dernière utilise soit l’apprentissage déductif ou
inductif. Les algorithmes d’apprentissage inductif dégagent un ensemble de règles (ou de normes) de
classification à partir d’un ensemble d’exemples déjà classés. Le but de ces algorithmes est de
produire des règles de classification afin de prédire la classe d’affectation d’un nouveau cas. Parmi
les méthodes de classification utilisant ce type d’apprentissage, citons les méthodes des k plus
proches voisins, la méthode bayésienne, la méthode d’analyse discriminante, l’approche des réseaux
de neurones et la méthode d’arbre de décision (cf. McLachlan, 1992 ; Michie et al., 1994 ; Duda et
Hart, 1973 ; Bishop, 1973). Dans les algorithmes d’apprentissage déductif, les règles d’affectation
sont déterminées a priori par l’interaction avec le décideur, ou l’expert. A partir de ces règles on
détermine les classes d’affectation des objets. Parmi les méthodes utilisant ce type d’apprentissage,
signalons à titre d’exemples les systèmes experts et les ensembles approximatifs (Waterman, 1985 ;
Chandrasekaran, et al., 1988 ; Pawlak, 1991 ; Pawlak, et al., 1986).
En pratique pour résoudre certains problèmes de classification il est souvent nécessaire de combiner
les deux types d’apprentissages (inductif et déductif). C’est le cas par exemple des problèmes de
défaillances des machines ou du problème de diagnostic des leucémies aiguës. Le besoin de
méthodes de classification qui combinent les deux types d’apprentissage constitue l’une des raisons
qui nous a incité à développer de nouvelles méthodes de classification.
L’aide multicritère à la décision, quant à elle, s’adresse généralement à trois problématiques : les
problématiques du choix, du rangement et du tri. La première consiste à sélectionner au sein d’un
ensemble d’objets, un sous-ensemble aussi restreint que possible des objets les plus satisfaisants. La
problématique du rangement consiste à ranger les objets selon leurs mérites relatifs. La
problématique du tri quant à elle consiste à formuler le problème en terme d’affectation d’objets à
des classes prédéfinies. Les deux premières problématiques ont été largement étudiées et appliquées
dans plusieurs domaines : l’environnement, les finances, la production, la localisation, (Vincke,
1987 ; Roy et Bouyssou, 1993 ; Pomerol et al., 1993 ; Mayster et al., 1994) alors que relativement
peu de travaux ont été consacrés à la problématique du tri.
La problématique du tri est subdivisée en deux groupes : le tri ordinal, si les classes sont
complètement ordonnées et le tri nominal dans le cas contraire. Un exemple d’application de tri
ordinal est celui de l’octroi de crédits (Moscarola, 1978 ; Massaglia et al. 1991 et Wei, 1991)
tandis qu’un exemple d’application de tri nominal est celui du diagnostic médical, où les classes sont
représentées par la symptomatologie typique. Dans notre étude, nous nous somme intéressés, tout
particulièrement, à la problématique du tri nominal.
3
Introduction
Tout au long de cette thèse nous appellerons “méthodes de classification multicritère” les
méthodes de classification utilisant l’approche d’aide multicritère à la décision.
Les méthodes de classification multicritère utilisent uniquement des comparaisons entre l’individu à
affecter et les objets de référence des classes. Cette comparaison se fait par le biais d’un modèle
relationnel de préférence. Ainsi ces méthodes évitent le recours à des distances et permettent
d’utiliser des critères quantitatifs et/ou qualitatifs. De plus elles permettent d’éviter les problèmes
rencontrés lorsque les données sont exprimées dans des unités différentes. Ces avantages constituent
une autre raison qui nous a motivé à développer de nouvelles méthodes de classification multicritère.
L’introduction des ordinateurs dans le milieu médical a permis d’utiliser des méthodes de
classification pour les différentes pathologies et aider au diagnostic médical. Cependant, très peu de
méthodes de classification utilisant l’approche d’aide multicritère à la décision ont été appliquées
dans le domaine du diagnostic médical. Ce fait nous a encouragé à développer et implémenter de
nouvelles méthodes de classification multicritère pour traiter les problèmes de classification médicale.
Le but d’une classification médicale de pathologies est de rassembler les cas qui ont des similitudes
biologiques et qui sont susceptibles de partager certains facteurs étiopathologiques. L’identification
des classes est importante car elle permet, d’une part de comprendre le processus de la maladie et
d’autre part d’instaurer l’approche thérapeutique adéquate. En outre, elle permet de dégager le
pronostic global de la maladie. Plusieurs méthodes de classification comprenant les statistiques, la
reconnaissance des formes, l’intelligence artificielle et les réseaux de neurones ont été utilisées pour
l’aide au diagnostic médical (Bartels et al., 1989 ;1996 ; Decaestecker, 1997 ; Jelonek et al.,
1994 ; 1997).
Notre étude a donc pour principal objectif de contribuer à développer de nouvelles méthodes de
classification multicritère et de les appliquer dans le domaine du diagnostic médical. Les leucémies
aiguës et les tumeurs astrocytaires1 ont été choisies comme exemples d’applications. Ces méthodes
de classification sont basées d’une part, sur la modélisation de préférence floue et d’autre part sur le
domaine de l’aide multicritère à la décision. Elles se situent, par conséquent, à l’intersection de
nombreux domaines de recherche liés, d’une manière générale, à la classification. L’apprentissage, la
modélisation des préférences, les fonctions de choix, le diagnostic médical, sont autant de thèmes de
recherche que nous allons aborder dans cette thèse pour tenter d’introduire des nouveaux outils pour
aider au diagnostic médical.
1
Les tumeurs astrocytaires font partie des tumeurs du cerveau.
4
Introduction
Présentation de la thèse
Cette thèse s’organise en huit chapitres classés en trois parties.
La Partie A est réservée aux concepts fondamentaux sur lesquels se base notre étude. Elle est
divisée en deux chapitres. Afin de situer notre problématique, nous présentons dans le Chapitre 1
les principales approches classiques utilisées en classification de données. Le Chapitre 2 est
consacré à la présentation de notions générales sur le domaine de l’aide multicritère à la décision sur
lequel s’appuie le présent travail.
La Partie B présente de nouvelles méthodes de classification multicritère. Elle est divisée en quatre
chapitres. Dans le premier chapitre (Chapitre 3) nous proposons une définition générale d’une
procédure de classification multicritère ainsi que ses différentes propriétés. Le deuxième chapitre
(Chapitre 4) détaille une procédure de choix dans le cadre de la problématique du tri nominal
(PROCTN), le principe de base est de choisir un sous-ensemble de prototypes les plus proches d’un
objet à affecter. Ce choix se base sur le calcul de flux nets utilisés dans la méthode PROMETHEE
(Brans et al., 1985). Le troisième chapitre (Chapitre 5) traite une procédure d’affectation floue
dans le cadre de la problématique du tri nominal (PROAFTN) (Belacel, 1998 ; 1999). Elle consiste
à construire des relations d’indifférence floues en généralisant les indices (de concordance et de
discordance) utilisés dans la méthode ELECTRE III (Roy, 1978). Ensuite elle détermine la classe
d’affectation d’un objet donné sur base de ces relations floues. Après l’introduction des concepts
associés à la théorie des sous-ensemble flous, nous décrivons les différentes étapes de la procédure
PROAFTN. Le dernier chapitre de cette partie (Chapitre 6) est consacré à la présentation d’une
procédure de choix flou dans le cadre de la problématique du tri nominal (PROCFTN) (Belacel et
al. 1999e). Cette procédure combine le principe de choix utilisé par PROCTN et les relations
d’indifférence floues calculées par PROAFTN. Nous décrivons alors les fonctions de score flou
utilisées dans la littérature et leur application dans les problèmes de classification multicritère.
La Partie C présente et discute les résultats obtenus par l’application de ces trois procédures dans
le domaine de l’aide au diagnostic médical (cf. Belacel et al., 1999a, 1999b, 1999d). Après une
brève introduction générale sur les problèmes de classification médicale, une application de ces
méthodes dans le domaine cytopathologique des leucémies aiguës est présentée dans le Chapitre 7 .
Dans le Chapitre 8 nous présentons l’application des procédures développées dans le domaine
histopathologique des tumeurs astrocytaires. Ces applications montrent en particulier que les
méthodes de classification utilisant le domaine d’aide multicritère à la décision constituent une autre
approche pour résoudre certains problèmes de classification médicale. Nous nous sommes aussi
intéressés à l'application de la procédure PROAFTN dans le domaine histopathologique des tumeurs
superficielle de la vessie. Les résultats sont présentés dans l’Annexe C. Ils montrent la capacité de
cette procédure à séparer entre le haut et le bas grades de malignité de ces tumeurs en se basant
uniquement sur les paramètres générés par microscopie assistée par ordinateur. Cette séparation est
capitale de point de vue thérapeutique et pronostic de ces tumeurs.
Finalement, nous concluons en synthétisant les différentes contributions et en discutant des

perspectives envisagées pour poursuivre cette recherche.
5
PARTIE A
ETUDES PRÉLIMINAIRES
Cette partie est divisée en deux chapitres. Elle est réservée aux concepts fondamentaux sur lesquels
se base notre travail. Afin de situer notre problématique, nous présentons dans le chapitre 1 les
différentes approches utilisées en classification de données. Le chapitre 2 sera consacré à la
présentation du domaine de l’aide multicritère à la décision sur lequel s’appuie le présent travail.
Panorama des méthodes de classification
Chapitre 1 : Panorama des méthodes de classification
1. Introduction
La problématique du tri consiste à affecter les objets d’un ensemble A à des catégories ou classes
prédéfinies. Ce type de question fait partie des problèmes de classification. Avant d’aborder les
méthodes d’affectation dans le cadre de l’aide multicritère à la décision, nous donnerons un
panorama des méthodes de classification.
Les méthodes de classification font référence à l’existence de groupes ou classes de données et elles
se divisent en deux groupes :
• Les méthodes de classification automatique (aussi appelées méthodes de clustering) : méthodes

basées sur la notion d’apprentissage non supervisé, laquelle consiste à regrouper des objets
appartenant à un ensemble T en classes restreintes de telle sorte que les objets d’une même classe
soient le moins dispersés possible.
• Les méthodes d’affectation (aussi appelées «classificateurs») basées sur la notion d’apprentissage
supervisé : méthodes utilisant un ensemble d’exemples où les classes d’appartenance sont connues
au préalable. A partir de cet ensemble, des normes (ou règles) d’affectation seront définies.
Nous développerons plus loin ces différentes méthodes en soulignant certains de leurs avantages et
inconvénients.
2. Méthodes de classification automatique

Les problèmes de classification automatique ont été traités à travers plusieurs ouvrages dont :
Benzecri et coll (1973), Caillez et Pages (1976), Roux (1986), Celeux et al. (1989), etc.
L’objectif de ces méthodes est de regrouper les individus en un nombre restreint de classes
homogènes. Dans ce type de méthodes les classes seront obtenues à l’aide des algorithmes
formalisés et non par des méthodes subjectives.
On distingue aussi les méthodes de classification non hiérarchiques et les méthodes de classification
hiérarchiques.
2.1. Méthodes non hiérarchiques

Ce sont des méthodes qui produisent directement une partition en un nombre fixé de classes. Parmi
ces méthodes, nous retrouvons :
2.1.1. Méthode de leader
Cette méthode considère chaque objet une seule fois. Lorsque le premier objet arrive, on lui attribue
la première classe et il devient le leader de celle-ci. Ensuite, chaque fois qu’un nouvel objet se
présente, on calcule sa distance par rapport aux leaders de chacune des classes existantes à cet
instant, et on compare cette distance à un seuil. Si cette distance est inférieure au seuil fixé, on
attribue au nouvel objet la classe du premier leader trouvé (pour lequel la distance calculée est
7
inférieure au seuil), sinon une nouvelle classe est créée et le nouvel objet devient le leader de cette
classe (Späth, 1980).
Cette méthode dépend de l’ordre de présentation des objets. Lorsque cet ordre n’est pas optimal, le
nombre de classes augmente sensiblement. Par ailleurs, pour définir des nouveaux leaders, cette
méthode utilise des distances, ce qui nous ramène au problème de la définition des métriques.
2.1.2. Méthode de k-means
Cette méthode est encore appelée algorithme des centres mobiles (Benzécri, 1973). Ce type
d’algorithme, où la classe est représentée par son centre de gravité, a été étudié par plusieurs
auteurs, à savoir (Bonner, 1964 ; MacQueen, 1967 ; Celeux et al., 1989).
L’algorithme k-means mis au point par McQueen en 1967 est l’un des algorithmes de clustering les
plus connus. Il est basé sur la méthode des centroïdes (ou centres de gravité). Le principe de cette
méthode est le suivant :
On se donne pour commencer, k centres arbitraires c1, c2,..., ck où chaque ci représente le centre
d’une classe Ci. Chaque classe Ci est représentée par un ensemble d’individus plus proches de ci
que de tout autre centre. Après cette initialisation, on effectue une deuxième partition en regroupant
les individus autour des mj qui prennent alors la place des cj (mj est le centre de gravité de la classe
Cj, calculé en utilisant les nouvelles classes obtenues). Le processus est ainsi réitéré jusqu’à
atteindre un état de stabilité où aucune amélioration n’est possible.
Cette méthode est convergente et surtout avantageuse du point de vue calcul mais elle dépend
essentiellement de la partition initiale. Il existe donc un risque d’obtenir une partition qui ne soit pas
optimale mais seulement meilleure que la partition initiale. De plus, la définition de la classe se fait à
partir de son centre, qui pourrait ne pas être un individu de l’ensemble à classer, d’où le risque
d’obtenir des classes vides.
2.1.3. Méthode des nuées dynamiques
Cette méthode a été proposée par (Diday, 1972). Elle peut être considérée comme une
généralisation de la méthode des centres mobiles. Le principe de la méthode est le suivant : on tire au
hasard k noyaux parmi une famille de noyaux (chaque noyau contient un sous-ensemble d’individus).
Puis chaque point de l’ensemble d’apprentissage est affecté au noyau dont il est plus proche. On
obtient ainsi une partition en k classes dont on calcule les noyaux. On recommence le processus avec
les nouveaux noyaux et ainsi de suite jusqu’à ce que la qualité de la partition ne s’améliore plus.
Cette méthode a l’avantage de traiter rapidement de grands ensembles d’individ us. Elle fournit une
solution dépendant de la configuration initiale et nécessite le choix du nombre de classes. En général
le nombre de classes est fixé par l’utilisateur et l’initialisation est faite par un tirage au hasard. Pour
comparer l’individu avec les noyaux, cette méthode utilise des distances, ce qui a l’inconvénient
d’établir des métriques.
En conclusion, les méthodes non hiérarchiques permettent de traiter rapidement de grands

ensembles d’individus, mais elles supposent que le nombre des classes est fixé au départ. Si le
nombre de classes n’est pas connu ou si ce nombre ne correspond pas à la configuration véritable de
8
l’ensemble d’individus (d’où le risque d’obtenir des partitions de valeurs douteuses), il faut presque
toujours tester diverses valeurs de k, ce qui augmente le temps de calcul. C’est pourquoi, lorsque le
nombre des individus n’est pas trop élevé, on préfère utiliser les méthodes hiérarchiques.
2.2. Méthodes hiérarchiques

La classification hiérarchique consiste à effectuer une suite de regroupements en classes de moins en
moins fines en agrégeant à chaque étape les objets ou les groupes d’objets les plus proches. Elle
fournit ainsi un ensemble de partitions de l’ensemble d’objets (Celeux et al., 1989).
Cette approche utilise la notion de distance, qui permet de refléter l’homogénéité ou l’hétérogénéité
des classes. Ainsi, on considère qu’un élément appartient à une classe s’il est plus proche de cette
classe que de toutes les autres.
La figure 1.1 est une illustration du principe des méthodes hiérarchiques. Dans cette figure, on
représente la suite de partitions d’un ensemble {a, b, c, d, e} :
distance
P4 5
P3 4
P2 3
P1 2
P0 0
a b c d e individus
Figure 1.1. La partition hiérarchique
Les différentes partitions représentées dans la figure 1.1 sont :
P0 = {{a},{b},{c},{d},{e}} correspond à la distance d = 0;
P1 = {{a, b },{c},{d},{e}} correspond à la distance d = 1;
P2 = {{a, b},{c},{d,e}} correspond à la distance d = 2;
P3 = {{a, b},{c, d, e}} correspond à la distance d = 4;
P4 = {{a, b, c, d, e}} correspond à la distance d = 5.

A chaque partition correspond une valeur numérique représentant le niveau auquel ont lieu les
regroupements. Les partitions sont définies en coupant l’arbre à un certain niveau en regardant les
branches qui tombent. Dans l’exemple de la figure 1.1, si on coupe l’arbre à une valeur 3.5 on aura
la partition suivante : P 2 = {{a, b},{c},{d, e}}.
9
La principale difficulté présentée par cette méthode est la définition du critère de regroupement de
deux classes, c’est-à-dire la détermination d’une distance entre les classes.
Les méthodes de classification automatique ont apporté une aide précieuse, notamment par leurs
applications médicales en exploitant les informations et les données dans le domaine de la santé
publique, de la recherche clinique, de l’épidémiologie, de la documentation ou de la décision
médicale. L’une des plus importantes applications de la classification automatique dans le domaine
médical est la nosologie (science de la classification des maladies).
L’exemple de classification le plus connu est la Classification Internationale des Maladies « CIM »
(en anglais, “International Classification of Diseases” « ICD ») (OMS, 1977). Les différentes
partitions de la Classification Internationale des Maladies sont résumées dans le tableau 1.1
(Degoulet P. et Fieschi M., 1994).
Partitions Noms
I. Maladies infectieuses et parasitaires
II. Tumeurs (malignes, bénignes, ...)
III. Maladies endocriniennes, maladies de la nutrition et du métabolisme,
troubles immunitaires.
IV. Maladies du sang et des organes hématopoïétiques
V. Troubles mentaux
VI. Maladies du système nerveux et des organes des sens
VII. Maladies de l’appareil circulatoire
VIII. Maladies de l’appareil respiratoire
IX. Maladies de l’appareil digestif
X. Maladies des organes génito-urinaires
XI. Complications de la grossesse, de l’accouchement et des suites de
couches
XII. Maladies de la peau et du tissu cellulaire sous-cutané
XIII. Maladies du système ostéo-articulaire, des muscles et du tissu conjonctif
XIV. Anomalies congénitales
XV. Certaines affections dont l’origine se situe dans la période périnatale
XVI. Symptômes, signes et états morbides mal définis.
XVII. Lésions traumatiques et empoisonnements
E. Causes extérieures de traumatisme et empoisonnements
V. Facteurs influant sur l’état de santé et motifs de recours aux services de
santé
M. Morphologie des tumeurs
Tableau 1.1. Les chapitres de la Classification Internationale des Maladies
3. Méthodes d’affectation
Les méthodes d’affectation ou “classificateurs” sont caractérisées par la phase d’apprentissage qui
consiste à établir des règles de classification à partir des connaissances disponibles a priori. Cette
phase peut être réalisée à partir d’un apprentissage inductif ou déductif. Le premier type
d’apprentissage permet de passer de cas particuliers à des lois plus générales «si les hommes x, y, z,
10
etc. sont mortels, alors on peut poser comme hypothèse d’induction que l'homme est mortel». Par
contre le deuxième type permet de passer d’un cas général à un cas plus particulier «si l’hypothèse
que tous les hommes sont mortels, est vrai, alors en conclusion Socrate, qui est un homme, est
mortel». Les méthodes présentées dans ce chapitre utilisent soit l’apprentissage inductif soit
l’apprentissage déductif mais pas les deux à la fois. Ces méthodes interviennent dans plusieurs
domaines tels que la reconnaissance des formes, les statistiques, les réseaux connexionistes (réseaux
de neurones artificiels), l’intelligence artificielle et l’aide multicritère à la décision. Nous aborderons
ici quelques-unes de ces méthodes dans chacun de ces domaines.
3.1. Méthodes d’apprentissage inductif
Les méthodes d’apprentissage inductif consistent à inférer des règles de décision à partir d’exemples
des différentes classes. Ceci se fait dans le but d’une généralisation afin de prédire des nouveaux cas,
sur base des paramètres les décrivant. Parmi les méthodes utilisant ce type d’apprentissage on
trouve :
3.1.1. Méthode des k plus proches voisins (k-ppv)
Fix et Hodges (Fix et Hodges, 1951) sont à l’origine de l’approche des k-ppv. Ce procédé a été
largement étudié notamment par Hart (Hart, 1967) qui en présente une description détaillée ainsi
qu’une amélioration. L’application pratique a été discutée par Fukunaga et Hummels en 1987.
Le principe général de la méthode des k-ppv consiste à rechercher parmi l’ensemble

d’apprentissage T, contenant l’ensemble des individus et leurs classes d’affectation, un nombre k
d’individus parmi les plus proches possibles de l’individu à classer. Puis, l’individu est affecté à la
classe majoritaire parmi ces k individus trouvés. Le nombre k est fixé a priori par l’utilisateur
(Dasarathy, 1991).
Si k = 1, alors l’individu est affecté à la classe du plus proche voisin de l’ensemble T.
Une variante de la règle de la majorité consiste à prévoir un seuil s au-dessus duquel une décision de
rejet est prise. Ainsi, on peut rencontrer des cas où l’individu n’est affecté à aucune classe.
Soit l’exemple de la figure 1.2 avec deux dimensions correspondant aux attributs e1 et e2, et avec
k=3
11
b3
b2 b1
b4
a
b5
Figure 1.2. Méthode des 3-ppv
Dans cet exemple les trois plus proches voisins de a sont b4, b 2 et b 5, donc a sera affecté à la classe
majoritaire parmi ces trois points.
La méthode des k-ppv a l’avantage d’être très simple à mettre en œuvre et d’utiliser directement
l’ensemble d’apprentissage T. Elle ne fait aucune hypothèse a priori sur les données. La qualité de la
discrimination par cette méthode dépend du choix du nombre k de voisins considérés. Il est
cependant souvent nécessaire de faire varier ce nombre k pour obtenir les meilleurs résultats
possibles. Un autre problème important de la méthode des k-ppv est qu’elle nécessite un espace
mémoire très important pour stocker les données et pour faire les différents calculs dans la phase de
classification. De plus, elle a l’inconvénient d’utiliser les distances pour déterminer les voisins de
l’individu à affecter, ce qui peut poser des problèmes si les dimensions à agréger ne sont pas
homogènes. Afin de remédier à l’inconvénient de l’utilisation de distances, on a recours à l’utilisation
des relations de ressemblances floues (Perny et Henriet, 1996).
Decaestecker et al. ont appliqué la méthode des k-ppv dans le diagnostic médical. Cette méthode a
permis de différencier les tumeurs astrocytaires typiques des cas atypiques (Decaestecker et al.,
1997).
3.1.2. Affectation par la méthode bayésienne
L'approche bayésienne a pour but de minimiser la probabilité d'erreur de classification, c'est-à-dire

la probabilité jointe qu'une observation x soit en provenance d'une classe Ci et soit classée dans une
autre:
P( erreur ) = ∑ i ∑ j ≠ i P( x ∈ C i et x classée dans C j) (1)
ou de façon équivalente, maximiser la probabilité de bonne classification :
P ( correct )= ∑ i P ( x∈C i et x classée dans C i )
Une caractéristique importante des données soumises à la méthode est la probabilité P(Ci) avec
laquelle les différentes classes apparaissent dans la population considérée. Elle est appelée
probabilité a priori. En pratique, cette distribution est estimée à partir des fréquences observées
dans les données, sauf si une connaissance a priori du domaine peut les fournir.
12
Considérons un vecteur x composé des valeurs des différentes variables descriptives attribuées à l'un
des cas de la base de donnée. Cette information peut être cette fois utilisée pour prédire la classe du
cas considéré. La règle de classification assurant une probabilité d'erreur minimum (1) est dans ce
cas celle qui classe la donnée x dans la classe pour laquelle la probabilité conditionnelle de la classe
étant donné x, P(C i/ x), est maximum:
P(Ci/x) > P(Cj/x), pour tout j ≠ i (2)
P(C i/x) : est la probabilité conditionnelle d’appartenance à la classe Ci, sachant qu’on est au point
x. Elle est appelée probabilité a posteriori et elle peut être calculée grâce au théorème de Bayes,
sur base de la probabilité a priori P(C i) et de la probabilité conditionnelle P(x/Ci) (distribution dans
chaque classe) :
P ( C i )× P ( x / C i )
P(Ci/x) = P (x ) (3)
Remarquons que la classe dont la probabilité a posteriori est maximum peut être déterminée sans
connaître P(x) qui est indépendante des classes.
Pour déterminer la probabilité a posteriori P(Ci/x) l'approche bayésienne suppose donc la

connaissance des probabilités a priori P(Ci) et de la distribution dans chaque classe P(x/Ci).
Celles-ci ne sont pas forcément connues, elles devront donc être évaluées à l'aide d'une méthode
d'estimation. On distingue principalement les techniques paramétriques et les techniques non-
paramétriques. Les méthodes dites paramétriques posent des hypothèses concernant la nature des
distributions (souvent supposées gaussiennes). Le problème se réduit alors à estimer les paramètres
des distributions, par exemple les moyennes et les variances. Les méthodes non-paramétriques ne
posent pas de telles hypothèses et procèdent par estimation de densité. Citons, parmi les méthodes
les plus utilisées: les méthodes d'estimation non-paramétriques de la densité, connues également sous
le nom de méthodes des noyaux (ou fenêtres de parzen) (Duda et Hart, 1973 ; James, 1985) et
les méthodes utilisant les k plus proches voisins (Fix et Hodges, 1951 ; McLachlan, 1992 ; Chateau,
1994).
Les méthodes de classification bayésienne ont été étudiées par plusieurs auteurs (Weiss et al., 1991
; McLachlan, 1992 ; Michie et al., 1994 ; Lebart et al., 1998). Elles ont été largement utilisées dans
le domaine de diagnostic médical et en particulier pour évaluer les probabilités des différentes
hypothèses de diagnostic (Salamon et al., 1976 ; Zagoria et al., 1983 ; Degouflet et al., 1994).
3.1.3. Méthodes d’analyse discriminante
Les méthodes d'analyse discriminante ont été largement étudiées ; la littérature à ce sujet est très
abondante. Nous présentons dans ce paragraphe une brève description de ces méthodes. Pour plus
de détails, nous renvoyons le lecteur à des ouvrages spécifiques tels que : l'ouvrage de Tomassone et
al. (1988), les ouvrages édités par Celeux (1990) et Celeux et al. (1994) et l'ouvrage de synthèse
de McLachlan (1992).
Le but de ces méthodes est de produire des décisions concernant l’appartenance ou non d’un objet
à une classe en utilisant des fonctions discriminantes appelées également fonctions de décisions. Ce
genre de méthodes se base sur les travaux de Fisher (1936). Suivant les formes des classes, on peut
trouver différents types de discrimination :
13
• Discrimination linéaire
Elle consiste à séparer les classes par des frontières linéaires afin de regrouper les points à classer
autour du centre de gravité de la classe (la moyenne de la classe) et à créer aussi des frontières
linéaires entre les classes.
Dans le cas où on aurait n variables, la fonction de discrimination devient :
d(a) = w1x1 + w2x2+ ... + wnxn+ wn+1 (4)
Cette fonction dépend de paramètres w1, ..., wn, w n+1. La détermination de ces paramètres se fait
par un algorithme d'apprentissage qui vise à satisfaire le critère associé au modèle. En fonction des
données, le critère le plus utilisé pour ajuster ces paramètres est celui qui vise généralement à
minimiser l'erreur de classification (McLachlan, 1992 ; Anderson, 1984 ; Devijver et Kitller, 1982).
Si on a k classes, on définit k fonctions de discrimination :
d i(a) = W i.X t avec Wi = (wi1, w i2, ..., w in) et X =(x1, x2, ..., x n, 1)
La règle d’affectation est donnée comme suit (cf. figure 1.3) :
Si d i(a) > 0 alors a ∈ Ci pour i = 1, ..., k
d1
C2
C1 d2
C3
d3
Figure 1.3. Séparation linéaire pour 3 classes
• Fonction discriminante quadratique
Le principe de cette méthode est le même que celui développé précédemment excepté qu’au lieu de
séparer les classes par des hyperplans, on les sépare par des surfaces qui ont généralement la forme
ellipsoïde. La discrimination quadratique utilise plusieurs métriques (une par classe) pour mesurer la
dispersion de chaque classe et la règle de décision est donnée comme suit :
14
on affecte l’objet a à la classe Ch si : (x-gh)tM h(x-g h) = Minl=1...k(x-g l)tMl(x-g l) (5)
où: x : est un vecteur composé des valeurs des différentes variables descriptives attribuées à l'objet
a.
gl : le centre de gravité de la classe C l
Ml : la métrique de la classe Cl.
Les méthodes d’analyse discriminante ont comme difficulté le choix de la métrique à utiliser afin
d’obtenir des classes où les points d’une même classe soient les moins dispersés possibles autour du
centre de gravité de la classe. Ce sont des méthodes totalement compensatoires qui appliquent une
agrégation globale sur les performances des attributs de l'objet. Ceci a pour conséquence un côté
arbitraire de la méthode vu l’hétérogénéité des données.
L’analyse discriminante peut être utilisée dans le diagnostic médical en affectant un patient à une
classe diagnostic en fonction de la valeur de ses paramètres xi, i=1,...,n. L’ensemble
d’apprentissage permet de trouver la fonction discriminante en estimant les coefficients wi. A partir
de cette fonction de décision, on peut affecter n’importe quel patient.
Reprenons l’exemple de Degouflet P. et Fieschi M. (1994). Soit deux diagnostics médicaux

(appendicite et salpingite) et trois signes (DEF : Défense ; DFID : douleur de la fosse iliaque droite ;
DFIG : douleur de la fosse iliaque gauche). En utilisant la fonction de discrimination donnée par (4) et
après l’estimation des coefficients des paramètres, on aura les règles de décisions suivantes :
f(appendicite) = 4.DEF + 10.DFID - 10.DFIG
f(salpingite) = 3.DEF + 5.DFID + 5.DFIG
Si un patient ne présente pas de signe de défense et présente les signes de douleur des fosses
iliaques droite et gauche on aura :
f(appendicite) = 4 ×0 + 10 ×1- 10× 1 = 0
f(salpingite) = 3×0 + 5× 1 + 5×1 = 10
D’après ce calcul, le diagnostic est en faveur d’une salpingite.
3.1.4. L’approche des réseaux de neurones
Les réseaux de neurones sont à l’origine d’une tentative de modélisation mathématique du cerveau
humain. Le principe général consiste à définir des unités simples appelées neurones, chacune étant
capable de réaliser quelques calculs élémentaires sur des données numériques. On relie ensuite un
nombre important de ces unités formant ainsi un outil de calcul puissant.
L’étude de réseaux de neurones artificiels a débuté au début des années 1940 par les travaux de
McCulloch et Pitts (McCulloch et Pitts, 1943) et a été étendue aux problèmes de classification et
reconnaissance des formes par Rosenblatt (1962). Commençons d’abord par donner quelques
définitions relatives à la théorie des réseaux de neurones.
15
• Neurone artificiel
Un neurone est une unité de traitement de l’information. La figure 1.4 en donne une représentation
schématique.
S
E1
∑ ϕ(⋅) S’
E2
En
Entrées Synapses Cellule de Fonction Sortie

Sommation
Figure 1.4. Structure d’un neurone artificiel
Les valeurs des entrées E1,…, En représentent en général les attributs d’un objet à classer et les
poids W1,…,Wn (ou coefficients synaptiques) associés aux entrées sont des variables de la fonction
score du poids, appelée aussi fonction d’activation du neurone (la fonction d’activation la plus
utilisée est la somme pondérée des valeurs d’entrée). La valeur d’activation est ensuite passée
comme argument à la fonction de sortie qui détermine la valeur de sortie du neurone S’. L’entrée
supplémentaire S sert à indiquer au neurone la valeur de sortie attendue pour qu’il puisse corriger ses
coefficients synaptiques et s’approche de cette valeur.
• Réseau de neurones
Un réseau de neurones se compose de neurones connectés de façon à ce que la sortie d’un neurone
puisse être l’entrée d’un ou plusieurs autres neurones. Les connexions entre les neurones sont dotées
de poids (cf. figure 1.5) :
16
Neurones d’entrée Neurones intermédiaires Neurones de sorties
Poids Poids S1
E1 θ1
W’
W1
S2
θ2
E2
Sn
θn
En
Figure 1.5. Réseau de neurones artificiels

Le principe général des méthodes utilisant les réseaux de neurones consiste à modifier (ou ajuster)
les paramètres comme, par exemple, le s poids et les seuils par des algorithmes itératifs afin d’obtenir
des réponses correctes.
L’objectif de ces algorithmes est de minimiser une mesure d’erreur. La mesure la plus utilisée est
celle de l’erreur des moindres carrés, ce qui revient à minimiser l’expression :
k m
E=∑ ∑ ( S il − S 'il )2 (6)
l =1 i =1
où E est la variable à minimiser, S il la sortie i attendue et S’il la sortie i du réseau pour l’exemple l.
Parmi les méthodes de réseaux de neurones utilisées dans le cadre des problèmes d’affectation nous
citerons :
• Méthode du perceptron à une seule sortie
Cette méthode, due à Rossenblatt (1962), consiste à donner une décision d’appartenance ou non
d’un objet à une classe (cf. figure 1.6).
17
E1
E2
θ
En
avec : n
1 Si ∑ wi× E i +θ > 0
i =1
S= (7)
0 Sinon
Figure 1.6. La forme générale du perceptron à une seule sortie

La figure 1.6. illustre la forme générale d’un perceptron à une seule sortie (connu aussi sous le nom
d’adaline).
On classe x à la classe C1 si S = 1 et à C2 sinon.
L’équation (7) du perceptron a la même forme que la fonction de discrimination linéaire donnée par
l’équation (4) utilisée dans les méthodes d’analyse discriminante, ce qui signifie que les méthodes du
perceptron sont utilisées pour discriminer des individus linéairement séparables.
Les limites de cette méthode sont décrites par Minsky et Papert (1969).
• Méthode du perceptron multicouches
Afin de traiter les problèmes de classification à plus de deux classes qui ne sont pas obligatoirement
linéairement séparables, on utilise les réseaux à couches. Les réseaux à couches sont connus sous le
nom de perceptron multicouches. Ce sont des réseaux où les neurones sont regroupés en couches
connectées entre elles. On distingue trois types de couches : la couche d’entrée, la couche de sortie
et les couches cachées (figure 1.7).
18
Couche de
sortie
Wj1
Couche
cachée θ1 θi θj
Wnj
En
Couche E1
d’entrée
Figure 1.7. Forme générale d’un réseau à trois couches
Les perceptrons multicouches utilisent le principe de rétro-propagation back -propagation qui est
une généralisation de la méthode de l’erreur des moindres carrés proposée par P.Werbes puis par
D.Rumelhart et al. (1986).
Le principe de rétro-propagation est d’optimiser les paramètres du réseau de neurones en utilisant la

technique de descente du gradient. On confronte le réseau à des exemples déjà classés. Lorsqu’un
résultat est obtenu, l’erreur de classification est calculée (par exemple l’équation (6), permet de
calculer l’erreur quadratique). Par la suite, cette erreur est rétropropagée d’une couche à l’autre en
partant de la couche de sortie pour que les poids puissent être modifiés en fonction de l’erreur
commise.
Dans le cas où les classes ne seraient pas linéairement séparables, la méthode de rétro-propagation
ne peut pas utiliser la fonction à seuil, comme celle utilisée dans l’équation (7). Dans ce cas, elle
utilise une fonction dérivable connue comme fonction sigmoïde. Parmi ces fonctions on trouve la
fonction logistique (figure 1.8).
19
f(x)
f(x) = 1/(1 + e-ax)
où a est un paramètre de pente de f.
1 df(x)/dx = f(x)(1-f(x)) et df(0)/dx = a/4
x
0
Figure 1.8. Fonction sigmoïde

Ce type de réseaux est le plus utilisé dans les problèmes d’affectation et il a fourni de bons résultats.
Néanmoins, la convergence en terme d’apprentissage n’a pas été démontrée : le temps de calcul
requis par l’apprentissage pour corriger les paramètres peut être très élevé et la convergence non
immédiate. En outre, les réseaux de neurones produisent automatiquement la décision et sans
l’intervention du décideur. Ce qui leur a attribué le nom de la boîte noire (figure 1.9). Ceci permet de
dire que les méthodes de réseaux de neurones sont des méthodes à caractère non explicatif et la
décision prise n’est pas justifiée.
L’objet a à Système Décision

classer d’apprentissage d’affectation
Figure 1.9. L’effet de la boîte noire
Pour plus de détails sur l’approche des réseaux de neurones et leurs applications aux problèmes de
classification, on peut se référer à : Weiss S.M. et Kulikowski (1991), à Hertz. J. et al (1991) et à
l’ouvrage de Bishop (1995).
Au départ, les systèmes connexionistes ont été appliqués dans les domaines de reconnaissance des
formes. Ils peuvent aussi êtres appliqués dans les problèmes de classification des diagnostics
médicaux, lorsqu’on dispose d’un nombre de cas suffisant. La couche d’entrée du réseau
correspond aux symptômes (ou signes cliniques) et la couche de sortie aux différents diagnostics (ou
différents pronostics). Plusieurs applications médicales de l’approche des réseaux du perceptron
multicouches, ont été publiées parmi lesquelles l’application de Sushmita dans le cas de diagnostic
des maladies hépato biliaires (Sushmita M., 1994). Pour d’autres applications des réseaux de
neurones dans le domaine de classification médicale on peut se référer à: Errington et Graham
(1993) ; Sharpe et al. (1993) ; Weinsten et al. (1992) ; Decaestecker (1997).
20
3.1.5. Affectation par l’approche d’arbre de décision
L’approche d’arbre de décision a été largement étudiée et appliquée dans le domaine de

classification supervisée. On trouvera dans les travaux de R. Quinlan le principe et le développement
de cette méthode (Quinlan 1986, 1987, 1988 et 1993).
• Principe
Soit un ensemble d’individus {x 1, x2, …, xn} que l’on veut étudier du point de vue de certaines
variables ou caractéristiques f j avec j ∈ J pour J = {1, ..., n}. Suivant les valeurs f j(xj) de ces
variables en xj, on est amené à effectuer telle ou telle décision sur ces individus. Par exemple :
Si ( f 1(x 1) > 39 ) et ( f 2(x 2) ≠ 12/8 ), alors x1 ∈ C1.
Où: f 1 désigne la température, f 2 la tension et x1 ∈ C1 indique que le patient est affecté à la classe des
malades.
(f 1(x 1) > 39) et (f 2(x 2) ≠ 12/8) expriment les règles de décision alors que x1∈ C1 représente la
décision.
Pour l’ensemble d’apprentissage T = {(x i,Cj) / i =1,..., m; j=1,..., k} qui contient l’ensemble des
règles initiales, on souhaite obtenir un nouvel ensemble de règles qui soit aussi concis que possible.
Cela peut se faire au moyen d’un arbre que nous appellerons arbre de décision.
Un arbre de décision est une structure simple récursive permettant d’exprimer un processus de
classification séquentiel au cours duquel une correspondance est établie entre un objet décrit par un
ensemble de caractéristiques (attributs), et un ensemble de classes disjointes. Chaque feuille de
l’arbre dénote une classe et chaque nœud intérieur un test portant sur un ou plusieurs attributs,
produisant un sous-arbre de décision pour chaque résultat possible du test.
• Construction d’un arbre de décision
Soit un ensemble d’apprentissage T = {(xi, Cj) / i =1,...,m; j=1,...,k}. L’idée de construction d’un
arbre de décision utilisant T est de raffiner T en des sous-ensembles successifs menant à des
collections d’objets comportant au plus une classe. On choisit pour cela un test portant sur un ou
plusieurs résultats {R1, R2, ..., RL}.
T est ensuite partitionné en sous-ensembles T1, T2, ..., TL où Ti contient tous les individus de T
présentant le résultat Ri par le test choisi. L’arbre résultant consiste en un nœud de décision
identifiant le test et une branche pour chaque résultat possible. L’étape la plus importante pour la
construction des arbres de décision consiste à choisir le meilleur test. Ceci permet de diminuer le plus
possible le mélange des classes au sein de chaque sous -ensemble créé par le test. Ainsi, le critère de
sélection le plus souvent utilisé est basé sur la théorie de l’information de Shannon (1948). Ce type
de critère est utilisé pour sélectionner les différents tests en utilisant le critère du gain d’entropie
connu sous l’appellation information mutuelle (Quinlan, 1986, 1993). Le processus de division des
cas d’apprentissage se poursuit de manière successive jusqu’à ce que tous les sous-ensembles ne
comportent plus que des individus à classe unique.
21
La construction par partitionnement peut conduire à des arbres extrêmement complexes qui ne
permettent pas d’extraire les structures significatives des données. Afin d’obtenir un arbre plus
simple et plus précis pour la classification de nouveaux cas on peut appliquer le principe d’élagage
(en anglais, pruning). L’objectif de ce principe est d’améliorer les qualités de généralisation et de
prédiction de l’arbre. Le principe d’éla gage consiste à supprimer les parties de l’arbre jugées inutiles
(ou non performante pour prédire la classe de nouveaux cas). Les sous arbres élagués sont
remplacés par un nœud terminal. Par exemple pour élaguer un arbre de décision l’algorithme C4.5
développé par Quinlan en 1993, part des feuilles vers la racine et calcule pour chaque sous arbre
rencontré, le taux d’erreurs prédit obtenu en le remplaçant par une feuille. Si le taux s’avère inférieur,
l’arbre est élagué (Quinlan, 1993).
• Affectation de nouveaux individus

La règle d’affectation d’un nouvel individu s’effectue comme suit :
Partant de la racine de l’arbre, l’individu descend l’arbre jusqu’à ce qu’il arrive à une feuille. Si celle-
ci représente une classe unique, il est affecté à cette classe. Si la feuille représente un mélange de
classes, il est affecté à la classe majoritaire.
Reprenant l’exemple de Celeux et al. (1989), soient trois classes d’Iris : Setosa (Seto), Versicolor
(Vers) et Virginica (Virg). On dispose d’un échantillon de 50 individus pour chaque classe d’Iris et
chaque Iris est caractérisé par quatre paramètres : longueur du sépale (Sp), largeur du sépale (SW),
longueur du pétale (PL) et largeur du pétale (PW). L’arbre de décision est représenté dans la figure
suivante :
Seto=50, Vers=50, virg=50
Pl ≥ 1.90
Pl < 1.90
Seto=49 Seto=1
Vers=1 Vers=1
Virg=0 Virg=50
Pw<1.70 Pw ≥1.70
Seto=0 Seto=1
Vers=48 Vers=1
Virg=6 Virg=44
Sp<4.90 Sp≥4.90
Seto=0 Seto=0
Vers=46 Vers=2
Virg=2 Virg=4
22
Figure 1.10. Arbre de décision sur les données d’Iris
Dans cet exemple, sept individus sont mal classés : un Sétosa, quatre Versicolore et deux Viginica.
Cet arbre permet de fournir des règles très claires, par exemple :
Si la longueur du pétale est plus grande que 1.9 et si la largeur du pétale est plus grande que 1.7,
alors l’iris est du type Virginica.
• L’arbre de décision utilisant la probabilité bayésienne
A chaque nœud de l’arbre, on calcule la probabilité d’appartenance à chaque classe. Ces

probabilités sont conformes au théorème de Bayes sur les probabilités conditionnelles.
Considérons un échantillon de 100 patients dont 50 en bonne santé (bs) et 50 malades. Chaque
patient est caractérisé par deux variables (ou signes cliniques) : la température et la tension. On
notera P1 et P2 les probabilités a priori d’appartenance aux classes C1 et C 2 respectivement (avec :
P1 + P2 = 1).
Dans notre exemple, nous supposerons que : P1 = P2 = 1/2. Les résultats obtenus sont présentés
dans la figure 1.11.
bs=50;m=50
p(bs)=1/2;p(m)=1/2
temp>37.5 temp ≤ 37.5
bs=5;m=40 bs=45;m=10
p(bs)=0.12;p(m)=0.88 p(bs)=0.9; p(m)=0.2
tension ≠ 12/8
tension ≈ 12/8
bs=3;m=8 bs=42;m=2
p(bs)=0.06;p(m)=0.8 p(bs)=0.93;p(m)=0.2
Figure 1.11. Arbre de décision utilisant les probabilités bayésienne
La connaissance de ces probabilités ainsi que les coûts de mauvaise classification nous permettent
d’évaluer les mauvaises classifications et l’espérance de coût associée à chaque feuille.
23
Les avantages procurés par les méthodes utilisant l’arbre de décision sont leur rapidité et, surtout,
leur facilité quant à l’interprétation des règles de décision. La clarté des règles de décision rend
possible le dialogue homme machine. En outre, elles ne font aucune hypothèse sur les données
(méthodes non paramétriques). Par ailleurs, elles ont l’inconvénient d’être extrêmement complexes si
le nombre d’attributs et de classes augmentent.
Pour les détails de l’approche d’arbre de décision et ses applications cliniques, nous renvoyons les
lecteurs aux travaux de Decaestecker et al. Ces derniers ont appliqué cette méthode dans le
diagnostic des tumeurs Gliales (Decaestecker, 1997) et des tumeurs de la vessie (Decaestecker et
al., 1996).
3.2. Méthodes d’apprentissage déductif
Les méthodes d’apprentissage déductif utilisent un raisonnement analytique qui est basé sur des
inférences déductives dans le but est de transformer un ensemble de connaissance sous une forme
désirée par l’utilisateur. Parmi les exemples utilisant ce type d’apprentissage on a les systèmes
experts et la théorie des ensembles approximatifs (rough sets). Cette dernière est proposée par
Pawlak au début des années quatre vingt (Pawlak et al., 1986 ; Pawlak, 1991). Dans ce type
d’apprentissage on présentera seulement les méthodes de classification utilisant les systèmes experts.
3.2.1 Affectation par système expert
Un système expert a pour objectif de reproduire le comportement de l’expert lors de la résolution

d’un problème, prenant appui sur une représentation des connaissances de ce dernier (cf. figure
1.12).
Base de connaissances (règles de Base de faits (données)

connaissances fournies par ’expert)
Moteur d’inférences (logiciel

développant le raisonnement du
système)
Interface homme-machine
(logiciel de communication)
Figure 1.12. Schéma général d’un système expert
24
Les connaissances sont représentées par une base de règles et une base de faits. Les règles sont des
assertions données sous formes d’implications. Elles peuvent être interprétées comme des conditions
à réaliser pour déclencher une action donnée, et elles ont la forme suivante :
Si < conditions >, alors < actions/conclusion >
La base des faits contient des assertions qui ne sont pas exprimées sous formes d’implications. Elle
représente une connaissance relevant du cas particulier de l’individu à traiter, laquelle peut être
fournie au système ou bien déduite par celui-ci.
Pour affecter les individus aux différentes classes, le système cherche l’ensemble de règles
applicables en effectuant un choix puis il applique la règle choisie et recommence le cycle. Le
processus s’arrête lorsqu’il n’y a plus de règle applicable ou lorsque le but est atteint. Ce traitement
est appelé moteur d’inférence. L’efficacité de ce raisonnement dépend de la pertinence du choix des
règles.
L’affectation des individus se fait à l’aide d’un ensemble de règles comme dans les méthodes utilisant
l’arbre de décision. Dans les systèmes experts, les classes et les règles d’affectation sont données
par une expertise et non pas par un ensemble d’exemples (à l’inverse, les arbres de décision utilisent
un ensemble d’exemples pour déterminer les classes et les règles d’affectation).
Prenons l’exemple d’un ensemble de connaissances permettant de classer quelques figures

géométriques :
Règle 1 : Si figure et segments Alors polygone
Règle 2 : Si figure et non segments Alors ovale
Règle 3 : Si ovale et diamètre constant Alors cercle
Règle 4 : Si ovale et diamètre variable Alors ellipse
Règle 5 : Si polygone et trois côtés Alors triangle
Règle 6 : Si polygone et quatre côtés Alors quadrilatère
Règle 7 : Si quadrilatère et quatre côtés égaux Alors losange
Règle 8: Si quadrilatère et côtés deux à deux parallèles Alors parallélogramme
Règle 9 : Si quadrilatère et côtés deux à deux égaux et angles droits Alors rectangle
L’un des avantages des systèmes experts est qu’il est très facile d’exprimer des connaissances
certaines et précises. Leur principal inconvénient réside dans la difficulté de l’expert à exprimer sa
connaissance et du grand nombre de règles nécessaires pour la plupart des applications d’intérêt
pratique. En outre, les systèmes experts sont adaptés pour traiter des problèmes utilisant uniquement
des variables qualitatives et à des problèmes pour lesquels il n’existe pas de solution algorithmique.
25
Les systèmes experts ont été appliqués dans plusieurs domaines médicaux. Parmi ces systèmes de
diagnostic, nous citerons le système MYCIN. Ce dernier est appliqué pour diagnostiquer les
infections bactériennes du sang (ou les septicémies) en décrivant les liens entre les symptômes et les
causes possibles de la maladie. Ce système de diagnostic utilise des connaissances codées sous
forme de règles de productions (Shortliffe, 1976). Les connaissances MYCIN tentent de modéliser
à haut niveau conceptuel les déductions qu’un expert utilise dans son processus diagnostic. MYCIN
donne des solutions auxquelles est associé un degré de crédibilité. Ce degré de crédibilité est
compris entre –1 et 1. Plus la valeur de crédibilité est proche de un, plus on affirme la conclusion
avec certitude. Les valeurs négatives expriment de la même manière la crédibilité de négation de la
conclusion. Une des règles de production du système MYCIN fournies par les spécialistes en
médecine tropicale et infectieuse est illustrée dans la figure 1.13 (Degoulet et Fieschi, 1994). Un
autre système d’aide au diagnostic médical est le système développé récemment par l’équipe de
Bartels (Bartels et al., 1996). Ce système est basé sur la logique floue pour aider au diagnostic et
pronostic des lésions prostatiques tumoral.
Si La coloration de la préparation est GRAM négatif

Le micro-organisme à une forme “en bâtonnet”
Le patient est un hôte à risque,
Alors On suggère (crédibilité = 0.6) que l’agent infectieux est un
pseudomonas
Figure 1.13 . Exemple de règle de production emprunté au système expert MYCIN
3.3. Méthodes de classification multicritère

Les méthodes de classification multicritère font partie du domaine d’aide multicritère à la décision.
Elles consistent à élaborer des procédures d’affectation qui permettent d’affecter chaque individu à
une classe prédéfinie et ceci à travers l’examen de sa valeur intrinsèque en se référant à des normes
préétablies. Ces méthodes utilisent uniquement des comparaisons entre l’individu à affecter et les
individus de référence par le biais d’un modèle de préférence. Ceci évite le recours à des distances
et permet d’utiliser des critères qualitatif et/ou quantitatif. En outre, elles permettent d’écarter les
complications rencontrées lorsque les données sont exprimées dans différentes unités. Ces avantages
constituent l’une des raisons qui nous a motivé à développer de nouvelles méthodes de classification
utilisant le domaine d’aide multicritère à la décision.
En pratique pour résoudre certains problèmes de classification (par exemple le diagnostic des
défaillances des machines et celui de leucémies aiguës), le décideur a besoin d’une méthode qui
utilise deux types d’apprentissages inductif et déductif à la fois. En effet, à notre connaissance aucune
méthode de classification décrite dans la littérature n’arrive à combiner les deux types
d’apprentissages. Ce besoin constitue la deuxième raison qui nous a poussé à développer de
nouvelles méthodes de classification.
Par ailleurs, très peu de méthodes utilisant le domaine d’aide multicritère à la décision ont été
appliquées dans le domaine d’aide au diagnostic médical (Du Bois et al., 1989). Ce fait nous a
encouragé à développer de nouvelles méthodes de classification multicritère pour traiter les
problèmes de classification médicale.
26
Parmi les méthodes de classification utilisant le domaine d’aide multicritère à la décision, nous
mentionnons la méthode Trichotomique décrite par Moscarola et Roy en 1977 et est limitée au
problème à trois classes. La généralisation de la problématique à plus de trois classes peut être
traitée par les méthodes N-TOMIC (Massaglia et Ostanello, 1991), ELECTRE TRI (Yu, 1992) , la
technique des robots (Bana e Costa, 1992) et plus récemment les méthodes de filtrages flous
développées par Perny (1998). Ces méthodes déterminent des points de référence des catégories à
partir d’un ensemble d’apprentissage. Ce qui implique que ces méthodes utilisent uniquement
l’apprentissage inductif.
Dans ce contexte nous avons développé récemment de nouvelles méthodes de classification

multicritère baptisées PROAFTN «PROcédure d’Affectation Floue dans le cadre de la
problématique du Tri Nominal », PROCTN « PROcédure de Choix dans le cadre de la
problématique du Tri Nominal » et PROCFTN « PROcédure de Choix Flou dans le cadre de la
problématique du Tri Nominal». Leurs applications dans le domaine d’aide au diagnostic médical
seront amplement détaillées dans la dernière partie du présent travail.
4. Performance des méthodes de classification
La plus part des méthodes de classification mentionnées dans ce chapitre ont été largement
appliquées dans plusieurs domaines y compris les problèmes de classification médicale. La question
qu’on peut se poser est la suivante : comment évaluer les performances d’une méthode de
classification ? En général, on divise l’ensemble de données disponible en deux sous-ensembles : l’un
servira pour l’apprentissage et l’autre pour le test. L’ensemble d’apprentissage est utilisé pour
déterminer les paramètres du modèle de classification, par exemple les poids dans le cas d’un réseau
de neurones ou les prototypes des catégories dans le cas des méthodes de classification multicritère.
L’ensemble de test sert pour tester les performances de la méthode en calculant le taux de
classification correcte de l’ensemble des cas. Ce taux est déterminé en divisant le nombre de cas
bien classés sur le nombre des cas testés.
Parfois on est confronté à des problèmes où l'ensemble de données est restreint et on veut exploiter
ces données disponibles pour construire le classificateur d’une part et tester les performances de la
méthode d’autre part. Pour cela on fait appel aux techniques de rééchantillonage (resampling
techniques) ; parmi lesquelles la technique de validation croisée (cross-validation) est la plus utilisée.
Le principe de cette technique consiste à diviser aléatoirement l’ensemble des données en m
partitions mutuellement exclusives (m -fold cross-validation). Ensuite la méthode est construite à
partir de l’ensemble des partitions moins une qui servira de test. Après on réitère le processus en
introduisant la partition testée dans l’ensemble d’apprentissage et en prenant une autre partition
d’apprentissage pour tester la méthode et ainsi de suite jusqu'à ce que toutes les données seront
utilisées tantôt pour l’apprentissage et tantôt pour le test. La moyenne des taux de classification
correcte sur toutes les partitions de test correspond au taux de prédiction.
Une autre technique de rééchantillonage déduite de m-fold cross-validation, appelée leave-one-out

a été décrite par Weiss en 1991. Dans cette technique, chaque partition de test est composée d’un
seul cas, tandis que tous les autres cas sont utilisés pour l’apprentissage. Ainsi, la moyenne des taux
de classification correcte est déterminée en n itérations, où n représente le nombre de données
disponibles. Le tableau 1.2, illustre le nombre d’itérations selon qu’on utilise la technique de 10-fold
cross validation (m = 10) ou la technique de leave-one-out (m = n). Pour plus de détails
27
concernant les techniques de rééchantillonages le lecteur peut se référer à (Weiss et al., 1991 et
Kohavi, 1995).
Leave-One-Out 10-fold Cross Validation
Nombre de cas utilisaient pour
l’apprentissage dans chaque n- 1 90%
itération
Nombre de cas utilisaient pour le
1 10%
test dans chaque itération
Nombre d’itérations n 10
Tableau 1.2. Techniques de validation croisée
28
Aide multicritère à la décision et problématique du tri
Chapitre 2 : Aide multicritère à la décision et problématique du tri
Cette partie vise à définir quelques notions et concepts de base nécessaires pour mieux cerner notre
domaine de recherche.
1. Aide à la décision
Vu la grande complexité des problèmes de décision, un individu ou un groupe d’individus fait le plus
souvent recours à une aide extérieure afin de prendre une décision. Cette aide est dirigée par des
analystes spécialistes du domaine ou experts : les “hommes d’études”. Ces derniers prennent en
charge l’aide à la décision en donnant des conseils sur la formulation du problème et les démarches à
suivre pour aboutir à une décision finale.
L’aide à la décision a connu une grande ampleur dans la deuxième moitié de ce siècle. C’est en effet
après la deuxième guerre mondiale qu’un très grand nombre de travaux ont été développé. Ces
travaux peuvent être subdivisés en trois grandes familles correspondant à trois démarches différentes
(Roy B., 1985 ; 1990). La première voie vise à la recherche d’une meilleure décision correspondant
à une solution optimale. Ainsi les analystes utilisant cette démarche, formulent le problème et utilisent
les méthodes et les techniques de la recherche opérationnelle pour le résoudre. La deuxième voie
consiste à concevoir un ensemble de règles, constituant un ensemble d’axiomes ou d’exigences. Il
caractérise le comportement rationnel en matière de décision. L’analyste conçoit un ensemble
raisonnable de postulats afin que le décideur puisse tirer les conclusions adéquates concernant sa
décision. Parmi les travaux utilisant cette démarche la théorie de l’utilité espérée de Von Neumann-
Morgenstern (1954) et l’utilité multiattribut de Keeney et Raïffa (1976). La troisième voie a pour
objet de fournir au décideur des conseils et des recommandations. Elle ne cherche pas à donner une
décision optimale du fait des conflits et des transformations qui interviennent pendant le déroulement
de la procédure de décision. Mais elle fournit plutôt une décision appropriée résultant d’une action
de compromis. De plus, elle permet d’impliquer le décideur dans la phase de la construction du
modèle afin qu’il puisse y intégrer ses préférences. Par opposition aux deux premières grandes
familles, cette troisième ne considère pas le décideur comme rationnel. Pour plus de détails
concernant cette démarche ainsi que les critiques des deux premières approches nous renvoyons le
lecteur aux références de Roy (1968 et 1985), Bouyssou (1984) et Moisdon (1986).
C’est cette dernière démarche que nous suivrons dans la réalisation de notre travail.
2. Modélisation des préférenc es
2.1. Définitions des actions potentielles
L’ensemble des actions potentielles A, est défini comme un ensemble d’objets qui contribuent à la
décision globale ou envisageable dans la perspective décisionnelle (Roy, 1985). Cet ensemble peut
être défini de deux manières :
En extension, c’est-à-dire par énumération de ses éléments ceci n’est possible que dans le cas où
A serait fini et de cardinal relativement faible. Dans cette forme, l’ensemble A est représenté par une
liste {a 1, a2,..., an} d’actions potentielles.
29
En compréhension, c’est-à-dire lorsque A est défini par un système de contraintes, dans le cas où
A est infini ou de cardinal très élevé. Dans cette forme, l’ensemble A est représenté par un sous -
ensemble de Rk où chaque action est définie par un vecteur (x1, x2 , ..., xk ).
Lorsque l’ensemble A est défini a priori sans modification durant le processus, nous dirons qu’il est
stable. Dans le cas contraire, nous dirons qu’il est évolutif. Dans le processus d’aide à la décision, on
est souvent amené à utiliser des actions fictives ou imaginaires. Elles sont considérées soit comme
une action idéalisée, pour connaître la réaction du décideur, soit comme un objet de référence (ou
prototype) dans les problèmes de classification multicritère.
2.2. Système relationnel de préférence
Les études d’aide à la décision se basent sur la comparaison des actions. Cette comparaison fait
apparaître diverses situations de préférences qui peuvent être modélisées par des relations binaires2.
Le modèle classique ne distingue que deux situations différentes : la préférence et l’indifférence. Afin
d’éviter les inconvénients et le manque de réalisme de ce modèle, Roy propose quatre situations
fondamentales de préférence : l’indifférence, la préférence stricte, la préférence faible et
l’incomparabilité (Roy, 1985). Ces structures sont représentées par les relations binaires suivantes :
• a I b : «a et b sont indifférentes ou sensiblement équivalentes», I est une relation réflexive et

symétrique3.
• a P b : « a est préférée à b », P est irréflexive et asymétrique.
• a Q b : «a faiblement préférée à b » ou «b n’est pas préférée à a», Q est irréflexive et

asymétrique.
• a R b : «a est incomparable à b», dans le cas où les trois situations précédentes seraient
absentes. R est irréflexive et symétrique.
A partir de ces quatre situations de préférence, on peut former les regroupements de relations
suivantes :
• S (surclassement) : a S b «a est au moins aussi bon que b »4. S = P ∪ Q ∪ I.
• 〉 « préférence au sens large » : 〉 = P ∪ Q
• ∼ « Non-préférence » : ∼ = I ∪ R
Ces relations constituent une structure de préférence sur A si elles sont exhaustives et mutuellement
exclusives. Elles sont dites “exhaustives” si pour une paire d’actions quelconques une au moins est
vérifiée. Elles sont dites “mutuellement exclusives” pour une paire d’actions quelconques, deux
relations distinctes ne sont jamais vérifiées en même temps.
2
H est une relation sur A Ssi H ⊆ A×A = { (a, b) / a∈A et b∈A}.
3
on dit que H est :
- réflexive ssi a H a ∀ a ∈ A ;
- irréflexive ssi non(a Ha) ∀ a ∈ A ;
- symétrique ssi a H b ⇒ b H a ;
- asymétrique ssi a H b ⇒ non( b H a).
4
a (H ∪ T) b ⇒ a H b ou a T b.
30
3.3. Le concept de critère
Dans la formulation du problème, il est nécessaire de prendre en compte les conséquences des
actions potentielles. En général, les circonstances réelles de décision sont multiples et variées. A
partir d’évaluations des conséquences, nous pouvons comparer les actions en terme de préférence.
Devant un nombre généralement vague et lourd de conséquences, les préférences fournies par le
décideur ne sont pas toujours bien définies et stables.
Nous appellerons critère une fonction réelle g qui permet de déterminer le résultat de la
comparaison de tous les paires d’actions de sorte que :
Si (g(a) = g(b)), alors l’action a est indifférente à l’action b selon le point de vue modélisé par
le critère g, et on note : a Ig b.
Si (g(a) > g(b)), alors l’action a est strictement préférée à l’action b selon le point de vue
modélisé par le critère g, et on note : a Pg b.
Si on regroupe les deux situations précédentes, on aura :
Si g(a) ≥ g(b), alors l’action a est au moins aussi bonne que l’action b, selon le point de vue
modélisé par le critère g, et on note : a Sg b.
En pratique le modèle précédant ne reflète pas en général la réalité parce que les petits écarts positifs
(g(a) - g(b)) ne peuvent pas être considérés comme des préférences strictes. L’exemple de la tasse
de café montre les limites de ce modèle (Luce, 1956). Afin de remédier à ces inconvénients, nous
introduirons deux seuils de discrimination pg et qg, avec pg ≥ qg, et nous aurons le modèle de
préférence suivant :
•g(a) - g(b) ≤ qg ⇔ a Ig b
• g(a) - g(b) > p g ⇔ a >g b
• qg < g(a) - g(b) < pg ⇔ a Qg b
Les fonctions q g et pg sont appelées respectivement “seuil d’indifférence” et “seuil de préférence”.

On dit que le critère g est un :
. vrai critère si qg = pg = 0 ;
. pseudo-critère si qg ≠ 0 et p g ≠ 0 ;
. quasi critère si qg = pg ≠ 0 ;
. pré-critère si qg = 0 et p g ≠ 0.
La structure associée à (Ig, Qg, >g) est nommée “pseudo-ordre” (Roy et Vincke, 1984, 1987 ;
Vincke, 1988).
31
La structure associée à (Ig, >g) porte le nom de “quasi-ordre”, (Jacquet lagrèze, 1975 ; Fishburn,
1977 ; Vincke, 1978 ; Roubens et Vincke 1985 ; Doignon, 1988 ; Abbas, 1994 ; Pirlot et Vincke,
1997).
3. Analyse monocritère et multicritère

La résolution d’un problème de décision peut se faire par deux types d’analyses : multicritère et
mono-critère. Cette dernière est appliquée lorsque le problème de décision dépendra d’un seul
critère (ce type de problème est simple dans le sens où il est mathématiquement bien posé). Ceci
peut être dû à la nature même du problème, comme par exemple dans le cas des problèmes
d’optimisation des circuits digitaux V.L.S.I C.M.O.S dans lesquels la solution recherchée doit
minimiser la dimension du circuit (le seul critère à prendre en considération est les dimensions des
grilles des transistors du circuit) (cf. Baba-Ali, Belacel et Kheder, 1991). Il peut aussi s’agir d’un
problème multicritère transformé en problème monocritère, comme dans le cas des méthodes de
l’utilité multiattribut. Ce critère imposé est difficile à interpréter du fait de l’hétérogénéité et de la
diversité des conséquences prises en compte.
L’analyse multicritère consiste à construire des modèles qui traitent les problèmes de décision en
tenant compte de plusieurs critères. Chaque critère traite un ensemble de conséquences homogènes.
Il est difficile de trouver une solution unique parce qu’il est rare qu’il n’y ait pas de conflit entre les
critères.
L’analyse multicritère consiste à prendre appui sur une famille cohérentes de critères F={g1,g2,...,
gn} construite à partir d’un ensemble de conséquences.
A propos de la définition d’une famille cohérente de critères ainsi que les tests opérationnels pour
vérifier qu’une famille de critères est cohérente nous renvoyons le lecteur aux travaux de Roy
(1985) ; Bouyssou (1990) ; Bouyssou et Roy (1993).
L’évaluation (ou la performance) de chaque action de A = {a1, a2, ..., an} sur une famille de critères
F est donnée par gj(ai). Ces évaluations peuvent être résumées par le tableau 2.1.
g1 G2 ........... gj ............. gn
a1 g 1(a1) g2(a1) ........... g j(a1) ............. gn(a1)
a2 g 1(a2) g2(a2) ........... g j(a2) ............. gn(a2)
.... ............ ........... ........... .......... ............. ...........
ai g 1(ai) g2(ai) ........... g j(ai) ............. gn(ai)
.... ............. ............ ........... ............. ............. ............
am g 1(am) g2(am) ........... g j(am) ............. gn(am)
Tableau 2.1. Tableau de performances
4. Problématiques de référence
La mise en évidence de façon systématique et formalisée des informations relatives à l’ensemble des
actions de A et de leurs conséquences est appelée “problématique de description”. Celle -ci
terminée, on s’intéressera à la manière de juger les actions. Comme l’a souligné Bana e Costa, il
32
existe deux types de jugements : les jugements absolus et les jugements relatifs (Bana e Costa,
1993).
Un jugement absolu porte sur une seule action de l’ensemble A, en la comparant avec des actions de
référence (ou prototypes), indépendamment des autres actions de A. Par exemple, «la tumeur est
maligne » constitue un jugement absolu.
Le jugement relatif quant à lui, porte sur au moins deux actions de l’ensemble A, soit en les
comparant les unes avec les autres dans le but de choisir la meilleure, soit en les rangeant de
meilleure au pire (ou le contraire). Par exemple, «l’étudiant a est meilleur que l’étudiant b» constitue
un jugement relatif.
Il n’existe aucun lien entre un jugement absolu et un jugement relatif. Dans une classe, où la meilleure
note est par exemple de 5 sur 20, on jugera que le meilleur étudiant est mauvais. Le premier
«meilleur » est un jugement relatif alors que le jugement «mauvais » est un jugement absolu.
Cette problématique d’évaluation contient trois autres problématiques décisionnelles, qui sont :
Problématique du choix (P. α ) : elle consiste à sélectionner les meilleures actions. Cette
problématique cherche un ensemble aussi réduit que possible, contenant la ou les meilleures actions
(voir figure 2.1).
A
a. b. t. v. b. x.
d. k. x. l. k.
A l’ensemble des actions A’ actions sélectionnées
Figure. 2.1. Problématique du choix (P.α )
Problématique du rangement (P. γ ) : elle consiste à ranger les actions selon un ordre de préférence.
Cette problématique cherche à obtenir un préordre complet ou partiel sur l’ensemble A, c’est-à-dire
un ordre complet ou partiel entre les classes d’équivalences. Etant donné qu’il est difficile de
comparer certaines actions entre elles, l’ordre obtenu entre les classes est souvent partiel (voir figure
2.2).
33
t. b. f.
s. n. l.
n. d. g. a.
k. s. f. t. c.
w. b. l. a.
c. k.
w.
d. g.
Figure. 2.2. Problématique du rangement (P.γ )
Problématique du tri (P. β ) : elle consiste à affecter les actions à des catégories (ou classes)
prédéfinis. Cette problématique affecte les actions à des catégories en examinant leur valeur
intrinsèque (voir la figure 2.3).
o. a. C1
A
z. C2
d. s. n. o. z.
r. t. w. x.
a. m.
r. x. C3
d.
n. x. C4
r. m. C5
34
Figure. 2.3. Problématique du tri (P. β )
La problématique du tri peut être soit ordinale, dans le cas où les classes seraie nt complètement
ordonnées soit nominale dans le cas où il serait difficile d’établir un ordre entre les catégories. Cette
problématique sera l’objet de notre travail.
En conclusion, la classification des problèmes d’aide multicritère à la décision est

illustrée par le schéma suivant :
Problématique de
description
Problématiques d’évaluation
Problématique Problématique
d’évaluation
absolue d’évaluation
relative
Problématique
du choix
Problématique
du tri nominal
Problématique
du tri ordinal Problématique
du rangement
Figure. 2.4. Classification des problèmes d’aide à la décision
35
5. Problématique du tri (P.β)
5.1. Définition
Le décideur est parfois confronté à des problèmes d’évaluation absolue. Dans ce cas, l’homme
d’étude peut opter pour la problématique du tri. Cette dernière, consiste à poser le problème en
terme d’affectation de chaque action de A (ou d’une action isolée) à une ou plusieurs catégories
(minimum deux). Ceci se fait à travers un examen de la valeur intrinsèque de l’action en se référant à
des normes préétablies. Roy (1978) a proposé la définition de base de la problématique du tri
comme suit : “La problématique du tri P.β consiste à poser le problème en terme de tri des
actions par catégories, celles-ci étant conçues relativement à la suite à donner aux actions
qu’elles sont destinées à recevoir, c’est à dire à orienter l’investigation vers la mise en
évidence d’une affectation des actions de A à ces catégories en fonction de normes portant
sur la valeur intrinsèque de ces actions et ce compte tenu du caractère révisible et/ou
transitoire de A ; cette problématique prépare une forme de recommandation ou de simple
participation visant :
soit à préconiser l’acceptation ou le rejet pour certaines actions, d’autres pouvant donner lieu
à des recommandations plus complexes compte tenu de la conception des catégories ;
soit à proposer l’adoption d’une méthodologie fondée sur une procédure d’affectation à des
catégories de toutes les actions convenant à une éventuelle utilisation répétitive et/ou
automatisée”.
Dans le cas où l’action ne vérifie pas les normes ou les règles d’affectation, elle sera affectée à une
classe à part connue sous l’appellation “classe poubelle”. En plus, une action peut être affectée à
plusieurs classes ; on parle alors d’une “multi-affectation”.
5.2. Différents types de la problématique du tri
On distingue principalement deux types du tri :
Les cas où les catégories sont ordonnées et sont caractérisées par une séquence d’actions de
référence limite. Chacune de catégories est représentée par deux familles d’actions de référence, une
inférieure (constituant la borne inférieure) et une supérieure (constituant la borne supérieure). Cette
classe de problématique est connue sous le nom de la “problématique du tri ordinal” (ou
“segmentation multicritère”). Parmi les exemples de problèmes traités par la problématique du tri
ordinal, on peut citer :
l’octroi de crédits, où les actions sont les dossiers des demandeurs de crédits et les catégories sont
les différentes classes de décisions : “Crédit accordé immédiat” ; “crédit plutôt favorable” ; “crédit
défavorable” ; “crédit refusé”.
l’évaluation des étudiants, les actions représentent les étudiants et les catégories sont les différentes
mentions : “très bon” ; “bon” ; “assez bon” ; “plutôt bon” ; “mauvais” ; “plutôt mauvais” ; “très
mauvais” ; “incertain”.
36
Les cas où les catégories ne sont pas ordonnées et sont caractérisées par une ou plusieurs actions
types (actions de référence centrale ou prototypes). Cette classe de problématique est connue sous
le nom de la “problématique du tri nominal” (ou “discrimination multicritère”). Parmi les exemples de
problèmes traités par la problématique du tri nominal, on peut citer :
le diagnostic médical ou de défaillances des machines : les actions sont caractérisées par les
symptômes présents chez le patient (ou chez une machine) et les catégories sont représentées par la
symptomatologie typique d’une pathologie (ou d’une panne).
la gestion du personnel : problèmes d’affectation ou de réaffectation du personnel d’une entreprise.

Les classes constituent les différents départements et sont représentées par les qualifications
typiques. Les actions sont caractérisées par les qualifications d’une personne.
Dans la suite de nos travaux, tous les problèmes d’affectation caractérisés par les actions de
référence limites seront considérés comme des problèmes de tri ordinal tandis que les problèmes
caractérisés par les actions de référence type (ou prototypes) seront considérés comme problèmes
de tri nominal.
5.3. Différentes phases de la problématique du tri
En général, pour résoudre les problèmes de tri, on suit les deux phases suivantes :
Phase I : Modélisation de catégories
Les catégories sont conçues pour recevoir des actions potentielles, conformes aux normes
d’affectation (on entend par norme d’affectation les actions de référence et la procédure
d’affectation). Cette phase est distinguée par deux étapes l’une de structuration et l’autre de
validation :
• Etape I : Structuration
Dans cette étape les différentes actions de référence ainsi que leurs paramètres (critères, seuils,
coefficients d’importance,...) sont tirés à partir des connaissances disponibles au préalable (formées
d’un ensemble d’exemples et/ou un ensemble de règles logiques) et généralement donnée par le
décideur.
• Etape II : Validation
Il s’agit de valider ou inférer les paramètres trouvés dans l’étape précédente à travers les exemples
d’affectation donnés par le décideur. Pour cela, on utilise l’une des deux techniques suivantes :
Technique directe : elle consiste à inférer directement les paramètres à travers un ensemble
d’exemples d’affectation. Avec l’intervention du décideur, on opère selon l’organigramme présenté
par la figure 2.5.
37
Structuration
Choix d’un ensemble

A’⊂ A exemples
Correction des paramètres par

le décideur
Affecter les actions de A’ aux

classes Ch
test *? non
oui
Validation
Test * : consiste à vérifier si les actions sont correctement affectées ou non.
Figure 2.5. Schéma général de validation interactive
Technique indirecte : elle consiste à ajuster les paramètres sans l’intervention directe du décideur.
Cette technique nécessite un effort cognitif beaucoup plus faible que la première. On demande
seulement au décideur une information globale (étape de structuration), puis on utilise une méthode
automatique qui détermine directement les paramètres optimaux, en minimisant les erreurs
d’affectation. Cette méthode automatique utilise des procédures d’inférence. La technique indirecte a
été utilisée par Mousseau et Slowinski (1996) afin d’ajuster les paramètres d’une méthode du tri
ordinal Electre tri en se basant sur une information globale donnée par le décideur. Ces auteurs ont
essayé de déterminer les paramètres de référence en résolvant un programme mathématique.
38
Phase II : Affectation
Après la détermination des normes d’affectation, on procède à l’affectation des nouvelles actions
aux différentes catégories. La plupart des méthodes de classification supervisée utilisent ces mêmes
techniques de structuration/validation.
5.4. Méthodes d’affectation
La façon d’affecter les actions dépendra de type de la problématique du tri choisi.
5.4.1. Cas de la problématique du tri ordinal
Dans cette section nous exposerons la méthode de Yu (1992).
5.4.1.1. Modélisation des catégories
Les catégories sont modélisées par des actions de référence limites constituant les frontières inter-
catégories. Chaque catégorie est limitée par deux familles d’actions de référence : une inférieure et
une supérieure. De ce fait, la règle d’affectation est formulée de la manière suivante : toute action qui
est jugée comme étant entre les deux frontières d’une catégorie, doit être affectée à la catégorie en
question.
5.4.1.2. Procédures d’affectation
- Hypothèses du problème
Hypothèse 1 : Les catégories sont ordonnées et notées Ch, avec h variant de 1 à k. C1 est la
catégorie la plus basse et Ck est la catégorie la plus haute. C1 est délimitée par b 0 et b 1 ; C i par bi-1 et
bi (avec i variant de 1 à k).
Hypothèse 2 : Pour délimiter les catégories on introduit k+1 profils de référence tel que : g(bh)=
(g1(bh), g 2(bh), ..., g n(bh)), avec h variant de 0 à k, et vérifiant :
∀ j ∈ F : gj(b ) < g j(a) ; gj(b ) < gj(b ) ; gj(a) < gj(b )

1 h-1 h k
On note, l’action a est affectée à la catégorie C h par : a ∈ Ch.
La règle d’affectation est définie comme suit :
Si ((a S b h-1 et non (b h-1 S a)) et si (b h S a et non (a S b h ))), alors a ∈ Ch.
Hypothèse 3 : La catégorie Ch (h = 1, ..., k) est fermée en bas par l’action de référence b h-1,
autrement dit :
Si ( a S bh-1 et bh-1 S a ), alors a ∈ Ch.
- Propriétés fondamentales de la méthode du tri ordinal
Unicité : chaque action doit être affectée à une et une seule des catégories ordonnées.
39
Indépendance : l’affectation d’une action quelconque de A ne dépend pas de l’affectation des autres
actions.
Conformité aux profils limites : l’affectation des actions aux catégories doit être conforme à la
conception des actions de référence.
Formellement ;
si [{(a S bh-1) et (non(b h-1 S a))} et {(b h S a) et (non (a S bh ))} ], alors a ∈ Ch.
Monotonicité : Si l’action a’ domine l’action a (a’ ∆F a ), alors a’ doit être affectée à une catégorie
supérieure ou égale à celle de a. Formellement,
Si [(a’ ∆F a) et (a ∈ Ci)], alors a’ ∈ Cj avec j ≥ i.
Où : a’ ∆ F a ⇔ g j (a’) ≥ gj (a) ∀ g j ∈ F.
Homogénéité : l’affectation de l’action a à l’une des catégories se fait uniquement à partir d’une
relation de surclassement. De plus, toutes les actions de A qui vérifient les conditions suivantes
doivent être affectées à la même catégorie Ch (avec : j ≤ h ≤ k) :
a S bj-1, Non(bj-1 S a), b k R a ;
bk S a, Non (a S bk), a R b k-1 .
Stabilité : si on supprime l’action de référence b i, l’affectation des actions précédemment affectées

aux catégories autres que Ci et Ci+1 n’est pas modifiée. A l’inverse, les actions primitivement
affectées à l’une de ces deux catégories se trouvent après suppression de b i affectées dans la
catégorie délimitée par les actions de référence bi-1 et b i+1 .
- Procédures d’affectation
Les procédures proposées dans ce paragraphe, sont appliquées aux problèmes du tri ordinal et
vérifient les hypothèses citées ci-dessus. Elles se basent sur l’approche de surclassement qui est
fondée sur une logique compensatoire locale et non totale. De plus, elle accepte l’incomparabilité
dans la modélisation des préférences globales et n’impose pas la propriété de transitivité a priori.
Moscarola et Roy (1977) sont les premiers à utiliser l’approche de surclassement dans les méthodes
de classification supervisée. Les travaux de Massaglia et Ostanello (1991) et de Yu (1992) ont
permis l’application de l’approche de surclassement à plus de trois classes. Nous présenterons les
procédures de Yu (1992) suivantes:
a)- Procédure conjonctive
Pour pouvoir affecter une action a de A à une catégorie, il est nécessaire que l’action a surclasse
l’action de référence basse de la catégorie. Ceci se fait en commençant par comparer l’action a à
la plus haute action de référence bk (avec b k S a, ∀ a ∈ A). Ensuite on descend échelon par
échelon jusqu’à trouver la bonne catégorie.
40
Procédure :
1. Comparer successivement a et b i avec i variant de k à 0 ;
2. Soit b h la première action de référence telle que a S bh ;
3. Affecter a à la catégorie Ch+1 .
b)- Procédure disjonctive
Pour pouvoir affecter une action a à une catégorie, il est nécessaire que l’action de référence haute
soit strictement préférée à l’action a. Ici en commence par la première action de référence b0 (avec a
S b0) puis en grimpe les échelons.
Procédure :
1. Comparer successivement a et b i avec h variant de k à 0 ;
2. Soit bh la première action de référence telle que b h S a et non(a S

b h) ;
3. Affecter l’action a à la catégorie Ch.
5.4.2. Cas de la problématique du tri nominal
Les méthodes développées ainsi que les propriétés concernant cette classe de problématique seront
détaillées dans la prochaine partie.
41
PARTIE B
MÉTHODES
DÉVELOPPÉES
Cette partie est divisée en quatre chapitres. Elle est consacrée à la présentation des nouvelles
méthodes de classification multicritère dans le cadre de la problématique du tri nominal. Dans le
premier chapitre de cette partie (Chap. 3) nous présentons la description générale de la
problématique du tri nominal ainsi que les différentes propriétés des méthodes d’affectation. Le
deuxième chapitre (Chap. 4) détaille la procédure de choix dans le cadre de la problématique du tri
nominal PROCTN. Le troisième chapitre (Chap. 5) traite la procédure d’affectation floue dans le
cadre de la problématique du tri nominal PROAFTN. Enfin, le dernier chapitre de cette partie
(Chap. 6) est consacré à la présentation de la procédure de choix flou dans le cadre de la
problématique du tri nominal PROCFTN. Cette dernière procédure combine le principe du choix
utilisé dans la méthode PROCTN et les indices d’indifférence floue déterminés par la procédure
PROAFTN.
PROCTN
PROCFTN
PROAFTN
Figure. Interactions entre les méthodes développées
Abréviation
PROCTN : Procédure du choix dans le cadre de la problématique du tri nominal.
PROAFTN : Procédure d’affectation floue dans le cadre de la problématique du tri nominal.
PROCFTN : Procédure du choix flou dans le cadre de la problématique du tri nominal.

Description générale de la problèmatique du tri nominal
Chapitre 3 : Description générale de la problèmatique du tri nominal
1. Introduction
Nous considérerons dans la suite de nos travaux par problématique du tri nominal, tous les
problèmes d’affectation qui seront caractérisés par des actions de référence centrales (ou
prototypes). Ainsi, si on est devant un problème d’affectation dont les classes ont une signification
ordinale et qu’on ne parvient pas à les cerner par des actions de référence limites, on considérera ce
problème comme étant une problématique du tri nominal. Le diagnostic des tumeurs astrocytaires5 en
est un exemple où les classes représentent les degrés de malignité. Puisqu’on peut pas représenter
les classes par les actions de référence limites, alors le problème de diagnostic des tumeurs
astrocytaires sera traité comme une problématique du tri nominal.
2. Modélisation des catégories et procédures d’affectation
2.1. Modélisation des catégories
Les catégories sont modélisées par des actions de référence qui représentent les types d’actions liées
à chaque catégorie. Ces actions sont connues sous le nom actions de référence centrales ou
prototypes. Chaque catégorie Ch, h = 1,…, k, est représentée par Lh actions de référence
centrales, formant une famille Bh d’actions de référence centrales tel que : B h = b1h , b2h ,..., b Lhh { }
avec : L h ≥ 1 et h = 1, …, k .
La règle d’affectation, dénommée ci-après : règle TRIN, associée à une catégorie, est formulée de
la manière suivante :
“Toute action qui est jugée comme étant indifférente ou sensiblement équivalente à au moins
l’une des actions de référence centrales doit être affectée à la catégorie correspondante”
• Profils de référence
Les méthodes développées ont pour objet de résoudre les problèmes d’affectation
multidimensionnel. De ce fait, les actions seront représentées par une famille cohérente de critères ou
un ensemble d’attributs ; F = {gj / j = 1, ..., n} avec n ≥ 3. Chaque action de référence centrale est
définie par ses performances qui sont évaluées sur une famille de critères F. Ces performances
définissent un profil de référence qui est représenté par un vecteur de valeurs g(bih) :
∀ h ∈ {1, …, k} et ∀ i ∈ {1, ..., Lh} ; g(bi ) = (g1(bi ), g2(bi ), ..., gn(bi )).
h h h h
Où gj(bih) indique l’évaluation de l’action de référence i de la catégorie C h selon le critère gj. En

général, les performances g j(bih) sont définies à l’aide d’intervalles avec ou sans fonction
d’appartenance 6 (Balestra et Ostanello, 1994). Ces actions de référence doivent vérifier les deux
conditions suivantes :
5
Le problème du diagnostic des tumeurs astrocytaires (font partie des tumeurs cérébrales) sera traité dans la troisième partie de ce
travail.
6
La fonction d’appartenance est utilisée dans la théorie des ensembles flous pour refléter le degré d’appartenance d’un objet à une
classe en le graduant sur une échelle de 0 à 1. Pour plus de détails concernant les sous-ensembles flous nous renvoyons le lecteur à
consulter les références de Zadeh (1965), de Kaufmann (1975) et l’ensemble des revues Fuzzy sets and systems.
44
Condition 1. Les actions de référence d’une même catégorie sont incomparables7 entre elles : ∀ bih
∈ B et ∀ bj ∈ B on a : bi R bj .
h h h h h
Condition 2. Pour toute paire de catégories, au moins une action de référence d’une catégorie est
incomparable à toutes les actions de référence de l’autre catégorie. Formellement ;
∀ bj ∈ B , ∃ b i ∈ B on a : b i R b j ; ∀ h, l ∈ {1, ..., k}, ∀ i∈{1,...,L h} et ∀ j ∈{1,...,L l}

l l h h h l
2.2. Définition d’une méthode du tri nominal
La méthode du tri nominal traite les problèmes de classification multicritère qui consistent à affecter
les objets à des catégories représentées par des actions de référence centrales. Formellement on
peut définir la méthode du tri nominal par la définition suivante :
Définition 1. Soient
A = {a 1, a2, …, a m} ensemble d’actions ou d’alternatives à affecter ;
Ω = {C , C , …, C } ensemble fini de k catégories ou classes ;

1 2 k
Bh : ensemble d’actions de référence centrale de la classe Ch ;

k
B : ensemble de toutes les actions de référence centrale, on a : B = U B h ;
h =1
I : une relation d’indifférence utilisée pour comparer les actions à affecter et les actions de
référence centrale ;
f : une fonction de l’ensemble des actions A vers l’ensemble des parties de Ω , ℘ (Ω ) telle
que :
ai f(a i) ∈ ℘ (Ω )
f :A ℘ (Ω )
Une méthode de tri nominal est définie comme étant une fonction ℑ de quadruple (A, B, I, Ω ) vers
une relation R qui associe à chaque action a de A un élément de ℘ (Ω ). Donc on aura :
ℑ(A, B, I, Ω ) = {(ai, f(a i)), a i ∈ A}.
ℑ : (A, B, I, Ω ) R ⊆ A×℘ (Ω )
2.3. Principes fondamentaux d’une méthode du tri nominal
Pour qu’elle soit conforme à l’objectif de la problématique du tri nominal d’une part et à la
conception des actions de référence d’autre part la méthode du tri nominal doit satisfaire certaines
propriétés fondamentales. En se référant aux propriétés de la méthode du tri ordinal de Yu (Yu,
7
La définition de la relation d’incomparabilité est donnée dans la partie A, ch. 2, § 2.2.
45
1991) on a pu définir six principes fondamentaux qui caractérisent une méthode du tri nominal. Ces
principes sont regroupés sous forme d’axiomes définit ci- dessous :
Axiome 1 : l’universalité,
La méthode affecte l’action a à une, plusieurs ou aucune catégorie
Formellement ;
ℑ(A, B, I, Ω ) = {(aj, f(aj)), ∀ aj ∈ A} tel que (aj, f(aj)) est l’unique couple de R d’origine a j.
Axiome 2 : l’indépendance,
L’affectation d’une action de A ne dépend pas de l’affectation des autres actions.
Formellement ;
Soit A’ l’ensemble d’actions A auquel on a ajouté ou enlevé une action. L’axiome 2 est formulé
comme suit :
∀ a k ∈ A ∩ A’
ℑ (A, B, I, Ω ) = {(a j, f(a j)), aj ∈ A} f(ak) = f’(a k)
ℑ (A’, B, I’, Ω ) = {(aj, f’(a j)), aj ∈ A’}
Cet axiome indique que l’affectation de chacune des actions est fondée sur leur valeur intrinsèque.
C’est-à-dire l’ajout ou le retrait d’une action de A ne doit pas remettre en cause les affectations
opérées antérieurement.
Axiome 3 : la neutralité,
La permutation des actions de A ne doit pas modifier leur affectation.
Formellement ;
si on note, a σ(i) l’action obtenue en permutant l’indice de l’action i∈{1,…, m}, en indice σ (i) ≠ i et
σ(i) ∈ {1,…, m} et A’ la permutation de A ; on aura :
ℑ (A, B, I, Ω ) = {(a i, f(a i)), ai ∈ A}

f(ai) = f’(a σ(i)), ∀ i
ℑ (A’, B, I, Ω ) = {(aσ(i), f’(aσ(i))), a σ(i) ∈ A’}
46
Autrement dit, la méthode du tri ne dépend pas du label attaché à chaque action.
Axiome 4 : la nominalit é,
La permutation des numéros des catégories ou le changement de la numérotation des

catégories ne doit pas modifier l’affectation des actions de A.
Formellement ;
Si on note, Cσ(h) la catégorie obtenue en permutant l’indice h ∈ {1, …, k}, en indice σ (h) ≠ h et
σ(h) ∈ {1, ..., k}, et si on note aussi Ω ’ la permutation de Ω telle que : ∀ C ∈ Ω ⇒ C σ ∈ Ω ’, on
h (h)
aura :
(ak, Ch) ∈ ℑ(A, B, I, Ω )

(ak, Cσ(h)) ∈ ℑ (A, B’, I,Ω ’)
Cet axiome traduit le fait que les catégories sont numérotées d’une manière arbitraire.
Axiome 5. la conformité aux profils centraux,
L’affectation des actions de A aux catégories doit être conforme à la conception

des actions de référence centrales
Formellement ;
s’il existe au moins un prototype b ih de Bh tel que, a j I bih, alors on aura :
(aj, C h) ∈ ℑ(A, B, I, Ω ).
Autrement dit, une action est affectée à une catégorie si elle est indifférente à au moins une action de
référence, i.e., la méthode vérifie la règle d’affectation TRIN.
Axiome 6. la stabilité,
Le regroupement ou la division d’une catégorie en plusieurs catégories ne doit pas modifier

l’affectation des actions aux catégories non concernées.
Formellement ;
Si on note par Ω ’ = {C 1, C2, ..., CH, …, Ck} l’ensemble des catégories obtenu à partir de
l’ensemble Ω en regroupant les deux catégories C h1 et C h2 en CH, on aura :
(ai, C h1) ∈ ℑ(A, B, I, Ω )
et/ou (ai, CH) ∈ ℑ (A, B, I, Ω ’) 47
(ai, C h2) ∈ ℑ(A, B, I, Ω )

L’axiome de stabilité peut être aussi formulé comme suit :
si on note le regroupement de catégories C h et C h par CH, on aura :

1 2
[((a ∈ C h1 ) et/ou (a ∈ C h2 )) et (a ∉ C , ∀ l ≠ h1 et l ≠ h 2)] ⇔

l
[(a ∈ C ) et (a ∉ C , ∀ l ≠ H)]
H l
L’implication ⇒: représente le regroupement des catégories C h1 et C h2 en CH.
L’implication ⇐: représente la division de la catégorie CH en C h et C h . 1 2
Cet axiome est à vérifier à chaque étape afin d’éviter les contradictions. Par exemple, les leucémies
aiguës8 se divisent en deux groupes : les leucémies aiguës lymphoblastiques (LAL) et les leucémies
aiguës myéloblastiques (LAM). Selon la classification F.A.B9 les LAL se subdivisent en trois classes
(LAL L1, LAL L2 et LAL L3) et les LAM en six classes (LAM M1, LAM M2, LAM M3, LAM
M4, LAM M5 et LAM M6). En ignorant les subdivisions des deux groupes et en appliquant la
méthode, le patient est affecté par exemple à la classe LAL. Une fois la méthode réappliquée en
incluant les subdivisions, le même patient sera affecté à une sous-classe de LAL.
8
Le problème de classification de leucémie aiguës sera traité dans la partie C, chap. 7, de ce travail.
9
F.A.B : c’est une proposition de classification des leucémies aiguës élaborée en 1976 par le groupe Franco -Américano-Britanique.
48
Procédure de choix dans le cadre de la problématique du tri nominal
Chapitre 4 : Procédure de choix dans le cadre de la problématique du tri

nominal
1. Introduction
Dans ce chapitre nous allons présenter la procédure d’affectation multicritère PROCTN

(PROcédure de Choix dans le cadre de la problématique du Tri Nominal). Elle vise à aider le
décideur à choisir la ou les classes les plus plausibles à l’affectation de l’action a. Avant de présenter
la méthode nous préciserons quelles sont les données et les notations utilisées dans cette procédure.
2. Données et notations
A : l’ensemble des actions potentielles à affecter aux différentes catégories (cf. partie A,
chap. 2, §2.1).
Ω : l’ensemble de k catégories ou classes / Ω ={C , C , ..., C }.
1 2 k
B : l’ensemble des actions de référence centrale de la h catégorie avec Bh ={b ih / i

h ème
=1,...,L h et h = 1,...,k} et bih représente la ième action de référence centrale de la hème

catégorie.
K
B : l’ensemble de toutes les actions de référence centrale / B = U B h .
h =1
Â : l’ensemble des actions de A et de B / Â = A ∪ B.
Chaque action de Â est entièrement définie par ses performances évaluées sur une famille cohérente
de critères F = {g 1, g2, ..., g n} :
Pour h =1,…, k et i = 1,…, Lh on a
∀ a ∈ A, g(a) = (g1(a), g2(a), ..., gn(a)) ;
∀ bi ∈ B , g(b i )= (g1(bi ), g2(bi ), ..., gn(bi )).

h h h h h h
En pratique, les performances des actions de référence centrale sont généralement données sous
formes d’intervalles. Par exemple, dans le diagnostic médical de leucémies aiguës 10 les critères de
classification sont donnés sous forme d’intervalles et non pas sous forme de valeurs précises. Ainsi
pour chaque critère g j on associe à chaque action de référence centrale b ih l’intervalle [S1j(bih),
S2j(bih)] avec S1j(bih) ≤ S 2 j(bih), j=1,…,n, h=1,…,k et i=1,..,Lh. .
Pour chaque critère on définit une échelle notée E j. Cette dernière est un sous -ensemble de
l’ensemble des nombres réels R (E j ⊆ R) et ses éléments correspondent aux valeurs que peuvent
prendre les performances des actions de Â sur le critère gj. Dans cette section on supposera que les
critères sont quantitatifs.
3. Procédure d’affectation PROCTN
Le principe de la procédure PROCTN est de déterminer un sous-ensemble aussi réduit que possible
d’actions de référence centrale qui ont le meilleur écart avec l’action a à affecter. A partir de ce
sous-ensemble d’actions de référence centrale la décision concernant l’affectation d’une action à une
10
Le problème de la classification des leucémies aiguës sera traité dans la partie C de ce travail.
49
catégorie peut être prise en utilisant la règle majoritaire (comme celle utilisée dans la méthode des k
plus proches voisins11). La PROCTN détermine une matrice de performances des actions de
référence des catégories par rapport à l’action a à affecter. Chaque composante de la matrice
correspond à l’écart absolu (ou à la distance) entre l’action a à affecter et l’action de référence de la
catégorie donnée selon le critère g j. A partir de cette matrice de performances on va choisir les
actions de référence centrale qui sont les plus proches de l’action a à affecter (cf. figure 4.1).
Le schéma général de la méthode est présenté par la figure 4.1 ci-dessous :
Action a à Prototypes
affecter
Données d’entrées :
1. Performances de l’action a
2. Performances des prototypes
3. Poids d’importance des critères
Ecarts absolus entre a et les

prototypes des catégories
Relation de surclassement
entre les prototypes
Flux nets des prototypes
Déterminer l’ensemble de choix

sur l’ensemble de prototypes
Décision
d’affectation
Fin
Figure 4.1. Schéma général de la méthode PROCTN
11
La méthode des k plus proches voisins (k -ppv) est détaillée dans le chapitre I de la partie A (§3.1 .1).
50
3.1. Matrice de performances des actions de référence des catégories
La matrice de performances a pour but d’évaluer les actions de référence centrale à partir d’une
famille de critères. Les composantes de la matrice de performances sont déterminées de la manière
suivante :
Pour chaque critère comparer l’évaluation de l’action a à affecter avec l’évaluation de l’action de
référence centrale bih.
Déterminer la valeur de dijh(a, bih). Elle représente l’écart absolu entre la performance de l’action a à
affecter et la performance de l’action de référence bih selon le critère gj.
Cet écart absolu d ijh(a, bih) est formulé à partir des trois situations suivantes :
. Si S 1j(bih) ≤ g j(a) ≤ S2 j(bih), alors dijh(a, b ih) = 0 ;
. Si g j(a) > S2 j(bih), alors dijh(a, b ih) = gj(a) - S 2 j(bih) ;
. Si g j(a) < S1 j(bih), alors dijh(a, b ih) = S1 j(bih) - g j(a) ;
D’après ces situations, on détermine dijh(a, bih) comme suit :
dijh (a, bih) = max {0; S1j(bih) - g j(a); gj(a) - S 2 j(bih)} (4.1)
avec :
l’indice h, variant de 1 à k et représentant la hème catégorie ;
l’indice i, variant de 1 à Lh et représentant la ième action de référence de la hème catégorie ;
l’indice j, variant de 1 à n et représentant le j ème critère.
Le tableau 4.1 illustre la matrice de performances des actions de référence centrale. Les lignes
représentent les actions de référence centrale et les colonnes représentent les critères. L’intersection
d’une ligne avec une colonne correspond à l’évaluation dijh(a, bih).
g1 g2 ......... gj ......... gn
1
B1 d (a,b11)
1
11 d 21(a,b11)
1
......... d j1(a,b 11)
1
......... d n1(a,b11)
1
........ ............. ............ ......... .......... ....... .........

bL11 d 11(a,b1L1)
L1
d 21(a,b1L1)
L1
......... d j1(a,b1L1 )
2
......... d n1(a,b 1L1 )
2
.......... ........... .......... ......... ........... ......... .............

bih d i1h(a,bhi) d 2h(a,bhi)
i
......... dijh(a,b hi) ......... dinh(a,bhi)
.......... ................. ................. ......... ............... ......... ................
b kLk dLk1k(a,bkLk) dLk2k(a,bkLk) ......... d Lkjk(a,b kLk) ......... dLknk(a,bkLk)
Tableau 4.1. Matrice des performances des actions de référence centrale
Afin d’élaborer un système relationnel de préférence sur l’ensemble des actions de référence
centrale, la procédure PROCTN se base principalement sur la matrice des performances citée ci-
dessus et les informations préférentielles représentées par les poids d’importance des critères.
51
3.2. Relation de surclassement entre les actions de référence
En utilisant le tableau ci-dessus, la relation de surclassement entre les différentes actions de référence
centrale b ih peut être définie de la manière suivante :
h l h a l
Définition 4.1. L’action de référence bi surclasse l’action de référence bt “b i S bt ” si et
seulement si l’écart entre l’action a et l’action de référence b ih est au moins aussi bon que l’écart
entre l’action a et l’action de référence b tl sur l’ensemble des critères, i.e., l’action a est plus proche
de l’action de référence centrale b ih que de l’action de référence b tl.
La relation de surclassement est basée sur l’introduction des indices de surclassement partiels Sja.
Chaque indice indique si la proposition suivante selon le critère gj est vraie ou fausse : “L’écart entre
l’action ‘a’ à affecter et une action de référence centrale donnée est au moins aussi bon que
l’écart entre celle-ci et une autre action de référence centrale selon le critère gj”.
L’indice de surclassement Sja selon le critère gj est donné comme suit :
si d jh (a, bi ) ≤ d jl (a, b t )
i h t l
1
a h l
S j ( bi , b t ) = (4.2)
0 sinon
A partir de ces indices de surclassement par critère et en tenant compte de l’importance relative de
chaque critère, on détermine pour chacune des paires d’actions de référence (bih, b tl) l’indice de
surclassement global Sa( bih, btl) qui est déterminé comme suit :
n
Sa( bih, b tl) = ∑ (w j × S j(bi , bt )), h =1,…,k ; l = 1,…,k
a h l
(4.3)
j =1
i=1,…,Lh et t = 1,…,Ll
Où
Sa(bih, btl) traduit dans quelle mesure b ih est au moins aussi bon que btl sur l’ensemble des critères.
C’est-à-dire, dans quelle mesure le prototype bih est plus proche de l’action a que le prototype
btl ;
wj : est un nombre positif qui représente l’importance intrinsèque relative que le décideur attache au
n
critère gj. On suppose que les coefficients sont normalisés, i.e., ∀ g j ∈ F, w j ∈ [0,1], ∑w
j =1
j = 1 et
qu’ils sont évalués sur une échelle absolue [0, 1] en tenant compte des conventions suivantes :
wj = 0 signifie que le critère gj n’est pas pertinent pour l’affectation de l’action a
wj = 1 signifie que le critère gj est le seul critère pertinent pour l’affectation de l’action a.
3.3. Graphe de surclassement valué

Les relations de surclassement valuées sont représentées par un graphe orienté, dont les sommets
sont les éléments de l’ensemble B = {bih / h = 1, …, k et i =1, ..., Lh} et les arcs reliant bih
l a h l
avec bt ont une valeur S (bi , bt ).
52
3.4. Exploitation du graphe de surclassement
Le graphe de surclasement valué offre une information précieuse au décideur concernant les
distances entre l’action a à affecter et les différentes actions de référence centrale. Ce graphe est
utilisé pour choisir un sous-ensemble d’actions de référence (éventuellement réduit à une seule action
de référence centrale) qui ont le meilleur écart avec l’action a à affecter. Pour déterminer ce sous -
ensemble nous avons employé la méthode de flux proposée par Brans et Vincke en 1985.
3.5. Calcul de flux à partir du graphe de surclassement
En utilisant le graphe de surclassement on détermine pour chaque sommet du graphe les deux
flux suivants :
• flux sortant φ (bi ) = ∑x ∈B(S (bi , x))

+ h a h
• flux rentrant φ (bi ) = ∑x ∈B(S (x, bi )),

- h a h
φ (bi ) représente le nombre relatif d’actions de référence centrale surclassées par l’action de
+ h
φ (bi ) représente le nombre relatif d’actions de référence centrale qui surclassent l’action de
- h
Les deux flux déterminés ci- dessus permettent de calculer le flux net :
φ (bi ) = φ (bi ) - φ (bi )

h + h - h
(4.4)
Le flux net φ(bih) est appelé aussi le score de l’action de référence centrale bih par rapport à la
relation Sa. A partir de ce flux on détermine la relation S f comme suit :
∀ b i ∈ B et ∀ bl ∈ B : φ(bi ) > φ(bl )

h t
bih S f blt ssi h t
(4.5)
La relation S f va servir pour déterminer l’ensemble C(B) qui est donné par :
C(B)= {b ih ∈ B / ¬∃ b lt∈ B : blt Sf bih} (4.6)
Par conséquent le sous-ensemble C(B) contient les actions de référence centrale qui ont le plus
grand score et il peut être donné aussi comme suit :
C(B) = { bih ∈ B / φ(bih) = max[ φ(blt)] ∀ b lt ∈ B} (4.7)
A partir de l’ensemble C(B) on dégage les propriétés suivantes :
. ∀ bih ∈ C(B) et ∀ b lt ∈ C(B) on a : φ(bi ) = φ(bl ).

h t
. ∀ b ih ∈ C(B) et ∀ blt ∈ B / C(B) on a : φ(b i ) > φ(bl ).

h t
C(B) contient l’ensemble des prototypes les plus proches de l’action a à affecter. Ainsi, la procédure
PROCTN est une généralisation de la méthode des k plus proches voisins (k-ppv) (Cover et Hart,
1967 ; Dasarathy, 1991). Ceci peut s’expliquer par le fait que le nombre k des plus proches voisins
53
est déterminé directement par la procédure PROCTN, ce qu’il n’est pas le cas dans la méthode des
k-ppv où le nombre k est déterminé a priori. Dans la procédure PROCTN le nombre k des plus
proches voisins correspond au cardinal de l’ensemble C(B), i.e., le nombre de prototypes
appartenant à l’ensemble C(B). Ceci constitue un avantage de la procédure PROCTN par rapport à
la méthode des k-ppv.
3.6. Affectation des actions aux différentes catégories
Pour affecter une action a à une catégorie on utilise l’une des deux règles suivantes :
On applique la même règle d’affectation utilisée par la méthode des k-ppv, en affectant l’action a à
la classe majoritaire parmi les k meilleurs prototypes (cf. Dasarathy, 1991).
L’ensemble C(B) contient l’ensemble de prototypes qui ont le meilleur écart avec l’action a. Donc
les classes qui contiennent ces prototypes sont les plus plausibles pour l’affectation. Ainsi, l’action a
sera affectée aux classes qui sont représentées par les prototypes appartenant à C(B).
4. Analyse des propriétés de la procédure PROCTN
La procédure PROCTN utilise les flux nets pour déterminer un sous-ensemble de prototypes qui
ressemblent le plus à l’action a à affecter. Ce flux net déterminé sur l’ensemble de prototypes n’est
rien d’autre que le score de Borda calculé sur les relations S a (Marchant, 1996). Le flux net est
utilisé pour déterminer une fonction de choix sur l’ensemble de prototypes afin de sélectionner les
meilleurs parmi ceux-ci pour chaque action a à affecter. On appelle fonction de choix sur A, toute
fonction C qui, à chaque sous-ensemble non vide B de A, associe un sous-ensemble non vide C(B)
de B. A partir d’une relation H définie sur un ensemble A on peut associer une fonction de choix C,
afin de déterminer le sous-ensemble C(B, H), comme par exemple :
C(B, H) = {a ∈ B / ¬∃ b ∈ B avec b H a} (4.8)
Définition 4.2. Une relation H est dite acyclique si et seulement si
[a1 H a2, a2 H a3, …, an-1 H a n] ⇒ non(an H a1), ∀ a 1, a2, …, a n ∈ A
Proposition 4.1. Soit H une relation binaire définie sur A, alors
H est asymétrique et transitive ⇒ H est acyclique.
Proposition 4.2. Soit le sous-ensemble C(B, H) déterminé à partir de (4.8), alors C(B, H) ≠ ∅ ⇔
H est acyclique.
Preuve. (Bordes, 1979).
Pour plus de détails concernant les fonctions de choix ainsi que leurs analyse et rationalisation, le
lecteur peut se référer aux travaux de Sen (1971, 1977), Fishburn (1977, 1990) et de Bordes
(1983).
Soit Sf une relation binaire définie par (4.5). Nous avons :
54
Proposition 4.3. La relation Sf est une relation asymétrique et transitive sur B. Elle est donc
acyclique.
Preuve. Immédiate à partir de la définition de la relation Sf (4.5)
Proposition 4.4. L’ensemble C(B, S ) constitue un ensemble de choix, i.e., C(B, S ) ≠ ∅ .

f f
Preuve. Immédiate à partir de la proposition 4.2 et 4.3.
Par conséquent, la relation Sf est utilisée pour déterminer une fonction de choix C qui associe un
sous-ensemble C(B) = C(B, Sf) calculé à partir de la formule (4.6). Donc, l’ensemble C(B, Sf) est un
ensemble de choix de B défini par la fonction de choix C.
Propriété. D’après la proposition 4.4, la procédure PROCTN affecte une action a à une ou
plusieurs catégories. Donc l’axiome 1, qui correspond à l’universalité (cf. chapitre 3) n’est pas
complètement vérifié, du fait que la PROCTN ne tient pas en compte les cas qui ne sont pas affectés
à aucune catégorie.
Proposition 4.5. PROCTN vérifie le principe de l’indépendance 12.
Preuve. PROCTN détermine C(B) à partir de la matrice de performances des actions de référence
centrale. Donc l’affectation d’une action aux différentes catégories se fait uniquement en comparant
l’action a à affecter avec les actions de référence centrale. D’où le principe d’indépendance est
vérifié.
Proposition 4.6. PROCTN vérifie le principe de la neutralité13.
Preuve. Elle est vérifiée par les conséquences de la proposition 4.5 et par la définition de la relation
Sa.
Proposition 4.7. La procédure PROCTN vérifie le principe de la nominalité 14.
Preuve. Pour tout h ∈ {1,…, k} on a :
φ(bi ) > φ(bl ) ⇔ φ(biσ ) > φ(blσ ) avec : bi ∈ C ⇔ b iσ ∈ Cσ ,

h t (h) (t) h h (h) (h)
où : Cσ(h) la catégorie obtenue en permettant l’indice de la catégorie Ch, h ∈ {1,…,k}, en indice σ (h)
≠ h et σ(h) ∈ {1, …, k}.
Ce qui implique que :
bih ∈ C(B) ⇔ b iσ(h) ∈ C(B).
D’où le principe de nominalité est vérifié.
12
Les principes d’une méthode du tri nominal sont donnés dans le chapitre 3 de la partie B.
13
14
55
Proposition 4.8. La procédure PROCTN vérifie le principe de la stabilité 15, en appliquant la règle
d’affectation 2.
Preuve. Soient Ch1, Ch2 ∈ Ω .
a ∈ Ch1 et/ou a ∈ Ch2 ⇔ b ih1 ∈ C(B) et/ou b ih2 ∈ C(B)
Soit CH la catégorie qui regroupe Ch1 et C h2,
donc les actions b ih1 et bih2 représentent les actions de référence centrale de la classe C H.
Cela entraîne que
bih1 ∈ C(B) et/ou bih2 ∈ C(B) ⇔ a ∈ C H.
Par conséquent, PROCTN respecte le principe de stabilité.
15
56
Procédure d’affectation floue dans le cadre de la problématique du tri nominal
Chapitre 5 : Procédure d’affectation floue dans le cadre de la

problématique du tri nominal16
1. Introduction
La procédure PROCTN, développée dans le chapitre précédent, fournit un sous-ensemble d’actions

de référence les plus proches de l’action a à affecter. Cependant, la PROCTN ne permet pas
d’affecter directement les actions potentielles aux différentes classes. Ceci nous a incité à développer
une nouvelle méthode nommée PROAFTN (PROcédure d’Affectation floue dans le cadre de la
problématique du Tri Nominal), elle fait partie des méthodes de classification supervisées. Et elle
permet de déterminer les relations de ressemblance floues en généralisant les indices (indices de
concordance et de discordance) utilisés dans la méthode ELECTRE III (Roy, 1978). Ensuite on
déduit la (les) classe(s) d’affectation pour l’action a (cf. figure 5.1).
En général, les méthodes de classification, décrites aux chapitres 1, utilisent soit l’apprentissage
inductif soit déductif mais pas el s deux à la fois. Par contre, PROAFTN peut combiner les deux
types d’apprentissage à la fois. En outre, la majorité des méthodes de classification considèrent des
degrés d’appartenance aux classes égaux à 0 ou à 1, on parle d’une affectation nette. En revanche,
PROAFTN détermine des degrés d’appartenance aux classes, qui sont des éléments de l’intervalle
[0,1], on parle d’une affectation graduelle. Par ailleurs, elle utilise l’approche du système relationnel
de préférence (Roy, 1985 et Vincke, 1988) et est caractérisée par les trois étapes suivantes :
Etape 1 : “Modélisation des préférences partielles”
Elle consiste à élaborer à partir d’un tableau de performances17, un profil de relations binaires
<Hj>j=1...n. Ce profil permet de rendre compte des préférences partielles selon chaque critère de la
famille F. Dans cette étape les relations seront modélisées par des sous -ensembles flous afin de
prendre en compte l’imperfection de l’information qui affecte les évaluations des actions.
Etape 2 : “Agrégation multicritère en un système relationnel de synthèse”
Elle consiste à dégager sur la base des profils < H j> j=1...n et d’un ensemble de paramètres (seuils de
veto et coefficients d’importance) un modèle relationnel global sous la forme de relations globales.
Pour cela on déterminera des opérateurs d’agrégation M définis comme suit:
H(a, b) = M(H1(a, b), H2(a, b), ..., Hn(a, b), ψ )
où ψ représente un ensemble de paramètres utilisés pour déterminer la relation H.
Etape 3 : “Exploitation de système relationnel de préférence”
Dans cette étape une procédure d’affectation est élaborée en utilisant les relations globales
déterminées dans l’étape 2.
16
Ce chapitre est en partie basé sur les résultats présentés dans Belacel (1998 ; 1999).
17
Cf. Partie A, Chap. 2 ; § 3.
57
En général, les préférences sont modélisées en utilisant deux approches opérationnelles (Perny,
1992) : la première approche consiste à traiter des données nettes à partir de l’information
initialement floue (dissolution du flou ou “défuzzification”). La deuxième consiste à traiter
l’information floue pour fournir un résultat flou également.
La première approche est moins intéressante dans la mesure où elle comporte une part arbitraire
d’information. Ceci est dû à la construction d’un modèle net à partir d’information floue. Pour pallier
cet inconvénient nous appliquerons la deuxième approche qui permet d’obtenir des résultats flous en
sortie en traitant les informations floues.
Avant d’appliquer cette dernière approche dans le cadre de notre problématique ; Nous introduirons
brièvement la théorie des sous-ensembles flous.
2. Sous-ensemble flou
2.1. Généralités
Le concept de sous -ensemble flou “fuzzy set” a été introduit par Zadeh (1965). Il peut être défini de
la manière suivante :
Etant donné un ensemble de référence X, il est possible de désigner les éléments de X qui
appartiennent ou non à l’ensemble A. Nous représentons l’appartenance ou non d’un élément de X à
l’ensemble A par une fonction caractéristique µA. Cette dernière prend la valeur 1 pour les éléments
de X qui appartiennent à A et la valeur 0 pour ceux qui ne l’appartiennent pas :
µA : X {0,1}
x µA (x) avec :
1 si x∈A
µA(x )=
0 si x∉A
Parfois l’appartenance des éléments de X à A n’est pas nette. C’est-à-dire un élément de X peut
appartenir à A avec un certain degré. Dans ce cas, la fonction indicatrice est remplacée par la
fonction d’appartenance qui prend ses valeurs entre 0 et 1.
Définition 5.1. Un sous-ensemble flou A de X est défini par une fonction d’appartenance qui
associe à chaque élément x de X le degré µA(x), compris entre 0 et 1, avec lequel x appartient à A :
µA : X [0,1]
x µA(x)
L’ensemble vide défini par la fonction d’appartenance µ∅(x) = 0, ∀ x ∈ X.
58
L’ensemble de référence X est représenté par la fonction d’appartenance µX(x)=1,∀x∈X.
Définition 5.2. Soit A un sous-ensemble flou, on appelle support de A l’ensemble défini par :
supp(A) = { x ∈ A / µA(x)≠ 0}.
supp(A) est l’ensemble des éléments de X qui appartiennent au moins un peu à l’ensemble A.
Définition 5.3. On appelle hauteur de A notée h(A) le plus haut degré avec lequel un élément de X
appartient à A et définie par : h(A) = Supx ∈ X (µA(x)).
Définition 5.4. On appelle noyau de A noté noy(A) l’ensemble de tous les éléments de X qui
appartiennent de façon absolue à A et défini par :
noy(A) = { x ∈ X / µA(x) = 1 }.
Propriété 5.1. noy(A) ≠∅ ⇔ h(A) = 1.
Définition 5.5. Soit A un sous-ensemble flou de X et λ ∈ ]0,1] on appelle respectivement λ-coupe

et λ-coupe stricte les ensembles A ≥λ={x ∈ X / µA(x) ≥ λ} et A >λ={x ∈ X / µA(x) > λ}
Définition 5.6. Soient A et B deux sous-ensembles flous de X, on dit que A est inclu dans B (A ⊆
B) au sens de Zadeh si et seulement si µA(x) ≤ µB(x).
En utilisant l’inégalité précédente on peut définir l’égalité de deux sous-ensembles flous A et B par :
A=B ⇔ µA(x) = µB(x).
2.2. Connecteurs logiques flous
La notion des sous-ensembles flous est une généralisation de la notion d’ensemble classique de X.
De ce fait, on est conduit à introduire des opérations sur les sous -ensembles flous qui sont
équivalentes aux opérations classiques sur les ensembles. Dans la théorie des sous -ensembles
classique (nette) on définit l’intersection (∩), l’union (∪) et la complémentation ( c ) comme suit :
∀ A, B ⊆ X, A ∩ B = {x ∈ X / x ∈ A ∧ x ∈ B}
A ∪ B = { x ∈ X / x ∈ A ∨ x ∈ B}
Ac = { x ∈ X /  x ∈ A }
Ces opérations ensemblistes sont déterminées de manière unique. Cette unicité est due au fait que
ET «∧ » , OU «∨ » et NON « » prennent une des deux valeurs VRAI ou FAUX. Ce qui revient à
utiliser une fonction de valuation ν tel que pour chaque proposition P on a :
ν(P) = 1 ssi P est vrai,
ν(P) = 0 ssi P est fausse.
A l’aide de cette valuation, on représente les opérations des sous-ensembles flous comme suit :
59
ν(x ∈ A ∩ B) = ν ((x ∈ A) ∧ (x ∈ B)),
ν(x ∈ A ∪ B) = ν ((x ∈ A) ∨ (x ∈ B)),
ν(x ∈ A ) =  ν(x ∈ A).

c
Avec : (∧ ), (∨ ) et ( ) correspondent respectivement aux connecteurs logiques de conjonction (ET),

de disjonction (OU) et de négation ( c ).
Dans ce qui suit, nous donnerons une généralisation de ces opérateurs dans le cas d’évaluation floue
(ν (P) ∈ [0,1] ) en préservant la structure de la théorie classique.
Les opérations d’intersection, d’union et de négation ont été définies par Zadeh (1965) de la façon
suivante :
- L’intersection de sous-ensembles flous A et B est définie par :
µA∩B(x) = min {µA(x), µB(x)}, ∀ x ∈ X
- L’union de sous-ensembles flous A et B est définie par :
µA∪B (x) = max {µA(x), µB(x)}, ∀ x ∈ X
- La négation d’un sous-ensemble flou A est définie par :
µAc(x) = 1 - µA(x), ∀ x ∈ X
Ces opérations vérifient tous les propriétés classiques à l’exception des lois du tiers exclus (A∪ Ac =
X) et de non-contradiction (A ∩ A c = ∅ ).
Si on veut que les propriétés de lois de tiers exclus et de non-contradiction soient vérifiées, il faut
utiliser les opérateurs suivants :
- L’intersection de sous-ensembles A et B est définie par :
µA∩B(x) = max { µA(x)+ µB(x)-1,0}, ∀ x ∈ X
- L’union de sous-ensembles A et B est définie par :
µA∪B (x) = min { µA(x)+ µB(x),1}, ∀ x ∈ X
- La négation d’un sous-ensemble flou A est définie par :
µAc(x) = 1 - µA(x), ∀ x ∈ X
Dans ce cas, la propriété de la distributivité n’est pas vérifiée.
En général, il est préférable de définir l’opérateur d’intersection comme une norme triangulaire (t-
norme). L’opérateur de complémentation est défini par une fonction de négation (N). L’opérateur
d’union est défini par une conorme triangulaire (t-conorme).
60
Définition 5.7. Une norme triangulaire est une fonction
T : [0,1]× [0,1] à [0,1 ] qui vérifie pour tous x, y, z et t de [0,1 ] les propriétés suivantes :
i)- commutativité : T(x, y) = T(y, x)
ii)- associativité : T(x, T(y, z)) = T(T(x, y),z)
iii)- monotonie : T(x, y) ≤ T(z, t) si x ≤ z et y ≤ t
iv )- élément neutre : T(x,1) = x
Si à partir de deux sous-ensembles flous A et B de X, on construit un troisième sous-ensemble flou C

= A ∩T B défini comme suit : µC (x)=T(µA(x), µB(x)) où T est une t-norme quelconque vérifiant les
propriétés i) à iv) alors les propriétés suivantes sont vérifiées :
a- A’ ⊆ A ⇒ A’ ∩T B ⊆ A ∩T B
b- A ∩ T X = X
Exemple 1. La t-norme de Zadeh :
T(x,y) = min(x, y)
La t-norme du produit :
T(x,y) = x.y
La t-norme de Lukasiewicz
T(x,y) = max(x+y-1,0).
La t-norme faible :
T(x,y) = min(x,y) si max(x,y) = 1 et T(x,y) = 0 sinon.
Propriété 5.2.
Les puissances de T sont définies, en posant T1(x 1, x 2) = T(x 1, x2), par :
Tn(x 1, x 2, ..., xn) = T(T n-1(x1, x 2, ..., xn), x n+1) pour n ≥ 2 .
Définition 5.8. La t-norme T est dite :
(a) continue si T est une fonction continue sur l’intervalle [0,1],
(b) Archimédienne si T(x, x) < x pour tous x ∈ [0,1 ].
Exemple 2. La t-norme de Zadeh est continue et non archimédienne.
La t-norme faible est archimédienne et non continue
61
Les t-normes de produit et de Lukaziewicz sont continues et archimédiennes.
Définition 5.9. Une conorme triangulaire est une fonction V de [0,1]2 vers [0,1 ] vérifiée pour tous
x, y, z et t de [0,1] :
i’)- commutativité : V(x, y) = V(y, x)
ii’)- associativité : V(x,V(y, z)) = V(V(x, y), z)
iii’)- monotonie : V(x, y) ≤ V(z, t) si x ≤ z et y ≤ t
iv’)- élément neutre : V(x, 0) = x
Propriété 5.3.
Les propriétés de la monotonie et de l’élément neutre implique V(x,1) = 1.
Si à partir de deux sous-ensembles flous A et B de X, on construit un troisième sous-ensemble flou C

de X tel que C = A ∪ v B et qui est défini comme suit : µC (x)=V(µA(x), µB(x)) où V une conorme
triangulaire quelconque alors les propriétés suivantes sont vérifiées :
A’⊆ A ⇒ A’ ∪v B ⊆ A ∪v B (conséquence de (iii’))
A ∪v ∅ = A (conséquence de (iv’))
Exemple 3. La t-conorme de Zadeh :
V(x, y) = max(x, y)
La t-conorme de produit :
V(x, y) = x+y - x.y
La t-conorme de Lukasiewicz :
V(x,y) = min (x+y,1)
La plus forte t-conorme :
V(x,y) = max(x,y) si x+y <1 ou à 1 sinon,

1
Propriété 5.4. Les puissances n de V sont données en posant V (x1,x2) = V(x,y) par
Vn(x 1,x 2, ..., xn, xn+1 ) = V(Vn-1(x1, x 2, ..., xn), x n+1), n est un entier / n ≥ 2 .
Définition 5.10. La conorme V est dite :
(a) continue si V est une fonction continue sur l’intervalle [0,1],
(b) Archimédienne si V(x,x) > x pour tout x ∈[0,1].
62
Exemples 4. La t-conorme de Zadeh est continue et non archimédienne,
La plus forte t-conorme est archimédienne et non continue,
Les t-conormes de produit et de Lukasiewicz sont continues et archimédiennes.
Définition 5.11. Un opérateur de négation N est une fonction définie sur [0,1] à valeurs dans [0,1]
continue et strictement décroissante vérifiant : N(0) = 1 et N(1)=0. Elle est involutive si et seulement
si N(N(x))= x. N est aussi appelée une négation forte.
Exemples 5. N(x) = 1-x est une négation stricte et involutive dite négation de Zadeh.
N(x) = (1- x k)1/k est une négation stricte et involutive avec k ∈N *
N(x) = (1-x 1/k)k est une négation stricte et involutive avec k ∈N*.
La t-norme T et la t-conorme V sont dites duales pour la négation N si elles satisfont les relations
suivantes pour tout x et y de [0,1 ] :
N(T(x,y)) = V(N(x), N(y)) et N(V(x,y))= T(N(x),N(y)).
Définition 5.12. Le triplet (T, S, N) est appelé triplet de De Morgan si et seulement si T est une t-
norme, S est une t-conorme et N une négation stricte et involutive tel que :
T(x, y) = N(S(N(x), S(N(Y)))
Le triplet de DeMorgan est dit continu si T et V sont des fonctions continues sur l’intervalle [0,1].
La notion de triplet de DeMorgan (N, T, V) permet de généraliser les opérations de négation,

d’intersection et de l’union d’un ensemble classique dans le cas flou. Pour tout x ∈ X on a :
µAc(x) = N( µA(x) )
µA∩B (x) = T(µA(x), µB(x))
µA∪B (x) = V(µA(x), µB(x))
2.3. Relations binaires floues
La liaison entre deux éléments x et y peut être difficilement représentée par une relation nette parce
qu’elle est imprécise ou mal définie. Par exemple, la relation de proximité «x est plus proche que y »
est de nature imprécise. De ce fait pour décrire ces relations, on introduit des indices qui prennent
des valeurs entre 0 et 1 traduisant le degré de crédibilité de ces relations. Ces indices sont appelés
des relations binaires floues.
Définition 5.13. Nous appellerons relation binaire floue H définie sur A des sous-ensembles flous
µH du produit cartésien A tel que :
2
µH : A [0,1]
2
(a,b) µH(a,b).
63
Le tableau suivant résume les propriétés des relations binaires floues (Roubens et Vincke, 1985 ;
Fodor et Roubens, 1994).
Propriété Relation floue H∈[0,1]
Réflexive H(a, a) =1
Irréflexive H(a, a) =0
Symétrique H(a, b) = H(b, a)
Antisymétrique T(H(a, b),H(b, a)) = 0, a≠b
Asymétrique T(H(a, b),H(b, a)) = 0
Complet V(H(a, b),H(b, a)) = 1, a≠ b
Complète fortement V(H(a, b),H(b, a))=1
Transitive T(H(a, b), H(b, c)) ≤H(b, c)
Négativement transitive H(a, c) ≤ V(H(a, b),H(b, c))
Relation de ferrers T(H(a, b), H(c, d)) ≤ S(H(a, d), H(c, d))
Semi-transitive T(H(a, b),H(c, d))≤ S(H(a, d), H(c, b))
Tableau 5.1. Propriétés de relations floues
Une relation binaire H est dite :
- relation d’équivalence si H est réflexive, symétrique et transitive
- tournoi si H est asymétrique et complète
- préordre partiel si H est réflexive et transitive
- ordre partiel si H est antisymétrique et transitive
- ordre partiel strict si H est asymétrique et transitive
- ordre total(ordre linéaire) si H est un ordre partiel complet
- ordre faible si H est asymétrique et négativement transitive
- ordre d’intervalle si H est complète et de ferrers
- semi-ordre si H est un ordre d’intervalle semi transitive
3. La procédure PROAFTN
3.1. Introduction
La procédure PROAFTN utilise l’approche du surclassement de synthèse. Elle permet de résoudre

les problèmes d’affectation multicritère dans le cadre de la problématique du tri nominal (Belacel
1998; 1999). Les données et les notations utilisées dans PROAFTN sont les mêmes que celle
utilisées dans PROCTN. PROAFTN traite les problèmes de nature qualitatifs et/ou quantitatifs. Les
64
paramètres utilisés dans la procédure PROAFTN seront détaillés dans le prochain paragraphe. Le
schéma général de la méthode est présenté par la figure suivante :
Action a à affecter Prototypes
1. Performances de l’action a
2. Performances des prototypes
3. Poids d’importance des critères par catégorie
Indices de concordance partiels
Indice de concordance global
Indices de discordance partiels
Principe de
concordance et de
Indice de discordance global non -discordance
Relations d’indifférence floue entre

l’action a et les prototypes
Degré d’appartenance floue de l’action a

aux différentes catégories
Décision d’affectation
65
Figure 5.1. Schéma général de la procédure PROAFTN

3.2. Les paramètres utilisés dans PROAFTN
• Coefficients d’importance des critères
Compte tenu de l’aspect nominal des catégories, on introduit un nombre positif wjh pour déterminer
l’importance du critère g j. Ce nombre représente l’importance intrinsèque relative que le décideur
attache au critère gj de la catégorie Ch indépendamment des autres catégories. Nous sommes donc
devant une matrice de poids Wn×k où chaque composante wjh (j = 1, ..., n ; h = 1, ..., k) est
n
normalisée, c’est-à-dire w jh ≥ 0 et ∑ w jh = 1 pour h = 1,..., k.
j =1
On suppose que les wjh sont évalués sur une échelle absolue [0,1] avec les conventions suivantes :
- wjh = 0 signifie que le critère g j n’est pas pertinent pour l’affectation de l’action a à la
catégorie C h.
- wjh = 1 signifie que le critère g j est le seul critère pertinent pour l’affectation de a à la
catégorie C h (ce que signifie que les actions de référence de la catégorie C h sont définie
par un seul critère).
Pour plus de détails sur les évaluations des coefficients d’importance, nous renvoyons le lecteur aux
travaux de Bouyssou et Roy (1993).
• Seuils de discrimination
Dans la pratique, les performances des actions de référence centrales sont généralement données
sous forme d’intervalles (cf. Chap. 4, § 2). Ainsi, pour chaque critère gj, on associe à chaque action
de référence centrale b ih l’intervalle [S1j(bih),S2j(bih)] avec : S 1j(bih) ≤ S 2j(bih).
Et par conséquent, la règle d’affectation TRIN (cf. Chap. 3, § 2.1.) peut se formuler ainsi :
Si [(a I b1h) et/ou (a I b2h)……… et/ou (a I bLhh )], alors a ∈ C h.
L’indice d’indifférence global est déterminé par agrégation des indices d’indifférence partiels.
Chacun de ces indices indique si l’action a est indifférente ou non à l’action de référence bih selon le
critère gj. Cet indice est donné comme suit :
a Ij b ih ⇔ gj(a) ∈ [S1j(bih), S 2j(bih)] (5.1)
La façon la plus simple de vérifier la proposition (5.1) est de poser :

Si S1j(bih) ≤ gj(a) ≤ S 2j(bih), alors l’action a est indifférente à l’action de référence b ih selon
le critère g j.
Sinon l’action a n’est pas indifférente à l’action de référence
bih selon le critère gj.
66
Notons que, si au départ l’évaluation de l’action a est égale à S1j(bih) ou à S2j(bih), alors l’action a
sera donc indifférente à l’action de référence bih selon la règle (5.1). Cependant, vu l’imperfection de
l’information et la part arbitraire qui affectent les évaluations des actions, on pourrait bien évaluer
l’action a sur le critère gj par une performance g j(a) = S 1j(bih) - ε 1 ou gj(a) = S2j(bih) + ε2 où ε 1 et
ε2 sont deux nombres réels positifs qui prennent des valeurs très petites. Dans ce cas, l’application
de la règle (5.1) conduirait à transformer une situation d’indifférence en situation de non-indifférence
entre l’action a et l’action de référence bih selon le critère g j malgré le fait que cette variation est
insignifiante.
Afin de remédier à cet inconvénient, on introduit deux seuils de discrimination d +j(bih)≥ 0 et d-j(bih)≥
0 ; qui correspondent respectivement à deux fonctions de S2j (bih) et de S 1j (bih).
L’idée d’introduire deux seuils de discrimination (ou seuils d’appartenance à l’intervalle

[S 1j(bih), S 2j(bih)]) s’inspire d’une situation quotidienne. Il s’agit du passage du jour à la nuit
(crépuscule) et de la nuit au jour (aube). Ce passage ne se fait pas d’une manière nette mais d’une
manière plutôt floue. Par exemple si on fait varier une valeur t sur un axe du temps et si on prend
comme référence une journée j, on aura par exemple :
22 heures ≤ t ≤ 4 heures ⇔ correspondent à la nuit.
t ≥ 5 heures ou t ≤ 21 heures 15 minutes ⇔ correspondent au jour
Les seules périodes de t qui restent sont : 21 heures 45 mn < t < 22 heures et 4 heures < t < 5
heures qui correspondent respectivement au passage flou du jour vers la nuit (crépuscule) et de la
nuit vers le jour (aube).
Nous appliquons ce même phénomène dans notre problématique. Considérons que g j(a) = t et la
performance de b ih selon le critère gj correspond à la période de la nuit. g j(bih) = “la période de la
nuit”.
Formellement, l’utilisation des deux seuils de discrimination permet d’obtenir trois situations
comparatives des actions a et b ih selon un critère.
Si S1j(bih) ≤ gj(a) ≤ S 2j(bih), alors a est nettement indifférente b ih.
Si [g j(a) ≤ S 1j(bih) - dj-(bih) ] ou [g j(a) ≥ S 2j(bih) + d j+(bih)],
alors a n’est pas indifférente à b ih.
Si [S 1j(bih) - dj-(bih) < gj(a) < S1j(bih)] ou [ S 2j(bih) < gj(a) < S2j(bih) + d j+(bih)]
alors on a une indifférence faible entre a et b ih.
67
La figure 5.1, illustre les différentes zones créées par l’introduction des seuils de discrimination.
IV III I II V
Non Indifférence Indifférence Indifférence Non

Indifférence faible forte faible indifference
gj(a)
1 h - 1 h 2 h 2 h
S j (b i )-d j Sj (bi ) S j (b i ) Sj (b i )-
h + h
(b ) d (b )
Figure 5.1. Illustration des zones de comparaison
3.3. Calcul de l’indice d’indifférence partiel
En se basant sur les seuils de discrimination donnés ci- dessus, on définit l’indice d’indifférence partiel
Cj(a, b ih) qui traduit le degré de validité des trois situations précédentes et qui vérifie les propriétés
suivantes :
. Cj(a, bih)=1 ⇔ S1j(bih) ≤ gj(a) ≤ S 2j(bih) (5.2)
S1j(bih) - d j-(bih) < gj(a) < S1j(bih)
. 0 < C j(a, bih) < 1 ⇔ ou (5.3)
S2j(bih) < gj(a) < S2j(bih) + dj+ (bih)
g j(a) ≤ S 1j(bih) - d j-(bih)
.C j(a, bih) = 0 ⇔ ou (5.4)
gj(a) ≥ S2j(bih) + dj+ (bih)
L’indice d’indifférence partiel C j(a, bih) est généralement représenté entre les valeurs : S 1j(bih)-d j-(bih)
et S1j(bih) d’une part, et S2j(bih) et S2j(bih)+ dj+ (bih) d’autre part, par une fonction d’interpolation
linéaire (voir figure 5.2).
68
Cj(a, b ih)
IV III I II
gj(a)
1 h - h 1 h 2 h 2 h + h
S (b ) – d (b )
j i j i S (b )
j i S (b )
j i S (b ) + d (b )
j i j i
Figure 5.2. Représentation graphique de l’indice d’indifférence partiel
A partir de la figure 5.2, on peut déduire la valeur de Cj(a, b ih) de la manière suivante :
. Cj(a, bih) = 1 Si S1j(bih) ≤ g j(a) ≤ S j2(bih)
g j ( a ) + d j − (bih ) − S 1 j (bih )
. Cj(a, bih) = Si S 1j(bih) - dj-(bih) < gj(a) < S1j(bih)
d j − (bih )
h
S 2 j (bih ) + d j + (bih ) − g j (a )
. Cj(a, bi ) = Si S 2j(bih) < gj(a) < S2j(bih) + dj+ (bih)
d j + (bih )
.C j(a, bih) = 0 Si [g j(a) ≤ S 1j(bih) - dj-(bih)] ou [gj(a) ≥ S2j(bih) + dj+ (bih)]

h
3.4. Propriétés de l’indice d’indifférence partiel Cj(a,bi )
L’indice C j(a, bih) est composé de deux indices : Cj+ (a, b ih) (figure 5.3) et C j-(a, bih) (figure 5.4).
Le premier indice est représenté comme suit :
. Cj+ (a, b ih) = 1 Si gj(a) ≥ S 1j(bih)
. Cj+ (a, b ih) = 0 Si gj(a) ≤ S 1j(bih) - dj-(bh)
. 0 < C j+(a, bih) < 1 Si S1j(bih) - dj-(bih) < gj(a) < S1j(bih)
69
C j+(a, b ih)
1
g j(a)
0 1 h - h 1 h 2 h 2 h + h
S j(b )-d (b )
i j i S j(b )
i S j(b )i S (b )-d (b )
j i j i
+ h
Figure 5.3. Représentation de Cj (a, bi )
L’indice C j-(a, bih) est représenté comme suit :
. Cj-(a, bih) = 1 Si gj(a) ≤ S2j(bih)
. Cj-(a, bih) = 0 Si gj(a) ≥ S 2j(bih) + dj+(bih)
. 0 < C j-(a, bih) <1 Si S2j(bih) + dj+ (bh) < g j(a) < S2j(bih) + d j+(bih)
Cj- (a, b ih)
0 g j(a)
1 h - h 1 h 2 h 2 h + h
S j(b )-d (b )
i j i S j(b )
i S j(b ) i S (b )-d (b )
j i j i
- h
Figure 5.4. Représentation de l’indice Cj (a,bi )
En tenant compte de la définition donnée par Vincke (1988), on déduit que :

+ h
. Cj (a, bi ) correspond à l’indice de surclassement partiel de l'action a sur l'action de
h
référence b i et on écrit :
+ h h
Cj (a, b ) = S j(a, b ) (5.5)
- h
. Cj (a, bi ) correspond à l’indice de surclassement partiel de l’action de référence
h
centrale bi sur l’action a et on écrit :
- h h
Cj (a,b ) = Sj(bi , a) (5.6)
Remarque 5.1. Dans notre cas la relation de surclassement est définie comme suit (cf. Chap. 2, §
2.1 et 2.2 ) :
a Sj b ⇔ a (Pj ∪ Qj ∪ Ij) b
70
Ceci implique que l’indice d’indifférence partiel Cj(a,bih) est le résultat de l’intersection entre
Cj+(a,bih) et Cj-(a,bih) et on obtient :
Cj(a,bih) = Cj+(a,b ih) ∩ Cj-(a,bih),
ce qui entraîne que :
Cj(a,bih) = min(C j+ (a,bih), Cj-(a,bih)) (5.7)

h
Proposition 5.1. L’indice d’indifférence partiel Cj(a,bi ) est une relation binaire réflexive et
symétrique floue.
Preuve.
Ceci peut être facilement démontré ; d’après (5.6) et (5.7) on déduit que :
Cj(a, a) = min(S j(a, a), Sj(a, a)) et Sj(a, a) = 1, ce qui implique Cj(a, a) = 1 et donc Cj(a, b ih) est
une relation réflexive floue.
Puisque min(Cj+ (a,bih) , Cj-(a,b ih)) = min(Cj-(a,bih) , Cj+(a,b ih)) et C j(a,bih) = min(C j+ (a,bih) , Cj-
(a,b ih)), et on sait que Cj+(a,b ih) = S j(a,b ih) et Cj-(a,b ih) = S j(bih,a),
h h h
Alors C j(bi , a) = Cj(a,bi ), ce qui permet de conclure que Cj(a,bi ) est une relation symétrique.
n
Corollaire 5.1.
Chaque λ -coupe de Cj(a,bh) est une relation binaire réflexive et symétrique.
Preuve. Evidente. n
• Propriétés des indices Cj (a,b i ) et Cj (a,bi )

+ h - h
1. 1 ≤ Cj+ (a,bih) + C j-(a,bih) ≤ 2
2. max { Cj+ (a,bih), Cj-(a,bih) } = 1
3.4.1. Les cas particuliers de C j(a,b ih)
1. premier Cas : g j(bih) =[S1j(bih), +∞ [ :
Par conséquent la performance de l’action b ih selon le critère gj est donnée par : [S1j(bih), +∞[,
l’indice d’indifférence partiel est représenté par la figure (5.5).
71
C j(a, b ih)
g j(a)
0
S 1j(b ih)-dj- (bih) S1j(bih)
Figure 5.5. Représentation graphique de Cj(a,bih) dans le cas où S2j(bih) = +∞.
On déduit les propriétés suivantes :
i). gj(a) ≥ S1j(bih) ⇒ Cj(a,bih) = 1
ii). S 1j(bih) - dj-(bih) < gj(a) < S1j(bih) ⇒ 0 < C j(a,b ih) < 1
iii). gj(a) ≤ S 1j(bih) - dj-(bih) ⇒ Cj(a,bih) = 0
dont les conséquences sont :
i). gj(a) ∈ [S 1j(bih),+ ∞[ ⇒C j+(a,bih) = 1
ii). S 1j(bih) - dj-(bih) < gj(a) < S1j(bih) ⇒ 0 < C j+ (a,bih) < 1
iii). gj(a) ≤ S1j(bih) - d j-(bih) ⇒ C j+(a,bih) = 0
Proposition 5.2.
Si S2j(bih) = +∞, alors l’indice d’indifférence partiel est égal à Cj+ (a,bih).
Preuve.
d’après la propriété (5.2), on déduit que :
Cj-(a,bih) = 1 ∀ g j(a) ∈ E j
Et d’après (5.7) on a :
Cj(a,bih) = min(Cj-(a,bih), Cj+ (a,b ih )) = min(1, Cj+(a,bh )) = Cj+ (a,b h ). n
2. deuxième cas : gj(bih)= ]-∞ , S2j(bih)]
Par conséquent la performance de l’action de référence bih selon le critère gj est donnée par : ]- ∞,
S2j(bih)], l’indice d’indifférence partiel est représenté par la figure (5.6) :
72
Cj(a,b ih)
g j(a)
0
2
S (b )
j
h
i S 2j(b ih)-dj+(bih)
h
Figure 5.6. Représentation graphique de Cj(a,bi ) dans le cas où S1j(bih) = -∞
Proposition 5.3. Si S 1j(bih) = -∞, alors l’indice d’indifférence partiel est égal à Cj-(a, b ih).
Preuve.
D'après la propriété (5.1), on déduit que
Cj+(a,bih) = 1 ∀ gj(a) ∈E j
Et d’après (5.8) on a
Cj(a,bih) = min(C j-(a,bih), C j+(a,bih )) et Cj+(a,b ih ) = 1
alors on a
min(Cj-(a,bih), 1) = Cj-(a, b ih) n
3.4.2. Propriétés générales de Cj(a,bih )
L’indice C j(a, bih) est une relation binaire floue qui vérifie les propriétés suivantes :
1. Le calcul de C j(a,bih) ne fait intervenir que les actions a et b ih et ceci à travers leurs performances
g j(a) et g j(bih) en utilisant les seuils de discriminations.
2. . C j(a,b ih) = 0 si et seulement si la proposition a Ij bih (a est indifférente à bih) est jugée
inacceptable traduisant l’existence d’arguments suffisamment forts pour interdire la
validation de la proposition a Ij b ih ou soit l’absence totale de preuves en faveur de la
proposition.
. Cj(a, bih) = 1 si et seulement si la proposition a Ij b ih bénéficie d’arguments suffisamment

convaincants pour qu’il n’existe aucun doute sur sa validité.
3. . Cj(a,bih) > Cj(a,blt) si et seulement si la proposition a Ij b ih bénéficie d’arguments plus

convaincants que la proposition a Ij blt, ce qui rend la première proposition plus crédible que la
deuxième.
73
. Cj(a,bih) = Cj(a,blt) si et seulement si les propositions a Ij b ih et a Ij b lt bénéficient

d’arguments de même force ce qui les rend aussi crédibles l’une que l’autre.
L’indice d’indifférence partiel C j(a, bih) est défini comme suit :
Cj(a,bih) = min{C j+ (a,bih), Cj-(a,bih)} (5.8)
avec :
d +j (bih )−min{g j(a )−S 2j(bih ),d +j (bih )}

C +j (a, bih ) =
d +j (bih )− min{g j(a )− S 2j (bih ),0 }
d−j (bih )−min{S1j(bih )− g j(a),d −j (bih )}

C −j (a,bih )=
d −j (bih )−min{ S1j(bih )− g j(a),0}
Avant de prouver un résultat sur la signifiance, nous rappelons la définition suivante due à Roberts
(1979).
Définitio n 5.14. Un indice associé à une échelle de mesurage « measurement scale » E est qualifié
de signifiant « meaningful » si sa valeur demeure inchangée chaque fois qu’on utilise des
transformations admissibles le long de l’échelle E.
Nous avons :
- h + h
Proposition 5.4. L’indice Cj (a, bi ) (resp. C j (a,bi )) est signifiant si les conditions suivantes sont
vérifiées :
i). la fonction gj prend ses valeurs sur une échelle d’intervalle ;
ii). la fonction S 1j(bih) (resp. S2j(bih)) prend ses valeurs sur une échelle d’intervalle ;
iii).d j-(bih) (resp. dj+ (bih)) est une valeur constante ou une valeur proportionnelle à S 1j(bih)
(resp. S 2j(bih)).
Preuve.
Nous démontrons ceci uniquement pour l’indice Cj-(a,bih). Le même raisonnement s’applique à
l’indice Cj+(a, bih).
Les transformations admissibles d’une échelle d’intervalle sont :
gj’(a)= α×g j(a)+β (α > 0), S’ 1j(bih)=α× S1j(bih)+β et S’2j(bih) = α× S2j(bih) + β .
Si d j-(bih) = µ×S 1j(bih) ( µ > 0), alors
Nous avons :
1 si g j(a) ≥ S 1j(bih)
- h
g j (a) + d −j (bih ) − S1j (bih ) si S 1j(bih) - dj-(bih)<gj(a)< S1j(bih)
Cj (a,bi ) = −
d (b ) h
j i
0 si g j(a) ≤ S 1j(bih) - dj-(bih) 74

Il est facile de vérifier les implications suivantes :
gj(a) ≥ S1j(bih) ⇒ g j’(a) ≥ Sj1’(bih) ;
gj(a) ≤ S1j(bih) ⇒ gj’(a) ≤ Sj1’(bih)-d’j-(bih)
en remplaçant les valeurs de S1j(bih) et gj(a) respectivement par S’1j(bih) et g j’(a), nous obtenons :
1 β 1 β
g j ( a) = g ' j (a ) − ; S 1j (bih ) = S '1j (bih ) − et d ' j (bih ) = α × µ × S 1j (b ih )
α α α α
1 β 1 β
g j (a ) + d −j (bih ) − S 1j (bih ) g ' j ( a ) − + µ × S 1j (bih ) − S '1j (bih ) +
=α α α α
d −j (bih ) µ × S 1j (bih )
1 1
g ' j (a ) + µ × S 1j (bih ) − S '1j (bih )
=α α
µ × S 1j (bih )
g ' j (a ) + α × µ × S '1j (b ih ) − S '1j (bih )

=
α × µ × S 1j (bih )
g ' j (a ) + d '1j (b ih ) − S '1j (bih )

=
d '1j (bih )
Nous déduisons que l’indice Cj-(a, b ih) est invariant. n

h h
Proposition 5.5. Si les indices Cj-(a, bi ) et Cj+ (a,bi ) sont signifiants alors, l’indice d’indifférence
Cj(a, b ih) est signifiant.
Preuve.
Conséquence de (5.7), on a :
Cj(a, b ih) = min {C j-(a, bih), C j+ (a,bih)} n
3.5. Relation d’indifférence globale basée sur le principe de concordance
Dans le paragraphe précédent, nous avons déterminé n relations d’indifférence partielles floues
Cj : A× B → [0,1], j = 1, ..., n.
Chaque relation représente le degré de crédibilité de la situation suivante :
“L'action a est indifférente à l’action de référence bih selon le critère gj”
75
Ces n relations permettent de déterminer le degré de crédibilité global, associé à la relation

d’indifférence I, en se basant sur les principes de concordance et de discordance (Perny et Roy,
1992 ; Bouyssou, 1992 ; Perny, 1998).
Le concept de concordance est fondé sur le principe de majorité. Nous allons redéfinir ce concept
dans notre contexte, ce qui permet d’obtenir ce qui suit :
Définition 5.14. Une relation binaire floue CI définie sur Â est nommée relation de concordance
globale associée à la relation I s’il existe une fonction d’agrégation M définie sur [0,1]n à valeur dans
[0,1] vérifiant :
i). M est une fonction croissante de ses arguments;
ii). M(0, 0, …, 0) = 0, M(1, 1, …, 1) = 1;
iii). ∀ (a, bih) ∈ A ×B, CI(a, bih) = M(C 1(a, bih), C2(a, bih), ..., Cn(a, b ih)).
Pour le calcul de l’indice d’indifférence global, notre démarche peut être décrite comme suit :
Pour calculer CI(a, bih), on doit choisir un opérateur d’agrégation M qui vérifie les propriétés
données par la définition 5.14 et qui réalise un compromis entre les relations d’indifférence partielles
et la relation d’indifférence globale. Parmi ces opérateurs, on trouve la moyenne pondérée
généralisée qui est donnée comme suit :
CI(a, b ih) = Mφ(C1(a, bih), C 2(a, bih),... , Cn(a, bih)),
n
CI(a, b ih) = φ-1( ∑ ( w jh×φ ( Cj(a,bih))),
j =1
φ est une fonction croissante de [0,1] vers [0,1] avec φ (0) = 0 et φ(1) = 1.
Si on prend la fonction φ telle que φ (x) = x , alors CI(a, bih) devient :
n
CI(a,bih) = ∑ ( wjh×Cj(a, bih) ).
j =1
Dans le cas où les Cj(a,bih) sont purement ordinaux, on utilisera les médianes pondérées (Fodor et
Roubens, 1994 ; Perny, 1992), et C I(a,b ih) sera donné comme suit :
CI(a, b ih) = med(minj=1...nmax{C j(a,bih), 1-wjh}, maxj=1...nmin{C j(a,b ih), wjh},α )
où α est un seuil connu telle que α ∈ ]0,1[ et avec :
x si x≤y≤α
med(x, y, α ) = α si x≤α ≤y
y si α≤x≤y
76
Proposition 5.6.
La relation C I(a, bih) définie précédemment vérifie les propriétés suivantes :
i). Le calcul de CI(a, bih) ne fait intervenir que les actions a et bih et ceci à travers leurs
vecteurs de performances ;
ii). (∀ j = 1, ..., n, Cj(a, b ih) = 1) ⇒ (CI(a, b ih) = 1) ;
(∀ j = 1, ..., n, Cj(a, b ih) = 0) ⇒ (CI(a, b ih) = 0) ;
iii). min j=1, ..., n{Cj(a, b ih)} ≤ C I(a, bih) ≤ max j=1, ...,n{Cj(a, bih)} ;
iv). pour toute paire d’actions a et a' de A on a :
(∀ j = 1, ..., n et ∀ bih ∈ B, Cj(a, b ih) ≥ Cj(a' , b ih)) ⇒ (C I(a,b ih) ≥ CI(a' ,bih))
3.6. Calcul de la relation d’indifférence de synthèse
La relation d’indifférence de synthèse est fondée sur la règle de concordance et de non-

discordance. Le principe général de cette règle est le suivant :
h
lorsqu’une action a est jugée indifférente avec une action de référence b i selon une
majorité suffisamment importante de critères «principe majoritaire » et qu’il n’existe
h
aucun critère qui met son veto contre l’affirmation “a est indifférente à bi ” «principe
h
du respect des minorités », alors l’action a est indifférente à l’action de référence bi .
3.6.1. Indices de discordance

h
Nous allons introduire l’indice de discordance partiel Dj(a,bi ) :
Définition 5.15. Un critère est en discordance avec l’indifférence entre l’action a et

h
l’action de référence b i si ce critère n’est pas en concordance avec cette même
h
indifférence. C’est-à-dire Cj(a, bi ) = 0, autrement dit :
g j(a) ≥ S 2j(bih) + d j+(bih)
C j(a, bih) = 0 ⇔ ou
gj(a) ≤ S1j(bih) - d -j(bih)
+ h
Par définition nous appellerons seuil de veto à droite vj (b i ) (resp. seuil de veto à gauche
- h 2 h 1 h
vj (b i )) pour le critère gj la valeur minimum de la différence gj(a) -S j(bi ) (resp. S j(bi ) -
h
gj(a)) qui est considérée comme étant incompatible avec la proposition a I bi .
77
+ h - h
Les seuils de veto v j (bi ) et v j (bi ) doivent vérifier les conditions de cohésion
suivantes :
∀ j ∈ {1, …, n}, vj (b i ) ≥ dj (b i ) vj (bi ) ≥ dj (bi ).

+ h + h - h - h
et
D’après ce qui précède, il découle que
∀ CI(a, b ih), ∃ gj tel que :
g j(a) ≥ S 2j(bih) + v j+(bih)
ou ⇒ non (a I bih)
g j(a) ≤ S1j(bih) - v j-(bih)
L’indice de discordance Dj(a, bih) du critère g j vise à appréhender le fait que ce critère est plus ou
moins discordant avec la proposition a I bih. Cette discordance est maximum (Dj(a, bih) = 1)
lorsque le critère gj met son veto à l’indifférence. Elle est minimum (Dj(a,bih) = 0) lorsque le critère
n’est pas en discordance avec l’indifférence. Si le critère gj est en discordance (Cj(a,bih) = 0) avec
l’indifférence mais qu’il ne met pas son veto à l’indifférence, alors on aura : 0<Dj(a,bih)<1, qui
représente les zones intermédiaires entre la discordance et la non-discordance (voir figure 5.7).
L’indice de discordance vérifie les propriétés suivantes :
i). Dj(a,bih) est une fonction monotone non-décroissante de la différence (S1j(bih) -

dj-(bih)) - gj(a)) ou de la différence (gj(a) - (S2j(bih) + d j+(bih))) ;
ii).Dj(a, b ih) = 1⇔ gj(a) ≥ S2j(bih) + vj+ (bih) ou gj(a) ≤ S1j(bih) - v j-(bih) ;
iii). min(C j(a, bih), Dj(a, bih)) = 0 ;
iv). Cj(a,bih) > 0 ⇔ Dj(a,bih) = 0 ;
v). C j(a,b ih) = 0 ⇔ Dj(a, bih) > 0.
A partir de ces propriétés, on a :

h
l’indice de discordance partiel Dj(a, bi ) est généralement représenté entre les valeurs
2 h + h 2 h + h 1 h - h 1 h - h
S j(b i ) + dj (bi ) et S j(bi ) + vj (bi ) d’une part et S j(b i ) - dj (b i ) à S j(bi ) - v j (b i )
d’autre part, par une fonction d’interpolation linéaire.
78
Dj(a,b hi)
Dj- (a,b hi) Dj+(a,b hi)
gj(a)
1 h - h 1 h - h 1 h 2 h 2 h + h 2 h + h
S (b ) - v (b ) S (b ) - d (b ) S (b ) S (b ) S (b )+d (b ) S (b )+v (b )
j i j i j i j i j i j i j i j i j i j i
Figure 5.7. Représentation graphique de l’indice de discordance partiel.

- h
L’indice de discordance est composé de deux indices l’un à gauche (Dj (a,b i )) et l’autre à
+ h
droite (D j (a,bi )) (voir figure 5.7).
18
D’après ce qui précède, on peut formuler l’indice de discordance comme suit :
- h g j ( a ) − max{ g j ( a ), S 1j (bih ) − d −j (bih )}

Dj (a,b i ) =
d −j (bih ) − max{S 1j (bih ) − g j (a ), v −j (bih )}
+ h
g j ( a ) − min{g j (a ), S 2j (bih ) + d +j (bih )}
Dj (a,b i ) =
− d +j (bih ) + max{− S 2j (bih ) + g j (a ), v +j (bih )}
L’indice de discordance partiel est donné par :
Dj(a, b i ) = Dj ( a, bi ) ∪ Dj (a, b i )
h + h - h
h + h - h
Dj(a, b i ) = max {D j ( a, b i ), D j ( a, bi )}
3.6.2. Indice de discordance global
L’indice de discordance global DI(a, bih) est défini comme suit :
Définition 5.16. Une relation DI définie sur A× B est appelée relation de discordance globale avec la
relation I, s’il existe une fonction d’agrégation h définie sur [0,1] n à valeurs dans [0,1] et vérifiant les
points suivants :
i). h est une fonction croissante de ses arguments;
ii). h(0, 0, ..., 0) = 0;
iii). h(x 1, x2, ..., x n) = 1 ⇔ ∃ i / xi = 1;
18
∀ j= 1, ..., n ; on a : Dj-(a, bih) > 0 ⇔ D j+(a, bih ) = 0 ; Dj-( a, bih) = 0 ⇒ D j(a, bih ) = Dj+( a, bih)
Dj+( a, bih ) = 0 ⇒ Dj(a, bih) = D j-( a, bih ) ; Dj+( a, bih ) > 0 ⇔ D j-(a, bih ) = 0
79
iv). ∀ (a, bih) ∈ A ×B telle que
DI(a, b ih) = h(D1(a, bih), D2(a, bih),..., Dn(a, bih)).
La famille de critères F est jugée discordante avec la proposition: “a est sensiblement équivalente
ou indifférente à l’action de référence bih ” dès qu’un critère est totalement discordant avec cette
affirmation.
DI(a, b ih) reflète l’existence d’un critère qui met son veto contre l’affirmation a I bih.
Ainsi, pour déterminer l’indice de discordance global DI(a, bih), on utilise un opérateur d’agrégation
disjonctif pour lequel la valeur “1” est absorbante (Perny, 1992) :
n h
DI(a, b ih) = 1 − ∏ (1 − D j ( a , bih ))nw j (5.9)
j =1
Si on veut déterminer la force moyenne de l’opposition à l’affirmation a I b ih, on utilise un opérateur

de compromis pour lequel la valeur un est absorbante :
n h
DI(a, b ih) = 1 − ∏ (1 − D j ( a , bih )) w j (5.10)
j =1
3.6.3. Construction de la relation d’indifférence de synthèse
Nous construisons la relation binaire floue synthétique d’indifférence notée I à partir d’une agrégation
d’indices de concordance et de discordance selon la formule suivante :
I(a, bih) = ϕ (C1(a, bih), C 2(a, bih), ..., Cn(a, bih), D1(a, bih), ..., Dn(a, bih))),
où ϕ est une fonction croissante des n premiers arguments et décroissante des n derniers arguments
avec :
ϕ(0, 0, ..., 0, 1, 1, ..., 1) = 0 ; ϕ(1, 1, ..., 1, 0, 0, ..., 0) = 1.
La construction de la relation d’indifférence I(a, b ih) doit satisfaire les principes suivants :
1- Si l’action a est indifférente à l’action de référence b ih sur tous les critères de F, alors cette famille
F est concordante avec l’affirmation a I b ih, et on aura :
I(a, bih) = CI(a, b ih).
2- L’action a est indifférente à l’action de référence bih si la famille F est en concordance avec cette
affirmation et si aucun critère de F n’est discordant avec cette affirmation.
3- Lorsqu’un critère discordant g k met son veto à la proposition a I b ih, le degré de crédibilité I(a,
bih) devient nul.
∃ gk ∈ F, Dk(a, b i ) = 1 ⇒
h
I(a, b ih) = 0.
80
A partir de ces trois principes, la relation d’indifférence globale sera définie comme suit :
Définition 5.17. Nous appellerons “relation d’indifférence globale” une relation binaire floue
définie sur A×B et obtenue à partir de l’indice de concordance global CI et à partir de l’indice de
discordance global DI en posant :
I(a, bih) = T(CI(a, b ih), N(DI(a, b ih))),
où T : est un opérateur de conjonction (t-norme) et N : est une négation.
Si nous prenons T(x, y) comme l’opérateur min(x, y) et l’opérateur de négation N(x) comme 1-x
pour x, y ∈ [0,1] (cf. Chap. 5.2 ; sous-ensemble flou), nous obtiendrons :
I(a, bih)= min(CI(a, bih), 1-DI(a, bih)) ;
ou encore
n n h
I(a, bih)= min( ∑ ( wjh×φ ( C j(a, b ih)), ∏ (1 − D j (a , bih )) w j ) (5.11)
j =1 j =1
Si nous prenons : T(x,y) = x.y et N(x) = 1-x pour tout x, y de [0,1], nous trouvons que
I(a,b ih) = (C I(a,bih)) × (1-DI(a,bih)).
L’indice d’indifférence I peut être déterminé d’une autre manière en utilisant le principe de la
méthode ELECTRE III (Roy, 1978), qui est formulé comme suit :
4. La valeur I(a, bih) n’est autre que la valeur CI(a, bih) affaiblie par les indices de discordance
lorsque ces derniers sont suffisamment grands. Nous aurons alors :
1 − D j ( a, bih )
I(a, bih) = C I (a , b ih ) × ∏ (5.13)
j ∈F 1 − C I (a , bih )
F = {g j ∈ F / Dj(a, bi ) > C I(a, bi ) }.

h h
avec
h
Proposition 5.7. L’indice d’indifférence global I(a, bi ) vérifie les propriétés suivantes :
i). Le calcul de I(a, bih) ne fait intervenir que les actions a et bih et ceci à travers leurs vecteurs de
performances;
ii). (∀ j = 1, ..., n ; Cj(a, bih) = 1) ⇒ (I(a, b ih) = 1);
iii). (∀ j = 1, ..., n ; Cj(a, b ih) = 0 ) ⇒ (I(a, bih) = 0);
iv). (∃ gj ∈ F, Dj(a, bih) = 1) ⇒ (I(a, bi ) = 0);

h
v). (∀ j = 1,...,n, Cj(a, bih) > Cj(a’, bih) ) ⇒ (I(a, b ih) > I(a’, bih))
pour toute paire d’actions a et a’ de A.
81
3.7. Affectation des actions aux différentes catégories
L’affectation des actions aux différentes catégories se fait différemment selon que le problème est
mono-profil (chaque catégorie est représentée par une seule action de référence) ou multi-profils
(chaque catégorie est représentée par plusieurs actions de référence).
a). Problème mono-profil
Les classes sont représentées par l’action de référence centrale b h pour h variant de 1 à k. Donc la
règle d’affectation TRIN est formulée de la manière suivante :
Toute action indifférente à l’action de référence de la catégorie Ch sera affectée à la catégorie

en question. Formellement ;
Si a I bh, alors a ∈ Ch
On se donne d(a, Ch) le degré d’appartenance d’une action a à la catégorie Ch avec :
d(a, Ch) = I(a, bh)
A partir de d(a, Ch) on déterminera l’ensemble de catégories d’affectations pour l’action a comme
suit :
Ω 1 = {C / d(a, C ) ≥ λ } avec λ est une valeur de coupe tel que λ > 1/2.
h h
Une autre façon de déterminer l’ensemble des classes d’affectation pour l’action a est de retenir les
catégories qui ont un degré maximum. Formellement ;
Ω 1 = {C ∈ Ω / d(a, C ) = max(d(a, C )), ∀ C ∈ Ω }

h h l l
Puis on affecte l’action aux catégories appartenant à l’ensemble Ω 1. Et on a :
∀ C ∈ Ω1 ⇒ a ∈ Ch.
h
b). Problème multi-profils
Les catégories sont représentées par un ensemble d’actions de référence centrale Bh avec Bh={bih ∈
Ch / i = 1, ..., Lh }, ∀ Ch ∈ Ω .
La règle d’affectation TRIN est donnée comme suit :
Si (a I b1h et/ou a I b2h et/ou ... et/ou a I bLhh ), alors a ∈ Ch .
Pour affecter l’action a à la catégorie correspondante, il faut suivre les étapes suivantes :
1- Calculer l’indice d’indifférence global entre l’action a et toutes les actions de référence centrales
bih de la catégorie Ch : I(a, b ih) avec i variant de 1 à Lh et h variant de 1 à k.
2- Calculer le degré d’appartenance de l’action a à la catégorie Ch : l’action a est affectée à la

catégorie C h si elle est indifférente à au moins une action de référence de C h. Le degré
82
d’appartenance de l’action a à la catégorie Ch est égal au maximum des indices d’indifférence de la

classe h.
d(a, Ch) = max {I(a, bih)} pour i = 1, ..., Lh. (5.14)
3- A partir du degré d’appartenance floue d’une action a à la classe Ch, h=1,…,k, l’affectation nette
d’une action a peut être obtenue par l’une des deux règles suivantes :
i). pour une valeur de coupe λ / λ ≥ ½, on a :
a ∈ Ch ⇔ d(a,Ch) ≥ λ ,
ii). a ∈ Ch ⇔ d(a,Ch) = sup{d(a, Cl)/ l∈{1,…,k} }.
En générale les méthodes de classification, décrites au chapitre 1, affectent les actions de manière
nette en considérant que le degré d’affectation à la catégories est égal à 0 ou à 1. Par contre, notre
approche affecte graduellement les actions aux différentes catégories en déterminant des degrés
d’affectation qui varient entre 0 et 1. On parle dans ce cas d’affectation floue ou graduelle.
L’analyse des propriétés de la procédure PROAFTN est donnée à l’annexe A.
83
Procédure de choix flou dans le cadre de la problématique du tri nominal
Chapitre 6 : Procédure de choix flou dans le cadre de la problématique du

19
tri nominal
1. Introduction
La procédure PROCTN présentée dans le chapitre 4 consiste à déterminer un sous -ensemble de

prototypes les plus proches de l’action a à affecter. Ainsi, elle peut être considérée comme étant une
généralisation de la méthode des k-ppv qui a été décrite au chapitre 1. Néanmoins, un inconvénient
subsiste, celui d’utiliser les écarts entre les performances de l’action à affecter et les prototypes. Ceci
pourrait poser de problèmes dans le cas où les données ne seraient pas homogènes. Afin de
remédier à cet inconvénient et en conservant les avantages de la procédure PROCTN, nous avons
développé une nouvelle méthode de classification baptisée PROCFTN : “PROcédure de Choix Flou
dans le cadre de la problématique du Tri Nominal” (cf. figure 6.1). Cette procédure utilise les indices
d’indifférence flous partiels qui sont déterminés par la procédure PROAFTN, afin de choisir les
prototypes qui ressemblent le plus à l’action a à affecter. Ce qui nous permets de considérer la
procédure PROCFTN comme étant une méthode des k plus proches voisins en terme de
ressemblance à l’action a. Le nombre k (k ≥ 1) de voisins est déterminé directement par la
procédure PROCFTN. Le principe de base de cette procédure est de déterminer une fonction du
score à partir d'une relation de préférence floue. Cette fonction a pour but de choisir les meilleurs
prototypes en terme de leurs ressemblance avec un objet à affecter. On calcule au départ la matrice
de performances des prototypes des catégories. Un élément de cette matrice est un indice de
ressemblance flou entre une action a à affecter et un prototype d’une catégorie donnée selon un
critère. Ensuite, à partir de ces performances on détermine le(s) prototype(s) qui ressemblent le plus
à l’action considérée.
19
Ce chapitre est en partie basé sur les résultats présentés dans Belacel et al. (1999e).
84
Le schéma général de la procédure est présenté par la figure 6.1 ci-dessous :
Ensemble de Action a à affecter

prototypes
-Performances de l’action et des prototypes
-Seuils de discrimination
-Seuils de veto
- Poids d’importance des critères
Procédure de classification
PROAFTN
Indices d’indifférence partiels

Indices de discordance partiels
Indice de discordance global
Matrice de performances
Relations de préférence floues entre les prototypes
Fonction de score flou des prototypes
Déterminer l’ensemble de choix

sur les prototypes
Décision d’affectation
Stop
Figure 6.1. Schéma général de la procédure PROCFTN.
85
2. Description de la procédure PROCFTN
La procédure PROCFTN utilise l’approche de choix pour déterminer un sous-ensemble de

prototypes, dont le nombre peut être réduit à un. Ceci se fait par le biais d’une comparaison entre les
différents prototypes, à travers leur ressemblance avec l’action a à affecter (cf. figure 6.1). Les
données ainsi que les notations utilisées par la procédure PROCFTN sont ceux utilisées dans les
procédures PROCTN et PROAFTN. La procédure PROCFTN combine le principe de choix utilisé
par la procédure PROCTN et les indices d’indifférence flous déterminés par la procédure
PROAFTN. Pour déterminer les prototypes les plus ressemblants à l’action a, PROCFTN procède
en quatre étapes :
1. Matrice de performances
2. Relation de préférence valuée
3. Fonctions de score flou
4. Choix de prototypes
2.1. Matrice de performances
La matrice de performances est déterminée afin d’évaluer les prototypes à partir d’une famille
cohérente de critères ou d’un ensemble d’attributs. Les lignes de cette matrice représentent les
prototypes des catégories et les colonnes représentent les critères. L’intersection entre une ligne et
une colonne correspond au degré de ressemblance Rijh(a, bhi) d’un prototype avec une action a à
affecter selon le critère g j. Pour calculer la valeur de Rijh(a, bhi) on doit déterminer les indices20
d’indifférence partiels Cj, de discordance partiels Dj et de discordance global DI entre les actions a
et bhi. Une fois les indices sont déterminés on calcule la relation de ressemblance floue en se basant
sur les principes suivants :
i. Si l’un des critères de l’ensemble F met son veto contre l’affirmation “a est indifférente au
prototype bhi”, alors les relations de ressemblance partielles entre les actions a et b hi seront
nulles. Formellement ;
Si (∃ j ∈ {1,…,n}, Dj(a, bhi) = 1), Alors (∀ j = 1, …, n, Rijh(a, b hi) =0 ) pour h = 1,…,k

et i = 1, ..., Lh.
ii. L’indice de ressemblance prend en considération la dissemblance (i.e., l’indice de

discordance global) entre une action a à affecter et un prototype donné. Ainsi, si l’indice de
discordance est très élevé, alors l’indice de ressemblance sera trop faible. Formellement ;
Si (DI(a, bhi) > Cj(a, b hi)), Alors Rijh(a, b hi) = Cj(a, bhi)×(1-DI(a, b hi))
Sinon Rijh(a, bhi) = Cj(a, b hi),
Où Cj(a, bhi) et DI(a, bih) sont respectivement l’indice de concordance partiel et l’indice de
discordance global entre les actions a et b hi calculés par la procédure PROAFTN.
20
Les indices Cj et D I sont calculés à l’aide de la procédure PROAFTN.
86
D’après les principes i) et ii), le degré de ressemblance entre une action a et un prototype bih selon
le critère g j, peut être donné comme suit :
C j(a, bhi) si DI(a, bhi) ≤ C j(a, b hi),
Rijh(a, b hi )= (6.1)
C j(a, b hi)×(1-DI(a, bhi)) sinon
2.2. Relation de préférence valuée entre les prototypes
En utilisant la matrice de performances calculée dans l’étape 1, la relation de préférence valuée entre
les différents prototypes peut être définie de la manière suivante :
h l h l
Définition 6.1. Le prototype b i est préféré au prototype bt (bi P a b t ) si et seulement si la
ressemblance entre les actions a et b ih est plus forte que la ressemblance entre les actions a et btl sur
l’ensemble de critères.
La relation de préférence valuée Pa est basée sur l’introduction des indices de crédibilité partiels Pja,
j=1,…, n. Chaque indice de crédibilité permet de prendre en compte le degré de validité de la
proposition : “la ressemblance entre l’action a à affecter et un prototype donné est plus forte
que la ressemblance entre a et un autre prototype selon le critère gj”. L’indice de préférence
partiel Pja entre les prototype b ih et b tl est donné comme suit :
Pja(bih, btl)= max{R ijh(a, bih)- Rljt(a, btl), 0} (6.2)
A partir de ces indices de préférence par critère et en tenant compte de l’importance relative de
chaque critère, on détermine pour chacune des paires de prototypes (bih, b tl) l’indice de préférence
global Pa(bih, b tl).
{ }
n
Pa(bih, btl) = ∑ w j × Pja (bih , b tl ) , h=1,…,k ; l=1,…,k ; (6.3)
j =1
i=1,…,Lh ; t=1,…,L l,
où w j, j =1,…, n, sont des coefficients positifs dont la somme est égale à 1 et traduisant
l’importance relative des critères.
2.3. Fonction de score flou

La procédure PROCFTN se base sur une fonction de score flou pour choisir les prototypes les plus
ressemblants à l’action a à affecter. Avant de détailler comment PROCFTN procède pour
déterminer les prototypes les plus ressemblants à l’action a, nous rappelons une définition très
importante.
Définition 6.2. (Fodor et al., 1998).
87
Soient A ={a1, a2,…, am} un ensemble d’actions et R une relation de préférence floue sur A. Nous
appelons fonction de score sur A pour une relation R, une fonction réelle valuée f définie sur [0,1]2m,
non décroissante par rapport à ses m premiers arguments, non croissante par rapport à ses m
derniers arguments et telle que :
∀ i ∈{1,…,m}, s(ai, A, R) = f(R(ai, a1),…,R(ai, a m), R(a1, a i),…, R(am, a i)),
où s(ai, A, R) est le score de a i dans A selon la relation R.
Notons que la fonction de score flou d’une action a permet de déterminer le degré avec lequel
l’action a domine les autres actions de l’ensemble A. Quelques unes des fonctions de score utilisées
dans la littérature sont données ci-dessous :
• flux sortant (Roy (1978), Brans et Vincke (1985), Bouyssou (1992b, 1992c)).
s(a, A, R) = Σb∈AR(a, b). (6.4)
• Le flux rentrant complémentaire (Roy (1978), Brans et Vincke (1985), Bouyssou (1992b,
1992c)).
s(a, A, R) = Σ b∈A(1-R(b, a)). (6.5)
• Le flux net (Roy (1978), Brans et Vincke (1985), Bouyssou (1992b, 1992c)).
s(a, A, R) = (1/ |A|)(Σb∈A(R(a, b)-R(b, a))). (6.6)
• Le flux sortant minimum (Bouyssou (1991), Pirlot (1994)).
s(a, A, R)=min b∈AR(a, b). (6.7)
• Le flux rentrant maximum complémentaire (Orlovski (1978), Bouyssou (1991), Pirlot (1994)).
s(a,A,R) = 1-max b∈AR(b,a). (6.8)
• La fonction de score d’Orlovski (Orlovski (1978), Barrett et al. (1990), Banerjee (1993),
Bouyssou (1995)).
s(a,A,R)=min b∈Amin[1-R(b, a)+R(a,b) ;1]. (6.9)
D’autres types de fonctions de score basées sur les t-normes et les t-conormes ont été proposées,
entre autres, par Roubens (1989), Barett et al. (1990), Fodor et Roubens (1994).
2.4. Choix des prototypes
Nous allons donner dans cette section la fonction de choix flou C s utilisée pour sélectionner le(s)
prototype(s). Elle est obtenue à partir d’une fonction de score flou21 s comme suit :
µ Cs ( X ) ( a ) = s(a, X, R), ∀ X ⊂ A.
21
Comme exemple de fonctions de score flou on a les fonctions de scores données par les équations (6.7), (6.8) et (6.9).
88
L’ensemble de choix flou Cs(X) peut être obtenu à partir de l’ensemble flou µ Cs ( X ) ( a ) et telle que :
Cs(X) = {a ∈ X / µ Cs ( X ) ( a ) ≥ λ}, ∀ X ⊂ A, avec λ ≥ ½ est une valeur de coupe.
Notons que la fonction C s ne permet pas de définir réellement une fonction de choix dans la mesure
où l’ensemble Cs(X) peut être vide. Afin de remédier à cette difficulté, nous définissons une fonction
de choix proposée par Orlovski (1978) :
Cs(X) = {a ∈ X / s(a, X, R) = max s(x, X, R)}, ∀ X ⊂ A.

x∈X
Pour plus de détails concernant les fonctions de score à partir d’une relation de préférence floue, le
lecteur peut se référer aux travaux : Nurmi (1981), Basu (1984), Dutta et al. (1986), Ovchnnikov et
Ozernoy (1988), Roubens (1989), Bouyssou (1992).
Vu la caractéristique de la relation Pa qui est une relation cardinale, on peut utiliser les fonctions22
(6.4), (6.5), (6.6) ou (6.9). Nous avons choisi la fonction de score d’Orlovski donnée par l’équation
(6.9) car elle semble bien adaptée aux applications que nous avons testé.
L’ensemble de choix qui est utilisé par PROCFTN est donné par :
Cs(B) = {bih ∈ B / µCs (B ) (b ih ) = max µ C s ( B ) ( x ) }.

x∈B
Avec (
µCs (B ) (b ih ) = min min 1 − P a ( x, bih ) + P a (bih , x);1
x∈B
)
L'ensemble Cs(B) contient k (k ≥ 1) prototypes les plus ressemblants à l’action a à affecter.
L’avantage de la procédure PROCFTN est qu’elle détermine le degré de dominance pour les
prototypes de l’ensemble B. Plus précisément, µC s ( B ) (bih ) est le degré avec lequel le prototype bih
domine les autres prototypes du point de vue de leur ressemblance avec l’action a à affecter.
2.5. Décision d'affectation

Une fois que l'ensemble de choix C(B) est déterminé, nous appliquerons la règle d'affectation utilisée
par le classificateur k-plus proche voisins (k-ppv). La classe attribuée correspond à la classe
majoritaire parmi les k voisins considérés (Cover et Hart, 1967; Dasarathy, 1991).
3. Analyse des propriétés de la procédure PROCFTN
La procédure PROCFTN que nous venons de décrire respecte les principes d’indépendance, de
neutralité, de nominalité et de stabilité, cités au chapitre 3 (cf. §2.3). Ceci peut être prouvé à partir
des propositions 4.5, 4.6, 4.7 et 4.8 (cf. Chap.4, § 4). Par contre, le principe d’universalité n’est
pas complètement vérifié, du fait que la procédure PROCFTN sélectionne k (k ≥ 1) prototypes le
plus ressemblant à l’action a à affecter. Donc, elle ne tient pas compte les cas qui ne sont pas
affectés à aucune catégorie.
22
Dans le cas où la relation de surclassement Pa est ordinale on utilise les fonctions de score (6.7) ou (6.8).
89
PARTIE C
APPLICATION À L’AIDE
AU DIAGNOSTIC MÉDICAL
Cette partie est consacrée à l’application des méthodes développées dans le domaine de
l’aide au diagnostic médical. Après une brève introduction générale sur les problèmes de
classificat ions médicales, une application de ces méthodes dans le domaine cyto-
pathologique des leucémies aiguës est présentée dans le Chapitre 7. Dans le Chapitre 8
nous présentons une application dans le domaine histopathologique des tumeurs
astrocytaires
Application à l’aide au diagnostic médical
Introduction
Les classifications médicales des pathologies ont pour but de rassembler en classes les cas qui ont
des similitudes biologiques fondamentales et qui sont susceptibles de partager certains facteurs
étiopathologiques. L’identification de ces classes est importante car elle permet d’une part de
comprendre le processus de la maladie et d’autre part d’instaurer l’approche thérapeutique
adéquate. De plus, elle permet de dégager le pronostic global de la maladie. Plusieurs méthodes de
classification comprenant les statistiques, la reconnaissance des formes, l'intelligence artificielle et les
réseaux de neurones ont été utilisées pour l’aide au diagnostic médical (cf. Chap. 1). Notre ultime
but dans cette partie est de montrer que l’approche d’aide multicritère à la décision peut être aussi
appliquée avec succès pour résoudre certains problèmes de classification médicale (cf. Belacel et
al., 1999d). Dans ce contexte, nous avons développé trois nouvelles méthodes de classification
utilisant cette approche et nous les avons appliqué dans le domaine de l’aide au diagnostic médical.
La première application concerne le diagnostic cytopathologique des leucémies aiguës (Belacel et
al., 1999b). Ces dernières ont été choisies parce qu'elles sont plus adaptées à nos méthodes
développées. Sachant que les règles de classification des leucémies aiguës sont données sous formes
d’intervalles, ceci nous facilite la détermination des prototypes des classes. La deuxième application
concerne le diagnostic histo-pathologique des tumeurs astrocytaires 23 (Belacel et al., 1999a). Nous
nous sommes intéressés à ces tumeurs afin de comparer les performances de nos méthodes avec
celles déjà existantes dans la littérature et en utilisant les mêmes données.
Nous avons appliqué aussi la méthode PROAFTN pour diagnostiquer les tumeurs superficielles de la
vessie. Les résultats sont présentés dans l’Annexe C (Belacel et al., 1999e). Ils montrent la capacité
de la procédure à séparer entre le haut et le bas grades de malignité des tumeurs superfic ielles de la
vessie en se basant uniquement sur les paramètres générés par microscopie assistée par ordinateur.
Cette séparation est capitale de point de vue thérapeutique et pronostic de ces tumeurs.
1 Les tumeurs astrocytaires font partie des tumeurs du cerveau.
91
Application dans le domaine cytopathologique des leucémies aiguës
Chapitre 7 : Application dans le domaine cytopatholo gique des leucémies

24
aiguës
1. Introduction
Les leucémies aiguës (LA) font parties des hémopathies malignes qui constituent un groupe
hétérogène de maladies onco-hématologiques. Elles sont caractérisées par une prolifération
médullaire anarchique de cellules blastiques (cellules immatures) avec ou sans passage dans le sang
périphérique. Le clone cellulaire anormal se distingue par le type et le degré de différentiation
cellulaire. Les LA sont d’origine inconnue mais plusieurs facteurs étiologiques ont été incriminés dont
les plus importants sont : les radiations ionisantes, les oncogènes viraux et certains produits chimiques
et agents pharmacologiques. Ces affections sont répandues mondialement, touchent tous les âges et
sans prédominance du sexe. Le taux d’incidence varie de un à trois cas pour cent mille personnes
par années selon le type de leucémies (Zittoun, 1986). Le diagnostic de ces affections est basé
essentiellement sur l’examen cytologique des ponctions médullaires. Le traitement repose sur la
polychimiothérapie associée ou non à la radiothérapie. Il est généralement complété par la greffe de
la moelle osseuse allogénique ou autologue et plus récemment celle des cellules souches du sang
périphérique ou du sang de cordon ombilical (Encyclopédie médicale, sang, 1998)
2. Classification morphologique des leucémies aiguës

Plusieurs classifications cytologiques de leucémies aiguës ont été proposées (Bain, 1991). La plus
utilisée actuellement est celle élaborée par le groupe d’hématologistes Franco-Américano-
Britannique (classification FAB) (Bain, 1991 ; Bennett et al., 1976 ; 1982 ; 1985). Selon cette
classification deux grands types de LA sont à distinguer : les LA lymphoblastiques (LAL) et les LA
myéloblastiques (LAM).
2.1. Leucémies aiguës lymphoblas tiques (LAL)
Les LAL sont rencontrées beaucoup plus chez l’enfant, avec une pic de fréquence maximale entre 2
et 6 ans et constituent à cet âge près de 50 % des cancers de l’enfance. Selon la classification FAB
trois types morphologiques de LAL peuvent être distingués : LAL L1, LAL L2 et LAL L3. Divers
critères morphologiques (taille de la cellule, rapport nucléo-cytoplasmique, aspect de la chromatine,
contour du noyau, présence du nucléole, abondance du cytoplasme et présence de vacuoles), sont
généralement utilisés pour distinguer ces trois types (cf. tableau 7.1). D’autres paramètres
complémentaires sont parfois nécessaires pour affiner le diagnostic ; il s’agit des examens
cytochimiques, immunologiques et histopathologiques.
24
Ce chapitre est en partie basé sur les résultats présentés dans Belacel et al. (1999b).
92
LAL L1 LAL L2 LAL L3
Cellules Blastiques Taille Faible Anisocytose variable Grande
Contour Régulier Irrégulier Régulier
Noyaux Chromatine Homogène Hétérogène Homogène
Nucléoles Petits Grands Grands
Abondance Faible Variable Moyenne
Basophilie Faible Variable Intense
Cytoplasme Vacuolisation Absente Variable Importante
Tableau 7.1. Classification des LAL
2.2. Leucémies aiguës myéloblastiques (LAM)
Les LAM sont rencontrées beaucoup plus chez l’adulte jeune que chez les enfants (Bennett et al.,
1982). Selon le degré de la différentiation et de la maturation des cellules blastiques, huit types de
LAM (de M0 à M7) sont reconnus par la classification FAB (cf. Annexe B). Les différents types de
LAM sont résumés au tableau 7.2. Le type M0 ou leucémie aiguë indifférenciée est difficile à
distinguer d’une LAL L2 sur les frottis médullaires. Les types LAM M1, LAM M2 et LAM M3 ont
une différentiation granulocytaire. Le type M4 ou leucémie aiguë myélomonocytaire a une double
composante granulocytaire et monocytaire. Le type M5 est essentiellement monocytaire et le type
M6, ou erythroleucémie, a une double composante granulocytaire et érythroblastique. Enfin le type
M7 a une composante mégacaryocytaire.
Classes Description de la leucémie
LAM M0 Leucémie indifférenciée
LAM M1 Leucémie myéloblastique sans maturation
LAM M2 Leucémie myéloblastique avec maturation
LAM M3 Leucémie promyélocytaire
LAM M4 Leucémie myélomonocytaire
LAM M5 Leucémie monocytaire
LAM M6 Erythroleucémie
LAM M7 Leucémie à mégacryoblastes
Tableau 7.2. Classification des LAM.
93
3. Diagnostic des leucémies aiguës
3.1. Diagnostic positif
Les LA peuvent être découvertes fortuitement lors d’un examen de santé ou suite à une
symptomatologie clinique dominée par des syndromes hémorragiques, infectieux et anémiques. Ces
signes cliniques sont révélateurs d’une insuffisance médullaire. Les manifestations tumorales sont
représentées par une hépato-splénomégalie (augmentation du volume du foie et de la rate). Un bilan
est effectué pour affirmer le diagnostic et préciser le type de leucémie aiguë. Ce bilan englobe en plus
de l’hémogramme et du médullogramme, des examens complémentaires qui incluent des réactions
cytochimiques, certains dosages biochimiques l’immunophénotypage, l’établissement du caryotype et
des examens radiologiques.
Hémogramme (formule et numération sanguines) : Cet examen permet de déterminer le nombre de

globules blancs (leucocytose), de globules rouges et de plaquettes. De plus il permet de calculer les
constantes hématopoïétiques. Enfin, il identifie les cellules leucémiques dans le sang périphérique.
Médullogramme (ou Myélogramme) : consiste à déterminer le pourcentage des cellules sur un frottis
confectionné à partir du produit de la ponction médullaire. Cet examen est indispensable au
diagnostic des LA. Il permet de confirmer le diagnostic et d’établir la classification
cytomorphologique. C’est aussi sur cette ponction que sont réalisées les examens complémentaires à
savoir les tests cytochimiques, cytogénétiques et immunologiques. Le diagnostic de LA est retenu
lorsque le pourcentage des cellules blastiques (cellules immatures) est supérieur à 30 % des cellules
médullaires (cf. figure 7.1).
Figure 7.1. Fiche de résultat du médullogramme
94
Réactions cytochimiques: Elles consistent à produire des réactions chimiques au sein

même de la cellule. La lecture se fait sur lame au microscope. Le tableau 7.3 illustre les
réactions cytochimiques les plus utilisées (Bain, 1991).
Lignées cellulaires
Réactif Granulocytaire Monocytaire Erythrocytaire Lymphoc ytaire
Noir Soudan + + - -
Myélopéroxydase + + - -
Chloracétate estérase + - - -
Butyrate estérases - + - -
+
dysplasique
Periodic acid Schiff + - -
ou
leucémique
Tableau 7.3. Réactions cyto-chimiques
3.2. Critères de classification
Les critères de classification sont obtenus à partir des données de la ponction médullaire. Ils sont
regroupés en trois grands types de paramètres qui sont : les paramètres du médullogramme (cf.
figure 7.1), les paramètres cytochimiques (cf. tableau 7.3) et les paramètres morphologiques pour
LAL (cf. tableau 7.1).
Les paramètres morphologiques du médullogramme : Ils sont au nombre de trente -quatre , ils sont
classés en cinq groupes : (cellules blastiques, lignées granulocytaires, érythrocytaires, lymphocytaires
et monocytaires).
Les paramètres cytochimiques : Ils sont représentés par six réactions : le noir Soudan, le
myélopéroxydase, le chloracétate estérase, le butyrate estérase, le PAS « Periodic Acid Schiff » et
les lysozymes. La positivité ou la négativité de chaque réaction chimique est observée sur les cellules
médullaires et le pourcentage de cellules positives est déterminé. Le lysozyme est dosé dans le sérum
et l’urine et est souvent élevé dans le cas de LAM M4 ou LAM M5.
Les paramètres morphologiques pour LAL : sept paramètres morphologiques ont été utilisés pour
discriminer les différents types de LAL (cf. tableau 7.1).
4. Résultats
4.1. Données cliniques
Les données cliniques ont été recueillies au laboratoire d’hématologie (Cliniques Universitaires Saint-
Luc, Bruxelles, Belgique). Ces données contiennent 191 cas de LA incluant : 129 cas de LAM et 62
cas de LAL. Chaque cas a été identifié selon son groupe cyto-pathologique comme il était établi
précédemment par le diagnostic hématologique. Toutes les données ont été établies selon la
classification FAB. Le tableau 7.4 récapitule le nombre de cas de LA utilisés dans l’apprentissage et
95
le test. L’ensemble d’apprentissage a servi pour ajuster les performances et les paramètres des
prototypes des classes. L’ensemble de test a été utilisé pour déterminer les performances des
méthodes développées. Chaque cas de LA est décrit par quarante-sept paramètres. Neuf classes
de LA (LAM M1, LAM M2, LAM M3, LAM M4, LAM M5, LAM M6, LAL L1, LAL L2 et
LAL L3) ont été utilisées dans cette application. Les classes LAM M0 et LAM M7 n’ont pas été
prises en considération du fait que la LAM M0 est morphologiquement difficile à distinguer de la
LAL L2 et son diagnostic nécessite la recherche de marqueurs immunologiques myéloïdes. La LAM
M7 représente une forme rare de leucémie aiguë myéloblastique. Elle nécessite la microscopique
électronique et la mise en évidence de marqueurs immunologiques spécifiques pour l’individualiser.
Classes de LA Ensemble d’apprentissage (n = 108) Ensemble de test (n = 83)
LAM M1 12 11
LAM M2 10 11
LAM M3 14 7
LAM M4 11 11
LAM M5 13 9
LAM M6 13 7
LAL L1 11 13
LAL L2 12 10
LAL L3 12 4
Tableau 7.4. Nombre de cas de LA dans l’ensemble d’apprentissage et de test
4.2. Evaluation des performances et interprétation des résultats
Les procédures décrites dans la partie B de la thèse ont été programmées en langage C sur un
Pentium 90. Les résultats obtenus ont été comparés à ceux obtenus précédemment par les
hématologistes afin de déterminer le taux de classification correcte pour chaque type de LA. Ce taux
est calculé en divisant le nombre de cas bien classés par le programme par le nombre total des cas
testés.
Les résultats obtenus par PROAFTN sont donnés sous forme de degrés d’appartenance floue. Le
plus haut degré d’appartenance correspond à la classe d’affectation du cas donné (cf. Chap. 5). Les
résultats du PROCTN sont présentés par des flux nets. Chacun de ces flux représente le score du
prototype d’une classe. La plus haute valeur est associée à la classe la plus favorable (cf. Chap. 4).
Dans PROCFTN les résultats sont exprimés sous forme de valeurs de scores flous (cf. Chap. 6). La
plus haute valeur du score correspond à la classe la plus plausible.
96
4.3. Exemple
Afin d’illustrer nos résultats, nous proposons le cas suivant diagnostiqué comme LAM M2 par
l’hématologiste. Les valeurs des critères de ce cas sont données dans les tableaux 7.5 et 7.6
Groupes % des cellules Groupes % des cellules
Cellules Blastiques Lignée monocytaire
Blaste I 48 Monoblastes 0
Blaste II 35 Promonocytes 0
Blaste avec corps d’Auer 0 Monocytes 1
Total des blastes 83 Total de la lignée monocytaire 1
Lignée granulocytaire Lignée lymphocytaire
Myéloblastes 0 Lymphoblastes 0
Promyélocytes I 0 Lymphocytes peu différenciés 0
Promyélocytes II 1 Lymphocytes mûrs 1
Myélocytes neutrophiles 2 Lymphocytes atypiques 0
Myélocytes éosinophiles 0 Total de la lignée lymphocytaire 1
Métamyélocytes neutrophiles 2
Métamyélocytes éosinophiles 0
Neutrophiles 5
Eosinophiles 0
Basophiles 0
Total de la lignée granulocytaire 10
Lignée érythroblastic
Pronormoblastes 0
Normoblastes basophiles 1
Normoblastes polychromatophiles 3
Normoblastes acidophiles 0
Normoblasts pycnotic 0
Promégaloblastes 0
Mégaloblastes basophiles 0
Mégaloblastes polychromatophiles 0
Mégaloblastes acidophiles 0
Mégaloblastes pycnotic 0
Total de la lignée érythroide 4
Tableau 7.5. Valeurs des critères morphologiques
Réactifs Intensité Pourcentage de cellules positives
Noir Soudan +1 10
Myélopéroxydase +1 5
Chloro-acétate estérase +1 20
Butyrate estérase +1 1
Interprétation : +1= réaction positive ; -1= réaction négative.
Tableau 7.6. Valeurs des critères cytochimiques
97
Après introduction des valeurs des critères, nous avons obtenu les résultats suivants :
Résultats obtenus par la procédure PROAFTN
Les différentes valeurs du degré d’appartenance floue aux différents types de leucémies aiguës sont :
Résultats de la PROAFTN
LAM
Degré d’appartenance flou à la classe LAM M1 est : d(M1) = 0.850625
Degré d’appartenanc e flou à la classe LAM M2 est : d(M2) = 0.983333
LAL
Degré d’appartenance flou à la classe LAL L1 est : d(L1) = 0.000000
La plus haute valeur du degré d’appartenance floue (0.983333) correspond à la LAM M2 ; donc ce
cas sera affecté à la classe LAM M2.
Résultats obtenus par la procédure PROCTN
Les différentes valeurs des flux nets de chaque prototype de chaque classe de LA sont :
Résultats de la PROCTN
LAM
Le flux net de la classe LAM M1 est : phin(M1) = 0.472126
Le flux net de la classe LAM M4 est : phin(M4) = -0.105103
LAL
Le flux net de la classe LAL L1 est : phin(L1) = -0.864250
98
La plus haute valeur du flux (1.315875) correspond à la classe LAM M2. Donc le plus proche
voisin à ce cas est le prototype de la classe LAM M2. Ainsi, le type LAM M2 est le plus favorable
à ce cas.
Résultat obtenu par la procédure PROCFTN
Les différentes valeurs des fonctions de score flou de prototype de chaque type de LA sont :
Résultat de la PROCFTN
LAM
Le score de la classe LAM M1 est : s(M1) = 0.154950
LAL
Le score de la classe LAL L1 est : s(L1) = 0.018868
La plus haute valeur du score flou est s(M2) = 1, qui correspond à la classe LAM M2. Donc le plus
proche voisin à ce cas est le prototype de la classe LAM M2. Ainsi, le type LAM M2 est le plus
favorable à ce cas.
4.4. Résultats de classification
Les procédures ont été testées sur 83 nouveaux cas de LA (cf. tableau 7.4, ensemble de test)
diagnostiquées au laboratoire d’hématologie. Les pourcentages de classification correcte et
incorrecte de chaque méthode sont donnés dans le tableaux 7.7. Les résultats obtenus par la
procédure PROCFTN sont les mêmes que ceux obtenus par la procédure PROAFTN ; on a trouvé
96.4 % de cas bien classés. 90% de cas ont été bien classé par la procédure PROCTN. Ce
pourcentage est inférieur à celui obtenu par les deux autres procédures.
99
PROAFTN PROCTN PROCFTN

Classes de LA
CC* (%) CI** (%) CC* (%) CI** (%) CC* (%) CI ** (%)
LAM M1 100 0 100 0 100 0
LAM M2 100 0 100 0 100 0
LAM M3 56 44 56 44 56 44
LAM M4 100 0 91 9 100 0
LAM M5 100 0 88 12 100 0
LAM M6 100 0 72 28 100 0
LAL L1 100 0 100 0 100 0
LAL L2 100 0 100 0 100 0
LAL L3 100 0 100 0 100 0
Total 96.4 3.6 90 10 96.4 3.6
* **
CC : classification correcte ; CI : classification incorrecte.
Tableau 7.7. Résultats de classification des trois procédures
Les 3.6 % de cas mal classés par les procédures PROAFTN et PROCFTN correspondent à trois
cas de type LAM M3. Sur ces trois cas, on a deux cas qui ont été classés comme LAM M1 et un
cas qui a été classé comme LAM M2. Les 10 % d’erreurs obtenus par PROCTN correspondent à
sept cas : trois cas de LAM M3, un cas de LAM M4, un cas de LAM M5 et deux cas de LAM
M6. Sur les trois cas de LAM M3 on a deux cas qui ont été classés LAM M1 et un cas qui a été
classé comme LAM M2. Le cas de LAM M4 a été classé comme LAM M1 et le cas de LAM M5
a été classé comme LAL L2. Sur les deux cas de LAM M6 on a un cas qui a été classé comme
LAM M2 et l’autre comme LAL L3.
En observant les degrés d’appartenance floue obtenu par la procédure PROAFTN dans certains cas
de LA (LAM M1 et LAM M2 d’une part, et LAM M4 et LAM M5 d’autre part), nous constatons
que le degré d’appartenance floue du type effectif dépasse légèrement ceux des autres types. Ceci
montre la difficulté de prendre une décision claire concernant la classe d’affectation dans ces cas.
Par contre, la valeur du score flou de prototype de la classe effective obtenu par PROCFTN est
strictement supérieur aux valeurs des scores des prototypes des autres classes. Ceci montre que la
procédure PROCFTN discrimine mieux entre les différents types de LA.
5. Discussion et conclusion
Les méthodes développées produisent de bons résultats en terme de discrimination entre les
différents types de LA. Les résultats obtenu avec les procédures PROAFTN et PROCFTN sont
légèrement supérieurs à ceux de la procédure PROCTN. Ceci peut s’expliquer par le fait que la
procédure PROCTN ne tient pas en compte des seuils de discrimination et de veto. Par opposition à
d’autres approches de classification nos procédures offrent plusieurs avantages. Le premier avantage
est que nos procédures peuvent combiner les deux types d’apprentissages à savoir l’apprentissage
inductif (cas cliniques) et l’apprentissage déductif (ensemble de règles de classification, e.g., critères
de classification F.A.B). Ceci facilite la construction des prototypes et l’interprétation des résultats
par l’utilisateur. Le deuxième avantage est que ces procédures sont explicatives dans la mesure où
elles sont susceptibles de donner une argumentation compréhensible de leurs résultats au décideur.
Le troisième avantage, est spécifique aux procédures PROCFTN et PROAFTN ; il découle de
100
l’utilisation des seuils de veto et des indices de discordance. Ceci permet de prendre en
considération la compensation entre les différents critères quand ils sont en conflit. De plus,
l’avantage principal qu’on peut tirer de cette application est que les procédures développées peuvent
être combinées avec la microscopie assistée par ordinateur pour analyse d’images cellulaires. Ceci
pourrait permettre d’automatiser la lecture des frottis médullaires et identifier automatiquement les
différents types de LA.
En conclusion, ces résultats montrent que les procédures développées peuvent être appliquées avec
succès dans le problème de l’aide au diagnostic des LA.
101
Chapitre 8 : Application dans le domaine histopathologique des tumeurs

25
Astrocytaires
1. Généralités et classification histopathologique
Les tumeurs gliales font partie des tumeurs du cerveau. Elle comprennent trois types histologiques à
savoir les tumeurs astrocytaires, les tumeurs oligodendrogliales et les tumeurs épendymaires (Daumas
et al., 1987 ; Kleihues et al., 1993). Ces tumeurs sont détectées par diverses techniques d’imagerie
médicale réalisées suite à une symptomatologie évocatrice. Parmi les techniques d’imagerie les plus
utilisées, nous citerons la résonance magnétique nucléaire et la tomographie à positron (PET-SCAN)
(Appuzo, 1995). L’image produite par ces images sert à localiser la tumeur afin que le
neurochirurgien réalise l’exérèse ou la biopsie stéréotactique. Cette dernière consiste à introduire
une aiguille jusqu’à la masse tumorale comme c’est illustré dans la figure 8.1 (Appuzo, 1995). Il en
résulte l’obtention d’un matériel qui est soumis au pathologiste pour l’analyse histologique du tissu
tumoral et la détermination de niveau d’agressivité de la tumeur.
Un très grand nombre de recherches ont focalisé leur travaux sur la caractérisation du niveau
d’agressivité des tumeurs du cerveau. Plusieurs domaines incluant l’histologie, l’intelligence artificielle,
les statistiques, l’analyse de données et l’analyse d’images ont été utilisés dans le but de déterminer
les groupes de tumeurs de degré d’agressivité similaire (Bartels et al., 1989 ; 1996 ; Jelonek et al.,
1997 ; Decaesteker et al., 1996 ; 1997).
Figure 8.1. L’approche de la biopsie stéréotactique associée à l’imagerie assistée par ordinateur
(d’après Appuzo, 1995)
La reconnaissance de ces groupes est importante dans la mesure où elle permet de comprendre la
progression de la tumeur, de déterminer le pronostic global de l’atteinte cérébrale et de dégager une
classification. En pratique la classification histopathologique est de loin la plus utilisée. Elle consiste à
25
Ce chapit re est en partie basé sur les résultats présentés dans Belacel et al. (1999a).
102
Application dans le domaine histopathologique des tumeurs Astrocytaires
subdiviser chacun des groupes histopathologiques en grades. Chaque grade est défini par un degré
de malignité particulier. A chacun de ces degrés de malignité est associé un pronostic. Ainsi, dans le
cas des tumeurs astrocytaires, qui font l’objet de cette application, la classification proposée par
l’Organisation Mondiale de la Santé (OMS) distingue les tumeurs de grade II (astrocytomes, notés
AST), les tumeurs de grade III (astrocytomes anaplasiques, notés ANA) et les tumeurs de grade IV
(glioblastomes, notés GBM ) (Kleihues et al., 1993). Dans cette application les tumeurs de grade I
(astrocytomes pilocytique) n’ont pas été prise en considération par manque de données. Les trois
groupes de tumeurs (AST, ANA et GBM) sont divisés en deux niveaux d’agressivité (ou grading).
Les AST sont considérées comme étant des tumeurs de bas grade de malignité tandis que les ANA
et les GBM sont des tumeurs de haut grade de malignité. Les critères de classification utilisés par les
pathologistes pour définir ces grades histopathologiques sont de nature morphologique. Ils incluent
les caractéristiques cytologiques et histologiques (cf. tableau 8.1, Decaestecker, 1997). Ces critères
sont de nature qualitatifs, c’est-à-dire, ils sont donnés sous forme d’appréciation ou de valeurs
linguistiques comme «faible » ou «élevé », et non pas sous forme de valeurs quantitatifs. Ainsi, la
détermination du degré de malignité d’une tumeur astrocytaire s’effectue d’une manière subjective, et
par conséquent une imprécision des valeurs pronostics associées aux grades histopathologiques. Afin
de remédier à cette difficulté beaucoup de travaux récent ont développé des méthodologies qui
permettent de décrire de manière quantitative les critères cytologiques (Jelonek et al., 1997 et
1998). Cette méthodologie est basée sur l’utilisation de la microscopie assistée par ordinateur qui
permet de générer des variables quantitatives. Nous avons utilisé ces variables pour déterminer les
performances des procédures développées dans les chapitres précédents.
Grade des Critères histologiques Critères cytologiques
tumeurs
astrocytaires
AST - Cellularité: faible à modérée - Atypies nucléaires: peu marquées et

rares
- Mitoses: absence
ANA - Cellularité: modérée à élevée - Atypies nucléaire: nombreuses

- Prolifération vasculaire (foyers)
- Mitoses: nombreuses
GBM - Cellularité: élevée Prolifération - Atypies nucléaires: nombreuses et

vasculaire importante marquées (diffus)
- Nécrose - Mitoses: nombreuses et parfois
- Pseudopalissadisme cellulaire atypiques
Tableau 8.1. Critères histologiques et cytologiques pour la détermination du grade de malignité des
tumeurs astrocytaires
2. Approche diagnostic des tumeurs astrocytaires par microscopie assistée par

ordinateur
Nous allons présenter dans ce paragraphe la technique utilisée pour le diagnostic des tumeurs
astrocytaires à l’aide de la microscopie assistée par ordinateur. Cette technique est employée au
laboratoire d’Histologie de la faculté de Médecine à l’Université Libre de Bruxelles.
103
Après prélèvement du tissu (biopsie stréotactique ou exérèse) celui-ci est coloré par la technique
dite de Feulgen. Cette coloration permet de décrire de manière quantitative le contenu
stoechiométrique de l’acide désoxyribonucléique (ADN). De cette façon, lors de la numérisation de
l’image seule la chromatine du noyau cellulaire est prise en considération. En générale la chromatine
constitue l’un des critères les plus fiables pour évaluer le degré de malignité des tumeurs. Une fois
que l’échantillon a été traité selon la coloration de Feulgen, l’image analogique, telle qu’elle est
perçue par l’œil humain à travers le microscope, est transformée à l’aide d’une caméra en une image
segmentée. Ensuite, un processus de traitement d’image va générer sur base de l’image segmentée et
de l’image analogique, un certain nombre de paramètres morphonucléaires décrivant le noyau de la
cellule (la taille, la quantité de la chromatine, etc.). La figure 8.2 schématise les différentes étapes
réalisées par la microscopie assistée par ordinateur. Les principales étapes sont :
L’acquisition des images par des capteurs adaptés.
L’échantillonnage et la quantification menant à l’obtention de l’image numérique.
La segmentation qui consiste à discerner les différents objets qui composent l’image c’est-à-dire les
noyaux cellulaires.
La paramétrisation qui génère une série d’attributs (ou critères) décrivant les objets pour constituer
les fichiers de données quantitatives.
Traitement des données en utilisant l’une des méthodes de classification.
104
Figure 8.2. Différentes étapes du diagnostic des tumeurs astrocytaires par microscopie assistée par
ordinateur (d’après puech, 1996)
3. Critères de classification des tumeurs astrocytaires générés par microscopie

assistée par ordinateur
Les critères de classification sont générées par microscopie assistée par ordinateur de type SAMBA
(Système d’Analyse Microscopique à Balayage Automatique, Alcatel- TITN, Grenoble, France).
Les mesures sont réalisées sur une sélection de 600 à 1600 noyaux par tumeurs, dont l’image
analogique est soumise à une numérisation. Chaque pixel i de l’image nucléaire sera caractérisé par
une valeur numérique de densité optique (ODi, optical density) s’échelonnant de 1 à 255 niveaux de
105
gris et quantifiant l’intensité de la coloration. Cette numérisation permet de dégager des variables
cytologiques quantitatives pour chaque tumeur. Ces variables sont données comme suit :
3.1. Variables morphonucléaires
Les critères morphonucléaires sont au nombre de quinze. Ils décrivent d’une manière quantitative la
morphologie des noyaux cellulaires. Parmi ceux-ci on distingue un paramètre morphométrique
décrivant la taille du noyau, deux paramètres densitométriques décrivant la qualité et la concentration
de l’ADN et douze paramètres texturaux, décrivant l’organisation, la distribution et la texture de la
chromatine nucléique.
3.1.1. Critère morphométrique
Ce critère décrit la taille du noyau par l’évaluation du nombre de pixels occupés par le noyau. Il est
noté NA pour Nuclear Area. Le critère NASD est la déviation standard de NA qui est calculé sur la
population de noyaux décrivant d’une manière quantitative le degré d’anisonucléose (i.e., la variation
des tailles des noyaux cellulaires).
3.1.2. Critères densitométriques
Ces critères sont relatifs à la densité optique des noyaux. Il sont en nombre de cinq :
- Densité optique intégrée (IOD) : exprime le contenue en ADN du noyau.
- Densité optique moyenne (MOD) : représente la valeur moyenne de l’ensemble

des densités optiques du noyau.
- Indice d’asymétrie (SK) : donne une indication sur la densité globale du noyau.
- La variance de la densité optique (VOD) : apporte une information globale quant

à l’hétérogénéité des valeurs de densité globale.
- L’indice d’aplatissement (K) : décrit l’homogénéité de la distribution de la

chromatine au sein du noyau de la chromatine.
3.1.3. Critères texturaux
Ces critères caractérisent l’organisation des tâches denses dans les noyau. Ils témoignent de la
condensation de la chromatine. Ils sont en nombre de neuf :
- Critère SRL (Short run length) : évalue la fréquence des longues sections de la chromatine
au sein du noyau.
- Critère LRL (long run length) : évalue la fréquence des longues sections de chromatine au
sein du noyau.
- Critère GLD (gray level distribution) : exprime l’uniformité des niveaux de gris dans le
noyau.
- Critère RLD (run length distribution) : caractérise la distribution des longueurs de sections.
106
- Critère RLP (run length percentage) : mesure le nombre de longueurs de section par unité de
surface.
- Critère LM (local mean) : donne le niveau d’intensité moyen du noyau.
- Critère E (energy) : donne la proportion de régions pâles dans le noyau.
- Critère CV (coefficient of variance) : donne l’homogénéité du faciès chromatien décrit par le

critère LM et le critère E.
- Critère C (contrast) : donne l’importance des frontières entre les régions nucléaires
d’intensité différentes.
3.2. Critères décrivant le taux de ploïdies
Le taux de ploïdie est défini par le nombre de fois que le noyau cellulaire contient la garniture
chromosomiale haploïde spécifique de l’espèce (23 chromosomes pour l’humain). Les critères
caractérisant le taux de ploïdies sont définies à partir de l’histogramme d’ADN. Ces critères
comportent deux paramètres décrivant la forme globale de l’histogramme DHT (DNA histogram
type et DI, DNA index) et sept autres précisent les proportions des différentes sous-populations de
noyaux constituant l’histogramme. Le pourcentage de cellules diploïdes (%2C), hyperdiploïdes
(%H2C), triploïdes (%3C), hypertriploïdes (%H3C), tétraploïdes (%4C), hypertétraploïdes
(%H4C) et polyploides (%H5C) (cf. figure 8.3).
Figure 8.3. Caractérisation des sous-populations cellulaires au sein d’un histogramme d’ADN grâce
aux variables décrivant le taux de ploïdie (d’après Decaesteker, 1997)
L’ensemble des critères de classification générés par microscopie assistée par ordinateur sont
résumés dans le tableau 8.2.
107
Critères Description des critères

DI Indice d’ADN
%2C Pourcentage de cellules diploïdes
%3C Pourcentage de cellules triploïdes
%4C Pourcentage des cellules tétraploïdes
%H2C Pourcentage de cellules hyperdiploïdes
%H3C Pourcentage de cellules hypertriploïdes
%H4C Pourcentage de cellules hypertétraploïdes
%H5C Pourcentage de cellule s pentaploïdes
%ANEUP Pourcentage de cellules aneuploïdes
CH3DI Indice d’ADN hypertriploïdes
NA Taille du noyau
NASD Variation des tailles des noyaux cellulaires
IOD Densité optique intégrée
MOD Densité optique moyenne
SK Indice d’asymétrie
VOD Variance de la densité optique
K Indice d’aplatissement
SRL Fréquence des courtes sections de la chromatine
LRL Fréquence des longues sections de la chromatine
GLD Distribution des niveaux de gris
RLD Distribution des longueurs de sections
RLP Nombre de longueurs de section par unité de surface
LM Niveau d’intensité moyen d’un noyau
E Energie
CV Variance des coefficients
C Contraste
Tableau 8.2. Critères de classification générés par microscopie assistée par ordinateur.
4. Résultats
4.1. Données cl iniques

Les données cliniques (valeurs des paramètres) ont été fournis par le Dr. Decaestecker du
Laboratoire d’Histologie (Faculté de Médecine, Université Libre de Bruxelles). Ces données
contiennent 250 cas de tumeurs astrocytaires divisés en trois groupes histopathologiques : 39 cas
d’astrocytomes (grade II, AST), 47 cas astrocytomes anaplasiques (grade III, ANA) et 164 cas de
108
glioblastomes (grade IV, GBM). Chaque cas est décrit par 26 critères quantitatifs générés par
microscopie assistée par ordinateur (cf. tableau 8.2) .
4.2. Evaluation des performances et interprétation des résultats
Les méthodes développées dans la partie B de la thèse ont été programmées en langage C sur un
Pentium 90. Elles ont été ensuite testées en utilisant la technique de validation croisée en 10 blocs
(10-fold cross validation) (cf. Partie A, chap. 1 ; § 4). Les résultas de performances obtenus par les
procédures développées ont été comparés aux résultats donnés précédemment par
l’histopathologiste et le pourcentage moyen de cla ssification correcte de chaque grade a été
déterminé. Les résultats obtenus par PROAFTN sont donnés sous forme de degré d’appartenance
floue. Le plus haut degré correspond à la classe d’affectation du cas donné (cf. Chap. 5). PROCTN
détermine un sous ensemble de prototypes les plus proches d’un cas donné à affecter en calculant
les flux nets sur chaque prototype (cf. Chap. 4). PROCFTN détermine un sous ensemble de
prototypes les plus ressemblants à un cas donné en calculant la fonction du score flou pour chaque
prototype (cf. Chap. 6).
4.3. Exemple
Afin d’illustrer nos résultats, nous proposons le cas suivant diagnostiquer par l’histopathologiste
comme étant une tumeur astrocytaire du grade III (ANA). Les valeurs des critères de ce cas sont
données dans les tableaux 8.3.
109
Critères Valeurs des critères

DI 1.3
%2C 16
%3C 14
%4C 4
%H2C 51
%H3C 6
%H4C 1
%H5C 9
%ANEUP 7
CH3DI 80
NA 446
NASD 235
IOD 3103
MOD 7
SK -14
VOD 349
K 299
SRL 2094
LRL 227
GLD 3773
RLD 398
RLP 645
LM 522
E 1886
CV 1691
C 16994
Tableau 8.3. Valeurs des critères utilisées dans l’exemple d’illustration
Après introduction des valeurs des critères dans le software, nous avons obtenu les résultats
suivants :
Résultats obtenus par la procédure PROAFTN
Les différentes valeurs du degré d’appartenance floue aux différents grades de tumeurs astrocytaires
sont :
Le degré d’appartenance floue au grade II (AST) est : d(AST) = 0.955556
Le degré d’appartenance floue au grade III (ANA) est : d(ANA) = 0.992857
Le degré d’appartenance floue au grade IV (GBM) est : d(GBM) = 0.905263
La plus haute valeur du degré d’appartenance floue (0.992857) correspond au grade ANA ; donc
ce cas sera affecté à la classe ANA.
110
Résultats obtenus par la procédure PROCTN
La plus haute valeur du flux net de chaque grade sont donnés comme suit :
Le flux net max du grade AST est : phin(AST) = 4.107143
Le flux net max du grade ANA est : phin(ANA) = 5.678572
Le flux net max du grade GBM est : phin(GBM) = 4.857143
La plus haute valeur du flux (5.678572) correspond au grade III (ANA). Donc le grade ANA est le
grade favori pour affecté ce cas.
Résultats obtenus par la procédure PROCFTN
Les valeurs les plus élevées du score flou des prototypes de chaque grade sont données ci-dessous :
Le score flou max du grade II (AST) est : s(AST) = 0.937786
Le score flou max du grade III (ANA) est : s(ANA) = 1.000000
Le score flou max du grade IV (GBM) est : s(GBM) = 0.942857
La valeur la plus élevée du score flou (1.000000) correspond au grade III (ANA). Donc le grade
ANA est la classe favorite pour affecter ce cas.
4.4. Résultats de classification

Par manque de données cliniques nous nous sommes intéressés dans cette application uniquement
aux performances des méthodes développées, i.e., les pourcentages moyens de classification. Les
tableaux 8.4, 8.5 et 8.6 représentent les résultats obtenus respectivement par PROAFTN, PROCTN
et PROCFTN. Les pourcentages moyens de cas bien classés étaient de 65 % pour PROAFTN , 63
% pour PROCTN et 66 % pour PROCFTN (cf. tableau 8.7).
Comme montre le tableau 8.4, 67 % des cas du grade II ont été bien classés par la procédure
PROAFTN. Sur les 33 % d’erreurs, 8 % de cas ont été classés comme grade III, 20 % comme
grade IV et 5 % comme grades II et III. Ces derniers cas ont été désignés comme étant des cas
non-discriminants du fait que la méthode attribue la même valeur de degré d’appartenance floue pour
les grades II et III ; donc il etait difficile de connaître le grade prédit par la méthode. Par ailleurs,
nous constatons que les degrés d’appartenance floue des cas mal classés, i.e., 28 %, dépassent
légèrement ceux du grade effectif obtenu par l’histopathologiste (i.e., grade II). Cette même
remarque a été notée avec les cas mal classés des grades III et IV. 68 % de cas de grade III ont été
bien classés par la procédure PROAFTN, 28 % ont été mal classés et 4 % de cas ont été
considérés comme étant non discriminants. Aucun cas du grade III n’a été classé comme grade II.
62 % de cas de grade IV ont été bien classés par la procédure PROAFTN, 15 % de cas ont été
classés comme grade II, 11 % de cas ont été classés comme grade III et 12 % de cas ont été
désignés comme étant non discriminants.
Comme montre le tableau 8.5. 62 % de cas du grade II ont été bien classés par la procédure
PROCTN. Sur les 38 % de cas mal classés, 8 % de cas ont été classés comme grade III, 27 %
comme grade IV et 3 % ont été désignés comme étant des cas non-discriminants. 62 % de cas de
grade III ont été bien classés par PROCTN, 30 % de cas ont été mal classés et 2 % de cas ont été
considérés comme étant des cas non-discriminants. Dans le grade IV, 66 % de cas ont été bien
111
classés par PROCTN et 34 % de cas ont été mal classés. Notons qu’aucun cas du grade IV n’a été
considéré comme étant non-discriminant par PROCTN.
Comme montre le tableau 8.6, 66 % des cas du grade II ont été bien classés par PROCFTN. Sur
les 34 % de cas mal classés 8 % ont été classés comme grade III, 21 % comme grade IV et 5 %
des cas ont été considérés comme étant non-discriminants. Dans le grade III, 68 % de cas ont été
bien classés par PROCFTN. Sur les 32 % de cas mal classés 28 % ont été classés comme grade
IV et 4 % comme grades II et III. Dans le grade IV 64 % de cas ont été bien classés par
PROCFTN, 12 % de cas ont été classés comme grade II, 13 % comme grade III et 11 % ont été
considérés comme étant des cas non discriminants.
Grade II III IV II+III * II+IV* III+IV* II+III+IV
*
II 67 8 20 5 0 0 0
III 0 68 28 0 2 0 2
IV 15 11 62 1 2 3 6
Tableau 8.4. Matrice de confusion indique en ligne les grades histopathologiques et en colonne les
grades prédits par PROAFTN. Les résultats sont exprimés en taux moyens (%) de
classification observés sur les 10 tests de la validation. * cas non-discriminant
Grades II III IV II+III * II+IV* III+IV* II+III+I
V*
II 62 8 27 0 3 0 0
III 6 62 30 0 2 0 0
IV 12 22 66 0 0 0 0
Tableau 8.5. Matrice de confusion indique en ligne les grades histopathologiques et en colonne
grades prédits par PROCTN. Résultats sont exprimés en taux moyens (%) de classification
observés sur les 10 tests de la validation. * cas non-discriminant.
Grades II III IV II+III * II+IV* III+IV* II+III+IV
*
II 66 8 21 5 0 0 0
III 0 68 28 4 0 0 0
IV 12 13 64 0 2 3 6
Tableau 8.6. Matrice de confusion indique en ligne les grades histopathologiques et en colonne les
grades prédits par PROCFTN. Les résultats sont exprimés en taux moyens (%) de
classification observés sur les 10 tests de la validation. * cas non-discriminant.
112
Classification Classification incorrecte Cas non-

correcte discriminants
PROAFTN 65.5 27.5 7
PROCTN 63.33 35 1.67
PROCFTN 66 26.5 7.5
Tableau 8.7. Résultas de classification des trois procédures évalués par validation croisée en 10
blocs. Les chiffres sont exprimés en pourcentage moyen de classification correcte et
incorrecte.
Dans l’ensemble les pourcentages moyens obtenus avec les procédures PROAFTN et PROCFTN
sont presque identiques. Un pourcentage un peu plus faible a été obtenu avec la procédure
PROCTN (cf. tableau 8.7).
Dans le but de situer nos méthodes développées par rapport à ceux déjà existantes, nous avons
comparé les performances de nos méthodes avec ceux publiés dans la littérature en utilisant les
mêmes données. Cinq classificateurs à savoir l’approche des réseaux de neurones (Perceptron
multicouches, MLP), la régression logistique 26, la méthode d’arbre de décision (C4.5) et la
méthodes des k plus proches voisins (cf. Partie A, Chap. 1) ont été utilisés pour classés les tumeurs
astrocytaires. Ces classificateurs ont été testés par Decaestecker (1997) sur les mêmes données
cliniques. Comme montre le tableau 8.8., aucun classificateurs n’a dépassé le taux moyen de 65 %
de classification correcte. On remarque que les meilleures performances ont été obtenues par les
méthodes de règles de production (système expert) et de régression logistique. Nos résultats sont
comparables à ceux obtenus par ces classificateurs27.
Classificateurs % de classifications correctes
Arbre de décision 53
Règle du production 65
Plus proche voisin 60
3-plus proches voisins 58
Régression logistique 65
Perceptron multicouche 64
Tableau 8.8. Résultats de classifications correctes de six classificateurs. Pour chaque classificateur
est indiqué le taux moyen de classification correcte observé sur les 10 tests de la validation.
5. Discussion et conclus ion
Dans l’ensemble les performances de classification obtenues par les trois procédures développées
sont insuffisantes. En effet, les procédures PROAFTN et PROCFTN produisent les meilleures
performances en terme de pourcentage moyen de cas bien classés. Les résultats obtenus par
PROCFTN et PROAFTN sont comparables à ceux obtenus par les classificateurs règle de
26
La régression logistique s’appuie sur un modèle de fonctions discriminantes utilisant une fonction exponentielle normalisée.
27
Nous n'avons pas pu appliquer les tests statist iques pour étudier la signification des différences entre nos résultats et ceux publiés
dans la littérature par manque de détails sur ces derniers.
113
production et régression logistique. Ces résultats montrent que les méthodes utilisant l’approche
d’aide multicritère à la décision sont en même rang que ceux utilisant d’autres algorithmes de
classification.
Cependant, les résultats de performances obtenus que ce soit avec nos méthodes développées ou
avec les classificateurs utilisés par Decaestecker (1997) sont en générale faibles. En effet, aucune
méthode n’a pu discriminer parfaitement les différents grades de tumeurs astrocytaires. Cette
difficulté peut être liée entre autre à l’hétérogénéité cytologique de ces tumeurs. Nos procédures
développées définissent de nouvelles classes (cas non discriminants) dont la signification clinique
n’est pas connue. D’autre part, notons que nos méthodes n’arrivent pas à séparer entre le haut et le
bas grade de malignités en se basant sur les paramètres générés par microscopie assistée par
ordinateur. Nous pensons que l’utilisation d’autres paramètres cliniques permettront de mieux
discriminer ces grades et ainsi améliorer le taux de classification. Des études réalisées par Jalonek et
al. (1997) ont montré que le fait de combiner les critères générés par microscopie assistée par
ordinateur avec les données cliniques permet d’améliorer d’une façon remarquable les performances
de classification.
De façon générale nos procédures offrent plusieurs avantages. Le premier avantage est qu’elles
peuvent combiner les deux types d’apprentissages à savoir l’apprentissage inductif (cas cliniques) et
l’apprentissage déductif (ensemble de règles de classification). Cet avantage facilitera la construction
des prototypes et l’introduction aisé des paramètres histologiques. Le deuxiè me avantage est que ces
procédures sont explicatives dans la mesure où elles sont susceptibles de donner une argumentation
compréhensible de leurs résultats au décideur. Le troisième avantage, est spécifique aux procédures
PROCFTN et PROAFTN. Il découle de l’utilisation des seuils de veto et des indices de
discordance. Ces seuils permettent de prendre en considération la compensation entre les différents
critères quand ils sont en conflit. Le dernier avantage provient de l’utilisation des sous-ensembles
flous. Cet avantage donnera la possibilité de prendre en considération les nuances qui existent entre
les différents grades de tumeurs.
Dans cette application nous avons attribué les mêmes poids d’importance aux différents critères. En
raison de la structure de données nous n’avons pas pris en considération l’effet du veto. Par ailleurs,
Il serait intéressant d’attribuer différents valeurs de poids d’importance aux différents critères et ainsi
vérifier leur importance dans chaque grade de tumeur astrocytaire.
Nous avons appliqué aussi la méthode PROAFTN pour diagnostiquer les tumeurs superficielles de la
vessie. Les résultats sont présentés dans l’Annexe C. Ils illustrent la capacité de la procédure à
séparer entre le haut et le bas grades de malignité des tumeurs superficielles de la vessie en se basant
uniquement sur les paramètres générés par microscopie assistée par ordinateur (Belacel et al.,
1999d). Cette séparation est capitale de point de vue thérapeutique et pronostic de ces tumeurs.
De façon générale, malgré que le taux d’erreur de classification de ces tumeurs soit élevé, les
résultats préliminaires sont encourageants et montrent que le domaine de l’aide multicritère à la
décision peut être appliqué avec succès pour résoudre certains problèmes de classification médicale.
114
CONCLUSION
115
Conclusion et perspectives
Le travail présenté dans cette thèse a montré le bien fondé des nouvelles procédures basées sur le
domaine de l’aide multicritère à la décision pour résoudre certains problèmes de classification. Notre
contribution dans le domaine de la classification a été d’abord de proposer de nouvelles méthodes
de classification multicritère, puis de les appliquer dans le domaine de l’aide au diagnostic médical.
Après une description générale des procédures de classification multicritère ainsi qu’une série de
principes fondamentaux caractérisant ces procédures, nous avons proposé trois nouvelles
procédures de classification. Ces procédures sont :
Procédure de choix dans le cadre de la problématique du tri nominal (PROCTN ). Le

principe de base de cette procédure consiste à choisir un sous-ensemble de prototypes les plus
proches d’un objet à affecter en calculant des flux nets utilisés dans la méthode PROMETHEE.
Pour affecter un objet, la procédure PROCTN procède comme la méthode des k plus proches
voisins (k-ppv). Mais, son avantage réside dans le fait que le nombre k n’est pas fixé a priori.

(PROAFTN). Elle consiste à construire des relations d’indifférence floues en généralisant les
indices (de concordance et de discordance) utilisés dans la méthode ELECTRE III. Ensuite, elle
détermine la classe d’affectation d’un objet donné sur base de ces relations floues. La procédure
PROAFTN se caractérise par une affectation graduelle (ou floue) des objets aux différentes
classes (cf. Belacel, 1998 ; 1999).
Procédure de choix flou dans le cadre de la problématique du tri nominal (PROCFTN).

Cette procédure combine le principe de choix utilisé par PROCTN et les indices d’indifférence
flous calculés par PROAFTN. La procédure PROCFTN est considérée comme étant une
généralisation de la procédure PROCTN. Elle utilise les fonctions de score flou afin de choisir les
prototypes qui ressemblent le plus à un objet à affecter (cf. Belacel et al., 1999e).
Ces nouvelles méthodes se distinguent de celles déjà publiées dans la littérature par le fait qu’elles
utilisent une modélisation fine des préférences pour décider d’affecter ou non un objet à une cla sse
prédéfinie. De plus, elles sont explicatives dans la mesure où elles sont susceptibles de donner une
argumentation compréhensible de leurs résultats au décideur.
Un autre aspect très motivant de ce travail concerne les applications de ces procédures dans le
domaine de l’aide au diagnostic médical. Nous avons appliqué ces trois procédures dans le domaine
cytopathologique des leucémies aiguës et histopathologique des tumeurs astrocytaires. Les résultats
obtenus sont satisfaisants et montrent la capacité de ces procédures à résoudre certains problèmes
de classification médicale (cf. Belacel et al., 1999a ; b ; c ; d).
Vu la pertinence de ces méthodes et leur capacité d’application à divers problèmes de classification,

nous pensons qu’il serait intéressant de valoriser notre travail en :
q Améliorant les performances de ces méthodes par optimisation des paramètres et en les
combinant à d’autres méthodes de classification, telle que l’arbre de décision.
116
q Adaptant les méthodes développées à des situations plus complexes où les objets sont
représentés par des intervalles flous et non pas par des nombres réels (Mudry et al., 1994 ;
Roubens et Vincke, 1988). Par exemple dans l’application des tumeurs astrocytaires, les
critères histopathologiques sont flous par nature puisque s’exprimant selon des termes
linguistiques ‘faible’, ‘moyen’, ‘fort’ (cf. tableau 8.1, Chap. 8 ; § 1). L’adaptation de nos
méthodes à ces situations permettrait d’intégrer à la fois des données histopathologiques,
telles que les pathologistes les utilisent, aux informations cytologiques quantitatives obtenues
par microscopie assistée par ordinateur.
q Elargissant le champ d’application à d’autres problèmes de classification. Parmi ces

problèmes, citons les problèmes des pannes de machines (Zwingelstein, 1995), les
problèmes d’astrophysique en classification des étoiles et des galaxies (Thayer et al., 1996 ;
Galaz et al., 1998 ; Royer et al., 1998), les problèmes de reconnaissance du territoire à
partir d’images satellitaires (Civco, 1991 ; Huurneman et al., 1996 ).
117
ANNEXES
Annexe A
Annexe A.
Analyse des propriétés de la procédure PROAFTN

Avant de prouver un résultat sur les propriétés de la procédure PROAFTN, nous proposons le
lemme suivant :
h
Lemme A.1. Soit I(a, bi ) l’indice d’indifférence de synthèse floue entre l’action a et l’action de
référence bih obtenu par PROAFTN. Et si la catégorie CH est la réunion des catégories C h1 et C h2 ,
alors l’égalité suivante est toujours vérifiée :
{ } { { } { }}
max i =1... LH I (a , biH ) = max max i =1 ... Lh I ( a, bih1 ) , max i =1... Lh I (a , bih2 ) ,
1 2
où L hi représente le cardinal de la classe C h pour i = 1, 2.

i
Preuve. Immédiate du fait que l’ensemble des actions de référence centrale est fini.
A partir de ce lemme on obtient le résultat suivant :
Théorème A.1.
La procédure PROAFTN que nous venons de décrire respecte les principes d’universalité,
d’indépendance, de neutralité, de nominalité et de stabilité, cités au chapitre 3 (Partie B, Chap. 3,
§2.3).
Preuve.
Nous démontrons ceci uniquement pour le cas où Ω 1 = {Ch ∈ Ω / d(a, C h) >λ}.
Universalité : En appliquant PROAFTN, on aura l’un des deux cas suivants :
1. pour tout a ∈ A et pour tout h ∈ {1, ..., k} on a
d(a, Ch) < λ ⇒ Ω1 = ∅ .
On en déduit donc que a ∉ Ch pour toute valeur de h.
2. pour tout a ∈ A, il existe au moins une classe C h, h = 1, …, k, vérifiant :
d(a, Ch) ≥ λ ⇒ Ω 1 ≥ 1.
Donc l’action a est affectée à une, plusieurs ou aucune catégorie, par conséquent la propriété
d’universalité est vérifiée.
Indépendance : PROAFTN affecte l’action a aux différentes catégories en la comparant uniquement

avec les actions de référence et indépendamment des autres actions de A. D’où le principe
d’indépendance est vérifié.
119
Annexe A
Neutralité : Elle est vérifiée par les conséquences de l’axiome 2 et par la définition du degré
d’appartenance d(a, Ch).
Nominalité : Le degré d’appartenance de l’action a à la catégorie Ch, d(a, Ch) est déterminé
indépendamment des autres catégories.
Pour tout h ∈ {1, …, k}, on a :
d(a, C h) ≥ λ ⇔ d(a, C σ(h)) ≥ λ,
où C σ(h) la catégorie obtenue en permutant l’indice de la catégorie h∈{1,…, k}, en indice σ(h) ≠ h et
σ(h) ∈{1,…, k}.
Ce qui implique que le principe de nominalité est vérifié.
Stabilité :
Pour la preuve de la condition nécessaire, qui peut s’interpréter comme étant la condition permettant
la division d’une catégorie, nous démontrons d’abord l’implication suivante :
(a ∈ C H) ⇒ (a ∈ C h et/ou a ∈ C h ),
1 2
l’affectation de l’action a à la catégorie CH implique que le degré d(a, CH), est égale au maximum
des indices d’indifférence I(a, biH) de l’action a avec les actions de référence biH, i = 1, …, LH, (H
est l’indice de la catégorie regroupant C h et C h ) est supérieur ou égale à λ . Ainsi, d’après le
1 2
lemme A.1, on a :
{ } { { }
max i =1... LH I (a , biH ) = max max i =1 ... Lh I ( a, bih1 ) , max i =1... Lh I (a , bih2 ) .
1 2
{ }}
{ { }
Puisque d(a, CH) ≥ λ, alors max max i =1... L I (a, bih1 ) , max i =1... L I (a, bih2 ) ≥ λ.
h1 h2
{ }}
Autrement dit
{max i =1 ... Lh1 {I ( a, b )}}≥ λ

i
h1
{ {
et/ou max i =1... L I (a, bih2 ) ≥ λ.
h2
}}
C'est-à-dire
d(a, C h1 ) ≥ λ et/ou d(a, C h2 ) ≥ λ,
donc a ∈ C h1 et/ou a ∈ C h2 par PROAFTN.
On démontre maintenant l’implication suivante :
(a ∉ Cl, ∀ l ≠ H) ⇒ (a ∉ Cl, ∀ l ≠ h 1 et l ≠ h2).
Si l’action a n’est pas affectée à la classe Cl , alors pour tout l ≠ H le degré d’appartenance à la
classe Cl ; d(a, C l) est strictement inférieur à la valeur λ. De plus, pour tout l ≠ H on a l ≠ h1 et l ≠
h2. Donc pour tout l différent de h 1 et de h 2 l’action a n’est pas affectée à la catégorie Cl. Ainsi, la
condition nécessaire est vérifiée. Pour la condition suffisante, qui peut s’interpréter comme étant la
120
Annexe A
condition permettant le regroupement de deux catégories, nous démontrons d’abord l’implication

suivante :
(a ∈ C h1 et/ou a ∈ C h2 ) ⇒ (a ∈ C )
H
Par définition on a
(a ∈ C h1 et/ou a ∈ C h2 ) ⇒ d(a, C h1 ) ≥ λ et/ou d(a, C h2 ) ≥ λ .
Autrement dit
[d(a, C h1 ) ≥ λ et/ou d(a, C h2 ) ≥ λ] ⇒
{ { }} {
[ max i =1 ... L I ( a , bih1 ) ≥ λ et/ou max i =1... L I (a , bih2 ) ] ≥ λ ,
h1 h 2
{ }}
cela entraîne que
{ 1
{ }} { h 2
{
[ max i =1 ... L I ( a , bih1 ) ≥ λ et/ou max i =1 ... L I ( a, bih 2 ) ≥ λ ] ⇒
h
}}
{ { }} {
[max( max i =1... Lh I (a , bih1 ) , max i =1... Lh I (a , bih2 ) ) ≥λ ].
1 2
{ }}
Ainsi d’après le lemme A.1 on a :
{ 1
{ }} { 2
{
[max ( max i =1... Lh I (a , bih1 ) , max i =1... Lh I (a , bih2 ) ) ≥ λ ] ⇒ }}
{
max i =1... LH I (a , biH ) ≥ λ . }
D’où
d(a, CH) ≥ λ ⇒ a ∈CH.
On montre maintenant l’implication suivante :
(a ∉ Cl, ∀ l ≠ h1 et l ≠ h2) ⇒ (a ∉ Cl, ∀ l ≠ H).
On sait que
(l ≠ h 1 et l ≠ h2) ⇒ (l ≠ H).
Ce qui implique
d(a,Ch1) < λ et d(a,Ch2) < λ ⇒ d(a, Cl) < λ avec l ≠ H.
On déduit que
(a ∉ Cl, ∀ l ≠ h 1 et l ≠ h2) ⇒ (a ∉ Cl, ∀ l ≠ H).
Par conséquent PROAFTN respecte le principe de stabilité.
121
Annexe A
CQFD
122
Annexe B
Annexe B.
Différents types de leucémies aiguës selon la classification F.A.B.
o Lignée prépondérante
Figure A.1. Leucémie aiguë de type M1
123
Annexe B
o Lignée prépondérante.
124
Annexe B
125
Annexe B
126
Annexe B
Figure A.5.1. Leucémie aiguë de type M5a
127
Annexe B
Figure A.5.2 Leucémie aiguë de type M5b
128
Annexe B
129
Annexe B
130
Annexe C
Annexe C.
PROAFTN: A fuzzy assignment method to grade bladder cancer

malignancy using features generated by computer-assisted image
analysis
Nabil BELACEL, Med-Rachid BOULASSEL
Publié dans Foundations of Computing and Decision Sciences (2000), 25 (1) :24-33.
131
Annexe C
PROAFTN: A FUZZY ASSIGNMENT METHOD TO GRADE

BLADDER CANCER MALIGNANCY USING FEATURES
GENERATED BY COMPUTER-ASSISTED IMAGE ANALYSIS.
28 29
Nabil BELACEL , Med-Rachid BOULASSEL
Abstract. We recently developed a new fuzzy classification method named PROAFTN, which uses
the multicriteria decision aid approach. The aim of this paper is to evaluate the performance of the
proposed method to grade bladder cancer malignancy. For this purpose, 292 cases of bladder tumors,
classified according to the old World Health Organization classification by a pathologist on three
subjective levels of malignancy (137 low grade, 124 intermediate grade and 31 high grade) were tested
using the 10-fold cross-validation technique. The features were generated by means of computer-
assisted microscope analysis of cell images and submitted to the PROAFTN method, which determines
the membership degrees of each case in each grade. In order to determine the accuracy of the
classification, results obtained by the method were compared to the subjective grading made by the
pathologist. The PROAFTN method yielded good results in terms of discrimination between low and
high grades, while it was unable to provide a satisfying discrimination within the heterogeneous
intermediate grade II group. These results seem to be in agreement with the literature concerning the
clinical heterogeneity of the intermediate grade. From these results, it will be essential in the future to
see whether any combination of other sets of features, such as clinical data, can better discriminate
between the grades.
1. Introduction
Since the introduction of computer-based methods for cell and tissue analysis to aid in medical
diagnosis, a number of important approaches have emerged in the classification of tumor malignancy.
Most attempts have been made using pattern recognition, statistics, machine learning, neural network,
rough sets and expert system methods [3,7,8,10,14,17,25]. Multicriteria decision aid (MCDA)
constitutes another approach to help medical classification problems. The MCDA approach can use the
preference relational system described by Roy in 1996 [20] and Vincke in 1992 [24]. It employs the
comparison between the alternatives through the scores of different attributes. Thus, the MCDA
approach avoids resorting to distance and allows using qualitative and/or quantitative attributes.
Besides, it helps to overcome some difficulties encountered when the data are expressed in different
units. However, only a few studies using MCDA approaches have been reported in medical
applications. In this context, we have recently developed a classification method called PROAFTN,
which belongs to the MCDA area. This method is part of the supervised learning algorithms, which all
follow the same scheme described by Perny in 1998 [19]. In this paper, we present the performances
of the proposed method in the grading of bladder cancer malignancy. The method and the
corresponding software were tested using the 10-fold cross-validation technique described by Weiss
and Kulikowski [25] on 292 cases of bladder tumors. According to the old WHO classification, bladder
tumors can be divided into three grades: grade I, grade II and grade III. Grade I covers low grade
tumors, whereas grade II and III include intermediate and high grades respectively. Most grade I
tumors are considered to have a good prognosis, while grade III is associated with a bad prognosis. In
contrast, grade II tumors are very heterogeneous in terms of their clinical behavior [18].
28
Institute of Statistical and Operational Research and Service de Mathématiques de la Gestion, Université Libre de Bruxelles, Bd.
Du Triomphe, C.P. 210/01, B-1050 Brussels, Belgium, e-mail: nbelacel@smg.ulb.ac.be.
29
Laboratory of Auto-immunity, Saint-Luc Hospital, Université Catholique de Louvain, Av. Hippocrate 54/5490, 1200 Brussels,
Belgium, e-mail: Rachid.Boulassel@mblg.ucl.ac.be.
132
Annexe C
2. Materials and methods

2.1. Procurement of data
All the microscope data used in this study were kindly provided by Dr. Decaestecker (Laboratory of
Histology, Faculty of Medicine, Université Libre de Bruxelles). The parameters were generated by
computer-assisted microscope analysis of cell images of Feulgen-stained sections from 292 bladder
tumors. The subjective grading made by the pathologists on the data set was: 137 grade I (low grade),
124 grade II (intermediate grade) and 31 grade III (high grade). The classification was made according
to the old World Health Organization (WHO) classification. The clinical characteristics related to this
data set as well as the parameter determination can be found in Decaestecker et al. [11, 12]. Each
case was defined by twenty-four parameters, which include nine parameters for nuclear
deoxyribonucleic acid measurements and fifteen others for quantitatively describing chromatin pattern
texture. Table 1 shows the quantitative description of the features generated by means of image
analysis (SAMBA 200 microscope image processor, Grenoble France). For each of the 292 cases of
bladder tumor under study, 400-1200 cell nuclei were analysed in the high-resolution mode described by
Kiss et al. [15-16]. The DNA ploidy level was assessed by means of the DNA types as described in
references [11,21,22]. The percentages of diploid, hyperdiploid, triploid, hypertriploid, tetraploid,
hypertetraploid and hyperpentraploid cell nuclei were determined by the DNA histograms as detailed
elsewhere [11]. The quantitative description of the morphonuclear features and chromatin texture
parameters can be found in [21-22].
Nuclear DNA content Morphonuclear features and chromatin texture parameters

DNA index Nuclear Area
% of Diploid Cell Nuclei Integrated Optical Density
% of Triploid Cell Nuclei Mean Optical Density
% of Tetraploid Cell Nuclei Skewness
% of Hyperdiploid Cell Nuclei Variance of Optical Density
% of Hypertriploid Cell Nuclei Kurtosis
% of Hypertetraploid Cell Nuclei Short Run Length
% of Pentaploid Cell Nuclei Long Run Length
% of Aneuploid Cell Nuclei Grey Level Distribution
Relative Distribution Frequencies
Relative Distribution Percentage
Local Mean
Energy
Coefficient Variance
Contrast
Table 1: Features generated by means of computer-assisted microscope analysis of cell images.
2.2 Description of the procedure
This chapter briefly describes the fuzzy assignment procedure PROAFTN (for more details see Belacel
[1, 2]). This procedure is part of the supervised learning algorithms and starts with a set of cases
designated as the training set. These cases are partitioned into mutually exclusive classes (e.g. grade -
related to bladder tumors) and are described by their values for a set of attributes (e.g. features
generated by means of computer-assisted microscope analysis of cell image). The rule for assigning
actions (i.e., cases) to classes is formulated as follows: “action ‘a’ is assigned to a class if and only
if ‘a’ is indifferent or (roughly) equivalent to at least one of the prototypes of this class”.
133
Annexe C
1 k
Let {g1,…,g n} be the set of attributes. Let us denote by Ω = {C ,…,C } the set of classes. Given an
action a, described by the score of n attributes, the different steps of the procedure are as follows:
0)- Initialization :
h h
{ h h h
}
For each class C , h=1,…,k, we determine a set of Lh prototypes B = b1 , b 2 ,..., b Lh by combining
the available knowledge (e.g., classification rules) with the data set (e.g., clinical cases). The
prototypes are considered as a good representative of their class and are described by the score of
h
each of the n attributes. More precisely, to each prototype b i and each attribute gj, j=1,…,n, an
1 h 2 h 2 h 1 h
interval [S j (bi ),S j (bi )] is defined, with Sj (bi )≥ Sj (b i ), j=1,…,n, h = 1,…,k and i= 1,…,L h. For
determining these intervals we follow the general scheme of the discretization technique described by
Ching et al. [6]. In addition, we determine the parameter values (weights, thresholds,…), which are
used to calculate the membership degree (MSD) of the action into classes. An initialization strategy is
used to propose the initial parameters (discrimination thresholds), which is adapted during the
optimization process. This strategy enables us to minimize the classification errors. The strategy
operates as shown in Figure 1.
Start
+ -
Set thresholds (qj and q j , j=1,…,n)
h
Set weights (wj , j=1,…,n and h= 1,…,k )
Assign objects from training set to classes.
Stopping Fit the parameters (weights and thresholds)

? No
Yes
Parameter validation
Stop
Figure 1: General Scheme of fitting parameters.
The parameter values are obtained from the available knowledge and after discussion with the
decision-maker.
1). Computing the indifference indices:
134
Annexe C
h
The method calculates the indifference indices I(a,bi ), h=1,…,k and i=1,…,L h, on the so-called
concordance and non-discordance principles [2, 19]. More precisely,
n n
I(a, bi ) = ( ∑ (Wj × Cj(a, bi ) )× ∏ (1 − D j (a , bih )) j ),
h h h wh
(1)
j =1 j =1
Where
h
Wj is the positive coefficient reflecting the relative importance attached by the decision-maker to an
h
attribute g j of the category C . It is not restrictive to normalize these coefficients for each category:
n
∑W
j =1
j
h
= 1 , ∀ h =1,…,k.
h
Cj(a, bi ), j=1,…,n, is the degree with which attribute g j is in favor of the indifference relation
h
between a and b i . Figure 1 illustrates how it is calculated. In this figure, two positive discrimination
+ h - h
thresholds d j(b i ) and d j(bi ), are used for taking into account the imperfection and the imprecision of
the data.
h
Dj(a, b i ), j = 1,…,n, is the degree with which attribute g j is against the indifference relation between
h - h + h
a and b i . Figure 2 illustrates how it is calculated. In this figure, veto thresholds v j(bi ) and v j(b i ), j=
h
1,…,n, are used to define the values for which a is considered as very different to b i for attribute g j.
h h
Expression (1) defining I(a, bi ) shows that this index increases with the quantities Cj(a, bi ) and
h
decreases with the quantities D j(a, bi ). For a more detailed analysis of all these indices, see
references [1,2, 4,5, 19].
C j(a, b ih)
g j(a)
1 h - h 1 h 2 h 2 h + h
S (b ) – d (b )
j i j i S (b )
j i S (b )
j i S (b ) + d (b )
j i j i
Figure 1: Graphical representations of the partial indifference index between the action a and the
h
prototype bi . This graph assumes continuity and linear interpolation.
135
Annexe C
Dj(a,b hi)
g j(a)
S j1(b ih) - v j- (b ih) S j1(bih) - dj- (bih) S j1(b ih) S j2(b ih) S j2(bih)+dj+(bih) S j2(b ih)+v j+(b ih)
Figure 2: Graphical representation of the partial discordance index with regard to the indifference
h
relation between the action a and the prototype bi . This graph assumes continuity and linear
interpolation.
h
2). Evaluating the MSD d(a, C ):
h h h
The MSD d(a, C ) of an action a to the class C , h=1,…,k, is defined by a set of prototypes B ,
h
h=1,…,k, and it is measured by the indifference degree between a and its nearest neighbor in B
according to the fuzzy indifference relation I:
{
d ( a, C h ) = max I (a , b1h ), I ( a, b2h ),..., I (a , b Lhh ) }
3). Assigning the action a:
h h
Once the MSD d(a, C ) has been computed for an action a and for classes C , h=1,…, k, a crisp
assignment decision of an action a is easily derivable using the following rule:
h h l
a∈C ⇔ d(a, C ) = max{d(a, C ) / l ∈ {1,…, k} }
2.3 Evaluation of performances
The method was tested using the 10-fold cross-validation technique as described previously by Weiss
and Kulikowski [25]. Briefly, the cases were randomly divided into 10 mutually exclusive test partitions
of approximately equal size. Training and testing are repeated ten times. In each iteration, nine
partitions constitute the training set and the remaining one plays the role of the testing set. The
percentage of correctly classified cases from the testing set is determined for all iterations. After
submitting the twenty-four parameter values to the PROAFTN method, it determines the MSD values
of the case for each grade. The highest MSD value corresponds to the favorite grade. Note that the
MSD value can vary between 0 and 1. The classification results obtained by the method were
136
Annexe C
compared to the subjective grading made by the pathologist and the correct classification percentages
were determined for each grade.
3 Results
3.1 Classification results
Table 2 summarizes the results obtained on the three histopathological grades of bladder tumors. The
results are recorded solely on the basis of the parameters generated by computer-assisted microscope
analysis of cell image. The average percentages of correct classification, misclassification and non-
discriminated cases were 59 %, 39 % and 2 % respectively. Two percent of the cases were
designated as non-discriminatory by the method because such cases presented the same highest MSD
value in at least two grades, hence, it was impossible to determine the effective grade. It follows that
additional grades can be defined by our method. These cases were observed in the grades I and III and
represent one case (3%) in each grade.
As shown in Table 2, 69 % of grade I cases were correctly classified, 28 % were classified as grade II
and 0 % were classified as grade III. The grade I cases which were classified as grade II present a
MSD value close to the MSD value of the effective grade (i.e. grade I). In fact, when we analyze the
MSD values of the misclassified cases (i.e. 28 %), we note that the difference between the MSD
value of such cases and the MSD value of the effective grade (i.e. grade I) do not exceed 0.04. This
indicates that it is very difficult for the decision-marker to discriminate clearly these cases from the
effective grade. However, there was no case belonging to the grade I group which was classified as
grade III, thereby indicating that the method discriminates sharply between grades I and III. In the
grade II group, 52 % of the cases were correctly classified, 39 % were classified as grade I and 9 %
were classified as grade III. Consequently 48 % of the cases were not correctly classified, suggesting
that the method yields poor results in terms of discrimination within the heterogeneous middle grade II
group. Moreover, with regard to the MSD values of the misclassified cases (48%), we note that their
MSD values slightly exceed the MSD values of the effective grade (intermediate grade), hence, it is
very difficult for the decision-marker to interpret these results. In the grade III group, 56% of the cases
were correctly classified, 38% were classified as grade II, and 3% were classified as grade I. Only
one case (3%) belonging to the high grade group was classified as low grade, suggesting that the
method produces very good results in terms of discrimination between grades III and I. This appears
very encouraging since the results are recorded solely on the basis of the features generated by means
of computer-assisted microscope analysis of cell image. However, the fact that 38% of grade III cases
were classified as grade II shows that there is a close resemblance between the parameters generated
by computer-assisted analysis of cell image in grades III and II. On the other hand, the results obtained
in the grade II group are, in general, worse than the corresponding ones in the grade I and III groups.
137
Annexe C
PROAFTN method
Effective grades according
Grade Grade Grade Grade* Grade*
to
I II III I+II+III II+III
WHO classification
Grade I 69 28 0 0 3
Grade II 39 52 9 0 0
Grade III 3 38 56 3 0
* Non-discriminatory cases.
Table 2: Indicates the average of the percentage of the correctly classified, incorrectly classified and
non-discriminated cases of bladder tumors estimated by the 10-fold cross-validation technique. Note
that, the last two columns correspond to the non-discriminated cases.
4 Discussion
Today the old WHO grading system ha s been substituted by a new one. Actually there are two new
virtually identical WHO grading systems: the new WHO system and the WHO/ISUP system [14].
Other systems of classification have tried to divide the bladder tumors into low and high grade, i.e., 1
and 2A on one hand and 2B and 3 on the other [13]. In this study the data sets were recorded using the
old WHO system as the base line. The complexity of bladder tumors, especially grade II, is such that
the method was unable to provide a full classification of all cases. However, despite the low average
percentage (59 %) of correctly classified cases, the method was able to distinguish between the low
and high grades solely on the basis of parameters generated by computer-assisted microscope analysis
of cell images. This is very encouraging since only one case belonging to the grade III group was
classified as grade I. In addition the MSD value of this case was close to the MSD value of the
effective grade, i.e., grade III. Our results also indicate that the sets of features computerized by
means of image analysis are reasonably discriminated for grades III and I. Thus, it should be possible
to use these features to achieve more objective malignancy grading of low and high grade bladder
tumors. Otherwise, 2% of the cases were designated non-discriminated by our method (see Table 2),
for which the effective grade cannot be determined because the same MSD value is given in at least
two grades. Consequently, additional grades can be defined by our method but with no identical
correlation to the conventional subjective malignancy grading of bladder tumors. From this, it clearly
appears that the features generated by means of computer-assisted image analysis are not sufficient
for a good discrimination between these cases. Thus, it would be interesting to see whether any
combination of other sets of parameters such as clinical features, could improve discrimination in such
cases. Our results also show that of the 124 grade II tumors under study, only half of them were
correctly classified, indicating that the method is unable to provide a satisfactory discrimination within
this intermediate grade. However, this result seems to be in concordance with the literature concerning
the clinical heterogeneity of the intermediate grade. The data reported in the literature agrees on
considering grades I and III as two distinct histopathological entities, while grade II tumors seem to be
a continuum between grades I and III [9, 23]. In the future, it would be worth testing whether any
combination of other features can subdivide the middle group cases into low grade II and high grade
II classes using clinical outcome as the endpoint without any concern as to whether we can fit our
results to the subjective grade II or not. In general, we believe that the results presented here are not
satisfactory, since the error rate was around 39 percent for all the test sets. However, it is important to
remember that we have only used the features generated by means of computer-assisted image
analysis. We think that it is essential that these features must be combined with other clinical data in
order to be of some relevance for analysis. Compared to other classification approaches, our method
offers several advantages. The first advantage is that the prior knowledge (i.e., classification rules) and
138
Annexe C
data (clinical cases) can be combined without any difficulty by our method, so it should be quite easy to
introduce new features in order to improve the accuracy of classification. The second advantage is that
it provides representative information about the different steps for calculating the MSD values. The
third advantage is that it offers the possibility to modify easily the classification criteria (prototypes) for
each grade and to assess the importance of the weight of each feature by interaction with the decision-
maker (pathologist). In this study, we attributed the same weight value to each feature.
5. Conclusion
The present study shows that it is possible to distinguish between grades I and III of bladder tumors
solely on the basis of the parameters generated by means of computer-assisted microscope analysis of
cell image. The main difficulties of classification are encountered in the grade II group where the
method yields poor results, but the histopathological heterogeneity of the middle WHO grade II group
may be one of the reasons of this difficulty. The introduction of other clinical features should be of
great value to further discriminate between the different grades. These preliminary results also show
that the multicriteria decision aid approach will play an important role in clinical classification problems.
Acknowledgments
The authors would like to thank Pr. Vincke from the Institute of Statistics & Operational Research for
his guidance and encouragement. We are deeply indebted to Dr Decaestecker for providing the clinical
data. This research was supported by a grant from the International Department of the Université
Libre de Bruxelles.
References
Belacel N.: “La méthode PROAFTN d’affectation multicritère : fondement et application dans le
domaine d’aide au diagnostic médical”, Research Report IS-MG 98/05, Université Libre de
Bruxelles, CP 210/01, B-1050 Bruxelles, Belgique, 1998.
Belacel N.: Multicriteria Assignment Method PROAFTN: Methodology and Medical Application,. Eur J
Operational Res .25(1) (2000) 24-33.
Bartels PH., Weber JE.: Expert systems in histopathology. I. Introduction and overview, Anal. Quant.
Cytol. Histology 11 (1989) 1-7.
Bouyssou D.: On some properties of outranking relations based on concordance-discordance principle.
In: Springer-Verlag, eds. multiple criteria decision making. Berlin (1992), 93-106.
Bouyssou D., Roy B.: Aide multicritère à la décision: Méthodes et Cas. Economica, Paris 1993.
Ching J.Y., Wong A.K.C., Chan K.C.C., “Class-Dependent Discretization for Inductive Learning from
Continuous and Mixed-Mode Data”, IEEE Transaction on pattern analysis and machine intelligence, 7
(1995) 641-651.
Cover T., Hart P.G.: Nearest neighbour pattern classification, IEEE Trans. Inf. theory, IT-13 (1967)
21-27.
Dasarathy BV.: Nearest Neighbour (NN) norms: NN Pattern Classification Technique. IEEE
Computer Society Press, Los Alamitos, CA, 1991.
De Meester U., Young IT., Lindeman J., Van der Linden HC.: Towards a quantitative grading of
bladder tumors. Cytometry 12 (1991) 602-613.
Decaestecker C., “Développements méthodologiques pour la classification de données réelles.
Application à l’aide au diagnostic et au pronostic de tumeurs gliales”. Aggregation thesis at the
Université Libre de Bruxelles, Belgium, 1996.
139
Annexe C
Decaestecker C., Van Velthoven R., Petein M., et al.: The use of the decision tree technique and
image cytometry to characterize aggressiveness in World Health Organization (WHO) grade II
superficial transitional cell carcinomas of the bladder. Journal of pathology 178 (1996) 274-283.
Decaestecker C., Van Velthoven R., Petein M., et al.: The computer-assisted microscope analysis of
Feulgen-stained nuclei linked to a supervised learning algorithm as an aid to assessment prognosis in
invasive transitional bladder cell carcinomas. Annals of Cell Pathology 10 (1996) 263-280.
Jarkrans T., Vasko J., Bengtsson E., Choi HK., Malmstrom PU., Wester K., Bush C.: Grading of
transitional cell bladder carcinoma by image analysis of histological sections. Analytical and Cellular
and Pathology 8 (1995) 135-158.
Jelonek J., Krawiec K., Slowinski R., Stefanowski J., Szymas J.: Neural networks and rough sets-
comparison and combination for classification of histological pictures, In: Proceedings of the first
National Conference Neural Networks and their Applications, Kule, Czqstochawa, (1994), 268-
273.
Kiss R., Gasperin P., Verhest A., et al.: Modification of the tumour ploidy level by the choice of the
tissue taken as diploid reference in digital cell image analysis of Feulgen-stained nuclei. Mod Pathol 5
(1992) 655-660.
Kiss R., Salmon I, Camby I., et al.: Characterization of factors in routine laboratory protocols which
significantly influence the Feulgen reaction. J Histochem Cytochem 41 (1993) 935-945.
Michalski RS.: A theory and methodology of inductive learning. In: Machine Learning, An Artificial
Intelligence approach Vol I (Ryszard S. Michalski, Jaime G. Carbonell and Tom M. Mitchell, eds).
Tioga Publishing, Palo Alto, 1983.
Murphy WM., Beckwith JB., Farrow GM.: Atlas of Tumour Pathology. Tumours of the Kidney,
Bladder, and related Urinary Structures. Washington, DC: Armed Forces Institute of Pathology,
Third Series, 1994.
Perny P.: Multicriteria filtering methods based on concordance and non-discordance principles, Annals
of Operations Research 80 (1998) 137-165.
Roy B.: Multicriteria methodology for decision aiding. Kluwer Academic, 1996.
Salmon I., Kruczynski A., Camby I., et al.: DNA histogram typing in a series of 707 tumors of the
central and peripheral nervous system. Am J Surg Pathol 17 (1993) 1020-1028.
Salmon I., Gasprein P., Remmelink M., et al.: Ploidy level and proliferative activity measurements in a
series of 407 thyroid tumours or other pathological conditions. Human Pathol 24 (1993) 912-920.
Van Velthoven R., Petein M., Zlotta, et al.: Computer-assisted chromatin texture characterization of
Feulgen-stained nuclei in a series of 331 transitional bladder cell carcinomas. Journal of Pathology
173 (1994) 235-242.
Vincke Ph.: Multicriteria decision aid. J. Wiley, New York, 1992.
Weiss SM., Kulikowski CA.: Computer Systems that learn, Classification and Prediction methods
from Statistics, Neural Nets, Machine Learning and Expert Systems . Morgan Kaufmann
Publishers, San Mateo, CA, 1991.
140
BIBLIOGRAPHIE
Bibliographie
1. Abbas M. (1994) Contribution au rapprochement de la théorie des graphes et de l’aide à la décision :

graphes parfaits et modèles de préférence. Thèse de doctorat, Recherche Opérationnelle, Université
Libre de Bruxelles.
2. Anderson J.A (1982) "Logistic discrimination" In: Handbook of statistics, 2, Krishnaiah P.R. and Kanal L.
(Eds.) North Holland, Amsterdam: 169-191.
3. Apuzzo ML. (1995) Benign cerebral Glioma. Volume II. Neurosurgical topics. American association of
Neurosurgical Surgeons, Washington.
4. Alsina C. (1985) “On a family of connectives for fuzzy sets”, Fuzzy sets and systems, 16: 231-235.
5. Baba-ali R., Belacel N., Kheder K. (1991) “Optimization of digital CMOS circuits”, In: Proceedings of the
International Co nference on Microelectronic, Cairo 1991 (ICM’91).
6. Bain J. B. (1991) Leukaemia Diagnosis, a guide to the F.A.B classification . Senior Lecturer in
Haematology, Gower Medical Publishing London-New York
7. Balestra,G., Ostanello, A.(1994) “Segmentation problems and neural networks, applying multiple criteria
aid for decision to environmental management”, edited by Paruccini, environmental management ,
V3:247- 262.
8. Bana e Costa C.(1993) “Les problématiques dans le cadre de l’activité d’aide à la décision”,
Document du LAMSADE, N°80. Université de Paris Dauphine.
9. Banerjee A. (1993) “Rational choice under fuzzy preferences: The Orlovski choice function”, Fuzzy sets
and systems 54:295-300.
10. Barrett C.R., Pattanaik P.K., Salles M. (1990) “On choosing rationally when Preferences are fuzzy”, Fuzzy
sets and systems 2:197-212.
11. Bartels PH, Thompson D, Montironi R. et al. (1996) “Automated Reasoning System in Histopathologic
Diagnosis and prognosis of Prostate Cancer and its Precursors”, European Urology, 30:222-233.
12. Bartels PH, Weber JE (1989) “Expert systems in histopathology”, Anal Quant Cytol Histol, 11:1-7.
13. Basu K. (1984) “Fuzzy revealed Preference Theory”, Journal of Economic Theory 32:212-227.
14. Belacel N. (1998) "La méthode PROAFTN d'affectation multicritère: Fondement et application dans le
domaine de l'aide au diagnostic médical", Rapport de recherche IS -MG 98/05, Université Libre de
Bruxelles, C.P. 210/01, B-1050 Bruxelles, Belgique, Fevrier 1998.
15. Belacel N. (1999) “Multicriteria Assignment Method PROAFTN: Methodology and medical application”,
European Journal of Operational Research 25(1) 175-83 (to appear).
16. Belacel N., Vincke Ph., Boulassel M.R. (1999a) “Application of the PROAFTN method to assist astrocytic
tumor diagnosis using parameters generated by computer-assisted microscope analysis of cell image”,
Innovation and Technology in Biology and Medicine 20(4) :239-44.
17. Belacel N., Vincke Ph., Scheiff JM., Boulassel MR. (1999b) “Acute Leukemia Diagnosis Aid Software
using multicriteria fuzzy assignment methodology”, Computer Methods and Programs in Biomedicine
(accepté pour publication).
18. Belacel N., Boulassel MR. (1999c) “PROAFTN: A fuzzy assignment method to grade bladder cancer
malignancy using features generated by computer- assisted image analysis”, To appear in: Foundations
of Computing and Decision Sciences (FCDS).
19. Belacel N., Boulassel MR. (1999d) “PROAFTN classification method: A useful tool to assist medical
diagnosis". Rapport de recherche IS-MG 99/24, Université Libre de Bruxelles, C.P. 210/01, B-1050
Bruxelles, Belgique, July 1999. (accepté pour publication dans Artificial Intelligence in Medicine
20. Belacel N., Boulassel MR. (1999e) " Multicriteria Fuzzy Classification Procedure PROCFTN :
Methodology and Medical Application", Rapport de recherche IS -MG 99/25, Université Libre de
Bruxelles, C.P. 210/01, B-1050 Bruxelles, Belgique, July 1999. Submitted for publication.
21. Bennett J.M., Catovski D., Daniel MT., et al. (1976) “Proposals for the classification of the acute
leukaemia (FAB co-operative group)”, British Journal of Haematology 33:451-458.
22. Bennett J.M., Catovski D., Daniel MT., et al. (1982) “Proposals for the classification of the
myelodysplastic syndromes”, British Journal of Haematology 51:189-199.
142
Bibliographie
23. Bennett J.M., Catovski D., Daniel MT., et al. (1985) “Proposed revised criteria for the classification of
acute myeloid leukemia”, Annals of internal Medicine 103:626-629.
24. Benzécri J.P. (1973) L’analyse des données. Dunod, Paris.
25. Bishop CM. (1995) Neural networks for pattern recognition. Oxford Clarendon Press.
26. Bonner R.H. (1964) “On some clustering techniques”, IBM Journal. V. 22.
27. Bordes G.A. (1983) “On the possibility of reasonable consistent majoritarian choice: some positive
results”, Journal of Economic Theory, 31:122-132.
28. Bouyssou D (1984) Approches descriptives et constructives d’aide à la décision : Fondements et
comparaison, thèse de Doctorat, Méthodes scientifiques de gestion , Université de Paris Dauphine.
29. Bouyssou D. (1990) “Building criteria: a prerequisite for MCDA”, dans C.A. Bana e Costa (Eds.),
Readings in Multiple criteria Decision Aid , Springer-Verlag: 58-80, Berlin.
30. Bouyssou D. (1991) “A note on the min in favor ranking method for valued preference relations”, In: M.
Cerny, D. Gluckaufova and D. Loula (Eds), Proc. International Works hop on Multicriteria Decision
Making-Methods-Algorithms -Applications:16-25, Czechoslovak.
31. Bouyssou D. (1992a) “On some properties of outranking relations based on concordance-discordance
principle”, dans Multiple Criteria Decision- Making, eds. A. Goicoechea, L. Duckstein and S. Zionts,
Springer: 93-106.
32. Bouyssou D. (1992b) “Ranking methods based on valued preference relations: a characterization of the
net flow method”, European Journal of Operational Research 60:61-68.
33. Bouyssou D. (1992c) “A note on the sum of differences choice function for fuzzy preference relations”,
Fuzzy sets and systems 47:197-202.
34. Bouyssou D. (1995) “Acyclic fuzzy preferences and the Orlovski choice function: a note”, Rapport de
recherche IS-MG 95/05, Université Libre de Bruxelles, C.P. 210/01, B-1050 Bruxelles, Belgique.
35. Bouyssou D., Roy B. (1985) “La notion de seuils de discrimination en analyse multicritère”, INFOR,
24:302-313.
36. Bouyssou D., Roy B. (1993) Aide multicritère à la décision: Méthodes et cas, Economica, Paris.
37. Brans J.P., Vincke Ph. (1985) “A preference ranking organization methods”, Management science, 31:647-
656.
38. Caillez F., Pages J.P. (1976). Introduction à l’analyse de données . S.M.A.S.H.
39. Celeux G. (1990) Analyse discriminante sur variables continues. INRIA, Roquencourt (ed.).
40. Celeux G., Nakache J.-P (1994) Analyse discriminante sur variables qualitatives. Polytchnica (eds.),
Paris.
41. Celeux G., Diday E., Govaert G., et al. (1989). Classification automatique de données environnement
statistique et informatique, Dunod, Informatique.
42. Chandrasekaran B., Goel A. (1988) “From numbers to Symbols to Knowledge Structures: Artificial
Intelligence Perspectives on the Classification Task”, IEEE Transactions on systems, Man and
Cybernetics 18, 3:415-424.
43. Chateau F. (1994) "Probabilités a priori inégales dans la règle des k plus proches voisins. Actes des
XXVIèmes Journées de Statistiques (Neuchâtel):195-198.
44. Civco D.L. (1991) “Landsat TM image classification with an artificial neural network”, Proceedings,
ASPRS-ACSM Annual meeting, Baltimore, MD, 3:67-77.
45. Cover T., Hart P.G. (1967). “Nearest neighbour pattern classification”, IEEE Trans. Inf. theory, IT-13, 21-
27.
46. Dasarathy BV., Nearest Neighbour (NN) norms: NN Pattern Classification Technique , IEEE Computer
Society Press, Los Alamitos, CA, 1991.
47. Decaestecker C.(1997). Développements méthodologiques pour la classification de données réelles.
Application à l’aide au diagnostic et au pronostic de tumeurs gliales. Thèse d’agrégation, Faculté de
Médecine, Laboratoire d’Histologie. Université Libre de Bruxelles. Belgique.
143
Bibliographie
48. Decaestecker C., Salmon I., Camby I., et al. (1997) “Nearest-neighbor classification for agressive versus
nonagressive low-grade astrocytic tumors by means of image cytometry-generated variables” Journal of
Neurosurgery 86:532-537.
49. Decaestecker C., Salmon I., Camby S., et al. (1995) “Identification of high versus lower risk clinical
subgroups in a group of adult patients with supratentorial anaplastic astrocytomas”, Journal of
Neuropathology and Experimental Neurology, vol. 54, 3:371-384.
50. Decaestecker C., Remmelink M., Salmon I., et al. (1996) “The use of decision tree technique and image
cytometry to characterize aggressiveness in world health organization (WHO) grade II superficial
transitional cell carcinomas of the Bladder”, Journal of pathology , (78): 274-283.
51. Degoulet P., Fieshi M. (1994). Informatique médicale. MASSON, Paris.
52. Devijver P.A., Kitteler J. (1982) Pattern Recognition and Statistical Approach. Pentice Hall,
Inglewood, N.J., U.S.A.
53. Diday E. (1972) “Optimisation en classification automatique et reconnaissance de formes”, Note Scient.
IRIA n° 6.
54. Doignon J.P. (1988) “Partial structures of preferences”, In: non -conventionnal preference relations in
Decision-Making, J. Kacprzyck, M. Rroubens (eds), LNEMS 301: 22-35, Springer-Verlag Berlin.
55. Dombi J. (1982a.) “A general class of fuzzy operators, the DeMorgan class of fuzzy operators and
fuzziness measures induced by fuzzy operators”, Fuzzy sets and systems:150-163.
56. Dombi J. (1982b.) “Basic concepts for theory of evaluation: the aggregative operator”, European
Journal of Operational Research, 10, 282-293.
57. Du Bois Ph, Brans JP, Cantraine F, et al. (1989) “MEDICIS: An expert system for computer-aided
diagnosis using the PROMETHEE multicriteria method”, European Journal of Operational Research ,
39:284-292.
58. Dubois D., Prade H. (1985) Théorie des possibilités Applications à la représentation des
connaissances en informatique , Masson, Paris.
59. Duda R., Hart P. (1973) Pattern classification and scene analysis . New York: Wiley.
60. Dutta B, Panda S., Pattanaik P.K. (1986) “Exact Choice and Fuzzy Preferences”, Mathematical Social
Sciences 11:53-68.
61. Errington PA, Graham J (1993) “Application of Artificial Neural Networks to Chromosome Classification”,
Cytometry, 14: 627-639.
62. Fodor J., Orlovski S., Perny P., Roubens M. (1998) “The use of Fuzzy Preference Models in Multiple
Criteria Choice, Ranking and Sorting”, In: Fuzzy sets in Decision Analysis, Operational Research and
Statistics, Edited by Roman Slowinski, (Dubois D and Prade H.) Kluwer Academic Publishers, London.
63. Fodor J., Roubens M. (1994) Fuzzy Preference Modelling and Multicriteria Decision Support, Kluwer
Academic Publishers, Dordrecht.
64. Fishburn P.C. (1977).“Condorcet Social Choice functions”, SIAM Journal of Applied Mathematics ,
33:469-489.
65. Fisher R. A. (1936) "The use of multiple measurements in taxonomic problems", Ann. Eugenics, 7:179-
188.
66. Fukunaga K., Hummels D. (1987) “Bayes error estimation using Parzen and k-NN procedure”, IEEE
Transactions on Pattern Analysis and Machine Intelligence. 634-643.
67. Galaz G, Lapparent V. (1998) “The ESO-Sculptor Survey: spectral classification of galaxies with z< ≈0.5”,
Astron. Astrophys., 332: 459-478.
68. Gallant S.I.(1993) Neural Network learning. MIT Press, Cambridge, Mass.
69. Hart P. (1967) “The condensed Nearest neighbor Rule”, Transactions on Information Theory. IT-14. pp.
515-516.
70. Henriet L., Perny P. (1996) Méthodes multicritères non-compensatoire pour la classification floue
d'objets. LFA'96, 4-5 December, 9-15.
144
Bibliographie
71. Hertz J., Krogh A. Palmer RG. (1991) Introduction to the theory of neural computation. Addison -
Wesley.
72. Huurneman G., Gens R., Broekema L. (1996) “Thematic Information Extraction in a neural Network
Classification of Multi-Sensor Data Including Microwave Phase Information”, International Archives of
Photogrammetry and Remote Sensing , V. XXXI, B2:170-175.
73. Jacquet-Lagrèze E. (1975) “How we can use the notion of semi-orders to build outranking relations in:
multicriteria decision Making”, In: Utility, Subjective Probability Human Decision making, D.went et C.
Vlek (Eds), D. Reidel Publishing Company.
74. James M. (1985) Classifiction algorithms. New York: Wiley.
75. Jelonek J., Krawiec K., Slowinski R., et al. (1994) “Neural networks and rough sets-comparison and
combination for classification of histological pictures”, In: Proceedings of the first National Conference
Neural Networks and their Applications, Kule, Czqstochawa, 268-273.
76. Jelonek J., Krawiec K., Slowinski R., et al. (1998) “Grizzly-an Image Analysis and Classification System
Oriented Towards Medical Applications”, To appear in: Journal of Decision Systems.
77. John B. M. (1977) Laboratory medicine Haematology. Third edition.
78. Kaufmann A.(1977) Introduction à la théorie des sous-ensembles flous. Tome 1, Masson, Paris.
79. Keeny R., Raïffa H. (1976) Decisions with multiple objectives: preferences and values tradeoffs. John
Willey and Sons.
80. Kohavi R. (1995) “A study of cross-validation and bootstrap for accuracy estimation and model
selection”. In: Cs Mellosh (ed.) Proceedings of the 14th International Joint Conf of Artificial
Intelligence, Morgan Kaufmann publishers, Inc: 1137-1143.
81. Krantz D.H, Luce R.D., Suppes P., et al. (1971) Foundations of Measurement , Volume 1, Academic press
Inc. New york.
82. Lebart L., Morineau A., Piron M. (1998) Statistique exploratoire multidimensionnelle . DUNOD, Paris.
83. Luce R.D (1956) “Semi-orders and a theory of utility discrimination”, Econometrica, 24:178-191.
84. MacQueen J.B (1967) “Some methods for classification and analysis of multivariate observations”, Proc.
of the 5th Berkeley Symposium on Math. Statistics and probability. Vol 1. Berkeley: University of
California Press.
85. Marchant Th. (1996) Agrégation de relations valuées par la méthode de Borda, en vu e d’un rangement:
Considérations axiomatiques. Thèse de Doctorat, Sciences appliquées. Université Libre de Bruxelles.
86. Massaglia R., Ostanello A.(1991) “N-Tomic: A support system for multicriteria segmentation problems”.
In: P.Korhonen, A Lewandowski and J.wallenius (Eds) Multiple criteria Decision Support: 167-174.
Springer–Verlag.
87. Maystre L., Pictet J., Simos (1994) Méthodes multicritère ELECTRE. Lausanne: Presses polytechniques
et universitaires Romandes.
88. McCulloch W., Pitts W. (1943) “A logical calculus of the ideas Immanent in nervous activity”, Bulletin
of Math Biophysics. 5: 115-133.
89. MCLachlan G.J.(1992) Discriminant Analysis and statistical Pattern Recognition, Wiley et Sons, Inc.
90. Michalski R.S.(1983) “A theory and methodology of inductive learning”, In: Artificial Intelligence
Approach Vol I (Ryszard S. Michalski, Jaime G. Carbonell and Tom M.Mitchell, Eds, eds).Tioga
Publishing, Palo Alto.
91. Michie D., Spiegelhlter DJ., Taylor C (1994). Machine learning, Neural and Statistical classification .
Ellis Horwood series in artificial intelligence, Ellis Horwoord.
92. Minsky M, Papert S. (1969) Perceptrons. Cambridge, MA: MIT Press.
93. Moisdon J.C. (1986) "Faut-il croire encore en la recherche opérationnelle?" AFCET/INTERFACE, 44:4-10.
94. Moscarola J., Roy B.(1977). “Procédure automatique d’examen de dossiers fondée une segmentation
trichotomique en présence de critères multiples”, R.A.I.R.O. Recherche Opérationnelle, 11, 2:145-173.
95. Moussou V., Slowinski R (1996) “Infering an ELECTRE TRI model from assignement examples”, cahier
du LAMSADE N°:40. Université Paris Dauphine.
145
Bibliographie
96. Mudry L., Perny P., Chauvel P. (1994) “An approach to design support using fuzzy models of
architectural objects”, In: Artificiel Intelligence in design ’94, eds. J.S. Gero and F. Sudweeks: 697-714.
97. Nurmi H. (1981) “Approaches to collective decision making with fuzzy preference relation”, Fuzzy sets
and systems 6:249-259.
98. OMS (1977) Classification internationale des Maladies. Genève: Organisation Mondiale de la Santé
(OMS).
99. Orlovski S.A (1978) “Decision-making with a fuzzy preference relation”, Fuzzy sets and systems 1: 155-
167.
100. Ovchinikov S. (1991) “Social choice and Lukasiewicz logic”, Fuzzy Sets and Systems 43 : 275-289.
101. Ovchinikov S., Ozernoy V.R. (1988) “Using fuzzy binary relations for identifying noninferior decision
alternatives”, Fuzzy sets and systems 25:21-32.
102. Pawlak Z. (1991) Rough sets: theoretical aspects of reasoning about data. Klwer academic Publishers.
103. Pawlak Z., Slowinski K., Slowinski R. (1986) “Rough classification of patients after highly selection
vagotomy for duodenal ulcer”, International journal Man-Machine Studies, 24:413-433.
104. Perny P. (1992) Modélisation, agrégation et exploitation de préférences floues dans une
problématique de rangement. Thèse de Doctorat, Méthodes scientifiques de gestion , Université de
Paris Dauphine.
105. Perny, P. (1998) “Multicriteria filtering methods based on concordance and non-discordance principles”,
Annals of Operations Research 80:137-165.
106. Perny P., Roy (1992) “The use of fuzzy outranking relations in preference modelling”, Fuzzy sets and
systems 49:33-53.
107. Pirlot M. (1994) “A characterization of min as a procedure for exploiting valued preference relations and
related results”, Working paper (Faculté Polytechnique de Mons.
108. Pirlot M, Vincke Ph. (1995) SEMIORDERS: Properties, Representations, Applications. Theory and
Decision Library. Kluwer Academic Publishers.
109. Pomerol J., Barba-Romero S. (1993). Choix multicritère dans l’entreprise. Paris: Hermes.
110. Puech M (1996) Standardisation de la mesure du contenu nucléaire en ADN par microscopie
quantitative. Thèse de doctorat, Université Joseph Fourier-Grenoble I, France.
111. Quinlan JR (1986) “Induction of Decision Trees”, Machine Learning , 1(1): 81-106.
112. Quinlan JR (1987) “Generating production rules from decision trees”, In: Proceeding of the 10th
International joint Conference on Artificial Intelligence, San Mateo, CA: Morgan Kaufmann, 304-307.
113. Quinlan JR (1988) “Decision Trees and multi-valued attributes”, In: Machine Intelligence 11, JE Hayes,
D. Michie, J. Richard, eds., Oxford, UK: Oxford University Press, 305-318.
114. Quinlan JR (1993) C4.5: Programs for Machine Learning. Morgan Kaufmann publishers, San Mateo,
California.
115. Roberts F.S. (1979) Measurement theory with applications to décision -making, utility and the social
sciences, Addison Wesley Pub., Reading.
116. Roberts F.S., Rosenbaum Z.(1986). “Scale type, Meaninfulness and the possible psychophysical Laws”,
Mathematical social sciences12: 77-95.
117. Rosenblatt F. (1962) Principles of Neurodynamics: Perceptrons and the theory of Brain Mechanisms .
Washington, DC: Spartan Books.
118. Roubens M. (1989) “Some properties of choice functions based on binary relations”, European Journal
of Operational Research 40:309-321.
119. Roubens M., Vincke Ph (1985) Preference mo delling, LNEMS 250, Springer-Verlag Berlin.
120. Roubens M., Vincke Ph (1988) “Fuzzy possibility graphs and their application to ranking fuzzy numbers”,
In: non -Conventional Preference Relations in Decision Making , J.Kacprzyck, M. Roubens (Eds.),
LNEMS 301, Springer-Verlag, Berlin, 119-128.
121. Roux M. (1986) Algorithmes de classification. Masson, Paris.
146
Bibliographie
122. Roy B. (1968) “Classement et choix en présence de points de vue multiples”, Cahiers du Centre
d’Etudes de Recherche Opérationnelle 8:57-75.
123. Roy B. (1978) “ELECTRE III : un algorithme de classement fondé sur une représentation floue des
préférences en présence de critères multiples”, Cahier du Centre d’Etude de Recherche
Opérationnelle, 20: 3-24.
124. Roy B. (1985) Méthodologie multicritère d’aide à la décision , Economica, Paris.
125. Roy B. (1990) “Science de la décision ou science de l’aide à la décision”, cahier du LAMSADE, No 97,
Université de Paris Dauphine.
126. Roy B., Skalka J.M. (1984) “ELECTRE IS aspects méthodologique et guide d’utilisation”, Document
LAMSADE No 30, Université de Paris Dauphine.
127. Roy B., Vincke Ph. (1984) "Relational systems of preference with one or more pseudo-criteria: some new
concepts and results”, Management Science, 30:1323-1335.
128. Royer P., Vreux J.-M., Manfroid J. (1998) “Adedicated photometric system for the classification of Wolf-
Rayet Stars”, Astron. Astrophys. Suppl. Ser. 130:407-414.
129. Rumelhart D., Hinton G., Williams R. (1986) Learning internal representations by error propagation. In:
parallel distributed processing: explorations in the microstructure of cognition. Eds Cambridge, MA:
MIT Press.
130. Salamon R, Bernadet M, Samson M, et al. (1976) “Bayesian method applied to decision making in
neurology: Methodological considerations”, Methods Inf. Med. 15:174-179.
131. Sen A.K., (1971) “Choice functions and revealed preferences”, Econometrica, 53-89.
132. Sen A.K. (1971) “Social choice theory: A re-examination”, Economitrica, 53-89.
133. Shannon C.E. (1948) "A mathematical theory of communication", Bell Sys Tech Journal 27:379-423 and
623-656.
134. Sharlig A. (1985) Décider sur plusieurs critères, panorama de l’aide à la décision multicritère , Press
polytechniques Romandes, Lausanne.
135. Sharpe P.K, Solberg E, Rootwelt K, Yearwoth M (1993) Artificial Neural Networks in Diagnosis of
Thyroid Function from in vitro Laboratory test. Clinical Chemistry 39(11): 2248-2253.
136. Shortliffe E. (1976) Computer-based Medical consultations: MYCIN . New York : American Elsevier.
137. Späth H. (1980) Cluster Analysis Algorithms for data reduction and classification of objects. Ellis
Horwood, Willy & Sons, New York.
138. Sushmita M. (1994) “Fuzzy MLP based expert system for medical diagnosis”, Fuzzy Sets and Systems 65,
pp. 285-296.
139. Thayer D.N., Webster J.A, Larsen J.A, et al. (1996) “Classification of Blended Images with an Artificial
th
Neural Network”, Bulletin of the American Astronomical Society, V.28, N. 2. AAS 188 Meeting,
Madison WI.
140. Tomassone R., Danzart M., Daudin J.J., Masson J.P. (1988) Discrimination et classement. Masson, Paris.
141. Vincke Ph. (1978). “Quasi-Ordres généralisés et représentation numérique”, Mathématiques et
sciences Humaines, 62:35-60.
142. Vincke Ph. (1988) “(P, Q, I) - Preference structures”, In: Non conventional preference Relations in
Decision Making”, J. Kacprzyk, M. Roubens (Eds), LNEMS 301: 72-81, Springer-Verlag.
143. Vincke Ph.(1989). L’aide multicritère à la décision, Ellipses, Paris.
144. Von Neumann J., Morgenstern O. (1954) Theory of games and economic behavior, John Wiley and
Sons, New-York.
145. Waterman DA. (1985) “A Guide to Expert Systems”, Reading, Massachusetts:Addison -Wesley,1986.
146. Weber S. (1983) “A general concept of fuzzy connectives, negation and implications based on t-norms”,
Fuzzy sets and systems, 11: 115-134.
147. Weinstein JN, Kohn KW, Grever MR, et al. (1992) “Neural computing in cancer Drug Developme nt:
Predicting Mechanism of action”, Science 258:447-451.
147
Bibliographie
148. Weiss SM, Kulikowski CA (1991) Computer systems that learn, classification and prediction methods
from Statistics, Neural Nets, Machine learning and Expert systems. San Mateo, California Morgan
Kaufmann Publishers.
149. Yu Wei (1992) Aide multicritère à la décision dans le cadre de la problématique du tr : concepts,
méthodes et applications. Thèse de Doctorat, LAMSADE, Université de Paris Dauphine.
150. Zadeh L.(1965) “Fuzzy sets”, Information and control, 8: 338-353.
151. Zagoria R. J., Reggia J. A. (1983) “Transferability of Medical Decision Support Systems Based on
Bayesian Classification”, In: Medical Decision 3: 501-509.
152. Zittoun R. (1986) Hémopathies malignes. Encycloppédie des Cancers dirigée par Bernard Hoerni.
Flammarion médecine sciences.
153. Zwingelstein G. (1995) Diagnostic des défaillances, théorie et pratique pour les systèmes industriels,
HERMES, Paris.
148

Méthodes de Classification Multi Critère

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Méthodes de Classification Multi Critère

Transféré par

Droits d'auteur :

Formats disponibles

UNIVERSITE LIBRE DE BRUXELLES

INSTITUT DE STATISTIQUE ET DE RECHERCHE

Méthodes de Classification Multicritère

Thèse présentée en vue de l’obtention du grade de

Année académique 1999-2000

INTRODUCTION GENERALE ............................................................................................ 3

PARTIE A ETUDES PRÉLIMINAIRES..................................................................................... 6

TRIN Règle d’affectation de la problématique du tri nominal

Finalement, nous concluons en synthétisant les différentes contributions et en discutant des

Chapitre 1 : Panorama des méthodes de classification

• Les méthodes de classification automatique (aussi appelées méthodes de clustering) : méthodes

2. Méthodes de classification automatique

2.1. Méthodes non hiérarchiques

2.1.1. Méthode de leader

2.1.2. Méthode de k-means

2.1.3. Méthode des nuées dynamiques

En conclusion, les méthodes non hiérarchiques permettent de traiter rapidement de grands

2.2. Méthodes hiérarchiques

Les différentes partitions représentées dans la figure 1.1 sont :

P0 = {{a},{b},{c},{d},{e}} correspond à la distance d = 0;

P1 = {{a, b },{c},{d},{e}} correspond à la distance d = 1;

P2 = {{a, b},{c},{d,e}} correspond à la distance d = 2;

P3 = {{a, b},{c, d, e}} correspond à la distance d = 4;

P4 = {{a, b, c, d, e}} correspond à la distance d = 5.

3.1. Méthodes d’apprentissage inductif

3.1.1. Méthode des k plus proches voisins (k-ppv)

Le principe général de la méthode des k-ppv consiste à rechercher parmi l’ensemble

Si k = 1, alors l’individu est affecté à la classe du plus proche voisin de l’ensemble T.

Figure 1.2. Méthode des 3-ppv

3.1.2. Affectation par la méthode bayésienne

L'approche bayésienne a pour but de minimiser la probabilité d'erreur de classification, c'est-à-dire

P( erreur ) = ∑ i ∑ j ≠ i P( x ∈ C i et x classée dans C j) (1)

ou de façon équivalente, maximiser la probabilité de bonne classification :

P ( correct )= ∑ i P ( x∈C i et x classée dans C i )

P(Ci/x) > P(Cj/x), pour tout j ≠ i (2)

Pour déterminer la probabilité a posteriori P(Ci/x) l'approche bayésienne suppose donc la

3.1.3. Méthodes d’analyse discriminante

Dans le cas où on aurait n variables, la fonction de discrimination devient :

d(a) = w1x1 + w2x2+ ... + wnxn+ wn+1 (4)

Si on a k classes, on définit k fonctions de discrimination :

La règle d’affectation est donnée comme suit (cf. figure 1.3) :

Si d i(a) > 0 alors a ∈ Ci pour i = 1, ..., k

Figure 1.3. Séparation linéaire pour 3 classes

• Fonction discriminante quadratique

on affecte l’objet a à la classe Ch si : (x-gh)tM h(x-g h) = Minl=1...k(x-g l)tMl(x-g l) (5)

gl : le centre de gravité de la classe C l

Ml : la métrique de la classe Cl.

Reprenons l’exemple de Degouflet P. et Fieschi M. (1994). Soit deux diagnostics médicaux

f(appendicite) = 4.DEF + 10.DFID - 10.DFIG

f(salpingite) = 3.DEF + 5.DFID + 5.DFIG

f(appendicite) = 4 ×0 + 10 ×1- 10× 1 = 0

f(salpingite) = 3×0 + 5× 1 + 5×1 = 10

D’après ce calcul, le diagnostic est en faveur d’une salpingite.

3.1.4. L’approche des réseaux de neurones

Entrées Synapses Cellule de Fonction Sortie

Figure 1.4. Structure d’un neurone artificiel

Neurones d’entrée Neurones intermédiaires Neurones de sorties

Figure 1.5. Réseau de neurones artificiels

• Méthode du perceptron à une seule sortie

Figure 1.6. La forme générale du perceptron à une seule sortie

On classe x à la classe C1 si S = 1 et à C2 sinon.

• Méthode du perceptron multicouches

Figure 1.7. Forme générale d’un réseau à trois couches