Vous êtes sur la page 1sur 30

Technical Report, INRA, 2001

Etat de lart de la classification automatique pour lacquisition de connaissances partir de textes.

Nicolas Turenne UMR INRA-INAPG Biomtrie et Intelligence Artificielle (BIA) 16 rue Claude Bernard 75231 Paris cedex 5 turenne@jouy.inra.fr

Rsum. Dans cet article nous prsentons les mthodes rcentes de classification automatique dites non supervises pour dtecter des relations smantiques dans les textes. Nous dfinissons en premier lieu ce que lon cherche dcouvrir, les relations, et ce qui nous est utile dans les textes, la cooccurrence, pour exploiter une mthodologie de classification. Ensuite nous exposons les principales caractristiques dune approche de classification pour sa mise en oeuvre. Nous dveloppons la participation des connaissances dun utilisateur dans les approches actuelles. Finalement nous apportons quelques critiques aux mthodologies tout en voquant lintrt de leur utilisation pour participer llaboration dune base de connaissance ou dune fonctionnalit dun systme dinformation.

Mots-cls: Fouille de texte, Classification automatique de termes, Traitement statistique de corpus, Relations smantiques, Apprentissage automatique.

Technical Report, INRA, 2001

1. Introduction

Les documents lectroniques saccumulent grande chelle assurant une facilit de cration de corpus de textes techniques. De telles collections de donnes textuelles font merger des besoins fonctionnels (catgorisation de documents, retour dexprience, constitution de ressources lexicales, systme dalerte, cration de bases de connaissances). Les mthodes dextraction automatique, dans lesquelles on trouve la classification, permettent didentifier des relations entre entits linguistiques dont la tche semble pniblement ralisable voir infaisable la main. Le prsent article fait linventaire critique des mthodes mathmatiques qui permettent dautomatiser un tel processus de reprage. Nous tentons de rpondre ainsi aux questions suivantes : que peut-on faire, dans quelles conditions et avec quelle fiabilit ? Lextraction dinformation ou acquisition de connaissances partir de textes peut se dcliner en deux dmarches principales exploitant la position des entits linguistiques cest--dire leur syntaxe. La premire dmarche est linguistique et consiste tudier les dpendances syntaxiques entre units. Ce sont des connaissances qui sont lies lassemblage syntaxique des units entre elles. La seconde dmarche, mathmatique, consiste exploiter la distribution syntaxique par des techniques de regroupement par similarit appeles classification conceptuelle. Notre objectif est de faire le point sur certains aspects de la classification qui biaisent la dcouverte de relations smantiques. Les documents textuels sont compliqus grer dans la mesure o la structure dun document est multiforme (textes, graphiques, tableaux)

Technical Report, INRA, 2001

avec des usages de termes qui peuvent tre polysmiques ou bruites et dont la nature des contextes relationnels peut varier. La partie 2 expose les diffrents types de relations que lon peut dcouvrir par classification et les connaissances distributionnelles disponibles. La partie 3 prsente le principe de la classification automatique et les diffrentes approches envisageables. Dans la partie 4 nous prsentons certains systmes actuels et leurs heuristiques ainsi que certaines propositions pour amliorer les systmes.

2. Connaissances terminologiques

Nous dfinissons dans ce chapitre les principales notions utiles pour parvenir une classification : la notion de relation smantique et celle de collocation.

2.1 Relations smantiques Dterminer un champ smantique c'est dgager la structure d'un domaine de significations. Traditionnellement cette structure est symbolise par des relations d'ensemble hirarchiques ou non hirarchiques bien particulires. Il existe 4 types de relations tudies en linguistique: l'existence d'un sens proche (synonymie), lexistence dun sens oppos (antonymie), la relation de spcificit (hyponymie/hyperonymie), la relation partie-tout (mronymie/holonymie): - les relations hyperonymiques traduisent une relation de gnricit ("couleur" par rapport "bleu") (inversement on a la relation hyponymique); - les relations mronymiques traduisent un phnomne d'inclusion ("rouge" est inclus dans le "rose") (inversement on a la relation holonymique);

Technical Report, INRA, 2001

- les relations antonymiques traduisent un phnomne dopposition ("blanc" / "noir"); - les relations synonymiques traduisent la possibilit pour deux mots de commuter parce que leur sens est voisin ("rouge" / "rougetre").
relations linguistiques
1 2 3 4 5 6 7 8 9 synonymie champ smantique (.cooccurre_avec.) hyperonymie hyponymie (.sorte_de.) mronymie (.est_partie_de.) holonymie (.est_tout_de.) antinomie (.est_contraire_de.) causalit (actions) causalit (relations spatio-temporelles)

relations logiques
quivalence association appartenance (gnralisation) appartenance (spcialisation) inclusion inclusion ngation implication ordre

Mthode d'extraction

classification automatique

patrons rguliers rseaux probabilistes

Table 1 Mthode dextraction associe une relation smantique. Les mthodes de classification visent regrouper les objets. Ce sont donc des mthodes de rsolution supposes convenir au reprage de la plupart des relations smantiques classiques reliant des objets admettant des proprits communes de nature hirarchique (relations de synonymie) ou non hirarchique (hyperonymie / mronymie) (Table 1). Des relations smantiques moins exploites dans les ressources lexicales mais trs utilises dans les ontologies sont les relations causales. Celles-ci sont la plupart du temps non hiarchiques et unitaire (exemple : le proton est dvi par le champ magntique). De mme la relation dantonymie nest pas hirarchique et se prte difficilement des calculs de regroupement. Dans les textes on trouve rarement des groupes dantonymes un mot donn. La configuration est en plus trs dpendante de constructions morphologiques ( noir antonyme_de blanc, ou fixer antonyme_de ne pas fixer). On voit se distinguer un ensemble de relations qui sont candidates lextraction automatique par classification savoir les relations densembles potentiel hirarchique et de similarit : hyperonymie/hyponymie, sy-

Technical Report, INRA, 2001

nonymie, mronymie/holonymie. Nous verrons que cet ensemble de relations conduira un biais dextraction.

2.2 Extraction de termes Nous avons parl dentits ou dunits linguistiques. On doit maintenant prciser de quelles units il sagit. Les units interprtables pour qualifier un objet ou un concept du monde rel sont en gnral les groupes nominaux. Les travaux rcents se penchent naturellement dans la dtection de ce type dunit. On distingue les mthodes linguistiques bases sur des rgles syntaxiques, les mthodes statistiques bases sur les rptitions de squences et les mthodes mixtes . Dans cette partie nous prsentons 5 modles issus de ces 3 approches. La mthode du dictionnaire s'appuie sur une ressource externe qui consigne les mots et expressions figes voire semi-figes susceptibles d'tre rencontres dans un texte du domaine. La terminologie a donc t rpertorie. La mthode des cooccurrences permet de crer un lexique par la rptition des formes prsentes dans un texte. La base thorique constitue aussi le dfaut de la mthode c'est--dire disposer d'une quantit statistique significative d'information. [Smadja & McKeown, 1990] prsentent un outil appel Xtract qui extrait des syntagmes grce aux rptition de ngrammes. La mthode des segments rpts s'appuie sur la dtection de chanes constitues de morceaux existant plusieurs fois dans le mme texte [Oueslati, 1997] [Lebart & et al 1998]. La mthode des bornes travaille avec des dlimiteurs. Deux variantes sont oprationnelles. La premire consiste tablir une liste de mots comme bornes d'expressions extraire. Si une expression se trouve entre deux

Technical Report, INRA, 2001

mots de la liste, alors on la retient comme terme. La deuxime variante est d'tiqueter un texte par des catgories syntaxiques aux mots de la phrase et de dcouper les fragments grces des frontires bien spcifiques [Bourigault, 1994]. Il existe peu dtudes dvaluation visant comparer les diffrentes approches. Ce type dvaluation semble troitement li une tche donne voire une coteuse extraction prliminaire de corpus la main.

2.3 Collocation ou cooccurrence

2.3.1 Dfinition Il n'existe pas de diffrence trs nette entre les notions de collocation (utilise en linguistique informatique) et de cooccurrence (utilise en statistique au mme titre que cofrquence). La notion de collocation fait plutt appel des relations syntaxiques trs proches au sein d'units syntagmatiques alors que la cooccurrence porte sur une relation plus lastique [Oakes, 1998]. Un des premiers avoir travaill sur le comportement statistique des cooccurrences dans les textes (avec un impact encore aujourd'hui dans les outils du TAL) est le mathmaticien [Markov, 1916]. Certains linguistes [Trier, 1931] [Firth, 1953] [Harris, 1968] mettent l'hypothse que l'on peut catgoriser un mot par les mots qui lui sont cooccurrents. Le reprage et l'extraction automatique des collocations ont t la base de toutes les tudes de construction automatique de dictionnaire et de thsaurus. Le projet europen DECIDE (Designing and Evaluating Extraction Tools for Collocations in Dictionaries and Corpora) [Fontenelle et al, 1994] fait un trs bon tat de l'art des outils d'extrac-

Technical Report, INRA, 2001

tion de collocation et de leur utilisation possible. Un texte fixe un langage dont les ingrdients prsents systmatiquement sont les suivants : - l'ensemble des variables danalyse (squences de mots) : X = {x1, x2,, xn}. Une variable d'analyse possde 3 paramtres d'observations qui sont les observables du systme: - la frquence dans le texte :

f i = ji
j

ij = 0 si x j x i o est le symbole de Kronec ker ij = 1 si x j = x i ,

i est l'indice sur toutes les occurrences du texte. - les diffrentes positions de xi dans le texte : Pi={p1, p2,, pk} . - les cooccurrents pour chaque position de xI :
Ci = {x j / R = (rij ) et rij 0, avec rij 0 si k , l 0 < (pil w ) < p jk < (p il + w )}

o R dfinit une relation dapparition dans un contexte syntaxique pour chaque couple (xi, xj), avec w tant une fentre de mots ( droite et gauche de xi). Le modle de classification est, pour le moment, le quadruplet M = (X, F, P, C) pour lequel on aura linformation {xi, fi, Pi, Ci} pour chaque terme xi classer.

2.3.2 Modles linguistiques Deux modles linguistiques prvalent dans le traitement distributionnel des cooccurrences : le modle rfrentiel et le modle des classes dobjets. Le modle rfrentiel vise extraire des traits smantiques cooccurrents aux termes participant une classe. Ce modle est difficilement automatisable car les traits ne sont pas formali-

Technical Report, INRA, 2001

sables a priori. Quant au modle des classes d'objets, il rpond aux lacunes du modle des traits smantiques caractrisant l'usage d'un mot dans un de ses sens [Gross, 1994]. Le principe de base s'inspire d'une relation de type prdicat-argument et de l'organisation syntaxique distributionnelle des groupes nominaux et verbaux d'une phrase pour tablir des sous-catgories smantiques explicites. On affecte des termes qui ont le mme comportement distributionnel par rapport d'autres termes, principalement des verbes. Par exemple: "emprunter" peut avoir deux sens. Dans un premier sens on obtient: Emprunter de l'argent ; Emprunter une somme d'argent ; Emprunter 10 mille francs ; Dans un second sens on aura : Emprunter un chemin ; Emprunter un passage obscur .

3. Mthodes de classification non supervises

3.1 Problme de classer Daprs [Sokal & Sneath, 1963] une classe est ordinairement dfinie par rfrence un ensemble de proprits qui sont la fois ncessaires et suffisantes (par stipulation) pour l'appartenance une classe. Il existe un parallle troit entre la ressemblance de famille de Wittgenstein (du "sens") et l'affinit taxinomique. Soit I un ensemble de variables, une partition totale est une suite d'ensembles tels que chaque lment de I appartienne un des ensembles. Une partition partielle est telle qu'un lment de I peut n'appartenir aucun des ensembles. Une partition re-

Technical Report, INRA, 2001

couvrante est telle qu'un lment de I peut appartenir plusieurs ensembles. Une classification se ramne rechercher une partition ou des partitions embotes (i.e. une hirarchie). Une partition non totale est une partition pour laquelle certains lments sont inclassifiables. La classification est un problme hautement combinatoire. Par exemple pour 4 objets (a, b, c, d) ce nombre vaut 15 et toutes les partitions possibles sont: - (abcd), - (ab, cd), (ac, bd), (ad, bc), (a, bcd), (b, acd), (c, bad), (d, abc) - (a, b, cd), (a, c, bd), (b, c, ad), (b, d, ac), (d, c, ab), (d, a, bd) - (a, b, c, d) . Les techniques de classification visent donc optimiser les capacits de calcul tout en convergeant vers une partition acceptable du point de vue interprtatif. Dfinition : La classification est un processus d'dification d'une partition ou d'une hirarchie de classes. Le regroupement dobjets (dans notre cas les termes) en classes traduit certaines proprits communes.

3.2 Modle de reprsentation des donnes L'tape fondamentale dans une mthode de classification est la reprsentation des donnes sous forme dune matrice, cest--dire dune relation binaire R : En*FmN qui associe une valeur entire chaque couple (xi, mj) de lensemble des termes classer (En) et des attributs (Fm). Il sagit la plupart du temps dune matrice de

Technical Report, INRA, 2001

10

contingence c'est--dire un tableau dont les valeurs sont des entiers dfinis dans un mme systme de mesure et d'unit homogne [Zytkow & Zembowicz, 1998]. D'autres types de tableaux comme les tableaux de mesure ou les tableaux logiques (modalits 1/0) peuvent tre rencontrs. Par extension un tableau de frquences sera assimil un tableau de contingence. A ce modle purement indpendant des donnes textuelles se greffe un modle dit de linformation syntaxique, cest--dire que certaines informations syntaxiques seront pralablement associes aux termes classer. En gnral les modles actuels rendent accessible des connaissances sur les dpendances syntagmatiques (sujet / complment) mais rarement au del. Ces tiquettes de dpendances syntaxiques dfinissent un ensemble que lon appelle D. Ltude des dpendances tant complexe et indpendante du modle de classification nous ne nous tendrons pas sur les mthodes sous-jascentes. Le modle de linformation syntaxique consiste alors, pralablement la classification, tablir une relation binaire entre un ensemble de termes et un ensemble de verbes, sujets et complments. Notre modle de classification senrichit pour devenir le quintuplet M = (X, F, P, C, D).

3.3 Principe de classification La procdure dveloppe les points suivants [Hansen & Jaumard, 1997] : 1. les proprits, caractristiques des objets, dans un vecteur n-dimensions; 2. le calcul de la similarit utilise pour dcider si 2 points sont proches ; 3. les heuristiques utilises pour regrouper.

Technical Report, INRA, 2001

11

Ltape 2 utilise la notion despace vectoriel dans lequel la norme est introduit dans le calcul dun critre de similarit vrifiant les proprits dune distance, sinon il sagit dun coefficient de similarit qui teste lintersection densembles dattributs (Il existe plus dune soixantaine de critres dans la littrature). Cette similarit est gnralement numrique et effective modulo un seuil dacceptabilit. Elle sexprime par :
s ( x , y) = Ax Ay Ax Ay (o A x et A y reprsentent respectivement les proprits de x et y) .

Finalement notre modle de classification devient le sextuplet M = (X, F, P, C, D, s) dans lequel s est la mesure dfinissant la relation binaire entre deux objets (un objet pouvant tre un lment ou un groupe dlments de X).

3.4 Aspects probabilistes d'une classification Les incertitudes et la complexit des relations dans un texte positionnent lapproche probabiliste (voire possibiliste) en candidate idale pour traiter les distributions. L'aspect probabiliste d'une classification se rapporte l'valuation d'une similarit ou d'une association entre 2 entits comme un objet et un attribut, ou une classe et un paramtre de fonction de distribution. Il est presque impossible de prsenter un algorithme unique ou gnrique concernant la description probabiliste d'extraction de classes puisque chaque mthode pose ses propres hypothses de fonctions de distribution et de dpendances conditionnelles avec son lot d'hypothses de simplification pour viter l'explosion exponentielle de recherche des paramtres. En effet les modles probabilistes prennent en compte des fonctions de distribution paramtriques (fonction gaussienne, fonctions multinomiales) exigeant de trouver les para-

Technical Report, INRA, 2001

12

mtres optimum (moyenne, cart-type, poids) pour maximiser la vraisemblance. Par exemple une classe sera reprsente par une fonction de probabilit f, dont on estimera les paramtres grce la vraisemblance (probabilit d'avoir la totalit d'un systme de variables) en fonction des donnes observes. Certaines stratgies utilisent le parcours de l'espace des paramtres pour rechercher les maxima locaux. Le maximum de vraisemblance couple les fonctions de distribution pour chaque cas avec un cas pour chaque classe dans la phase d'apprentissage ce qui rend difficile la dcouverte d'une classe. La recherche dans l'espace des paramtres pour trouver un maximum absolu est exponentielle en temps de calcul compte tenu du nombre de paramtres et du caractre multiplicatif des probabilits. Un exemple de critre de similarit est le gain de l'information mutuelle qui permet de maximiser les contraintes d'association des objets entre classes [Brown et al, 1992][Li & Abe, 1998][Baker & McCallum, 1998]. On prend l'exemple de termes qui sont contraints par leur apparition syntaxique dans une phrase. Soit V(x) le vecteur reprsentant le contexte du mot x, on a V(x)=<|m1|,|m2|,,|mn|> o mi est le nombre de fois que le terme mi suit le terme x dans un corpus. En normalisant par le nombre d'apparition de x on obtient la probabilit conditionnelle P(mi|x). A partir de ces probabilits conditionnelles on drive une information mutuelle concernant l'apport d'information d'un terme avec un autre. Par dfinition l'information mutuelle entre x et y: I(x;y)=( -logP(x) -logP(y)) - ( -logP(x| y) )=log

P(x,y) P(x)P(y)

Technical Report, INRA, 2001

13

Un autre exemple est la comparaison des distributions grce la distance de Kullback-Leibler ou de l'entropie relative [Tishby et al, 1999] : d(p i p j ) = p i ( v).
v

p i ( v) o p j ( v)

o pi(v) est la probabilit dobserver lattribut v dans la classe i.

1.3 Familles dapproches Traditionnellement on dgage deux tendances : les approches qui extraient une partition et celles qui extraient une hirarchie. Nous prfrons prsenter une vue densemble moins par la structure finale que par les heuristiques mises en oeuvre. On peut imaginer une ventilation des diffrentes variantes en 8 familles qui dailleurs admettent des particularits communes (Table 2). Cette vue est plus expressive quun effet de hirarchisation et met en relief la richesse des heuristiques pour parvenir classifier. Nous regrettons de ne pas exposer davantage le dtail des techniques et les illustrer par des exemples concrets, cet effort ncessiterait une monographie entire. En intelligence artificielle la modlisation des connaissances expertes tient une place centrale. Lobjectif tant de gnrer une fonction dun utilisateur dans son environnement. Dans le cadre de la classification, sans expliciter toutes les applications imaginables nous allons nous focaliser sur lintervention de lutilisateur et de ses connaissances dans le processus de classification.

Technical Report, INRA, 2001

14

Famille
Mthodes probabilistes

Variantes
Modle baysien, Modle de l'information syntaxique, approche EM (estimation/maximisation)

Type
hirarchie ou partition

Mthodes des plus Mthodes avec simple passe , Mthode de rallocation , Mthode des partition proches voisins nues dynamiques et des centres mobiles (k-moyennes)

Mthodes factorielles

Analyse Factorielle des Correspondances (AFC), Latent Semantic Indexing (LSI)

partition

Mthodes agglomratives

ascendante ou descendante: Mthode du simple lien ou saut minimum, Algorithme de l'arbre de couverture minimum, Mthode du diamtre ou hirarchie lien complet , Mthode du lien moyen , Mthode de W ard ou de la variance minimum , Mthode du plus proche voisin rcipro

Mthodes dextraction de graphes Mthodes de sriation Mthodes neuronales Mthodes symboliques

Treillis de Galois, Graphe connexe, Motifs de graphe

partition

Analyse relationnelle, Mthode par permutation, Mthode des motsassocis

partition

Cartes auto-organisantes de Kohonen, Rseau de Hopfield, Rseau ART Approche des plus proche voisins, Approche descendante, Approche ascendante

hirarchie ou partition hirarchie ou partition

Table 2 Familles de classification automatique pour lanalyse de textes.

3. Systmes, utilisateur et heuristiques

Une application oriente utilisateur final est sensible l'exploitation des rsultats dun processus de classification. Dans le cas d'un module de filtrage/routage l'utilisateur ne doit pas tre sollicit en permanence pour valuer les rsultats. Les rsultats peuvent se comporter comme une bote noire. Cela n'est pas forcment possible avec d'autres types d'applications o l'utilisateur est sollicit ou est assist par une

Technical Report, INRA, 2001

15

ressource compltement valide comme dans un outil d'aide la traduction. Nous dtaillons le fonctionnement de certains systmes rcents par rapport la place de lutilisateur dans leur processus de classification.

3.1 Approches sans intervention de lutilisateur [Waterman, 1996] essaie d'extraire des schmas smantiques en utilisant une distance de Levenshtein (comptage de suppression, substitution) et une classification hirarchique ascendante par lien moyen. Il trouve trs peu de schmas se ramenant un paradigme comme Sa="without admitting T1" T1 tant une connotation ngative ou Sb ="joint venture of T1 corp and T2 inc" o T1 et T2 sont des entreprises. Sa et Sb reprsentent des expressions idiomatiques utilisant une catgorie paradigmatique. On peut noter l'utilisation de l'outil Sextant [Grefenstette, 1994] qui permet de considrer des collocations n'apparaissant pas forcment dans le mme contexte syntaxique. L'outil se base sur des cooccurrences entre des noms et leurs prdicats pouvant tre des adjectifs et des verbes. Pour chaque paire d'entits on calcule un indice de similarit dpendant de combien les entits sont diffrentes de la paire analyse avec laquelle les attributs s'associent et combien de fois l'attribut apparat avec telle entit. Le coefficient de similarit scrit:

C(objet A , objet B ) =

min (w (objet
i i

, attribut i ), w (objet B , attribut i ) ) , attribut i ), w (objet B , attribut i ) )


p ( A , i ) log p ( A , i ) nrel

max (w (objet
i i

avec

w ( objet A , attribut i ) = log( F ( objet A , attribut i ) + 1 )

Technical Report, INRA, 2001

16

(poids de la relation o F est la frquence de l'objet A et de l'attribut I et nrel est le nombre total de relations dans le corpus)
p(A, i) = F(objet A , attribut i ) i est la probabilit d'avoir une association (A,I) o N A est i NA

le nombre d'attributs de A. Les cooccurrents sont retenus si le coefficient C dpasse un seuil fix. Pour chaque nom on obtient ainsi les cooccurrents les plus reprsentatifs. La fiabilit est d'autant plus leve qu'il y a plus de 50 contextes par entit. On atteint des performances de l'ordre 75% dans l'exactitude des paires obtenues. Cette approche peut presque s'apparenter une mthode des k-moyennes dans laquelle chaque entit joue le rle de classe. [Zernik, 1991] utilise une mthode d'tiquetage des sens d'un mot par classification hirarchique (lien complet). Il utilise des vecteurs de mots trouvs dans les concordances (5 mots avant et 5 mots aprs) pondrs par des probabilits de prsence. Il arrive dsambiguser to train et a train mais pas office dont la catgorie syntaxique est la mme avec des sens diffrents. [Phillips, 1989] utilise la classification de terme avec le sens relatif pour dcouvrir la structure lexicale des textes techniques, c'est--dire la macrostructure lexicale d'un texte. Il utilise une mthode de Ward avec une matrice de collocations normalise. Les collocations sont dtectes dans une fentre de 12 mots maximum droite et gauche. Le systme Galex utilise lexploitation dun graphe dassociations pour extraire des champs thmatiques. Il repose sur lutilisation dun motif de graphe qui contraint lassociation de termes avec dautres termes vrifiant le rseau du motif. Un terme

Technical Report, INRA, 2001

17

ple Tp admettant une frquence privilgie est associ dautres termes T via deux autres termes pivots Tpi pour tablir la similarit dassociation. La similarit nest pas base sur un calcul mais sur lappariement un rseau prcis. Ainsi les phrases suivantes {la coronarographie montre une lsion athromateuse, la coronarographie montre un angor deffort, la coronarographie montre une angine de poitrine, la coronarographie rvle un infarctus, la ventriculographie rvle un angor deffort, la ventriculographie rvle une angine de poitrine}

donnent la classe vrifiant le motif (Tp,Tpi,Tpi,TT) : (Tp= coronarographie,

Tpi=lsion athromateuse, Tpi=angor deffort, T=angine de poitrine, T=infarctus) grce aux relations que ces termes entretiennent avec les verbes montrer et rvler [Turenne, 1999].

3.2 Approche par intervention de lutilisateur en amont [Feldman & Dagan, 1997] tablit une hirarchie conceptuelle (ontologie) la main se rapportant au thme partir d'un corpus de documents d'un thme donn. Les termes de lontologie reprsentent 5 catgories: pays, sujet, personne, organisation et march. La gestion des termes se base sur une connaissance a priori (1995 CIA World Textbook) divis en 6 sections: gographie, tat, personnes, conomie, communication, dfense. Il compare les distributions de termes pour un nud donn de la hirarchie grce un calcul d'entropie relative. Le systme KDT (Knowledge Discovery from Texts) s'inspire de cette approche pour naviguer dans les textes en comparant les distributions de mots (information bottleneck method). Le but du systme est de trouver des associations de termes catgoriss et d'extraire des documents.

Technical Report, INRA, 2001

18

3.3 Approches par intervention de lutilisateur en aval [Ndellec, 2000; Faure & Ndellec, 1998] crent une ontologie grce aux complments verbaux extraits d'un corpus. Un prtraitement tiqute syntaxiquement un corpus d'apprentissage pour extraire des propositions Verbe + noms + complment. Les verbes sont considrs comme des prdicats deux arguments. Ces classes de base peuvent tre scindes en plusieurs classes complmentaires. Si C12(= C1C2) est une classe de base alors (C1C2) (C2-C1) (C1-C2) =C12 sont considres aussi comme classes de base. Une classification ascendante hirarchique permet de fusionner les concepts (classes ou prdicats) qui ont des objets en communs.
d(C1 , C 2 ) = 1 C(C1 , C 2 )
C1 C 2

log C(C1 , C 2 ) =

F1 () 1 + log
i =1 C1 C 2 i =1

C1 C 2 i =1 C1 C 2 i =1

F ()
2

log

F
1

+ log

F
2

F1() est la frquence d'un des objets de C1 aussi objet de C2; F1 est la frquence d'un des objets de C1; 1 est le nombre d'objets en commun entre C1 et C2 sur le cardinal de C1. Cette distance rapproche des classes qui ont des objets en commun et ayant des frquences voisines dans chaque classe. Par exemple, la classe [cuire

dans](sauteuse,4; cocotter,12; pole,2; four,4) et [faire revenir dans](sauteuse,4; cocotter,12, pole,2) . L'utilisateur nettoie les classes impropres et tablit les tiquettes des concepts pour chaque nud de la hirarchie.

Technical Report, INRA, 2001

19

Dans le mme esprit, qui consiste modliser un domaine pour en exploiter les motcls les plus importants et les relations qui les unissent, [Assadi, 1998] tente de construire une ontologie de faon semi-automatique. Il procde en trois tapes. La premire assure l'extraction de termes du domaine partir de documents techniques. La deuxime tape, analyse macroscopique des champs smantiques, ralise une classification hirarchique ascendante des termes extraits grce au module Lexiclass. La troisime tape qu'il qualifie d'analyse microscopique fait intervenir un expert du domaine pour dcrire les concepts centraux grce aux smes (units de description smantique) manant des regroupements. L'analyse globale exploite le format des termes tte+expansion crant ainsi une matrice de donnes utilisant les ttes comme prdicats classer, en fonction de leurs arguments les expansions. Dans ce cadre d'tude l'intervention de l'expert n'est pas ngligeable, car il valide, tout au long du processus, les termes, les regroupements, les labels de concepts, les relations essentielles conserver. Les systmes Zellig et Syclade [Habert et al., 1996; Nazarenko et al, 1997] tentent de dcrire un domaine grce aux mots contenus dans un corpus. Cette description du domaine (ou ontologie) est suppose ensuite assister une recherche d'information. La structuration est base sur l'information syntaxique de termes complexes qui sont dcomposs en sous expressions par contigut ou par suppression de mots intermdiaires. Par exemple, "stnose serre du tronc commun gauche" sera dcompos en "stnose serre", "stnose du tronc", "tronc gauche" et "tronc commun". Ces expressions ont une structure syntaxique dcomposable en tte+expansion. Les expressions sont ensuite relies en rseau par le fait qu'elles disposent d'un nombre

Technical Report, INRA, 2001

20

commun d'expressions dans lesquelles elles figurent la mme place comme tte ou expansion. Par exemple "malade" et "athrosclrose" sont relies grce (- coronarien; diagnostic de - ; frquence de -). Un seuil fixe le nombre minimal d'expressions communes pour conserver une relation. Le rseau obtenu donne une vue globale sur un corpus avec une exploration alternative des aspects syntagmatiques et paradigmatiques des contextes d'un mot. Deux types de sous-graphes sont aussi extraits : les sous-graphes fortement connexes prsentant les mots du voisinage et les cliques prsentant des classes de similarit. D'aprs les auteurs les cliques apportent une vue paradigmatique de l'ensemble des formes qui, dans un premier temps, s'interprtent comme des classes ontologiques refltant des concepts.

3. Apports et Limitations des approches de classification

3.1 Evaluation des systmes Lvaluation dun systme de classification non supervise reste un sujet controverse. Peu de donnes de rfrences existent, et mme si cest le cas elles ne correspondent pas toujours au cadre applicatif souhait. Les paramtres dvaluation standard sont : la prcision et le rappel. Ces paramtres proviennent du modle de Cranfield qui se base sur les hypothses fortes comme la taille finie et petite des donnes pertinentes ce qui nest pas forcment le cas dans tous les cadres applicatifs (en recherche documentaitre un document jug non pertinent par rapport un thme peut donner des informations voisines intressantes un utilisa-

Technical Report, INRA, 2001

21

teur, effet ricochet ). De nombreux travaux dvaluation existent sur la classification de documents mais peu sur la classification de termes. Daprs la comparaison de systmes (sans intervention dutilisateurs) faite par [Turenne, 1998] en fonction dune hirarchie de rfrence, les rsultats montrent une prcision moyenne de 60% et un rappel du mme ordre pour lextraction de catgories. Dans ces conditions (sans intervention), il est clair que le systme de classification ne trouvera pas dtiquettes catgorielles. Les systmes se comportent globalement de la mme faon avec un avantage pour les systmes bass sur des approches de type proches voisins. Les mthodes de classification ont la capacit intrinsque de dtecter plusieurs types de relations. Comme les heuristiques de regroupement ne dpendent pas du type de la relation, on va donc aboutir un mlange de termes entretenant des relations diverses (associative, hyperonymie , mronymie). Ce mlange produit du bruit par rapport lobjectif fix (reprage de synonymes,). Cependant dans certaines applications o linformation est plus ou moins brouille par une syntaxe atypique (par exemple messages lectroniques avec des liens http, des listes), la superposition de relations dans une classe (i.e filtre) nest pas obligatoirement un handicap pour raliser une catgorisation [Turenne, 2000].

3.2 Contraintes techniques On constate d'une manire gnrale que le problme de monte en charge des donnes conduit ngliger certaines mthodes classiques; ce n'est pas la mme chose de travailler avec un tableau de 100000*5000 lments qu'avec un tableau de

Technical Report, INRA, 2001

22

200*50. La nature des donnes joue aussi sur le processus; ce n'est pas la mme chose dintgrer linformation dun pixel que linformation syntaxique dun terme. Les rseaux de Kohonen ou ART ont tendance produire une classe fourre-tout et des petites classes tout autour. Les mthodes de regroupement par paires proposent d'aboutir un schma d'arbre dont la coupure fixerait la nature de la partition. L'arbre prsente donc les similarits entre objets de manire pseudo-continue. Le critre s'avre souvent arbitraire (10% de la base). De plus une classification hirarchique ascendante cre des chanes ("escalier") si les individus ont des carts faibles deux deux dans le cas d'un lien par saut minimum. Dans le cas d'un lien complet ou des voisins rciproques des boules sont cres l o les distances sont proches, le lien moyen semble tre un compromis entre les deux dfauts prcdemment expliqus. La classification descendante demande ce qu'on fixe le nombre de classes tout comme la mthode des centres mobiles (en gnral entre 1 et 20). La construction de l'arbre est en plus contrainte par la nature des attributs et se prte peu une construction incrmentale par ajout d'attributs, l'ajout d'attributs remettant en cause la construction prcdente. La classification hirarchique doit tre considre stable pour tre modifie. Son mode de construction ne permet pas des modifications de type incrmental. On parcourt l'arbre pour raliser une opration lmentaire. Il s'agit davantage de classement ou de compltion plutt que de classification dans ce cas. Des algorithmes de compltion existent permettant de parcourir un arbre et de le modifier localement. On envisage les oprations suivantes: limination d'un lment perturbant, illustration par des centres de gravit fictifs, dification avec des individus

Technical Report, INRA, 2001

23

complmentaires, placement d'individus ayant une description incomplte, vrification de l'homognit (calcul d'erreur). D'aprs [Roux, 1985], la faiblesse des algorithmes de classification est due uniquement aux lacunes thoriques des mthodes qui fait qu'aucune des mthodes ne se dmarque par la qualit de ses rsultats. Actuellement on peut modrer cette conclusion grce notre connaissance des problmes de traitement de corpus et aux phnomnes dambiguts et dabsence de normalisation du vocabulaire. On ne peut palier ce dfaut qu'en combinant des mthodes pour optimiser la classification et amliorer la qualit des rsultats. Par exemple, l'analyse factorielle peut servir slectionner les meilleures variables grce aux axes de plus grande inertie, ou slectionner des groupes susceptibles de conduire de bonnes classes avec un nombre rduit d'individus. A la suite de cela, une classification ascendante hirarchique permet d'aboutir une bonne classification. La qualit de la classification sera effective grce son explicabilit dont linteraction avec un modle dinterprtation est vidente mais difficile mettre en uvre du point de vue gnrique. Dans

lensemble aucune mthode ne peut tre utilise comme bote noire et sans confrontation possible aux connaissances dun expert qui valide sa cohrence. Dans la plupart des mthodologies de classification certaines approximations lies la nature des classes sont souvent prises en compte. Ces approximations (classifiabilit de tous les objets, nombre de classes fix, seuil de similarit, dpendances markoviennes) apportent du confort au traitement plus qu'une connaissance sur les donnes traites.

Technical Report, INRA, 2001

24

3.3. Connaissances utiles Au vue des travaux classiques de classification des efforts ont t dports vers lanalyse a posteriori par un expert du domaine. Compte tenu de la masse de donnes grandissante les problmes de maintenance et dinterprtation dune base rsultat gigantesque ne sera plus envisageable. Des approches dapport de connaissance amont par lutilisateur devront tre envisages pour guider un calcul de similarit. Ces connaissances sous formes dexemples doivent permettre damorcer ou de guider la similarit. Un effort particulirement important t imput llaboration de nouvelles distances ou de nouveaux coefficients de similarit. Les tests comparatifs nont pas permis disoler un coefficient meilleur quun autre et la justification de lintensit dune similarit se fait ad-hoc. Des constructions intrinsques dassociation peuvent impliquer une similarit sans obligatoirement estimer lintensit de cette similarit. Par rapport aux phnomnes de donnes manquantes ou dambiguts, la collecte des donnes est un facteur de russite de n'importe quel traitement statistique. Il est ncessaire dobtenir un bon dnombrement statistique des entits textuelles avec le moins de biais possible. Pour ce faire, on doit considrer des processus de rduction canonique de formes (la variation des formes tant trs frquente dans le langage naturel) selon deux processus qui peuvent dpendre du domaine selon leur mode de construction: la rduction des formes composes variantes et la lemmatisation. Ces deux processus permettent de passer dun traitement doccurrences de token un traitement de familles lexicales.

Technical Report, INRA, 2001

25

4. Conclusion

Cet article prsente les principales techniques de classification automatique non supervise, utilises pour classer des units textuelles en groupes homognes. Ces mthodes travaillent partir d'une matrice individus/variables. Les objets sont associs grce une distance ou similarit et grce un critre d'affectation. Les modles de reprsentation des associations se rfrent quasiment toujours un modle vectoriel la fois pratique et efficace. On y trouve les mthodes: probabilistes, des plus proches voisins, factorielles, hirarchiques ascendantes ou descendantes, d'extraction de graphes, de sriation, neuronales et symboliques. Les relations pouvant rsulter dune classification admettent un caractre de ressemblance assimilable une similarit (synonyme de, sorte de, partie de, apparat avec). Ces relations elles mme sont composites. Les mthodes de classification sont formellement appropries pour capturer leffet de ressemblance. Pour ces raisons on entrevoit une utilit de la classification automatique. Malheureusement, lheure actuelle, les rsultats dune classification automatique dans les textes donnent des paquets de termes intressants dans des applications pour lesquelles lappariement de formes est suffisant. Dans le cas contraire les rsultats ne sont pas exploitable en ltat et demandent une manipulation qui peut devenir trs vite fastidieuse. Les sduisants modles probabilistes traduisent les incertitudes sur la connaissance des relations mais imposent des hypothses fortes sur la modlisation de distributions paramtriques et sur l'indpendance conditionnelle (exemple : indpendance des paires de termes ) ainsi que luniformit des distributions et des probabilits relatives. Les approches sont

Technical Report, INRA, 2001

26

trop gnriques pour apprhender la superposition des relations impliques par les contextes et la reprsentation vectorielle (en paquets). Elles se basent sur une intensit de similarit souvent pose ad-hoc. Lintervention de lutilisateur est parfois nglige ou apparat en fin de cycle. Les approches de classification peuvent tre encore amliores dans des cadres applicatifs : o lutilisateur participe la modlisation des connaissances dcouvrir, dont la similarit nest pas forcment value par son intensit, avec des textes dont les termes sont normaliss, avec une rprsentation des donnes multivarie plus riche quune expression vectorielle monoespace. Un des challenges que devra relever la classifiation pour voluer favorablement sera dmettre des heurristiques orientes vers la rsolution de relations spcifiques pour composer des classes valorises par des relations multiples.

Rfrences

ASSADI H., Construction dontologies partir de textes techniques. Application aux systmes documentaires, thse de lUniversit Paris 6, 1998 BISSON G., "Clustering and Categorization", dans les actes de International Centre for Pure and Applied Mathematics School (CIMPA), Nice (France), 1996 BOURIGAULT D., LEXTER un extracteur terminologique, Thse de doctorat univ Paris 8, 1994 FAURE D., NEDELLEC C., "ASIUM: Learning Subcategorization Frames and Restrictions of Selection", dans les actes de TextMining Workshop of the European Conference of Machine Learning (ECML), Chemnitz (Germany), 1998

Technical Report, INRA, 2001

27

FELDMAN R., DAGAN I., "Knowledge Discovery in Textual Databases (KDT)", dans les actes de 1st international Conference on Knowledge Discovery (KDD), Montral (Canada), 1997 FIRTH J.R., A Synopsis of linguistic theory 1930-1955, In Studies in LinguisticAnalysis pp1-32 Oxford Philological Society Reprinted in F.R. Palmer (ed.) Selected Papers of J.R Firth 1952-1959, 1968 FISHER D., "Knowledge Acquisition via Incremental Conceptual Clustering", Machine Learning,Vol(2), 1997 FJALLSTROM P.O., "Algorithms for Graph Partitioning: A Survey", Linkoping Electronic Articles in Computer and Information Science,Vol(3) n 10, 1998 FONTENELLE T., W BRULS J JANSEN L THOMAS T VANALLEMERSCH S ATKINS U HEID B SCHULZE G GREFENSTETTE, "DECIDE Project", CE Technical Report MLAP 93/19, 1994 GALE W.A., CHURCH K.W., YAROWSKY D., "A Method for Disambiguating Word Senses in a Large Corpus", Computers and the Humanities,Vol(26) n 5-6, 1992 GREFENSTETTE G. "SEXTANT: Extracting Semantics from Raw Text: Implementation Details, Heuristics" Integrated Computer-Aided Engineering, vol.1 n pp. 5276 536 1994 GROSS G., "Classes d'objets et description des verbes", Langage,Vol(115), 1994 HABERT B., NAULLEAU E., NAZARENKO A., "Symbolic Word Classification for Medium-Size Corpora", dans les actes de Computational Linguistics Conference (COLING), Copenhague (Danemark), 1996

Technical Report, INRA, 2001

28

HANSEN P., JAUMARD B., "Cluster Analysis and Mathematical Programming", Internal Report du GERAD G-97-10, Montral (Canada), 1997 HARRIS Z., Mathematical Structure of Language, ed. Wiley, 1968 HINDLE D., "Noun Classification from Predicate Argument Structures", dans les actes de Association for Computational Linguistics (ACL), 1990 JAMBU M. , Classification automatique pour l'analyse des donnes (T.1) , ed Dunod , 1978 LEBART L., SALEM A., BERRY L., Exploring Textual Data, ed. Kluwer Academic Publishers, 1998 MANNING C., SCHUTZE H., Foundations of Statistical Natural Processing, ed. MIT Press, 1999 MARCOTORCHINO F., "La classification automatique aujourd'hui", Technical Report IBM, 1991 MARI A., SAINT-DIZIER P. Nature et formation de classes smantiques de verbes pour l'extraction de connaissances dans des textes Journes internationales d'analyse statistique de donnes textuelles (JADT) 2000 Lausanne (Suisse) MARKOV A.A. Ob odnom primenenii statistitcheskogo metoda (une application de mthode statistique) Izvestia Imperialistichesko Akademii Naouk, 6(4) pp239-42 1916 MEMMI D., GABI K., MEUNIER J.G., "Dynamical Knowledge Extraction from Texts by Art Networks", dans les actes de 4th Internationl Conference on Neural Networks and their Applications (NeuroAp), Marseille (France), 1998

Technical Report, INRA, 2001

29

MURTAGH F., "A survey of recent advances in hierarchical clustering algorithms", The Computer Journal, 26, 354-359, 1983 NAZARENKO A. ,ZWEIGENBAUM P., BOUAUD J., HABERT B., "Corpus-Based Identification and Refinement of Semantic Classes" , Proceedings of the Annual Symposium of Computer Applications in Medical Care ,Nashville (USA), 1997 NEDELLEC C. , "Apprentissage automatique de connaissances partir de corpus" , Sminaire Atala Mars Paris , 1999 OAKES M., Statistics for Corpus Linguistics, ed. Edinburgh Textbooks in Empirical Linguistics, 1998 OUESLATI R., "Une mthode d'exploration de corpus pour l'acquisition automatique de relations syntaxiques", Technical Report laboratoire LIIA Strasbourg, 1997 PEREIRA F., N TISHBY, L LEE, "Distributional Clustering of English Words", dans les actes de 30th conference of the Association for Computational Linguistics (ACL), Jerusalem (Israel), 1993 PHILLIPS M. , Lexical Structure of text Discourse Analysis Monograph 12, English Language Research, University of Birmingham 1989 ROUX M. Algorithmes de classification ed Masson 1985 SMADJA F., MCKEOWN K., "Automatically Extracting and Representing Collocations for Language Generation", dans les actes de Association for Computational Linguistics Conference (ACL), Pittsburgh (USA), 1990 SOKAL R.R., SNEATH P.H.A. Principles of Numerical Taxonomy ed W.H. Freeman and Company 1963

Technical Report, INRA, 2001

30

TISHBY N., F PEREIRA W BIALEK, "The Information Bottleneck Method", dans les actes de 37th Annual Allerton Conference on Communication Control and Computing, 1999 TRIER J., Der Deutsche Wortschatz im Sinnbezirke des Verstandes, Die Ges-

chichte eines Sprachlichen Feldes, Heidelberg, 1931 TURENNE N., "Apprentissage d'un ensemble pr-structur de concepts d'un doMathmatiques, Informatique et Sciences Humai-

maine: l'outil GALEX",

nes,Vol(148), 41-71, ISSN 0995-2314 1999 TURENNE N., ROUSSELOT F., "Evaluation of 4 Clustering Methods used in Text-

Mining", dans les actes de ECML workshop on textmining, Chemnitz (Germany), 1998a WATERMAN S. Distinguished Usage in Corpus Processing for Lexical Acquisition ed. B.Boguraev,J.Pustejovsky MIT 1996 ZERNIK U. Train 1 vs Train 2: Tagging Word Sense in a Corpus in Zernik,U (ed.) Lexical Acquisition: Exploiting on-Line Resources to Build a Lexicon, Hillsdale, NJ: Lawrence Erlbaum Associates. 1991 ZYTKOW J., ZEMBOWICZ R., "Contingency Tables as the Foundations for Concepts, Concept Hierarchies, and Rules; the 49er System Approach", Fundamenta Informaticae,Vol(30), 383-399, 1997