Vous êtes sur la page 1sur 64

Book

Extraction et gestion des connaissances (EGC'2006)

RITSCHARD, Gilbert (Ed.), DJERABA, Chabane (Ed.)

Reference
RITSCHARD, Gilbert (Ed.), DJERABA, Chabane (Ed.). Extraction et gestion des
connaissances (EGC'2006). Toulouse : Cépaduès, 2006, 2 vol., 782 p.

Available at:
http://archive-ouverte.unige.ch/unige:3419

Disclaimer: layout of this document may differ from the published version.
Revue des Nouvelles Technologies de l’Information
Sous la direction de Djamel A. Zighed et Gilles Venturini

RNTI-E-6

Extraction
et gestion des connaissances :

EGC'2006

Rédacteurs invités :
Gilbert Ritschard
(Département d’économétrie, Université de Genève)
Chabane Djeraba
(LIFL, Université des Sciences et Technologies de Lille)

Volume I

CÉPADUÈS-ÉDITIONS
111, rue Vauquelin
31100 TOULOUSE – France
Tél. : 05 61 40 57 36 – Fax : 05 61 41 79 89
(de l’étranger ) + 33 5 61 40 57 36 – Fax : + 33 5 61 41 79 89
www.cepadues.com
courriel : cepadues@cepadues.com
Chez le même éditeur

RNTI-Revue des Nouvelles Technologies de l'Information


Sous la direction de Djamel A. Zighed et Gilles Venturini

n°1 : Entreposage fouille de données


E1 : Mesures de qualité pour la fouille de données
E2 : Extraction et gestion des connaissances EGC 2004
C1 : Classification et fouille de données
E3 : Extraction et gestion des connaissances EGC 2005
B1 : 1re Journée Francophone sur les Entrepôts de Données
et l’Analyse en ligne EDA 2005
E4 : Fouille de données complexes
E5 : Extraction des connaissances : Etat et perspectives

Ensemble composé de 2 volumes :


2 85428 722 3 (volume I)
2 85428 723 1 (volume II)

© CEPAD 2006 ISBN : 2.85428.718.5


Le code de la propriété intellectuelle du 1 juillet 1992 interdit expressément la photocopie
er

à usage collectif sans autorisation des ayants droit. Or, cette pratique en se généralisant
provoquerait une baisse brutale des achats de livres, au point que la possibilité même pour les
auteurs de créer des œuvres nouvelles et de les faire éditer correctement serait alors menacée.
Nous rappelons donc que toute reproduction, partielle ou totale, du présent ouvrage est
interdite sans autorisation de l'éditeur ou du Centre français d'exploitation du droit de copie
(CFC – 3, rue d'Hautefeuille – 75006 Paris).

Dépôt légal : janvier 2006 N° éditeur : 71800


LE MOT DES DIRECTEURS DE LA COLLECTION RNTI

Chères Lectrices, Chers Lecteurs,

La Revue des Nouvelles Technologies de l’Information existe depuis 2003 et vient de dé-
passer le cap de 3800 pages de publications dans les domaines liés à l’Extraction de connais-
sances à partir des Données (ECD), la Fouille de données (FD), la Gestion des connaissances
(GC). Cette revue a pour objectif d’être un outil de communication de très grande qualité et
ouvert à tous. A ce titre, RNTI accueille deux types de numéros :
– des numéros à thème faisant l’objet d’un appel à communication. Chaque numéro à
thème est édité par un ou plusieurs rédacteurs en chef invités. Un comité de programme
spécifique d’une quinzaine de personne est formé à cette occasion. Plusieurs numéros
sont ainsi en cours de finalisation et seront disponibles début 2006 (Visualisation en
extraction des connaissances, P. Kuntz, F. Poulet ; Systèmes d’information pour l’aide
à la décision en ingénierie système, A. Kenchaf). Est également paru tout récemment
un numéro spécial sur la fouille de données complexes (O. Boussaid, P. Gançarski, F.
Masséglia, B. Trousse),
– des actes de conférences sélectives garantissant une haute qualité des articles (nous de-
mandons, par exemple, à ce que trois relecteurs émettent un avis sur les articles soumis).
Ainsi le numéro RNTI-B-1 a concerné les actes de EDA’2005 (F. Bentayeb, O. Boussaïd,
J. Darmont, S. Loudcher).
Aujourd’hui nous avons donc le plaisir d’accueillir pour la troisième fois ce numéro consa-
cré à la conférence EGC. Nous tenons à remercier les organisateurs de cette conférence pour
la confiance qu’ils accordent à cette revue. Nous adressons en particulier toutes nos chaleu-
reuses félicitations à Gilbert Ritschard qui a beaucoup œuvrer pour la qualité de ce numéro
EGC’2006, à la fois du point de vue scientifique comme président du comité de programme et
du point de édition comme rédacteur invité.
Nous espérons vivement que ce numéro vous donnera à toutes et à tous une entière sa-
tisfaction. Pour tout renseignement, nous vous invitons à consulter notre site Web et à nous
contacter. En particulier, nous sommes à votre écoute pour toute proposition de nouveaux nu-
méros spéciaux.

Djamel A. Zighed et Gilles Venturini.


http ://www.antsearch.univ-tours.fr/rnti

iii
iv
PRÉFACE

La sélection d’articles publiés dans le présent recueil constitue les actes des sixièmes jour-
nées Extraction et Gestion des Connaissances (EGC’2006) qui se sont tenues à Lille du 17 au
20 janvier 2006.
Les conférences EGC ambitionnent de regrouper chercheurs, industriels et utilisateurs
francophones issus des communautés Bases de Données, Apprentissage, Représentation des
Connaissances, Gestion de Connaissances, Statistique et Fouille de données. Aujourd’hui, de
grandes masses de données structurées ou semi-structurées sont accessibles dans les bases de
données d’entreprises, d’administrations ainsi que sur la toile. Aussi les entreprises et admi-
nistrations ont-elles besoin de méthodes et d’outils capables de les acquérir, de les stocker,
de les représenter, de les indexer, de les intégrer, de les classifier, d’extraire les connaissances
pertinentes pour les décideurs et de les visualiser. Pour répondre à cette attente, de nombreux
projets de recherche se développent autour de l’extraction de connaissances à partir de don-
nées (Knowledge Discovery in Data), ainsi que sur la gestion de connaissances (Knowledge
Management). Les articles réunis dans ce numéro spécial de RNTI rendent compte des déve-
loppements les plus récents dans les multiples disciplines concernées par cette double problé-
matiques, ainsi que du déploiement de méthodes d’extraction et de gestion des connaissances
par des spécialistes d’entreprises.
En particulier on constate dans les travaux rapportés ici une place grandissante accordée
aux formes diverses que peuvent prendre tant les données que les connaissances et à la néces-
sité de structurer les informations pour mieux les appréhender. Ainsi, les données considérées
vont de données numériques classiques aux données symboliques, au multi-média, des images
aux textes, de données statiques aux séquences et flots dynamiques. Les connaissances s’ex-
priment quant à elles en termes de structure, de sémantique, d’ontologies, de règles, etc. On
constate également que, dans le processus de gestion, les connaissances extraites deviennent
à leur tour des données qu’il s’agit de maîtriser et d’exploiter efficacement pour l’action et la
prise de décisions. On relève également l’émergence de nouveaux domaines d’application qui
de la gestion d’entreprise, des télécommunications ou du biomédical s’étendent aux domaine
juridique, au domaine social, à la chimie, aux sciences du vivant, au contrôle de l’environne-
ment et du territoire, ou encore à la gestion industrielle pour n’en citer que quelques uns.
Les articles sont regroupés en chapitres. Les regroupements ont été faits soit selon la pro-
blématique abordée (gestion des connaissances, indexation, ontologies, sémantique, apprentis-
sage, règles d’association, visualisation) ou selon le type de données considérées (complexes
et/ou volumineuses, séquences, textes). Un chapitre est plus spécifiquement consacré aux ap-
plications, et un autre rend compte des logiciels démontrés pendant les journées. En raison
de la forte interrelation entre les thèmes, les regroupements comprennent cependant une part
d’arbitraire, la plupart des articles ayant leur place dans plusieurs chapitres.
Le recueil inclut également les résumés des conférences des invités prestigieux que sont
Heikki Mannila, l’un des pères de l’extraction de motifs fréquents, Gilbert Saporta statisticien
mondialement connu et expert de l’apprentissage statistique et Michael Ley le fondateur du
célèbre site de référence bibliographique DBLP.

v
Sur 152 soumissions, 42 articles longs (12 pages), 32 articles courts (6 pages) et les résu-
més (2 pages) de 27 posters ont été sélectionnés par le comité de programme sur la base des
rapports des relecteurs lors de sa réunion des 8 et 9 novembre 2005 à Paris. On rappellera qu’au
minimum trois avis de relecteurs ont été sollicités pour chaque soumission. Les descriptifs (2
pages) de 5 démonstrations de logiciels ont par ailleurs été retenus sur proposition du Co-
mité “démonstrations logiciels” de EGC’2006 présidé par Mohand-Said Hacid. Finalement,
les auteurs d’un papier long et de 4 posters ayant renoncé à être publiés, ce recueil totalise, en
incluant les résumés des conférences invitées, un total de 104 articles ou résumés.

Remerciements

Nos vifs remerciements vont tout d’abord aux auteurs pour leurs excellentes contributions,
mais aussi aux relecteurs (voir liste page vii), membres du comité de lecture ou sollicités par ces
membres, dont les rapports d’évaluation circonstanciés et constructifs ont contribué à améliorer
significativement la qualité des articles.
Nos remerciements vont également à toute l’équipe du Comité d’organisation présidé par
Chabane Djeraba pour leur travail et leur mobilisation permanente. Merci donc à Fatima Bel-
kouche, Fatma Bouali, Anne-Cécile Caron, Jérôme David, Denis Debarbieux, Régis Gras, Ha-
kim Hacid, Nacim Ihaddadene, Laetitia Jourdan, Said Mahmoudi, Sylvain Mongy, Philippe
Preux, Thierry Urruty.
Parmi ces derniers, Nacim Ihaddadene qui a créé les affiches et le site web de la Confé-
rence www-rech.enic.fr/egc2006 mérite une mention particulière. Merci également à Philippe
Rigaux pour son “cyberchair” MyReview et surtout à Hakim Hacid pour l’avoir configuré et
géré parfaitement.
Merci à l’Association EGC pour son soutien et la dotation du prix de la meilleure commu-
nication.
Enfin, nous remercions spécialement pour leur soutien financier et aides diverses le La-
boratoire d’Informatique Fondamentale de Lille (UMR USTL/CNRS 8022), l’Université des
Sciences et Technologies de Lille, l’INRIA - Futurs, l’ENIC Télécom Lille 1, le Groupement
des Ecoles Télécom et la Ville de Lille. Sans leur soutien, ni la Conférence EGC 2006, ni ce
recueil n’auraient vu le jour.

Gilbert Ritschard et Chabane Djeraba

vi
Le Comité de lecture de ce numéro est constitué des Comités de programme EGC’2006 et de
pilotage de EGC.

Comité de programme EGC’2006, sous la présidence de G. Ritschard :


N. Belkhiter (U. Laval, CND) P. Lenca (GET/ENST Bretagne, Brest, F)
S. Benbernou (LIRIS, U. Lyon 1, F) P. Leray (PSI / INSA Rouen, F)
S. Bengio (IDIAP, Martigny, CH) I.-C. Lerman (IRISA, U. Rennes 1, F)
G. Berio (U. de Turin , I) S. Loiseau (LERIA, U. d’Angers, F)
P. Bosc (IRISA/ENSSAT, U. Rennes 1, F) R. Missaoui (DII, U. du Québec en Outaouais, CND)
F. Cloppet (CRIP5, U. Paris 5, F) A. Napoli (LORIA, Nancy, F)
J. Darmont (ERIC, U. Lyon 2, F) M. Noirhomme-Fraiture ( U. de Namur, B)
E. Diday (CEREMADE, U. Paris 9, F) J.-M. Ogier (L3I, U. de La Rochelle, F)
R. Dieng-Kuntz (INRIA, Sophia Antipolis, F) C. Pellegrini (CUI, U. de Genève, CH)
C. Djeraba (LIFL, U. Lille, F) S. Pinson (LAMSADE, U. Paris Dauphine, F)
J.-L. Ermine (Inst. Nat. des Télécommunications INT, F) P. Poncelet (Ecole des Mines d’Alès/LGI2P, F)
G. Falquet (CUI, U. de Genève, CH) F. Poulet (ESIEA, Pôle ECD, Laval, F)
C. Froidevaux (LRI, U. Paris Sud, F) C. Roche (Equipe CONDILLAC, U. de Savoie, F)
A. Magda Florea (U. Polytechnique de Bucarest, RO) M.-C. Rousset (IMAG, Grenoble, F)
P. Gallinari (LIP 6, U. Pierre et Marie Curie, F) G. Saporta (CNAM, Chaire de Stat. Appl. Paris, F)
J.-G. Ganascia (LIP 6, U. Pierre et Marie Curie, F) M. Schneider (LIMOS, U. Clermont Ferrand II, F)
P. Gancarski (U. Louis Pasteur, Strasbourg, F) M. Sebag (LRI, U. Paris Sud, F)
C. Garbay (TIMC-IMAG, Grenoble, F) F. Sèdes (IRIT Toulouse, F)
A. Giacometti (U. Tours, antenne de Blois, F) D. Simovici (U. of Massachusetts Boston, USA)
R. Gilléron (INRIA Futurs Lille, F) E. Ghazali Talbi (LIFL, Lille, F)
G. Govaert (Heudiasyc, U. de Technologie Compiègne, F) M. Teisseire (LIRMM, U. Montpellier 2, F)
C. Guinot (CERIES, U. Biométrie et Epidémiologie, F) F. Toumani (LIMOS, Clermont-Ferrand, F)
A. Hardy (U. de Namur, Belgique) S. Trausan-Matu (U. Polytechnique de Bucarest, RO)
F. Jaquenet (EURISE, U. de Saint-Etienne, F) B. Trousse (INRIA, Sophia Antipolis, F)
P. Kuntz (Ecole Polytechnique de l’U. de Nantes, F) G. Venturini (LI, U. de Tours, F)
S. Lallich (ERIC, Lyon2, F) J.-P. Vert (Ecole des Mines de Paris, F)
A. Laurent (LIRMM, Montpelier, F) N. Vincent (CRIP5-SIP, U. Paris 5, F)
A. Lazraq (ENIM, Ecole des Mines de Rabat, Maroc) L. Wehenkel (U. de Liège, Belgique)
Y. Lechevallier (INRIA Rocquencourt, F) M. Zacklad (Tech-CICO, U. de Troyes, F)

Comité de pilotage EGC, sous la présidence de Henri Briand :


Danielle Boulanger (IAE, U. Lyon 3) Yves Kodratoff (LRI, U. Paris-sud)
Régis Gras (LINA, U. de Nantes) Ludovic Lebart (ENST, Paris)
Fabrice Guillet (LINA, U. de Nantes) Jean-Marc Petit (LIRIS, INSA Lyon)
Mohand-Saïd Hacid (LIRIS, U. Lyon 1) Jacques Philippé (PerfomanSe)
Georges Hébrail (ENST, Paris) Djamel Zighed (ERIC, U. Lyon 2)
Danièle Hérin (LIRMM, U. Montpellier 2)

Relecteurs non membres du Comité de lecture :


Salem Benferhat, Alexandre Blansché, Marc Boyer, François Bret, Philippe Caillou, Marie Françoise Canut, Marc
Chastan, Max Chevalier, Gilles Coppin, Fabien De Marchi, Gérard Dray, Amandine Duffoux, Béatrice Duval, Joyce
El Haddad, Céline Fiot, David Genest, Jacques Guyot, Benjamin Habegger, Alle Hadjali, Athmane Hamel, Samira
Hammiche, Christine Largeron, Ludovic Liétard, Nicolas Lomenie, Patrick Marcel, Abdenour Mokrane, Hassina
Mouloudi, André Peniou, Fabien Picarougne, Bruno Pinaud, Olivier Pivert, Marc Plantevit, Saïd Radhouani, Chedy
Raissi, Chantal Reynaud, Daniel Rocacher, David Sheeren, Laszlo Szathmary, Isabelle Tellier, Franck Thollard, Marc
Tommasi, Fabien Torre, Benoît Vaillant, Julien Velcin.

Comité démonstrations logiciels :


Mohan-Said Hacid (président), Djamel Benslimane, Jean-Marc Petit, Farouk Toumani

vii
viii
TABLE DES MATIÈRES

Conférences invitées

Finding fragments of orders and total orders from 0-1 data,


Heikki Mannila . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Credit scoring, statistique et apprentissage,
Gilbert Saporta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Maintaining an Online Bibliographical Database : The Problem of Data Quality,
Michael Ley, Patrick Reuther . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

Chapitre 1 : Données complexes et/ou volumineuses

Graphes de voisinage pour l’Indexation et l’Interrogation d’Images par le contenu,


Hakim Hacid, Abdelkader Djamel Zighed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Extraction automatique de champs numériques dans des documents manuscrits,
Clément Chatelain, Laurent Heutte, Thierry Paquet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Clustering dynamique d’un flot de données : un algorithme incrémental et optimal de
détection des maxima de densité,
Alain Lelu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Extraction d’objets vidéo : une approche combinant les contours actifs et le flot optique,
Youssef Zinbi, Youssef Chahir, Abder Elmoatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
SVM incrémental, parallèle et distribué pour le traitement de grandes quantités de données,
Thanh-Nghi Do, François Poulet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Recherche en temps réel de préfixes massifs hiérarchiques dans un réseau IP à l’aide de
techniques de stream mining,
Pascal Cheung-Mon-Chan, Fabrice Clérot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Prétraitement de grands ensembles de données pour la fouille visuelle,
Edwige Fangseu Badjio, François Poulet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

Chapitre 2 : Gestion de connaissances et indexation

Indexation de vues virtuelles dans un médiateur XML pour le traitement de XQuery Text,
Clément Jamard, Georges Gardarin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Techniques de fouille de données pour la réécriture de requêtes en présence de
contraintes de valeurs,
Hélène Jaudoin, Frédéric Flouvat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

ix
Un Index de jointure pour les entrepôts de données XML,
Hadj Mahboubi, Kamel Aouiche, Jérôme Darmont . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
Le forage distribué des données : une méthode simple, rapide et efficace,
Mohamed Aounallah, Guy Mineau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
Une approche distribuée pour l’extraction de connaissances : application à
l’enrichissement de l’aspect factuel des BDG,
Khaoula Mahmoudi, Sami Faïz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
Modèle conceptuel pour bases de données multidimensionnelles annotées,
Guillaume Cabanac, Max Chevalier, Franck Ravat, Olivier Teste . . . . . . . . . . . . . . . . . . . . 119
Comparaison de deux modes de représentation de données faiblement structurées en
sciences du vivant,
Rallou Thomopoulos, Patrice Buche, Ollivier Haemmerlé,
Frédéric Mabille, Nongyao Mueangdee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
Reconnaissance automatique d’évènements survenant sur patients en réanimation
à l’aide d’une méthode adaptative d’extraction en ligne d’épisodes temporels,
Sylvie Charbonnier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
Une approche multi-agent adaptative pour la simulation de schémas tactiques,
Aydano Machado, Yann Chevaleyre, Jean-Daniel Zucker . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
Gestion de connaissances : compétences et ressources pédagogiques,
Olivier Gerbé, Thierno Diarra, Jacques Raynauld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

Chapitre 3 : Ontologies

Alignement extensionnel et asymétrique de hiérarchies conceptuelles par découverte


d’implications entre concepts,
Jérôme David, Fabrice Guillet, Régis Gras, Henri Briand . . . . . . . . . . . . . . . . . . . . . . . . . . 151
Une mesure de proximité et une méthode de regroupement pour l’aide à l’acquisition
d’ontologies spécialisées,
Guillaume Cleuziou, Sylvie Billot, Stanislas Lew, Lionel Martin, Christel Vrain . . . . . . . 163
Web sémantique pour la mémoire d’expériences d’une communauté scientifique :
le projet MEAT,
Khaled Khelif, Rose Dieng-Kuntz, Pascal Barbry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
Interrogation et vérification de documents OWL dans le modèle des Graphes Conceptuels,
Thomas Raimbault, Henri Briand, Rémi Lehn, Stéphane Loiseau . . . . . . . . . . . . . . . . . . . . 187
Une nouvelle mesure sémantique pour le calcul de la similarité entre deux concepts
d’une même ontologie,
Emmanuel Blanchard, Mounira Harzallah, Pascale Kuntz, Henri Briand . . . . . . . . . . . . . 193
Classification des compte-rendus mammographiques à partir d’une ontologie radiologique
en OWL,
Amel Boustil, Sahnoun Zaidi, Ziad Mansouri, Christine Golbreich . . . . . . . . . . . . . . . . . . 199

x
Chapitre 4 : Fouille de textes

Choix du taux d’élagage pour l’extraction de la terminologie. Une approche fondée sur
les courbes ROC,
Mathieu Roche, Yves Kodratoff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
Fast-MGB : Nouvelle base générique minimale de règles associatives,
Chiraz Latiri, Lamia Ben Ghezaiel, Mohamed Ben Ahmed . . . . . . . . . . . . . . . . . . . . . . . . . . 217
Extraction et identification d’entités complexes à partir de textes biomédicaux,
Julien Lorec, Gérard Ramstein, Yannick Jacques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
Reconnaissance automatique de concepts à partir d’une ontologie,
Valentina Ceausu, Sylvie Desprès . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
Multi-catégorisation de textes juridiques et retour de pertinence,
Vincent Pisetta, Hakim Hacid, Djamel. A Zighed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
Combinaison de l’approche inductive (progressive) et linguistique pour l’étiquetage
morphosyntaxique des corpus de spécialité,
Ahmed Amrani, Yves Kodratoff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
Un automate pour évaluer la nature des textes,
Hubert Marteau, Nicole Vincent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
Extraction multilingue de termes à partir de leur structure morphologique,
Delphine Bernhard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
Accès aux connaissances orales par le résumé automatique,
Benoît Favre, Jean-François Bonastre, Patrice Bellot, François Capman . . . . . . . . . . . . . 273

Chapitre 5 : Sémantique

Exploration des paramètres discriminants pour les représentations vectorielles de la


sémantique des mots,
Frank Meyer, Vincent Dubois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275
Exploration interactive de bases de connaissances : un retour d’expérience,
Christophe Tricot, Christophe Roche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
Un modèle de qualité de l’information,
Rami Harrathi, Sylvie Calabretto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299
Annotation sémantique de pages web,
Sylvain Tenier, Amedeo Napoli, Xavier Polanco, Yannick Toussaint . . . . . . . . . . . . . . . . . . 305

Chapitre 6 : Visualisation

Visualisation en Gestion des Connaissances : développement d’un nouveau modèle


graphique Graph’Atanor,
Bruno Pinaud, Pascale Kuntz, Fabrice Guillet, Vincent Philippé . . . . . . . . . . . . . . . . . . . . . 311

xi
Algorithme semi-interactif pour la sélection de dimensions,
Lydia Boudjeloud, François Poulet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323
Visualisation interactive de données avec des méthodes à base de points d’intérêt,
David Da Costa, Gilles Venturini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335
Modélisation informationnelle : un cadre méthodologique pour visualiser des
connaissances évolutives spatialisables,
Jean-Yves Blaise, Iwona Dudek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347

Chapitre 7 : Annalyse de données et classification

Typicalité et contribution des sujets et des variables supplémentaires en Analyse


Statistique Implicative,
Régis Gras, Jérôme David, Jean-Claude Régnier, Fabrice Guillet . . . . . . . . . . . . . . . . . . . 359
Utilisation de métadonnées pour l’aide à l’interprétation de classes et de partitions,
Abdourahamane Baldé, Yves Lechevallier, Brigitte Trousse, Marie-Aude Aufaure . . . . . 371
Affectation pondérée sur des données de type intervalle,
Chérif Mballo, Edwin Diday . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377
Classifications hiérarchiques factorielles de variables,
Sergio Camiz, Jean-Jacques Denimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383
Classification non-supervisée de données relationnelles,
Jérôme Maloberti, Shin Ando, Einoshin Suzuki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389

Chapitre 8 : Apprentissage

Analyse du comportement des utilisateurs exploitant une base de données vidéo,


Sylvain Mongy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391
Web Usage Mining : extraction de périodes denses à partir des logs,
Florent Masseglia, Pascal Poncelet, Maguelonne Teisseire, Alice Marascu . . . . . . . . . . . 403
Comparaison de dissimilarité pour l’analyse de l’usage d’un site web,
Fabrice Rossi, Francisco De Carvalho, Yves Lechevallier, Alzennyr Da Silva . . . . . . . . . 409
Extraction de relations dans les documents Web,
Rémi Gilléron, Patrick Marty, Marc Tommasi, Fabien Torre . . . . . . . . . . . . . . . . . . . . . . . . . 415
Sélection supervisée d’instances : une approche descriptive,
Sylvain Ferrandiz, Marc Boullé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421
Classification de documents XML à partir d’une représentation linéaire des arbres
de ces documents,
Anne-Marie Vercoustre, Mounir Fegas, Yves Lechevallier, Thierry Despeyroux . . . . . . . . 433
Carte auto-organisatrice probabiliste sur données binaires,
Rodolphe Priam, Mohamed Nadif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445
Classification d’un tableau de contingence et modèle probabiliste,
Gérard Govaert, Mohamed Nadif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457

xii
Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair,
Raja Chiky, Bruno Defude, Georges Hébrail . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463
Fouille de données dans les systèmes Pair-à-Pair pour améliorer la recherche de ressources,
Florent Masseglia, Pascal Poncelet, Maguelonne Teisseire . . . . . . . . . . . . . . . . . . . . . . . . . . 469
Une approche simple inspirée des réseaux sociaux pour la hiérarchisation des systèmes
autonomes de l’Internet,
Fabrice Clérot, Quang Nguyen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475
Recherche de sous-structures fréquentes pour l’intégration de schémas XML,
Federico Del Razo López, Anne Laurent, Pascal Poncelet, Maguelonne Teisseire . . . . . . 487
Vers l’extraction de motifs rares,
Laszlo Szathmary, Sandy Maumus, Pierre Petronin, Yannick Toussaint,
Amedeo Napoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499
Approche entropique pour l’analyse de modèle de chroniques,
Nabil Benayadi, Marc Le Goc, Philippe Bouché . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 511
La fouille de graphes dans les bases de données réactionnelles au service de la synthèse
en chimie organique,
Frédéric Pennerath, Amedeo Napoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517
Fouille de données spatiales. Approche basée sur la programmation logique inductive,
Nadjim Chelghoum, Karine Zeitouni, Thierry Laugier, Annie Fiandrino,
Lionel Loubersac . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 529
Arbres de Décision Multi-Modes et Multi-Cibles,
Frank Meyer, Fabrice Clérot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 541
Extension de l’algorithme CURE aux fouilles de données,
Jerzy Korczak, Aurélie Bertaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 547

Chapitre 9 : Règles d’association

Comparaison des mesures d’intérêt de règles d’association : une approche basée sur des
graphes de corrélation,
Xuan-Hiep Huynh, Fabrice Guillet, Henri Briand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 549
Une comparaison de certains indices de pertinence des règles d’association,
Marie Plasse, Ndeye Niang, Gilbert Saporta, Laurent Leblond . . . . . . . . . . . . . . . . . . . . . . 561
Utilisation des réseaux bayésiens dans le cadre de l’extraction de règles d’association,
Clément Fauré, Sylvie Delprat, Alain Mille, Jean-François Boulicaut . . . . . . . . . . . . . . . . 569
Critère VT100 de sélection des règles d’association,
Alain Morineau, Ricco Rakotomalala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 581
Modèle décisionnel basé sur la qualité des données pour sélectionner les règles
d’associations légitimement intéressantes,
Laure Berti-Equille . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593
Règles d’association avec une prémisse composée : mesure du gain d’information,
Martine Cadot, Pascal Cuxac, Claire François . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 599

xiii
Recherche de règles non redondantes par vecteurs de bits dans des grandes bases de motifs,
François Jacquenet, Christine Largeron, Cédric Udréa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 601

Chapitre 10 : Données séquentielles

Des motifs séquentiels généralisés aux contraintes de temps étendues,


Céline Fiot, Anne Laurent, Maguelonne Teisseire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 603
Bordure statistique pour la fouille incrémentale de données dans les Data Streams,
Jean-Emile Symphor, Pierre-Alain Laur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 615
Extraction de motifs séquentiels dans les flots de données d’usage du Web,
Alice Marascu, Florent Masseglia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 627
Champs de Markov conditionnels pour le traitement de séquences,
Trinh Minh Tri Do, Thierry Artières . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 639

Chapitre 11 : Applications

Apprentissage de la structure des réseaux bayésiens à partir des motifs fréquents corrélés :
application à l’identification des facteurs environnementaux du cancer du Nasopharynx,
Alexandre Aussem, Zahra Kebaili, Marilys Corbex, Fabien De Marchi . . . . . . . . . . . . . . . 651
De l’analyse didactique à la modélisation informatique pour la conception d’un EIAH en
chirurgie orthopédique,
Vanda Luengo, Lucile Vadcard, Dima Mufti-Alchawafa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 663
Prédiction de la solubilité d’une molécule à partir des seules données relationnelles,
Sébastien Derivaux, Agnès Braud, Nicolas Lachiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 669
Préparation des données Radar pour la reconnaissance/identification de cibles aériennes,
Abdelmalek Toumi, Brigitte Hoeltzener, Ali Khenchaf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 675
Biclustering of Gene Expression Data Based on Local Nearness,
Jesus Aguilar-Ruiz, Domingo Savio Rodriguez, Dan A. Simovici . . . . . . . . . . . . . . . . . . . . 681
Amélioration des indicateurs techniques pour l’analyse du marché financier,
Hunor Albert-Lorincz, Jean-François Boulicaut . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 693
EDA : algorithme de désuffixation du langage médical,
Didier Nakache, Elisabeth Métais, Annabelle Dierstein . . . . . . . . . . . . . . . . . . . . . . . . . . . . 705
Aide en gestion hospitalière par visualisation des composantes de non-pertinence,
Bernard Huet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 707
Enrichissement d’ontologies dans le secteur de l’eau douce en environnement Internet
distribué et multilingue,
Lylia Abrouk, Mathieu Lafourcade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 709
Comparaison des mammographies par des méthodes d’apprentissage,
Irina Diana Coman, Djamel Abdelkader Zighed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 711

xiv
Représentation d’expertise psychologique sous la forme de graphes orientés, codés
en RDF,
Yves Fossé, Stéphane Daviet, Henri Briand, Fabrice Guillet . . . . . . . . . . . . . . . . . . . . . . . . 713
Représentation des connaissances appliquées à la géotechnique : une approche,
Nicolas Faure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 715
Sélection de variables et modélisation d’expressions d’émotions dans des dialogues
Homme-Machine,
Barbara Poulain . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 717
Comment formaliser les connaissances tacites d’une organisation ? Le cas de la conduite
du changement à la SNCF,
Anne Remillieux, Christian Blatter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 719
I-Semantec : une plateforme collaborative de capitalisation des connaissances métier en
conception de produits industriels,
Mohamed-Foued Sriti, Phillipe Boutinaud, Nada Matta, Manuel Zacklad . . . . . . . . . . . . 721
Outil de datamining spatial appliqué à l’analyse des risques liés au territoire,
Schahrazed Zeghache, Farida Admane, Kamel Elarabia Ziane . . . . . . . . . . . . . . . . . . . . . . 723
Confrontation de points de vue dans le système Porhyry,
Samuel Gesche, Sylvie Calabretto, Guy Caplat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 725
Système d’aide à la décision pour la surveillance de la qualité de l’air intérieur,
Zoulikha Heddadji, Nicole Vincent, Severine Kirchner, Georges Stamon . . . . . . . . . . . . . . 727
FaBR-CL : méthode de classification croisée de protéines,
Walid Erray, Faouzi Mhamdi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 729
Un modèle extensible adapté à la gestion de dépêches d’agences de presse,
Frédéric Bertrand, Cyril Faucher, Marie-Christine Lafaye, Jean-Yves Lafaye,
Alain Bouju . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 731
ARABASE : base de données Web pour l’exploitation en reconnaissance optique de
l’écriture arabe,
Noura Bouzrara, Nacéra Madani Aissaoui, Najoua Essoukri Ben Amara . . . . . . . . . . . . . 733
Archiview, un outil de visualisation topographique des paramètres d’un hôpital,
Pierre P. Lévy, Jean-Philippe Villaréal, Pierre-Paul Couka, Fabrice Gallois,
Laurence Herbin, Antoine Flahault . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 735

Chapitre 12 : Logiciels

Faire vivre un référentiel métier dans l’industrie : le système de gestion de


connaissances ICARE,
Alain Berger, Pierre Mariot, Christophe Coppens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 737
ESIEA Datalab Logiciel de Nettoyage et Préparation de Données ,
Christopher Corsia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 739
Méthode de récolte de traces de navigation sur interface graphique et visualisation
de parcours,
Marc Damez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 741

xv
Teximus Expertise : un logiciel de gestion de connaissances,
Olivier Gerbé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 743
Un logiciel permettant d’apprendre des règles et leurs exceptions : Area,
Sylvain Lagrue, Jérémie Lussiez, Julien Rossit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 745

xvi
Finding fragments of orders and total orders from 0-1 data

Heikki Mannila

HIIT Basic Research Unit, University of Helsinki, Department of Computer Science


and Helsinki University of Technology, Laboratory of Computer and Information Science
Heikki.Mannila@cs.helsinki.fi

High-dimensional collections of 0-1 data occur in many applications. The attributes in


such data sets are typically considered to be unordered. However, in many cases there is a
natural total or partial order underlying the variables of the data set. Examples of variables
for which such orders exist include terms in documents and paleontological sites in fossil data
collections. We describe methods for finding fragments of total orders from such data, based
on finding frequently occurring patterns. We also discuss techniques for finding good total
orderings (seriation) based on spectral ordering and MCMC methods.

Résumé
On s’intéresse aux collections de données 0-1 de haute dimension que l’on rencontre dans
de nombreuses applications. Bien que les attributs soient dans de tels ensembles de données
typiquement considérés comme non ordonnés, un ordre total ou partiel sous-tend souvent les
variables. Par exemple, il existe de tels ordres entre les termes utilisés dans un ensemble de
documents, ou les sites paléontologiques dans les collections de données de fossiles. Nous dé-
crivons des méthodes, fondées sur la recherche de motifs fréquents, qui permettent de retrouver
des fragments d’ordre total à partir de telles données. Nous discutons également des techniques
fondées sur l’ordre spectral et les modèles MCMC qui permettent de trouver de bons ordres
totaux (sériations).

-1- RNTI-E-6
Credit scoring, statistique et apprentissage
Gilbert Saporta

Chaire de Statistique Appliquée & CEDRIC


Conservatoire National des Arts et Métiers
292 rue Saint Martin
75141 Paris Cedex 03
saporta@cnam.fr

Les accords dits « Bâle 2 » sur la solvabilité des banques ont remis au goût du jour les
techniques de scoring en imposant aux banques de calculer des probabilités de défaut et le
montant des pertes en cas de défaut. Nous présentons dans cet exposé les principales techni-
ques utilisées et les problèmes actuels.
Le terme credit scoring désigne un ensemble d’outils d’aide à la décision utilisés par les
organismes financiers pour évaluer le risque de non-remboursement des prêts. Un score est
une note de risque, ou une probabilité de défaut.
Le problème semble simple en apparence, puisqu’il s’agit d’une classification supervisée
en deux groupes, les « bons payeurs » et les « mauvais payeurs ».
Les classifieurs linéaires sont les plus classiques et souvent les seuls utilisables en raison
de contraintes légales : on doit pouvoir expliquer la décision de refus. Ces classifieurs doi-
vent être adaptés au cas de prédicteurs qualitatifs, que l’on rencontre le plus souvent en crédit
à la consommation. On rappellera que l’usage de variables qualitatives remonte à des travaux
très anciens de Fisher. La régression logistique est devenue un standard dans la profession,
que l’on oppose souvent à tort à l’analyse discriminante.
La théorie de l’apprentissage statistique apporte alors des justifications à l’usage de tech-
niques de réduction de dimension (méthode Disqual de discrimination sur composantes fac-
torielles, régression PLS) et de régularisation (régression ridge). La régression PLS se révèle
équivalente à une technique méconnue : l’analyse discriminante barycentrique qui est le
pendant additif du classifieur naïf de Bayes qui est multiplicatif.
Le choix entre méthodes ou algorithmes ne peut reposer sur des critères statistiques de
type vraisemblance, inadapté à des problèmes de décision mais sur des mesures de perfor-
mance en généralisation. La courbe ROC et les indices associés (AUC, Gini, Ki) sont les
plus utilisés.
Un des problèmes épineux est celui du biais de sélection : en effet l’ensemble
d’apprentissage ne contient que des individus dont la demande de prêt a été accordée. On sait
que si les variables d’acceptation sont différentes des variables disponibles, on ne peut trou-
ver de solution sans biais. La prise en compte des dossiers refusés (reject inference) donne
lieu cependant à une abondante littérature, sans guère de résultats convaincants.
La discrimination entre défaillants et non-défaillants n’est plus le seul objectif, surtout
pour des prêts à long terme : le « quand » devient aussi important que le « si ». De nombreux
travaux s’orientent actuellement vers l’utilisation de modèles de survie pour données censu-
rées dont nous donnerons un aperçu.

-3- RNTI-E-6
Credit scoring

Références
Baesens, B. (2003): Developing intelligent systems for credit scoring using machine learning
techniques, Ph.D, Leuven
Baesens B., Van Gestel T., Stepanova M., Van Den Poel D.(2005) Neural Network Survival
Analysis for Personal Loan Data, Journal of the Operational Research Society, 56 (9),
1089-1098,
Bardos, M.; (2001): Analyse discriminante, Paris, Dunod
Bouroche, J.M., Saporta G. (1988) Les méthodes et les applications du credit-scoring , Atti
34° Riunione Scientifica della Sociéta Italiana di Statistica, p.19-26,
Celeux, G., Nakache, J.P. (1994). Discrimination sur variables qualitatives, Paris: Polytech-
nica
Fisher, R.A. (1940) The precision of discriminant functions, Annals of Eugenics, 10, 422-
429.
Hastie,T. ,Tibshirani,R., Friedman, J. (2001): The Elements of Statistical Learning, New-
York, Springer-Verlag
Mays ed. (2001), Handbook of credit scoring, Glenlake
Saporta G., Niang N., (2006), Correspondence analysis and classification, in Blasius, J. &
Greenacre, M. editors: Multiple correspondence analysis and related methods, Chapman
& Hall
Thomas L.C., Edelman D.B., Crook J.N. (2002) Credit Scoring and its Applications, SIAM
monographs on Mathematical Modelling and Computation
Credit Research Center: http://www.crc.man.ed.ac.uk
http://www.defaultrisk.com/
Basel Committee publications: http://www.bis.org/bcbs/publ.htm

Summary
Basel 2 regulations brought new interest in supervised classification methodologies for
predicting default probability for loans. An important feature of consumer credit is that pre-
dictors are generally categorical. Logistic regression and linear discriminant analysis are the
most frequently used techniques but are often unduly opposed. Vapnik’s statistical learning
theory explains why a prior dimension reduction (eg by means of multiple correspondence
analysis) improves the robustness of the score function. Ridge regression, linear SVM, PLS
regression are also valuable competitors. Predictive capability is measured by AUC or Gini’s
index which are related to the well known non-parametric Wilcoxon-Mann-Whitney test.
Among methodological problems, reject inference is an important one, since most samples
are subject to a selection bias. There are many methods, none being satisfactory. Distinguish
between good and bad customers is not enough, especially for long-term loans. The question
is then not only “if”, but “when” the customers default. Survival analysis provides new types
of scores.

RNTI-E-6 -4-
Maintaining an Online Bibliographical Database:
The Problem of Data Quality
Michael Ley∗ , Patrick Reuther∗


Department for Databases and Information Systems, University of Trier, Germany
{ley,reuther}@uni-trier.de
http://dbis.uni-trier.de http://dblp.uni-trier.de

Abstract. CiteSeer and Google-Scholar are huge digital libraries which provide
access to (computer-)science publications. Both collections are operated like
specialized search engines, they crawl the web with little human intervention
and analyse the documents to classify them and to extract some metadata from
the full texts. On the other hand there are traditional bibliographic data bases
like INSPEC for engineering and PubMed for medicine. For the field of com-
puter science the DBLP service evolved from a small specialized bibliography
to a digital library covering most subfields of computer science. The collections
of the second group are maintained with massive human effort. On the long
term this investment is only justified if data quality of the manually maintained
collections remains much higher than that of the search engine style collections.
In this paper we discuss management and algorithmic issues of data quality. We
focus on the special problem of person names.

1 Introduction
In most scientific fields the amount of publications is growing exponentially. The primary
purpose of scientific publications is to document and communicate new insights and new re-
sults. On the personal level publishing is a sort of collecting credit points for the CV. On
the institutional level there is an increasing demand to evaluate scientists and departments by
bibliometric measures, which hopefully consider the quality of the work. All aspects require
reliable collection, organization and access to publications. In the age of paper this infrastruc-
ture was provided by publishers and libraries. The internet, however, enabled new players to
offer services. Consequently many specialized internet portals became important for scien-
tific communities. Search engines like Google(-Scholar) or CiteSeer, centralized archives like
arXic.org/CoRR and a huge number of personal and/or department web servers make it very
easy to communicate scientific material.
The old players — publishers, learned societies, libraries, database producers etc. —
face these new competitors by building large digital libraries like ScienceDirect (Elsevier),
SpringerLink, ACM Digital Library or Xplore (IEEE) in the field of computer science.
DBLP (Digital Bibliography & Library Project) (Ley, 2002) is an internet "newcomer"
that started service in 1993. The DBLP service evolved from a small bibliography special-
ized to database systems and logic programming to a digital library covering most subfields

-5- RNTI-E-6
Graphes de voisinage pour l’indexation et l’interrogation
d’images par le contenu
Hakim Hacid ∗ , Abdelkader Djamel Zighed∗


Université Lyon 2, Laboratoire ERIC
Bat. L, 5 Av. Pierre Mendès-France
69676 Bron cedex - France
hhacid@eric.univ-lyon2.fr, zighed@univ-lyon2.fr,
http://eric.univ-lyon2.fr/

Résumé. La découverte d’informations cachées dans les bases de données mul-


timédias est une tâche difficile à cause de leur structure complexe et à la sub-
jectivité liée à leur interprétation. Face à cette situation, l’utilisation d’un index
est primordiale. Un index multimédia permet de regrouper les données selon
des critères de similarité. Nous proposons dans cet article d’apporter une amé-
lioration à une approche déjà existante d’interrogation d’images par le contenu .
Nous proposons une méthode efficace pour mettre à jour, localement, les graphes
de voisinage qui constituent notre structure d’index multimédia. Cette méthode
est basée sur une manière intelligente de localisation de points dans un espace
multidimensionnel. Des résultats prometteurs sont obtenus après des expérimen-
tations sur diverses bases de données.

1 Introduction
La recherche d’information dans les bases de données image est toujours un défi. Pour
l’être humain, l’accès à la sémantique d’une image est naturel et non explicite. Par conséquent,
la sémantique provient de l’image sans processus cognitif explicite. Dans la vision par ordina-
teur, il existe plusieurs niveaux d’interprétation. Le plus bas est celui des pixels et le plus haut
est celui des scènes ; entre eux beaucoup de niveaux d’abstraction existent. Le défi est alors de
remplir la gouffre entre le bas niveau et le haut niveau.
Il existe au moins deux issues intermédiaires auxquelles nous nous intéressons. La pre-
mière est la représentation de l’image sous forme de vecteurs qui est appelée indexation. Elle
consiste à extraire quelques caractéristiques (composantes d’un vecteur) à partir de la représen-
tation de bas niveau(Pixel). Par exemple, l’histogramme des couleurs, les différents moments,
les paramètres de forme, etc. La seconde issue est l’ensemble des étiquettes associées à une
image. Ces étiquettes sont fournit par l’humain au moyen de mots, d’adjectifs, ou au moyen de
tout autre attribut symbolique. Les étiquettes sont compréhensibles et mieux manipulées. La
sémantique peut être considérée comme le résultat du traitement des attributs symboliques qui
sont liés à l’image.
Donner à l’ordinateur la capacité d’imiter l’être humain dans l’analyse de scènes nécessite
d’expliciter le processus par lequel il peut se déplacer de la représentation bas niveau à la

- 11 - RNTI-E-6
Extraction automatique de champs numériques dans des
documents manuscrits
Clément Chatelain, Laurent Heutte, Thierry Paquet

Laboratoire PSI, CNRS FRE 2645,


Université de Rouen, 76800 Saint Etienne du Rouvray, FRANCE
clement.chatelain@univ-rouen.fr

Résumé. Nous décrivons dans cet article une chaine de traitement complète et
générique permettant d’extraire automatiquement les champs numériques (nu-
méros de téléphone, codes clients, codes postaux) dans des documents manus-
crits libres. Notre chaïne de traitement est constituée des trois étapes suivantes:
localisation des champs numériques potentiels selon une approche markovienne
sans reconnaissance chiffre ni segmentation, reconnaissance des séquences ex-
traites, et vérification des hypothèses de localisation / reconnaissance en vue de
limiter la fausse alarme génerée lors de l’étape de localisation. L’évaluation de
notre système sur une base de 300 courriers manuscrits montre des performances
en rappel-précision intéressantes.

1 Introduction
Aujourd’hui, la lecture automatique des documents manuscrits se limite à quelques cas ap-
plicatifs particuliers : lecture automatique de chèques ou d’adresses postales, reconnaissance
des champs d’un formulaire. Cette lecture est possible car le contenu de ces documents est
très largement contraint : structure du document stable, position des informations connue, re-
dondance de l’information, lexique limité, etc. Lors de la lecture, le système bénéficie ainsi
d’informations a priori importantes permettant de limiter ou de vérifier les hypothèses de re-
connaissance, autorisant une lecture fiable des documents.
Peu de travaux abordent des problèmes de reconnaissance moins contraints car il est alors
plus difficile de bénéficier de moyens automatiques de vérification des hypothèses de recon-
naissance. C’est le contexte de nos travaux portant sur la lecture automatique des courriers
entrants manuscrits. Il s’agit de courriers manuscrits tels que des lettres de réclamation, de
changement d’adresse, de modification de contrat, etc., reçus en très grand nombre quotidien-
nement par des grandes organisations. Contrairement aux applications précédemment citées,
aucune information a priori n’est disponible : le contenu, la structure, l’expéditeur ou encore
l’objet du document sont totalement inconnus du système de lecture, ce qui rend la lecture
intégrale du document extrêmement délicate. Il est cependant possible de considérer des pro-
blèmes de lecture partielle du document, visant à en extraire l’information pertinente. C’est
ce que nous envisageons dans cet article en proposant une méthode de localisation et de re-
connaissance de champs numériques (numéros de téléphones, codes clients, etc.) dans des
courriers entrants manuscrits (voir figure 1). La reconnaissance de ces champs permettra par

- 23 - RNTI-E-6
Clustering dynamique d’un flot de données : un algorithme
incrémental et optimal de détection des maxima de densité
Alain Lelu

LASELDI / Université de Franche-Comté


30 rue Mégevand – 25030 Besançon cedex
alain.lelu@univ-fcomte.fr

Résumé. L’extraction non supervisée et incrémentale de classes sur un flot de


données (data stream clustering) est un domaine en pleine expansion. La plu-
part des approches visent l’efficacité informatique. La nôtre, bien que se prê-
tant à un passage à l’échelle en mode distribué, relève d’une problématique
qualitative, applicable en particulier au domaine de la veille informationnelle :
faire apparaître les évolutions fines, les « signaux faibles », à partir des théma-
tiques extraites d’un flot de documents. Notre méthode GERMEN localise de
façon exhaustive les maxima du paysage de densité des données à l’instant t,
en identifiant les perturbations locales du paysage à t-1 et modifications de
frontières induites par le document présenté. Son caractère optimal provient de
son exhaustivité (à une valeur du paramètre de localité correspond un ensem-
ble unique de maxima, et un découpage unique des classes qui la rend indé-
pendante de tout paramètre d’initialisation et de l’ordre des données.

1 Introduction et objectifs
Pour rendre compte avec exactitude des évolutions temporelles, cruciales dans beaucoup
de domaines d’application (ex. : veille d’information), il est nécessaire à notre avis :
1) de partir d’une base stable, c'est-à-dire d’une classification :
- indépendante de l’ordre de présentation des données (exigence n°1),
- indépendante des conditions initiales, que ce soit d’un choix de « graines de classes »
arbitraires ou dépendantes des données (exigence n°2),
- impliquant un minimum de paramètres, un seul si possible, pour réduire l’espace des
choix et tendre vers un maximum de vérifiabilité et de reproductibilité (exigence n°3).
2) d’ajouter aux contraintes d’une bonne classification celle de l’incrémentalité (exigence
N°4), afin de saisir les évolutions au fil de l’eau : rectifications de frontières entre classes,
apparition de nouvelles classes, voire de « signaux faibles »... Pour nous, il y a incrémentalité
véritable si le résultat de la classification est indépendant de l’ordre des données présentées
antérieurement (exigence N°5), tout en découlant des données antérieures, par un historique
pouvant faire l’objet d’interprétations.
Notre démarche a été de concevoir une méthode où la contrainte d’incrémentalité partici-
per d’un tout cohérent, en vue d’aboutir à tout instant à une classification qui ait du sens, et
dont la différence de représentation par rapport à l’instant précédent ne provient que des

- 35 - RNTI-E-6
Extraction d'objets vidéo : Une approche combinant les
contours actifs et le flot optique
Youssef Zinbi*, Youssef Chahir* et Abder Elmoatz **

* GREYC - URA CNRS 6072


Campus II - BP 5186
Université de Caen
14032 Caen Cedex
** LUSAC , Site Universitaire, rue Luis Aragon
50130 Cherbourg
{yzinbi,chahir}@info.unicaen.fr
abder@greyc.ismra.fr

Résumé. Dans cet article, nous présentons une méthode mixte de segmentation
d'objets visuels dans une séquence d'images d'une vidéo combinant à la fois
une segmentation basée régions et l'estimation de mouvement par flot optique.
L'approche développée est basé sur une minimisation d'une fonctionnelle
d'énergie (E) qui fait intervenir les probabilités d'appartenance (densité) avec
une gaussienne, en tenant compte des informations perceptuelles de couleur et
de texture des régions d'intérêt. Pour améliorer la méthode de détection et de
suivi, nous avons étendu la formulation énergétique de notre modèle de
contour actif en incluant une force supplémentaire issue du calcul du flot opti-
que. Nous montrons l'intérêt de cette approche mixte en terme de temps de cal-
cul et d'extraction d'objets vidéo complexes, et nous présentons les résultats
obtenus sur des séquences de corpus vidéo couleur.

1 Introduction
La recherche d'objets vidéo est une tâche difficile compte tenu de la richesse des informa-
tions multiples dans l'image. Pour trouver de manière automatique ces objets vidéo, il est
important de tenir compte de trois étapes principales qui sont la segmentation, l'identification
et le suivi d'objets en mouvement par flot optique.
Le but de la segmentation active est de détecter et d’extraire des informations pertinentes
dans une image. Différents modèles de contours actifs ont été proposés dans la littérature,
mais on peut distinguer deux principales approches: Des approches basées contours et
d’autres basées régions. L'implémentation de n'importe quel modèle de contour actif exige la
minimisation d'une fonctionnelle d’énergie. Cette énergie a deux composantes: énergie ex-
terne, qui est caractérisée par la régularité de la courbe et l’énergie interne qui a pour fonc-
tion d'attirer la courbe vers les gradients les plus forts (les forts contraste de l'image).
Les contours actifs classiques ont été proposés pour la première fois par Kass et al (Kass
et al., 1987) pour la segmentation d’images médicales. L'idée de base consiste à faire évoluer
la courbe vers la frontière de l’objet à détecter. Ce modèle a été confronté à plusieurs

- 41 - RNTI-E-6
SVM incrémental, parallèle et distribué pour le traitement de
grandes quantités de données
Thanh-Nghi Do*, François Poulet**

*College of Information Technology, Cantho University


1 Ly Tu Trong street, Cantho City, Vietnam
dtnghi@cit.ctu.edu.vn
**ESIEA - Pôle ECD
38, rue des Docteurs Calmette et Guérin, 53000 Laval - France
poulet@esiea-ouest.fr

Résumé. Nous présentons un nouvel algorithme de SVM (Support Vector


Machine ou Séparateur à Vaste Marge) linéaire et non-linéaire, parallèle et
distribué permettant le traitement de grands ensembles de données dans un
temps restreint sur du matériel standard. A partir de l’algorithme de Newton-
GSVM proposé par Mangasarian, nous avons construit un algorithme
incrémental, parallèle et distribué permettant d’améliorer les performances en
temps d’exécution et mémoire en s’exécutant sur un groupe d’ordinateurs. Ce
nouvel algorithme a la capacité de classifier un million d’individus en 20
dimensions et deux classes en quelques secondes sur un ensemble de dix PC.

1 Introduction
A l’heure actuelle, les données arrivent plus vite que la capacité de traitement des
algorithmes de fouille de données ne permet de les traiter. L’amélioration des performances
des algorithmes de fouille de données est indispensable pour traiter de grands ensembles de
données. Nous nous intéressons au cas de la classification supervisée et plus particulièrement
à une classe d’algorithmes : les SVM [Vapnik, 1995]. En règle générale, ils donnent de bons
taux de précision mais, l’apprentissage des SVM se ramène à résoudre un programme
quadratique et est donc coûteux en temps et mémoire. Pour remédier à ce problème, les
méthodes de décomposition [Platt, 1999], [Chang et Lin, 2003] travaillent sur des sous-
ensembles arbitraires de données, on utilise alors des heuristiques [Do et Poulet, 2005]
permettant de choisir les sous-ensembles de données. D’autres travaux visent à construire des
algorithmes incrémentaux [Fung et Mangasarian, 2002] dont le principe est de ne charger
qu’un petit bloc de données en mémoire à la fois, de construire un modèle partiel et de le
mettre à jour en chargeant consécutivement des blocs de données. Les SVMs parallèles et
distribués [Poulet et Do, 2004] utilisent un réseau de machines pour améliorer les
performances. Nous présentons un nouvel algorithme de SVM linéaire et non-linéaire pour
traiter de grands ensembles de données dans un temps restreint sur du matériel standard. A
partir de l’algorithme de Newton-GSVM [Mangasarian, 2001], nous avons construit un
algorithme incrémental, parallèle et distribué permettant d’améliorer les performances en
temps d’exécution et mémoire en s’exécutant sur un groupe d’ordinateurs. Les résultats

- 47 - RNTI-E-6
Recherche en temps réel de préfixes massifs hiérarchiques
dans un réseau IP à l’aide de techniques de stream mining
Pascal Cheung-Mon-Chan∗ , Fabrice Clérot∗


France Télécom R&D
2, avenue Pierre Marzin BP 50702
22307 Lannion Cedex -France
{pascal.cheungmonchan, fabrice.clerot}@francetelecom.com

Résumé. Au cours de ces dernières années, de nombreuses techniques de stream


mining ont été proposées afin d’analyser des flux de données en temps réel.
Dans cet article, nous montrons comment nous avons utilisé des techniques de
stream mining permettant la recherche d’objets massifs hiérarchiques (hierarchi-
cal heavy hitters) dans un flux de données pour identifier en temps réel dans un
réseau IP les préfixes dont la contribution au trafic dépasse une certaine propor-
tion de ce trafic pendant un intervalle de temps donné.

1 Introduction
Les progrès techniques récents ont eu pour conséquence l’augmentation du nombre de flux
d’information et la croissance rapide de leurs débits. L’architecture traditionnelle de l’analyse
de données — où les données, préalablement stockées, sont analysées puis rafraîchies — étant
inadaptée au traitement de ces flux, une nouvelle famille de techniques, dites de stream mi-
ning, se propose d’inverser radicalement cette architecture et de mettre en oeuvre des systèmes
reposant sur des capacités de stockage minimales qui sont mises à jour à la vitesse du flux.
L’objectif de cet article est d’expliquer comment nous avons utilisé des techniques de stream
mining afin d’identifier en temps réel, dans un réseau IP, les préfixes dont la contribution au
trafic dépasse une certaine proportion de ce trafic pendant un intervalle de temps donné.

2 La recherche d’objets massifs hiérarchiques dans un flux


de données
2.1 La notion d’objet massif hiérarchique
Les flux de données que nous allons considérer ici sont de la forme (it , ct )t∈N où, pour
tout instant t ∈ N, l’identifiant it appartient à un ensemble fini U et la marque ct est un
nombre réel positif ou nul. Dans cet article, l’identifiant it correspondra à une adresse IP, par
exemple l’adresse destination d’un paquet IP transitant en un point P donné d’un réseau, l’en-
semble fini U correspondra à l’ensemble des adresses IP v4 (autrement dit chaque adresse
comportera 32 bits) et la marque ct correspondra au nombre d’octets transportés par le paquet

- 53 - RNTI-E-6
Prétraitement de grands ensembles de données pour la fouille
visuelle
Edwige Fangseu Badjio, François Poulet

ESIEA Pôle ECD,


Parc Universitaire de Laval-Changé,
38, Rue des Docteurs Calmette et Guérin,
53000 Laval France
fangseubadjio@esiea-ouest.fr
poulet@esiea-ouest.fr

Résumé. Nous présentons une nouvelle approche pour le traitement des en-
sembles de données de très grande taille en fouille visuelle de données. Les li-
mites de l’approche visuelle concernant le nombre d’individus et le nombre de
dimensions sont connues de tous. Pour pouvoir traiter des ensembles de don-
nées de grande taille, une solution possible est d’effectuer un prétraitement de
l’ensemble de données avant d’appliquer l’algorithme interactif de fouille vi-
suelle. Pour ce faire, nous utilisons la théorie du consensus (avec une affecta-
tion visuelle des poids). Nous évaluons les performances de notre nouvelle ap-
proche sur des ensembles de données de l’UCI et du Kent Ridge Bio Medical
Dataset Repository.

1 Introduction
Nous nous intéressons au problème de prétraitement de grands ensembles de données.
Notre but est de réduire les informations contenues dans les ensembles de données volumi-
neux aux informations les plus significatives. Il existe des techniques expérimentalement
validées pour ce faire. D’un point de vue applicatif, un problème majeur se pose quant au
choix d’une de ses méthodes. Une solution qui constitue notre contribution dans ce travail
serait d’utiliser une combinaison de techniques ou de stratégies. A cet effet, nous nous ap-
puyons sur la théorie du consensus. L’utilisation de cette combinaison de stratégies ou
d’expertises peut être justifiée par l’un des faits suivants :
- il n’est pas possible de déterminer a priori quelle méthode de sélection de sous-ensemble
d’attributs est meilleure que toutes les autres (en tenant compte des différences entre le
temps d'exécution et la complexité),
- un sous-ensemble optimal d'attributs n'est pas nécessairement unique,
- la décision d'un comité d'experts est généralement meilleure que la décision d'un seul
expert.
Les résultats obtenus après des expérimentations permettent de conclure que l’approche
proposée réduit de façon significative l’ensemble de données à traiter et permet de les traiter
interactivement. Cette contribution commence par un état de l’art et la problématique du

- 59 - RNTI-E-6
Indexation de vues virtuelles dans un médiateur XML pour le
traitement de XQuery Text
Clément Jamard*, Georges Gardarin*

Laboratoire PRiSM
Université de Versailles
78035, Versailles Cedex, France
prénom.nom@prism.uvsq.fr

Résumé: Intégrer le traitement de requêtes de recherche d’information dans un


médiateur XML est un problème difficile. Ceci est notamment dû au fait que
certaines sources de données ne permettent pas de recherche sur mot-clefs et
distance ni de classer les résultats suivant leur pertinence. Dans cet article nous
abordons l’intégration des fonctionnalités principales du standard XQuery Text
dans XLive, un médiateur XML/XQuery. Pour cela nous avons choisi
d’indexer des vues virtuelles de documents. Les documents virtuels
sélectionnés sont transformés en objets des sources. L’opérateur de sélection
du médiateur est étendu pour supporter des recherches d’information sur les
documents de la vue. La recherche sur mots-clefs et le classement de résultat
sont ainsi supportés. Notre formule de classement de résultats est adaptée au
format de données semi-structurées, basé sur le nombre de mots-clefs dans les
différents éléments et la distance entre les éléments d’un résultat.

1 Introduction
XQuery devenant le standard pour interroger XML, de nouveaux besoins apparaissent
pour la recherche d’information. Buston et Rys (2003) spécifient des prédicats et
fonctionnalités de recherche d’information à intégrer à XQuery, comme la recherche
d’élément contenants des mots-clefs, le classement de résultats selon leur pertinence, la
recherche basé sur des suffixes ou préfixes de mots. Un premier ensemble des fonctionnalités
requises pour XQuery Text est défini par Buxton et Rys (2003). TexQuery, Amer-Yahia
(2004), en est le langage précurseur.
Certaines des fonctionnalités citées précédemment, comme la simple recherche de mots-
clefs, sont très communes et présentes dans la plupart des SGBD. Dans le cas de données
distribuées, il faut d’abord recomposer les partitions avant de pouvoir effectuer une
recherche sur le contenu ; d’importantes fonctionnalités souvent nécessaires aux applications
ne sont pas faciles à implanter dans un système distribué. Le classement des résultats, les
recherches conjonctives de mots-clefs, les recherches sur les racines de mots, leurs préfixes
ou suffixes, sont difficilement réalisables car il faut auparavant recomposer les données
dispersées.

- 65 - RNTI-E-6
Techniques de fouille de données pour la réécriture de
requêtes en présence de contraintes de valeurs
Hélène Jaudoin∗ , Frédéric Flouvat∗

Laboratoire LIMOS, UMR CNRS 6158


Université Blaise Pascal - Clermont-Ferrand II,


63 177 Aubière cedex, France
{hjaudoin,flouvat}@isima.fr

Résumé. Dans cet article, nous montrons comment les techniques de fouilles de
données peuvent résoudre efficacement le problème de la réécriture de requêtes
en termes de vues en présence de contraintes de valeurs. A partir d’une forma-
lisation du problème de la réécriture dans le cadre de la logique de description
ALN (Ov ), nous montrons comment ce problème se rattache à un cadre de dé-
couverte de connaissances dans les bases de données. L’exploitation de ce cadre
nous permet de bénéficier de solutions algorithmiques existantes pour la réso-
lution du problème de réécriture. Nous proposons une implémentation de cette
approche, puis nous l’expérimentons. Les premiers résultats démontrent l’intérêt
d’une telle approche en termes de capacité à traiter un grand nombre de sources
de données.

1 Introduction
Aujourd’hui, les techniques d’analyse et d’intégration de données sont devenues des atouts
majeurs pour les entreprises et les services gouvernementaux. En effet, ces techniques per-
mettent un gain de temps pour regrouper et croiser l’information distribuée. Dans le domaine
du développement durable, ces techniques sont notamment indispensables afin de rassembler et
d’analyser les pratiques agricoles et ainsi garantir la traçabilité des pratiques. Plus précisément
nos travaux se situent dans le cadre d’un projet 1 visant à mettre en place un système d’intégra-
tion pour interroger les sources de données agricoles distribuées. Le système doit être flexible
pour permettre l’arrivée de nouvelles sources de données afin de suivre le processus d’infor-
matisation du domaine agricole. En effet entre 2000 et 2003, le nombre d’exploitations ayant
un accès à Internet a triplé 2 . Il doit de plus permettre de traiter un grand nombre de sources
de données car le domaine est susceptible d’accueillir, en plus des services déconcentrés des
ministères, un grand nombre d’exploitations.
Dans cet article, nous nous plaçons dans le cadre d’un système de médiation suivant une
approche Local As View (LAV), où les vues sont décrites via des requêtes sur le schéma glo-
bal. Cette approche est connue pour être flexible car l’ajout et la suppression de sources de
1 Ce projet est réalisé en collaboration avec le Cemagref, http ://www.cemagref.fr/
2 http ://www.acta-informatique.fr/

- 77 - RNTI-E-6
Un index de jointure pour les entrepôts de données XML
Hadj Mahboubi, Kamel Aouiche, Jérôme Darmont

ERIC, Université Lumière Lyon 2


5 avenue Pierre Mendès-France
69676 Bron Cedex
{ hmahboubi | kaouiche | jdarmont}@eric.univ-lyon2.fr

Résumé. Les entrepôts de données XML proposent une base intéressante pour
les applications décisionnelles qui exploitent des données hétérogènes et prove-
nant de sources multiples. Cependant, les performances des SGBD natifs XML
étant actuellement limitées, il est nécessaire de trouver des moyens de les opti-
miser. Dans cet article, nous proposons un nouvel index spécifiquement adapté à
l’architecture multidimensionnelle des entrepôts de données XML, qui élimine
le coût des jointures tout en préservant l’information contenue dans l’entrepôt
initial. Une étude théorique et des résultats expérimentaux démontrent l’effica-
cité de notre index, même lorsque les requêtes sont complexes.

1 Introduction
Les technologies entrant en compte dans les processus décisionnels, comme les entrepôts
de données (data warehouses), l’analyse multidimensionnelle en ligne (On-Line Analysis Pro-
cess ou OLAP) et la fouille de données (data mining), sont désormais très efficaces pour traiter
des données simples, numériques ou symboliques. Cependant, les données exploitées dans le
cadre des processus décisionnels sont de plus en plus complexes. L’avènement du Web et la
profusion de données multimédia ont en grande partie contribué à l’émergence de cette nou-
velle sorte de données. Dans ce contexte, le langage XML peut grandement aider à l’intégration
et à l’entreposage de ces données. C’est pourquoi nous nous intéressons aux travaux émergents
sur les entrepôts de données XML (Golfarelli et al., 2001; Pokorný, 2001; Wolfgang et al.,
2003; Baril et Bellahsène, 2003). Cependant, les requêtes décisionnelles exprimées en XML
sont généralement complexes du fait qu’elles impliquent de nombreuses jointures et agréga-
tions. Par ailleurs, les systèmes de gestion de bases de données (SGBD) natifs XML présentent
actuellement des performances médiocres quand les volumes de données sont importants ou
que les requêtes sont complexes. Il est donc crucial lors de la construction d’un entrepôt de
données XML de garantir la performance des requêtes XQuery qui l’exploiteront.
Plusieurs études traitent de l’indexation des données XML (Gupta et al.; Yeh et Gardarin,
2001; Chung et al., 2002). Ces index optimisent principalement des requêtes exprimées en
expressions de chemin. Or, dans le contexte des entrepôts de données XML, les requêtes sont
complexes et comportent plusieurs expressions de chemin. De plus, ces index opèrent sur un
seul document et ne prennent pas en compte d’éventuelles jointures, qui sont courantes dans les
requêtes décisionnelles. À notre connaissance, seul l’index Fabric (Cooper et al., 2001) permet
actuellement de gérer plusieurs documents XML. Cependant, cet index ne prend pas en compte

- 89 - RNTI-E-6
Le forage distribué des données : une méthode simple, rapide
et efficace
Mohamed Aounallah et Guy Mineau

Département d’informatique et de génie logiciel


Pavillon Adrien-Pouliot, Université Laval
G1K 7P4, Canada
{Mohamed.Aoun-Allah, Guy.Mineau}@ift.ulaval.ca,
http://w3.ift.ulaval.ca/∼moaoa
http://www.ift.ulaval.ca/Personnel/prof/mineau.htm

Résumé. Dans cet article nous nous attaquons au problème du forage de très
grandes bases de données distribuées. Le résultat visé est un modèle qui soit et
prédictif et descriptif, appelé méta-classificateur. Pour ce faire, nous proposons
de miner à distance chaque base de données indépendamment. Puis, il s’agit
de regrouper les modèles produits (appelés classificateurs de base), sachant que
chaque forage produira un modèle prédictif et descriptif, représenté pour nos be-
soins par un ensemble de règles de classification. Afin de guider l’assemblage de
l’ensemble final de règles, qui sera l’union des ensembles individuels de règles,
un coefficient de confiance est attribué à chaque règle de chaque ensemble. Ce
coefficient, calculé par des moyens statistiques, représente la confiance que nous
pouvons avoir dans chaque règle en fonction de sa couverture et de son taux d’er-
reur face à sa capacité d’être appliquée correctement sur de nouvelles données.
Nous démontrons dans cet article que, grâce à ce coefficient de confiance, l’agré-
gation pure et simple de tous les classificateurs de base pour obtenir un agrégat
de règles produit un méta-classificateur rapide et efficace par rapport aux tech-
niques existantes.

1 Introduction
Ce papier traite du problème de forage de plusieurs bases de données gigantesques et géo-
graphiquement distribuées dans le but de produire un ensemble de règles de classification qui
expliquent les groupements de données observés. Le résultat de ce forage sera donc un méta-
classificateur aussi bien prédictif que descriptif. En d’autres termes, nous visons à produire un
modèle qui permet non seulement de prédire la classe de nouveaux objets, mais qui permet
aussi d’expliquer les choix de ses prédictions. Nous croyons que ce genre de modèles, basés
sur des règles de classification, devrait aussi être facile à comprendre par des humains, ce qui
est également l’un de nos objectifs. Il faut dire toutefois que nous nous plaçons dans le contexte
où il est impossible de rapatrier toutes ces bases dans un même site, et ce, soit à cause du temps
de téléchargement, soit à cause de l’impossibilité de traiter la base ainsi agrégée.
Dans la littérature, les techniques de forage distribué de données à la fois prédictives et des-
criptives sont malheureusement peu nombreuses. La plupart d’entre elles tentent de produire

- 95 - RNTI-E-6
Une approche distribuée pour l’extraction de connaissances :
Application à l’enrichissement de l’aspect factuel des BDG
Khaoula Mahmoudi*
Sami Faïz ** ***

* Ecole Supérieur des communications de Tunis (SUPCOM)


khaoula.mahmoudi@insat.rnu.tn
** Institut National des Sciences Appliquées et de Technologie (INSAT)
*** Laboratoire de Télédéction et Systèmes d’Informations à Références Spatiales (LTSIRS)
sami.faiz@insat.rnu.tn

Résumé. Les systèmes d’informations géographiques (SIG) sont utilisés pour


améliorer l’efficacité des entreprises et des services publics, en associant
méthodes d’optimisation et prise en compte de la dimension géographique.
Cependant, les bases de données géographiques (BDG) stockées dans les SIG
sont restreintes à l’application pour laquelle elles ont été conçues. Souvent, les
utilisateurs demeurent contraints de l’existant et se trouvent dans le besoin de
données complémentaires pour une prise de décision adéquate. D’où, l’idée de
l’enrichissement de l’aspect descriptif des BDG existantes. Pour atteindre cet
objectif, nous proposons une approche qui consiste à intégrer un module de
fouille de données textuelles au SIG lui même. Il s’agit de proposer une
méthode distribuée de résumé de documents multiples à partir de corpus en-
ligne. L’idée est de faire coopérer un ensemble d’agents s’entraidant afin
d’aboutir à un résumé optimal.

1 Introduction
Le but d’un SIG est de fournir une aide à la décision dans des domaines divers. Souvent,
il sert à produire des cartes répondant à un besoin spécifique. Il peut être utilisé pour associer
une densité de population à chaque région sur une carte, la représentation de la présence de
consommateurs potentiels d'un produit ou d'un service dans une région, etc. Les données sont
dans tous les cas restreintes à l’application en cours et parfois on a besoin d’avoir des
informations au-delà de ce qui est stocké dans la BDG. A titre d’exemple, une BDG créée
pour une application de découpage administratif ne permet pas de fournir une réponse à une
requête faisant intervenir des informations d’ordre économique, historique, etc. D’où, l’idée
d’offrir des sources complémentaires d’informations sans nuire aux données préalablement
fournies (Faïz et Mahmoudi, 2005). Pour atteindre cet objectif, nous avons bâti une approche
pour la génération automatique de résumés de documents multiples pour fournir les
informations complémentaires relatives aux entités géographiques manipulées par le SIG.
Cette approche est basée sur trois types d’agents coopérant afin d’aboutir à un résumé
optimal. Il s’agit d’un agent interface, des agents entité (géographiques) et des agents tâche.
La communication entre ces agents est assurée par l’envoi de messages. L’approche est

- 107 - RNTI-E-6
Modèle conceptuel pour bases de données
multidimensionnelles annotées
Guillaume Cabanac*, Max Chevalier*, **, Franck Ravat*, Olivier Teste*

*IRIT (Institut de Recherche en Informatique de Toulouse) – UMR 5505


Université Paul Sabatier – 118 route de Narbonne – 31062 Toulouse cedex 9
{Guillaume.Cabanac, Max.Chevalier, Franck.Ravat, Olivier.Teste}@irit.fr
**LGC (Laboratoire de Gestion et Cognition) – EA 2043
IUT « A » Paul Sabatier – 129 avenue de Rangueil – BP 67701 – 31077 Toulouse cedex 4

Résumé. Nos travaux visent à proposer une mémoire d'expertises décisionnel-


les permettant de conserver et de manipuler non seulement les données déci-
sionnelles mais aussi l'expertise analytique des décideurs. Les données déci-
sionnelles sont représentées au travers de concepts multidimensionnels et
l'expertise associée est matérialisée grâce au concept d'annotation.

1 Contexte et problématique
Les systèmes d'aide à la décision visent à transformer les données opérationnelles en in-
formations facilement interprétables par les décideurs afin que ces derniers puissent effectuer
des analyses complexes et prendre les meilleures décisions en temps utiles pour assurer la
compétitivité et la pérennité de l'organisation considérée. Dans un tel contexte, plus que le
patrimoine matériel, le patrimoine immatériel est important pour capitaliser un maximum
d'informations, de connaissances et d'expertises afin de prendre les décisions adaptées. Nos
travaux visent à proposer aux organisations plus qu'un système d'aide à la décision, un véri-
table outil de Mémoire d'Expertises Décisionnelles (MED).

1.1 Les données décisionnelles


Il est reconnu que les Bases de Données Multidimensionnelles (BDM) sont adaptées pour
le stockage et la manipulation des données décisionnelles (Inmon, 1996). Les modèles con-
ceptuels (Ravat et al., 2005) des BDM organisent les données en sujets et axes d’analyses au
sein d’un schéma en étoile (Kimball, 1996). Tout sujet d’analyse est représenté par un fait
composé de plusieurs mesures (indicateurs d’analyse). Les dimensions représentant les axes
d'analyse sont formées de paramètres en fonction desquels les mesures sont étudiées. Les
paramètres sont organisés en hiérarchies, de la granularité la plus fine (attribut racine ser-
vant d’identifiant à la dimension) à la plus générale (cet attribut est symbolisé par All).

1.2 Restitution de données décisionnelles : table multidimensionnelle


Les données d’une BDM sont couramment visualisées au travers d’une Table Multidi-
mensionnelle (TM) : tableau affichant les valeurs d'un fait en fonction de deux dimensions

- 119 - RNTI-E-6
Comparaison de deux modes de représentation de données
faiblement structurées en sciences du vivant

Rallou Thomopoulos∗, Patrice Buche∗∗ , Ollivier Haemmerlé∗∗∗, Frédéric Mabille∗ et


Nongyao Mueangdee∗


INRA, UMR IATE, 2 place Viala, 34060 Montpellier cedex 1
{rallou, mabille, nongyao}@ensam.inra.fr
∗∗
INRA, UMR Mét@risk, 16 rue Claude Bernard, 75231 Paris cedex 5
Patrice.Buche@inapg.fr
∗∗∗
GRIMM-ISYCOM, Univ. Toulouse le Mirail, Dépt. Mathématiques-Informatique
5 allées Antonio Machado, 31058 Toulouse cedex
Ollivier.Haemmerle@univ-tlse2.fr

Résumé. Cet article présente deux modes de représentation de l’information


dans le cadre d’une problématique en sciences du vivant. Le premier, appliqué à
la microbiologie prévisionnelle, s’appuie sur deux formalismes, le modèle rela-
tionnel et les graphes conceptuels, interrogés uniformément via une même inter-
face. Le second, appliqué aux technologies des céréales, utilise le seul modèle
relationnel. Cet article décrit les caractéristiques des données et compare les so-
lutions de représentation adoptées dans les deux systèmes.

1 Introduction
L’étude de la représentation de données faiblement structurées (ou semi-structurées) a
connu une explosion récente avec l’émergence de l’internet et la popularité du standard XML.
Abiteboul (1997) recense les principaux aspects pouvant caractériser ces données : une struc-
ture irrégulière, implicite ou partielle ; un schéma qui se veut indicatif plutôt qu’impératif,
souvent construit a posteriori, de grande taille, évoluant rapidement ; des types de données
éclectiques et une difficulté à établir la distinction entre schéma et données.
De telles données sont courantes dans les sciences du vivant, où l’on trouve également
d’autres “verrous” liés à la complexité des phénomènes étudiés (Keet, 2003) : des données dont
la précision est limitée par les techniques de mesure, des données variables, non répétables,
voire contradictoires, des paramètres nombreux et imbriqués, des données ne pouvant couvrir
tous les cas d’expérimentation possibles. C’est notamment en génomique que les bases de
données biologiques ont été le plus tôt et le plus abondamment étudiées (Cherry et al., 1998).
On trouve cependant des bases de données dans de nombreux autres domaines (environnement,
botanique, etc.) (Keet, 2004), avec des modèles de représentation différents fondés notamment
sur le modèle relationnel (Bukhman et Skolnick, 2001), le modèle objet (Raguenaud et al.,
2002) ou les graphes (Zhong et al., 1999).

- 125 - RNTI-E-6
Reconnaissance automatique d’évènements survenant sur pa-
tients en réanimation à l’aide d’une méthode adaptative
d’extraction en ligne d’épisodes temporels
Sylvie Charbonnier*

*Laboratoire d'Automatique de Grenoble , BP 46, 38402 St Martin d’Hères France


tel : (33) 476-82-64-15 - fax : (33) 476-82-63-88 - email : Sylvie.Charbonnier@inpg.fr

Résumé : Ce papier présente la version adaptative d’un algorithme


d’extraction d’épisodes temporels développé précédemment. Les trois paramè-
tres de réglages de l’algorithme ne sont plus fixes. Ils sont modifiés en ligne en
fonction de la variance estimée du signal que l’on veut décomposer en épiso-
des temporels. La version adaptative de l’algorithme a été utilisée pour recon-
naître automatiquement des aspirations trachéales à partir de plusieures varia-
bles physiologiques enregistrés sur des patients hospitalisés en réanimation.
Des résultats préliminaires sont présentés dans ce papier.

1 Introduction
Les patients hospitalisés en unités de réanimation sont soumis à une surveillance étroite
de la part du personnel soignant. Un grand nombre de variables physiologiques sont enregis-
trées en ligne à des fréquences élevées (une mesure par seconde) sur ces patients. Ces enre-
gistrements produisent des flots de données temporelles importants, que le personnel soi-
gnant doit analyser à chaque visite au patient. Les services de réanimation sont en demande
d’outils d’aide à l’interprétation de ce flot de données, afin de limiter la charge cognitive que
leur interprétation représente (Calvelo et al., 99, Lowe et al., 01, Hunter and McIntosh, 99).
Afin d’aider le médecin dans sa tâche d’analyse des données, nous avons développé une
méthode d’extraction en ligne d’épisodes temporels permettant de transformer une série
temporelle univariée en une succession d’intervalles décrivant l’évolution de la variable.
L’information fournie par la méthode est de la forme suivante : « la variable est stable de-
puis l’instant t1 jusqu’à l’instant t2, à la valeur v1. Elle est croissante de l’instant t2 à
l’instant t3 de la valeur v1 à la valeur v2 … ». L’information fournie sur la tendance du
signal {stable, croissant, décroissant} correspond au vocabulaire utilisé par les médecins
pour décrire l’évolution d’un e physiologique. La méthode d’extraction d’épisodes se règle à
partir de 3 paramètres de réglages dont les valeurs dépendent des variables physiologiques
traitées, mais sont indépendants du patient ou de l’enregistrement, l’hypothèse sous-jacente
étant que le bruit s’ajoutant sur une variable biologique ne dépend pas du patient mais de la
variable monitorée. Or, dans la pratique, cette hypothèse n’est pas toujours vérifiée. La va-
riance des variables monitorés peut changer, suivant l’état physiologique du patient ou le
contexte des soins. Par exemple, la variance des variables respiratoires (ex: la fréquence
respiratoire) sera très différente suivant que le patient est en ventilation spontané ou en mode

- 137 - RNTI-E-6
Une approche multi-agent adaptative pour la simulation de
schémas tactiques
Aydano Machado*, Yann Chevaleyre**, Jean-Daniel Zucker*

* Laboratoire d’Informatique de Paris VI (LIP6) – Université Paris 6


Boîte 169 – 4 Place Jussieu
75252 PARIS CEDEX 05
{Aydano.MACHADO, Jean-Daniel.ZUCKER}@lip6.fr
http://www-poleia.lip6.fr/~{machado, zucker)
** LAMSADE – Université Paris-Dauphine
place du Maréchal de Lattre de Tassigny
75775, Paris
Yann.Chevaleyre@lamsade.dauphine.fr
http://www.lamsade.dauphine.fr/~chevaley

Résumé. Ce papier est consacré à la simulation ou à la réalisation automatique


de schémas tactiques par un groupe d´agents footballeurs autonomes. Son ob-
jectif est de montrer ce que peuvent apporter des techniques d'apprentissage
par renforcement à des agents réactifs conçus pour cette tâche. Dans un pre-
mier temps, nous proposons une plateforme et une architecture d'agents capa-
ble d'effectuer des schémas tactiques dans des cas relativement simples. En-
suite, nous mettons en œuvre un algorithme d'apprentissage par renforcement
pour permettre aux agents de faire face à des situations plus complexes. Enfin,
une série d'expérimentations montrent le gain apporté aux agents réactifs par
l'utilisation d'algorithmes d'apprentissage.

1 Introduction
Dans le domaine des sports en équipe, de plus en plus d’entraîneurs font appel à des ou-
tils informatiques durant leur activité pédagogique, en particulier de logiciels de simulation
afin d’enseigner aux joueurs à améliorer leur tactique. Jusqu’à présent, ces logiciels qui per-
mettaient essentiellement à l’entraîneur de faire se déplacer sur un écran des agents joueurs,
nécessitaient de sa part de spécifier quasiment trame par trame la position des agents. Par
voie de fait, un entraîneur souhaitant montrer le déploiement d’un schéma tactique particulier
doit effectuer un important travail avant que la simulation puisse être lancée.
Dès lors, rendre les agents plus autonomes, améliorer le réalisme de leur comportement et
leur capacité de prendre des décision allégerait le travail de l’entraîneur, et lui permettrait de
n’avoir qu’à spécifier des schémas tactiques relativement abstrait pour voir comment des
agents joueurs déploieraient ce schéma « intelligemment » sur le terrain.
Notre objectif est donc d’utiliser diverses techniques d’intelligence artificielle pour amé-
liorer l’autonomie des agents devant déployer un schéma spécifié par l’entraîneur. Cette
tâche peut être considéré comme un sous-ensemble du problème de la simulation sportive

- 143 - RNTI-E-6
Gestion de connaissances :
Compétences et ressources pédagogiques

Olivier Gerbé∗ , Thierno Diarra∗ , Jacques Raynauld∗


HEC - Montréal
Montréal (Québec) Canada H3T 2A7
{olivier.gerbe,thierno-mountaga.diarra,jacques.raynauld}@hec.ca

1 Introduction
Poussés par la demande des étudiants branchés, un grand nombre d’universités et d’éta-
blissements scolaires se sont lancés dans le design, le développement et l’utilisation des tech-
nologies de l’information et de la communication pour créer, partager et diffuser leur matériel
pédagogique.
Le but de notre de recherche est de favoriser l’accès aux ressources pédagogiques afin de
promouvoir la formation continue et la diffusion des derniers résultats de recherche. Plus pré-
cisément, nous voulons développer un système de classification et d’organisation qui permettra
de donner accès aux ressources pédagogiques créées par les professeurs suivant les besoins des
utilisateurs. Cet accès pourra se faire :
– suivant la structure d’enseignement (plan de cours) ; ce sera le chemin d’accès privilégié
des étudiants inscrits dans une université ;
– suivant des ontologies de domaines ou par mots-clés ; ce sera le chemin d’accès privilé-
gié du grand public qui recherche des documents sur un sujet ou un thème donné
– suivant les compétences que permettent de développer la lecture des documents ; ce sera
le chemin privilégié des personnes qui veulent parfaire leur formation ou acquérir de
nouvelles compétences.

2 Modèle de compétences et ressources pédagogiques


L’utilisation de la notion de compétence par les gestionnaires et les spécialistes des res-
sources humaines, a permis aux organisations de comprendre l’importance de leurs ressources
humaines et de reconnaître que les gens, les connaissances, les capacités et les habiletés réunis
dans le milieu du travail constituent un levier fondamental pour leur réussite.
Suite à ce constat, de nombreuses recherches ont porté sur la compréhension et la définition
de la notion de compétence. Les conclusions d’une étude transcanadienne montre que les élé-
ments communs qui ressortent le plus souvent dans la définition du concept de compétences
à travers les organismes canadiens sont : les connaissances, les habiletés, les capacités, les
aptitudes, les qualités personnelles, le comportement et l’impact sur le rendement du travail.

- 149 - RNTI-E-6
Gestion de connaissances: Compétences et ressources pédagogiques

Nous présentons ci-dessous une première version de notre modèle de compétence et de


ressources pédagogiques qui sera la base de notre outil d’accès aux ressources. La figure 1
présente une vue d’ensemble du modèle.

Activité Niveau

nécessite
a pour degré

dévelope
Expertise
exige a pour sujet utilise catégorise
Habileté TypeHabileté

Compétence
RessourcePédagogique

concerne catégorise
Connaissance TypeConnaissance
utilisée dans utilisée dans
appartient

Cours Séance Compétence Compétence Discipline


Disciplinaire Transversale

F IG . 1 – Vue d’ensemble du modèle de Compétence.


Une compétence est l’association d’une habileté et d’une connaissance, alors qu’une exper-
tise est l’énoncé d’une compétence associée à un niveau. Les ressources pédagogiques exigent
une expertise pour être utilisées et permettent de développer de nouvelles expertises. Ce mo-
dèle est inspiré des travaux de Bloom (Bloom, 1956) et Paquette (Paquette, 2002).

3 Conclusion et Travail futur


Ce travail est la première partie du développement d’un serveur de ressources pédago-
giques basés sur les compétences. Ce serveur s’intégrera dans l’architecture de Zone Cours
(zonecours.hec.ca), outil de gestion de ressources pédagogiques de HEC Montréal, et viendra
compléter nos outils de diffusions de connaissances vers le grand public.

Références
Bloom B. (1956). Taxonomy of Educational Objectives : The Classification of Educational
Goals, by a committee of college and university examiners. Handbook I : Cognitive Domain.
New York : Longmans, Green.
Paquette G. (2002). Modélisation des connaissances et des compétences : un langage gra-
phique pour concevoir et apprendre. Québec : Presses de l’université du Québec.

Summary
The aim of our of research is to give access to teaching resources according to users needs
and according to competences they want to acquire. We present here a model of competences
and resources on which our future system will be based.

RNTI-E-6 - 150 -
Alignement extensionnel et asymétrique de hiérarchies
conceptuelles par découverte d’implications entre concepts
Jérôme David∗ , Fabrice Guillet∗
Régis Gras∗ , Henri Briand∗


LINA CNRS FRE 2729 - Equipe COD
Ecole Polytechnique de l’Université de Nantes
rue Christian Pauc, 44306 NANTES Cedex 3, France
jerome.david,fabrice.guillet,henri.briand@polytech.univ-nantes.fr,
http://www.sciences.univ-nantes.fr/lina/fr/research/teams/EDC/index.html

Résumé. Dans la littérature, de nombreux travaux traitent de méthodes d’ali-


gnement d’ontologies. Ils utilisent, pour la plupart, des relations basées sur des
mesures de similarité qui ont la particularité d’être symétriques. Cependant, peu
de travaux évaluent l’intérêt d’utiliser des mesures d’appariement asymétriques
dans le but d’enrichir l’alignement produit. Ainsi, nous proposons dans ce pa-
pier une méthode d’alignement extensionnelle et asymétrique basée sur la dé-
couverte des implications significatives entre deux ontologies. Notre approche,
basée sur le modèle probabiliste d’écart à l’indépendance appelé intensité d’im-
plication, est divisée en deux parties consécutives : (1) l’extraction, à partir du
corpus textuel associé à l’ontologie, et l’association des termes aux concepts;
(2) la découverte et sélection des implications génératrices les plus significatives
entre les concepts. La méthode proposée est évaluée sur deux jeux de données
réels portant respectivement sur des profils d’entreprises et sur des catalogues
de cours d’universités. Les résultats obtenus montrent que l’on peut trouver des
relations pertinentes qui sont ignorées par un alignement basé seulement sur des
mesures de similarité.

1 Introduction
Les ontologies ont été créées dans le but de conceptualiser et partager des connaissances
de manière structurée (Gruber, 1993). Leur usage en gestion des connaissances s’amplifie avec
l’essor du Web sémantique. En effet, les ontologies ont la vertu de se traduire sous des formes
très variées depuis de simples taxonomies comme les systèmes catégories (Yahoo, OpenDi-
rectory), en passant par des systèmes de métadonnées interopérables (Dublin Core Metadata
initiative) et allant jusqu’aux ontologies lourdes décrivant de véritables théories logiques. No-
tamment, on trouve des ontologies différentes portant sur le même domaine. Il s’avère donc
nécessaire de disposer de techniques pour relier ces ontologies. Dans cette optique, l’aligne-
ment vise à trouver des relations entre deux ontologies (entre les classes, les relations, les
propriétés...).

- 151 - RNTI-E-6
Une mesure de proximité et une méthode de regroupement
pour l’aide à l’acquisition d’ontologies spécialisées
Guillaume Cleuziou⁄ , Sylvie Billot⁄ , Stanislas Lew⁄ ,
Lionel Martin⁄ , Christel Vrain⁄


Laboratoire d’Informatique Fondamentale d’Orléans (LIFO)
Université d’Orléans
Rue Léonard de Vinci - 45067 ORLEANS Cedex 2
prénom.nom@univ-orleans.fr

Résumé. Cet article traite du regroupement d’unités textuelles dans une pers-
pective d’aide à l’élaboration d’ontologies spécialisées. Le travail présenté s’ins-
crit dans le cadre du projet B IOTIM. Nous nous concentrons ici sur l’une des
étapes de construction semi-automatique d’une ontologie qui consiste à struc-
turer un ensemble d’unités textuelles caractéristiques en classes susceptibles de
représenter les concepts du domaine. L’approche que nous proposons s’appuie
sur la définition d’une nouvelle mesure non-symétrique permettant d’évaluer la
proximité entre lemmes, en utilisant leurs contextes d’apparition dans les do-
cuments. En complément de cette mesure, nous présentons un algorithme de
classification non-supervisée adapté à la problématique et aux données traitées.
Les premières expérimentations présentées sur les données botaniques laissent
percevoir des résultats pertinents pouvant être utilisés pour assister l’expert dans
la détermination et la structuration des concepts du domaine.

1 Introduction
L’exploitation de données textuelles issues de fonds scientifiques est un objectif de re-
cherche ambitieux dans le domaine de la gestion et de l’acquisition des connaissances. Une
des premières étapes pour la mise en place d’un système d’information est la construction
d’une ontologie du domaine. Dans cette étude, nous abordons le problème de construction
d’une ontologie spécialisée avec une approche mixte (ou semi-automatique). Pour cela, nous
nous intéressons à l’étape d’extraction automatique de classes terminologiques susceptibles
d’être ensuite validées comme concepts puis structurées par un expert du domaine, l’embryon
d’ontologie résultant devant par la suite être enrichi automatiquement.
La tâche de regroupement de mots peut être envisagée de différentes manières (selon l’ap-
plication visée, les connaissances disponibles sur le domaine ou les traitements possibles).
Les études proposées dans ce domaine s’intéressent généralement à l’une des deux étapes sui-
vantes : la définition d’une mesure de proximité entre mots et/ou la proposition d’une méthode
de regroupement efficace.
Il existe de nombreuses mesures destinées à évaluer la proximité sémantique entre des
mots. On peut classer ces mesures en trois grandes catégories : statistiques, syntaxiques ou

- 163 - RNTI-E-6
Web sémantique pour la mémoire d'expériences d'une
communauté scientifique : le projet MEAT
Khaled Khelif*, Rose Dieng-Kuntz*, Pascal Barbry**

* INRIA Sophia Antipolis 2004, route des Lucioles 06902


Sophia Antipolis - FRANCE
{Khaled.Khelif, Rose.Dieng}@sophia.inria.fr
** IPMC 660, route des Lucioles 06560
Sophia Antipolis - FRANCE
Barbry@ipmc.fr

Résumé. Cet article décrit le projet MEAT (Mémoire d'Expériences pour


l'Analyse du Transcriptome) dont le but est d'assister les biologistes travaillant
dans le domaine des puces à ADN, pour l'interprétation et la validation de leurs
résultats. Nous proposons une aide méthodologique et logicielle pour cons-
truire une mémoire d'expériences pour ce domaine. Notre approche, basée sur
les technologies du web sémantique, repose sur l'utilisation des ontologies et
des annotations sémantiques sur des articles scientifiques et d’autres sources
de connaissances du domaine. Notre approche peut être généralisée à d'autres
domaines requérant des expérimentations et traitant un grand flux de données
(protéomique, chimie,etc.).

1 Introduction
De plus en plus de connaissances scientifiques sont accessibles soit grâce à des docu-
ments publiés sur le web, soit dans des bases de données. Certaines de ces connaissances
reposent sur des interprétations humaines de résultats d’expériences. Ces connaissances sont,
entre autres, indispensables pour la vérification, la validation ou l’enrichissement du travail
des chercheurs du domaine considéré. Mais la quantité énorme de données provenant de
sources internes ou externes aux organisations rend très difficile la détection, le stockage et
l’exploitation de ces connaissances. Ceci est le cas de la recherche dans le domaine de la
biologie moléculaire et plus particulièrement dans le domaine des puces à ADN.
Les biologistes travaillant dans ce domaine manipulent de grandes quantités de données
dans différentes conditions expérimentales et doivent se référer à des milliers de publications
scientifiques liées à leurs expériences. Ces biologistes ont donc sollicité un support méthodo-
logique et logiciel qui les aiderait dans la validation et/ou l’interprétation de leurs résultats et
qui leur faciliterait la planification de nouvelle expérimentation.
C’est dans ce contexte que le projet MEAT a été proposé en fournissant des solutions
permettant de remédier à ces problèmes.
Après la présentation du contexte général et de la problématique de ce travail, nous dé-
taillons notre approche adoptée pour MEAT (Khelif et al, 2005) ainsi que les différentes

- 175 - RNTI-E-6
Interrogation et Vérification de documents OWL
dans le modèle des Graphes Conceptuels
Thomas Raimbault∗ , Henri Briand∗∗ , Rémi Lehn∗∗ , Stéphane Loiseau ∗


LERIA, Université d’Angers, 2 bd Lavoisier 49045 ANGERS Cedex 01
{thomas.raimbault, stephane.loiseau}@info.univ-angers.fr
∗∗
LINA, École Polytechnique de Nantes, rue C. Pauc BP 50609 44306 Nantes Cedex 3
{henri.briand, remi.lehn}@polytech.univ-nantes.fr

Résumé. OWL est un langage pour la description d’ontologies sur le Web. Ce-
pendant, en tant que langage, OWL ne fournit aucun moyen pour interpréter les
ontologies qu’il décrit, et étant orienté machine, il reste difficilement compré-
hensible par l’humain. On propose une approche de visualisation, d’interroga-
tion et de vérification de documents OWL, regroupées dans un unique environ-
nement graphique : le modèle des graphes conceptuels.

1 Introduction
OWL (W3C, 2004) - Ontology Web Language - est un langage pour décrire des ontologies
et les diffuser sur le Web. Il est important de noter que d’une part, OWL est un langage et
qu’à ce titre il ne fournit aucun moyen pour interroger ou vérifier ses documents, et d’autre
part étant orienté machine, il reste difficilement compréhensible par l’humain. Des outils ont
donc été créés pour répondre à ces exigences. Cependant, ces outils traitent soit séparément
l’un de ces besoins (HP, 2000; WonderWeb, 2002), soit les traitent de façon globale (Protégé,
2004; Haarslev et Müller, 2001) mais avec des interrogations prédéfinies et un ensemble figé
de vérifications.
Dans cet article, notre approche est de regrouper dans un unique environnement, adaptable
par l’utilisateur, à la fois la représentation de documents OWL, ainsi que des outils de raison-
nement sur ces documents. Pour se faire, nous avons choisi comme base de travail le modèle
des graphes conceptuels (GCs). Ce modèle, introduit par (Sowa, 1984), est un modèle formel
et visuel de représentation des connaissances muni d’une sémantique logique. Nous utilisons
dans cet article le modèle issu de (Mugnier et Chein, 1996) et étendu aux GCs emboîtés (Chein
et Mugnier) avec règles (Salvat, 1998) et contraintes (Baget et Mugnier, 2002).
Notre travail fournit deux contributions fondamentales. La première est de coder les diffé-
rentes notations qui décrivent - c’est-à-dire le métamodèle - un sous-langage OWL dans un sup-
port du modèle des GCs, noté supportOW L (Section 2). Ainsi, nous proposons une traduction
générique - et donc automatisable - d’un document OWL en un GC, défini sur ce supportOW L ,
qui lui est sémantiquement équivalent et que nous appelons GC-document OWL (Section 3).
La seconde contribution (Section 4) est une méthode, utilisant les opérateurs qu’offre le mo-
dèle des GCs, pour interroger un document OWL ou pour en vérifier la validité au travers de
spécifications orientées ontologie.

- 187 - RNTI-E-6
Une nouvelle mesure sémantique pour le calcul de la
similarité entre deux concepts d’une même ontologie
Emmanuel Blanchard, Mounira Harzallah
Pascale Kuntz, Henri Briand

Laboratoire d’informatique de Nantes Atlantique


Site École polytechnique de l’université de Nantes
rue Christian Pauc
BP 50609 - 44306 Nantes Cedex 3
emmanuel.blanchard@univ-nantes.fr

Résumé. Les ontologies sont au coeur du processus de gestion des connais-


sances. Différentes mesures sémantiques ont été proposées dans la littérature
pour évaluer quantitativement l’importance de la liaison sémantique entre paires
de concepts. Cet article propose une synthèse analytique des principales mesures
sémantiques basées sur une ontologie modélisée par un graphe et restreinte ici
aux liens hiérarchiques is-a. Après avoir mis en évidence différentes limites des
mesures actuelles, nous en proposons une nouvelle, la PSS (Proportion of Shared
Specificity), qui sans corpus externe, tient compte de la densité des liens dans le
graphe reliant deux concepts.

1 Introduction
Associées notamment au succès des nouveaux langages du Web sémantique, les ontolo-
gies suscitent un intérêt croissant au sein des communautés de l’ingénierie et de la gestion
des connaissances (Gruber, 1993; Fürst, 2004). Cependant, malgré le développement d’outils
d’aide à leur manipulation, le développement et l’exploitation des ontologies restent des phases
complexes dans un processus global de gestion de connaissances. En amont, une des difficultés
majeures concerne la structuration des ensembles de concepts dont la taille ne cesse de croître.
Et en aval, le problème consiste à rechercher efficacement des sous-ensembles de concepts à
la fois en temps de calcul et en pertinence sémantique des résultats.
Pour faciliter ces tâches, le recours à des mesures sémantiques semble judicieux ; il permet
de constituer une « connaissance heuristique » directement exploitable. De façon générale, une
mesure sémantique est une application de l’ensemble C×C des paires de concepts d’une ontolo-
gie dans IR+ qui permet d’évaluer quantitativement la proximité ou l’éloignement sémantique
de deux concepts. Quelque soit le domaine applicatif, la pertinence de la mesure utilisée est
étroitement associée à l’efficacité des algorithmes qui l’intègrent. Cependant, son choix reste
un problème délicat. Pour comparer les mesures existantes, plusieurs approches complémen-
taires sont envisageables (Budanitsky, 1999). L’analyse formelle vise à étudier précisément
leurs propriétés à la fois algorithmiques et statistiques. La comparaison avec le jugement hu-
main analyse la corrélation entre les valeurs des mesures et les évaluations subjectives de sujets

- 193 - RNTI-E-6
Classification des comptes-rendus mammographiques à partir
d’une ontologie radiologique en OWL
Amel Boustil*, Sahnoun Zaidi **,
Ziad Mansouri *, Christine Golbreich***

* Département d’informatique, Université de Skikda, BP 26 Route El-hadaik 21000, Skikda,


Algérie
boustil1710@yahoo.fr
** Département d’informatique, Université Mentouri Constantine, LIRE, Constantine 2500
Sahnounz@yahoo.fr
*** Université de Rennes 1, 35043 Rennes, France
Christine.Golbreich@univ-rennes1.fr

Résumé. Dans cet article, nous proposons un système de classification des


comptes-rendus mammographiques, reposant sur une ontologie radiologique
décrivant les signes radiologiques et les différentes classes de la classification
ACR des systèmes BIRADS dans le langage OWL. Le système est conçu pour,
extraire les faits issus des textes libres de comptes-rendus en étant dirigé par
l’ontologie, puis inférer la classe correspondante et en déduire l’attitude à tenir
à partir de la classification ACR. Ce travail présente la construction d’une on-
tologie radiologique mammaire dans le langage OWL et son intérêt pour clas-
ser automatiquement les comptes-rendus de mammographies.

1 Introduction
Les comptes-rendus de mammographies écrits en texte libre sont difficiles à interpréter et
à analyser par un programme machine. La difficulté est liée à la nature informelle de ces
comptes-rendus. Trouver un processus qui permet de structurer les comptes-rendus et donner
une représentation formelle de leur contenu est une tâche difficile vue la complexité du lan-
gage naturel et des connaissances médicales (Zweigenbaum, 1994).
L’objectif principal de cet article est de montrer une utilisation possible dans le domaine
médical des ontologies formelles en OWL, le langage standard d’ontologie du Web (OWL,
2004). Ce travail vise à fournir un outil d’aide à l’interprétation des comptes-rendus médi-
caux mammographiques et à leur classification. Il a consisté d’abord à concevoir et réaliser
une ontologie regroupant tous les concepts du domaine : concepts radiologiques, concepts
pathologiques, et différentes classes ACR. Les classes ont été définies à partir de la classifi-
cation dite ACR (ACR, 2000) et ont été représentées dans le langage OWL DL en utilisant
l’éditeur Protégé et son plugin OWL (Holger, 2004). Notre système a pour tâche, d’extraire
les faits correspondant au contenu des comptes-rendus de mammographies, puis, d’inférer la
classe pathologique correspondante selon la classification ACR en utilisant le raisonnement
par subsumption, et d’en déduire la conduite à tenir.

- 199 - RNTI-E-6
Choix du taux d’élagage pour l’extraction de la terminologie.
Une approche fondée sur les courbes ROC
Mathieu Roche∗ , Yves Kodratoff∗∗


LIRMM - UMR 5506, Université Montpellier 2,
34392 Montpellier Cedex 5 - France
mathieu.roche@lirmm.fr
∗∗
LRI - UMR 8623, Université Paris-Sud,
91405 Orsay Cedex - France
yk@lri.fr

Résumé. Le choix du taux d’élagage est crucial dans le but d’acquérir une ter-
minologie de qualité à partir de corpus de spécialité. Cet article présente une
étude expérimentale consistant à déterminer le taux d’élagage le plus adapté.
Plusieurs mesures d’évaluation peuvent être utilisées pour déterminer ce taux
tels que la précision, le rappel et le Fscore . Cette étude s’appuie sur une autre
mesure d’évaluation qui semble particulièrement bien adaptée pour l’extraction
de la terminologie : les courbes ROC (Receiver Operating Characteristics).

1 Introduction
Cet article présente une étude expérimentale consistant à évaluer le taux d’élagage le plus
adapté pour l’extraction de la terminologie. Nous allons décrire ci-dessous notre méthode glo-
bale d’extraction de la terminologie et rigoureusement définir l’élagage.
La première phase de notre travail d’extraction de la terminologie à partir de corpus spé-
cialisés consiste à normaliser les textes en utilisant des règles de nettoyage décrites par Roche
(2004). Les corpus que nous utilisons sont décrits dans la section 3 de cet article. L’étape sui-
vante consiste à apposer des étiquettes grammaticales à chacun des mots du corpus en utilisant
l’étiqueteur E TIQ développé par Amrani et al. (2004). E TIQ est un système interactif s’ap-
puyant sur l’étiqueteur de Brill (1994) qui améliore la qualité de l’étiquetage de corpus spé-
cialisés. Nous pouvons alors extraire l’ensemble des collocations Nom-Nom, Adjectif-Nom,
Nom-Adjectif1 , Nom-Préposition-Nom d’un corpus spécialisé. L’étape suivante consiste à sé-
lectionner les collocations les plus pertinentes selon des mesures statistiques décrites par Roche
et al. (2004c); Roche (2004). Les collocations sont des groupes de mots définis par Halliday
(1976); Smadja (1993). Nous appelons termes, les collocations pertinentes.
Les termes binaires (ou ternaires pour les termes prépositionnels) extraits à chaque itération
sont réintroduits dans le corpus avec des traits d’union afin qu’ils soient reconnus comme
des mots à part entière. Nous pouvons ainsi effectuer une nouvelle recherche terminologique
à partir du corpus avec prise en compte de la terminologie du domaine acquise aux étapes
précédentes. Notre méthode itérative, proche des travaux de Evans et Zhai (1996), est décrite
1 Corpus en français uniquement

- 205 - RNTI-E-6
Fast-MGB : Nouvelle Base Générique Minimale de Règles
Associatives
Chiraz Latiri∗ , Lamia Ben Ghezaiel∗∗
Pr. Mohamed Ben Ahmed∗∗

Faculté des Sciences de Tunis
Département Informatique
Unité de recherche URPAH
Campus Universitaire El Manar, Tunis
Tunisie
chiraz.latiri@gnet.tn
∗∗
Ecole Nationale des Sciences de l’Informatique
Laboratoire RIADI-GDL
Campus Universitaire La Manouba, Tunis
Tunsisie
lamia.benghezaiel@riadi.rnu.tn
mohamed.benahmed@riadi.rnu.tn

Résumé. Le problème de l’exploitation des règles associatives est devenu pri-


mordial, puisque le nombre des règles associatives extraites des jeux de données
réelles devient très élevé. Une solution possible consiste à ne dériver qu’une
base générique de règles associatives. Cet ensemble de taille réduite permet de
générer toutes les règles associatives via un système axiomatique adéquat. Dans
cet article, nous proposons une nouvelle approche FAST-MGB qui permet de
dériver, directement à partir du contexte d’extraction formel, une base générique
minimale de règles associatives.

1 Introduction
Dans le cadre de ce travail, nous nous intéressons au problème d’extraction de règles asso-
ciatives, initialement introduit par Agrawal et al. Agrawal et al. (1993). Plusieurs travaux basés
sur l’analyse formelle des concepts (AFC) Ganter et Wille (1999), proposent des approches
de sélection de règles associatives qui véhiculent le maximum de connaissances utiles. Ces
approches reposent généralement sur l’extraction d’un sous-ensemble générique de toutes les
règles associatives, appelé base générique, tout en satisfaisant certaines caractéristiques ju-
geant de sa qualité, mais qui dans la plupart des cas ne sont pas satisfaites dans leurs totalités
Kryszkiewicz (2002).
Dans cet article, nous introduisons une nouvelle approche de génération d’une base mini-
male et générique (MGB) de règles associatives. L’originalité de cette approche est qu’elle est
autonome : elle commence directement à partir du contexte d’extraction pour dériver une base
générique minimale de règles associatives FAST-M GB.

- 217 - RNTI-E-6
Extraction et identification d’entités complexes à partir de
textes biomédicaux
Julien Lorec∗,∗∗ , Gérard Ramstein∗∗ , Yannick Jacques∗


INSERM U601, Département de Cancérologie, Équipe 3: cytokines et récepteurs
{julien.lorec,yjacques}@nantes.inserm.fr
∗∗
LINA, Équipe C.O.D, École polytechnique de l’université de Nantes
gerard.ramstein@polytech.univ-nantes.fr

Résumé. Nous présentons ici un système d’extraction et d’identification d’enti-


tés nommées complexes à l’intention des corpus de spécialité biomédicale. Nous
avons développé une méthode qui repose sur une approche mixte à base d’en-
semble de règles a priori et de dictionnaires contrôlés. Cet article expose les
techniques que nous avons mises en place pour éviter ou minimiser les pro-
blèmes de synonymie, de variabilité des termes et pour limiter la présence de
noms ambigus. Nous décrivons l’intégration de ces méthodes au sein du proces-
sus de reconnaissance des entités nommées. L’intérêt de cet outil réside dans la
complexité et l’hétérogénéité des entités extraites. Cette méthode ne se limite
pas à la détection des noms des gènes ou des protéines, mais s’adapte à d’autres
descripteurs biomédicaux. Nous avons expérimenté cette approche en mesurant
les performances obtenues sur le corpus de référence GENIA.

1 Introduction
A cette date, de nombreuses méthodes d’étiquettage d’entités biologiques pour les corpus
de spécialité ont été proposées ; quelles soient à base de règles (Fukuda et al. (1998)) ou en-
core réposant sur des techniques d’apprentissage (Collier et al. (2000)). Néanmoins, la simple
détection de la présence d’une entité nommée dans un texte ne suffit pas pour l’identifier et l’as-
socier à une instance d’entité biologique particulière. Le couplage des méthodes d’extraction
des entités nommées avec l’utilisation de dictionnaires semble être une solution particulière-
ment adaptée à ce type de problématique (Koike et al. (2003)). De plus, la majorité de ces
techniques d’extraction d’entités nommées ont été développées dans le but de ne détecter que
quelques types particuliers et spécifiques d’objets biologiques, notamment les gènes et les pro-
téines, et ne peuvent être facilement adaptés à d’autres contextes.
Il existe trois principales difficultés à prendre en compte lors d’une recherche à base de dic-
tionnaire :
– la présence de termes synonymes et la résolution des différentes abréviations et acro-
nymes,
– la variabilité des mots tant au niveau de l’orthographe que de la morphologie et de la syn-
taxe mais aussi d’un point de vue lexico-sémantique, de la présence d’insertions/déletions
et permutations,

- 223 - RNTI-E-6
Reconnaissance automatique de concepts à partir d’une
ontologie
Valentina Ceausu, Sylvie Desprès

Université René Descartes


CRIP5 – Equipe IAA – Groupe SBC
UFR Mathématiques et Informatique
45 rue des Saints-Pères
75006 PARIS
valentina.ceausu@math-info.univ-paris5.fr
sd@math-info.univ-paris5.fr

Résumé Ce papier présente une approche qui s’appuie sur une ontologie pour
reconnaître automatiquement des concepts spécifiques à un domaine dans un
corpus en langue naturelle. La solution proposée est non-supervisée et peut
s’appliquer à tout domaine pour lequel une ontologie a été déjà construite. Un
corpus du domaine est utilisé dans lequel les concepts seront reconnus. Dans
une première phase, des connaissances sont extraites de ce corpus en faisant
appel à des fouilles de textes. Une ontologie du domaine est utilisée pour éti-
queter ces connaissance. Le papier donne un aperçu des techniques de fouilles
employées et décrit le processus d ‘étiquetage. Les résultats d‘une première
expérimentation dans le domaine de l’accidentologie sont aussi présentés.

1 Introduction
L’important volume de documents disponibles en langue naturelle et leur évolution ra-
pide font émerger la nécessité de définir des approches permettant de retrouver rapidement
des informations pertinentes dans ces documents.
Ce papier présente une approche qui utilise une ontologie de domaine pour identifier au-
tomatiquement des concepts du domaine dans un corpus en langue naturelle. Cette identifica-
tion de concepts peut servir dans différents contextes : annotation des documents, indexation
d’une collection de documents, etc. L’approche proposée est complètement automatique et
non-supervisée, mise à part l’utilisation d’une ontologie de domaine. Etant donnés une onto-
logie O et un corpus C, le but est de retrouver dans C des termes w qui sont l’expression
linguistique des concepts de l’ontologie O. On peut ainsi étiqueter les termes retrouvés dans
le corpus par des concepts de l’ontologie. Cet étiquetage est réalisé en trois étapes : (1) une
première étape emploie des techniques de fouille de textes pour identifier des termes du
domaine dans le corpus; (2) pour chaque terme w retrouvé, le voisinage sémantique V(w) est
identifié ; (3) en supposant que les relations dans le voisinage du terme w soient déjà dans
l’ontologie, le positionnement des relations dans l’ontologie et des mesures statistiques sont
utilisés pour étiqueter le terme w.

- 229 - RNTI-E-6
Multi-catégorisation de textes juridiques et retour de
pertinence
Vincent Pisetta, Hakim Hacid, Djamel A. Zighed

Laboratoire ERIC – 5, av. Pierre Mendès-France- 69767 Bron- France

vpisetta@etu.univ-lyon2.fr,

hhacid@eric-univ.lyon2.fr,

zighed@univ-lyon2.fr

Résumé. La fouille de données textuelles constitue un champ majeur du


traitement automatique des données. Une large variété de conférences, comme
TREC, lui sont consacrées. Dans cette étude, nous nous intéressons à la fouille
de textes juridiques, dans l’objectif est le classement automatique de ces textes.
Nous utilisons des outils d’analyses linguistiques (extraction de terminologie)
dans le but de repérer les concepts présents dans le corpus. Ces concepts
permettent de construire un espace de représentation de faible dimensionnalité,
ce qui nous permet d’utiliser des algorithmes d’apprentissage basés sur des
mesures de similarité entre individus, comme les graphes de voisinage. Nous
comparons les résultats issus du graphe et de C4.5 avec les SVM qui eux sont
utilisés sans réduction de la dimensionnalité.

1 Introduction
Le cadre général de l’apprentissage automatique part d’un fichier d’apprentissage
comportant n lignes et p colonnes. Les lignes représentent les individus et les colonnes les
attributs, quantitatifs ou qualitatifs observés pour chaque individu ligne. Dans ce contexte, on
suppose également que l’échantillon d’apprentissage est relativement conséquent par rapport
au nombre d’attributs. Généralement la taille de l’échantillon est de l’ordre de 10 fois le
nombre de variables pour espérer obtenir une certaine stabilité, c'est-à-dire une erreur en
généralisation qui n’est pas trop loin de l’erreur en apprentissage. De plus, l’attribut à prédire
est supposé à valeur unique. C’est une variable à valeurs réelles dans le cas de la régression
et c’est une variable à modalités discrètes, appelées classes d’appartenance, dans le cas du
classement. Ces questions relatives aux rapports entre taille d’échantillon et taille de l’espace
des variables sont étudiées de façon très approfondies dans les publications relatives à
l’apprentissage statistique (Vapnik, 1995). Dans ce papier nous décrivons une situation
d’apprentissage qui s’écarte significativement du cadre classique tel que décrit plus haut. En
effet, le contexte expérimental ne nous permet pas de disposer immédiatement d’un
ensemble d’apprentissage conséquent, chaque individu peut appartenir à plusieurs classes
simultanément, et chaque individu, au lieu d’être décrit par un ensemble attributs-valeurs,
l’est par un texte en langage naturel en anglais.

- 235 - RNTI-E-6
Combinaison de l’approche inductive (progressive)
et linguistique pour l’étiquetage morphosyntaxique des
corpus de spécialité
Ahmed Amrani*,**, Yves Kodratoff**
*ESIEA Recherche, Pôle ECD, 11 rue Baudin, 74200 Ivry sur Seine, France
amrani@esiea.fr
**LRI, UMR CNRS 8623, Bât. 490, Université de Paris-Sud 11, 91405 Orsay, France
yk@lri.fr

Résumé. Les étiqueteurs morphosyntaxiques sont de plus en plus performants


et cependant, un véritable problème apparaît lorsque nous voulons étiqueter
des corpus de spécialité pour lesquels nous n’avons pas de corpus annotés. La
correction des ambiguïtés difficiles est une étape importante pour obtenir un
corpus de spécialité parfaitement étiqueté. Pour corriger ces ambiguïtés et di-
minuer le nombre de fautes, nous utilisons une approche itérative appelée In-
duction Progressive. Cette approche est une combinaison d’apprentissage au-
tomatique, de règles rédigées par l’expert et de corrections manuelles qui se
combinent itérativement afin d’obtenir une amélioration de l’étiquetage tout en
restreignant les actions de l’expert à la résolution de problèmes de plus en plus
délicats. L’approche proposée nous a permis d’obtenir un corpus de biologie
moléculaire « correctement » étiqueté. En utilisant ce corpus, nous avons ef-
fectué une étude comparative de quatre étiqueteurs supervisés.

1 Introduction
Dans le cadre d’un processus complet de fouille de textes (Kodratoff et al., 2003, Amrani
et al., 2004a), nous nous sommes intéressés à l’étiquetage morphosyntaxique des corpus de
spécialité. L’étiquetage morphosyntaxique consiste à affecter à chaque mot dans la phrase
son étiquette morphosyntaxique, en prenant en considération le contexte et la morphologie de
ce mot. L’étiquette morphosyntaxique est composée de la catégorie syntaxique du mot (nom
commun, nom propre, adjectif, etc.) et souvent comporte des informations morphologiques
(genre, nombre, personne, etc.). Les outils informatiques nécessaires à l’opération
d’étiquetage sont appelés « étiqueteurs ».
Un problème se pose lorsque les étiquettes des mots sont ambiguës. Par exemple, le mot
functions peut être un nom au pluriel (‘biological functions are…’) ou bien un verbe au sin-
gulier (‘this gene functions as…’). Le problème à résoudre est celui de trouver l’étiquette
correcte selon le contexte. La correction de ces ambiguïtés est une étape importante pour
obtenir un corpus de spécialité « parfaitement » étiqueté. Pour lever ces ambiguïtés et donc
diminuer le nombre de fautes d’étiquetage, nous proposons une approche interactive et itéra-
tive appelée Induction Progressive. Cette approche est une combinaison d’apprentissage
automatique, de règles rédigées par l’expert et de corrections manuelles. L’induction pro-

- 247 - RNTI-E-6
!"## $
& % ' & ( &
% )*++,,,& & ( &
-. /(0 1 2 / / 0 3 !/"!# - 4#
& ' %( & () /&
% )*++,,,& %( & () /& + )/+

5 ) 2 4 4 2 6 &
4 ) 7 4 ) ) &
8 2 ) 4 )
7 0 9 0 : 8 2% )
2% ;)&- ) ) 2(
% 2 & 7 ) % 4 &
)2 2 2 4)2 2
4 2 )2 2 &

4 4 6 )2 4 & -
2 ) ) 4 ) ) ) 2)
) % % ) 4 )2 4 &
)2 ) 4 <=>?>@& 2 0
) 7 ) 6 )2 2 & 6 4
)2 & 7 )2 ( 2
) & -% A )) B 4 &
- $ C <=>> @ 2 (7 (
3 & 2 2 <"##=@ 2 2 2 &
)3 D 2) 2 7 4 & % &
<"##=@ ) ) ) 2 4 2 )2 (
& 3 6 )2 E) < @&
F <"###@ ) 2 4 ) 2 *
7 E )% : 2
)) &
4 ) 2% 2 7 (
7 . G H I <"## @& 9 F 0E <"## @ ) (
G 6 )2 <) 2 4 4 :@
) :
- ) % 2 & 0 C, (0
<"##"@ ) 2 % 4 7 )% & - 7 )% 6)

- 259 - RNTI-E-6
Extraction multilingue de termes
à partir de leur structure morphologique
Delphine Bernhard∗


TIMC-IMAG
Institut de l’IngØnierie et de l’Information de SantØ
FacultØ de MØdecine
F-38706 LA TRONCHE cedex
Delphine.Bernhard@imag.fr
http://www-timc.imag.fr/Delphine.Bernhard

Les mØthodes d’extraction automatique de termes utilisent couramment des patrons dØ-
crivant la structure des termes (Ibekwe-Sanjuan et Sanjuan, 2004; Enguehard, 1992; Vergne,
2005). Dans les domaines scienti ques ou techniques comme la mØdecine (Namer, 2005), de
nombreux termes appartiennent au vocabulaire savant et sont construits partir de formants
classiques grecs ou latins situØs en dØbut (extra-, anti-) ou en n de mot (-graphe, -logie).
La mØthode que nous proposons utilise la structure morphologique des termes en vue de leur
extraction et de leur regroupement1 .
Le systŁme extrait tout d’abord les mots du corpus puis identi e les formants l’aide de
l’expression rØguliŁre suivante : ([aio]-) ?(\w{3,}[aio])-. MŒme si cette expression rØguliŁre est
limitØe aux formants se terminant par a, i ou o, elle n’est pas uniquement valable pour le fran-
ais. On trouvera, par exemple, "chimio-hormonothØrapie" en fran ais, "chemo-radiotherapy"
en anglais ou "Chemo-radiotherapie" en allemand.
Une fois les formants identi Øs, les termes sont repØrØs l’aide d’un patron qui dØcrit
leur structure morphologique : F+M oø F est un formant et M un mot du corpus de longueur
supØrieure 3. Le caractŁre + indique la succession possible de plusieurs formants en dØbut
de terme. Lorsque ce patron s’applique un des mots du corpus, deux termes sont reconnus :
le terme de structure F+M et le terme de structure M. Ainsi, partir du mot "radiothØrapie"
qui contient le formant "radio", on extrait les termes "radiothØrapie" et "thØrapie".
A n de faciliter l’analyse des termes extraits, des familles de termes sont formØes en re-
groupant les termes contenant le mŒme mot M. Le mot M est appelØ reprØsentant de la famille.
De plus, deux familles sont rØunies si leurs reprØsentants ont une cha ne initiale commune de
longueur supØrieure ou Øgale 4 et si l’on retrouve le mŒme formant dans un terme de chaque
famille. Le reprØsentant nal de chaque famille est le terme le plus frØquent.
Les rØsultats de l’extraction terminologique sont prØsentØs sous forme de liste pondØrØe
au format HTML (voir gure 1). Ce type de liste se caractØrise par l’utilisation d’un code de
couleur et d’une taille de police dØpendant de la frØquence d’occurrence d’un terme (VØronis,
2005). Seuls les termes reprØsentants de chaque famille sont af chØs et le poids d’une famille
dans la reprØsentation nale est determinØ par la frØquence cumulØe de tous les termes de la
famille.
1 Ce travail a été soutenu en partie par la Commission européenne (projet NOESIS, IST-2002-507960)

- 271 - RNTI-E-6
Extraction multilingue de termes partir de leur structure morphologique

F IG . 1 Visualisation des termes sous forme de liste pondérée (à gauche) et détail d’une
famille de termes (à droite)

Le systŁme a ØtØ expØrimentØ sur 4 corpus de textes couvrant deux domaines scienti ques
distincts, celui de la volcanologie et du cancer du sein, dans deux langues diffØrentes, le fran-
ais et l’anglais. Les premiers rØsultats obtenus montrent que l’utilisation de la structure mor-
phologique permet de mettre jour des termes peu frØquents qu’une approche purement frØ-
quentielle ne pourrait identi er. Ces deux approches sont donc complØmentaires. L’algorithme
de regroupement permet quant lui de rassembler les variantes orthographiques, exionnelles
et dØrivationnelles des termes dans une mŒme famille.

Références
Enguehard, C. (1992). ANA Apprentissage Naturel Automatique d’un Réseau Sémantique. Ph.
D. thesis, UniversitØ de Technologie de CompiŁgne.
Ibekwe-Sanjuan, F. et E. Sanjuan (2004). Mining Textual Data through Term Variant Cluster-
ing: the TermWatch System. In Actes de Recherche d’Information Assistée par Ordinateur
(RIAO 2004), pp. 487 503.
Namer, F. (2005). MorphosØmantique pour l’appariement de termes dans le vocabulaire mØdi-
cal : approche multilingue. In Actes de TALN 2005, pp. 63 72.
Vergne, J. (2005). Une mØthode indØpendante des langues pour indexer les documents de
l’internet par extraction de termes de structure contr lØe. In Actes de CIDE 8.
VØronis, J. (2005). Nuage de mots d’aujourd’hui. http://aixtal.blogspot.com/2005/07/lexique-
nuage-de-mots-daujourdhui.html.

Summary
This articles describes a method for the automatic extraction of terms from corpora of
specialised texts. It makes use of morphological elements located at the beginning of words to
discover terms and group them in families. Results are displayed as a weighted list.

RNTI-E-6 - 272 -
Accès aux connaissances orales par le résumé automatique

Benoît Favre ∗,∗∗ Jean-François Bonastre∗∗ , Patrice Bellot∗∗ , François Capman∗


Thales, Laboratoire MMP, 160 Bd de Valmy, 92700 Colombes,
francois.capman@fr.thalesgroup.com
∗∗
Université d’Avignon, LIA, 339 Ch des Meinajaries, 84000 Avignon,
benoit.favre@univ-avignon.fr
jean-francois.bonastre@univ-avignon.fr
patrice.bellot@univ-avignon.fr

Le temps nécessaire pour écouter un flux audio est un facteur réduisant l’accès efficace à
de grandes archives de parole. Une première approche, la structuration automatique des don-
nées, permet d’utiliser un moteur de recherche pour cibler plus rapidement l’information. Les
listes de résultats générées sont longues dans un souci d’exhaustivité. Alors que pour des do-
cuments textuels, un coup d’oeil discrimine un résultat interessant d’un résultat non pertinant,
il faut écouter l’audio dans son intégralité pour en capturer le contenu. Nous proposons donc
d’utiliser le résumé automatique afin de structurer les résultats des recherches et d’en réduire
la redondance.

Audio Structuration Recherche Résumé parlé


utilisateur

Les données radiophoniques exploitées pour cette approche sont issues de la campagne
ESTER (Galliano et al., 2005), évaluatrice de la structuration automatique d’émissions et de
bulletins à caractère informatif. Le processus de structuration de notre système est le suivant :
segmentation en classes acoustiques (Fredouille et al., 2004), segmentation en locuteurs (Is-
trate et al., 2005), transcription de la parole (Nocera et al., 2004), segmentation thématique
(Sitbon et Bellot, 2004), et reconnaissance d’entités nommées (Favre et al., 2005). Grâce à
cette structuration, un moteur de recherche basé sur le modèle vectoriel permet de présenter à
l’utilisateur la liste des segments correspondant à son besoin en information.
Fondé sur l’observation que 70% des phrases d’un résumé écrit manuellement proviennent
des textes d’origines, le résumé par extraction est l’approche la plus utilisée actuellement en
domaine ouvert pour le texte. En prenant pour hypothèse que cette observation est similaire
pour la parole (les titres des journaux radiodiffusés), nous l’appliquons à la fois pour extraire
des étiquettes thématiques structurant hiérarchiquement les résultats et pour extraire les seg-
ments les plus représentatifs du contenu des résultats.
L’algorithme Maximal Marginal Relevance (MMR), proposé par (Goldstein et al., 2000)
pour sélectionner les segments maximisant la couverture en information tout en minimisant sa
redondance, peut être appliqué pour sélectionner des mots-clés comme étiquettes thématiques
dont on obtient une hiérarchie en faisant varier la granularité. Le critère de sélection par gain en

- 273 - RNTI-E-6
Accès aux connaissances orales par le résumé automatique

couverture de MMR est modifié en transposant le paradigme de représentation des documents


par des vecteurs de mots, afin de représenter des mots par des vecteurs de documents.
t̂i+1 = argmaxt∈sel
/ λsim(~t, cres
~ ) − (1 − λ)sim(~t, c~sel ) (1)
Ici, ~t est le vecteur modélisant un mot-clé, cres
~ le vecteur centroïde des résultats, c~sel
le vecteur centroïde de la sélection courante et sim() la similarité mesurée par le cosinus de
l’angle entre les vecteurs. Dans le domaine de l’information radiodiffusée, les mots-clés utilisés
sont des entités nommées car les noms de lieux, de personnes et d’organisation permettent de
caractériser des événements. Ces étiquettes thématiques sont proposées à l’utilisateur qui, en
les sélectionnant, implique la restriction des résultats par conjonction avec les termes de la
requête. Parallèlement, le résumé des segments audio est généré selon MMR classique pour
permettre à l’utilisateur d’écouter l’équivalent d’un court bulletin d’informations.
Bien que le système permette une forte réduction du temps d’écoute, le résumé audio est
soumis aux mêmes problèmes majeurs que le résumé textuel, à savoir les références non réso-
lues et la réduction de redondance à l’interieur même des segments. S’ajoutent les erreurs de la
structuration automatique et les désagréments liés à la parole comme les difficultés d’élocution
ou les recouvrements de locuteurs dont l’impact est présent à l’écoute. Nous projetons pour la
suite de ces travaux, d’adresser ces problèmatiques et d’évaluer le système d’accès aux flux de
données parlées.

Références
Favre, B., F. Béchet, et P. Nocéra (2005). Robust named entity extraction from large spoken
archives. In HLT-EMNLP’05.
Fredouille, C., D. Matrouf, G. Linares, et P. Nocera (2004). Segmentation en macro-classes
acoustiques d’émissions radiophoniques dans le cadre d’ester. In JEP’04.
Galliano, S., E. Geoffrois, D. Mostefa, K. Choukri, J.-F. Bonastre, et G. Gravier (2005). The
ESTER phase II evaluation campaign for the rich transcription of french broadcast news. In
Proc. Eurospeech’05.
Goldstein, J., V. Mittal, J. Carbonell, et J. Callan (2000). Creating and evaluation multi-
document sentence extract summaries. In CIKM 2000 - ACM, McLean, VA USA.
Istrate, D., N. Scheffer, C. Fredouille, et J.-F. Bonastre (2005). Broadcast news speaker tracking
for ester 2005 campaign. In Eurospeech’05.
Nocera, P., C. Fredouille, G. Linares, D. Matrouf, S. Meignier, J.-F. Bonastre, D. Massonié, et
F. Béchet (2004). The LIA’s french broadcast news transcription system. In SWIM.
Sitbon, L. et P. Bellot (2004). Evaluation de méthodes de segmentation thématique linéaire
non supervisées après adaptation au français. In TALN 2004, Fès, Maroc.

Summary
We propose to reduce listening time in spoken archives access interfaces : search engine
results are structured according to automatically extracted concept hierachies and the rendon-
dancy of results is removed using automatic summarization techniques.

RNTI-E-6 - 274 -
! "# $
% & '% &
&# '% &

(! ") # # * " " + # ,* #-


+ " # * # .
" $ &/ ") # # * " 0 * $
* #- " $ " $ & / * 1 #"
% + "# " &
" * " 0 # ) + # 2 * * 0
! 0 0 32 !4& 5 * * ") # * $*
* 1 # &/ ") # " - #- 0 *) #
0 #- # # "%" * ". "& 5 $*"
") # # * " + % *1
# " # $* " "# &

! # ") # # * " " + # " #


5
#- , )+ #- * 3 0" " # 4# 1 +
# " + %"" * #
*" & 6 ) ) # , #" # % "+
7 # * &! ") # # * " " + *
* ! 8 3!8 4 3 9
! # 2 ) :;; 4 2 * * 0 ! 0 0 32 !43! # < 0
:;;=4& 5 #- # * " 1 * * # # $ ") #
$* + * + # # ") # # * 2 ! ** > *
** * " & * 1 *# *" " * * $ $# # # ) $
# * 1 # 2 ! $* ") # & ? $*" # " ,
* * #" + * * $" &
!8 2 ! # ") # " + #- * #
# $ &! # * @ # $ # * 0 *) #
*) & A #- !8 2 !* # % + *"
)+ * & * $ "" + #
% # # + *" &! # "
# # & - # " ( .

- 275 - RNTI-E-6
Exploration interactive de bases de connaissances : un retour
d’expérience
Christophe Tricot, Christophe Roche

Équipe Condillac « Ingénierie des Connaissances »


Laboratoire LISTIC - Campus Scientifique
73 376 Le Bourget du Lac cedex

http://www.ontology.univ-savoie.fr
{christophe.tricot, christophe.roche}@univ-savoie.fr

Résumé : La navigation au sein de bases de connaissances reste un problème


ouvert. S’il existe plusieurs paradigmes de visualisation, peu de travaux sur les
retours d’expérience sont disponibles. Dans le cadre de cet article nous nous
sommes intéressés aux différents paradigmes de navigation interactive au sein
de bases documentaires annotées sémantiquement ; l’accès à la base de
connaissances s’effectuant à travers l’ontologie du domaine d’application. Ces
paradigmes ont été évalués dans le cadre d’une application industrielle
(mécanique des fluides et échangeurs thermiques) en fonction de critères
définis par les utilisateurs. L’analyse des retours d’expérience1 nous a permis
de spécifier et de réaliser un nouveau navigateur dédié à la gestion de
documents techniques annotés par une ontologie de domaine : le « Eye Tree »,
navigateur de type « polar fisheye view ».

1 Introduction
Le problème abordé dans le cadre de cet article est celui de l’accès à une base de
connaissances annotée sémantiquement par une ontologie du domaine.
Les connaissances peuvent être de natures diverses : documents scientifiques et
techniques, fiches de retour d’expérience, descriptions de compétences, documents
multimédias, etc.. L’utilisation d’une ontologie2 du domaine permet d’indexer et de classer
les éléments de la base de connaissances. L’indexation repose sur l’analyse des contenus
textuels (et péri textes ou méta données dans le cas des documents multimédias) au regard du
vocabulaire associé à l’ontologie. La classification considère les concepts de l’ontologie

1
Les travaux décrits dans cet article ont été menés en collaboration avec la société Ontologos Corp.
associée à l’équipe Condillac de l’Université de Savoie dans le cadre de sa reconnaissance en tant
qu’Equipe de Recherche Technologique par le Ministère de la Recherche.
2
Nous considèrerons dans ce contexte qu’une ontologie traduit un point de vue « consensuel » d’une
communauté de pratique au niveau linguistique – les mots d’usages – et au niveau conceptuel – les
concepts de l’ontologie sur lesquels repose la signification des termes –.

- 287 - RNTI-E-6
Un modèle de qualité de l’information

Rami Harrathi*, Sylvie Calabretto* *

* LIRIS CNRS UMR 5205 - INSA de Lyon, Bâtiment Blaise Pascal 7, avenue Jean Capelle,
F-69621 Villeurbanne Cedex
Rharrathi @yahoo.fr
**LIRIS CNRS UMR 5205 - INSA de Lyon, Bâtiment Blaise Pascal 7, avenue Jean Capelle,
F-69621 Villeurbanne Cedex
Sylvie.Calabretto @insa-lyon.fr

Résumé. Ce travail s’intègre dans la problématique générale de la recherche


d’information ; et plus particulièrement dans la personnalisation et la qualité
d’information. Dans cet article nous proposons un modèle multidimensionnel
de la qualité de l’information décrivant les différents facteurs de qualité in-
fluant sur la personnalisation de l’information. Ce modèle permet de structurer
les différents facteurs de qualité de l’information dans une hiérarchie afin
d’assister l’utilisateur dans la construction de son propre profil selon ses be-
soins et ses exigences en termes de qualité.

1 Introduction
Avec l'expansion d'Internet et du Web, on assiste à une prolifération des ressources hété-
rogènes (données structurées, documents textuels, composants logiciels, images), conduisant
à des volumes considérables. Dans ce contexte les outils d’accès à l’information (moteurs
Web, SGBD, etc.) délivrent, dans des temps de plus en plus longs, des résultats massifs en
réponse aux requêtes des utilisateurs, générant ainsi une surcharge informationnelle dans
laquelle il est souvent difficile de distinguer l’information pertinente d’une information se-
condaire, ou même du bruit.
Une solution à l’amélioration de cette pertinence est la personnalisation ou l’adaptation
des réponses fournies aux utilisateurs selon leurs profils c'est-à-dire selon leurs besoins et
leurs préférences1. Ainsi la formulation du besoin d’information est devenue un des éléments
clés pour obtenir des résultats pertinents dans un processus d’accès à l’information. Pour

1
Notre travail se situe dans le cadre du projet ACI APMD (Accès Personnalisé à des Masses de Don-
nées) dont l’objectif est de mener une réflexion globale sur la personnalisation et la qualité
de l’information dans un environnement à grande échelle. Site Web: http://apmd.prism.uvsq.fr/
Partenaires: CLIPS-IMAG Grenoble, IRISA Lannion, IRIT Toulouse, LINA Nantes, LIRIS Lyon,
PRiSM Versailles

- 299 - RNTI-E-6
Annotation sémantique de pages web

Sylvain Tenier∗,∗∗ Amedeo Napoli∗∗ Xavier Polanco∗ Yannick Toussaint∗∗


Institut de l’Information Scientifique et Technique
54514 Vandoeuvre-lès-Nancy, France
{polanco,tenier}@inist.fr
http://www.inist.fr/uri/accueil.htm
∗∗
Laboratoire Lorrain de Recherche en Informatique et ses Applications
BP 239, 54506 Vandoeuvre lès Nancy Cedex, France
{napoli,toussaint,tenier}@loria.fr
http://www.loria.fr/equipes/orpailleur

Résumé. Cet article présente un système automatique d’annotation sémantique


de pages web. Les systèmes d’annotation automatique existants sont essentiel-
lement syntaxiques, même lorsque les travaux visent à produire une annotation
sémantique. La prise en compte d’informations sémantiques sur le domaine pour
l’annotation d’un élément dans une page web à partir d’une ontologie suppose
d’aborder conjointement deux problèmes : (1) l’identification de la structure
syntaxique caractérisant cet élément dans la page web et (2) l’identification du
concept le plus spécifique (en termes de subsumption) dans l’ontologie dont
l’instance sera utilisée pour annoter cet élément. Notre démarche repose sur la
mise en oeuvre d’une technique d’apprentissage issue initialement des wrappers
que nous avons articulée avec des raisonnements exploitant la structure formelle
de l’ontologie.

Le système que nous présentons permet d’automatiser l’annotation sémantique de pages web.
Notre objectif est de classifier des pages concernant des équipes de recherche, afin de pou-
voir déterminer par exemple qui travaille où, sur quoi et avec qui. La classification s’appuie
sur des mécanismes de raisonnement qui nécessitent une représentation formelle du contenu
des pages ; nous exploitons ainsi une ontologie qui représente les concepts du domaine et les
relations entre les concepts dans un langage de représentation des connaissances.
Notre système génère des annotations sémantiques qui sont des métadonnées sur les élé-
ments d’un document liées à une ontologie. Pour cela nous devons résoudre deux grandes
questions. La première est d’identifier automatiquement, dans une page web, les éléments qui
sont pertinents. La seconde est de déterminer quels sont les concepts de l’ontologie les plus
spécifiques possible, pour annoter chacun de ces éléments.
L’automatisation repose sur un apprentissage à partir d’un corpus constitué d’éléments
marqués par un expert. Le marquage associe à chaque concept de l’ontologie des éléments
de la page en rapport avec ce concept. L’apprentissage génère un wrapper capable d’annoter
des éléments du document sous la forme d’instances de concepts et de rôles de l’ontologie
fournie. Des mécanismes de raisonnement exploitant l’ontologie sont utilisés pour déterminer

- 305 - RNTI-E-6
Visualisation en Gestion des Connaissances
Développement d’un nouveau modèle graphique
Graph’Atanor
Bruno Pinaud∗,∗∗ , Pascale Kuntz∗∗ , Fabrice Guillet∗∗ , Vincent Philippé∗


Knowesia SAS
Atlanpôle, La Fleuriaye
BP 40703, 44481 Carquefou Cedex
{bruno.pinaud, vincent.philippe}@knowesia.fr
http://www.knowesia.fr
∗∗
Laboratoire d’Informatique de Nantes Atlantique (LINA)
site Ecole Polytechnique
La Chantrerie - rue Christian Pauc
BP 50609, 44306 Nantes Cedex 3
{pascale.kuntz, bruno.pinaud, fabrice.guillet}@univ-nantes.fr
http://www.sciences.univ-nantes.fr/lina/fr

Résumé. Les systèmes de gestion des connaissances servent de support pour la


création et la diffusion de mémoires d’entreprises qui permettent de capitaliser,
conserver et enrichir les connaissances des experts. Dans ces systèmes, l’inter-
action avec les experts est effectuée avec des outils adaptés dans lesquels une
formalisation graphique des connaissances est utilisée. Cette formalisation est
souvent basée au niveau théorique sur des modèles de graphes mais de façon
pratique, les représentations visuelles sont souvent des arbres et des limitations
apparaissent par rapport aux représentations basées sur des graphes. Dans cet
article nous présentons le modèle utilisé par le serveur de connaissances Atanor
qui utilise des arbres pour visualiser les connaissances, et nous développons une
nouvelle approche qui permet de représenter les mêmes connaissances sous la
forme de graphes en niveaux. Une analyse comparative des deux méthodes dans
un contexte industriel de maintenance permet de mettre en valeur l’apport des
graphes dans le processus de visualisation graphique des connaissances.

1 Introduction
L’explosion des quantités de données stockées sur différents supports informatique conjoin-
tement à l’avènement des Technologies de l’Information et de la Communication a introduit
des bouleversements importants dans le management des entreprises. En plus des connais-
sances explicites (courriers électroniques, procédures, notes de services, ...), il faut capitaliser
l’ensemble des connaissances tacites, c’est à dire les connaissances qui ne sont pas formali-
sables aisément avec des mots (bonnes pratiques, savoir-faire, ...)(Alavi et Leidner, 2001; Earl,
2001). L’objectif est de rendre cette connaissance accessible aux utilisateurs concernés, de la

- 311 - RNTI-E-6
Algorithme semi-interactif pour la sélection de dimensions
Lydia Boudjeloud, François Poulet

ESIEA Pôle ECD


38, rue des docteurs Calmette et Guérin
Parc Universitaire de Laval-Changé
53000 Laval
boudjeloud|poulet@esiea-ouest.fr

Résumé. Nous présentons un algorithme génétique semi-interactif de sélection


de dimensions dans les grands ensembles de données pour la détection
d'individus atypiques (outliers). Les ensembles de données possédant un
nombre élevé de dimensions posent de nombreux problèmes aux algorithmes
de fouille de données, une solution est d'effectuer un pré-traitement afin de ne
retenir que les dimensions "intéressantes". Nous utilisons un algorithme
génétique pour le choix du sous-ensemble de dimensions à retenir. Par ailleurs
nous souhaitons donner un rôle plus important à l'utilisateur dans le processus
de fouille, nous avons donc développé un algorithme génétique semi-interactif
où l’évaluation des solutions n'élimine pas complètement la fonction
d'évaluation mais la couple avec une évaluation de l'utilisateur. Enfin,
l'importante réduction du nombre de dimensions nous permet de visualiser les
résultats de l'algorithme de détection d'outlier. Cette visualisation permet à
l'expert des données d'étiqueter les éléments atypiques (erreurs ou simplement
des individus différents de la masse).

1 Introduction
Nous nous intéressons à la recherche d'outliers (individus atypiques) dans les ensembles
de données ayant un grand nombre de dimensions. Pour pouvoir traiter de tels ensembles de
données (par exemple les ensembles de données de fouille de texte ou de bio-informatique),
la plupart des algorithmes de fouille de données actuels nécessitent un prétraitement
permettant de réduire le nombre de dimensions (avec plus ou moins de perte d'information).
L'approche la plus intuitive pour appréhender le problème des grandes dimensions est
d'énumérer tous les sous-ensembles de dimensions possibles et de rechercher le sous-
ensemble qui satisfait la problématique traitée. Cependant, le fait d'énumérer (rechercher)
toutes les combinaisons possibles est un problème NP-difficile (Narenda et Fukunaga, 1977).
Parmi les solutions proposées pour ce problème, on retrouve la réduction de dimensions
(combinaison de dimensions, généralement linéaire) et la sélection de dimensions (on
n’utilise qu’un sous-ensemble des dimensions originales). L'avantage de cette dernière
solution est que nous ne perdons pas l'information que pourrait apporter la dimension, car
elle est considérée individuellement non en combinaison (linéaire) avec d'autres dimensions.
Les techniques de sélection de dimensions consistent donc à réduire l'ensemble des

- 323 - RNTI-E-6
Visualisation interactive de données avec des méthodes à
base de points d’intérêt
David Da Costa∗,∗∗ , Gilles Venturini∗


Laboratoire d’Informatique
Ecole Polytechnique de l’Université de Tours
64, Avenue Jean Portalis, 37200 Tours, France.
david.dacosta@etu.univ-tours.fr,
venturini@univ-tours.fr
http://www.antsearch.univ-tours.fr/webrtic
∗∗
Agicom
Institut d’Etudes
3, degrés Saint Laumer, 41000 Blois, France.
ddacosta@agicom.fr
http://www.agicom.fr/

Résumé. Nous présentons dans cet article une méthode de visualisation inter-
active de données numériques ou symboliques permettant à un utilisateur expert
du domaine d’obtenir des informations et des connaissances pertinentes. Nous
proposons une approche nouvelle en adaptant l’utilisation des points d’intérêts
dans un contexte de fouille visuelle de données. A partir d’un ensemble de points
d’intérêt disposés sur un cercle, les données sont visualisées à l’intérieur de ce
cercle en fonction de leur similarité à ces points d’intérêt. Des opérations inter-
actives sont alors définies : sélectionner, zoomer, changer dynamiquement les
points d’intérêts. Nous évaluons les propriétés d’une telle visualisation sur des
données aux caractéristiques connues. Nous décrivons une application réelle en
cours dans le domaine de l’exploration de données issues d’enquêtes de satis-
faction.

1 Introduction
Les méthodes de fouille visuelle de données ("Visual data mining") tentent de résoudre les
problèmes d’interprétation et d’interaction dans les processus de découverte de connaissances
en faisant appel à des visualisations dynamiques et à des requêtes graphiques sur les données
et connaissances représentées (Cleveland, 1993), (Shneiderman, 1996), (Wong et Bergeron,
1997). A titre d’exemples classiques, nous pouvons citer les visages de Chernoff (Chernoff,
1973) qui représentent des données sous la forme d’icones en s’appuyant sur le fait que l’esprit
humain analyse facilement les ressemblances et différences entre visages. Nous pouvons citer
également les "scatter plots" (Becker et Cleveland, 1987) qui permettent d’obtenir des vues
multiples sur les données et d’observer les données à l’aide de techniques graphiques comme le
"brushing" qui donne la possibilité de sélectionner des données dans une vue tout en soulignant
ces mêmes données dans les autres vues.

- 335 - RNTI-E-6
Modélisation informationnelle : un cadre méthodologique
pour représenter des connaissances évolutives spatialisables
Jean-Yves Blaise*, Iwona Dudek*

* UMR CNRS/MCC 694 MAP-gamsau


EAML 184, av. de Luminy
13288 Marseille Cedex 09 France
jyb(idu)@gamsau.map.archi.fr
http://www.map.archi.fr

Résumé. Pour comprendre et représenter les évolutions du bâti, question re-


nouvelée avec le développement des NTIC, l’analyste s’appuie sur des
connaissances évolutives ayant dans notre champ d’application - le patrimoine
architectural – un caractère spatialisable (par l’attachement à un lieu ) mais
aussi des caractéristiques handicapantes (hétérogénéité, incertitudes et contra-
dictions, etc.). En réponse, nous utilisons ce caractère spatialisable pour inté-
grer les ressources constituant le jeu de connaissances propre à chaque édifice:
théorie, sources documentaires, observations. Cette démarche que nous nom-
mons modélisation informationnelle a pour objectif un gain de compréhension
du lieu architectural et des informations qui lui sont associées. Notre contribu-
tion introduit les filiations de cette démarche, le cadre méthodologique qui la
matérialise, et discute de son application au cas concret de la place centrale de
Cracovie (Rynek *áyZQ\) pour en évaluer l’apport potentiel en matière de ges-
tion et de visualisation de connaissances.

1 Introduction
La compréhension des évolutions du bâti s’appuie sur l’analyse conjointe de connaissan-
ces spécifiques et de connaissances génériques ayant, dans le champ du patrimoine architec-
tural, des caractéristiques très handicapantes vis à vis des technologies actuelles de gestion
d’information localisées spatialement. Ces connaissances s’appuient en effet sur des infor-
mations hétérogènes, réparties, fortement pluridisciplinaires, mais également floues, incer-
taines, régulièrement remises en question, à ré-interroger comparativement sur un territoire
donné ou entre territoires. Dès lors l’apport attendu de l’application des NTIC au domaine du
patrimoine en matière de production et surtout d’échanges de connaissances reste pour
l’essentiel prospectif, si ce n’est du strict point de vue de la vulgarisation.
Pourtant, de nombreux travaux menés traitent des aspects liés à l’acquisition de données
3D (De Luca et al., 2003), la gestion d’informations localisées spatialement (Sebillo, 2003),
ou encore de la représentation de données spatio-temporelles (Renolen, 1997)(Spaccapietra,
et al., 2004). En parallèle, l’acquis en matière de visualisation de données (y compris à ca-
ractère spatio-temporelles) dans le champ de la visualisation d’informations constitue une

- 347 - RNTI-E-6

Vous aimerez peut-être aussi