Académique Documents
Professionnel Documents
Culture Documents
Reference
RITSCHARD, Gilbert (Ed.), DJERABA, Chabane (Ed.). Extraction et gestion des
connaissances (EGC'2006). Toulouse : Cépaduès, 2006, 2 vol., 782 p.
Available at:
http://archive-ouverte.unige.ch/unige:3419
Disclaimer: layout of this document may differ from the published version.
Revue des Nouvelles Technologies de l’Information
Sous la direction de Djamel A. Zighed et Gilles Venturini
RNTI-E-6
Extraction
et gestion des connaissances :
EGC'2006
Rédacteurs invités :
Gilbert Ritschard
(Département d’économétrie, Université de Genève)
Chabane Djeraba
(LIFL, Université des Sciences et Technologies de Lille)
Volume I
CÉPADUÈS-ÉDITIONS
111, rue Vauquelin
31100 TOULOUSE – France
Tél. : 05 61 40 57 36 – Fax : 05 61 41 79 89
(de l’étranger ) + 33 5 61 40 57 36 – Fax : + 33 5 61 41 79 89
www.cepadues.com
courriel : cepadues@cepadues.com
Chez le même éditeur
à usage collectif sans autorisation des ayants droit. Or, cette pratique en se généralisant
provoquerait une baisse brutale des achats de livres, au point que la possibilité même pour les
auteurs de créer des œuvres nouvelles et de les faire éditer correctement serait alors menacée.
Nous rappelons donc que toute reproduction, partielle ou totale, du présent ouvrage est
interdite sans autorisation de l'éditeur ou du Centre français d'exploitation du droit de copie
(CFC – 3, rue d'Hautefeuille – 75006 Paris).
La Revue des Nouvelles Technologies de l’Information existe depuis 2003 et vient de dé-
passer le cap de 3800 pages de publications dans les domaines liés à l’Extraction de connais-
sances à partir des Données (ECD), la Fouille de données (FD), la Gestion des connaissances
(GC). Cette revue a pour objectif d’être un outil de communication de très grande qualité et
ouvert à tous. A ce titre, RNTI accueille deux types de numéros :
– des numéros à thème faisant l’objet d’un appel à communication. Chaque numéro à
thème est édité par un ou plusieurs rédacteurs en chef invités. Un comité de programme
spécifique d’une quinzaine de personne est formé à cette occasion. Plusieurs numéros
sont ainsi en cours de finalisation et seront disponibles début 2006 (Visualisation en
extraction des connaissances, P. Kuntz, F. Poulet ; Systèmes d’information pour l’aide
à la décision en ingénierie système, A. Kenchaf). Est également paru tout récemment
un numéro spécial sur la fouille de données complexes (O. Boussaid, P. Gançarski, F.
Masséglia, B. Trousse),
– des actes de conférences sélectives garantissant une haute qualité des articles (nous de-
mandons, par exemple, à ce que trois relecteurs émettent un avis sur les articles soumis).
Ainsi le numéro RNTI-B-1 a concerné les actes de EDA’2005 (F. Bentayeb, O. Boussaïd,
J. Darmont, S. Loudcher).
Aujourd’hui nous avons donc le plaisir d’accueillir pour la troisième fois ce numéro consa-
cré à la conférence EGC. Nous tenons à remercier les organisateurs de cette conférence pour
la confiance qu’ils accordent à cette revue. Nous adressons en particulier toutes nos chaleu-
reuses félicitations à Gilbert Ritschard qui a beaucoup œuvrer pour la qualité de ce numéro
EGC’2006, à la fois du point de vue scientifique comme président du comité de programme et
du point de édition comme rédacteur invité.
Nous espérons vivement que ce numéro vous donnera à toutes et à tous une entière sa-
tisfaction. Pour tout renseignement, nous vous invitons à consulter notre site Web et à nous
contacter. En particulier, nous sommes à votre écoute pour toute proposition de nouveaux nu-
méros spéciaux.
iii
iv
PRÉFACE
La sélection d’articles publiés dans le présent recueil constitue les actes des sixièmes jour-
nées Extraction et Gestion des Connaissances (EGC’2006) qui se sont tenues à Lille du 17 au
20 janvier 2006.
Les conférences EGC ambitionnent de regrouper chercheurs, industriels et utilisateurs
francophones issus des communautés Bases de Données, Apprentissage, Représentation des
Connaissances, Gestion de Connaissances, Statistique et Fouille de données. Aujourd’hui, de
grandes masses de données structurées ou semi-structurées sont accessibles dans les bases de
données d’entreprises, d’administrations ainsi que sur la toile. Aussi les entreprises et admi-
nistrations ont-elles besoin de méthodes et d’outils capables de les acquérir, de les stocker,
de les représenter, de les indexer, de les intégrer, de les classifier, d’extraire les connaissances
pertinentes pour les décideurs et de les visualiser. Pour répondre à cette attente, de nombreux
projets de recherche se développent autour de l’extraction de connaissances à partir de don-
nées (Knowledge Discovery in Data), ainsi que sur la gestion de connaissances (Knowledge
Management). Les articles réunis dans ce numéro spécial de RNTI rendent compte des déve-
loppements les plus récents dans les multiples disciplines concernées par cette double problé-
matiques, ainsi que du déploiement de méthodes d’extraction et de gestion des connaissances
par des spécialistes d’entreprises.
En particulier on constate dans les travaux rapportés ici une place grandissante accordée
aux formes diverses que peuvent prendre tant les données que les connaissances et à la néces-
sité de structurer les informations pour mieux les appréhender. Ainsi, les données considérées
vont de données numériques classiques aux données symboliques, au multi-média, des images
aux textes, de données statiques aux séquences et flots dynamiques. Les connaissances s’ex-
priment quant à elles en termes de structure, de sémantique, d’ontologies, de règles, etc. On
constate également que, dans le processus de gestion, les connaissances extraites deviennent
à leur tour des données qu’il s’agit de maîtriser et d’exploiter efficacement pour l’action et la
prise de décisions. On relève également l’émergence de nouveaux domaines d’application qui
de la gestion d’entreprise, des télécommunications ou du biomédical s’étendent aux domaine
juridique, au domaine social, à la chimie, aux sciences du vivant, au contrôle de l’environne-
ment et du territoire, ou encore à la gestion industrielle pour n’en citer que quelques uns.
Les articles sont regroupés en chapitres. Les regroupements ont été faits soit selon la pro-
blématique abordée (gestion des connaissances, indexation, ontologies, sémantique, apprentis-
sage, règles d’association, visualisation) ou selon le type de données considérées (complexes
et/ou volumineuses, séquences, textes). Un chapitre est plus spécifiquement consacré aux ap-
plications, et un autre rend compte des logiciels démontrés pendant les journées. En raison
de la forte interrelation entre les thèmes, les regroupements comprennent cependant une part
d’arbitraire, la plupart des articles ayant leur place dans plusieurs chapitres.
Le recueil inclut également les résumés des conférences des invités prestigieux que sont
Heikki Mannila, l’un des pères de l’extraction de motifs fréquents, Gilbert Saporta statisticien
mondialement connu et expert de l’apprentissage statistique et Michael Ley le fondateur du
célèbre site de référence bibliographique DBLP.
v
Sur 152 soumissions, 42 articles longs (12 pages), 32 articles courts (6 pages) et les résu-
més (2 pages) de 27 posters ont été sélectionnés par le comité de programme sur la base des
rapports des relecteurs lors de sa réunion des 8 et 9 novembre 2005 à Paris. On rappellera qu’au
minimum trois avis de relecteurs ont été sollicités pour chaque soumission. Les descriptifs (2
pages) de 5 démonstrations de logiciels ont par ailleurs été retenus sur proposition du Co-
mité “démonstrations logiciels” de EGC’2006 présidé par Mohand-Said Hacid. Finalement,
les auteurs d’un papier long et de 4 posters ayant renoncé à être publiés, ce recueil totalise, en
incluant les résumés des conférences invitées, un total de 104 articles ou résumés.
Remerciements
Nos vifs remerciements vont tout d’abord aux auteurs pour leurs excellentes contributions,
mais aussi aux relecteurs (voir liste page vii), membres du comité de lecture ou sollicités par ces
membres, dont les rapports d’évaluation circonstanciés et constructifs ont contribué à améliorer
significativement la qualité des articles.
Nos remerciements vont également à toute l’équipe du Comité d’organisation présidé par
Chabane Djeraba pour leur travail et leur mobilisation permanente. Merci donc à Fatima Bel-
kouche, Fatma Bouali, Anne-Cécile Caron, Jérôme David, Denis Debarbieux, Régis Gras, Ha-
kim Hacid, Nacim Ihaddadene, Laetitia Jourdan, Said Mahmoudi, Sylvain Mongy, Philippe
Preux, Thierry Urruty.
Parmi ces derniers, Nacim Ihaddadene qui a créé les affiches et le site web de la Confé-
rence www-rech.enic.fr/egc2006 mérite une mention particulière. Merci également à Philippe
Rigaux pour son “cyberchair” MyReview et surtout à Hakim Hacid pour l’avoir configuré et
géré parfaitement.
Merci à l’Association EGC pour son soutien et la dotation du prix de la meilleure commu-
nication.
Enfin, nous remercions spécialement pour leur soutien financier et aides diverses le La-
boratoire d’Informatique Fondamentale de Lille (UMR USTL/CNRS 8022), l’Université des
Sciences et Technologies de Lille, l’INRIA - Futurs, l’ENIC Télécom Lille 1, le Groupement
des Ecoles Télécom et la Ville de Lille. Sans leur soutien, ni la Conférence EGC 2006, ni ce
recueil n’auraient vu le jour.
vi
Le Comité de lecture de ce numéro est constitué des Comités de programme EGC’2006 et de
pilotage de EGC.
vii
viii
TABLE DES MATIÈRES
Conférences invitées
Indexation de vues virtuelles dans un médiateur XML pour le traitement de XQuery Text,
Clément Jamard, Georges Gardarin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Techniques de fouille de données pour la réécriture de requêtes en présence de
contraintes de valeurs,
Hélène Jaudoin, Frédéric Flouvat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
ix
Un Index de jointure pour les entrepôts de données XML,
Hadj Mahboubi, Kamel Aouiche, Jérôme Darmont . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
Le forage distribué des données : une méthode simple, rapide et efficace,
Mohamed Aounallah, Guy Mineau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
Une approche distribuée pour l’extraction de connaissances : application à
l’enrichissement de l’aspect factuel des BDG,
Khaoula Mahmoudi, Sami Faïz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
Modèle conceptuel pour bases de données multidimensionnelles annotées,
Guillaume Cabanac, Max Chevalier, Franck Ravat, Olivier Teste . . . . . . . . . . . . . . . . . . . . 119
Comparaison de deux modes de représentation de données faiblement structurées en
sciences du vivant,
Rallou Thomopoulos, Patrice Buche, Ollivier Haemmerlé,
Frédéric Mabille, Nongyao Mueangdee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
Reconnaissance automatique d’évènements survenant sur patients en réanimation
à l’aide d’une méthode adaptative d’extraction en ligne d’épisodes temporels,
Sylvie Charbonnier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
Une approche multi-agent adaptative pour la simulation de schémas tactiques,
Aydano Machado, Yann Chevaleyre, Jean-Daniel Zucker . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
Gestion de connaissances : compétences et ressources pédagogiques,
Olivier Gerbé, Thierno Diarra, Jacques Raynauld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
Chapitre 3 : Ontologies
x
Chapitre 4 : Fouille de textes
Choix du taux d’élagage pour l’extraction de la terminologie. Une approche fondée sur
les courbes ROC,
Mathieu Roche, Yves Kodratoff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
Fast-MGB : Nouvelle base générique minimale de règles associatives,
Chiraz Latiri, Lamia Ben Ghezaiel, Mohamed Ben Ahmed . . . . . . . . . . . . . . . . . . . . . . . . . . 217
Extraction et identification d’entités complexes à partir de textes biomédicaux,
Julien Lorec, Gérard Ramstein, Yannick Jacques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
Reconnaissance automatique de concepts à partir d’une ontologie,
Valentina Ceausu, Sylvie Desprès . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
Multi-catégorisation de textes juridiques et retour de pertinence,
Vincent Pisetta, Hakim Hacid, Djamel. A Zighed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
Combinaison de l’approche inductive (progressive) et linguistique pour l’étiquetage
morphosyntaxique des corpus de spécialité,
Ahmed Amrani, Yves Kodratoff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
Un automate pour évaluer la nature des textes,
Hubert Marteau, Nicole Vincent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
Extraction multilingue de termes à partir de leur structure morphologique,
Delphine Bernhard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
Accès aux connaissances orales par le résumé automatique,
Benoît Favre, Jean-François Bonastre, Patrice Bellot, François Capman . . . . . . . . . . . . . 273
Chapitre 5 : Sémantique
Chapitre 6 : Visualisation
xi
Algorithme semi-interactif pour la sélection de dimensions,
Lydia Boudjeloud, François Poulet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323
Visualisation interactive de données avec des méthodes à base de points d’intérêt,
David Da Costa, Gilles Venturini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335
Modélisation informationnelle : un cadre méthodologique pour visualiser des
connaissances évolutives spatialisables,
Jean-Yves Blaise, Iwona Dudek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347
Chapitre 8 : Apprentissage
xii
Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair,
Raja Chiky, Bruno Defude, Georges Hébrail . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463
Fouille de données dans les systèmes Pair-à-Pair pour améliorer la recherche de ressources,
Florent Masseglia, Pascal Poncelet, Maguelonne Teisseire . . . . . . . . . . . . . . . . . . . . . . . . . . 469
Une approche simple inspirée des réseaux sociaux pour la hiérarchisation des systèmes
autonomes de l’Internet,
Fabrice Clérot, Quang Nguyen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475
Recherche de sous-structures fréquentes pour l’intégration de schémas XML,
Federico Del Razo López, Anne Laurent, Pascal Poncelet, Maguelonne Teisseire . . . . . . 487
Vers l’extraction de motifs rares,
Laszlo Szathmary, Sandy Maumus, Pierre Petronin, Yannick Toussaint,
Amedeo Napoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499
Approche entropique pour l’analyse de modèle de chroniques,
Nabil Benayadi, Marc Le Goc, Philippe Bouché . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 511
La fouille de graphes dans les bases de données réactionnelles au service de la synthèse
en chimie organique,
Frédéric Pennerath, Amedeo Napoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517
Fouille de données spatiales. Approche basée sur la programmation logique inductive,
Nadjim Chelghoum, Karine Zeitouni, Thierry Laugier, Annie Fiandrino,
Lionel Loubersac . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 529
Arbres de Décision Multi-Modes et Multi-Cibles,
Frank Meyer, Fabrice Clérot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 541
Extension de l’algorithme CURE aux fouilles de données,
Jerzy Korczak, Aurélie Bertaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 547
Comparaison des mesures d’intérêt de règles d’association : une approche basée sur des
graphes de corrélation,
Xuan-Hiep Huynh, Fabrice Guillet, Henri Briand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 549
Une comparaison de certains indices de pertinence des règles d’association,
Marie Plasse, Ndeye Niang, Gilbert Saporta, Laurent Leblond . . . . . . . . . . . . . . . . . . . . . . 561
Utilisation des réseaux bayésiens dans le cadre de l’extraction de règles d’association,
Clément Fauré, Sylvie Delprat, Alain Mille, Jean-François Boulicaut . . . . . . . . . . . . . . . . 569
Critère VT100 de sélection des règles d’association,
Alain Morineau, Ricco Rakotomalala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 581
Modèle décisionnel basé sur la qualité des données pour sélectionner les règles
d’associations légitimement intéressantes,
Laure Berti-Equille . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593
Règles d’association avec une prémisse composée : mesure du gain d’information,
Martine Cadot, Pascal Cuxac, Claire François . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 599
xiii
Recherche de règles non redondantes par vecteurs de bits dans des grandes bases de motifs,
François Jacquenet, Christine Largeron, Cédric Udréa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 601
Chapitre 11 : Applications
Apprentissage de la structure des réseaux bayésiens à partir des motifs fréquents corrélés :
application à l’identification des facteurs environnementaux du cancer du Nasopharynx,
Alexandre Aussem, Zahra Kebaili, Marilys Corbex, Fabien De Marchi . . . . . . . . . . . . . . . 651
De l’analyse didactique à la modélisation informatique pour la conception d’un EIAH en
chirurgie orthopédique,
Vanda Luengo, Lucile Vadcard, Dima Mufti-Alchawafa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 663
Prédiction de la solubilité d’une molécule à partir des seules données relationnelles,
Sébastien Derivaux, Agnès Braud, Nicolas Lachiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 669
Préparation des données Radar pour la reconnaissance/identification de cibles aériennes,
Abdelmalek Toumi, Brigitte Hoeltzener, Ali Khenchaf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 675
Biclustering of Gene Expression Data Based on Local Nearness,
Jesus Aguilar-Ruiz, Domingo Savio Rodriguez, Dan A. Simovici . . . . . . . . . . . . . . . . . . . . 681
Amélioration des indicateurs techniques pour l’analyse du marché financier,
Hunor Albert-Lorincz, Jean-François Boulicaut . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 693
EDA : algorithme de désuffixation du langage médical,
Didier Nakache, Elisabeth Métais, Annabelle Dierstein . . . . . . . . . . . . . . . . . . . . . . . . . . . . 705
Aide en gestion hospitalière par visualisation des composantes de non-pertinence,
Bernard Huet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 707
Enrichissement d’ontologies dans le secteur de l’eau douce en environnement Internet
distribué et multilingue,
Lylia Abrouk, Mathieu Lafourcade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 709
Comparaison des mammographies par des méthodes d’apprentissage,
Irina Diana Coman, Djamel Abdelkader Zighed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 711
xiv
Représentation d’expertise psychologique sous la forme de graphes orientés, codés
en RDF,
Yves Fossé, Stéphane Daviet, Henri Briand, Fabrice Guillet . . . . . . . . . . . . . . . . . . . . . . . . 713
Représentation des connaissances appliquées à la géotechnique : une approche,
Nicolas Faure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 715
Sélection de variables et modélisation d’expressions d’émotions dans des dialogues
Homme-Machine,
Barbara Poulain . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 717
Comment formaliser les connaissances tacites d’une organisation ? Le cas de la conduite
du changement à la SNCF,
Anne Remillieux, Christian Blatter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 719
I-Semantec : une plateforme collaborative de capitalisation des connaissances métier en
conception de produits industriels,
Mohamed-Foued Sriti, Phillipe Boutinaud, Nada Matta, Manuel Zacklad . . . . . . . . . . . . 721
Outil de datamining spatial appliqué à l’analyse des risques liés au territoire,
Schahrazed Zeghache, Farida Admane, Kamel Elarabia Ziane . . . . . . . . . . . . . . . . . . . . . . 723
Confrontation de points de vue dans le système Porhyry,
Samuel Gesche, Sylvie Calabretto, Guy Caplat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 725
Système d’aide à la décision pour la surveillance de la qualité de l’air intérieur,
Zoulikha Heddadji, Nicole Vincent, Severine Kirchner, Georges Stamon . . . . . . . . . . . . . . 727
FaBR-CL : méthode de classification croisée de protéines,
Walid Erray, Faouzi Mhamdi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 729
Un modèle extensible adapté à la gestion de dépêches d’agences de presse,
Frédéric Bertrand, Cyril Faucher, Marie-Christine Lafaye, Jean-Yves Lafaye,
Alain Bouju . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 731
ARABASE : base de données Web pour l’exploitation en reconnaissance optique de
l’écriture arabe,
Noura Bouzrara, Nacéra Madani Aissaoui, Najoua Essoukri Ben Amara . . . . . . . . . . . . . 733
Archiview, un outil de visualisation topographique des paramètres d’un hôpital,
Pierre P. Lévy, Jean-Philippe Villaréal, Pierre-Paul Couka, Fabrice Gallois,
Laurence Herbin, Antoine Flahault . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 735
Chapitre 12 : Logiciels
xv
Teximus Expertise : un logiciel de gestion de connaissances,
Olivier Gerbé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 743
Un logiciel permettant d’apprendre des règles et leurs exceptions : Area,
Sylvain Lagrue, Jérémie Lussiez, Julien Rossit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 745
xvi
Finding fragments of orders and total orders from 0-1 data
Heikki Mannila
Résumé
On s’intéresse aux collections de données 0-1 de haute dimension que l’on rencontre dans
de nombreuses applications. Bien que les attributs soient dans de tels ensembles de données
typiquement considérés comme non ordonnés, un ordre total ou partiel sous-tend souvent les
variables. Par exemple, il existe de tels ordres entre les termes utilisés dans un ensemble de
documents, ou les sites paléontologiques dans les collections de données de fossiles. Nous dé-
crivons des méthodes, fondées sur la recherche de motifs fréquents, qui permettent de retrouver
des fragments d’ordre total à partir de telles données. Nous discutons également des techniques
fondées sur l’ordre spectral et les modèles MCMC qui permettent de trouver de bons ordres
totaux (sériations).
-1- RNTI-E-6
Credit scoring, statistique et apprentissage
Gilbert Saporta
Les accords dits « Bâle 2 » sur la solvabilité des banques ont remis au goût du jour les
techniques de scoring en imposant aux banques de calculer des probabilités de défaut et le
montant des pertes en cas de défaut. Nous présentons dans cet exposé les principales techni-
ques utilisées et les problèmes actuels.
Le terme credit scoring désigne un ensemble d’outils d’aide à la décision utilisés par les
organismes financiers pour évaluer le risque de non-remboursement des prêts. Un score est
une note de risque, ou une probabilité de défaut.
Le problème semble simple en apparence, puisqu’il s’agit d’une classification supervisée
en deux groupes, les « bons payeurs » et les « mauvais payeurs ».
Les classifieurs linéaires sont les plus classiques et souvent les seuls utilisables en raison
de contraintes légales : on doit pouvoir expliquer la décision de refus. Ces classifieurs doi-
vent être adaptés au cas de prédicteurs qualitatifs, que l’on rencontre le plus souvent en crédit
à la consommation. On rappellera que l’usage de variables qualitatives remonte à des travaux
très anciens de Fisher. La régression logistique est devenue un standard dans la profession,
que l’on oppose souvent à tort à l’analyse discriminante.
La théorie de l’apprentissage statistique apporte alors des justifications à l’usage de tech-
niques de réduction de dimension (méthode Disqual de discrimination sur composantes fac-
torielles, régression PLS) et de régularisation (régression ridge). La régression PLS se révèle
équivalente à une technique méconnue : l’analyse discriminante barycentrique qui est le
pendant additif du classifieur naïf de Bayes qui est multiplicatif.
Le choix entre méthodes ou algorithmes ne peut reposer sur des critères statistiques de
type vraisemblance, inadapté à des problèmes de décision mais sur des mesures de perfor-
mance en généralisation. La courbe ROC et les indices associés (AUC, Gini, Ki) sont les
plus utilisés.
Un des problèmes épineux est celui du biais de sélection : en effet l’ensemble
d’apprentissage ne contient que des individus dont la demande de prêt a été accordée. On sait
que si les variables d’acceptation sont différentes des variables disponibles, on ne peut trou-
ver de solution sans biais. La prise en compte des dossiers refusés (reject inference) donne
lieu cependant à une abondante littérature, sans guère de résultats convaincants.
La discrimination entre défaillants et non-défaillants n’est plus le seul objectif, surtout
pour des prêts à long terme : le « quand » devient aussi important que le « si ». De nombreux
travaux s’orientent actuellement vers l’utilisation de modèles de survie pour données censu-
rées dont nous donnerons un aperçu.
-3- RNTI-E-6
Credit scoring
Références
Baesens, B. (2003): Developing intelligent systems for credit scoring using machine learning
techniques, Ph.D, Leuven
Baesens B., Van Gestel T., Stepanova M., Van Den Poel D.(2005) Neural Network Survival
Analysis for Personal Loan Data, Journal of the Operational Research Society, 56 (9),
1089-1098,
Bardos, M.; (2001): Analyse discriminante, Paris, Dunod
Bouroche, J.M., Saporta G. (1988) Les méthodes et les applications du credit-scoring , Atti
34° Riunione Scientifica della Sociéta Italiana di Statistica, p.19-26,
Celeux, G., Nakache, J.P. (1994). Discrimination sur variables qualitatives, Paris: Polytech-
nica
Fisher, R.A. (1940) The precision of discriminant functions, Annals of Eugenics, 10, 422-
429.
Hastie,T. ,Tibshirani,R., Friedman, J. (2001): The Elements of Statistical Learning, New-
York, Springer-Verlag
Mays ed. (2001), Handbook of credit scoring, Glenlake
Saporta G., Niang N., (2006), Correspondence analysis and classification, in Blasius, J. &
Greenacre, M. editors: Multiple correspondence analysis and related methods, Chapman
& Hall
Thomas L.C., Edelman D.B., Crook J.N. (2002) Credit Scoring and its Applications, SIAM
monographs on Mathematical Modelling and Computation
Credit Research Center: http://www.crc.man.ed.ac.uk
http://www.defaultrisk.com/
Basel Committee publications: http://www.bis.org/bcbs/publ.htm
Summary
Basel 2 regulations brought new interest in supervised classification methodologies for
predicting default probability for loans. An important feature of consumer credit is that pre-
dictors are generally categorical. Logistic regression and linear discriminant analysis are the
most frequently used techniques but are often unduly opposed. Vapnik’s statistical learning
theory explains why a prior dimension reduction (eg by means of multiple correspondence
analysis) improves the robustness of the score function. Ridge regression, linear SVM, PLS
regression are also valuable competitors. Predictive capability is measured by AUC or Gini’s
index which are related to the well known non-parametric Wilcoxon-Mann-Whitney test.
Among methodological problems, reject inference is an important one, since most samples
are subject to a selection bias. There are many methods, none being satisfactory. Distinguish
between good and bad customers is not enough, especially for long-term loans. The question
is then not only “if”, but “when” the customers default. Survival analysis provides new types
of scores.
RNTI-E-6 -4-
Maintaining an Online Bibliographical Database:
The Problem of Data Quality
Michael Ley∗ , Patrick Reuther∗
∗
Department for Databases and Information Systems, University of Trier, Germany
{ley,reuther}@uni-trier.de
http://dbis.uni-trier.de http://dblp.uni-trier.de
Abstract. CiteSeer and Google-Scholar are huge digital libraries which provide
access to (computer-)science publications. Both collections are operated like
specialized search engines, they crawl the web with little human intervention
and analyse the documents to classify them and to extract some metadata from
the full texts. On the other hand there are traditional bibliographic data bases
like INSPEC for engineering and PubMed for medicine. For the field of com-
puter science the DBLP service evolved from a small specialized bibliography
to a digital library covering most subfields of computer science. The collections
of the second group are maintained with massive human effort. On the long
term this investment is only justified if data quality of the manually maintained
collections remains much higher than that of the search engine style collections.
In this paper we discuss management and algorithmic issues of data quality. We
focus on the special problem of person names.
1 Introduction
In most scientific fields the amount of publications is growing exponentially. The primary
purpose of scientific publications is to document and communicate new insights and new re-
sults. On the personal level publishing is a sort of collecting credit points for the CV. On
the institutional level there is an increasing demand to evaluate scientists and departments by
bibliometric measures, which hopefully consider the quality of the work. All aspects require
reliable collection, organization and access to publications. In the age of paper this infrastruc-
ture was provided by publishers and libraries. The internet, however, enabled new players to
offer services. Consequently many specialized internet portals became important for scien-
tific communities. Search engines like Google(-Scholar) or CiteSeer, centralized archives like
arXic.org/CoRR and a huge number of personal and/or department web servers make it very
easy to communicate scientific material.
The old players — publishers, learned societies, libraries, database producers etc. —
face these new competitors by building large digital libraries like ScienceDirect (Elsevier),
SpringerLink, ACM Digital Library or Xplore (IEEE) in the field of computer science.
DBLP (Digital Bibliography & Library Project) (Ley, 2002) is an internet "newcomer"
that started service in 1993. The DBLP service evolved from a small bibliography special-
ized to database systems and logic programming to a digital library covering most subfields
-5- RNTI-E-6
Graphes de voisinage pour l’indexation et l’interrogation
d’images par le contenu
Hakim Hacid ∗ , Abdelkader Djamel Zighed∗
∗
Université Lyon 2, Laboratoire ERIC
Bat. L, 5 Av. Pierre Mendès-France
69676 Bron cedex - France
hhacid@eric.univ-lyon2.fr, zighed@univ-lyon2.fr,
http://eric.univ-lyon2.fr/
1 Introduction
La recherche d’information dans les bases de données image est toujours un défi. Pour
l’être humain, l’accès à la sémantique d’une image est naturel et non explicite. Par conséquent,
la sémantique provient de l’image sans processus cognitif explicite. Dans la vision par ordina-
teur, il existe plusieurs niveaux d’interprétation. Le plus bas est celui des pixels et le plus haut
est celui des scènes ; entre eux beaucoup de niveaux d’abstraction existent. Le défi est alors de
remplir la gouffre entre le bas niveau et le haut niveau.
Il existe au moins deux issues intermédiaires auxquelles nous nous intéressons. La pre-
mière est la représentation de l’image sous forme de vecteurs qui est appelée indexation. Elle
consiste à extraire quelques caractéristiques (composantes d’un vecteur) à partir de la représen-
tation de bas niveau(Pixel). Par exemple, l’histogramme des couleurs, les différents moments,
les paramètres de forme, etc. La seconde issue est l’ensemble des étiquettes associées à une
image. Ces étiquettes sont fournit par l’humain au moyen de mots, d’adjectifs, ou au moyen de
tout autre attribut symbolique. Les étiquettes sont compréhensibles et mieux manipulées. La
sémantique peut être considérée comme le résultat du traitement des attributs symboliques qui
sont liés à l’image.
Donner à l’ordinateur la capacité d’imiter l’être humain dans l’analyse de scènes nécessite
d’expliciter le processus par lequel il peut se déplacer de la représentation bas niveau à la
- 11 - RNTI-E-6
Extraction automatique de champs numériques dans des
documents manuscrits
Clément Chatelain, Laurent Heutte, Thierry Paquet
Résumé. Nous décrivons dans cet article une chaine de traitement complète et
générique permettant d’extraire automatiquement les champs numériques (nu-
méros de téléphone, codes clients, codes postaux) dans des documents manus-
crits libres. Notre chaïne de traitement est constituée des trois étapes suivantes:
localisation des champs numériques potentiels selon une approche markovienne
sans reconnaissance chiffre ni segmentation, reconnaissance des séquences ex-
traites, et vérification des hypothèses de localisation / reconnaissance en vue de
limiter la fausse alarme génerée lors de l’étape de localisation. L’évaluation de
notre système sur une base de 300 courriers manuscrits montre des performances
en rappel-précision intéressantes.
1 Introduction
Aujourd’hui, la lecture automatique des documents manuscrits se limite à quelques cas ap-
plicatifs particuliers : lecture automatique de chèques ou d’adresses postales, reconnaissance
des champs d’un formulaire. Cette lecture est possible car le contenu de ces documents est
très largement contraint : structure du document stable, position des informations connue, re-
dondance de l’information, lexique limité, etc. Lors de la lecture, le système bénéficie ainsi
d’informations a priori importantes permettant de limiter ou de vérifier les hypothèses de re-
connaissance, autorisant une lecture fiable des documents.
Peu de travaux abordent des problèmes de reconnaissance moins contraints car il est alors
plus difficile de bénéficier de moyens automatiques de vérification des hypothèses de recon-
naissance. C’est le contexte de nos travaux portant sur la lecture automatique des courriers
entrants manuscrits. Il s’agit de courriers manuscrits tels que des lettres de réclamation, de
changement d’adresse, de modification de contrat, etc., reçus en très grand nombre quotidien-
nement par des grandes organisations. Contrairement aux applications précédemment citées,
aucune information a priori n’est disponible : le contenu, la structure, l’expéditeur ou encore
l’objet du document sont totalement inconnus du système de lecture, ce qui rend la lecture
intégrale du document extrêmement délicate. Il est cependant possible de considérer des pro-
blèmes de lecture partielle du document, visant à en extraire l’information pertinente. C’est
ce que nous envisageons dans cet article en proposant une méthode de localisation et de re-
connaissance de champs numériques (numéros de téléphones, codes clients, etc.) dans des
courriers entrants manuscrits (voir figure 1). La reconnaissance de ces champs permettra par
- 23 - RNTI-E-6
Clustering dynamique d’un flot de données : un algorithme
incrémental et optimal de détection des maxima de densité
Alain Lelu
1 Introduction et objectifs
Pour rendre compte avec exactitude des évolutions temporelles, cruciales dans beaucoup
de domaines d’application (ex. : veille d’information), il est nécessaire à notre avis :
1) de partir d’une base stable, c'est-à-dire d’une classification :
- indépendante de l’ordre de présentation des données (exigence n°1),
- indépendante des conditions initiales, que ce soit d’un choix de « graines de classes »
arbitraires ou dépendantes des données (exigence n°2),
- impliquant un minimum de paramètres, un seul si possible, pour réduire l’espace des
choix et tendre vers un maximum de vérifiabilité et de reproductibilité (exigence n°3).
2) d’ajouter aux contraintes d’une bonne classification celle de l’incrémentalité (exigence
N°4), afin de saisir les évolutions au fil de l’eau : rectifications de frontières entre classes,
apparition de nouvelles classes, voire de « signaux faibles »... Pour nous, il y a incrémentalité
véritable si le résultat de la classification est indépendant de l’ordre des données présentées
antérieurement (exigence N°5), tout en découlant des données antérieures, par un historique
pouvant faire l’objet d’interprétations.
Notre démarche a été de concevoir une méthode où la contrainte d’incrémentalité partici-
per d’un tout cohérent, en vue d’aboutir à tout instant à une classification qui ait du sens, et
dont la différence de représentation par rapport à l’instant précédent ne provient que des
- 35 - RNTI-E-6
Extraction d'objets vidéo : Une approche combinant les
contours actifs et le flot optique
Youssef Zinbi*, Youssef Chahir* et Abder Elmoatz **
Résumé. Dans cet article, nous présentons une méthode mixte de segmentation
d'objets visuels dans une séquence d'images d'une vidéo combinant à la fois
une segmentation basée régions et l'estimation de mouvement par flot optique.
L'approche développée est basé sur une minimisation d'une fonctionnelle
d'énergie (E) qui fait intervenir les probabilités d'appartenance (densité) avec
une gaussienne, en tenant compte des informations perceptuelles de couleur et
de texture des régions d'intérêt. Pour améliorer la méthode de détection et de
suivi, nous avons étendu la formulation énergétique de notre modèle de
contour actif en incluant une force supplémentaire issue du calcul du flot opti-
que. Nous montrons l'intérêt de cette approche mixte en terme de temps de cal-
cul et d'extraction d'objets vidéo complexes, et nous présentons les résultats
obtenus sur des séquences de corpus vidéo couleur.
1 Introduction
La recherche d'objets vidéo est une tâche difficile compte tenu de la richesse des informa-
tions multiples dans l'image. Pour trouver de manière automatique ces objets vidéo, il est
important de tenir compte de trois étapes principales qui sont la segmentation, l'identification
et le suivi d'objets en mouvement par flot optique.
Le but de la segmentation active est de détecter et d’extraire des informations pertinentes
dans une image. Différents modèles de contours actifs ont été proposés dans la littérature,
mais on peut distinguer deux principales approches: Des approches basées contours et
d’autres basées régions. L'implémentation de n'importe quel modèle de contour actif exige la
minimisation d'une fonctionnelle d’énergie. Cette énergie a deux composantes: énergie ex-
terne, qui est caractérisée par la régularité de la courbe et l’énergie interne qui a pour fonc-
tion d'attirer la courbe vers les gradients les plus forts (les forts contraste de l'image).
Les contours actifs classiques ont été proposés pour la première fois par Kass et al (Kass
et al., 1987) pour la segmentation d’images médicales. L'idée de base consiste à faire évoluer
la courbe vers la frontière de l’objet à détecter. Ce modèle a été confronté à plusieurs
- 41 - RNTI-E-6
SVM incrémental, parallèle et distribué pour le traitement de
grandes quantités de données
Thanh-Nghi Do*, François Poulet**
1 Introduction
A l’heure actuelle, les données arrivent plus vite que la capacité de traitement des
algorithmes de fouille de données ne permet de les traiter. L’amélioration des performances
des algorithmes de fouille de données est indispensable pour traiter de grands ensembles de
données. Nous nous intéressons au cas de la classification supervisée et plus particulièrement
à une classe d’algorithmes : les SVM [Vapnik, 1995]. En règle générale, ils donnent de bons
taux de précision mais, l’apprentissage des SVM se ramène à résoudre un programme
quadratique et est donc coûteux en temps et mémoire. Pour remédier à ce problème, les
méthodes de décomposition [Platt, 1999], [Chang et Lin, 2003] travaillent sur des sous-
ensembles arbitraires de données, on utilise alors des heuristiques [Do et Poulet, 2005]
permettant de choisir les sous-ensembles de données. D’autres travaux visent à construire des
algorithmes incrémentaux [Fung et Mangasarian, 2002] dont le principe est de ne charger
qu’un petit bloc de données en mémoire à la fois, de construire un modèle partiel et de le
mettre à jour en chargeant consécutivement des blocs de données. Les SVMs parallèles et
distribués [Poulet et Do, 2004] utilisent un réseau de machines pour améliorer les
performances. Nous présentons un nouvel algorithme de SVM linéaire et non-linéaire pour
traiter de grands ensembles de données dans un temps restreint sur du matériel standard. A
partir de l’algorithme de Newton-GSVM [Mangasarian, 2001], nous avons construit un
algorithme incrémental, parallèle et distribué permettant d’améliorer les performances en
temps d’exécution et mémoire en s’exécutant sur un groupe d’ordinateurs. Les résultats
- 47 - RNTI-E-6
Recherche en temps réel de préfixes massifs hiérarchiques
dans un réseau IP à l’aide de techniques de stream mining
Pascal Cheung-Mon-Chan∗ , Fabrice Clérot∗
∗
France Télécom R&D
2, avenue Pierre Marzin BP 50702
22307 Lannion Cedex -France
{pascal.cheungmonchan, fabrice.clerot}@francetelecom.com
1 Introduction
Les progrès techniques récents ont eu pour conséquence l’augmentation du nombre de flux
d’information et la croissance rapide de leurs débits. L’architecture traditionnelle de l’analyse
de données — où les données, préalablement stockées, sont analysées puis rafraîchies — étant
inadaptée au traitement de ces flux, une nouvelle famille de techniques, dites de stream mi-
ning, se propose d’inverser radicalement cette architecture et de mettre en oeuvre des systèmes
reposant sur des capacités de stockage minimales qui sont mises à jour à la vitesse du flux.
L’objectif de cet article est d’expliquer comment nous avons utilisé des techniques de stream
mining afin d’identifier en temps réel, dans un réseau IP, les préfixes dont la contribution au
trafic dépasse une certaine proportion de ce trafic pendant un intervalle de temps donné.
- 53 - RNTI-E-6
Prétraitement de grands ensembles de données pour la fouille
visuelle
Edwige Fangseu Badjio, François Poulet
Résumé. Nous présentons une nouvelle approche pour le traitement des en-
sembles de données de très grande taille en fouille visuelle de données. Les li-
mites de l’approche visuelle concernant le nombre d’individus et le nombre de
dimensions sont connues de tous. Pour pouvoir traiter des ensembles de don-
nées de grande taille, une solution possible est d’effectuer un prétraitement de
l’ensemble de données avant d’appliquer l’algorithme interactif de fouille vi-
suelle. Pour ce faire, nous utilisons la théorie du consensus (avec une affecta-
tion visuelle des poids). Nous évaluons les performances de notre nouvelle ap-
proche sur des ensembles de données de l’UCI et du Kent Ridge Bio Medical
Dataset Repository.
1 Introduction
Nous nous intéressons au problème de prétraitement de grands ensembles de données.
Notre but est de réduire les informations contenues dans les ensembles de données volumi-
neux aux informations les plus significatives. Il existe des techniques expérimentalement
validées pour ce faire. D’un point de vue applicatif, un problème majeur se pose quant au
choix d’une de ses méthodes. Une solution qui constitue notre contribution dans ce travail
serait d’utiliser une combinaison de techniques ou de stratégies. A cet effet, nous nous ap-
puyons sur la théorie du consensus. L’utilisation de cette combinaison de stratégies ou
d’expertises peut être justifiée par l’un des faits suivants :
- il n’est pas possible de déterminer a priori quelle méthode de sélection de sous-ensemble
d’attributs est meilleure que toutes les autres (en tenant compte des différences entre le
temps d'exécution et la complexité),
- un sous-ensemble optimal d'attributs n'est pas nécessairement unique,
- la décision d'un comité d'experts est généralement meilleure que la décision d'un seul
expert.
Les résultats obtenus après des expérimentations permettent de conclure que l’approche
proposée réduit de façon significative l’ensemble de données à traiter et permet de les traiter
interactivement. Cette contribution commence par un état de l’art et la problématique du
- 59 - RNTI-E-6
Indexation de vues virtuelles dans un médiateur XML pour le
traitement de XQuery Text
Clément Jamard*, Georges Gardarin*
Laboratoire PRiSM
Université de Versailles
78035, Versailles Cedex, France
prénom.nom@prism.uvsq.fr
1 Introduction
XQuery devenant le standard pour interroger XML, de nouveaux besoins apparaissent
pour la recherche d’information. Buston et Rys (2003) spécifient des prédicats et
fonctionnalités de recherche d’information à intégrer à XQuery, comme la recherche
d’élément contenants des mots-clefs, le classement de résultats selon leur pertinence, la
recherche basé sur des suffixes ou préfixes de mots. Un premier ensemble des fonctionnalités
requises pour XQuery Text est défini par Buxton et Rys (2003). TexQuery, Amer-Yahia
(2004), en est le langage précurseur.
Certaines des fonctionnalités citées précédemment, comme la simple recherche de mots-
clefs, sont très communes et présentes dans la plupart des SGBD. Dans le cas de données
distribuées, il faut d’abord recomposer les partitions avant de pouvoir effectuer une
recherche sur le contenu ; d’importantes fonctionnalités souvent nécessaires aux applications
ne sont pas faciles à implanter dans un système distribué. Le classement des résultats, les
recherches conjonctives de mots-clefs, les recherches sur les racines de mots, leurs préfixes
ou suffixes, sont difficilement réalisables car il faut auparavant recomposer les données
dispersées.
- 65 - RNTI-E-6
Techniques de fouille de données pour la réécriture de
requêtes en présence de contraintes de valeurs
Hélène Jaudoin∗ , Frédéric Flouvat∗
Résumé. Dans cet article, nous montrons comment les techniques de fouilles de
données peuvent résoudre efficacement le problème de la réécriture de requêtes
en termes de vues en présence de contraintes de valeurs. A partir d’une forma-
lisation du problème de la réécriture dans le cadre de la logique de description
ALN (Ov ), nous montrons comment ce problème se rattache à un cadre de dé-
couverte de connaissances dans les bases de données. L’exploitation de ce cadre
nous permet de bénéficier de solutions algorithmiques existantes pour la réso-
lution du problème de réécriture. Nous proposons une implémentation de cette
approche, puis nous l’expérimentons. Les premiers résultats démontrent l’intérêt
d’une telle approche en termes de capacité à traiter un grand nombre de sources
de données.
1 Introduction
Aujourd’hui, les techniques d’analyse et d’intégration de données sont devenues des atouts
majeurs pour les entreprises et les services gouvernementaux. En effet, ces techniques per-
mettent un gain de temps pour regrouper et croiser l’information distribuée. Dans le domaine
du développement durable, ces techniques sont notamment indispensables afin de rassembler et
d’analyser les pratiques agricoles et ainsi garantir la traçabilité des pratiques. Plus précisément
nos travaux se situent dans le cadre d’un projet 1 visant à mettre en place un système d’intégra-
tion pour interroger les sources de données agricoles distribuées. Le système doit être flexible
pour permettre l’arrivée de nouvelles sources de données afin de suivre le processus d’infor-
matisation du domaine agricole. En effet entre 2000 et 2003, le nombre d’exploitations ayant
un accès à Internet a triplé 2 . Il doit de plus permettre de traiter un grand nombre de sources
de données car le domaine est susceptible d’accueillir, en plus des services déconcentrés des
ministères, un grand nombre d’exploitations.
Dans cet article, nous nous plaçons dans le cadre d’un système de médiation suivant une
approche Local As View (LAV), où les vues sont décrites via des requêtes sur le schéma glo-
bal. Cette approche est connue pour être flexible car l’ajout et la suppression de sources de
1 Ce projet est réalisé en collaboration avec le Cemagref, http ://www.cemagref.fr/
2 http ://www.acta-informatique.fr/
- 77 - RNTI-E-6
Un index de jointure pour les entrepôts de données XML
Hadj Mahboubi, Kamel Aouiche, Jérôme Darmont
Résumé. Les entrepôts de données XML proposent une base intéressante pour
les applications décisionnelles qui exploitent des données hétérogènes et prove-
nant de sources multiples. Cependant, les performances des SGBD natifs XML
étant actuellement limitées, il est nécessaire de trouver des moyens de les opti-
miser. Dans cet article, nous proposons un nouvel index spécifiquement adapté à
l’architecture multidimensionnelle des entrepôts de données XML, qui élimine
le coût des jointures tout en préservant l’information contenue dans l’entrepôt
initial. Une étude théorique et des résultats expérimentaux démontrent l’effica-
cité de notre index, même lorsque les requêtes sont complexes.
1 Introduction
Les technologies entrant en compte dans les processus décisionnels, comme les entrepôts
de données (data warehouses), l’analyse multidimensionnelle en ligne (On-Line Analysis Pro-
cess ou OLAP) et la fouille de données (data mining), sont désormais très efficaces pour traiter
des données simples, numériques ou symboliques. Cependant, les données exploitées dans le
cadre des processus décisionnels sont de plus en plus complexes. L’avènement du Web et la
profusion de données multimédia ont en grande partie contribué à l’émergence de cette nou-
velle sorte de données. Dans ce contexte, le langage XML peut grandement aider à l’intégration
et à l’entreposage de ces données. C’est pourquoi nous nous intéressons aux travaux émergents
sur les entrepôts de données XML (Golfarelli et al., 2001; Pokorný, 2001; Wolfgang et al.,
2003; Baril et Bellahsène, 2003). Cependant, les requêtes décisionnelles exprimées en XML
sont généralement complexes du fait qu’elles impliquent de nombreuses jointures et agréga-
tions. Par ailleurs, les systèmes de gestion de bases de données (SGBD) natifs XML présentent
actuellement des performances médiocres quand les volumes de données sont importants ou
que les requêtes sont complexes. Il est donc crucial lors de la construction d’un entrepôt de
données XML de garantir la performance des requêtes XQuery qui l’exploiteront.
Plusieurs études traitent de l’indexation des données XML (Gupta et al.; Yeh et Gardarin,
2001; Chung et al., 2002). Ces index optimisent principalement des requêtes exprimées en
expressions de chemin. Or, dans le contexte des entrepôts de données XML, les requêtes sont
complexes et comportent plusieurs expressions de chemin. De plus, ces index opèrent sur un
seul document et ne prennent pas en compte d’éventuelles jointures, qui sont courantes dans les
requêtes décisionnelles. À notre connaissance, seul l’index Fabric (Cooper et al., 2001) permet
actuellement de gérer plusieurs documents XML. Cependant, cet index ne prend pas en compte
- 89 - RNTI-E-6
Le forage distribué des données : une méthode simple, rapide
et efficace
Mohamed Aounallah et Guy Mineau
Résumé. Dans cet article nous nous attaquons au problème du forage de très
grandes bases de données distribuées. Le résultat visé est un modèle qui soit et
prédictif et descriptif, appelé méta-classificateur. Pour ce faire, nous proposons
de miner à distance chaque base de données indépendamment. Puis, il s’agit
de regrouper les modèles produits (appelés classificateurs de base), sachant que
chaque forage produira un modèle prédictif et descriptif, représenté pour nos be-
soins par un ensemble de règles de classification. Afin de guider l’assemblage de
l’ensemble final de règles, qui sera l’union des ensembles individuels de règles,
un coefficient de confiance est attribué à chaque règle de chaque ensemble. Ce
coefficient, calculé par des moyens statistiques, représente la confiance que nous
pouvons avoir dans chaque règle en fonction de sa couverture et de son taux d’er-
reur face à sa capacité d’être appliquée correctement sur de nouvelles données.
Nous démontrons dans cet article que, grâce à ce coefficient de confiance, l’agré-
gation pure et simple de tous les classificateurs de base pour obtenir un agrégat
de règles produit un méta-classificateur rapide et efficace par rapport aux tech-
niques existantes.
1 Introduction
Ce papier traite du problème de forage de plusieurs bases de données gigantesques et géo-
graphiquement distribuées dans le but de produire un ensemble de règles de classification qui
expliquent les groupements de données observés. Le résultat de ce forage sera donc un méta-
classificateur aussi bien prédictif que descriptif. En d’autres termes, nous visons à produire un
modèle qui permet non seulement de prédire la classe de nouveaux objets, mais qui permet
aussi d’expliquer les choix de ses prédictions. Nous croyons que ce genre de modèles, basés
sur des règles de classification, devrait aussi être facile à comprendre par des humains, ce qui
est également l’un de nos objectifs. Il faut dire toutefois que nous nous plaçons dans le contexte
où il est impossible de rapatrier toutes ces bases dans un même site, et ce, soit à cause du temps
de téléchargement, soit à cause de l’impossibilité de traiter la base ainsi agrégée.
Dans la littérature, les techniques de forage distribué de données à la fois prédictives et des-
criptives sont malheureusement peu nombreuses. La plupart d’entre elles tentent de produire
- 95 - RNTI-E-6
Une approche distribuée pour l’extraction de connaissances :
Application à l’enrichissement de l’aspect factuel des BDG
Khaoula Mahmoudi*
Sami Faïz ** ***
1 Introduction
Le but d’un SIG est de fournir une aide à la décision dans des domaines divers. Souvent,
il sert à produire des cartes répondant à un besoin spécifique. Il peut être utilisé pour associer
une densité de population à chaque région sur une carte, la représentation de la présence de
consommateurs potentiels d'un produit ou d'un service dans une région, etc. Les données sont
dans tous les cas restreintes à l’application en cours et parfois on a besoin d’avoir des
informations au-delà de ce qui est stocké dans la BDG. A titre d’exemple, une BDG créée
pour une application de découpage administratif ne permet pas de fournir une réponse à une
requête faisant intervenir des informations d’ordre économique, historique, etc. D’où, l’idée
d’offrir des sources complémentaires d’informations sans nuire aux données préalablement
fournies (Faïz et Mahmoudi, 2005). Pour atteindre cet objectif, nous avons bâti une approche
pour la génération automatique de résumés de documents multiples pour fournir les
informations complémentaires relatives aux entités géographiques manipulées par le SIG.
Cette approche est basée sur trois types d’agents coopérant afin d’aboutir à un résumé
optimal. Il s’agit d’un agent interface, des agents entité (géographiques) et des agents tâche.
La communication entre ces agents est assurée par l’envoi de messages. L’approche est
- 107 - RNTI-E-6
Modèle conceptuel pour bases de données
multidimensionnelles annotées
Guillaume Cabanac*, Max Chevalier*, **, Franck Ravat*, Olivier Teste*
1 Contexte et problématique
Les systèmes d'aide à la décision visent à transformer les données opérationnelles en in-
formations facilement interprétables par les décideurs afin que ces derniers puissent effectuer
des analyses complexes et prendre les meilleures décisions en temps utiles pour assurer la
compétitivité et la pérennité de l'organisation considérée. Dans un tel contexte, plus que le
patrimoine matériel, le patrimoine immatériel est important pour capitaliser un maximum
d'informations, de connaissances et d'expertises afin de prendre les décisions adaptées. Nos
travaux visent à proposer aux organisations plus qu'un système d'aide à la décision, un véri-
table outil de Mémoire d'Expertises Décisionnelles (MED).
- 119 - RNTI-E-6
Comparaison de deux modes de représentation de données
faiblement structurées en sciences du vivant
∗
INRA, UMR IATE, 2 place Viala, 34060 Montpellier cedex 1
{rallou, mabille, nongyao}@ensam.inra.fr
∗∗
INRA, UMR Mét@risk, 16 rue Claude Bernard, 75231 Paris cedex 5
Patrice.Buche@inapg.fr
∗∗∗
GRIMM-ISYCOM, Univ. Toulouse le Mirail, Dépt. Mathématiques-Informatique
5 allées Antonio Machado, 31058 Toulouse cedex
Ollivier.Haemmerle@univ-tlse2.fr
1 Introduction
L’étude de la représentation de données faiblement structurées (ou semi-structurées) a
connu une explosion récente avec l’émergence de l’internet et la popularité du standard XML.
Abiteboul (1997) recense les principaux aspects pouvant caractériser ces données : une struc-
ture irrégulière, implicite ou partielle ; un schéma qui se veut indicatif plutôt qu’impératif,
souvent construit a posteriori, de grande taille, évoluant rapidement ; des types de données
éclectiques et une difficulté à établir la distinction entre schéma et données.
De telles données sont courantes dans les sciences du vivant, où l’on trouve également
d’autres “verrous” liés à la complexité des phénomènes étudiés (Keet, 2003) : des données dont
la précision est limitée par les techniques de mesure, des données variables, non répétables,
voire contradictoires, des paramètres nombreux et imbriqués, des données ne pouvant couvrir
tous les cas d’expérimentation possibles. C’est notamment en génomique que les bases de
données biologiques ont été le plus tôt et le plus abondamment étudiées (Cherry et al., 1998).
On trouve cependant des bases de données dans de nombreux autres domaines (environnement,
botanique, etc.) (Keet, 2004), avec des modèles de représentation différents fondés notamment
sur le modèle relationnel (Bukhman et Skolnick, 2001), le modèle objet (Raguenaud et al.,
2002) ou les graphes (Zhong et al., 1999).
- 125 - RNTI-E-6
Reconnaissance automatique d’évènements survenant sur pa-
tients en réanimation à l’aide d’une méthode adaptative
d’extraction en ligne d’épisodes temporels
Sylvie Charbonnier*
1 Introduction
Les patients hospitalisés en unités de réanimation sont soumis à une surveillance étroite
de la part du personnel soignant. Un grand nombre de variables physiologiques sont enregis-
trées en ligne à des fréquences élevées (une mesure par seconde) sur ces patients. Ces enre-
gistrements produisent des flots de données temporelles importants, que le personnel soi-
gnant doit analyser à chaque visite au patient. Les services de réanimation sont en demande
d’outils d’aide à l’interprétation de ce flot de données, afin de limiter la charge cognitive que
leur interprétation représente (Calvelo et al., 99, Lowe et al., 01, Hunter and McIntosh, 99).
Afin d’aider le médecin dans sa tâche d’analyse des données, nous avons développé une
méthode d’extraction en ligne d’épisodes temporels permettant de transformer une série
temporelle univariée en une succession d’intervalles décrivant l’évolution de la variable.
L’information fournie par la méthode est de la forme suivante : « la variable est stable de-
puis l’instant t1 jusqu’à l’instant t2, à la valeur v1. Elle est croissante de l’instant t2 à
l’instant t3 de la valeur v1 à la valeur v2 … ». L’information fournie sur la tendance du
signal {stable, croissant, décroissant} correspond au vocabulaire utilisé par les médecins
pour décrire l’évolution d’un e physiologique. La méthode d’extraction d’épisodes se règle à
partir de 3 paramètres de réglages dont les valeurs dépendent des variables physiologiques
traitées, mais sont indépendants du patient ou de l’enregistrement, l’hypothèse sous-jacente
étant que le bruit s’ajoutant sur une variable biologique ne dépend pas du patient mais de la
variable monitorée. Or, dans la pratique, cette hypothèse n’est pas toujours vérifiée. La va-
riance des variables monitorés peut changer, suivant l’état physiologique du patient ou le
contexte des soins. Par exemple, la variance des variables respiratoires (ex: la fréquence
respiratoire) sera très différente suivant que le patient est en ventilation spontané ou en mode
- 137 - RNTI-E-6
Une approche multi-agent adaptative pour la simulation de
schémas tactiques
Aydano Machado*, Yann Chevaleyre**, Jean-Daniel Zucker*
1 Introduction
Dans le domaine des sports en équipe, de plus en plus d’entraîneurs font appel à des ou-
tils informatiques durant leur activité pédagogique, en particulier de logiciels de simulation
afin d’enseigner aux joueurs à améliorer leur tactique. Jusqu’à présent, ces logiciels qui per-
mettaient essentiellement à l’entraîneur de faire se déplacer sur un écran des agents joueurs,
nécessitaient de sa part de spécifier quasiment trame par trame la position des agents. Par
voie de fait, un entraîneur souhaitant montrer le déploiement d’un schéma tactique particulier
doit effectuer un important travail avant que la simulation puisse être lancée.
Dès lors, rendre les agents plus autonomes, améliorer le réalisme de leur comportement et
leur capacité de prendre des décision allégerait le travail de l’entraîneur, et lui permettrait de
n’avoir qu’à spécifier des schémas tactiques relativement abstrait pour voir comment des
agents joueurs déploieraient ce schéma « intelligemment » sur le terrain.
Notre objectif est donc d’utiliser diverses techniques d’intelligence artificielle pour amé-
liorer l’autonomie des agents devant déployer un schéma spécifié par l’entraîneur. Cette
tâche peut être considéré comme un sous-ensemble du problème de la simulation sportive
- 143 - RNTI-E-6
Gestion de connaissances :
Compétences et ressources pédagogiques
∗
HEC - Montréal
Montréal (Québec) Canada H3T 2A7
{olivier.gerbe,thierno-mountaga.diarra,jacques.raynauld}@hec.ca
1 Introduction
Poussés par la demande des étudiants branchés, un grand nombre d’universités et d’éta-
blissements scolaires se sont lancés dans le design, le développement et l’utilisation des tech-
nologies de l’information et de la communication pour créer, partager et diffuser leur matériel
pédagogique.
Le but de notre de recherche est de favoriser l’accès aux ressources pédagogiques afin de
promouvoir la formation continue et la diffusion des derniers résultats de recherche. Plus pré-
cisément, nous voulons développer un système de classification et d’organisation qui permettra
de donner accès aux ressources pédagogiques créées par les professeurs suivant les besoins des
utilisateurs. Cet accès pourra se faire :
– suivant la structure d’enseignement (plan de cours) ; ce sera le chemin d’accès privilégié
des étudiants inscrits dans une université ;
– suivant des ontologies de domaines ou par mots-clés ; ce sera le chemin d’accès privilé-
gié du grand public qui recherche des documents sur un sujet ou un thème donné
– suivant les compétences que permettent de développer la lecture des documents ; ce sera
le chemin privilégié des personnes qui veulent parfaire leur formation ou acquérir de
nouvelles compétences.
- 149 - RNTI-E-6
Gestion de connaissances: Compétences et ressources pédagogiques
Activité Niveau
nécessite
a pour degré
dévelope
Expertise
exige a pour sujet utilise catégorise
Habileté TypeHabileté
Compétence
RessourcePédagogique
concerne catégorise
Connaissance TypeConnaissance
utilisée dans utilisée dans
appartient
Références
Bloom B. (1956). Taxonomy of Educational Objectives : The Classification of Educational
Goals, by a committee of college and university examiners. Handbook I : Cognitive Domain.
New York : Longmans, Green.
Paquette G. (2002). Modélisation des connaissances et des compétences : un langage gra-
phique pour concevoir et apprendre. Québec : Presses de l’université du Québec.
Summary
The aim of our of research is to give access to teaching resources according to users needs
and according to competences they want to acquire. We present here a model of competences
and resources on which our future system will be based.
RNTI-E-6 - 150 -
Alignement extensionnel et asymétrique de hiérarchies
conceptuelles par découverte d’implications entre concepts
Jérôme David∗ , Fabrice Guillet∗
Régis Gras∗ , Henri Briand∗
∗
LINA CNRS FRE 2729 - Equipe COD
Ecole Polytechnique de l’Université de Nantes
rue Christian Pauc, 44306 NANTES Cedex 3, France
jerome.david,fabrice.guillet,henri.briand@polytech.univ-nantes.fr,
http://www.sciences.univ-nantes.fr/lina/fr/research/teams/EDC/index.html
1 Introduction
Les ontologies ont été créées dans le but de conceptualiser et partager des connaissances
de manière structurée (Gruber, 1993). Leur usage en gestion des connaissances s’amplifie avec
l’essor du Web sémantique. En effet, les ontologies ont la vertu de se traduire sous des formes
très variées depuis de simples taxonomies comme les systèmes catégories (Yahoo, OpenDi-
rectory), en passant par des systèmes de métadonnées interopérables (Dublin Core Metadata
initiative) et allant jusqu’aux ontologies lourdes décrivant de véritables théories logiques. No-
tamment, on trouve des ontologies différentes portant sur le même domaine. Il s’avère donc
nécessaire de disposer de techniques pour relier ces ontologies. Dans cette optique, l’aligne-
ment vise à trouver des relations entre deux ontologies (entre les classes, les relations, les
propriétés...).
- 151 - RNTI-E-6
Une mesure de proximité et une méthode de regroupement
pour l’aide à l’acquisition d’ontologies spécialisées
Guillaume Cleuziou⁄ , Sylvie Billot⁄ , Stanislas Lew⁄ ,
Lionel Martin⁄ , Christel Vrain⁄
⁄
Laboratoire d’Informatique Fondamentale d’Orléans (LIFO)
Université d’Orléans
Rue Léonard de Vinci - 45067 ORLEANS Cedex 2
prénom.nom@univ-orleans.fr
Résumé. Cet article traite du regroupement d’unités textuelles dans une pers-
pective d’aide à l’élaboration d’ontologies spécialisées. Le travail présenté s’ins-
crit dans le cadre du projet B IOTIM. Nous nous concentrons ici sur l’une des
étapes de construction semi-automatique d’une ontologie qui consiste à struc-
turer un ensemble d’unités textuelles caractéristiques en classes susceptibles de
représenter les concepts du domaine. L’approche que nous proposons s’appuie
sur la définition d’une nouvelle mesure non-symétrique permettant d’évaluer la
proximité entre lemmes, en utilisant leurs contextes d’apparition dans les do-
cuments. En complément de cette mesure, nous présentons un algorithme de
classification non-supervisée adapté à la problématique et aux données traitées.
Les premières expérimentations présentées sur les données botaniques laissent
percevoir des résultats pertinents pouvant être utilisés pour assister l’expert dans
la détermination et la structuration des concepts du domaine.
1 Introduction
L’exploitation de données textuelles issues de fonds scientifiques est un objectif de re-
cherche ambitieux dans le domaine de la gestion et de l’acquisition des connaissances. Une
des premières étapes pour la mise en place d’un système d’information est la construction
d’une ontologie du domaine. Dans cette étude, nous abordons le problème de construction
d’une ontologie spécialisée avec une approche mixte (ou semi-automatique). Pour cela, nous
nous intéressons à l’étape d’extraction automatique de classes terminologiques susceptibles
d’être ensuite validées comme concepts puis structurées par un expert du domaine, l’embryon
d’ontologie résultant devant par la suite être enrichi automatiquement.
La tâche de regroupement de mots peut être envisagée de différentes manières (selon l’ap-
plication visée, les connaissances disponibles sur le domaine ou les traitements possibles).
Les études proposées dans ce domaine s’intéressent généralement à l’une des deux étapes sui-
vantes : la définition d’une mesure de proximité entre mots et/ou la proposition d’une méthode
de regroupement efficace.
Il existe de nombreuses mesures destinées à évaluer la proximité sémantique entre des
mots. On peut classer ces mesures en trois grandes catégories : statistiques, syntaxiques ou
- 163 - RNTI-E-6
Web sémantique pour la mémoire d'expériences d'une
communauté scientifique : le projet MEAT
Khaled Khelif*, Rose Dieng-Kuntz*, Pascal Barbry**
1 Introduction
De plus en plus de connaissances scientifiques sont accessibles soit grâce à des docu-
ments publiés sur le web, soit dans des bases de données. Certaines de ces connaissances
reposent sur des interprétations humaines de résultats d’expériences. Ces connaissances sont,
entre autres, indispensables pour la vérification, la validation ou l’enrichissement du travail
des chercheurs du domaine considéré. Mais la quantité énorme de données provenant de
sources internes ou externes aux organisations rend très difficile la détection, le stockage et
l’exploitation de ces connaissances. Ceci est le cas de la recherche dans le domaine de la
biologie moléculaire et plus particulièrement dans le domaine des puces à ADN.
Les biologistes travaillant dans ce domaine manipulent de grandes quantités de données
dans différentes conditions expérimentales et doivent se référer à des milliers de publications
scientifiques liées à leurs expériences. Ces biologistes ont donc sollicité un support méthodo-
logique et logiciel qui les aiderait dans la validation et/ou l’interprétation de leurs résultats et
qui leur faciliterait la planification de nouvelle expérimentation.
C’est dans ce contexte que le projet MEAT a été proposé en fournissant des solutions
permettant de remédier à ces problèmes.
Après la présentation du contexte général et de la problématique de ce travail, nous dé-
taillons notre approche adoptée pour MEAT (Khelif et al, 2005) ainsi que les différentes
- 175 - RNTI-E-6
Interrogation et Vérification de documents OWL
dans le modèle des Graphes Conceptuels
Thomas Raimbault∗ , Henri Briand∗∗ , Rémi Lehn∗∗ , Stéphane Loiseau ∗
∗
LERIA, Université d’Angers, 2 bd Lavoisier 49045 ANGERS Cedex 01
{thomas.raimbault, stephane.loiseau}@info.univ-angers.fr
∗∗
LINA, École Polytechnique de Nantes, rue C. Pauc BP 50609 44306 Nantes Cedex 3
{henri.briand, remi.lehn}@polytech.univ-nantes.fr
Résumé. OWL est un langage pour la description d’ontologies sur le Web. Ce-
pendant, en tant que langage, OWL ne fournit aucun moyen pour interpréter les
ontologies qu’il décrit, et étant orienté machine, il reste difficilement compré-
hensible par l’humain. On propose une approche de visualisation, d’interroga-
tion et de vérification de documents OWL, regroupées dans un unique environ-
nement graphique : le modèle des graphes conceptuels.
1 Introduction
OWL (W3C, 2004) - Ontology Web Language - est un langage pour décrire des ontologies
et les diffuser sur le Web. Il est important de noter que d’une part, OWL est un langage et
qu’à ce titre il ne fournit aucun moyen pour interroger ou vérifier ses documents, et d’autre
part étant orienté machine, il reste difficilement compréhensible par l’humain. Des outils ont
donc été créés pour répondre à ces exigences. Cependant, ces outils traitent soit séparément
l’un de ces besoins (HP, 2000; WonderWeb, 2002), soit les traitent de façon globale (Protégé,
2004; Haarslev et Müller, 2001) mais avec des interrogations prédéfinies et un ensemble figé
de vérifications.
Dans cet article, notre approche est de regrouper dans un unique environnement, adaptable
par l’utilisateur, à la fois la représentation de documents OWL, ainsi que des outils de raison-
nement sur ces documents. Pour se faire, nous avons choisi comme base de travail le modèle
des graphes conceptuels (GCs). Ce modèle, introduit par (Sowa, 1984), est un modèle formel
et visuel de représentation des connaissances muni d’une sémantique logique. Nous utilisons
dans cet article le modèle issu de (Mugnier et Chein, 1996) et étendu aux GCs emboîtés (Chein
et Mugnier) avec règles (Salvat, 1998) et contraintes (Baget et Mugnier, 2002).
Notre travail fournit deux contributions fondamentales. La première est de coder les diffé-
rentes notations qui décrivent - c’est-à-dire le métamodèle - un sous-langage OWL dans un sup-
port du modèle des GCs, noté supportOW L (Section 2). Ainsi, nous proposons une traduction
générique - et donc automatisable - d’un document OWL en un GC, défini sur ce supportOW L ,
qui lui est sémantiquement équivalent et que nous appelons GC-document OWL (Section 3).
La seconde contribution (Section 4) est une méthode, utilisant les opérateurs qu’offre le mo-
dèle des GCs, pour interroger un document OWL ou pour en vérifier la validité au travers de
spécifications orientées ontologie.
- 187 - RNTI-E-6
Une nouvelle mesure sémantique pour le calcul de la
similarité entre deux concepts d’une même ontologie
Emmanuel Blanchard, Mounira Harzallah
Pascale Kuntz, Henri Briand
1 Introduction
Associées notamment au succès des nouveaux langages du Web sémantique, les ontolo-
gies suscitent un intérêt croissant au sein des communautés de l’ingénierie et de la gestion
des connaissances (Gruber, 1993; Fürst, 2004). Cependant, malgré le développement d’outils
d’aide à leur manipulation, le développement et l’exploitation des ontologies restent des phases
complexes dans un processus global de gestion de connaissances. En amont, une des difficultés
majeures concerne la structuration des ensembles de concepts dont la taille ne cesse de croître.
Et en aval, le problème consiste à rechercher efficacement des sous-ensembles de concepts à
la fois en temps de calcul et en pertinence sémantique des résultats.
Pour faciliter ces tâches, le recours à des mesures sémantiques semble judicieux ; il permet
de constituer une « connaissance heuristique » directement exploitable. De façon générale, une
mesure sémantique est une application de l’ensemble C×C des paires de concepts d’une ontolo-
gie dans IR+ qui permet d’évaluer quantitativement la proximité ou l’éloignement sémantique
de deux concepts. Quelque soit le domaine applicatif, la pertinence de la mesure utilisée est
étroitement associée à l’efficacité des algorithmes qui l’intègrent. Cependant, son choix reste
un problème délicat. Pour comparer les mesures existantes, plusieurs approches complémen-
taires sont envisageables (Budanitsky, 1999). L’analyse formelle vise à étudier précisément
leurs propriétés à la fois algorithmiques et statistiques. La comparaison avec le jugement hu-
main analyse la corrélation entre les valeurs des mesures et les évaluations subjectives de sujets
- 193 - RNTI-E-6
Classification des comptes-rendus mammographiques à partir
d’une ontologie radiologique en OWL
Amel Boustil*, Sahnoun Zaidi **,
Ziad Mansouri *, Christine Golbreich***
1 Introduction
Les comptes-rendus de mammographies écrits en texte libre sont difficiles à interpréter et
à analyser par un programme machine. La difficulté est liée à la nature informelle de ces
comptes-rendus. Trouver un processus qui permet de structurer les comptes-rendus et donner
une représentation formelle de leur contenu est une tâche difficile vue la complexité du lan-
gage naturel et des connaissances médicales (Zweigenbaum, 1994).
L’objectif principal de cet article est de montrer une utilisation possible dans le domaine
médical des ontologies formelles en OWL, le langage standard d’ontologie du Web (OWL,
2004). Ce travail vise à fournir un outil d’aide à l’interprétation des comptes-rendus médi-
caux mammographiques et à leur classification. Il a consisté d’abord à concevoir et réaliser
une ontologie regroupant tous les concepts du domaine : concepts radiologiques, concepts
pathologiques, et différentes classes ACR. Les classes ont été définies à partir de la classifi-
cation dite ACR (ACR, 2000) et ont été représentées dans le langage OWL DL en utilisant
l’éditeur Protégé et son plugin OWL (Holger, 2004). Notre système a pour tâche, d’extraire
les faits correspondant au contenu des comptes-rendus de mammographies, puis, d’inférer la
classe pathologique correspondante selon la classification ACR en utilisant le raisonnement
par subsumption, et d’en déduire la conduite à tenir.
- 199 - RNTI-E-6
Choix du taux d’élagage pour l’extraction de la terminologie.
Une approche fondée sur les courbes ROC
Mathieu Roche∗ , Yves Kodratoff∗∗
∗
LIRMM - UMR 5506, Université Montpellier 2,
34392 Montpellier Cedex 5 - France
mathieu.roche@lirmm.fr
∗∗
LRI - UMR 8623, Université Paris-Sud,
91405 Orsay Cedex - France
yk@lri.fr
Résumé. Le choix du taux d’élagage est crucial dans le but d’acquérir une ter-
minologie de qualité à partir de corpus de spécialité. Cet article présente une
étude expérimentale consistant à déterminer le taux d’élagage le plus adapté.
Plusieurs mesures d’évaluation peuvent être utilisées pour déterminer ce taux
tels que la précision, le rappel et le Fscore . Cette étude s’appuie sur une autre
mesure d’évaluation qui semble particulièrement bien adaptée pour l’extraction
de la terminologie : les courbes ROC (Receiver Operating Characteristics).
1 Introduction
Cet article présente une étude expérimentale consistant à évaluer le taux d’élagage le plus
adapté pour l’extraction de la terminologie. Nous allons décrire ci-dessous notre méthode glo-
bale d’extraction de la terminologie et rigoureusement définir l’élagage.
La première phase de notre travail d’extraction de la terminologie à partir de corpus spé-
cialisés consiste à normaliser les textes en utilisant des règles de nettoyage décrites par Roche
(2004). Les corpus que nous utilisons sont décrits dans la section 3 de cet article. L’étape sui-
vante consiste à apposer des étiquettes grammaticales à chacun des mots du corpus en utilisant
l’étiqueteur E TIQ développé par Amrani et al. (2004). E TIQ est un système interactif s’ap-
puyant sur l’étiqueteur de Brill (1994) qui améliore la qualité de l’étiquetage de corpus spé-
cialisés. Nous pouvons alors extraire l’ensemble des collocations Nom-Nom, Adjectif-Nom,
Nom-Adjectif1 , Nom-Préposition-Nom d’un corpus spécialisé. L’étape suivante consiste à sé-
lectionner les collocations les plus pertinentes selon des mesures statistiques décrites par Roche
et al. (2004c); Roche (2004). Les collocations sont des groupes de mots définis par Halliday
(1976); Smadja (1993). Nous appelons termes, les collocations pertinentes.
Les termes binaires (ou ternaires pour les termes prépositionnels) extraits à chaque itération
sont réintroduits dans le corpus avec des traits d’union afin qu’ils soient reconnus comme
des mots à part entière. Nous pouvons ainsi effectuer une nouvelle recherche terminologique
à partir du corpus avec prise en compte de la terminologie du domaine acquise aux étapes
précédentes. Notre méthode itérative, proche des travaux de Evans et Zhai (1996), est décrite
1 Corpus en français uniquement
- 205 - RNTI-E-6
Fast-MGB : Nouvelle Base Générique Minimale de Règles
Associatives
Chiraz Latiri∗ , Lamia Ben Ghezaiel∗∗
Pr. Mohamed Ben Ahmed∗∗
∗
Faculté des Sciences de Tunis
Département Informatique
Unité de recherche URPAH
Campus Universitaire El Manar, Tunis
Tunisie
chiraz.latiri@gnet.tn
∗∗
Ecole Nationale des Sciences de l’Informatique
Laboratoire RIADI-GDL
Campus Universitaire La Manouba, Tunis
Tunsisie
lamia.benghezaiel@riadi.rnu.tn
mohamed.benahmed@riadi.rnu.tn
1 Introduction
Dans le cadre de ce travail, nous nous intéressons au problème d’extraction de règles asso-
ciatives, initialement introduit par Agrawal et al. Agrawal et al. (1993). Plusieurs travaux basés
sur l’analyse formelle des concepts (AFC) Ganter et Wille (1999), proposent des approches
de sélection de règles associatives qui véhiculent le maximum de connaissances utiles. Ces
approches reposent généralement sur l’extraction d’un sous-ensemble générique de toutes les
règles associatives, appelé base générique, tout en satisfaisant certaines caractéristiques ju-
geant de sa qualité, mais qui dans la plupart des cas ne sont pas satisfaites dans leurs totalités
Kryszkiewicz (2002).
Dans cet article, nous introduisons une nouvelle approche de génération d’une base mini-
male et générique (MGB) de règles associatives. L’originalité de cette approche est qu’elle est
autonome : elle commence directement à partir du contexte d’extraction pour dériver une base
générique minimale de règles associatives FAST-M GB.
- 217 - RNTI-E-6
Extraction et identification d’entités complexes à partir de
textes biomédicaux
Julien Lorec∗,∗∗ , Gérard Ramstein∗∗ , Yannick Jacques∗
∗
INSERM U601, Département de Cancérologie, Équipe 3: cytokines et récepteurs
{julien.lorec,yjacques}@nantes.inserm.fr
∗∗
LINA, Équipe C.O.D, École polytechnique de l’université de Nantes
gerard.ramstein@polytech.univ-nantes.fr
1 Introduction
A cette date, de nombreuses méthodes d’étiquettage d’entités biologiques pour les corpus
de spécialité ont été proposées ; quelles soient à base de règles (Fukuda et al. (1998)) ou en-
core réposant sur des techniques d’apprentissage (Collier et al. (2000)). Néanmoins, la simple
détection de la présence d’une entité nommée dans un texte ne suffit pas pour l’identifier et l’as-
socier à une instance d’entité biologique particulière. Le couplage des méthodes d’extraction
des entités nommées avec l’utilisation de dictionnaires semble être une solution particulière-
ment adaptée à ce type de problématique (Koike et al. (2003)). De plus, la majorité de ces
techniques d’extraction d’entités nommées ont été développées dans le but de ne détecter que
quelques types particuliers et spécifiques d’objets biologiques, notamment les gènes et les pro-
téines, et ne peuvent être facilement adaptés à d’autres contextes.
Il existe trois principales difficultés à prendre en compte lors d’une recherche à base de dic-
tionnaire :
– la présence de termes synonymes et la résolution des différentes abréviations et acro-
nymes,
– la variabilité des mots tant au niveau de l’orthographe que de la morphologie et de la syn-
taxe mais aussi d’un point de vue lexico-sémantique, de la présence d’insertions/déletions
et permutations,
- 223 - RNTI-E-6
Reconnaissance automatique de concepts à partir d’une
ontologie
Valentina Ceausu, Sylvie Desprès
Résumé Ce papier présente une approche qui s’appuie sur une ontologie pour
reconnaître automatiquement des concepts spécifiques à un domaine dans un
corpus en langue naturelle. La solution proposée est non-supervisée et peut
s’appliquer à tout domaine pour lequel une ontologie a été déjà construite. Un
corpus du domaine est utilisé dans lequel les concepts seront reconnus. Dans
une première phase, des connaissances sont extraites de ce corpus en faisant
appel à des fouilles de textes. Une ontologie du domaine est utilisée pour éti-
queter ces connaissance. Le papier donne un aperçu des techniques de fouilles
employées et décrit le processus d ‘étiquetage. Les résultats d‘une première
expérimentation dans le domaine de l’accidentologie sont aussi présentés.
1 Introduction
L’important volume de documents disponibles en langue naturelle et leur évolution ra-
pide font émerger la nécessité de définir des approches permettant de retrouver rapidement
des informations pertinentes dans ces documents.
Ce papier présente une approche qui utilise une ontologie de domaine pour identifier au-
tomatiquement des concepts du domaine dans un corpus en langue naturelle. Cette identifica-
tion de concepts peut servir dans différents contextes : annotation des documents, indexation
d’une collection de documents, etc. L’approche proposée est complètement automatique et
non-supervisée, mise à part l’utilisation d’une ontologie de domaine. Etant donnés une onto-
logie O et un corpus C, le but est de retrouver dans C des termes w qui sont l’expression
linguistique des concepts de l’ontologie O. On peut ainsi étiqueter les termes retrouvés dans
le corpus par des concepts de l’ontologie. Cet étiquetage est réalisé en trois étapes : (1) une
première étape emploie des techniques de fouille de textes pour identifier des termes du
domaine dans le corpus; (2) pour chaque terme w retrouvé, le voisinage sémantique V(w) est
identifié ; (3) en supposant que les relations dans le voisinage du terme w soient déjà dans
l’ontologie, le positionnement des relations dans l’ontologie et des mesures statistiques sont
utilisés pour étiqueter le terme w.
- 229 - RNTI-E-6
Multi-catégorisation de textes juridiques et retour de
pertinence
Vincent Pisetta, Hakim Hacid, Djamel A. Zighed
vpisetta@etu.univ-lyon2.fr,
hhacid@eric-univ.lyon2.fr,
zighed@univ-lyon2.fr
1 Introduction
Le cadre général de l’apprentissage automatique part d’un fichier d’apprentissage
comportant n lignes et p colonnes. Les lignes représentent les individus et les colonnes les
attributs, quantitatifs ou qualitatifs observés pour chaque individu ligne. Dans ce contexte, on
suppose également que l’échantillon d’apprentissage est relativement conséquent par rapport
au nombre d’attributs. Généralement la taille de l’échantillon est de l’ordre de 10 fois le
nombre de variables pour espérer obtenir une certaine stabilité, c'est-à-dire une erreur en
généralisation qui n’est pas trop loin de l’erreur en apprentissage. De plus, l’attribut à prédire
est supposé à valeur unique. C’est une variable à valeurs réelles dans le cas de la régression
et c’est une variable à modalités discrètes, appelées classes d’appartenance, dans le cas du
classement. Ces questions relatives aux rapports entre taille d’échantillon et taille de l’espace
des variables sont étudiées de façon très approfondies dans les publications relatives à
l’apprentissage statistique (Vapnik, 1995). Dans ce papier nous décrivons une situation
d’apprentissage qui s’écarte significativement du cadre classique tel que décrit plus haut. En
effet, le contexte expérimental ne nous permet pas de disposer immédiatement d’un
ensemble d’apprentissage conséquent, chaque individu peut appartenir à plusieurs classes
simultanément, et chaque individu, au lieu d’être décrit par un ensemble attributs-valeurs,
l’est par un texte en langage naturel en anglais.
- 235 - RNTI-E-6
Combinaison de l’approche inductive (progressive)
et linguistique pour l’étiquetage morphosyntaxique des
corpus de spécialité
Ahmed Amrani*,**, Yves Kodratoff**
*ESIEA Recherche, Pôle ECD, 11 rue Baudin, 74200 Ivry sur Seine, France
amrani@esiea.fr
**LRI, UMR CNRS 8623, Bât. 490, Université de Paris-Sud 11, 91405 Orsay, France
yk@lri.fr
1 Introduction
Dans le cadre d’un processus complet de fouille de textes (Kodratoff et al., 2003, Amrani
et al., 2004a), nous nous sommes intéressés à l’étiquetage morphosyntaxique des corpus de
spécialité. L’étiquetage morphosyntaxique consiste à affecter à chaque mot dans la phrase
son étiquette morphosyntaxique, en prenant en considération le contexte et la morphologie de
ce mot. L’étiquette morphosyntaxique est composée de la catégorie syntaxique du mot (nom
commun, nom propre, adjectif, etc.) et souvent comporte des informations morphologiques
(genre, nombre, personne, etc.). Les outils informatiques nécessaires à l’opération
d’étiquetage sont appelés « étiqueteurs ».
Un problème se pose lorsque les étiquettes des mots sont ambiguës. Par exemple, le mot
functions peut être un nom au pluriel (‘biological functions are…’) ou bien un verbe au sin-
gulier (‘this gene functions as…’). Le problème à résoudre est celui de trouver l’étiquette
correcte selon le contexte. La correction de ces ambiguïtés est une étape importante pour
obtenir un corpus de spécialité « parfaitement » étiqueté. Pour lever ces ambiguïtés et donc
diminuer le nombre de fautes d’étiquetage, nous proposons une approche interactive et itéra-
tive appelée Induction Progressive. Cette approche est une combinaison d’apprentissage
automatique, de règles rédigées par l’expert et de corrections manuelles. L’induction pro-
- 247 - RNTI-E-6
!"## $
& % ' & ( &
% )*++,,,& & ( &
-. /(0 1 2 / / 0 3 !/"!# - 4#
& ' %( & () /&
% )*++,,,& %( & () /& + )/+
5 ) 2 4 4 2 6 &
4 ) 7 4 ) ) &
8 2 ) 4 )
7 0 9 0 : 8 2% )
2% ;)&- ) ) 2(
% 2 & 7 ) % 4 &
)2 2 2 4)2 2
4 2 )2 2 &
4 4 6 )2 4 & -
2 ) ) 4 ) ) ) 2)
) % % ) 4 )2 4 &
)2 ) 4 <=>?>@& 2 0
) 7 ) 6 )2 2 & 6 4
)2 & 7 )2 ( 2
) & -% A )) B 4 &
- $ C <=>> @ 2 (7 (
3 & 2 2 <"##=@ 2 2 2 &
)3 D 2) 2 7 4 & % &
<"##=@ ) ) ) 2 4 2 )2 (
& 3 6 )2 E) < @&
F <"###@ ) 2 4 ) 2 *
7 E )% : 2
)) &
4 ) 2% 2 7 (
7 . G H I <"## @& 9 F 0E <"## @ ) (
G 6 )2 <) 2 4 4 :@
) :
- ) % 2 & 0 C, (0
<"##"@ ) 2 % 4 7 )% & - 7 )% 6)
- 259 - RNTI-E-6
Extraction multilingue de termes
à partir de leur structure morphologique
Delphine Bernhard∗
∗
TIMC-IMAG
Institut de l’IngØnierie et de l’Information de SantØ
FacultØ de MØdecine
F-38706 LA TRONCHE cedex
Delphine.Bernhard@imag.fr
http://www-timc.imag.fr/Delphine.Bernhard
Les mØthodes d’extraction automatique de termes utilisent couramment des patrons dØ-
crivant la structure des termes (Ibekwe-Sanjuan et Sanjuan, 2004; Enguehard, 1992; Vergne,
2005). Dans les domaines scienti ques ou techniques comme la mØdecine (Namer, 2005), de
nombreux termes appartiennent au vocabulaire savant et sont construits partir de formants
classiques grecs ou latins situØs en dØbut (extra-, anti-) ou en n de mot (-graphe, -logie).
La mØthode que nous proposons utilise la structure morphologique des termes en vue de leur
extraction et de leur regroupement1 .
Le systŁme extrait tout d’abord les mots du corpus puis identi e les formants l’aide de
l’expression rØguliŁre suivante : ([aio]-) ?(\w{3,}[aio])-. MŒme si cette expression rØguliŁre est
limitØe aux formants se terminant par a, i ou o, elle n’est pas uniquement valable pour le fran-
ais. On trouvera, par exemple, "chimio-hormonothØrapie" en fran ais, "chemo-radiotherapy"
en anglais ou "Chemo-radiotherapie" en allemand.
Une fois les formants identi Øs, les termes sont repØrØs l’aide d’un patron qui dØcrit
leur structure morphologique : F+M oø F est un formant et M un mot du corpus de longueur
supØrieure 3. Le caractŁre + indique la succession possible de plusieurs formants en dØbut
de terme. Lorsque ce patron s’applique un des mots du corpus, deux termes sont reconnus :
le terme de structure F+M et le terme de structure M. Ainsi, partir du mot "radiothØrapie"
qui contient le formant "radio", on extrait les termes "radiothØrapie" et "thØrapie".
A n de faciliter l’analyse des termes extraits, des familles de termes sont formØes en re-
groupant les termes contenant le mŒme mot M. Le mot M est appelØ reprØsentant de la famille.
De plus, deux familles sont rØunies si leurs reprØsentants ont une cha ne initiale commune de
longueur supØrieure ou Øgale 4 et si l’on retrouve le mŒme formant dans un terme de chaque
famille. Le reprØsentant nal de chaque famille est le terme le plus frØquent.
Les rØsultats de l’extraction terminologique sont prØsentØs sous forme de liste pondØrØe
au format HTML (voir gure 1). Ce type de liste se caractØrise par l’utilisation d’un code de
couleur et d’une taille de police dØpendant de la frØquence d’occurrence d’un terme (VØronis,
2005). Seuls les termes reprØsentants de chaque famille sont af chØs et le poids d’une famille
dans la reprØsentation nale est determinØ par la frØquence cumulØe de tous les termes de la
famille.
1 Ce travail a été soutenu en partie par la Commission européenne (projet NOESIS, IST-2002-507960)
- 271 - RNTI-E-6
Extraction multilingue de termes partir de leur structure morphologique
F IG . 1 Visualisation des termes sous forme de liste pondérée (à gauche) et détail d’une
famille de termes (à droite)
Le systŁme a ØtØ expØrimentØ sur 4 corpus de textes couvrant deux domaines scienti ques
distincts, celui de la volcanologie et du cancer du sein, dans deux langues diffØrentes, le fran-
ais et l’anglais. Les premiers rØsultats obtenus montrent que l’utilisation de la structure mor-
phologique permet de mettre jour des termes peu frØquents qu’une approche purement frØ-
quentielle ne pourrait identi er. Ces deux approches sont donc complØmentaires. L’algorithme
de regroupement permet quant lui de rassembler les variantes orthographiques, exionnelles
et dØrivationnelles des termes dans une mŒme famille.
Références
Enguehard, C. (1992). ANA Apprentissage Naturel Automatique d’un Réseau Sémantique. Ph.
D. thesis, UniversitØ de Technologie de CompiŁgne.
Ibekwe-Sanjuan, F. et E. Sanjuan (2004). Mining Textual Data through Term Variant Cluster-
ing: the TermWatch System. In Actes de Recherche d’Information Assistée par Ordinateur
(RIAO 2004), pp. 487 503.
Namer, F. (2005). MorphosØmantique pour l’appariement de termes dans le vocabulaire mØdi-
cal : approche multilingue. In Actes de TALN 2005, pp. 63 72.
Vergne, J. (2005). Une mØthode indØpendante des langues pour indexer les documents de
l’internet par extraction de termes de structure contr lØe. In Actes de CIDE 8.
VØronis, J. (2005). Nuage de mots d’aujourd’hui. http://aixtal.blogspot.com/2005/07/lexique-
nuage-de-mots-daujourdhui.html.
Summary
This articles describes a method for the automatic extraction of terms from corpora of
specialised texts. It makes use of morphological elements located at the beginning of words to
discover terms and group them in families. Results are displayed as a weighted list.
RNTI-E-6 - 272 -
Accès aux connaissances orales par le résumé automatique
∗
Thales, Laboratoire MMP, 160 Bd de Valmy, 92700 Colombes,
francois.capman@fr.thalesgroup.com
∗∗
Université d’Avignon, LIA, 339 Ch des Meinajaries, 84000 Avignon,
benoit.favre@univ-avignon.fr
jean-francois.bonastre@univ-avignon.fr
patrice.bellot@univ-avignon.fr
Le temps nécessaire pour écouter un flux audio est un facteur réduisant l’accès efficace à
de grandes archives de parole. Une première approche, la structuration automatique des don-
nées, permet d’utiliser un moteur de recherche pour cibler plus rapidement l’information. Les
listes de résultats générées sont longues dans un souci d’exhaustivité. Alors que pour des do-
cuments textuels, un coup d’oeil discrimine un résultat interessant d’un résultat non pertinant,
il faut écouter l’audio dans son intégralité pour en capturer le contenu. Nous proposons donc
d’utiliser le résumé automatique afin de structurer les résultats des recherches et d’en réduire
la redondance.
Les données radiophoniques exploitées pour cette approche sont issues de la campagne
ESTER (Galliano et al., 2005), évaluatrice de la structuration automatique d’émissions et de
bulletins à caractère informatif. Le processus de structuration de notre système est le suivant :
segmentation en classes acoustiques (Fredouille et al., 2004), segmentation en locuteurs (Is-
trate et al., 2005), transcription de la parole (Nocera et al., 2004), segmentation thématique
(Sitbon et Bellot, 2004), et reconnaissance d’entités nommées (Favre et al., 2005). Grâce à
cette structuration, un moteur de recherche basé sur le modèle vectoriel permet de présenter à
l’utilisateur la liste des segments correspondant à son besoin en information.
Fondé sur l’observation que 70% des phrases d’un résumé écrit manuellement proviennent
des textes d’origines, le résumé par extraction est l’approche la plus utilisée actuellement en
domaine ouvert pour le texte. En prenant pour hypothèse que cette observation est similaire
pour la parole (les titres des journaux radiodiffusés), nous l’appliquons à la fois pour extraire
des étiquettes thématiques structurant hiérarchiquement les résultats et pour extraire les seg-
ments les plus représentatifs du contenu des résultats.
L’algorithme Maximal Marginal Relevance (MMR), proposé par (Goldstein et al., 2000)
pour sélectionner les segments maximisant la couverture en information tout en minimisant sa
redondance, peut être appliqué pour sélectionner des mots-clés comme étiquettes thématiques
dont on obtient une hiérarchie en faisant varier la granularité. Le critère de sélection par gain en
- 273 - RNTI-E-6
Accès aux connaissances orales par le résumé automatique
Références
Favre, B., F. Béchet, et P. Nocéra (2005). Robust named entity extraction from large spoken
archives. In HLT-EMNLP’05.
Fredouille, C., D. Matrouf, G. Linares, et P. Nocera (2004). Segmentation en macro-classes
acoustiques d’émissions radiophoniques dans le cadre d’ester. In JEP’04.
Galliano, S., E. Geoffrois, D. Mostefa, K. Choukri, J.-F. Bonastre, et G. Gravier (2005). The
ESTER phase II evaluation campaign for the rich transcription of french broadcast news. In
Proc. Eurospeech’05.
Goldstein, J., V. Mittal, J. Carbonell, et J. Callan (2000). Creating and evaluation multi-
document sentence extract summaries. In CIKM 2000 - ACM, McLean, VA USA.
Istrate, D., N. Scheffer, C. Fredouille, et J.-F. Bonastre (2005). Broadcast news speaker tracking
for ester 2005 campaign. In Eurospeech’05.
Nocera, P., C. Fredouille, G. Linares, D. Matrouf, S. Meignier, J.-F. Bonastre, D. Massonié, et
F. Béchet (2004). The LIA’s french broadcast news transcription system. In SWIM.
Sitbon, L. et P. Bellot (2004). Evaluation de méthodes de segmentation thématique linéaire
non supervisées après adaptation au français. In TALN 2004, Fès, Maroc.
Summary
We propose to reduce listening time in spoken archives access interfaces : search engine
results are structured according to automatically extracted concept hierachies and the rendon-
dancy of results is removed using automatic summarization techniques.
RNTI-E-6 - 274 -
! "# $
% & '% &
&# '% &
- 275 - RNTI-E-6
Exploration interactive de bases de connaissances : un retour
d’expérience
Christophe Tricot, Christophe Roche
http://www.ontology.univ-savoie.fr
{christophe.tricot, christophe.roche}@univ-savoie.fr
1 Introduction
Le problème abordé dans le cadre de cet article est celui de l’accès à une base de
connaissances annotée sémantiquement par une ontologie du domaine.
Les connaissances peuvent être de natures diverses : documents scientifiques et
techniques, fiches de retour d’expérience, descriptions de compétences, documents
multimédias, etc.. L’utilisation d’une ontologie2 du domaine permet d’indexer et de classer
les éléments de la base de connaissances. L’indexation repose sur l’analyse des contenus
textuels (et péri textes ou méta données dans le cas des documents multimédias) au regard du
vocabulaire associé à l’ontologie. La classification considère les concepts de l’ontologie
1
Les travaux décrits dans cet article ont été menés en collaboration avec la société Ontologos Corp.
associée à l’équipe Condillac de l’Université de Savoie dans le cadre de sa reconnaissance en tant
qu’Equipe de Recherche Technologique par le Ministère de la Recherche.
2
Nous considèrerons dans ce contexte qu’une ontologie traduit un point de vue « consensuel » d’une
communauté de pratique au niveau linguistique – les mots d’usages – et au niveau conceptuel – les
concepts de l’ontologie sur lesquels repose la signification des termes –.
- 287 - RNTI-E-6
Un modèle de qualité de l’information
* LIRIS CNRS UMR 5205 - INSA de Lyon, Bâtiment Blaise Pascal 7, avenue Jean Capelle,
F-69621 Villeurbanne Cedex
Rharrathi @yahoo.fr
**LIRIS CNRS UMR 5205 - INSA de Lyon, Bâtiment Blaise Pascal 7, avenue Jean Capelle,
F-69621 Villeurbanne Cedex
Sylvie.Calabretto @insa-lyon.fr
1 Introduction
Avec l'expansion d'Internet et du Web, on assiste à une prolifération des ressources hété-
rogènes (données structurées, documents textuels, composants logiciels, images), conduisant
à des volumes considérables. Dans ce contexte les outils d’accès à l’information (moteurs
Web, SGBD, etc.) délivrent, dans des temps de plus en plus longs, des résultats massifs en
réponse aux requêtes des utilisateurs, générant ainsi une surcharge informationnelle dans
laquelle il est souvent difficile de distinguer l’information pertinente d’une information se-
condaire, ou même du bruit.
Une solution à l’amélioration de cette pertinence est la personnalisation ou l’adaptation
des réponses fournies aux utilisateurs selon leurs profils c'est-à-dire selon leurs besoins et
leurs préférences1. Ainsi la formulation du besoin d’information est devenue un des éléments
clés pour obtenir des résultats pertinents dans un processus d’accès à l’information. Pour
1
Notre travail se situe dans le cadre du projet ACI APMD (Accès Personnalisé à des Masses de Don-
nées) dont l’objectif est de mener une réflexion globale sur la personnalisation et la qualité
de l’information dans un environnement à grande échelle. Site Web: http://apmd.prism.uvsq.fr/
Partenaires: CLIPS-IMAG Grenoble, IRISA Lannion, IRIT Toulouse, LINA Nantes, LIRIS Lyon,
PRiSM Versailles
- 299 - RNTI-E-6
Annotation sémantique de pages web
∗
Institut de l’Information Scientifique et Technique
54514 Vandoeuvre-lès-Nancy, France
{polanco,tenier}@inist.fr
http://www.inist.fr/uri/accueil.htm
∗∗
Laboratoire Lorrain de Recherche en Informatique et ses Applications
BP 239, 54506 Vandoeuvre lès Nancy Cedex, France
{napoli,toussaint,tenier}@loria.fr
http://www.loria.fr/equipes/orpailleur
Le système que nous présentons permet d’automatiser l’annotation sémantique de pages web.
Notre objectif est de classifier des pages concernant des équipes de recherche, afin de pou-
voir déterminer par exemple qui travaille où, sur quoi et avec qui. La classification s’appuie
sur des mécanismes de raisonnement qui nécessitent une représentation formelle du contenu
des pages ; nous exploitons ainsi une ontologie qui représente les concepts du domaine et les
relations entre les concepts dans un langage de représentation des connaissances.
Notre système génère des annotations sémantiques qui sont des métadonnées sur les élé-
ments d’un document liées à une ontologie. Pour cela nous devons résoudre deux grandes
questions. La première est d’identifier automatiquement, dans une page web, les éléments qui
sont pertinents. La seconde est de déterminer quels sont les concepts de l’ontologie les plus
spécifiques possible, pour annoter chacun de ces éléments.
L’automatisation repose sur un apprentissage à partir d’un corpus constitué d’éléments
marqués par un expert. Le marquage associe à chaque concept de l’ontologie des éléments
de la page en rapport avec ce concept. L’apprentissage génère un wrapper capable d’annoter
des éléments du document sous la forme d’instances de concepts et de rôles de l’ontologie
fournie. Des mécanismes de raisonnement exploitant l’ontologie sont utilisés pour déterminer
- 305 - RNTI-E-6
Visualisation en Gestion des Connaissances
Développement d’un nouveau modèle graphique
Graph’Atanor
Bruno Pinaud∗,∗∗ , Pascale Kuntz∗∗ , Fabrice Guillet∗∗ , Vincent Philippé∗
∗
Knowesia SAS
Atlanpôle, La Fleuriaye
BP 40703, 44481 Carquefou Cedex
{bruno.pinaud, vincent.philippe}@knowesia.fr
http://www.knowesia.fr
∗∗
Laboratoire d’Informatique de Nantes Atlantique (LINA)
site Ecole Polytechnique
La Chantrerie - rue Christian Pauc
BP 50609, 44306 Nantes Cedex 3
{pascale.kuntz, bruno.pinaud, fabrice.guillet}@univ-nantes.fr
http://www.sciences.univ-nantes.fr/lina/fr
1 Introduction
L’explosion des quantités de données stockées sur différents supports informatique conjoin-
tement à l’avènement des Technologies de l’Information et de la Communication a introduit
des bouleversements importants dans le management des entreprises. En plus des connais-
sances explicites (courriers électroniques, procédures, notes de services, ...), il faut capitaliser
l’ensemble des connaissances tacites, c’est à dire les connaissances qui ne sont pas formali-
sables aisément avec des mots (bonnes pratiques, savoir-faire, ...)(Alavi et Leidner, 2001; Earl,
2001). L’objectif est de rendre cette connaissance accessible aux utilisateurs concernés, de la
- 311 - RNTI-E-6
Algorithme semi-interactif pour la sélection de dimensions
Lydia Boudjeloud, François Poulet
1 Introduction
Nous nous intéressons à la recherche d'outliers (individus atypiques) dans les ensembles
de données ayant un grand nombre de dimensions. Pour pouvoir traiter de tels ensembles de
données (par exemple les ensembles de données de fouille de texte ou de bio-informatique),
la plupart des algorithmes de fouille de données actuels nécessitent un prétraitement
permettant de réduire le nombre de dimensions (avec plus ou moins de perte d'information).
L'approche la plus intuitive pour appréhender le problème des grandes dimensions est
d'énumérer tous les sous-ensembles de dimensions possibles et de rechercher le sous-
ensemble qui satisfait la problématique traitée. Cependant, le fait d'énumérer (rechercher)
toutes les combinaisons possibles est un problème NP-difficile (Narenda et Fukunaga, 1977).
Parmi les solutions proposées pour ce problème, on retrouve la réduction de dimensions
(combinaison de dimensions, généralement linéaire) et la sélection de dimensions (on
n’utilise qu’un sous-ensemble des dimensions originales). L'avantage de cette dernière
solution est que nous ne perdons pas l'information que pourrait apporter la dimension, car
elle est considérée individuellement non en combinaison (linéaire) avec d'autres dimensions.
Les techniques de sélection de dimensions consistent donc à réduire l'ensemble des
- 323 - RNTI-E-6
Visualisation interactive de données avec des méthodes à
base de points d’intérêt
David Da Costa∗,∗∗ , Gilles Venturini∗
∗
Laboratoire d’Informatique
Ecole Polytechnique de l’Université de Tours
64, Avenue Jean Portalis, 37200 Tours, France.
david.dacosta@etu.univ-tours.fr,
venturini@univ-tours.fr
http://www.antsearch.univ-tours.fr/webrtic
∗∗
Agicom
Institut d’Etudes
3, degrés Saint Laumer, 41000 Blois, France.
ddacosta@agicom.fr
http://www.agicom.fr/
Résumé. Nous présentons dans cet article une méthode de visualisation inter-
active de données numériques ou symboliques permettant à un utilisateur expert
du domaine d’obtenir des informations et des connaissances pertinentes. Nous
proposons une approche nouvelle en adaptant l’utilisation des points d’intérêts
dans un contexte de fouille visuelle de données. A partir d’un ensemble de points
d’intérêt disposés sur un cercle, les données sont visualisées à l’intérieur de ce
cercle en fonction de leur similarité à ces points d’intérêt. Des opérations inter-
actives sont alors définies : sélectionner, zoomer, changer dynamiquement les
points d’intérêts. Nous évaluons les propriétés d’une telle visualisation sur des
données aux caractéristiques connues. Nous décrivons une application réelle en
cours dans le domaine de l’exploration de données issues d’enquêtes de satis-
faction.
1 Introduction
Les méthodes de fouille visuelle de données ("Visual data mining") tentent de résoudre les
problèmes d’interprétation et d’interaction dans les processus de découverte de connaissances
en faisant appel à des visualisations dynamiques et à des requêtes graphiques sur les données
et connaissances représentées (Cleveland, 1993), (Shneiderman, 1996), (Wong et Bergeron,
1997). A titre d’exemples classiques, nous pouvons citer les visages de Chernoff (Chernoff,
1973) qui représentent des données sous la forme d’icones en s’appuyant sur le fait que l’esprit
humain analyse facilement les ressemblances et différences entre visages. Nous pouvons citer
également les "scatter plots" (Becker et Cleveland, 1987) qui permettent d’obtenir des vues
multiples sur les données et d’observer les données à l’aide de techniques graphiques comme le
"brushing" qui donne la possibilité de sélectionner des données dans une vue tout en soulignant
ces mêmes données dans les autres vues.
- 335 - RNTI-E-6
Modélisation informationnelle : un cadre méthodologique
pour représenter des connaissances évolutives spatialisables
Jean-Yves Blaise*, Iwona Dudek*
1 Introduction
La compréhension des évolutions du bâti s’appuie sur l’analyse conjointe de connaissan-
ces spécifiques et de connaissances génériques ayant, dans le champ du patrimoine architec-
tural, des caractéristiques très handicapantes vis à vis des technologies actuelles de gestion
d’information localisées spatialement. Ces connaissances s’appuient en effet sur des infor-
mations hétérogènes, réparties, fortement pluridisciplinaires, mais également floues, incer-
taines, régulièrement remises en question, à ré-interroger comparativement sur un territoire
donné ou entre territoires. Dès lors l’apport attendu de l’application des NTIC au domaine du
patrimoine en matière de production et surtout d’échanges de connaissances reste pour
l’essentiel prospectif, si ce n’est du strict point de vue de la vulgarisation.
Pourtant, de nombreux travaux menés traitent des aspects liés à l’acquisition de données
3D (De Luca et al., 2003), la gestion d’informations localisées spatialement (Sebillo, 2003),
ou encore de la représentation de données spatio-temporelles (Renolen, 1997)(Spaccapietra,
et al., 2004). En parallèle, l’acquis en matière de visualisation de données (y compris à ca-
ractère spatio-temporelles) dans le champ de la visualisation d’informations constitue une
- 347 - RNTI-E-6