Rapport de projet de n dtudes Prsent en vue de lobtention du titre dingnieur en Informatique Par : Aroua HEDHILI Sujet : Techniques de Data Mining et annotations smantiques pour la classication de brevets en biomdecine Organisme : INRIA Sophia Antipolis Nom du responsable : Rose DIENG-KUNTZ Encadr par : Martine COLLARD , Khaled KHELIF Supervis par : Wided LEJOUED CHAARI Adresse : 2004 routes des lucioles BP93 06902 Sophia Antipolis France Tl : +33492387777 Fax : +33492387765 Rsum U NE des principales proprits des SMA est la communication entre agents. Cette dernire reprsente un mcanisme capital dans une communaut dagents. Dans ce contexte, des travaux proposent de dissocier les interactions du code des agents et de les considrer comme des ressources indpendantes. Cette approche a t exprimente dans une Simulation de Trac Routier (STR). Parmi ses apports gure celui de la dynamicit des interactions entre les agents, ainsi que leur rutilisation. Dans ce travail, nous nous intressons structurer et organiser ces interactions en vue de leur rutilisation. Dans ce contexte, nous proposons une Ontologie dInteractions Logicielles pour les SMA OILSMA , ainsi quune bibliothque dinteractions ddies une STR. Pour valuer limpact de la sparation et de la rutilisation des interactions, nous procdons une tude de performances. Mots cls : Simulation de Trac Routier, Systme Multi-Agent centr interactions, Ontologie dinteractions, Bibliothque dinteractions, Evaluation de Performances. A GENT communication is one of the most important features in MultiAgent Systems (SMA). It is a vital mechanism in the agents community. In this regard, some work pro- pose the disassembling of these interactions from the agent code and consider them as a set of independent resources. This approach has been experimented in a Road Trac Simulation (STR). Among the advantages of this approach, we note the dynamic agent interactions and their reuse. In this work, we consider the restructuring of these interactions for reuse purposes. We propose a Software Interaction Ontology for the SMA called OILSMA and an interaction library for the STR. A performance study is carried out in order to assess the impact of the disassembling and the reuse of the agent interactions. Keywords : Road Trac Simulation, Interactions based MultiAgent Systems , Interaction ontology, Interaction library, performance evaluation. ii iii Table des matires Introduction gnrale 1 1 Etude pralable 4 1.1 Le Web smantique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.1.1 Les ontologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.1.2 Mtadonne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.1.3 Les annotations smantiques . . . . . . . . . . . . . . . . . . . . . . 6 1.1.4 Lapproche PatAnnot . . . . . . . . . . . . . . . . . . . . . . . . . . 7 1.1.5 Les standards de reprsentation des connaissances . . . . . . . . . . 7 1.1.5.1 XML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 1.1.5.2 RDF/S . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.1.5.3 OWL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.2 Data mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.2.1 Denintion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.2.2 Extraction des connaissances dans des bases de donnes . . . . . . . 12 1.2.3 Les techniques de clustering . . . . . . . . . . . . . . . . . . . . . . 13 1.2.3.1 Proprits gnrales des mthodes de clustering . . . . . . 14 1.2.3.2 Principales techniques de clustering . . . . . . . . . . . . . 15 1.2.4 Text Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.2.4.1 Fouille de textes : un paradigme de lECBD . . . . . . . . 23 1.2.4.2 Text Clustering . . . . . . . . . . . . . . . . . . . . . . . . 23 iv TABLE DES MATIRES 1.3 Solutions danalyse de brevets . . . . . . . . . . . . . . . . . . . . . . . . . 24 v Table des gures 1.1 lannotation smantique [Euzenat, 2002] . . . . . . . . . . . . . . . . . . . 7 1.2 Un exemple de graphe RDF . . . . . . . . . . . . . . . . . . . . . . . . . . 9 1.3 les couches du Web smantique selon le W3C . . . . . . . . . . . . . . . . . 10 1.4 Exemple de dendrogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.5 Exemple de dendrogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 vi Liste des tableaux vii Introduction gnrale L E Web contient des volumes normes de donnes htrognes : donnes structures, semi structures, textuelles, multimdia (des images, des vidos...), voire des donnes correspondant des objets mathmatiques (formules mathmatiques) ou gomtriques, etc, ces donnes devant ensuite faire sens aux humains les manipulant (i.e. smantique au sens linguistique voire smiotique) ou aux programmes les exploitant (i.e. smantique au sens des langages de programmation). Le d sera donc de rsoudre : les problmes de langages de reprsentation des connaissances (e.g. ontologies et descriptions " smantiques " de ressources et de services), de leur smantique formelle et de leur interoprabilit, les problmes dautomatisation permettant un passage lchelle via lexploitation de la fouille de donnes ("data mining"), la fouille de textes ("text mining") reposant sur des techniques de traitement automatique de la langue naturelle et de techniques statistiques, et la fouille des usages du Web (" web usage mining "). Lquipe EDELWEISS intervient dans ce dt dans le cadre dun projet europen dont lobjectif est la conception et la ralisation dun navigateur web smantique pour le domaine des sciences de la vie, qui exploitera la plate-forme scientique en la rendant partageable, accessible et manipulable par plusieurs utilisateurs dans dirents domaines biomdicaux et ceci an de favoriser le partage de connaissances. Ce navigateur fera appel aux services web raliss base du standard XML et manipulera le contenu smantique des ressources (pages web, news, documents...) laide des ontologies et des techniques de capitalisation des connaissances. Le navigateur smantique Sealife va tre mis en valeur travers les scnarios de trois applications biomdicales : la fouille de la littrature et lanalyse de brevets (Patent and litterature mining), la biologie molculaire, et la mdecine base sur les preuves (Evidence 1 INTRODUCTION GNRALE Based Medecine (EBM)) tout en traitant le cas particulier des maladies infectieuses. Ce navigateur sera ralis laide des technologies du web smantique. Etant partenaire intervenant la ralisation du projet Sealife, lquipe Edelweiss a propos le sujet " Techniques de Data Mining et annotations smantiques pour la classication brevets en biomdecine". Prsentation du sujet Le traitement des documents de proprit intellectuelle, tels que les brevets, est impor- tant pour lindustrie, les aaires et les communis juridiques. Par consquent, de grands eorts ont t exercs durant ces dernires annes pour mieux exploiter les connaissances contenues dans ce type de document. Dans ce cadre, les brevets en biomdecine sont une source dinformation trs riche et pour lesquelles il est ncessaire de dvelopper des techniques danalyse permettant de les classier et den extraire les connaissances perti- nentes an de faciliter la tche des utilisateurs de ces sites. Pour rpondre cette attente, lquipe-projet EDELWEISS a propos, comme une premire tape, une approche PatAn- not fonde sur les principes du web smantique et qui gnre un ensemble dannotations donnant une reprsentation smantique des connaissances contenues dans un brevet. Ces annotations permettent ainsi deectuer une recherche intelligente sur brevets. Comme deuxime tape Edelweiss envisage dtendre cette approche en proposant des techniques de classication diriges par les annotations smantiques gnres an de proposer luti- lisateur des brevets relevant de ses centres dintrt. Prsentation de lorganisme daccueil Ce travail, ralis dans le cadre dun projet de n dtudes pour obtenir le diplme ing- nieur en informatique, se droule au sein de lunit de recherche INRIA Sophia Antipolis dans lquipe Edelweiss. INRIA Sophia Antipolis : Lunit de recherche INRIA Sophia Antipolis a t cre au coeur de la technopole Sophia Antipolis en 1983. Cette unit regroupe, sur ses sites de Sophia Antipolis, Marseille et Montpellier, 500 personnes dont 380 scientiques rparties au sein dune trentaine dquipes en partenariat avec le CNRS, plusieurs uni- versits et grandes coles. Leurs travaux portent sur la conception et la programmation 2 INTRODUCTION GNRALE de systmes informatiques performants, la reprsentation et la manipulation dinforma- tions complexes, la cration, la modlisation et la simulation dexpriences complexes. Ils permettent lavance des connaissances dans quatre grands domaines : interaction homme machine. rseaux et systmes. gnie logiciel et calcul symbolique. images, donnes, connaissances, simulation et optimisation des systmes complexes. Lquipe Edelweiss : EDELWEISS : Exchange, Documents, Extraction, Lan- guages, Web, Ergonomie, Interactions, Semantique, Serveurs. Lquipe de recherche Edel- weiss est une suite lquipe ACACIA (Acquisition des Connaissances pour lAssistance la Conception par Interaction entre Agent) dans lunit de recherche INRIA Sophia Antipolis. Cest une quipe pluridisciplinaire qui vise proposer des modles, des m- thodes et des outils pour aider des communauts de pratique et/ou dintrt grer leurs connaissances de manire collaborative via le Web en interagissant avec des ressources dinformations et des personnes " annotes smantiquement " , cest--dire indexes par des " ontologies ". Les communauts de pratique et/ou dintrt sont des groupes de personnes ayant un int- rt commun ou une passion commune pour un sujet ou un problme, et qui partagent leurs ides et leurs expriences et recherchent en commun une solution. Les axes de recherche de Edelweiss sont : Annotations smantiques de ressources dinformation. Interaction design. Reprsentation avec des graphes de connaissances. 3 CHAPITRE 1 Etude pralable Notre problmatique se rfre aux notions de web smantiques, reprsentation des connaissances, traitement automatique de la langue naturelle et au domaine de data- mining ou la fouille de donnes et en particulier la fouille de textes pour la classication smantique des brevets en biomdecine. Dans ce qui suit nous dcrivons en premier lieu, ltat de lart en web smantique. Celui- ci comprend la dnition du web smantique, de mtadonnes ainsi quune description des outils de reprsentation des connaissances du web. En second lieu, nous enchanons par la prsentation de la fouille de donnes, Pour ce fait, nous nous proposons, dabord, de dnir sommairement cette discipline. Ensuite, nous passons en revue les direntes techniques de clustering. Enn, nous nous intressons aux principaux travaux qui ont t raliss dans le cadre de lanalyse et de classication des documents en particulier les brevets. 1.1 Le Web smantique Cette notion propose initialement par Tim Berners-Lee [Berners, 2001] au sein du W3C, est dabord une infrastructure devant permettre des agents logiciels daider plus ecacement dirents types dutilisateurs dans leurs accs aux direntes ressources sur le web (sources dinformation et services). En eet, le web smantique repose sur des langages et une infrastructure dont lobjectif est de se donner la possibilit denrichir le web actuel laide dinformations dites " smantiques ", utilisables par des machines, qui faciliteront la recherche et lusage des ressources Web (pages Web, images, services, etc.). Il sagit donc dassocier ces dernires des informations structures descriptives sous la forme de mtadonnes (ou annotations). Lexpression Web smantique fait dabord rfrence la vision du Web de domaine comme 4 1.1. LE WEB SMANTIQUE un vaste espace dchange de ressources entre tres humains et machines permettant une exploitation, qualitativement suprieure, de grands volumes dinformations et de services varis. Le but est de dcharger les utilisateurs dune bonne partie de leurs tches de re- cherche, de construction et de combinaison de rsultats, grce aux capacits accrues des machines accder aux contenus des ressources et eectuer des raisonnement sur ceux- ci. Le web smantique, concrtement, est dabord une infrastructure pour permettre lutili- sation des connaissances formalises. Cette infrastructure doit : . Permettre de localiser, didentier et de transformer des ressources de manire robuste et saine, tout en renforant lesprit douverture du Web avec sa diversit dutilisateurs. . Contribuer assurer, le plus automatiquement possible, linteroprabilit et les trans- formations entre les dirents formalismes et les dirents modles (i.e. les ontologies). . Faciliter la mise en oeuvre de calculs et de raisonnements complexes tout en orant des garanties suprieures sur leur validit. . Orir des mcanismes de protection (droits daccs, dutilisation et de reproduction), ainsi que des mcanismes permettant de qualier les connaissances an daugmenter le niveau de conance des utilisateurs. 1.1.1 Les ontologies La notion du web smantique est base sur le principe de communication entre des acteurs agissant sur des ressources. Ces acteurs peuvent tre de natures varies et em- ployant de dirents jargons, concernant des concepts, des structures et des mthodes. La communication doit avoir lieu et ceci est dicile sans avoir un modle ou un catalogue qui facilite le partage de connaissances en assurant la comprhension rversible entre acteurs. Ce modle est une sorte dunicateur qui rsout les conits et les confusions an dassurer linteroprabilit, la rutilisation et le partage de ressources en reprsentant le sens des concepts et les relations entre eux. Cest ainsi la notion dontologie est apparue. Le mot ontologie trouve sa racine du grec onto (tre) et logos qui signie discours, son premier sens trouve son origine en philosophie, o lontologie est ltude des proprits des proprits gnrales de ce qui existe. Une ontologie informatique est une reprsentation de proprits gnrales de ce qui existe dans un formalisme supportant un traitement ration- nel. Cest le rsultat dune formulation exhaustive et rigoureuse de la conceptualisation dun domaine. Elle permet grce aux travaux de lintelligence articielle symbolique sur les 5 1.1. LE WEB SMANTIQUE systmes base de connaissances et les moteurs dinfrence, dimplanter des mcanismes de raisonnement dductif, de classication automatique, de recherche dinformation, et dassurer linteroprabilit entre plusieurs systmes de ce type. 1.1.2 Mtadonne Lutilisation de linfrastructure du Web smantique par direntes applications sera progressive. Un des principes de base du Web smantique tant de dcrire les ressources du Web laide de marqueurs exploitables par dirents logiciels ce sont les mtadonnes. Le mot " MetaData " trouve sa racine du grec meta qui signie " aprs " et du latin data qui signie " informations " ce qui permet de dnir ce terme comme une donne servant dnir ou dcrire une autre donne quel que soit son support. Les mtadonnes sont constitues de contenu structur ou non structur qui peut consister en des mots, des formules des analyses spectrales, etc. Elles peuvent tre cres de faon automatique ou manuelle et peuvent avoir plusieurs niveaux de complexit. Elles sont faites pour tre lues soit par les humains, soit par la machines si elles sont smantiques. 1.1.3 Les annotations smantiques Une annotation est une description permettant davoir une information de type mta- donne facilitant lexploitation, laccs, la recherche et la reconnaissance dune ressource. Lannotation peut se baser sur un modle conceptuel comme par exemple une ontologie an davoir un aspect smantique lui permettant dtre utilisable, accessible et reconnue par un ensemble dacteurs ou dagents. Le contenu de lannotation permet lannotateur de transmettre sa description de la ressource traite, cette description est signicative pour tous les autres acteurs agissant dans la mme reprsentation conceptuelle. Lannota- tion smantique ne peut tre donc comprhensible que lorsquelle est relie un modle. Ainsi une annotation smantique permet dtablir un lien entre une entit dune ressource donne et sa reprsentation smantique dcrite dans le modle qui est en gnral une ontologie relative au domaine o la ressource volue. Dans le cadre de Web smantique, [Euzenat, 2002] formalise lannotation comme tant une relation entre deux ensembles dobjets, un ensemble D de documents et un ensemble R de reprsentations formelles, cette relation dnit deux fonctions : d tant un lment de D et r un lment de R. 6 1.1. LE WEB SMANTIQUE la fonction " Annotation " dans le sens D R : telle que Annotation(d)=r. la fonction " Index " dans le sens R D : telle que Index (r) =d. Fig. 1.1 lannotation smantique [Euzenat, 2002] 1.1.4 Lapproche PatAnnot Cest une approche dveloppe par [Nizar, 2007] an de faciliter la gnration auto- matique des annotations smantiques base dontologies sur les brevets accessibles en ligne et elle repose sur les principes et les technologies du web smantique. Ces anno- tations peuvent tre utilises par les moteurs de recherche smantiques an dextraire les connaissances incluses dans les brevets et les prsenter selon le prol de lutilisateur. Lide capitale est de pouvoir prendre en considration la structure des brevets an de retrouver un lien entre, dune part, les connaissances contenues dans les documents et, dautre part, les concepts de lontologie utilise, Ds lors, nous optons cette mthode pour gnrer des annotations smantiques partir des parties " claims " de la structure dun brevet en se servant des ontologies de domaine. 1.1.5 Les standards de reprsentation des connaissances Les travaux visant la ralisation du Web smantique se situent des niveaux de com- plexit trs dirents. Les plus simples utilisent des jeux plus au moins rduits de m- tadonnes dans un contexte de recherche dinformations ou pour adapter la prsentation des informations aux utilisateurs. Dans ce cas, des langages de reprsentation simples sont 7 1.1. LE WEB SMANTIQUE susants. Dans les travaux plus complexes mettant en oeuvre des architectures sophisti- ques, pour permettre par exemple lexploitation de ressources htrognes, des langages plus expressifs et plus formels issus des travaux en reprsentation et en ingnierie des connaissances, sont ncessaires. Il a t bien reconnu dans la communaut du Web s- mantique que les ontologies jouent un rle important facilitant le partage dinformation entre les communauts dhumains et des agents logiciels. Il semble clair que le Web smantique ne pourra voir le jour sans un minimum de standar- disation. Dirents consortiums et organismes mettant donc les acteurs autour dune table pour dnir les langages utiliser dans le Web smantique an dassurer des traitements uniformes sur des documents crits dans ces langages. Les travaux de standardisation sont bien avancs et le 10 fvrier 2004, OWL, RDF et RDFS sont devenus des recommandations du W3C. RDF est utilis pour reprsenter linformation et pour changer la connaissance sur le Web. OWL est utilis pour publier des ontologies, en supportant des recherches dinformation avances, la gestion de la connaissance et des agents logiciels (W3C 2004). 1.1.5.1 XML Le XML (EXtended Markup Language)[XML, W3C 2006] est un langage de descrip- tion et dchange de documents structurs, issu de SGML (Standard Generalized Markup Language) et dni par le W3C. XML permet de dcrire la structure arborescente de docu- ments laide dun systme de balises permettant de marquer les lments qui composent la structure et les relations entre ces lments (relatives une DTD 1 ). XML ne pose au- cune contrainte smantique sur la description des informations, il ne constitue pas donc un langage de modlisation dontologies lui seul. XML Schema [XML-S, W3C 2004] (XML- S) est un outil de dnition de grammaires caractrisant des arborescences de documents (notion de validit syntaxique). Avec les schmas XML, il est possible de contraindre la structure arborescente dun document mais pas la smantique des informations contenues dans ce document. 1 " Document Type Denition " : dnit la structure logique dun type de documents (balises, ordre dapparition, frquence, type de donnes, attributs, entits, etc.) rutilisable pour tous les documents de mme type. 8 1.1. LE WEB SMANTIQUE 1.1.5.2 RDF/S Le premier de ces langages est RDF (Ressource Description Framework) [Lassila et Swick, 2001] auquel sest ajout rapidement RDF Schema (RDFS). Les objectifs initiaux de RDF taient la reprsentation et une meilleure exploitation des mtadonnes. Mais, de manire plus gnrale, RDF permet de voir le Web comme un ensemble de ressources relies par les liens tiquets " smantiquement ". Un document RDF est un ensemble de triplets de la forme <sujet, prdicat, objet>. Les lments de ces triplets peuvent tre des URIs (Universal Resource Identiers)[Berners-lee et al, 1998], des littraux ou des variables. Cet ensemble de triplets peut tre reprsent de faon naturelle par un graphe (plus prcisment un multi-graphe orient tiquet), o les lments apparaissent comme sujet ou objet sont les sommets, et chaque triplet est reprsent par un arc dont lorigine est son sujet et la destination son objet. Fig. 1.2 Un exemple de graphe RDF RDFS ajoute RDF la possibilit de dnir des hirarchies de classes (rdfs : Class et rdfs : subClassOf) et de proprits (rdfs :subPropertyOf) dont lapplicabilit et le domaine de valeurs peuvent tre contraints laide des attributs rdfs :domain et rdfs :range. A chaque domaine applicatif peut tre associ un schma identi par un prxe particulier et correspondant une URI. Les ressources instances sont ensuite dcrites en utilisant le 9 1.1. LE WEB SMANTIQUE vocabulaire donn par les classes dnies dans ce schma. Les applications peuvent alors leur donner une interprtation oprationnelle. On peut noter que RDFS nintgre pas en tant que tel de capacits de raisonnement. 1.1.5.3 OWL Le " Web Ontology Language " [OWL, W3C 2004] est un vocabulaire XML bas sur RDF, il fournit un langage pour dnir des ontologies web structures. OWL ore plus de facilits pour exprimer la signication et la smantique que XML, RDF et RDF-S. Il dnit et instancie des ontologies Web. Une ontologie OWL peut contenir des descriptions de classes, de proprits et de leurs instances. Pour une telle ontologie, la smantique formelle OWL indique comment dduire ses consquences logiques, cest--dire les faits non pas littralement prsents dans lontologie mais qui dcoulent de la smantique. Ces infrences peuvent tre fondes sur un seul document ou sur plusieurs documents rpartis combins laide de mcanismes OWL dnis. Le Web smantique se construit au fur et mesure sur la capacit de XML de dnir des schmas de balisage personnaliss et sur la exibilit de lapproche RDF pour reprsenter les donnes. Si les machines sont supposes faire des tches de raisonnement utiles sur ces documents, le langage doit aller au-del des smantiques de base du RDF Schema. OWL est une partie dune pile volutive (FiG 1.3)des recommandations W3C relative au Web smantique [Hyvonen, 2002]. Fig. 1.3 les couches du Web smantique selon le W3C Cest dans le but davoir un web collaboratif et intelligent, que la notion du web 10 1.2. DATA MINING smantique fut propose. Cette notion originale repose sur le principe de partage des ressources web entre acteurs (agent logiciel, application, utilisateur, etc.). Ainsi, divers langages ont t proposs dans le but de reprsenter les ressources web formellement pour assurer leur traitement automatique et dcharger lutilisateur dun ensemble de tches en lui prsentant le meilleur rsultat. Notre travail repose sur les notions que nous venons de dcrire an de prsenter les connaissances dduites partir des pages web ainsi que lutilisation de ces connaissances dans des techniques de fouille de donnes dans le but de classier les brevets du domaine de science de la vie. 1.2 Data mining 1.2.1 Denintion Le Data Mining ou la fouille de donnes consiste rechercher et extraire de linfor- mation (utile et inconnue) de gros volumes de donnes stockes dans des bases ou des entrepts de donnes. Le dveloppement rcent de la fouille de donnes (depuis le dbut des annes 1990) est lie plusieurs facteurs : une puissance de calcul importante est dis- ponible sur les ordinateurs de bureau ou mme domicile, le volume des bases de donnes augmente normment, laccs aux rseaux de taille mondiale est facilit, il y a une prise de conscience de lintrt commercial pour loptimisation des processus de fabrication, vente, gestion, logistique, etc. La fouille de donnes est un domaine de recherche encore jeune, qui fait suite au dsir des utilisateurs des sites web ayant de grandes masses de donnes des travaux pour faciliter, entre autres, leurs tches en proposant des sources dinformations dintrt en fonction de leurs prols. Mais ce volume de donnes doit pas- ser par une phase de slection et de prparation pour quil soit mieux exploitable, Cela peut ncessiter, par exemple, de complter les donnes manquantes ou de slectionner les variables descriptives. La slection des variables descriptives les plus pertinentes permet de rduire le volume de donnes. En fait, cette phase est inclus dans le processus gnral de data mining pour lextraction des connaissances partir des donnes " Extraction de connaissances dans des bases de donnes (ECBD)". 11 1.2. DATA MINING 1.2.2 Extraction des connaissances dans des bases de donnes LExtraction de Connaissances dans des Bases de Donnes (ECBD) est une activit qui consiste analyser un ensemble de donnes brutes pour en extraire des connaissances exploitables. Les connaissances sont des lments qui possdent une syntaxe et une sman- tique, formalises dans un langage de reprsentation de connaissances. Les connaissances sont manipules dans un Systme Base de Connaissances (SBC) pour rsoudre des problmes et eectuer des raisonnements. Un raisonnement permet dinfrer de nouvelles connaissances partir de connaissances existantes. Un expert du domaine relatif aux don- nes, lanalyste, est charg de diriger lextraction. Ces nouvelles connaissances viennent complter le savoir de lanalyste sur le domaine. En fonction de ses objectifs, lanalyste va slectionner les donnes et utiliser les outils de Fouille de Donnes pour construire des modles du domaine expliquant les donnes. Lanalyste peut ensuite slectionner et exploiter les modles qui reprsentent un point de vue " satisfaisant ". LECBD fdre trois grands domaines de recherche : lapprentissage : trouver des relations entre les proprits possdes par des instances. Une instance est une entit ou un individu possdant un certain nombre de propri- ts. Par exemple, Jean est une instance de personne qui peut tre caractrise par son nom, son date de naissance, sa taille, sa profession, etc., qui, lorsquelles sont d- nies (i.e. lorsquelles prennent des valeurs) constituent ses proprits. Ce domaine est connu avec ses techniques dapprentissage supervis et non supervis, en fait lappren- tissage supervis est une technique dapprentissage automatique o nous cherchons produire automatiquement des rgles partir dune base de donnes dapprentis- sage contenant des exemples de cas dj traits. Plus prcisment, la base de donnes dapprentissage est un ensemble de couples entre-sortie que nous le considrons tre tires selon une loi inconnue. Le but dun algorithme dapprentissage supervis est de gnraliser pour des entres inconnues ce quil a pu " apprendre " grce aux donnes dj traites par des experts, ceci de faon " raisonnable ". Contrairement la m- thode de lapprentissage non supervis, dans laquelle il ny a pas de sortie a priori. Dans lapprentissage non-supervis il y a en entre un ensemble de donnes collectes. Ensuite le programme traite ces donnes comme des variables alatoires et construit un modle de densits jointes pour cet ensemble de donnes. la rtro-conception dans les bases de donnes relationnelles : extraire des dpendances fonctionnelles entre les proprits dans un schma dune base de donnes. 12 1.2. DATA MINING la reprsentation de connaissances : donner une reprsentation logique aux lments dinformation manipuls pour eectuer un raisonnement, par exemple une infrence par dduction ou par induction (i.e. ou gnralisation). 1.2.3 Les techniques de clustering Lapplication dune mthode de clustering revient mettre de lordre dans un jeu de donnes. A partir de ceci, nous constatons aisment que les domaines dapplication du clustering peuvent tre trs varis. Cest pourquoi le sujet est frquemment abord par des mtiers divers. Par exemple, le clustering peut sattacher dresser des prols de clients dune socit, permettre de rassembler des malades prsentant les mmes symptmes, classer des documents, ou encore raliser du credit scoring dans le domaine bancaire,etc. Typiquement, la personne ayant recours une mthode de clustering dispose dune base de donnes dans laquelle aucune structure nest apparente, du moins pour loeil humain. Ceci peut simplement tre la consquence de la quantit abondante dinformation. Selon les buts poursuivis par lutilisateur, nous pouvons dgager trois grands types dapplications ([Candillier, 2004]) : . Knowledge Extraction : reprend les applications qui utilisent le clustering pour ex- traire de la connaissance dune base de donnes. Concrtement, ceci vise dterminer des " sousconcepts " an de donner du sens linformation dont nous disposons. Nous esprons ainsi pouvoir sattaquer des tches telles que la gnration dhypothses (modlisation prdictive), le diagnostic mdical en se basant sur des caractristiques communes de patients, etc. Dans ce cadre, notre projet cherche classier un volume important de brevets tous en se basant sur la smantique des connaissances extraites partir dune fouille des champs textuels dune partie la plus intressante dans la structure dun brevet. . Data Reduction : vise utiliser le clustering pour segmenter la base de donnes en groupes homognes et ainsi rduire la taille de lensemble des donnes sur lequel on travaille. Il sagit donc de dterminer des " sous-espaces " de lespace des donnes. La compression dinformation et la segmentation dimages sont des cas concrets de ce type dapproches. . Proling : utilise le clustering pour dtecter des " sous-populations " ayant des ca- ractristiques proches dans une base de donnes an de pouvoir prendre des dcisions particulires, adaptes chaque sous-population sparment. Ceci touche directement 13 1.2. DATA MINING les applications o lon cherche regrouper des clients (Customer Relationship Ma- nagement, en marketing), dans les transports, dans les banques, dans les commerces, dans les tlcommunications, dans la gestion de ressources (nergie, stocks,etc.) etc, Nous trouvons galement de nombreuses utilits dans le domaine de la classication de documents ce qui prsente lune des perspectives de notre stage puisque nous cher- chons classier des millions de brevets en biomdecine, sont dposs et accessibles partir des sites dorganisations comme le USPTO (United States Patent and Tra- demark Oce) ou le WIPO (World Intellectual Property Organization), en vue de faciliter la tche de lutilisateur en lui proposant des sources dinformations dintrt en fonction de son prol. Les techniques de clustering visent dans toutes leurs applications obtenir les meilleurs clusters, de ce fait, le nombre de mthodes dveloppes actuellement est considrable et augmente encore. Ainsi, le clustering est dite " data driven ", cest--dire quil nexiste pas de mthode pouvant tre catalogue comme meilleure quune autre de manire absolue. 1.2.3.1 Proprits gnrales des mthodes de clustering Chaque technique de clustering peut se voir attribuer diverses proprits ([Jain, 1999], [Candilier, 2004]), reprises ci-dessous : . Mthode ascendante ou descendante : encore dite proprit dagglomration ou de division. La distinction stablit sur le principe gnral suivi par la mthode. Dans les mthodes agglomratives, la dmarche est de partir de petits clusters nombreux et ensuite de les regrouper progressivement en clusters plus consquents. Par contre, les mthodes divisives arrivent une partition de lensemble des donnes en "coupant" successivement de gros clusters en groupes plus petits. . Mthode dterministe ou stochastique : cette proprit est lie au caractre de la sortie de la mthode. Dans une approche dterministe, le rsultat du clustering sera toujours identique si nous avons entre plusieurs fois le mme jeu de donnes, de la mme faon. A loppos, une mthode stochastique gnre une partition rsultant de choix diverses tapes du droulement de la mthode. Ces choix ntant pas constamment identiques, la sortie de la mthode variera, mme si nous avons plusieurs reprises le mme jeu de donnes, de la mme faon. . Mthode monothtique ou polythtique : cette caractristique traite les attributs des objets pour arriver une partition. Dans une approche polythtique, tous les attributs 14 1.2. DATA MINING sont considrs simultanment. Cest typiquement le cas de mthodes bases sur les distances (au sens large), pour lesquelles le calcul du rapprochement de deux objets fait intervenir tous les attributs de lobjet ( une slection pralable prs). Dans le cas dune mthode monothtique, les attributs sont considrs un un, chacun deux amenant successivement une partition de lespace des donnes. Ce type dapproche amne spontanment opter pour une description des clusters laide de conjonctions logiques. . Mthode incrmentale ou non incrmentale : cette proprit sappuie sur la manire de classer les objets. Dans une approche non incrmentale, les objets sont regroups selon certains critres et peuvent changer de groupe en cours dexcution de lalgo- rithme. Par contre, dans une mthode incrmentale, les objets sont placs selon leur ordre darrive dans un cluster et nen bougent plus. . Mthode hard ou fuzzy : encore dite mthode dure ou oue. Dans une approche dure, les clusters gnrs sont mutuellement exclusifs. A loppos, une mthode oue alloue des clusters aux objets avec dirents degrs dappartenance. Un objet peut donc appartenir en partie plusieurs clusters. La prsentation de ces proprits nous laisse entrevoir de nombreuses combinaisons pos- sibles entre elles. Tous ces recoupements gnrent au moins chacun une mthode, ou plus gnralement une catgorie de mthodes. 1.2.3.2 Principales techniques de clustering Rappelons que les problmes de clustering sont " data driven ". Ceci induit une multi- plicit des mthodes et de leurs variantes qui fait quil devient pratiquement impossible de dresser un tat complet de la discipline. De plus, de nouvelles mthodes apparaissent rgulirement.. Le but de ce paragraphe est de prsenter les mthodes de clustering les plus courantes et daboutir un classement aussi robuste que possible de ces mthodes. Nanmoins, vu le nombre de proprits de chaque mthode et leurs recoupements, il est impossible de raliser un classement complet. Nous choisirons donc certaines proprits dterminantes nous permettant de voir plus clair dans la discipline. Il est vident que ces choix inuenceront le classement obtenu. Ceci nest pas limitatif tant donn quau- cun classement absolu nest adopt par la littrature. Nous prsenterons ici les mthodes les plus couramment rencontres. Dans certains cas, dautres types de techniques seront abords brivement, essentiellement titre indicatif et par souci de compltude. 15 1.2. DATA MINING Suite des hypothses eectues, la diversit des mthodes traiter devient assez bien dlimite. Ainsi, nous pouvons dj annoncer une premire subdivision la tte de notre classement, en deux catgories de mthodes : 1.2.3.2.1 Les mthodes de partition Ces mthodes gnrent unepartition de lespace des donnes en travaillant directement sur la prise en compte de plusieurs clusters. Typiquement, elles expriment le problme de clustering comme un problme doptimisation dune fonction critre de " qualit ". Elles peuvent tre classes en direntes catgories, comme nous allons le voir. Clustering par critre de " plus proche voisin " : A partir du moment o la notion de distance est centrale en clustering, certaines techniques se basent directement sur une distance particulire pour dnir le critre permettant dobtenir les clusters. Par exemple, une technique se basant sur la notion de centrode le plus proche est celle du " single pass clustering ". Comme son nom lindique, cette mthode ne requiert quun seul passage dans le jeu de donnes. Il sagit donc dune mthode incrmentale qui consiste allouer les objets au centrode le plus proche dj connu, dans lordre de leur arrive. Parmi les inconvnients de cette mthodes nous citons le rsultat de la mthode dpend de lordre dentre des objets, les premiers clusters forms sont souvent plus grands que ceux crs plus tard dans lexcution de la mthode. Nous aurons donc un dsquilibre (non forcment justi) dans la taille des clusters. Clustering par critre du carr des carts aux centrodes : Une autre famille de m- thodes de partition est celle se basant sur un critre de " qualit " (construction) consistant minimiser la somme des carrs des carts (distance) entre chaque objet et le centrode du cluster courant qui lui est associ. Parmi ces mthodes, nous trou- vons lalgorithme bien connu des K-means (K-moyennes) que nous le dvelopperons dans le chapitre suivant. Clustering par la thorie des graphes : Ce type de mthodes est surtout utilis lorsque les donnes sont prsentes sous forme de graphe. Le principe le plus connu consiste dterminer un arbre partiel minimum (MST) [VINCKE, 2004], et ensuite " eacer " les arrtes de plus grandes valeurs an de dterminer les clusters. Pour cela, deux approches sont possibles : soit nous xons le nombre de clusters trouver, soit nous eaons les arrtes dont la valeur est suprieure une valeur seuil. Ceci est illustr la gure I.5 o nous obtenons une partition en trois clusters. Le principal inconvnient de cette mthode est sa complexit, essentiellement lie la construction de larbre 16 1.2. DATA MINING partiel minimum. Clustering par utilisation de grilles : Ces mthodes utilisent une grille partitionnant lespace des donnes en de multiples cellules M dimensions (M tant le nombre dattributs). Ensuite, les densits de ces cellules bien dlimites peuvent tre calcu- les avec deux types dapproches ([Candillier, 2004]) soit par une dtection de zones denses, nous dtectons les clusters comme des zones denses (possdant beaucoup dobjets par unit de volume) dans lespace des donnes. Nous fusionnons donc des cellules de sorte que leur regroupement ait une densit suprieure une valeur seuil xe et susamment uniformment rpartie, soit par une dtection de zones peu denses dans cette approche nous cherchons dceler des zones inoccupes de lespace an dtablir les frontires entre clusters. Nous nous basons donc sur lexistence de changements (brusques) de densits au travers des limites des clusters an de les reconstituer. A titre indicatif, citons encore les approches qui utilisent la notion de la densit et ses paramtres (le rayon maximum du voisinage dun objet et le nombre minimum dobjets qui doit tre contenu dans ce voisinage), dautres se basent sur lhypothse que les donnes ont t gnres selon une certaine distribution. Ainsi, si nous arrivons dterminer les paramtres de la distribution, nous dterminerons galement les clusters. En plus , Les approches volutives qui se distinguent des autres mthodes de clustering par le fait que nous ne faisons plus voluer une seule partition, mais une population de partitions. Ces approches trouvent leur inspiration dans lvolution naturelle. Pour caractriser lvolu- tion, nous faisons souvent appel des oprateurs dvolution dont les plus courants sont la slection, la mutation et la recombinaison, ainsi que les approches de clustering par recherche stochastique et par rseaux de neurones. 1.2.3.2.2 Les mthodes hirarchiques En opposition aux mthodes de partition, les mthodes hirarchiques ne gnrent pas seulement une partition de lespace des donnes, mais une succession de partitions. Celles- ci sont souvent reprsentes sous la forme dun dendrogramme. Selon que nous parcourons le dendrogramme " de haut en bas " ou " de bas en haut ", la mthode sera dite divisive ou agglomrative. Dendrogramme : La sortie dune mthode hirarchique nest donc pas directement une partition de lespace des donnes, mais un arbre de partitions successives appel dendrogramme. Dans une approche ascendante (agglomrative), nous commenons 17 1.2. DATA MINING avec autant de clusters quil y a dobjets. Ensuite, chaque tape, nous regroupons les deux lments (objets ou clusters) qui sont jugs les plus similaires pour terminer avec un seul grand cluster englobant toutes les donnes. Contrairement, dans une approche descendante (divisive), nous partons dun grand cluster que nous le divisons progressivement pour obtenir au nal un ensemble de singletons (les objets). Dans les deux cas, un dendrogramme reprsente les direntes tapes successives de la recherche des clusters. Il prsente chaque niveau quels lments ont t rassembls dans une approche de " bas en haut " ou au contraire quels lments ont t crs dans une approche de " haut en bas ". Un exemple de dendrogramme est prsent la gure I.4, issue de [Jain, 1999]. Laxe horizontal correspond aux objets tandis que laxe vertical indique la dis similarit entre les dirents niveaux (ou leur similarit selon le choix du sens de laxe). Fig. 1.4 Exemple de dendrogramme Nous pouvons se poser la question du nombre optimal de clusters. De faon gnrale, nous admettons en gnral quil faut couper la hirarchie au niveau o " les collines deviennent montagnes ". Ceci revient couper larbre au moment o nous commenons rassembler des lments forts dis similaires (ou lorsqunous commenons diviser des lments homognes). Cette coupe est prsente en traits pointills sur la Figure I.4, nous obtenons alors une partition correspondant la sortie de la mthode. Mthodes hirarchiques ascendantes : Comme nous lavons vu, les mthodes hirar- chiques ascendantes consistent rassembler, chaque tape, les lments (objets ou clusters) les plus similaires au sein dun mme nouveau cluster. Leur schma gnral peut tre prsent comme suit : 18 1.2. DATA MINING 1. Crer autant de clusters quil y a dobjets. Pour N objets, nous aurons donc N singletons.Dnir une valeur seuil de distance (ou dissimilarit) au-dessus de laquelle deux lments ne devront pas tre rassembls. 2. Comparer toutes les paires dlments possibles et marquer la paire ayant la plus petite distance (ou dissimilarit). 3. Si cette distance (ou dissimilarit) est infrieure la valeur seuil, rassembler les deux lments dans un mme cluster et retourner au point 2. Sinon, n de la procdure. Il est vident que le choix de la valeur seuil est dterminant pour la sortie puisquelle impose nalement le niveau de coupe dans le dendrogramme. De manire gnrale, les mthodes hirarchiques seront coteuses en CPU partir du moment o les lments sont compars deux deux chaque tape. Leur complexit est donc quadratique. Au premier niveau, nous regrouperons deux objets en un cluster. Ensuite, ds le second niveau, nous devrons valuer la distance (ou dissimilarit) entre un objet et un cluster. Ds la troisime tape, nous pourrons tre amen devoir valuer la distance (ou dissimilarit) entre deux clusters. Nous voyons donc que ce type de mthodes fait intervenir tous les concepts physiques de la notion de rapprochement. Partant du mme principe gnral, les direntes mthodes hirarchiques ascendantes se distinguent par la manire dagglomrer les groupes, et plus prcisment par la faon de dterminer les deux clusters les plus similaires (les plus proches) une tape. Nous parlons de critre dagrgation qui direncie les direntes approches des mthodes hirarchiques descendantes. Mthodes hirarchiques descendantes : Les mthodes hirarchiques descendantes d- terminent, chaque tape, le groupe courant le moins homogne et le partagent en deux sous-groupes. Leur schma gnral est le suivant : 1. Rassembler tous les objets dans un mme cluster. Dnir une valeur seuil de distance (ou de dissimilarit) au-dessus de laquelle deux objets ne pourront pas tre considrs comme appartenant un mme groupe. 2. Comparer tous les objets deux deux dans chaque cluster et marquer la paire dobjets ayant la plus grande distance (ou dis similarit). 3. Si cette distance (ou dis similarit) est suprieure la valeur seuil, couper le cluster correspondant en deux et retourner au point 2. Sinon, n de la procdure. Contrairement aux mthodes agglomratives, seule la dnition dune distance (ou 19 1.2. DATA MINING dissimilarit) entre deux objets est ncessaire pour les mthodes divisives. Les diverses mthodes se distinguent alors uniquement sur la manire de diviser un cluster en deux sous clusters. Nous trouvons dans certains cas des mthodes hybrides alliant une mthode de parti- tion (pour sa complexit linaire) avec une mthode hirarchique (pour sa plus grande souplesse). Par exemple, nous pouvons combiner une mthode hirarchique ascendante et la mthode des K-means en direntes tapes ([LEBART, 2000], [DECAESTE- CKER,2005]) : 1. Dans un premier temps, nous appliquons la mthode des K-means, en adoptant volon- tairement un nombre de clusters largement suprieur au nombre de clusters souhait dans la partition nale. Ceci nous fournit une premire partition de lespace des donnes. 2. Nous regroupons ensuite hirarchiquement les centrodes des clusters trouvs ltape 1. Ceci nous permet de ne pas devoir appliquer dalgorithme agglomratif sur len- semble du jeu de donnes. Le gain est consquent vu la complexit quadratique des mthodes agglomratives. Nous obtenons une partition du jeu de centrodes de ltape 1 par coupure du dendrogramme au niveau adquat. Nous disposons alors dun nou- veau nombre de clusters, plus appropri. 3. Nous consolidons le rsultat par rallocation des objets aux centres des clusters de ltape 3, par la mthode des K-means. Il existe dautres mthodes hybrides qui ne font pas forcment appel une mthode hirarchique et une mthode de partition simultanment. Le tableau suivant fournit une comparaison schmatique des mthodes de partition et des mthodes hirarchiques. Fig. 1.5 Exemple de dendrogramme 20 1.2. DATA MINING 1.2.4 Text Mining Le terme " fouille de textes " distingue, dans la littrature, des mthodologies et des outils trs dirents. Selon la culture scientique des chercheurs qui sintressent la fouille de textes, ce terme recouvre des travaux en recherche dinformation, en extrac- tion dinformation, en extraction de terminologies, en structuration dontologies, pour les systmes de questions/rponses etc. Dans ce projet, nous dnissons la fouille de textes comme tant un processus dextraction de connaissances partir des corpus appliqu des donnes textuelles en se basant sur leurs signications smantiques. Notre nalit est de dnir une mthodologie de fouille pour ces donnes textuelles. Pour ce faire, nous discutons dans des chapitres suivants des proprits des donnes textuelles en soulevant des problmes concernant lanalyse et la reprsentation des contenus des textes. Cette problmatique relve des travaux existants en traitement automatique de la langue qui peuvent, selon le cas, rpondre ou non nos besoins pour la modlisation des donnes tex- tuelles. La modlisation des textes constitue ltape de prparation des donnes textuelles en vue de la mise en oeuvre des tapes suivantes du processus de fouille " smantique " de texte, lutilisation des techniques de fouille de donnes, linterprtation des connaissances extraites. La fouille de textes (ou text mining ) dbute par la modlisation des textes en vue de leur prparation pour ltape de fouille de donnes et sachve par linterprtation des rsultats de la fouille pour lenrichissement des connaissances dun domaine. Lensemble de ces trois tches constitue une chane appele " processus de fouille de textes ". Le processus de fouille de texte saligne sur le processus dextraction de connaissances dans des bases de donnes (ECBD) prsent par Fayyad et al. [Fayyad et al, 1996] mais possde des spcicits lies aux donnes textuelles manipules par ce processus. Il sut de parcourir un guide touristique, un manuel dinstructions, un brevet dune molcule chimique ou un article scientique pour se rendre compte quils ne sont pas comparables en termes de structure et de connaissances vhicules. Contrairement aux donnes classiquement manipules en ECBD (bases de donnes, donnes structures, etc.), ltape de modlisation des donnes textuelles a une grande inuence sur la qualit des connaissances extraites partir des textes. 21 1.2. DATA MINING La problmatique gnrale en fouille de texte est de tirer prot dlments dinformation extraits an dexprimer des connaissances utilisables pour le domaine trait par les textes. Les nouvelles connaissances extraites servent enrichir les connaissances actuelles dun domaine contenues, par exemple, dans une base de connaissances. Ensuite, lextraction de nouvelles connaissances permet de raisonner sur les connaissances actuelles pour modier (rviser, spcier, etc.) ou bien justier les connaissances actuelles. La pertinence des nouvelles connaissances extraites par le processus de fouille de texte est juge par un analyste, un expert du domaine de fouille. La fouille de texte doit rpondre ces besoins : (i) de taille et de structure des donnes textuelles fouiller (un texte, plusieurs milliers de textes), (ii) dindpendance par rapport la nature des donnes textuelles et des connaissances extraire, (iii) dindpendance par rapport lordre de traitement des textes et (iv) dindpendance par rapport au domaine de fouille, cest--dire un besoin de reproductibilit. (i) Premirement, une mthodologie de fouille de texte doit permettre une caractrisation globale du contenu dun ensemble de textes. Ce besoin se retrouve dans des applications de constitution et ltrage dune terminologie ou une application de recherche dinformation. Deuximement, la fouille de texte permet de trouver des liens entre les textes, comme les rgularits des contenus, diciles reprer par une lecture squentielle de lensemble des textes. Le besoin de fouille sur plusieurs textes se retrouve dans une application dextraction dinformation qui porte sur plusieurs textes. (ii) Une mthodologie de fouille de texte doit fonctionner indiremment sur tout type de donnes non structures, cest--dire sur des textes, des listes de formules chimiques, des squences ADN de protines, etc. Le processus doit tre robuste pour fonctionner sur ces direntes donnes textuelles (pas de gestion derreurs sil y en a et pas de vrication de types de donnes par exemple), et ce, quelque soit le type de connaissance dcrit par les textes (compte rendu, dmonstration, etc.). (iii) Une mthodologie de fouille de texte doit donner les mmes rsultats en partant dun mme ensemble de textes, indpendamment de lordre de la prise en compte des textes, cest--dire que les textes sont donc analyss dans leur globalit. (iv) Une mthodologie de fouille de texte ne doit pas tre ad hoc un domaine particulier, elle doit tre reproductible pour un autre domaine. Seules les donnes textuelles et les connaissances du domaine changent. La mthodologie doit donc rester stable et gnrique. Une mthodologie de fouille de texte soulve un certain nombre de problmes, tant donnes les contraintes lies aux besoins cits ci-dessus. Les dicults lies une m- 22 1.2. DATA MINING thodologie de fouille de texte concernent (a) le choix dune reprsentation des textes en vue de leur traitement pour en extraire des connaissances, (b) le choix de la technique de fouille de donnes appliquer, (c) le choix de la mthode dvaluation de la qualit des connaissances extraites. Nous devons tenir en compte tous ces problmes durant la ralisation de notre partie dextraction des connaissances pertinentes partir des champs textuels de la partie " revendications " de brevets an de les classier. 1.2.4.1 Fouille de textes : un paradigme de lECBD La fouille de textes, ou text mining, est introduite au milieu des annes quatre-vingt dix sous le terme Knowledge Discovery in Textual Databases (KDT) [Feldman et Dagan, 1995] ou Text Data Mining (TDM) [Hearst, 1999], puis traduit en franais dans [Kodrato, 2000b] par Extraction des Connaissances partir de Textes (ECT). Nous gardons le terme " fouille de textes " car cest le plus usit dans la littrature, bien que le terme ECT nous paraisse plus appropri. Dans le texte introductif de latelier " Text Mining " de la confrence KDD2000, les organisateurs [Grobelnik et al, 2000] crivent que : " lobjectif de la fouille de textes est dexploiter linformation contenue dans les documents textuels de direntes manires, incluant les analyses classiquement faites en fouille de donnes : dcouvrir des patrons et des tendances dans les donnes, trouver des associations entre les notions, construire des rgles de prdiction, etc. ". Dans [Hearst, 1999] : " la fouille de donnes textuelles est un processus danalyse exploratoire de donnes qui permet de rvler de nouvelles connaissances ou de permettre de rpondre, de faon pertinente, des questions.". Pour [Kodrato, 2000a] : " le but dun processus de fouille de textes est de trouver des relations intressantes impossibles ou diciles dtecter par une analyse squentielle de linformation. ". Toutes ces dnitions sont en accord avec notre vision de la fouille de texte que nous la dvelopperons an dobtenir des classes signicatives de brevets partir des connaissances smantiques extraites des champs textuels en utilisant le Text Clustering. 1.2.4.2 Text Clustering Le text clustering joue un rle important en fournissant les mcanismes intuitifs de na- vigation et de lecture rapide par la transformation et lorganisation de grandes quantits de linformation en un nombre restreint de groupes indicatifs. Les algorithmes agglom- ratifs ou de partitionnements standards donnent ecacement des rsultats cet eet. 23 1.3. SOLUTIONS DANALYSE DE BREVETS Cependant, la base contenant les reprsentations de mots utilise pour ces mthodes de groupement est souvent insusante car il ignore des rapports entre les termes importants qui apparaissent, plusieurs fois, littralement. En outre, il est la plupart du temps laiss lutilisateur dcouvrir pourquoi une telle division a t ralise, puisque la smantique des mots rcuprs partir des textes nest pas intgre dans les algorithmes employs dans le domaine de text clustering. An de traiter ce type des problmes, nous pouvons intgrer des connaissances smantiques dans la base et les utiliser dans les mthodes de text clustering. Lapplication Wordnet [ Hotho et al, 2005 ] prend en considration la smantique des mots en traitant dabord le texte, , enrichissant les reprsentations de ses mots par des connaissances de base fournies dans une ontologie de noyau. Puis, les documents sont groups moyennant un algorithme de partitionnement qui utilise dans ses paramtres les notions de la smantique des connaissances. Nous dcortiquerons la notion de text clustering partir de notre application base sur les relations smantiques qui peuvent exister entre les mots de texte en plus de dtails dans le chapitre suivant. 1.3 Solutions danalyse de brevets Dans cette section, nous discutons brivement lapplication des mthodes de text mi- ning dans lanalyse des brevets. Pendant ces dernires annes, lanalyse des brevets a t dveloppe dans plusieurs do- maines, cause dune part, laugmentation du nombre de demandes de brevet et dautre part, les progrs apports dans la classication de texte. Dans ce cadre, des techniques supervises et non supervises sont appliques pour analyser les documents de brevet et soutenir les entreprises et loce europen des brevets dans leur travail. Les ds dans lanalyse des brevets se prsentent dans la longueur des documents, qui sont plus impor- tants que ceux utiliss gnralement dans la classication de texte, et le grand nombre de documents disponibles dans un corpus [Koster et al, 2001]. Habituellement chaque document compos de 5000 mots en moyenne. Plus que 140000 documents doivent tre traites par loce europen des brevets (EPO) par anne. Elles sont traites par 2500 examinateurs de brevets en trois endroits. Dans plusieurs tudes, la qualit de la classication a t analyse, [Koster et al, 2001] signale quun trs bon rsultat est atteint avec 3% du taux derreur pour la classication de 16000 documents en 16 catgories (mono-classement) et 6% en taux derreur pour une mme classication de rsums en utilisant le Winnow [Littlestone, 1988] et lalgorithme 24 1.3. SOLUTIONS DANALYSE DE BREVETS de [Rochio, 1971], ces rsultats sont possibles en raison de la grande quantit dinforma- tion disponibles dans les documents. De bons rsultats ont t galement signals dans [Krier et Zacca , 2002] pour un classement des textes (EPO) dans des applications internes avec une prcision de 78%. Les techniques de text clustering pour lanalyse des brevets sont souvent appliques dans les grandes entreprises pour la structuration et la visualisation dun corpus de brevets. Ainsi, ces mthodes se retrouvent dans un grand nombre de produits commerciaux, mais sont toujours des centres dintrt pour la recherche, car il est encore ncessaire de per- sonnaliser les services oerts par les sites qui traitent ce genre de documents et amliorer leurs performances. Les entreprises comme IBM orent des produits qui supportent lana- lyse du texte des documents de brevet. Dorre dcrit dans [Dorre et al, 1999] le "IBM Intelligent Miner for text" un scnario appliqu aux brevets et le compare avec le data mining et le text mining. Coupet [Coupet et Hehenberger, 1998] a tudi le clustering avec une visualisation agrable de rsultats. Conclusion Tout le long de ce chapitre, nous avons situ notre projet dans son cadre gnral. Nous avons, pour ce fait, introduit le paradigme Web smantique en prsentant quelques dnitions, les techniques de data mining et lapplication de ce domaine dans le text clustering . Ensuite, nous avons mis laccent sur les travaux existants dans lanalyse de brevet. Maintenant, nous pouvons entamer la phase suivante qui consiste prsenter notre problmatique ainsi que les exigences de notre systme. 25