Dea GSM PDF

Universit de La Manouba
Ecole Nationale des Sciences de lInformatique

Rapport de projet de n dtudes
Prsent en vue de lobtention du
titre dingnieur en Informatique
Par :
Aroua HEDHILI
Sujet :
Techniques de Data Mining et annotations smantiques
pour la classication de brevets en biomdecine
Organisme : INRIA Sophia Antipolis
Nom du responsable : Rose DIENG-KUNTZ
Encadr par : Martine COLLARD , Khaled KHELIF
Supervis par : Wided LEJOUED CHAARI
Adresse : 2004 routes des lucioles BP93 06902 Sophia Antipolis France
Tl : +33492387777
Fax : +33492387765
Rsum
U
NE des principales proprits des SMA est la communication entre agents. Cette dernire
reprsente un mcanisme capital dans une communaut dagents. Dans ce contexte, des
travaux proposent de dissocier les interactions du code des agents et de les considrer comme
des ressources indpendantes. Cette approche a t exprimente dans une Simulation de Trac
Routier (STR). Parmi ses apports gure celui de la dynamicit des interactions entre les agents,
ainsi que leur rutilisation. Dans ce travail, nous nous intressons structurer et organiser
ces interactions en vue de leur rutilisation. Dans ce contexte, nous proposons une Ontologie
dInteractions Logicielles pour les SMA OILSMA , ainsi quune bibliothque dinteractions
ddies une STR. Pour valuer limpact de la sparation et de la rutilisation des interactions,
nous procdons une tude de performances.
Mots cls : Simulation de Trac Routier, Systme Multi-Agent centr interactions, Ontologie
dinteractions, Bibliothque dinteractions, Evaluation de Performances.
A
GENT communication is one of the most important features in MultiAgent Systems
(SMA). It is a vital mechanism in the agents community. In this regard, some work pro-
pose the disassembling of these interactions from the agent code and consider them as a set
of independent resources. This approach has been experimented in a Road Trac Simulation
(STR). Among the advantages of this approach, we note the dynamic agent interactions and
their reuse. In this work, we consider the restructuring of these interactions for reuse purposes.
We propose a Software Interaction Ontology for the SMA called OILSMA and an interaction
library for the STR. A performance study is carried out in order to assess the impact of the
disassembling and the reuse of the agent interactions.
Keywords : Road Trac Simulation, Interactions based MultiAgent Systems , Interaction
ontology, Interaction library, performance evaluation.
ii
iii
Table des matires
Introduction gnrale 1
1 Etude pralable 4
1.1 Le Web smantique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.1 Les ontologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.2 Mtadonne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.3 Les annotations smantiques . . . . . . . . . . . . . . . . . . . . . . 6
1.1.4 Lapproche PatAnnot . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1.5 Les standards de reprsentation des connaissances . . . . . . . . . . 7
1.1.5.1 XML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.1.5.2 RDF/S . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.1.5.3 OWL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.2 Data mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.1 Denintion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.2.2 Extraction des connaissances dans des bases de donnes . . . . . . . 12
1.2.3 Les techniques de clustering . . . . . . . . . . . . . . . . . . . . . . 13
1.2.3.1 Proprits gnrales des mthodes de clustering . . . . . . 14
1.2.3.2 Principales techniques de clustering . . . . . . . . . . . . . 15
1.2.4 Text Mining . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
1.2.4.1 Fouille de textes : un paradigme de lECBD . . . . . . . . 23
1.2.4.2 Text Clustering . . . . . . . . . . . . . . . . . . . . . . . . 23
iv
TABLE DES MATIRES
1.3 Solutions danalyse de brevets . . . . . . . . . . . . . . . . . . . . . . . . . 24
v
Table des gures
1.1 lannotation smantique [Euzenat, 2002] . . . . . . . . . . . . . . . . . . . 7
1.2 Un exemple de graphe RDF . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3 les couches du Web smantique selon le W3C . . . . . . . . . . . . . . . . . 10
1.4 Exemple de dendrogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.5 Exemple de dendrogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
vi
Liste des tableaux
vii
Introduction gnrale
L
E Web contient des volumes normes de donnes htrognes : donnes structures,
semi structures, textuelles, multimdia (des images, des vidos...), voire des donnes
correspondant des objets mathmatiques (formules mathmatiques) ou gomtriques,
etc, ces donnes devant ensuite faire sens aux humains les manipulant (i.e. smantique au
sens linguistique voire smiotique) ou aux programmes les exploitant (i.e. smantique au
sens des langages de programmation). Le d sera donc de rsoudre : les problmes de
langages de reprsentation des connaissances (e.g. ontologies et descriptions " smantiques
" de ressources et de services), de leur smantique formelle et de leur interoprabilit, les
problmes dautomatisation permettant un passage lchelle via lexploitation de la
fouille de donnes ("data mining"), la fouille de textes ("text mining") reposant sur des
techniques de traitement automatique de la langue naturelle et de techniques statistiques,
et la fouille des usages du Web (" web usage mining ").
Lquipe EDELWEISS intervient dans ce dt dans le cadre dun projet europen
dont lobjectif est la conception et la ralisation dun navigateur web smantique pour
le domaine des sciences de la vie, qui exploitera la plate-forme scientique en la rendant
partageable, accessible et manipulable par plusieurs utilisateurs dans dirents domaines
biomdicaux et ceci an de favoriser le partage de connaissances. Ce navigateur fera appel
aux services web raliss base du standard XML et manipulera le contenu smantique
des ressources (pages web, news, documents...) laide des ontologies et des techniques
de capitalisation des connaissances.
Le navigateur smantique Sealife va tre mis en valeur travers les scnarios de trois
applications biomdicales : la fouille de la littrature et lanalyse de brevets (Patent and
litterature mining), la biologie molculaire, et la mdecine base sur les preuves (Evidence
1
INTRODUCTION GNRALE
Based Medecine (EBM)) tout en traitant le cas particulier des maladies infectieuses. Ce
navigateur sera ralis laide des technologies du web smantique.
Etant partenaire intervenant la ralisation du projet Sealife, lquipe Edelweiss a
propos le sujet " Techniques de Data Mining et annotations smantiques pour
la classication brevets en biomdecine".
Prsentation du sujet
Le traitement des documents de proprit intellectuelle, tels que les brevets, est impor-
tant pour lindustrie, les aaires et les communis juridiques. Par consquent, de grands
eorts ont t exercs durant ces dernires annes pour mieux exploiter les connaissances
contenues dans ce type de document. Dans ce cadre, les brevets en biomdecine sont
une source dinformation trs riche et pour lesquelles il est ncessaire de dvelopper des
techniques danalyse permettant de les classier et den extraire les connaissances perti-
nentes an de faciliter la tche des utilisateurs de ces sites. Pour rpondre cette attente,
lquipe-projet EDELWEISS a propos, comme une premire tape, une approche PatAn-
not fonde sur les principes du web smantique et qui gnre un ensemble dannotations
donnant une reprsentation smantique des connaissances contenues dans un brevet. Ces
annotations permettent ainsi deectuer une recherche intelligente sur brevets. Comme
deuxime tape Edelweiss envisage dtendre cette approche en proposant des techniques
de classication diriges par les annotations smantiques gnres an de proposer luti-
lisateur des brevets relevant de ses centres dintrt.
Prsentation de lorganisme daccueil
Ce travail, ralis dans le cadre dun projet de n dtudes pour obtenir le diplme ing-
nieur en informatique, se droule au sein de lunit de recherche INRIA Sophia Antipolis
dans lquipe Edelweiss.
INRIA Sophia Antipolis : Lunit de recherche INRIA Sophia Antipolis a t
cre au coeur de la technopole Sophia Antipolis en 1983. Cette unit regroupe, sur ses
sites de Sophia Antipolis, Marseille et Montpellier, 500 personnes dont 380 scientiques
rparties au sein dune trentaine dquipes en partenariat avec le CNRS, plusieurs uni-
versits et grandes coles. Leurs travaux portent sur la conception et la programmation
2
INTRODUCTION GNRALE
de systmes informatiques performants, la reprsentation et la manipulation dinforma-
tions complexes, la cration, la modlisation et la simulation dexpriences complexes. Ils
permettent lavance des connaissances dans quatre grands domaines :
interaction homme machine.
rseaux et systmes.
gnie logiciel et calcul symbolique.
images, donnes, connaissances, simulation et optimisation des systmes complexes.
Lquipe Edelweiss : EDELWEISS : Exchange, Documents, Extraction, Lan-
guages, Web, Ergonomie, Interactions, Semantique, Serveurs. Lquipe de recherche Edel-
weiss est une suite lquipe ACACIA (Acquisition des Connaissances pour lAssistance
la Conception par Interaction entre Agent) dans lunit de recherche INRIA Sophia
Antipolis. Cest une quipe pluridisciplinaire qui vise proposer des modles, des m-
thodes et des outils pour aider des communauts de pratique et/ou dintrt grer leurs
connaissances de manire collaborative via le Web en interagissant avec des ressources
dinformations et des personnes " annotes smantiquement " , cest--dire indexes par
des " ontologies ".
Les communauts de pratique et/ou dintrt sont des groupes de personnes ayant un int-
rt commun ou une passion commune pour un sujet ou un problme, et qui partagent leurs
ides et leurs expriences et recherchent en commun une solution. Les axes de recherche
de Edelweiss sont :
Annotations smantiques de ressources dinformation.
Interaction design.
Reprsentation avec des graphes de connaissances.
3
CHAPITRE
1
Etude pralable
Notre problmatique se rfre aux notions de web smantiques, reprsentation des
connaissances, traitement automatique de la langue naturelle et au domaine de data-
mining ou la fouille de donnes et en particulier la fouille de textes pour la classication
smantique des brevets en biomdecine.
Dans ce qui suit nous dcrivons en premier lieu, ltat de lart en web smantique. Celui-
ci comprend la dnition du web smantique, de mtadonnes ainsi quune description
des outils de reprsentation des connaissances du web. En second lieu, nous enchanons
par la prsentation de la fouille de donnes, Pour ce fait, nous nous proposons, dabord,
de dnir sommairement cette discipline. Ensuite, nous passons en revue les direntes
techniques de clustering. Enn, nous nous intressons aux principaux travaux qui ont t
raliss dans le cadre de lanalyse et de classication des documents en particulier les
brevets.
1.1 Le Web smantique
Cette notion propose initialement par Tim Berners-Lee [Berners, 2001] au sein du
W3C, est dabord une infrastructure devant permettre des agents logiciels daider plus
ecacement dirents types dutilisateurs dans leurs accs aux direntes ressources sur
le web (sources dinformation et services). En eet, le web smantique repose sur des
langages et une infrastructure dont lobjectif est de se donner la possibilit denrichir le
web actuel laide dinformations dites " smantiques ", utilisables par des machines, qui
faciliteront la recherche et lusage des ressources Web (pages Web, images, services, etc.).
Il sagit donc dassocier ces dernires des informations structures descriptives sous la
forme de mtadonnes (ou annotations).
Lexpression Web smantique fait dabord rfrence la vision du Web de domaine comme
4
1.1. LE WEB SMANTIQUE
un vaste espace dchange de ressources entre tres humains et machines permettant une
exploitation, qualitativement suprieure, de grands volumes dinformations et de services
varis. Le but est de dcharger les utilisateurs dune bonne partie de leurs tches de re-
cherche, de construction et de combinaison de rsultats, grce aux capacits accrues des
machines accder aux contenus des ressources et eectuer des raisonnement sur ceux-
ci.
Le web smantique, concrtement, est dabord une infrastructure pour permettre lutili-
sation des connaissances formalises. Cette infrastructure doit :
. Permettre de localiser, didentier et de transformer des ressources de manire robuste
et saine, tout en renforant lesprit douverture du Web avec sa diversit dutilisateurs.
. Contribuer assurer, le plus automatiquement possible, linteroprabilit et les trans-
formations entre les dirents formalismes et les dirents modles (i.e. les ontologies).
. Faciliter la mise en oeuvre de calculs et de raisonnements complexes tout en orant
des garanties suprieures sur leur validit.
. Orir des mcanismes de protection (droits daccs, dutilisation et de reproduction),
ainsi que des mcanismes permettant de qualier les connaissances an daugmenter
le niveau de conance des utilisateurs.
1.1.1 Les ontologies
La notion du web smantique est base sur le principe de communication entre des
acteurs agissant sur des ressources. Ces acteurs peuvent tre de natures varies et em-
ployant de dirents jargons, concernant des concepts, des structures et des mthodes. La
communication doit avoir lieu et ceci est dicile sans avoir un modle ou un catalogue qui
facilite le partage de connaissances en assurant la comprhension rversible entre acteurs.
Ce modle est une sorte dunicateur qui rsout les conits et les confusions an dassurer
linteroprabilit, la rutilisation et le partage de ressources en reprsentant le sens des
concepts et les relations entre eux. Cest ainsi la notion dontologie est apparue.
Le mot ontologie trouve sa racine du grec onto (tre) et logos qui signie discours, son
premier sens trouve son origine en philosophie, o lontologie est ltude des proprits des
proprits gnrales de ce qui existe. Une ontologie informatique est une reprsentation de
proprits gnrales de ce qui existe dans un formalisme supportant un traitement ration-
nel. Cest le rsultat dune formulation exhaustive et rigoureuse de la conceptualisation
dun domaine. Elle permet grce aux travaux de lintelligence articielle symbolique sur les
5
systmes base de connaissances et les moteurs dinfrence, dimplanter des mcanismes
de raisonnement dductif, de classication automatique, de recherche dinformation, et
dassurer linteroprabilit entre plusieurs systmes de ce type.
1.1.2 Mtadonne
Lutilisation de linfrastructure du Web smantique par direntes applications sera
progressive. Un des principes de base du Web smantique tant de dcrire les ressources
du Web laide de marqueurs exploitables par dirents logiciels ce sont les mtadonnes.
Le mot " MetaData " trouve sa racine du grec meta qui signie " aprs " et du latin data
qui signie " informations " ce qui permet de dnir ce terme comme une donne servant
dnir ou dcrire une autre donne quel que soit son support. Les mtadonnes sont
constitues de contenu structur ou non structur qui peut consister en des mots, des
formules des analyses spectrales, etc. Elles peuvent tre cres de faon automatique ou
manuelle et peuvent avoir plusieurs niveaux de complexit. Elles sont faites pour tre lues
soit par les humains, soit par la machines si elles sont smantiques.
1.1.3 Les annotations smantiques
Une annotation est une description permettant davoir une information de type mta-
donne facilitant lexploitation, laccs, la recherche et la reconnaissance dune ressource.
Lannotation peut se baser sur un modle conceptuel comme par exemple une ontologie
an davoir un aspect smantique lui permettant dtre utilisable, accessible et reconnue
par un ensemble dacteurs ou dagents. Le contenu de lannotation permet lannotateur
de transmettre sa description de la ressource traite, cette description est signicative
pour tous les autres acteurs agissant dans la mme reprsentation conceptuelle. Lannota-
tion smantique ne peut tre donc comprhensible que lorsquelle est relie un modle.
Ainsi une annotation smantique permet dtablir un lien entre une entit dune ressource
donne et sa reprsentation smantique dcrite dans le modle qui est en gnral une
ontologie relative au domaine o la ressource volue.
Dans le cadre de Web smantique, [Euzenat, 2002] formalise lannotation comme tant
une relation entre deux ensembles dobjets, un ensemble D de documents et un ensemble
R de reprsentations formelles, cette relation dnit deux fonctions : d tant un lment
de D et r un lment de R.
6
la fonction " Annotation " dans le sens D R : telle que Annotation(d)=r.
la fonction " Index " dans le sens R D : telle que Index (r) =d.
Fig. 1.1 lannotation smantique [Euzenat, 2002]
1.1.4 Lapproche PatAnnot
Cest une approche dveloppe par [Nizar, 2007] an de faciliter la gnration auto-
matique des annotations smantiques base dontologies sur les brevets accessibles en
ligne et elle repose sur les principes et les technologies du web smantique. Ces anno-
tations peuvent tre utilises par les moteurs de recherche smantiques an dextraire
les connaissances incluses dans les brevets et les prsenter selon le prol de lutilisateur.
Lide capitale est de pouvoir prendre en considration la structure des brevets an de
retrouver un lien entre, dune part, les connaissances contenues dans les documents et,
dautre part, les concepts de lontologie utilise, Ds lors, nous optons cette mthode pour
gnrer des annotations smantiques partir des parties " claims " de la structure dun
brevet en se servant des ontologies de domaine.
1.1.5 Les standards de reprsentation des connaissances
Les travaux visant la ralisation du Web smantique se situent des niveaux de com-
plexit trs dirents. Les plus simples utilisent des jeux plus au moins rduits de m-
tadonnes dans un contexte de recherche dinformations ou pour adapter la prsentation
des informations aux utilisateurs. Dans ce cas, des langages de reprsentation simples sont
7
susants. Dans les travaux plus complexes mettant en oeuvre des architectures sophisti-
ques, pour permettre par exemple lexploitation de ressources htrognes, des langages
plus expressifs et plus formels issus des travaux en reprsentation et en ingnierie des
connaissances, sont ncessaires. Il a t bien reconnu dans la communaut du Web s-
mantique que les ontologies jouent un rle important facilitant le partage dinformation
entre les communauts dhumains et des agents logiciels.
Il semble clair que le Web smantique ne pourra voir le jour sans un minimum de standar-
disation. Dirents consortiums et organismes mettant donc les acteurs autour dune table
pour dnir les langages utiliser dans le Web smantique an dassurer des traitements
uniformes sur des documents crits dans ces langages. Les travaux de standardisation sont
bien avancs et le 10 fvrier 2004, OWL, RDF et RDFS sont devenus des recommandations
du W3C. RDF est utilis pour reprsenter linformation et pour changer la connaissance
sur le Web. OWL est utilis pour publier des ontologies, en supportant des recherches
dinformation avances, la gestion de la connaissance et des agents logiciels (W3C 2004).
1.1.5.1 XML
Le XML (EXtended Markup Language)[XML, W3C 2006] est un langage de descrip-
tion et dchange de documents structurs, issu de SGML (Standard Generalized Markup
Language) et dni par le W3C. XML permet de dcrire la structure arborescente de docu-
ments laide dun systme de balises permettant de marquer les lments qui composent
la structure et les relations entre ces lments (relatives une DTD
1
). XML ne pose au-
cune contrainte smantique sur la description des informations, il ne constitue pas donc un
langage de modlisation dontologies lui seul. XML Schema [XML-S, W3C 2004] (XML-
S) est un outil de dnition de grammaires caractrisant des arborescences de documents
(notion de validit syntaxique). Avec les schmas XML, il est possible de contraindre la
structure arborescente dun document mais pas la smantique des informations contenues
dans ce document.
1
" Document Type Denition " : dnit la structure logique dun type de documents (balises, ordre
dapparition, frquence, type de donnes, attributs, entits, etc.) rutilisable pour tous les documents de
mme type.
8
1.1.5.2 RDF/S
Le premier de ces langages est RDF (Ressource Description Framework) [Lassila et
Swick, 2001] auquel sest ajout rapidement RDF Schema (RDFS). Les objectifs initiaux
de RDF taient la reprsentation et une meilleure exploitation des mtadonnes. Mais,
de manire plus gnrale, RDF permet de voir le Web comme un ensemble de ressources
relies par les liens tiquets " smantiquement ". Un document RDF est un ensemble de
triplets de la forme <sujet, prdicat, objet>. Les lments de ces triplets peuvent tre
des URIs (Universal Resource Identiers)[Berners-lee et al, 1998], des littraux ou des
variables. Cet ensemble de triplets peut tre reprsent de faon naturelle par un graphe
(plus prcisment un multi-graphe orient tiquet), o les lments apparaissent comme
sujet ou objet sont les sommets, et chaque triplet est reprsent par un arc dont lorigine
est son sujet et la destination son objet.
Fig. 1.2 Un exemple de graphe RDF
RDFS ajoute RDF la possibilit de dnir des hirarchies de classes (rdfs : Class et rdfs :
subClassOf) et de proprits (rdfs :subPropertyOf) dont lapplicabilit et le domaine
de valeurs peuvent tre contraints laide des attributs rdfs :domain et rdfs :range. A
chaque domaine applicatif peut tre associ un schma identi par un prxe particulier
et correspondant une URI. Les ressources instances sont ensuite dcrites en utilisant le
9
vocabulaire donn par les classes dnies dans ce schma. Les applications peuvent alors
leur donner une interprtation oprationnelle. On peut noter que RDFS nintgre pas en
tant que tel de capacits de raisonnement.
1.1.5.3 OWL
Le " Web Ontology Language " [OWL, W3C 2004] est un vocabulaire XML bas sur
RDF, il fournit un langage pour dnir des ontologies web structures. OWL ore plus
de facilits pour exprimer la signication et la smantique que XML, RDF et RDF-S. Il
dnit et instancie des ontologies Web. Une ontologie OWL peut contenir des descriptions
de classes, de proprits et de leurs instances. Pour une telle ontologie, la smantique
formelle OWL indique comment dduire ses consquences logiques, cest--dire les faits
non pas littralement prsents dans lontologie mais qui dcoulent de la smantique. Ces
infrences peuvent tre fondes sur un seul document ou sur plusieurs documents rpartis
combins laide de mcanismes OWL dnis.
Le Web smantique se construit au fur et mesure sur la capacit de XML de dnir des
schmas de balisage personnaliss et sur la exibilit de lapproche RDF pour reprsenter
les donnes. Si les machines sont supposes faire des tches de raisonnement utiles sur
ces documents, le langage doit aller au-del des smantiques de base du RDF Schema.
OWL est une partie dune pile volutive (FiG 1.3)des recommandations W3C relative au
Web smantique [Hyvonen, 2002].
Fig. 1.3 les couches du Web smantique selon le W3C
Cest dans le but davoir un web collaboratif et intelligent, que la notion du web
10
1.2. DATA MINING
smantique fut propose. Cette notion originale repose sur le principe de partage des
ressources web entre acteurs (agent logiciel, application, utilisateur, etc.). Ainsi, divers
langages ont t proposs dans le but de reprsenter les ressources web formellement pour
assurer leur traitement automatique et dcharger lutilisateur dun ensemble de tches en
lui prsentant le meilleur rsultat. Notre travail repose sur les notions que nous venons
de dcrire an de prsenter les connaissances dduites partir des pages web ainsi que
lutilisation de ces connaissances dans des techniques de fouille de donnes dans le but de
classier les brevets du domaine de science de la vie.
1.2 Data mining
1.2.1 Denintion
Le Data Mining ou la fouille de donnes consiste rechercher et extraire de linfor-
mation (utile et inconnue) de gros volumes de donnes stockes dans des bases ou des
entrepts de donnes. Le dveloppement rcent de la fouille de donnes (depuis le dbut
des annes 1990) est lie plusieurs facteurs : une puissance de calcul importante est dis-
ponible sur les ordinateurs de bureau ou mme domicile, le volume des bases de donnes
augmente normment, laccs aux rseaux de taille mondiale est facilit, il y a une prise
de conscience de lintrt commercial pour loptimisation des processus de fabrication,
vente, gestion, logistique, etc. La fouille de donnes est un domaine de recherche encore
jeune, qui fait suite au dsir des utilisateurs des sites web ayant de grandes masses de
donnes des travaux pour faciliter, entre autres, leurs tches en proposant des sources
dinformations dintrt en fonction de leurs prols. Mais ce volume de donnes doit pas-
ser par une phase de slection et de prparation pour quil soit mieux exploitable, Cela
peut ncessiter, par exemple, de complter les donnes manquantes ou de slectionner les
variables descriptives. La slection des variables descriptives les plus pertinentes permet
de rduire le volume de donnes. En fait, cette phase est inclus dans le processus gnral
de data mining pour lextraction des connaissances partir des donnes " Extraction de
connaissances dans des bases de donnes (ECBD)".
11
1.2. DATA MINING
1.2.2 Extraction des connaissances dans des bases de donnes
LExtraction de Connaissances dans des Bases de Donnes (ECBD) est une activit
qui consiste analyser un ensemble de donnes brutes pour en extraire des connaissances
exploitables. Les connaissances sont des lments qui possdent une syntaxe et une sman-
tique, formalises dans un langage de reprsentation de connaissances. Les connaissances
sont manipules dans un Systme Base de Connaissances (SBC) pour rsoudre des
problmes et eectuer des raisonnements. Un raisonnement permet dinfrer de nouvelles
connaissances partir de connaissances existantes. Un expert du domaine relatif aux don-
nes, lanalyste, est charg de diriger lextraction. Ces nouvelles connaissances viennent
complter le savoir de lanalyste sur le domaine. En fonction de ses objectifs, lanalyste
va slectionner les donnes et utiliser les outils de Fouille de Donnes pour construire
des modles du domaine expliquant les donnes. Lanalyste peut ensuite slectionner et
exploiter les modles qui reprsentent un point de vue " satisfaisant ". LECBD fdre
trois grands domaines de recherche :
lapprentissage : trouver des relations entre les proprits possdes par des instances.
Une instance est une entit ou un individu possdant un certain nombre de propri-
ts. Par exemple, Jean est une instance de personne qui peut tre caractrise par son
nom, son date de naissance, sa taille, sa profession, etc., qui, lorsquelles sont d-
nies (i.e. lorsquelles prennent des valeurs) constituent ses proprits. Ce domaine est
connu avec ses techniques dapprentissage supervis et non supervis, en fait lappren-
tissage supervis est une technique dapprentissage automatique o nous cherchons
produire automatiquement des rgles partir dune base de donnes dapprentis-
sage contenant des exemples de cas dj traits. Plus prcisment, la base de donnes
dapprentissage est un ensemble de couples entre-sortie que nous le considrons tre
tires selon une loi inconnue. Le but dun algorithme dapprentissage supervis est de
gnraliser pour des entres inconnues ce quil a pu " apprendre " grce aux donnes
dj traites par des experts, ceci de faon " raisonnable ". Contrairement la m-
thode de lapprentissage non supervis, dans laquelle il ny a pas de sortie a priori.
Dans lapprentissage non-supervis il y a en entre un ensemble de donnes collectes.
Ensuite le programme traite ces donnes comme des variables alatoires et construit
un modle de densits jointes pour cet ensemble de donnes.
la rtro-conception dans les bases de donnes relationnelles : extraire des dpendances
fonctionnelles entre les proprits dans un schma dune base de donnes.
12
1.2. DATA MINING
la reprsentation de connaissances : donner une reprsentation logique aux lments
dinformation manipuls pour eectuer un raisonnement, par exemple une infrence
par dduction ou par induction (i.e. ou gnralisation).
1.2.3 Les techniques de clustering
Lapplication dune mthode de clustering revient mettre de lordre dans un jeu de
donnes. A partir de ceci, nous constatons aisment que les domaines dapplication du
clustering peuvent tre trs varis. Cest pourquoi le sujet est frquemment abord par des
mtiers divers. Par exemple, le clustering peut sattacher dresser des prols de clients
dune socit, permettre de rassembler des malades prsentant les mmes symptmes,
classer des documents, ou encore raliser du credit scoring dans le domaine bancaire,etc.
Typiquement, la personne ayant recours une mthode de clustering dispose dune base de
donnes dans laquelle aucune structure nest apparente, du moins pour loeil humain. Ceci
peut simplement tre la consquence de la quantit abondante dinformation. Selon les
buts poursuivis par lutilisateur, nous pouvons dgager trois grands types dapplications
([Candillier, 2004]) :
. Knowledge Extraction : reprend les applications qui utilisent le clustering pour ex-
traire de la connaissance dune base de donnes. Concrtement, ceci vise dterminer
des " sousconcepts " an de donner du sens linformation dont nous disposons. Nous
esprons ainsi pouvoir sattaquer des tches telles que la gnration dhypothses
(modlisation prdictive), le diagnostic mdical en se basant sur des caractristiques
communes de patients, etc. Dans ce cadre, notre projet cherche classier un volume
important de brevets tous en se basant sur la smantique des connaissances extraites
partir dune fouille des champs textuels dune partie la plus intressante dans la
structure dun brevet.
. Data Reduction : vise utiliser le clustering pour segmenter la base de donnes en
groupes homognes et ainsi rduire la taille de lensemble des donnes sur lequel on
travaille. Il sagit donc de dterminer des " sous-espaces " de lespace des donnes.
La compression dinformation et la segmentation dimages sont des cas concrets de
ce type dapproches.
. Proling : utilise le clustering pour dtecter des " sous-populations " ayant des ca-
ractristiques proches dans une base de donnes an de pouvoir prendre des dcisions
particulires, adaptes chaque sous-population sparment. Ceci touche directement
13
1.2. DATA MINING
les applications o lon cherche regrouper des clients (Customer Relationship Ma-
nagement, en marketing), dans les transports, dans les banques, dans les commerces,
dans les tlcommunications, dans la gestion de ressources (nergie, stocks,etc.) etc,
Nous trouvons galement de nombreuses utilits dans le domaine de la classication
de documents ce qui prsente lune des perspectives de notre stage puisque nous cher-
chons classier des millions de brevets en biomdecine, sont dposs et accessibles
partir des sites dorganisations comme le USPTO (United States Patent and Tra-
demark Oce) ou le WIPO (World Intellectual Property Organization), en vue de
faciliter la tche de lutilisateur en lui proposant des sources dinformations dintrt
en fonction de son prol.
Les techniques de clustering visent dans toutes leurs applications obtenir les meilleurs
clusters, de ce fait, le nombre de mthodes dveloppes actuellement est considrable et
augmente encore. Ainsi, le clustering est dite " data driven ", cest--dire quil nexiste pas
de mthode pouvant tre catalogue comme meilleure quune autre de manire absolue.
1.2.3.1 Proprits gnrales des mthodes de clustering
Chaque technique de clustering peut se voir attribuer diverses proprits ([Jain, 1999],
[Candilier, 2004]), reprises ci-dessous :
. Mthode ascendante ou descendante : encore dite proprit dagglomration ou de
division. La distinction stablit sur le principe gnral suivi par la mthode. Dans
les mthodes agglomratives, la dmarche est de partir de petits clusters nombreux et
ensuite de les regrouper progressivement en clusters plus consquents. Par contre, les
mthodes divisives arrivent une partition de lensemble des donnes en "coupant"
successivement de gros clusters en groupes plus petits.
. Mthode dterministe ou stochastique : cette proprit est lie au caractre de la sortie
de la mthode. Dans une approche dterministe, le rsultat du clustering sera toujours
identique si nous avons entre plusieurs fois le mme jeu de donnes, de la mme
faon. A loppos, une mthode stochastique gnre une partition rsultant de choix
diverses tapes du droulement de la mthode. Ces choix ntant pas constamment
identiques, la sortie de la mthode variera, mme si nous avons plusieurs reprises
le mme jeu de donnes, de la mme faon.
. Mthode monothtique ou polythtique : cette caractristique traite les attributs des
objets pour arriver une partition. Dans une approche polythtique, tous les attributs
14
1.2. DATA MINING
sont considrs simultanment. Cest typiquement le cas de mthodes bases sur les
distances (au sens large), pour lesquelles le calcul du rapprochement de deux objets
fait intervenir tous les attributs de lobjet ( une slection pralable prs). Dans le
cas dune mthode monothtique, les attributs sont considrs un un, chacun deux
amenant successivement une partition de lespace des donnes. Ce type dapproche
amne spontanment opter pour une description des clusters laide de conjonctions
logiques.
. Mthode incrmentale ou non incrmentale : cette proprit sappuie sur la manire
de classer les objets. Dans une approche non incrmentale, les objets sont regroups
selon certains critres et peuvent changer de groupe en cours dexcution de lalgo-
rithme. Par contre, dans une mthode incrmentale, les objets sont placs selon leur
ordre darrive dans un cluster et nen bougent plus.
. Mthode hard ou fuzzy : encore dite mthode dure ou oue. Dans une approche dure,
les clusters gnrs sont mutuellement exclusifs. A loppos, une mthode oue alloue
des clusters aux objets avec dirents degrs dappartenance. Un objet peut donc
appartenir en partie plusieurs clusters.
La prsentation de ces proprits nous laisse entrevoir de nombreuses combinaisons pos-
sibles entre elles. Tous ces recoupements gnrent au moins chacun une mthode, ou plus
gnralement une catgorie de mthodes.
1.2.3.2 Principales techniques de clustering
Rappelons que les problmes de clustering sont " data driven ". Ceci induit une multi-
plicit des mthodes et de leurs variantes qui fait quil devient pratiquement impossible
de dresser un tat complet de la discipline. De plus, de nouvelles mthodes apparaissent
rgulirement.. Le but de ce paragraphe est de prsenter les mthodes de clustering les
plus courantes et daboutir un classement aussi robuste que possible de ces mthodes.
Nanmoins, vu le nombre de proprits de chaque mthode et leurs recoupements, il est
impossible de raliser un classement complet. Nous choisirons donc certaines proprits
dterminantes nous permettant de voir plus clair dans la discipline. Il est vident que
ces choix inuenceront le classement obtenu. Ceci nest pas limitatif tant donn quau-
cun classement absolu nest adopt par la littrature. Nous prsenterons ici les mthodes
les plus couramment rencontres. Dans certains cas, dautres types de techniques seront
abords brivement, essentiellement titre indicatif et par souci de compltude.
15
1.2. DATA MINING
Suite des hypothses eectues, la diversit des mthodes traiter devient assez bien
dlimite. Ainsi, nous pouvons dj annoncer une premire subdivision la tte de notre
classement, en deux catgories de mthodes :
1.2.3.2.1 Les mthodes de partition
Ces mthodes gnrent unepartition de lespace des donnes en travaillant directement
sur la prise en compte de plusieurs clusters. Typiquement, elles expriment le problme de
clustering comme un problme doptimisation dune fonction critre de " qualit ". Elles
peuvent tre classes en direntes catgories, comme nous allons le voir.
Clustering par critre de " plus proche voisin " : A partir du moment o la notion
de distance est centrale en clustering, certaines techniques se basent directement sur
une distance particulire pour dnir le critre permettant dobtenir les clusters. Par
exemple, une technique se basant sur la notion de centrode le plus proche est celle
du " single pass clustering ". Comme son nom lindique, cette mthode ne requiert
quun seul passage dans le jeu de donnes. Il sagit donc dune mthode incrmentale
qui consiste allouer les objets au centrode le plus proche dj connu, dans lordre
de leur arrive. Parmi les inconvnients de cette mthodes nous citons le rsultat de
la mthode dpend de lordre dentre des objets, les premiers clusters forms sont
souvent plus grands que ceux crs plus tard dans lexcution de la mthode. Nous
aurons donc un dsquilibre (non forcment justi) dans la taille des clusters.
Clustering par critre du carr des carts aux centrodes : Une autre famille de m-
thodes de partition est celle se basant sur un critre de " qualit " (construction)
consistant minimiser la somme des carrs des carts (distance) entre chaque objet
et le centrode du cluster courant qui lui est associ. Parmi ces mthodes, nous trou-
vons lalgorithme bien connu des K-means (K-moyennes) que nous le dvelopperons
dans le chapitre suivant.
Clustering par la thorie des graphes : Ce type de mthodes est surtout utilis lorsque
les donnes sont prsentes sous forme de graphe. Le principe le plus connu consiste
dterminer un arbre partiel minimum (MST) [VINCKE, 2004], et ensuite " eacer
" les arrtes de plus grandes valeurs an de dterminer les clusters. Pour cela, deux
approches sont possibles : soit nous xons le nombre de clusters trouver, soit nous
eaons les arrtes dont la valeur est suprieure une valeur seuil. Ceci est illustr
la gure I.5 o nous obtenons une partition en trois clusters. Le principal inconvnient
de cette mthode est sa complexit, essentiellement lie la construction de larbre
16
1.2. DATA MINING
partiel minimum.
Clustering par utilisation de grilles : Ces mthodes utilisent une grille partitionnant
lespace des donnes en de multiples cellules M dimensions (M tant le nombre
dattributs). Ensuite, les densits de ces cellules bien dlimites peuvent tre calcu-
les avec deux types dapproches ([Candillier, 2004]) soit par une dtection de zones
denses, nous dtectons les clusters comme des zones denses (possdant beaucoup
dobjets par unit de volume) dans lespace des donnes. Nous fusionnons donc des
cellules de sorte que leur regroupement ait une densit suprieure une valeur seuil
xe et susamment uniformment rpartie, soit par une dtection de zones peu
denses dans cette approche nous cherchons dceler des zones inoccupes de lespace
an dtablir les frontires entre clusters. Nous nous basons donc sur lexistence de
changements (brusques) de densits au travers des limites des clusters an de les
reconstituer.
A titre indicatif, citons encore les approches qui utilisent la notion de la densit et ses
paramtres (le rayon maximum du voisinage dun objet et le nombre minimum dobjets
qui doit tre contenu dans ce voisinage), dautres se basent sur lhypothse que les donnes
ont t gnres selon une certaine distribution. Ainsi, si nous arrivons dterminer les
paramtres de la distribution, nous dterminerons galement les clusters. En plus , Les
approches volutives qui se distinguent des autres mthodes de clustering par le fait que
nous ne faisons plus voluer une seule partition, mais une population de partitions. Ces
approches trouvent leur inspiration dans lvolution naturelle. Pour caractriser lvolu-
tion, nous faisons souvent appel des oprateurs dvolution dont les plus courants sont
la slection, la mutation et la recombinaison, ainsi que les approches de clustering par
recherche stochastique et par rseaux de neurones.
1.2.3.2.2 Les mthodes hirarchiques
En opposition aux mthodes de partition, les mthodes hirarchiques ne gnrent pas
seulement une partition de lespace des donnes, mais une succession de partitions. Celles-
ci sont souvent reprsentes sous la forme dun dendrogramme. Selon que nous parcourons
le dendrogramme " de haut en bas " ou " de bas en haut ", la mthode sera dite divisive
ou agglomrative.
Dendrogramme : La sortie dune mthode hirarchique nest donc pas directement
une partition de lespace des donnes, mais un arbre de partitions successives appel
dendrogramme. Dans une approche ascendante (agglomrative), nous commenons
17
1.2. DATA MINING
avec autant de clusters quil y a dobjets. Ensuite, chaque tape, nous regroupons
les deux lments (objets ou clusters) qui sont jugs les plus similaires pour terminer
avec un seul grand cluster englobant toutes les donnes. Contrairement, dans une
approche descendante (divisive), nous partons dun grand cluster que nous le divisons
progressivement pour obtenir au nal un ensemble de singletons (les objets). Dans
les deux cas, un dendrogramme reprsente les direntes tapes successives de la
recherche des clusters. Il prsente chaque niveau quels lments ont t rassembls
dans une approche de " bas en haut " ou au contraire quels lments ont t crs
dans une approche de " haut en bas ". Un exemple de dendrogramme est prsent
la gure I.4, issue de [Jain, 1999]. Laxe horizontal correspond aux objets tandis que
laxe vertical indique la dis similarit entre les dirents niveaux (ou leur similarit
selon le choix du sens de laxe).
Fig. 1.4 Exemple de dendrogramme
Nous pouvons se poser la question du nombre optimal de clusters. De faon
gnrale, nous admettons en gnral quil faut couper la hirarchie au niveau o "
les collines deviennent montagnes ". Ceci revient couper larbre au moment o
nous commenons rassembler des lments forts dis similaires (ou lorsqunous
commenons diviser des lments homognes). Cette coupe est prsente en traits
pointills sur la Figure I.4, nous obtenons alors une partition correspondant la
sortie de la mthode.
Mthodes hirarchiques ascendantes : Comme nous lavons vu, les mthodes hirar-
chiques ascendantes consistent rassembler, chaque tape, les lments (objets ou
clusters) les plus similaires au sein dun mme nouveau cluster. Leur schma gnral
peut tre prsent comme suit :
18
1.2. DATA MINING
1. Crer autant de clusters quil y a dobjets. Pour N objets, nous aurons donc
N singletons.Dnir une valeur seuil de distance (ou dissimilarit) au-dessus de
laquelle deux lments ne devront pas tre rassembls.
2. Comparer toutes les paires dlments possibles et marquer la paire ayant la plus
petite distance (ou dissimilarit).
3. Si cette distance (ou dissimilarit) est infrieure la valeur seuil, rassembler les
deux lments dans un mme cluster et retourner au point 2. Sinon, n de la
procdure.
Il est vident que le choix de la valeur seuil est dterminant pour la sortie puisquelle
impose nalement le niveau de coupe dans le dendrogramme. De manire gnrale, les
mthodes hirarchiques seront coteuses en CPU partir du moment o les lments
sont compars deux deux chaque tape. Leur complexit est donc quadratique.
Au premier niveau, nous regrouperons deux objets en un cluster. Ensuite, ds le
second niveau, nous devrons valuer la distance (ou dissimilarit) entre un objet
et un cluster. Ds la troisime tape, nous pourrons tre amen devoir valuer
la distance (ou dissimilarit) entre deux clusters. Nous voyons donc que ce type de
mthodes fait intervenir tous les concepts physiques de la notion de rapprochement.
Partant du mme principe gnral, les direntes mthodes hirarchiques ascendantes
se distinguent par la manire dagglomrer les groupes, et plus prcisment par la
faon de dterminer les deux clusters les plus similaires (les plus proches) une
tape. Nous parlons de critre dagrgation qui direncie les direntes approches
des mthodes hirarchiques descendantes.
Mthodes hirarchiques descendantes : Les mthodes hirarchiques descendantes d-
terminent, chaque tape, le groupe courant le moins homogne et le partagent en
deux sous-groupes. Leur schma gnral est le suivant :
1. Rassembler tous les objets dans un mme cluster. Dnir une valeur seuil de
distance (ou de dissimilarit) au-dessus de laquelle deux objets ne pourront pas
tre considrs comme appartenant un mme groupe.
2. Comparer tous les objets deux deux dans chaque cluster et marquer la paire
dobjets ayant la plus grande distance (ou dis similarit).
3. Si cette distance (ou dis similarit) est suprieure la valeur seuil, couper le
cluster correspondant en deux et retourner au point 2. Sinon, n de la procdure.
Contrairement aux mthodes agglomratives, seule la dnition dune distance (ou
19
1.2. DATA MINING
dissimilarit) entre deux objets est ncessaire pour les mthodes divisives. Les diverses
mthodes se distinguent alors uniquement sur la manire de diviser un cluster en deux
sous clusters.
Nous trouvons dans certains cas des mthodes hybrides alliant une mthode de parti-
tion (pour sa complexit linaire) avec une mthode hirarchique (pour sa plus grande
souplesse). Par exemple, nous pouvons combiner une mthode hirarchique ascendante
et la mthode des K-means en direntes tapes ([LEBART, 2000], [DECAESTE-
CKER,2005]) :
1. Dans un premier temps, nous appliquons la mthode des K-means, en adoptant volon-
tairement un nombre de clusters largement suprieur au nombre de clusters souhait
dans la partition nale. Ceci nous fournit une premire partition de lespace des
donnes.
2. Nous regroupons ensuite hirarchiquement les centrodes des clusters trouvs ltape
1. Ceci nous permet de ne pas devoir appliquer dalgorithme agglomratif sur len-
semble du jeu de donnes. Le gain est consquent vu la complexit quadratique des
mthodes agglomratives. Nous obtenons une partition du jeu de centrodes de ltape
1 par coupure du dendrogramme au niveau adquat. Nous disposons alors dun nou-
veau nombre de clusters, plus appropri.
3. Nous consolidons le rsultat par rallocation des objets aux centres des clusters de
ltape 3, par la mthode des K-means.
Il existe dautres mthodes hybrides qui ne font pas forcment appel une mthode
hirarchique et une mthode de partition simultanment. Le tableau suivant fournit une
comparaison schmatique des mthodes de partition et des mthodes hirarchiques.
Fig. 1.5 Exemple de dendrogramme
20
1.2. DATA MINING
1.2.4 Text Mining
Le terme " fouille de textes " distingue, dans la littrature, des mthodologies et des
outils trs dirents. Selon la culture scientique des chercheurs qui sintressent la
fouille de textes, ce terme recouvre des travaux en recherche dinformation, en extrac-
tion dinformation, en extraction de terminologies, en structuration dontologies, pour les
systmes de questions/rponses etc. Dans ce projet, nous dnissons la fouille de textes
comme tant un processus dextraction de connaissances partir des corpus appliqu
des donnes textuelles en se basant sur leurs signications smantiques. Notre nalit est
de dnir une mthodologie de fouille pour ces donnes textuelles. Pour ce faire, nous
discutons dans des chapitres suivants des proprits des donnes textuelles en soulevant
des problmes concernant lanalyse et la reprsentation des contenus des textes. Cette
problmatique relve des travaux existants en traitement automatique de la langue qui
peuvent, selon le cas, rpondre ou non nos besoins pour la modlisation des donnes tex-
tuelles. La modlisation des textes constitue ltape de prparation des donnes textuelles
en vue de la mise en oeuvre des tapes suivantes du processus de fouille " smantique " de
texte, lutilisation des techniques de fouille de donnes, linterprtation des connaissances
extraites.
La fouille de textes (ou text mining ) dbute par la modlisation des textes en vue
de leur prparation pour ltape de fouille de donnes et sachve par linterprtation des
rsultats de la fouille pour lenrichissement des connaissances dun domaine. Lensemble de
ces trois tches constitue une chane appele " processus de fouille de textes ". Le processus
de fouille de texte saligne sur le processus dextraction de connaissances dans des bases
de donnes (ECBD) prsent par Fayyad et al. [Fayyad et al, 1996] mais possde des
spcicits lies aux donnes textuelles manipules par ce processus. Il sut de parcourir
un guide touristique, un manuel dinstructions, un brevet dune molcule chimique ou
un article scientique pour se rendre compte quils ne sont pas comparables en termes
de structure et de connaissances vhicules. Contrairement aux donnes classiquement
manipules en ECBD (bases de donnes, donnes structures, etc.), ltape de modlisation
des donnes textuelles a une grande inuence sur la qualit des connaissances extraites
partir des textes.
21
1.2. DATA MINING
La problmatique gnrale en fouille de texte est de tirer prot dlments dinformation
extraits an dexprimer des connaissances utilisables pour le domaine trait par les textes.
Les nouvelles connaissances extraites servent enrichir les connaissances actuelles dun
domaine contenues, par exemple, dans une base de connaissances. Ensuite, lextraction de
nouvelles connaissances permet de raisonner sur les connaissances actuelles pour modier
(rviser, spcier, etc.) ou bien justier les connaissances actuelles. La pertinence des
nouvelles connaissances extraites par le processus de fouille de texte est juge par un
analyste, un expert du domaine de fouille.
La fouille de texte doit rpondre ces besoins : (i) de taille et de structure des donnes
textuelles fouiller (un texte, plusieurs milliers de textes), (ii) dindpendance par rapport
la nature des donnes textuelles et des connaissances extraire, (iii) dindpendance par
rapport lordre de traitement des textes et (iv) dindpendance par rapport au domaine
de fouille, cest--dire un besoin de reproductibilit.
(i) Premirement, une mthodologie de fouille de texte doit permettre une caractrisation
globale du contenu dun ensemble de textes. Ce besoin se retrouve dans des applications de
constitution et ltrage dune terminologie ou une application de recherche dinformation.
Deuximement, la fouille de texte permet de trouver des liens entre les textes, comme
les rgularits des contenus, diciles reprer par une lecture squentielle de lensemble
des textes. Le besoin de fouille sur plusieurs textes se retrouve dans une application
dextraction dinformation qui porte sur plusieurs textes.
(ii) Une mthodologie de fouille de texte doit fonctionner indiremment sur tout type de
donnes non structures, cest--dire sur des textes, des listes de formules chimiques, des
squences ADN de protines, etc. Le processus doit tre robuste pour fonctionner sur ces
direntes donnes textuelles (pas de gestion derreurs sil y en a et pas de vrication de
types de donnes par exemple), et ce, quelque soit le type de connaissance dcrit par les
textes (compte rendu, dmonstration, etc.).
(iii) Une mthodologie de fouille de texte doit donner les mmes rsultats en partant dun
mme ensemble de textes, indpendamment de lordre de la prise en compte des textes,
cest--dire que les textes sont donc analyss dans leur globalit.
(iv) Une mthodologie de fouille de texte ne doit pas tre ad hoc un domaine particulier,
elle doit tre reproductible pour un autre domaine. Seules les donnes textuelles et les
connaissances du domaine changent. La mthodologie doit donc rester stable et gnrique.
Une mthodologie de fouille de texte soulve un certain nombre de problmes, tant
donnes les contraintes lies aux besoins cits ci-dessus. Les dicults lies une m-
22
1.2. DATA MINING
thodologie de fouille de texte concernent (a) le choix dune reprsentation des textes en
vue de leur traitement pour en extraire des connaissances, (b) le choix de la technique
de fouille de donnes appliquer, (c) le choix de la mthode dvaluation de la qualit
des connaissances extraites. Nous devons tenir en compte tous ces problmes durant la
ralisation de notre partie dextraction des connaissances pertinentes partir des champs
textuels de la partie " revendications " de brevets an de les classier.
1.2.4.1 Fouille de textes : un paradigme de lECBD
La fouille de textes, ou text mining, est introduite au milieu des annes quatre-vingt
dix sous le terme Knowledge Discovery in Textual Databases (KDT) [Feldman et Dagan,
1995] ou Text Data Mining (TDM) [Hearst, 1999], puis traduit en franais dans [Kodrato,
2000b] par Extraction des Connaissances partir de Textes (ECT). Nous gardons le terme
" fouille de textes " car cest le plus usit dans la littrature, bien que le terme ECT
nous paraisse plus appropri. Dans le texte introductif de latelier " Text Mining " de la
confrence KDD2000, les organisateurs [Grobelnik et al, 2000] crivent que : " lobjectif
de la fouille de textes est dexploiter linformation contenue dans les documents textuels
de direntes manires, incluant les analyses classiquement faites en fouille de donnes :
dcouvrir des patrons et des tendances dans les donnes, trouver des associations entre
les notions, construire des rgles de prdiction, etc. ". Dans [Hearst, 1999] : " la fouille
de donnes textuelles est un processus danalyse exploratoire de donnes qui permet de
rvler de nouvelles connaissances ou de permettre de rpondre, de faon pertinente,
des questions.". Pour [Kodrato, 2000a] : " le but dun processus de fouille de textes est
de trouver des relations intressantes impossibles ou diciles dtecter par une analyse
squentielle de linformation. ". Toutes ces dnitions sont en accord avec notre vision de
la fouille de texte que nous la dvelopperons an dobtenir des classes signicatives de
brevets partir des connaissances smantiques extraites des champs textuels en utilisant
le Text Clustering.
1.2.4.2 Text Clustering
Le text clustering joue un rle important en fournissant les mcanismes intuitifs de na-
vigation et de lecture rapide par la transformation et lorganisation de grandes quantits
de linformation en un nombre restreint de groupes indicatifs. Les algorithmes agglom-
ratifs ou de partitionnements standards donnent ecacement des rsultats cet eet.
23
1.3. SOLUTIONS DANALYSE DE BREVETS
Cependant, la base contenant les reprsentations de mots utilise pour ces mthodes de
groupement est souvent insusante car il ignore des rapports entre les termes importants
qui apparaissent, plusieurs fois, littralement. En outre, il est la plupart du temps laiss
lutilisateur dcouvrir pourquoi une telle division a t ralise, puisque la smantique
des mots rcuprs partir des textes nest pas intgre dans les algorithmes employs
dans le domaine de text clustering. An de traiter ce type des problmes, nous pouvons
intgrer des connaissances smantiques dans la base et les utiliser dans les mthodes de
text clustering. Lapplication Wordnet [ Hotho et al, 2005 ] prend en considration la
smantique des mots en traitant dabord le texte, , enrichissant les reprsentations de
ses mots par des connaissances de base fournies dans une ontologie de noyau. Puis, les
documents sont groups moyennant un algorithme de partitionnement qui utilise dans ses
paramtres les notions de la smantique des connaissances. Nous dcortiquerons la notion
de text clustering partir de notre application base sur les relations smantiques qui
peuvent exister entre les mots de texte en plus de dtails dans le chapitre suivant.
1.3 Solutions danalyse de brevets
Dans cette section, nous discutons brivement lapplication des mthodes de text mi-
ning dans lanalyse des brevets.
Pendant ces dernires annes, lanalyse des brevets a t dveloppe dans plusieurs do-
maines, cause dune part, laugmentation du nombre de demandes de brevet et dautre
part, les progrs apports dans la classication de texte. Dans ce cadre, des techniques
supervises et non supervises sont appliques pour analyser les documents de brevet et
soutenir les entreprises et loce europen des brevets dans leur travail. Les ds dans
lanalyse des brevets se prsentent dans la longueur des documents, qui sont plus impor-
tants que ceux utiliss gnralement dans la classication de texte, et le grand nombre
de documents disponibles dans un corpus [Koster et al, 2001]. Habituellement chaque
document compos de 5000 mots en moyenne. Plus que 140000 documents doivent tre
traites par loce europen des brevets (EPO) par anne. Elles sont traites par 2500
examinateurs de brevets en trois endroits.
Dans plusieurs tudes, la qualit de la classication a t analyse, [Koster et al, 2001]
signale quun trs bon rsultat est atteint avec 3% du taux derreur pour la classication
de 16000 documents en 16 catgories (mono-classement) et 6% en taux derreur pour une
mme classication de rsums en utilisant le Winnow [Littlestone, 1988] et lalgorithme
24
1.3. SOLUTIONS DANALYSE DE BREVETS
de [Rochio, 1971], ces rsultats sont possibles en raison de la grande quantit dinforma-
tion disponibles dans les documents. De bons rsultats ont t galement signals dans
[Krier et Zacca , 2002] pour un classement des textes (EPO) dans des applications internes
avec une prcision de 78%.
Les techniques de text clustering pour lanalyse des brevets sont souvent appliques dans
les grandes entreprises pour la structuration et la visualisation dun corpus de brevets.
Ainsi, ces mthodes se retrouvent dans un grand nombre de produits commerciaux, mais
sont toujours des centres dintrt pour la recherche, car il est encore ncessaire de per-
sonnaliser les services oerts par les sites qui traitent ce genre de documents et amliorer
leurs performances. Les entreprises comme IBM orent des produits qui supportent lana-
lyse du texte des documents de brevet. Dorre dcrit dans [Dorre et al, 1999] le "IBM
Intelligent Miner for text" un scnario appliqu aux brevets et le compare avec le data
mining et le text mining. Coupet [Coupet et Hehenberger, 1998] a tudi le clustering
avec une visualisation agrable de rsultats.
Conclusion
Tout le long de ce chapitre, nous avons situ notre projet dans son cadre gnral.
Nous avons, pour ce fait, introduit le paradigme Web smantique en prsentant quelques
dnitions, les techniques de data mining et lapplication de ce domaine dans le text
clustering . Ensuite, nous avons mis laccent sur les travaux existants dans lanalyse de
brevet. Maintenant, nous pouvons entamer la phase suivante qui consiste prsenter notre
problmatique ainsi que les exigences de notre systme.
25

Dea GSM PDF

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Dea GSM PDF

Transféré par

Droits d'auteur :

Formats disponibles

Universit de La Manouba

Ecole Nationale des Sciences de lInformatique

Vous aimerez peut-être aussi