Rapport Final

Rapport de Mini Projet
Mesure de Similarit entre des Ontologies

Ralis par Mohamed Bchir Mrabet
Iheb Jbalia
Marouane Lakhal
Encadr par Mlle Naouel Ayari
Soutenu le 20 janvier 2010
Jury :
Mme Sonia Bouzidi Mme Khadija Arour
Anne Universitaire : 2009-2010
Remerciements
Nous tenons adresser nos vifs remerciements et exprimer toute notre profonde reconnaissance notre encadreur Mlle Ayari Naouel, qui nous a consacre beaucoup de son temps et qui nous a prodigue des conseils et des directives trs utiles et dont laide et la collaboration ont t trs constructives. Par ailleurs, nos remerciements sadressent galement tous ceux qui de loin ou de prs nous ont aids et ont contribus llaboration de ce mini projet.
Rsum Les ontologies sont exploites dans le domaine des systmes dinformations. Elles permettent la description, la reprsentation et la manipulation des connaissances dun domaine particulier. Lalignement dontologies consiste chercher les correspondances entre les differentes entits des diverses ontologies. Lobjectif de lalignement est de trouver les points de jonction qui permettront de concevoir des ponts entre les ontologies, ou de procder dautres oprations de manipulation. Mots Cls. Alignement dontologie, Web smantique, Ontologie Web Language, SODA.
Table des matires

Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Etat de lart 1.1 Introduction . . . . . . . . . . . . . . . 1.2 Le web smantique . . . . . . . . . . . 1.2.1 Dnition . . . . . . . . . . . . 1.2.2 Les langages du web smantique 1.3 Le langage OWL . . . . . . . . . . . . 1.3.1 Dnition . . . . . . . . . . . . 1.3.2 Le langage XML . . . . . . . . 1.3.3 Le langage RDF . . . . . . . . 1.4 Les Ontologies . . . . . . . . . . . . . 1.4.1 Dnition . . . . . . . . . . . . 1.4.2 Composition . . . . . . . . . . 1.5 Mthodes de mesure de similarit . . . 1.5.1 La similarit . . . . . . . . . . 1.5.2 Les mthodes dalignements . . 1.5.3 Exemples de Mthodes . . . . . 1.6 Conclusion . . . . . . . . . . . . . . . Analyse et conception 2.1 Introduction . . . . . . . . . . . . . . . 2.2 Analyse des besoins . . . . . . . . . . . 2.2.1 Diagramme de cas dutilisation 2.2.2 Diagramme de squences . . . 2.3 Conception . . . . . . . . . . . . . . . 2.4 Conclusion . . . . . . . . . . . . . . . 5 7 7 7 7 7 9 9 9 9 10 10 10 10 10 12 14 15 16 16 16 16 18 19 21
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
. . . . . .
Ralisation 22 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.2 Les outils utiliss . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.2.1 Netbeans . . . . . . . . . . . . . . . . . . . . . . . . . . 22 1
3.3 3.4 3.5 3.6
3.7 3.8
3.2.2 MySql . . . . . . . . . . . . . . . 3.2.3 PowerAMC . . . . . . . . . . . . 3.2.4 LaTeX . . . . . . . . . . . . . . Langage utilis . . . . . . . . . . . . . . La bibliothque Jena . . . . . . . . . . . Environnement matriel . . . . . . . . . . Mthode dalignement utilis . . . . . . . 3.6.1 Mesure de similarit linguistique 3.6.2 Mesure de similarit structurelle . 3.6.3 Mesure de similarit globale . . . Fonctionnalits de lapplication . . . . . . Conclusion . . . . . . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
. . . . . . . . . . . .
23 23 23 23 23 24 24 24 26 28 28 30 31 32 32
Conclusion gnrale Bibliographie Netographie
Table des gures

1.1 2.1 2.2 2.3 3.1 3.2 3.3 3.4 3.5 3.6 3.7 Les catgories des mesures de similarit selon diffrentes techniques 11 Diagramme de cas dutilisation . . . . . . . . . . . . . . . . . . . 17 Diagramme de squence . . . . . . . . . . . . . . . . . . . . . . 19 Diagramme de classes . . . . . . . . . . . . . . . . . . . . . . . . 20 Algorithme 1 . . . . . . . . . . . Algorithme 2 . . . . . . . . . . . Fonction TO1 . . . . . . . . . . . Fonction TO2 . . . . . . . . . . . Visualisation des images relles . Visualisation du graphe conceptuel Visualisation du rsultat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 . 27 . 27 . 28 . 29 . 29 . 29
Liste des tableaux

1.1 2.1 2.2 2.3 Critres principaux dutilisation des mesures de la similarit . . . 12
Description textuelle du cas dutilisation calcul de similarit . . . 18 Description textuelle du cas dutilisation afchage de limage . . . 18 Description textuelle du cas dutilisation afchage du graphe conceptuel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
Introduction
A sa cration par Tim Berners Lee 1 , au dbut des annes 1990, lobjectif du web tait de permettre des changes rapides de savoirs entre individus distants. Cest dans ce but qua t cr le langage HTML, autorisant une mise en forme aise et rapide des documents en ligne. Cependant, Les connaissances que proposent les pages Web ont peu peu t enfermes dans une couche prsentationnelle qui, si elle na pas dnature linformation, la en tout cas rendue moins accessible. Depuis plusieurs annes, toutefois, une nouvelle ide du Web prend corps : celle dun Web Smantique. Ce dernier est conu pour que le contenu des ressources sur le Web puisse tre rendu smantiquement comprhensible et accessible par des logiciels. Les ressources disponibles sur Internet telles que des documents, des images, des services ont une smantique associe. Grce cette smantique, lorganisation, la sauvegarde, la recherche dinformations pourraient tre ralises, traites dune manire automatique par des logiciels. La smantique du contenu des ressources dans le Web smantique doit donc tre rendue explicite et disponible pour les machines dans une reprsentation formelle et standardise. La standardisation peut aider diffrents programmes inter-oprer ou changer des donnes. La manire de reprsenter la smantique dans le Web smantique est dutiliser une ontologie. Problmatique A cause de leur prolifration, de plus en plus dontologies dcrivent un mme domaine existant. Cette multitude dontologies voque un problme dhtrognit. Face cette htrognit, il est ncessaire de trouver des moyens pour assurer leur interoprabilit pour pouvoir les faire collaborer et permettre aux composants intelligents de les utiliser. Il sagit en dautres termes de trouver des procds pour aligner les ontologies.
1. Tim Berners-Lee, de son nom complet Sir Timothy John Berners-Lee, n Londres le 8 juin 1955, est le principal inventeur du World Wide Web. Il prside aujourdhui le World Wide Web Consortium (W3C).
Plan du rapport Ce rapport commence par un premier chapitre ddi ltat de lart. Nous prsentons dans ce chapitre le domaine dapplication des ontologies et leurs notions de base. Dans le deuxime chapitre, nous faisons lanalyse des besoins et la conception de notre application qui permet de mesurer la similarit entre des ontologies. Le troisime chapitre est consacr la ralisation de cette application. En conclusion, nous prsentons un bilan de notre travail.
Chapitre 1 Etat de lart

1.1 Introduction
Les ontologies sont une notion en pleine expansion et est promue comme une solution pour le dveloppement et lamlioration de certains concepts. Parmi ses concepts on peut citer un des plus importants : Le web smantique.
1.2
1.2.1
Le web smantique
Dnition
Pour dnir le web smantique, il faut tout dabord dnir la notion de base de cette technologie quest la mtadonne Dnition 1 Une mtadonne est une donne servant dnir ou dcrire une autre donne. Ce basant sur cette dnition, nous pouvant dterminer plus clairement la notion de ce nouveau web qui peut se rsumer comme tant un ensemble de technologies visant rendre le contenu des ressources du World Wide Web accessible et utilisable par les programmes, grce un systme de mtadonnes formelles.
1.2.2
Les langages du web smantique
Comme on peut sen rendre compte daprs la dnition, le web smantique sert faciliter la comprhension du web des programmes informatiques pour augmenter leur efcacit de parcours de donnes et donc le gain de ressources. Ce but ne peut tre atteint quavec la mise en ordre des donnes sous une 7
forme spciale : celle des mtadonnes. Pour cela, certains dveloppeurs du web smantiques ont opts pour une solution base sur la cration de nombreux langages dvelopps cet effet. En voici quelques exemples : Open Knowledge Base Connectivity : OKBC 2.0, publi en 1997, est une API permettant daccder des bases de connaissance (Knowledge Representation System). Knowledge Interchange Format : est un langage destin faciliter des changes de savoirs entre des systmes informatiques. Son objectif nest pas de permettre une intraction avec ltre humain (bien que cela reste possible), mais plutt une coopration entre systmes htrognes. LOOM : est un langage de reprsentation des connaissances dont le but avou est de permettre la construction dapplications intelligentes ". DARPA Agent Markup Language : fond sur XML et RDF, DAML-ONT est apparu en Octobre 2000 suite un effort du DARPA (Defense Advanced Research Projects Agency), an dautoriser lexpression de classes RDF plus pousses que ce que permettait lpoque RDFS. Le programme DAML se poursuit encore lheure actuelle. En raction lapparition de ces nombreux langages poursuivant pour la plupart des buts communs, le World Wide Web Consortium 1 (aussi appel W3C) a mis sur pieds, en Novembre 2001, le groupe de travail " WebOnt ", charg dtudier la cration dun langage standard de manipulation dontologies web. Le premier Working Draft " OWL Web Ontology Language 1.0 Abstract Syntax " parat en Juillet 2002 et, au nal, OWL devient une Recommandation du W3C le 10 Fvrier 2004.
1. consortium charg de promouvoir la compatibilit des technologies du World Wide Web telles que HTML, XHTML, XML, RDF
1.3
1.3.1
Le langage OWL
Dnition
Le langage OWL est bas sur la recherche effectue dans le domaine de la logique de description 2 . Il permet de dcrire des ontologies, cest--dire quil permet de dnir des terminologies pour dcrire des domaines concrets. Une terminologie se constitue de concepts et de proprits (aussi appels " rles " en logiques de description). Un domaine se compose dinstance de concepts. OWL est, tout comme RDF, un langage XML protant de luniversalit syntaxique de XML.
1.3.2
Le langage XML
Le langage XML(eXtensible Markup Language) est un mtalangage facilitant llaboration de langages balises spcialiss, il a conquis de multiples formats, les nouveaux comme les anciens. Nombreux sont les documents qui protent aujourdhui du cadre de XML
1.3.3
Le langage RDF
Le langage RDF est un langage bas sur XML qui a t dvelopp dans le but de : - manipulation et classication des mtadonnes Web, an de fournir des informations sur les ressources Web et les systmes qui les utilisent. - faciliter le traitement automatique de linformation du Web par des programmes, transformant ainsi le web dun regroupement dinformations uniquement destines aux humains, en un tat de rseau de processus en coopration.
2. La logique de description est une famille de langages de reprsentation de connaissance qui peuvent tre utiliss pour reprsenter la connaissance terminologique dun domaine dapplication dune manire formelle et structure
1.4
1.4.1
Les Ontologies
Dnition
Une ontologie est lensemble structur des termes et concepts reprsentant le sens dun champ dinformations, que ce soit par les mtadonnes dun espace de noms, ou les lments dun domaine de connaissances. Lontologie constitue en soi un modle de donnes reprsentatif dun ensemble de concepts dans un domaine, ainsi que les relations entre ces concepts. Elle est employe pour raisonner propos des objets du domaine concern. Les concepts sont organiss dans un graphe dont les relations peuvent tre : - des relations smantiques(permettent de relier les concepts des diffrentes relations traitant le mme domaine dtude) - des relations dinclusion. Lobjectif premier dune ontologie est de modliser un ensemble de connaissances dans un domaine donn, qui peut tre rel ou imaginaire.
1.4.2
Composition
Une ontologie est compose de trois parties : - Classe : cest dire un groupe dindividus partageant les mmes caractristiques. On pourrait comparer cela une table dans le domaine des bases de donnes relationnelles. - Proprit : qui permet de dnir des faits ou des relations entre ces classes. - Instance : cest dire un individu dune classe qui peut prendre les caractristiques dnies par les proprits.
1.5
Mthodes de mesure de similarit
Avant de prsenter ces mthodes, nous donnons la dnition de la similarit.
1.5.1
La similarit
Dans notre contexte, la notion de similarit est plutt celle de la similarit smantique, qui est galement appele la proximit smantique. Cest la quantit qui rete la force du rapport entre deux objets ou deux caractristiques. 10
F IGURE 1.1 Les catgories des mesures de similarit selon diffrentes techniques
11
La Figure 1.1 rsume diffrentes mesures de similarit, catgorises selon les techniques utilises. Ce rsum est une synthse des travaux prsents dans [Rahm et Bernstein, 2001] et [Shvaiko et Euzenat, 2004]. Les mesures de similarit, de distance peuvent tre classes selon la nature des entits que lon veut comparer : des termes, des chanes de caractres, des structures, des instances (des individus des classes), des modles thoriques.
1.5.2
Les mthodes dalignements
Les mthodes terminologiques Ces mthodes se basent sur la comparaison des termes ou des chanes de caractres ou bien les textes. Elles sont employes pour calculer la valeur de la similarit des entits textuelles, telles que des noms, des tiquettes, des commentaires, des descriptions. Ces mthodes peuvent encore tre divises en deux souscatgories : lune contient des mthodes qui comparent des termes en se basant sur les caractres contenus dans ces termes et lautre utilise certaines connaissances linguistiques.
Mesure de similarit
Domaine dapplication Bigrams (n=2) est efcace avec des erreurs typographiques mineures. utilise principalement pour les entits numriques ayant des tailles xes, comme les codes postaux ou les numros de scurit sociale. la meilleure performace au niveau des rsultats de plusieurs expriences. Peut tre employe dans plusieurs domaines Presque mme performance au niveau des rsultats que Monge-Elkan mais beaucoup plus rapide
N-gram
Distance de Hamming
Distace de Monge-Elkan
Distance de Jaro/Jaro-Winkler
TABLE 1.1 Critres principaux dutilisation des mesures de la similarit
12
Les mthodes structurelles Ce sont des mthodes qui dduisent la similarit de deux entits en exploitant des informations structurelles lorsque les entits en question sont relies aux autres par des liens smantiques ou syntaxiques, formant ainsi une hirarchie ou un graphe des entits. Nous appelons mthodes structurelles internes les mthodes qui nexploitent que des informations concernant des attributs dentits, et mthodes structurelles externes les autres qui considrent des relations entre des entits. Les mthodes structurelles internes Ces mthodes calculent la similarit entre deux entits en exploitant des informations des structures internes de ces entits. Dans la plupart des cas, ce sont des informations concernant des attributs de lentit, telles que des informations du co-domaine des attributs, celles de la cardinalit des attributs, celles des caractristiques des attributs (la transitivit, la symtrie), ou celles des autres types de restriction sur des attributs. Les mthodes structurelles externes Contrairement aux mthodes dcrites prcdemment, qui exploitent des informations des attributs dentits, les mthodes structurelles externes exploitent des relations entre des entits ellesmmes, qui sont souvent des relations dinclusion (spcialisation). Avec ces relations, les entits sont considres dans des hirarchies et la similarit entre elles est dduite de lanalyse de leurs positions dans ces hirarchies. Lide de base est que si deux entits sont similaires, leurs voisines pourraient galement tre dune faon ou dune autre similaires. Cette observation peut tre exploite de plusieurs manires diffrentes en regardant des relations avec dautres entits dans des hirarchies. Deux entits peuvent tre considres similaires si : - Leurs super-entits directes (ou toutes leurs super-entits) sont similaires. - Leurs surs (ou toutes leurs surs, qui sont les entits ayant la mme superentit directe avec les entits en question) sont dj similaires. - Leurs sous-entits directes (ou toutes leurs sous-entits) sont dj similaires. - Leurs descendants (entits dans le sous-arbre ayant pour racine lentit en question) sont dj similaires. - Toutes (ou presque toutes) leurs feuilles (les entits de mme type, qui nont aucune sous-entit, dans le sous-arbre ayant pour racine lentit en question) sont dj similaires. - Toutes (ou presque toutes) les entits dans les chemins de la racine aux entits en question sont dj similaires.
13
1.5.3
Exemples de Mthodes
Anchor-PROMPT [Noy et Musen, 2001] : Anchor-PROMPT construit un graphe tiquet orient reprsentant lontologie partir de la hirarchie des concepts et de la hirarchie des relations, o les noeuds dans le graphe sont des concepts et les arcs dnotent des relations entre les concepts (les tiquettes des arcs sont les noms des relations). Anchor-PROMPT analyse les chemins dans les sous-graphes limits par les ancres(des paires de concepts similaires) et il dtermine quels concepts apparaissent frquemment en positions similaires sur les chemins similaires. En sappuyant sur ces frquences, lalgorithme dcide si ces concepts sont smantiquement similaires. Cependant, Anchor-PROMPT ne cherche que des correspondances des concepts, pas des correspondances des relations. En outre, il emploie des noms de relation pour des tiquettes sur les arcs et la comparaison des chanes de caractres de ces tiquettes nest que la comparaison simple. Ainsi si les noms de relation sont diffremment dnis, lalgorithme ne fonctionnera pas bien. Les rsultats retourns par lalgorithme seront galement limits si les structures des ontologies sont diffrentes (par exemple lune est profonde avec beaucoup de concepts au milieu, et lautre est peu profonde). OLA [Euzenat et Valtchev, 2004] : Cest un algorithme pour aligner des ontologies reprsentes en OWL. Il essaie de calculer la similarit de deux entits dans deux ontologies en se basant leurs caractristiques (leurs types : classe, relation ou instance, leurs rapports avec dautres entits : sous-classe, domaine, co-domaine) et de combiner les valeurs de similarits calcules pour chaque paire dentits de manire homogne. La combinaison est la somme pondre des valeurs de similarit de chaque caractristique. Les poids sont associs suivant le type dentit comparer et ses caractristiques. Ils sont mis dans une matrice des poids et sont prdnis avant lexcution de lalgorithme. Les mesures de similarit de base employes dans lalgorithme sont lgalit des chanes des caractres pour des URI des entits, des mesures de similarit des sufxes ou des chanes des caractres pour des tiquettes des entits, la similarit (lgalit) des types des donnes. Pour la similarit entre deux ensembles, le cas trs souvent rencontr dans OWL (par exemple, en comparant deux entits, lalgorithme exploite la similarit de deux ensembles dentits qui sont sous-entits des entits en question), il utilise la mesure de similarit base sur des correspondances. partir des valeurs de similarit calcules par des mesures de base, lalgorithme applique un calcul du
14
point xe, avec des itrations pour amliorer la similarit de deux entits. Quand il ny a plus damliorations, des alignements entre deux ontologies sont gnrs. SODA [ Sami Zghal , Sadok Ben Yahia , Engelbert Mephu Nguifo , Yahya Slimani , 2007] : SODA, prend en entre deux ontologies dcrites en format OWL-DL. Les ontologies OWL-DL apparier sont transformes sous forme dun graphe DLGRAPH. Le graphe DL-GRAPH reprsente toutes les informations contenues dans une ontologie OWL-DL : les classes, les relations et les instances. Les noeuds du graphe sont les entits de lontologie : les classes, les proprits et les instances, les arcs du graphe dcrivent les relations qui existent entre ces diffrentes entits. Chaque entit de lontologie OWL-DL est dcrite par une ressource, reprsente par une notion associe dans le formalisme RDF et identie par un URI. SODA est une approche reposant sur un modle de calcul des similarits locale et globale. Ce modle exploite la structure du graphe DL-GRAPH pour apparier les noeuds des deux ontologies et calculer les mesures de similarits. Le modle dalignement calcule pour chaque catgorie de noeuds, appartenant au graphe DLGRAPH, une fonction dagrgation. La fonction dagrgation prend en considration toutes les mesures de similarit et la structure des noeuds apparier. Ainsi, cette fonction exploite toute linformation descriptive de ce couple.
1.6
Conclusion
Dans ce chapitre, nous avons prsent les connaissances de base concernant notre domaine de travail. Nous avons montr que lontologie est un des composants les plus importants dans le Web smantique. Dans le but de rsoudre les problmes concernant lhtrognit des ontologies, nous avons prsent des travaux dans la littrature qui abordent le problme dalignement dontologies. Nous avons aussi prsent la notion de similarit entre deux entits dans le monde du Web smantique utilise dans notre contexte de recherche, ainsi que des mthodes de base permettant de calculer cette valeur de similarit.
15
Chapitre 2 Analyse et conception

2.1 Introduction
Nous ddions ce chapitre certains diagrammes de lapproche de conception objet UML. Dans cette optique, nous commenons par le diagramme de cas dutilisation, puis nous prsentons le diagramme de squences, et enn, nous terminons par le diagramme de classes.
2.2
2.2.1
Analyse des besoins

Diagramme de cas dutilisation
Les diagrammes de cas dutilisations expliquent les interactions entre les objets du systme au sein dun scnario.
16
Diagramme
F IGURE 2.1 Diagramme de cas dutilisation
Description textuelle Cas dutilisation : Calcul de similarit Acteurs primaires : Utilisateur Description : Le calcul de similarit comprend le calcul de similarit linguistique, le calcul de similarit structurelle et le calcul de similarit globale. Cas : calcul de similarit linguistique Le calcul de similarit linguistique se base sur la mthode de JaroWinkler pour la comparaison entre les diffrentes chaines de caractres des diffrentes parties de lontologie (les classes, les instances et les proprits). Aprs avoir compars chacune de ces similarits, on associe a chaque partie un poids avec la somme des poids est gale a 1.Ensuite il fait leur somme pondre.
17
Cas : calcul de similarit structurelle Le calcul de similarit structurelle consiste en la recherche de similarit linguistique des noeuds voisins de chaque noeud par rapport a ceux de la deuxime ontologie Cas : calcul de similarit globale Le calcul de similarit globale est obtenue en calculant la somme pondre des similarits linguistique et structurelle. Exception : Si lutilisateur na pas choisit une ontologie o il na choisit quune seule un message derreur apparait lincitant faire une slection correcte. TABLE 2.1 Description textuelle du cas dutilisation calcul de similarit Cas dutilisation : Afchage de limage Acteur primaire : utilisateur Description : Pour aider lutilisateur avoir une vision concrte de lontologie, lutilisateur peut afcher limage source avec laquelle a t construite lontologie Exception : Si lutilisateur na pas choisit dontologie, un message derreur apparait lincitant faire une slection correcte. TABLE 2.2 Description textuelle du cas dutilisation afchage de limage
Cas dutilisation : Afchage du graphe conceptuel Acteur primaire : utilisateur Description : Lafchage du graphe conceptuel permet de donner lutilisateur une vision dtaille de lontologie avec ses diffrentes parties que sont les classes, les instances et les proprits. Exception : Si lutilisateur na pas choisit dontologie, un message derreur apparait lincitant faire une slection correcte. TABLE 2.3 Description textuelle du cas dutilisation afchage du graphe conceptuel
2.2.2
Diagramme de squences
Les diagrammes de squences expliquent le droulement dune session de dialogue entre lutilisateur et le systme.
18
F IGURE 2.2 Diagramme de squence
2.3
Conception
Lanalyse des besoins effectue prcdemment, fait que notre application soit constitue des modules suivants : Classe utilisateur : Elle reprsente lutilisateur et ses diffrentes interactions avec le systme. Classe application : Elle reprsente le coeur du systme. Elle permet de calculer la similarit entre les ontologies stockes dans la base de donnes et/ou lafchage des images reprsentatives de ces dernires savoir les images relles et/ou les graphes conceptuels. La classe base de donnes : elle a pour objectif de stocker les ontologies ainsi que leurs images pour faciliter le traitement de lapplication. La classe donne : Elle peut tre soit une ontologie soit une image reprsentative de celle-ci. Ce sont ces donnes qui sont stockes dans la base. La classe ontologie : Cest la donne la plus importante de notre application. Elle est constitue de 3 parties reprsentes par 3 classes. 19
- Classe : Cest la partie principale de lontologie. Cette dernire doit au mois avoir une classe pour exister. - Proprit : permet de dnir des faits ou des relations entre les classes. - Instance : cest une classe qui peut prendre les caractristiques dnies par les proprits. La classe image : Cest le deuxime type de donne qui peut tre stock dans la base. Elle peut tre soit une image relle soit un graphe conceptuel. - Image relle : Cest la reprsentation relle de limage. Elle peut tre soit une image satellitaire soit une photo. - Graphe conceptuel : Cest une reprsentation symbolique de limage qui met en valeur ses lments les plus importants. Cest une reprsentation graphique de lontologie.
F IGURE 2.3 Diagramme de classes
20
2.4
Conclusion
Nous avons spci dans ce chapitre les donnes du systme, ses fonctions et son comportement dans son environnement travers le langage de modlisation objet UML. Le chapitre suivant explique les diffrents choix de ralisation et dcrit lacheminement restant du projet.
21
Chapitre 3 Ralisation
3.1 Introduction
Dans Le chapitre Ralisation, nous nalisons notre travail par la description de lenvironnement de travail et de la prsentation nale de notre application.
3.2
Les outils utiliss
Pour raliser notre application ddie la mesure de similarit entre des ontologies, nous avions eu recours certains outils dont les plus importants sont Netbeans et MySql. On a aussi eu recours dautres outils comme le PowerAMC pour lanalyse et conception de lapplication et au LateX pour llaboration du rapport.
3.2.1
Netbeans
Netbeans est un EDI(Un Environnement de Dveloppement Intgr) Un EDI est un programme qui regroupe un ensemble doutils pour le dveloppement de logiciels : - un compilateur - un diteur de texte - des outils automatiques de fabrication - un dbogueur.
22
3.2.2
MySql
MySQL est un systme de gestion de base de donnes (SGBD). Il fait partie des logiciels de gestion de base de donnes les plus utiliss au monde, autant par le grand public (applications web principalement) que par des professionnels.
3.2.3
PowerAMC
PowerAMC est un logiciel de modlisation. Il permet de raliser tous les types de modles informatiques. Cela permet damliorer la modlisation, les processus, le cot et la production dapplications et de faciliter ce quimplique le travail en quipe par le partage de linformation entre les concepteurs.
3.2.4
LaTeX
LaTeX est un systme de prparation de document pour la composition de haute qualit. Il est le plus souvent utilis pour les moyennes et grandes documentations techniques ou scientiques, mais il peut tre utilis pour pratiquement toute forme ddition.
3.3
Langage utilis
Le langage Java est un langage de programmation orient objet dvelopp par Sun. Fonctionnant sur le principe machine virtuelle, il peut sadapter nimporte quel ordinateur. Les programmes Java peuvent tre appels depuis des documents HTML ou de manire autonome. Le fait davoir privilgi lutilisation de ce langage est lexistence dune bibliothque ddie la manipulation des ontologies. Cette bibliothque est la bibliothque Jena.
3.4
La bibliothque Jena
Jena est une bibliothque de classes Java qui facilite le dveloppement dapplications pour le web smantique Elle permet la ralisation des oprations suivantes : - Manipulation de dclarations RDF. 23
Lecture et criture RDF/XML. Stockage en mmoire ou sur disque de connaissances RDF. Langage dinterrogation dune base RDF. Gestion dontologies : RDF-Schema, OWL.
3.5
Environnement matriel
Nous avons test notre application sur un ordinateur portable ayant les caractristiques suivantes : - Processeur : Intel Pentium Dual CPU 1.6GHz. - RAM : 2GO. - Disque dur : 160 GO. - Ecran : 15.4". - Carte Graphique : Mobile Intel R 965 Express Chipset Family.
3.6
Mthode dalignement utilis
Pour la recherche de similarit entre des ontologies nous avons intgr dans notre application la mthode SODA.
3.6.1
Mesure de similarit linguistique
Avant toute chose, une mthode de calcul de similarit doit se baser sur une fonction de similarit. Dans notre cas nous avons opt pour la mthode de JaroWinkler. Fonction de similarit de jaroWinkler Dnition La distance de Jaro-Winkler mesure la similarit entre deux chanes de caractres. Il sagit dune variante propose en 1999 par William E. Winkler, dcoulant de la distance de Jaro (1989, Matthew A. Jaro) qui est principalement utilise dans la dtection de doublons. Plus la distance de Jaro-Winkler entre deux chanes est leve, plus elles sont similaires. Cette mesure est particulirement adapte au traitement de chanes courtes comme des noms ou des mots de passe. Le rsultat est normalis de faon avoir une mesure entre 0 et 1, le zro reprsentant labsence de similarit.
24
Mthodologie La mthode de similarit de JaroWinkler est base sur la mthode de Jaro qui est dnit entre deux chaines de caractres s1 et s2 comme suit : jd =
1 3 m |s1 |
m |s2 |
mt m
o : - m est le nombre de caractres correspondants 1 - t est le nombre de transpositions 2 . La mthode introduite par Winkler utilise un coefcient de prxe p qui favorise les chanes commenant par un prxe de longueur l(avec l 4). En considrant deux chanes s1 et s2, leur distance de Jaro-Winkler dw est : dw = dj + (l p(1 dj )) o : - dj est la distance de Jaro entre s1 et s2. - l est la longueur du prxe commun (maximum 4 caractres). - p est un coefcient qui permet de favoriser les chanes avec un prxe commun. Winkler propose pour valeur p = 0.1. Application de JaroWinkler dans la recherche de similarit linguistique Le calcul de la similarit linguistique est effectu entre les noms des entits pour les proprits les instances et les classes sparment suivant lalgorithme 1. La fonction Similarit linguistique prend en paramtre les deux ontologies O1 et O2 a align ainsi que la fonction de calcul de similarit de Jaro-Winkler et donne en retour la valeur de similarit linguistique.
1. Deux caractres identiques de s1 et de s2 sont considrs comme correspondants si leur loignement (i.e. la diffrence entre leurs positions dans leurs chanes respectives) ne dpasse pas : max(|s1 |,|s2 |) 1 2 2. Le nombre de transpositions est obtenu en comparant le i-me caractre correspondant de s1 avec le i-me caractre correspondant de s2. Le nombre de fois o ces caractres sont diffrents, divis par deux, donne le nombre de transpositions.
25
F IGURE 3.1 Algorithme 1 Enn, an de dterminer la valeur de la similarit globale, la mthode SODA propose la relation suivante : SimLing = P 1 SimLingClasse + P 2 SimLingP roprit + P 3 SimLingInstance O P1 + P2 + P3 = 1 Avec P1, P2 et P3 les poids assigns respectivement au calcul des similarits linguistiques des classes, des proprits et des instances. Ces poids tant dtermins arbitrairement suivant limportance de chaque terme.
3.6.2
Mesure de similarit structurelle
La similarit structurelle est calcule en exploitant la similarit linguistique du couple de noeud apparier ainsi que la structure avoisinante suivant lalgorithme2. La fonction similarit structurelle ne prend en paramtre que les deux ontologies alignes et retourne en rsultat la valeur de similarit structurelle.
26
F IGURE 3.2 Algorithme 2
F IGURE 3.3 Fonction TO1
27
F IGURE 3.4 Fonction TO2
3.6.3
Mesure de similarit globale
La mesure de similarit globale est calcule suivant la mesure de similarit linguistique et structurelle. En effet, on ralise la somme pondr de ces deux dernires. SimGlob = P 1 SimLing + P 2 SimLStruct O P1 + P2 = 1 Avec P1et P2 les poids assigns respectivement au calcul des similarits linguistiques et structurelles. Ces poids tant dtermins arbitrairement suivant limportance de chaque terme.
3.7
Fonctionnalits de lapplication
Lapplication, " mesure de similarit entre des ontologies ", dispose dune interface graphique qui permet lutilisateur de manipuler les ontologies. De plus, elle dialogue avec une base de donnes contenant des ontologies qui dcrivent des images satellitaires, en plus des images reprsentatives et des graphes conceptuels correspondants. En effet, notre application se connecte la base de donnes pour 28
charger les donnes, et prsente la liste des ontologies lutilisateur, qui se voit offrir les fonctionnalits suivantes : - visionner les images satellitaires correspondant aux ontologies
F IGURE 3.5 Visualisation des images relles - visionner les graphes conceptuels correspondant aux ontologies
F IGURE 3.6 Visualisation du graphe conceptuel - Calculer les similarits linguistique, structurelle et globale entre les ontologies.
F IGURE 3.7 Visualisation du rsultat
29
Ainsi, la simplicit et la clart de linterface graphique permet lutilisateur une manipulation pratique des ontologies et lui apporte une connaissance de leurs caractristiques.
3.8
Conclusion
Dans ce chapitre nous avons prsent notre application de calcul de similarit entre des ontologies. De mme, nous avons dtaill le fonctionnement de la mthode dalignement des ontologies SODA.
30
Conclusion gnrale
Dans notre mini projet intitul mesure de similarit entre des ontologies nous avons tent de rsoudre le problme li a la prolifration des ontologies. Pour ce fait nous avons intgr la mthode SODA dalignement des ontologies dans une application ddies cette nalit. Le prsent rapport traite les diffrentes tapes et les diffrentes dmarches entreprendre pour mesurer la similarit entre des ontologies sur de bonne base. Il est compos de trois parties : la premire partie traite ltat de lart, la deuxime partie inclue lanalyse des besoins ainsi que la conception, enn, la troisime partie porte sur la ralisation de notre application. Dans le cadre des amliorations futures nous pouvons enrichir notre application pour quelle puisse manipuler des ontologies de type OWL Lite et OWL full. Nous pouvons aussi intger dautre mthodes dalignement des ontologies.
31
Bibliographie
[B1] "Catgories de mesures de similarit utilises pour lalignement dontologies", expos, Journe dtude sur les mesures de similarit smantique. [B2] "S-Match : an algorithm and an implementation of semantic matching" , Giunchiglia.F, Shvaiko.P, Yatskevich.M,Dept. of Information and Communication Technology University of Trento, Trento, Italie
Netographie
[N1] "Construction dun web smantique multi-points de vue", Bach T. L., 2006, http ://pastel.paristech.org/1989/01/These_BACH-ThanhLe.pdf, cole des Mines de Nice Sophia Antipolis, 2006, Thse, pdf. [N2] "SODA : Une approche structurelle pour lalignement dontologies OWL-DL", Zghal.S, Ben Yahia.S, Engelbert.M.N., Slimani.Y, www.cril.univ-artois.fr/spip/publications/zghal_etal_JFO07.pdf, article, pdf. [N3] "Measuring Similarity between Ontologies", Maedche.A and Staab.S, thse, Institute AIFB, Univ. Karlsruhe, http ://www.ontologymatching.org/publications.html, article, pdf.
32

Rapport Final

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Rapport Final

Transféré par

Droits d'auteur :

Formats disponibles

Rapport de Mini Projet

Mesure de Similarit entre des Ontologies

Encadr par Mlle Naouel Ayari

Soutenu le 20 janvier 2010

Mme Sonia Bouzidi Mme Khadija Arour

Anne Universitaire : 2009-2010

Table des matires

Ralisation 22 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.2 Les outils utiliss . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.2.1 Netbeans . . . . . . . . . . . . . . . . . . . . . . . . . . 22 1

3.3 3.4 3.5 3.6

Conclusion gnrale Bibliographie Netographie

Table des gures

Liste des tableaux

Chapitre 1 Etat de lart

Les langages du web smantique

Mthodes de mesure de similarit

Avant de prsenter ces mthodes, nous donnons la dnition de la similarit.

Les mthodes dalignements

TABLE 1.1 Critres principaux dutilisation des mesures de la similarit

Chapitre 2 Analyse et conception

Analyse des besoins

F IGURE 2.1 Diagramme de cas dutilisation

F IGURE 2.2 Diagramme de squence

F IGURE 2.3 Diagramme de classes

Les outils utiliss

Mthode dalignement utilis

Mesure de similarit linguistique

Mesure de similarit structurelle

F IGURE 3.2 Algorithme 2

F IGURE 3.3 Fonction TO1

F IGURE 3.4 Fonction TO2

Mesure de similarit globale

F IGURE 3.7 Visualisation du rsultat

Vous aimerez peut-être aussi