Vous êtes sur la page 1sur 72

Ontologies et lditeur Protg Application la formalisation des concepts de description dIMGT-ONTOLOGY

Vronique Giudicelli LIGM, IGH, UPR CNRS 1142 141 rue de la Cardonille 34296 Montpellier Cedex 5 tel: 04.99.61.99.28 fax: 04.99.61.99.01 e-mail: Veronique.Giudicelli@igh.cnrs.fr

5 mai 2010

ONTOLOGIE

En philosophie, l'ontologie est l'tude de l'tre en tant qu'tre, c'est--dire l'tude des proprits gnrales de ce qui existe. Une ontologie est un ensemble structur de connaissance dans un domaine particulier comme limmunogntique. Une ontologie cherche reprsenter le sens des concepts et des relations qui les lient. Elle comprend une partie terminologique, inventaire du vocabulaire pour les mtadonnes et les concepts, la dclaration des instances (valeurs) et les proprits particulires qui expriment relations entre concepts et instances.

World Wide Web


(Cr par Tim Berners Lee en 1990) => Pour partager des connaissances et de relier les informations partages.

World Wide Web


- Les ressources sous forme de page HTML (Langage HTML) - Les relations entre ses pages qui se traduisent par des liens hypertextes

World Wide Web


Limites
Balises HTML: la connaissance est encapsule dans une couche de prsentation Introduction de balises propritaires (Microsoft, Netscape) Les liens hypertexte ne permettent pas de qualifier les relations entre les informations La qualit des pages est trs htrogne Ces informations ne sont pas exploitables automatiquement

World Wide Web Consortium (W3C)


(cr en 1994)

- Dveloppement de technologies (spcifications, guides, logiciels et outils) - Proposition des standards, pour la croissance et lexploitation du Web En particulier, en 1998, le langage de balisage extensible XML (Extensible Markup Language) devient une recommandation du W3C XML devrait pouvoir tre utilis sans difficult sur Internet Les documents XML devraient tre lisibles par l'homme et raisonnablement clairs Il devrait tre facile de crer des documents XML Il devrait tre facile d'crire des programmes traitant les documents XML

Squence EMBL AM947564

Squence AM947564 en format XML

RDF : Resource Description Framework


Cr en 1999 pour dcrire les mtadonnes dans lobjectif de traiter linformation automatiquement, de favoriser linteroprabilit des connaissances et de structurer les informations. Mtadonnes: information permettant den dcrire une autre Les mtadonnes sont habituellement comprises comme des donnes propos des donnes. Un catalogue de bibliothque contient de l'information (mtadonnes) propos de publications (donnes) Un systme de fichier informatique dfinit des droits de lecture, criture, etc. (mtadonnes) propos des fichiers (donnes).

RDF

Standard du W3C Bas sur XML Un dbut vers un Web structur RDF emploie les URIs comme schma de nommage (pour viter la confusion, entre termes de smantique diffrents) On peut dcrire n'importe quoi... mme une personne Grande souplesse quand l'extensibilit

RDF
RDF se base sur une description des connaissances laide de phrases simples : Cest un moyen d'exprimer des relations. Ces relations sont dcrites sous forme de graphe. Chaque nud du graphe est une ressource ou une valeur. Et chaque nud est reli un autre par un arc "nomm"
Sujet
(source, ressource)

nuds du graphe

Prdicat
(proprit)

Objet
(cible, valeur)
Shmas issus de http://xulfr.org/wiki/FormatRdf/Introduction

=> Ceci correspond un lien qui comporte un sens : cest du Web smantique

Les objectifs du Web smantique sont de partager les connaissances et de pouvoir les manipuler automatiquement.

Pour ceci, il faut qualifier le savoir ( laide de mtadonnes), le formaliser en utilisant une syntaxe extensible (par exemple avec XML) et le structurer pour viter les duplications.

ONTOLOGIE
Sur le plan informatique: Les ressources sont dfinies les unes par rapport aux autres selon un graphe. Cette structure permet une automatisation de la manipulation des donnes. Diffrence entre une thsaurus et une ontologie : un thsaurus relie des concepts entre eux selon des relations prcises : synonyme, homonyme, hirarchie, terme associ. L'ontologie ajoute des rgles et des outils de comparaison sur et entre les termes, groupes de termes et relations : quivalence, symtrie, contraire, cardinalit, transitivit. => Dans cet objectif RDF est trop limit en particulier, il ne permet pas de donner la nature des relations (transitive inverse, ..), possde une logique trop limite pour faire du raisonnement

ONTOLOGIE

Une ontologie dfinit formellement les termes employs pour dcrire et reprsenter un domaine de connaissance. Les ontologies sont destines tre utilises par: des personnes des bases de donnes des applications ayant besoin de partager des informations

ONTOLOGIE
Au sein dune ontologie, les termes sont regroups sous forme de concepts (ou classes) smantiques: ils dfinissent un groupe dindividus (instances) possdant des proprits similaires.

Les ontologies incluent les dfinitions, informatiquement exploitables, des concepts lmentaires et de leurs relations. Les ontologies doivent permettre le partage et la rutilisation des connaissances.

Bases de connaissances:

Une ontologie ainsi que l'ensemble des instances individuelles des concepts constituent une base de connaissances. Une frontire subtile marque la fin d'une ontologie et le dbut d'une base de connaissances.

OWL (Web Ontology Language)

En 2004, OWL devient une recommandation du W3C OWL dcoule de RDF et RDFS, possde des connecteurs logiques, dexprimer des cardinalits sur les proprits et den spcifier la nature.

Une ontologie formalise en OWL comprend Un espace de nom, : Lentte <owl :Ontology> pour dcrire lontologie La dfinition des classes, des proprits et des instances

Classes, sous-classes, hritage et spcialisation


Notion de Classe : Dfinit un groupe dindividus possdant des proprits similaires. Thing est la classe mre.

Is_a

Def : polygone 4 cts


Is_a

spcialisation
Is_a

Def: quadrilatre (convexe) dont les cts sont parallles deux deux Def: Paralllogramme angles droits

Is_a

Def: rectangle dont les cots sont gaux

Exemple de hirarchie : ontologie des pizzas


(exemple fournit avec Protg)

Exemples dingrdients

Exemples de hirarchie : les concepts didentification de IMGT-ONTOLOGY

Instances
Ce sont les individus qui peuplent les classes

Les 3 sous-langages OWL

OWL LITE: permet dtablir une hirarchie de concepts simples, contraintes simples. OWL DL (DL pour description logic): comprend toutes les structures de OWL, possde une expressivit plus importante, avec compltude de calcul. OWL FULL expressivit maximale, libert syntaxique sans garantie de calcul, une classe peut aussi correspondre linstance dune autre classe.

Classes quivalentes et classes disjointes


OWL permet de dclarer que 2 classes sont quivalentes: equivalentClass 2 classes sont quivalentes lorsquelles ont les mmes instances exemple: classe Voiture et Automobile Inversement on peut dclarer que 2 classes sont disjointes: disjointWith 2 classes disjointes lorsquelles ne peuvent avoir des instances communes exemple: les cercles ne fait pas partie des parallogrammes. exemple: classe Women et Man

Instances identiques ou diffrentes


OWL permet de dclarer que 2 instances sont les mmes: sameAs Inversement on peut dclarer que 2 instances sont diffrentes: differentFrom On peut dclarer les individus dune mme classe mutuellement diffrents les uns des autres: AllDifferent

Proprits
- Proprit dobjet (Object property) : relie une instance une autre instance

- Proprit de type de donnes (Datatype property): relie une instance des valeurs.
Son son_of brother_of Mother Son

OWL propose un hritage des proprits ( exploiter pour les relations entre les motifs).

Proprits
restrictions globales domain : classes pour lesquelles est dfinie la proprit, range : classes relies par la proprit au domain.

domain Son

relation brother_of

range Son

Mother

mother_of

Son

Son

son_of

Mother

Caractristiques des Proprits: symtriques, transitives, inverses et fonctionnelles

GrandParent
parent_of

Parent
parent_of

parent_of

YoungChild
(familles de 3 gnrations avec de jeunes enfants)

Symtrique: brother_of Transitive: parent_of Inverse: son_of / mother_of Fonctionnelle : son_of

Restriction sur les Proprits : dclaration au niveau des classes


GrandParent
parent_of

domain GrandParent, Parent

relation parent_of

range Parent,YoungChild

Parent
parent_of

YoungChild

allValuesFrom: au niveau dune classe, permet de restreindre les classes lies par une relation. Exemple : un individu de la classe Parent ne peut tre reli par la relation parent_of qu un individu de la classe YoungChild someValuesFrom: au niveau dune classe, indique quun individu a au moins une relation avec un individu de la classe indique dans la restriction Un individu de la classe GrandParent a au moins une relation avec un individu de la classe Parent hasValue: au niveau dune classe, permet de restreindre la relation un individu donn

Restriction sur les Proprits : dclaration au niveau des classes (cardinalits)


Mother Ex de familles nombreuses de moins de 10 enfants
mother_of child_of

Child

- Une mre a au moins 3 enfants - Une mre a au plus 10 enfants - Un enfant a une et une seule mre

minCardinality: toute instance de la classe est lie par la proprit au moins x individus Exemple: proprit mother_of de la classe Mother : minCardinality=3 maxCardinality: toute instance de la classe est lie par la proprit au plus x individus Exemple: proprit mother_of de la classe Mother : maxCardinality=10 cardinality: toute instance de la classe est lie par la proprit exactement x individus Exemple: proprit son_of de la classe Mother : cardinality=1

Les ontologies en Biologie


On sintresse aux ontologies qui sont du domaine public. Leur nombre augmente rgulirement (besoin de dfinir, de partager). Elles couvrent des sujets et domaines diffrents.
NCBO Bioportal (http://bioportal.bioontology.org/) OBO (Open Biological Ontologies) (http://obo.sourceforge.net/)

recensent les ontologies en biologie.

Gene Ontology.
GO a t cre en 1998. GO rsulte dune collaboration entre plusieurs bases de donnes: FlyBase (drosophile), the Saccharomyces Genome Database, et des base de donnes de gnomes (homme et souris), etc. GO comprend 3 parties axes sur : la fonction molculaire (fonction des gnes exprims ex: ATPase activity. le processus biologique (rles biologique gnraux de fonctions molculaire complexes ex: la mitose). les composants cellulaires (structures subcellulaires, localisation des complexes macromoleculaires ex: le noyau, le tlomre).

Synthse des immunoglobulines et concepts didentification dIMGT-ONTOLOGY

Synthse des immunoglobulines et concepts didentification dIMGT-ONTOLOGY

Concepts didentification dIMGT-ONTOLOGY http://bioportal.bioontology.org

Les concepts de description de IMGT-ONTOLOGIE: La connaissance pour lannotation des squences

>X62106.0|HSVI2|Homo sapiens VI-2 gene for immunoglobulin heavy chain tgagagctcc ccacaggtaa gatctcatcc tctggggctg tacaccttca tggatgggat agggtcacca agatctgacg tgagggtg tgagggtgtc gttcctcacc gaggctccct acttctgtgt aggtgaagaa ccggctacta ggatcaaccc tgaccaggga acacggccgt agaaacccaa atggactgga agtcccagtg tctctccaca gcctggggcc tatgcactgg taacagtggt cacgtccatc gtattactgt gggaggaggc L-PART2 V-INTRON
DONOR -SPLICE ACCEPTOR -SPLICE

cctggaggat atgagaaaga ggagcccact tcagtgaagg gtgcgacagg ggcacaaact agcacagcct gcgagagaca ag

cctcttcttg gattgagtcc cccaggtgca tctcctgcaa cccctggaca atgcacagaa acatggagct cagtgtgaaa tgaaa

gtggcagcag agtccaggga gctggtgcag ggcttctgga agggcttgag gtttcagggc gagcaggctg acccacatcc

60 120 180 240 300 360 420 480

L-PART1
5'UTR

V-REGION

V-RS
3'UTR

5' INIT-CODON

3'

1st-CYS 23

2nd-CYS V-HEPTAMER V-SPACER 104 V-NONAMER

Application: formalisation dans Protg des labels qui composent Le V-EXON et de leur relations (Source dinformation: les informations de larticle de Biochimie)

Relation "adjacent_at_its_5_prime_to" "included_with_same_5_prime_in", "included_with_same_3_prime_in", "overlap_at_its_5_prime_with" "included_in"

Reciprocal relation (inverse) "adjacent_at_its_3_prime_to" "includes_with_same_5_prime", "includes_with_same_3_prime", "overlap_at_its_3_prime_with" "includes"

Protg (http://protege.stanford.edu/)

Protg est un logiciel gratuit (JAVA), plate-forme opensource qui fournit une une suite d'outils pour construire des bases de connaissance et des ontologies. Protg inclut de nombreux plugins pour la manipulation et la reprsentation d'ontologies dans diffrents formats. Lditeur Protg-OWL permet aux utilisateurs de construire des ontologies pour le Web smantique en OWL.

Cration dune nouvelle ontologie avec Protege_3.4_beta

Espace de nom
Chaque ontologie dite avec protg a son propre espace de nom: Cest le default namespace Cest une chane de caractres qui prfixe les noms des classes, proprits, instances afin dassurer leur unicit (Unique Resource Identifiers URI). => Evite la confusion en cas de termes identiques utiliss avec des significations diffrentes en fonction du domaine de connaissance de lontologie

Cration de nouvelles classes avec Protg (1)

Cration de nouvelles classes avec Protg (2)

Classes disjointes On peut soit exprimer que les sous classes dune classe sont toutes disjointes

Click droit =>

Soit expliciter quelles sont les classes disjointes

Cration de sous-classes avec Protg

Cration dune nouvelle proprit avec Protg de type ObjectProperty

Cration dune nouvelle proprit avec Protg de type ObjectProperty

Cration dune nouvelle proprit avec Protg de type ObjectProperty

Cration dune nouvelle proprit avec Protg de type DataTypeProperty

Restrictions sur les proprits

Restrictions sur les proprits

Restrictions sur les proprits

Tests et vrifications

Tests et verifications

Tests et verifications

Cration dinstances avec Protg

Reprsentation graphique de lontologie

Reprsentation graphique de lontologie

Reprsentation graphique de lontologie

Reprsentation graphique de lontologie: OWLviz

Reprsentation graphique de lontologie:Ontoviz

Reprsentation graphique de lontologie:Ontoviz

Reprsentation graphique de lontologie:Ontoviz

Reprsentation graphique de lontologie:Jambalaya

Importation dontologies Il est possible dutiliser les classes les proprits et les instances de Lontologie importe, den tendre la description Attention, la rfrence aux classes, proprits et individus dune autre Ontologie en utilisant lespace de nom est diffrent de limportation complte Dontologies.

1- faire linventaire des termes (qui correspondent autant de concepts) 2- les classer dans 2 catgories: codants ou non codants 3- crer larborescence des concepts 4- les visualiser avec OWLViz, OntoViz, Jambalaya
Relation "adjacent_at_its_5_prime_to" "included_with_same_5_prime_in", "included_with_same_3_prime_in", "overlap_at_its_5_prime_with" "included_in" Reciprocal relation (inverse) "adjacent_at_its_3_prime_to" "includes_with_same_5_prime", "includes_with_same_3_prime", "overlap_at_its_3_prime_with" "includes"

5- crer les relations (et leurs caractristiques) 6- dfinir les restrictions sur les relations 7- faire les tests de consistance 8- crer les instances (pour la squence X62106)