Vous êtes sur la page 1sur 23

La recherche dinformation en bioinformatique

Par Marc Hall et ric Paquet Dans le cadre du cours IFT6255 Mercredi 9 avril 2003

Introduction aux problmatiques


Problme #1: Linformation contenue dans les articles de biologie nest pas stocke sous un format pratique la recherche et lexploitation. Solution : Parcourir les banques darticles pour extraire linformation juge pertinente tel : les ractions entre les molcules et les informations particulires comme la localisation, les synonymes, la grosseur et la squence de certaines molcules spcifiques.
La recherche d'information en bioinformatique 2

suite des problmatiques


Problme #2 : vu le grand nombre de protines il serait intressant de trouver un moyen de les regrouper selon certains critres pouvant nous aider dterminer leurs fonctions. Solution : Nous pouvons utiliser la structure secondaire des protines comme un mot en recherche dinformation et utiliser un algorithme de clustering .
La recherche d'information en bioinformatique 3

suite des problmatiques


Problme #3 : Il y a beaucoup de nouvelles mthodes dans le domaine, mais il nexiste aucun test pour les comparer. Solution : Crer des concours (challenge) pour stimuler lamlioration des techniques et donner une ide de ltat de lart.

La recherche d'information en bioinformatique

Introduction lextraction dinformation


Reconnatre le nom des molcules dans le texte (2 approches):
Fukuda et al. (1998), extraire des noms de protines et de gnes en se basant sur des critres comme les lettres majuscules, les terminaisons spciales et les caractres numriques La cration dun corpus spcifique la biologie Ohta et al. (2000), lutilisation des Hidden Markov Models Collier et al. (2000) ou des classificateurs Bayesian Wilbur et al. (1999) amliorent les rsultats de recherche.
Rfrence : [1]
La recherche d'information en bioinformatique 5

suite introduction lextraction dinformation


Reconnatre les interactions entre les molcules:
2 mthodes principales :
Utiliser la co-occurrences des molcules
Benoit (2000) co-occurrence des noms de gnes Ding et al. (2002) analyse par rapport au rsum, un paragraphe ou une phrase(approche par section).

Utiliser des modles reprsentant des structures linguistiques spciales dcrivant les interactions entre les molcules
Ng et Wong (1999) modles, rsums Wong (2001) augmentation du nombre de modles, rsums Yakushiji et al. (2001) analyse complte laide dune grammaire gnrale, rsums Friedman et al. (2001) GENIES, article complet Putejovsky et Castano (2002) mot inhibit Leroy et Chen (2002) GeneScene : prpositions au lieu des verbes. Suppos tre + performant.

Rfrence : [1]

La recherche d'information en bioinformatique

Description dune mthode dextraction dinformation


GENIES : But : dcouverte de pathways
Partie de phrase analyser : Raf-1 active Mek-1 1. Rsultat de la partie Tagger :
<protine>Raf-1</protine> active <protine>Mek-1</protine>

1. Rsultat de la partie Pre-Processor :


[<protine>Raf-1</protine>, active, <protine>Mek-1</protine>] liste dindexes

1. Rsultat des partie Parser et error recovery :


[action, active, [protine, Raf-1], [protine, Mek-1]]

Rfrence : [3]

La recherche d'information en bioinformatique

Introduction au clustering et la taxonomie en bioinformatique


Le but est de trouver une faon de regrouper les protines laide de certains critres pour arriver un classement o chacune des catgories reprsenteraient une famille de protine. SCOP est un systme expert utilis comme outil de rfrence dans le cadre de cette tude.
La recherche d'information en bioinformatique 8

Petite base de biologie


Structure primaire : Squence de lettres reprsentant des acide amins. Structure secondaire : regroupement de squence dacides amins (lettres) formant des groupes spcifique appels hlice alpha, brin bta et boucle omga qui sont nots , , respectivement. Structure tertiaire et quaternaire : Repliement et organisation en structure tridimensionnelle, forme finale de la protine (pour les fins du prsent rapport). Analogie avec la recherche dinformation :
Recherche information Lettre Mot / Terme Section / Document Structure des protines lments structure primaire (acides amins) lments structure secondaire (, , ) Structure tertiaire / protine

La recherche d'information en bioinformatique

lments de structures

La recherche d'information en bioinformatique

10

Rfrence : [4]

Description des mthodes utilises


Mme que celles de la recherche dinformation :
1. Dfinition dun ensemble dlment traiter :
protines provenant de la PDB-Select assurant une bonne couverture

2. Calcul de similarit : pattern matching avec wild card 3. Clustering en fonction des similarits calcules : mthode itrative avec matrice de similarit 4. Utilisation dune mtrique pour calculer la performance du systme : comparaison avec des
systmes comme VAST et SCOP
La recherche d'information en bioinformatique 11

Calcul de similarit entre chaque protine


La similarit [0,1] est calcule entre chacune ss-string des protines de l chantillon de la faon suivante: Soit deux lments de structure secondaire a,b et L(a), L(b) leurs longueurs respectives. Similarit entre: a,b type identique a,b tel que a ou b est une loop a,b type diffrent (hlice, strand) Valeur min(L(a), L(b)) 0.5 min(L(a), L(b)) 0

La valeur est ensuite normalise en fonction de la longueur moyennes des ss-string.


La recherche d'information en bioinformatique 12

Clustering
Afin de faire un regroupement (clustering) des protines , lon utilise une matrice de similarit contenant la distance entres chaque paire de protine. - La distance d = [1- valeur d'alignement] - Larbre est ensuite construit suivant un Algorithme de type WPG (weighted pair group).
La recherche d'information en bioinformatique 13

Exemple de rsultats

La recherche d'information en bioinformatique

14

Rfrence : [2]

SCOP comme outils de rfrence


Une des principales conclusions de la comparaison avec SCOP est la similitude de Clustering entre notre arbre et le regroupement en famille par SCOP valuation de performance: Clustering score function
La recherche d'information en bioinformatique 15

Clustering-score function
(mtrique pour calculer la performance du systme)

td(a,b) = distance topologique entre a et b ( 2* td(a, b) ) / (n(n-1) )

Clustering-score {A} =

a,b {}

La recherche d'information en bioinformatique

16

Cluster-scoring function exemple


Pour une famille SCOP A ={ 11,12,13,14 }
-Pour chaque feuilles de larbre on assigne un poids de 1 et 0 sinon. -Ensuite on calcul de faon rcursive: td(a,b) = (Pa + Pb )/ 2

Exemple : Score{11,12,13,14} = ((3 * 0) + ( 3 * 1)) / 6 = 0.5

La recherche d'information en bioinformatique

17

Investigation possible
Actuellement les caractristiques de comparaison sont prdfinies. Il serait intressant de vrifier sil est possible dextraire des caractristiques de faon automatique (extraction de feature).

La recherche d'information en bioinformatique

18

Besoin de challenge pour valuer les mthodes


Ncessite des donnes pour lentranement (donnes + rponses) Ncessite des donnes secrtes pour le test (donnes + rponses) Ncessite un mode dvaluation des mthodes

La recherche d'information en bioinformatique

19

Exemple de challenge dans le domaine de lextraction dinformation 2 niveaux dvaluation :


Niveau du texte lui-mme Niveau de la banque de textes

Texte + liste de faits devant tre extraits Recall(E) : TP(E)/[TP(E) + FN(E)] Precision(E) : TP(E)/[TP(E) + FP(E)] Faon diffrente de calculer les TP, FN et FP selon le niveau de lvaluation Classification selon une variation de SMC (simple matching coefficient) nutilisant pas les TN : SMC*(E) = TP(E)/[TP(E) + FN(E) + FP(E)] Dfinition dune grammaire de dfinition des structures valuer
La recherche d'information en bioinformatique 20

Exemple de grammaire

La recherche d'information en bioinformatique

21

Fin
Questions?

La recherche d'information en bioinformatique

22

Rfrences
1) Lynette Hirschman, Jong C. Park, Junichi Tsujii, Limsoon Wong and Cathy H. Wu. Accomplishments and challenges in literature data mining for biology. BIOINFORMATICS REVIEW Vol. 18 no. 12 2002 Pages 1553-1561. Teresa Przytycka, Rajeev Arora and George D.Rose , A protein taxonomy based on secondary structure, NATURE STRUCTURAL BIOLOGY - volume 6 number 7 july 1999 , Pages 672-682 Carol Friedman, Pauline Kra, Hong Yu, Michael Krauthammer and Andrey Rzhetsky. GENIES : a natural language processing system for the extraction of molecular pathways from journal articles. BIOINFORMATICS Vol. 17 Suppl. 1 2002 Pages S74-S82. Donald Voet & Judith G.Voet, Biochimie, BeBoeck-Universit page 106.

2)

3)

4)

La recherche d'information en bioinformatique

23