Vous êtes sur la page 1sur 35

U.R.P.A.

Développement d’un système


d'extraction de motifs spatiaux à
partir des structures protéiques
Présenté par : Manel ZOGHLAMI
Soutenu le 15/01/2010 devant le jury composé de

Riadh ROBBANA Président


Mohamed DAASS Examinateur
Mondher MADDOURI Encadrant INSAT
Rabie SAIDI Encadrant Entreprise1
Plan
Introduction

Problématique

Méthode d’extraction des motifs

Conception

Réalisation et tests

Conclusion et perspectives

2
Introduction
Emergence de la bioinformatique comme une jeune
science multidisciplinaire
Emergence des méthodes en biologie
o volume de données biologiques très important
o données difficiles à traiter manuellement ou par des
calculs simples.
• Exploitation par les moyens biochimiques et les analyses in
vitro très coûteuse en temps et en argent.

Le défi n’est désormais la collecte des données


biologiques mais plutôt leur exploration d’une manière rapide
et efficace.
 La fouille des données biologiques
3
Problématique

4
Problématique
Acide aminé Lettre
alanine A
cystéine C
acide aspartique D Ensemble
Ensemble d’atomes
d’atomes
acide glutamique E dans
dans l’espace
l’espace
phénylalanine F
glycine G
histidine H
isoleucine I Les
Les acides
acides aminés
aminés
lysine K
-- Constituants
Constituants des
des protéines
protéines
leucine L --Composés
méthionine m Composés d’atomes
d’atomes
--Représentés
Représentés par
par des
des lettres
lettres
asparagine n
proline P
glutamine Q
arginine R
sérine S
thréonine T
valine V
tryptophane W
tyrosine Y

5
Problématique

A G E T G A C T A

Structure
Structure primaire
primaire
-définie
-définie par
par lala connaissance
connaissance de
de la
la
nature
nature des
des acides
acides aminés
aminés et
et par
par
l'ordre
l'ordre de
de leur
leur enchaînement
enchaînement
-- Peut
Peut être
être présentée
présentée par
par une
une
chaine
chaine de
de caractères
caractères
6
Problématique

Structure
Structure secondaire
secondaire et
et tertiaire
tertiaire
-définie
-définie par
par la
la forme
forme géométrique
géométrique
de
de la
la chaîne
chaîne d'acides
d'acides aminés
aminés
-- Peut
Peut être
être présentée
présentée par
par un
un graphe
graphe
dans
dans l’espace
l’espace
7
Problématique
 Les protéines contiennent des patterns ou motifs qui
ont été préservés tout au long de l'évolution.

Extraction des motifs aide à

-regrouper les séquences biologiques dans des


familles structurelles ou fonctionnelles
-Classifier une protéine nouvellement séquencée
-mieux comprendre les règles qui contrôlent
l’évolution des protéines
- savoir leurs fonctions biologiques

8
Problématique

Taches à réaliser :
- Extraction des motifs à partir des graphes des

acides aminés

-Visualisation des protéines des différentes familles

-Génération de fichier servant comme entrée au


système Wéka

9
Méthode d’extraction des motifs

10
Méthode d’extraction des motifs
L’algorithme KMR
permet d’identifier les mots répétés dans des chaînes
de caractères, des arbres ou des tableaux.

repose sur la notion de classes d’équivalence


deux positions i et j dans une chaîne de caractères sont k-
équivalentes si et seulement si les deux sous-chaînes de longueur
k commençant à partir de i et j sont identiques

11
Méthode d’extraction des motifs

 Génération des graphes des acides aminés


 Description séquentielle prenant en compte les
relations n’existant pas des les structures primaires
12
Méthode d’extraction des motifs

13
Méthode d’extraction des motifs
Extension de l’algorithme pour les
graphes
Une relation d’équivalence Ek, 1≤k≤m, peut être représentée par un vecteur Vk[1.. m-
k+1], où chaque composante Vk[i], 1≤i≤m-k+1, de ce vecteur représente le numéro de
la classe d’équivalence à laquelle appartient la position i .
fusionner les nœuds ayant un voisin commun présent dans la séquence primaire.
Les positions i dans la description séquentielle sont placées dans les ensembles de
piles P et Q de la façon suivante :
 Les positions i qui appartiennent à la même classe de E sont mises dans la
même pile P (V[i]).
 On empile seulement les positions qui sont présents dans la séquence
primaire.
 Chaque élément de P est dépilé et les numéros i ainsi obtenus sont placés
dans toutes les piles Q correspondantes aux classes de tous les successeurs
du nœud causant l’empilement de i vers la pile Q considérée.
 Si la classe Va de chaque position déjà retirée est égale à la classe de la
position précédemment retirée. Sinon on a une nouvelle classe
Une classe est déclarée comme motif si elle n’est plus utilisée pour construire de
nouvelles classes d’ordre supérieur, autrement dit  si les piles P et Q correspondantes
n’interviennent plus à la construction de nouvelles classes.
Méthode d’extraction des motifs

 Elaguer les sous motifs redondants


 Présentation des motifs sous forme de graphes

15
Algorithme d’extraction des motifs
Exemple

Structure primaire : GATGVCA Structure primaire : GAFCGVTA


 Nouveau format séquentiel:  Nouveau format séquentiel:
GACVTGAVCA GACTFCGAVTA

16
Algorithme d’extraction des motifs
Exemple
Description séquentielle globale

 Initialisation
Classe1: Noeuds {G } - Arêtes {}
Classe2: Noeuds {A } - Arêtes {}
Classe3: Noeuds {C } - Arêtes {}
Classe4: Noeuds {V } - Arêtes {}
Classe5: Noeuds {T } - Arêtes {}
Classe6: Noeuds {F } - Arêtes {}

17
Algorithme d’extraction des motifs
Première itération
Empilement dans des piles Pi

Dépilement de P2 vers les piles Qi 

Nouvelles classes
Noeuds {A, C } - Arêtes {0-1 }- positions: 2 , 12
Noeuds {A, T } - Arêtes {0-1 }- positions: 2 , 12
Fusion
Nœuds {A, C, T } - Arêtes {0-1 ,0-2 }- positions: 2 , 12
18
Algorithme d’extraction des motifs
Exemple

19
Algorithme d’extraction des motifs
Exemple

20
Algorithme d’extraction des motifs

Prise en considération des familles de protéines

Seuil de fréquence intra-famille minimale

 Seuil de fréquence extra-famille maximale

21
Conception

22
Conception

Liste des cas d’utilisation

 Ajouter les protéines à traiter 


Visualiser une protéine en 3D
Extraire les plus longs motifs communs

23
Conception
Cas d’utilisation « Ajouter les protéines à
traiter »

24
Conception
Cas d’utilisation «Visualiser une protéine en 3D»

25
Conception
Cas d’utilisation «Extraire les plus longs motifs
communs»

26
Conception

27
Réalisation et tests

28
Réalisation et Tests

 Environnement logiciel

◦ L’IDE NetBeans

◦ Librairie JMol

◦ Librairie PGG : Proteine Graph Generator

29
Réalisation et Tests

30
Réalisation et Tests
Données Réelles
101 protéines de la famille Actinobacteria
70 protéines de la famille Viridiplantae
Comparaison entre graphe et séquence primaire

31
Réalisation et Tests

Classifieur Rep. de la Taux de bonne


protéine classification
C 4.5 Graphe 88.88
Séquence (1D) 85.38
SVM Graphe 92.98
Séquence (1D) 82.45
NN Graphe 88.30
Séquence (1D) 78.36

32
Conclusion

 Découvrir le domaine bioinformatique

 Visualiser les protéines en 3D.

 Extraire les motifs selon les seuils définis par l’utilisateur.

 Enregistrer les motifs extraits sous forme de graphes.

 Générer le fichier de classification correspondant à ces


motifs.

33
Perspectives
 Nous proposons

oD’intégrer un module pour proposer les meilleurs seuils

oD’intégrer un module pour visualiser les motifs extraits


en trois dimensions et les situer graphiquement dans les
protéines.

oD’intégrer un module pour la classification des protéines


en se basant sur les motifs

34
Merci de votre temps

35

Vous aimerez peut-être aussi