Académique Documents
Professionnel Documents
Culture Documents
Polycopié pédagogique
Cours de:
Bioinformatique générale
Présenté par :
Dr SADAOUI-SMADHI Nesrine
n.sadaoui@univ-boumerdes.dz
Bioinformatique générale
1. Introduction
2. Recherche dans les banques et les bases de données de biomolécules
3. Séquences de Biomolécules
3.1 Introduction
3.2 Alignement de séquences
3.3 Recherche de motifs dans des banques de données de séquences
3.4 Alignement multiple de séquences
3.5 Phylogénie
4. Structure de protéines
4.1 Introduction
4.2 Prédiction de la structure secondaire des protéines
4.3 Prédiction de la structure tertiaire des protéines
5. Interactions protéine-protéine / protéine-ligand
Préambule
Il est attendu par cette contribution, d’apporter un support pédagogique et technique à nos
étudiants s’initiant à la discipline de la Bioinformatique; discipline faut-il le rappeler est à
la pointe de la recherche biologique.
L’intérêt que doit porter l’étudiant à cette discipline et la quête d’intéressement sont les
deux paramètres sur lequel en s’est basé dans l’élaboration de ce cours; dans son contenu
et dans son articulation.
Cet humble travail est l’aboutissement d’heures d’enseignement et de recherche
didactique.
De notre part, l’intérêt que porte la communauté scientifique des biologistes à la
bioinformatique est le souci de s’simplifier, initier et consolider les acquis de nos
étudiants biologistes de premier palier (Licence « L3 ») nous a amenés à construire un
cours en tenant compte d’une accumulation graduelle, mesurée des notions de
Bioinformatique.
De ce fait, constitué de cinq chapitres, par lesquels et à l’issus du dernier chapitre,
l’étudiant aura la maitrise et la connaissance du plus essentiel dans le module de
Bioinformatique générale, ces connaissances lui ouvriront des perspectives de
développement et des horizons d’enrichissement et de consolidation des acquis dans
d’autres palier pédagogiques.
Chapitre I : Introduction à la Bioinformatique
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
1
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
I.1. Introduction
Le terme bioinformatique est apparu au début des années 1990, lorsque de grandes
quantités de données expérimentales ont été produites par des projets de séquençage, en
particulier le projet du génome humain. A cette époque, le développement de bases de
données, le développement des algorithmes d'alignement de séquences ont permis et
grâce aux outils d’organisation et d’exploration et d’exploitation, d'approfondir les
connaissances issues de la génomique et les séquences protéiques, les bases de données et
les outils d’exploitation et de recherche constituent ce qu’on appellera par le suite la
bioinformatique; c’est là, la genèse de la discipline.
2
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Figure 01 : La Bio+informatique
3
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
4
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
5
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
70 (méthode de transfection).
En 1974 :
Algorithme complet pour la prédiction de la conformation des protéines (Chou, Fasman)
Vint Cerf et Robert Khan développent le concept des réseaux reliant des ordinateurs au sein
d'un « internet » et développent deux protocoles fondamentaux "Transmission Control
Protocol" (TCP) et "Internet Protocol" (IP).
En 1975 : Microprocesseur Intel 8080, kit Altair
En 1976 : Margaret Oakley Dayhoff, Winona C. Barker, R. M. Schwartz et Lois T. Hunt, «
Data base for protein sequences », dans AFIPS National Computer Conference, 1976, p. 261-
266
En 1978 : mutagénèse dirigée : Michael Smith
Bases de données de séquences : ACNUC, PIR, GenBank (sur bandes magnétiques)
En 1980 :
Séquençage du 1er génome à ADN, le bactériophage phiX174 : Frederick Sanger
Premier accès « en ligne » à la base de données PIR (modem téléphonique)
En 1981 :
Micro-ordinateur IBM-PC (8088), 16-32 kb (RAM)
Programme d'alignement local de séquences : Temple Smith & Michael Waterman
En 1982 :
GenBank (Los Alamos) contient 270 séquences pour 370 000 nucléotides
Les Algorithme d'alignement local de séquence (Smith-Waterman)
années En 1983 :
80 Premier micro-ordinateur avec un disque dur (IBM-XT, 10 Mb)
En 1984 :
Premier micro-ordinateur avec une interface graphique (MacIntosh)
Amplification de l'ADN : réaction de polymérisation en chaîne (PCR - Karry Mullis)
En 1985 :
Programme « Fasta » pour la recherche accélérée de similarité de séquences (David Lipman &
William Pearson)
En 1987 :
Nouveau vecteur permettant de cloner des fragments d'ADN 20 fois plus grands : le YAC
(Yeast Artificial Chromosome) qui rend possible le séquençage de grands génomes.
En 1988 :
Taq polymérase, enzyme thermostable pour la PCR.
Création du "National Centre for Biotechnology Information" (NCBI).
En 1989 :
Internet succède à Arpanet et Bitnet
En 1990 :
Programme « Blast » pour la recherche accélérée de similarité de séquences (Altschul et al.)
Première identification d'un gène de maladie génétique par clonage positionnel et séquençage
(neuro-fibromatose de type 1)
En 1991 :
Premier programme performant pour localiser les gènes dans le génome humain (Grail)
"Expressed Sequences Tags" (EST) : méthode rapide d'identification des gènes (C. Venter).
En 19892 :
Séquençage complet du chromosome III de levure
Les En 1993 :
années
90 "European Bioinformatics Institute" (EMBL). Création à terme du "European Bioinformatics
Institute" (EMBL - EBI).
6
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
En 1995 :
Avènement des nouvelles technologies de séquençage à très haut débit, dites de seconde
génération et maintenant de 3è génération.
Prise de conscience du phénomène "big data" (pas seulement en biologie) qui devient peu à
peu une discipline scientifique.
En 2021 :
7
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Une petite molécule de l’ADN circulaire possédant une organisation et un code génétique
légèrement différents est aussi retrouvée dans la mitochondrie : elle complète le
patrimoine génétique de la cellule.
La molécule de l’ADN est composée de deux brins, enroulés en hélice droite, constitué
chacun par une longue chaine polydésoxyribonucléotidique.
Dans chaque brin, le squelette est formé par une répétition de molécules de désoxyribose
reliées entre elles par les liaisons phosphodiester et portant chacune une base greffée par
une liaison entre un azote et le carbone 1 du sucre.
Les bases sont au nombre de quatre : Adenine (A) et Guanine (G) qui sont des bases
puriques; Cytosine (C) et Thymine (T) qui sont des bases pyrimidiques.
L’association d’une base et d’un sucre porte le nom de nucléoside, l’association d’un
nucléoside avec un ou plusieurs phosphates porte le nom nucléotide.
Les deux chaines de l’ADN s’associent entre elles au niveau de leurs bases. Ces
associations ne peuvent se faire qu’entre adénine (A) et thymine (T) ou entre guanine (G)
et cytosine (C).
Cette association dans la molécule résulte de liaisons hydrogènes entre les bases. Elles
sont au nombre de trois entre guanine et cytosine et de deux entre adénine et thymine. La
structure globale de la molécule d’ADN est celle d’une double hélice droite.
Chaque brin de la double hélice possède une extrémité 5-phosphate et à l’autre bout une
extrémité 3-hydroxyle libre. Les orientations des deux brins de la double hélice sont
opposées : les deux brins sont dits antiparallèles (figure 02).
Figure 02 : La structure en double hélice d’ADN. (A) L'ADN en double hélice. (B)
Les deux brins de l'hélice sont maintenus ensemble par des liaisons hydrogènes
(représentées en lignes rouges).
8
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
I.6.3. La protéine
Les protéines sont les principaux composants fonctionnels des organismes, jouant un rôle
majeur dans presque tous les processus clés de la vie.
Toutes les protéines sont constituées de carbone, de l’oxygène, de l’hydrogène et de
l’azote. D’autres protéines contiennent aussi du soufre et du phosphore.
Pour leurs structures, les protéines peuvent être décrites selon quatre niveaux
d’organisation structurale : une séquence linéaire d’acides aminés, formant une chaîne
polypeptidique, constituant la structure primaire de la protéine. Cette structure primaire
constituée d’acides aminés est le squelette de la molécule de protéine. Ce squelette se
tord et se repli sur lui-même pour donner des niveaux d’organisation moléculaires plus
complexes : structures secondaire, tertiaire et quaternaire.
Les acides aminés sont les constituants des protéines. Il existe 20 acides aminés
importants, tous dotés de deux groupements fonctionnels: un groupe aminé (—NH2) et
un groupe acide organique (—COOH).
Les acides aminés diffèrent entre eux au niveau de leur troisième groupe appelé radical
R (figure 03).
9
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Chaque acide aminé doit son comportement chimique particulier ainsi que son acidité ou
son alcalinité relative aux particularités de l'arrangement des atomes de son groupe R.
10
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
11
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
12
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
II.1. Introduction
Plus de 50 ans, la première séquence protéique, celle de l'insuline bovine, a été
déterminée par Frederick Sanger. Dix ans plus tard, il y avait déjà des tentatives pour
rassembler toutes les séquences connues dans une seule base de données comme une aide
à l'analyse des relations entre des séquences similaires. Parallèlement, des programmes
d'extraction et d'analyse de ces séquences ont été développés et le domaine de la
bioinformatique a commencé, même s'il n'a pas reçu ce nom depuis quelques années.
13
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Les bases de données relationnelles sont largement utilisées pour stocker des
informations biologiques. Le type de base de données le plus couramment utilisé pour les
informations biologiques est probablement la base de données relationnelle. Une base de
données relationnelle stocke les données dans un certain nombre de tables. Chaque table
se compose d'enregistrements et de champs (lignes et colonnes).
Les bases de données sont accessibles localement ou en ligne et sont souvent liées les
unes aux autres. L'accès à une base de données peut être local, généralement via des
programmes d'interface utilisateur écrits sur site, par exemple en Java, ou externe via des
interfaces Web. Une base de données stockée localement présente les avantages d'un
accès plus rapide, d'une plus grande flexibilité dans la conception de requêtes spécifiques
et de la sécurité. Cependant, il est nécessaire non seulement d'avoir suffisamment
d'espace disque pour conserver une base de données mais aussi d'investir du temps et de
l'argent pour la gestion et la maintenance de la base de données. Par conséquent, le choix
préféré de la plupart des utilisateurs consiste à accéder à des bases de données externes
via Internet.
En d’autres termes, les bases de données biologiques ont été développées pour
archivage, stockage, diffusion et exploitation des données biologiques.
14
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Un certain nombre de centres ont été financés pour donner accès à un grand nombre de
bases de données majeures dans un environnement intégré, afin de faciliter leur
utilisation par la communauté des chercheurs. Les principaux centres de bases de données
comprennent le NCBI (http://www.ncbi.nlm.nih.gov/), l'EBI (http://www.ebi.ac.uk) et
l’Institut de Sanger (http://www.sanger.ac.uk). Chacun a des liens vers plus de 100
bases de données différentes et constitue un point de départ très utile pour l'analyse de la
séquence, de la structure et du génome.
15
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
16
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
17
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
18
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
b. UniProtKB/Swiss-Prot
Base de données de séquences protéiques présentant un niveau d’annotation élevé. Elle
contient des centaines de milliers de descriptions de protéines, y compris la fonction, la
structure de domaine, l'emplacement sous-cellulaire, les modifications post-
traductionnelles et les variantes caractérisées de manière fonctionnelle (figure 11).
19
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
c. UniProtKB/TrEMBL
Est une base de données de séquences protéiques annotées qui complète la base
UniProtKB/Swiss-Prot.
UniProtKB/TrEMBL contient les traductions de toutes les séquences codantes (CDS)
présentes dans les bases de données de séquences nucléiques EMBL/GenBank/DDBJ. La
base de données est enrichie d'une classification et d'une annotation automatisée (figure
12).
20
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Figure 14: Une recherche sur la subtilisin sur la base de données UniProtKB
21
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
b. PROSITE
C’est une base de données des domaines protéiques, des familles et des sites fonctionnels
ainsi que des modèles et profils associés pour les identifier (figure 16).
22
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
23
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
24
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
c. CATCH
CATH est base de données de classification des structures protéiques obtenues à partir de
la Protein Data Bank (PDB; www.rcsb.org). Elle regroupe les domaines protéiques en
superfamilles lorsqu'il existe suffisamment de preuves qu'ils ont divergé d'un ancêtre
commun (figure 21).
La base de connaissances Gene Ontology (GO) est la plus grande source d'informations
au monde sur les fonctions des gènes. Elle constitue une base pour l'analyse informatique
d'expériences de biologie moléculaire et de génétique à grande échelle dans la recherche
biomédicale (figure 22).
25
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
26
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
b. USDA PLANTS
La base de données PLANTS fournit des informations standardisées sur les plantes
vasculaires, les algues et les lichens des États-Unis et de ses territoires (figure 25).
27
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
II.4. Conclusion
L’exhaustivité des bases et banques de données biologiques existantes, ne nous permet
pas de les étudier d’une manière systématique. Le choix a été porté sur les plus usitées,
notre objectif pédagogique étant l’initiation et d’inculquer la curiosité scientifique à
l’étudiant et l’esprit de recherche.
De ce fait, on invite nos étudiants à se référer au guide d’application disponible dans
notre bibliothèque (UMBB) pour comprendre davantage ces banques et bases de données
et les procédures d’interrogation.
28
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
29
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
III.1. Introduction
Lorsque deux séquences sont comparées, il s’agit d’un alignement par paire, comparer
(aligner) plus de deux séquences, il s’agit d’un alignement multiple.
L’alignement de séquences est local,, quand il identifie des régions ou séquences sans la
prise en considération de la longueur des séquences ou l’organisation des régions.
Dans ce présent chapitre, on aura à étudier ensemble toutes les notions en rapport avec
l’alignement de séquences, ses matrices et la phylogénie.
30
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Suite à l’évolution des génomes, les séquences actuelles présentent des modifications
dues à des mutations (délétion, insertion, substitution, duplication, translocation). Les
portions importantes pour la fonction restent conservées. Rechercher les similarités entre
les séquences fournit des informations sur la fonction, la famille à laquelle appartiennent
les séquences, ...
- À travers une banque, et en comparant les séquences, nous pouvons identifier une
séquence obtenue expérimentalement.
- La localisation d’une séquence au sein d’un génome.
- Déterminer la fonction d’une séquence à partir d’autres séquences dont la
fonction est déjà répertoriée.
- La comparaison des séquences permet la prédiction des structures secondaires et
tertiaires des protéines.
- Étudier la phylogénie des séquences
a. Homologie : indique que des séquences descendent d’un ancêtre commun, puis
ont divergé.
La divergence peut résulter d’une duplication ou d’une spéciation.
31
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Pour pouvoir être lue par les programmes bioinformatiques, la séquence doit être
formatée. Ci-après quelques exemples de formats de séquences de biomolécules :
32
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
b. Format PIR
Débute par ―>‖, puis code à 2 lettres (P1=protéine complète, F1=fragment de protéine,
DL=ADN linéaire, DC=ADN circulaire, RL=ARN linéaire, RC=ARN circulaire,
N3=ARN de transfert, N1=autre ARN fonctionnel), puis ―;‖ suivi du code d’entrée dans
la base de données. La ligne suivante correspond à la description de la séquence. Puis
vient la séquence, qui s’achève par "*" (figure 29).
c. Format FASTQ:
III.5. Dotplot
Le ―dotplot‖ est une représentation qui donne une vue d’ensemble des similarités entre 2
séquences. C’est un outil graphique pour la comparaison de séquences.
Il s’agit d’une matrice dont les colonnes correspondent aux acides aminés ou aux bases
nucléiques de la première séquence et les lignes à ceux de la seconde séquence.
Principe général: les cases de la matrice sont remplies si une similarité entre les 2
séquences est détectée.
33
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Informations qui peuvent en être déduites: vue d’ensemble rapide, zones où a des
identités de séquence, insertions, palindrome...
34
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Ceci nécessite en général l’introduction de trous dans certaines positions pour pouvoir
identifier les zones de concordances. Ces trous correspondent à des insertions ou des
délétions (appelés indel) de nucléotides ou d'acides aminés dans les séquences (figure
31).
35
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Cas basique: calcul de l’identité. Incrémente le score si les 2 acides aminés/ les 2 acides
nucléiques correspondants sont identiques.
Pour l’ADN : il est courant d’utiliser un schéma de substitution simple tel que défini
dans la matrice suivante:
36
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
A G T C
A 1 -1 -1 -1
G -1 1 -1 -1
T -1 -1 1 -1
C -1 -1 -1 1
Une autre matrice un peu plus compliquée pourrait prendre en compte la fréquence plus
élevée de mutations de transition (purine ↔ purine et pyrimidine ↔ pyrimidine) et que
de transversion (purine ↔ pyrimidine).
A G T C
A 20 10 5 5
G 10 20 5 5
T 5 5 20 10
C 5 5 10 20
b. Pour les protéines : Il existe deux grands types de matrices permettant d’évaluer
la similarité entre 2 acides aminés: PAM et BLOSUM.
PAM :
Les matrices PAM représentent les échanges possibles ou acceptables d’un acide aminé
par un autre lors de l’évolution des protéines. On déduit la probabilité de remplacement
37
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
d’un acide aminé par un autre d’alignements de paires de séquences homologues. Une
substitution entre acides aminés équivalents devrait se produire plus fréquemment; le
score de ce type de changement devrait donc être élevé (figure 33).
Principe :
38
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Les matrices BLOSUM sont obtenues par une recherche des différences de séquences au
sein de régions très conservées de familles protéiques (figure 34).
Principe :
1. Blocs de séquences collectés dans une base de données Exemple: blocs pour la
famille ―alpha-amylase‖.
39
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
3. Normalise cette fréquence par la probabilité d’observer une paire d’acides aminés
donnée et en prend le log. ➔ Si la fréquence observée est inférieure à la fréquence
attendue, l’élément de matrice est négatif.
Pab = probabilité d’observer les résidus a et b alignés dans les séquences homologues.
λ = facteur de normalisation.
40
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
De manière générale:
MLACCKRLIDIMEPPGHGHH
MLACCKRLI- - - - - - GHGHH
Dans la plupart des alignements de séquences, il sera nécessaire d’introduire des ―trous‖,
pour prendre en compte les insertions/délétions. Il sera donc nécessaire de prendre en
compte dans le schéma d’évaluation l’insertion de ces ―trous‖, ainsi que leur extension.
41
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
La matrice de score choisie est la matrice identité: +1 si les acides aminés sont identiques,
pas de pénalité de "gap".
R C A L M M N P Q R S T
A 0 0 1 0 0 0 0 0 0 0 0 0
R 1 0 0 0 0 0 0 0 0 1 0 0
I 0 0 0 0 0 0 0 0 0 0 0 0
A 0 0 1 0 0 0 0 0 0 0 0 0
L 0 0 0 1 0 0 0 0 0 0 0 0
Q 0 0 0 0 0 0 0 0 1 0 0 0
L 0 0 0 0 0 0 0 0 0 0 0 0
M 0 0 0 0 1 1 0 0 0 0 0 0
M 0 0 0 0 0 0 0 0 0 0 0 0
N 0 0 0 0 0 0 1 0 0 0 0 0
42
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
où s(i,j) est le score initial en position (i,j) de la matrice, M(i-1,j-k) est le score en
position (i- 1,j-k) (k > 1) et M(i-r,j-1) est le score en position ! (i-r,j-1) (r > 1) et W est la
pénalité de gap.
43
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
RCALMMNPQRST et ARIALQLMMN
44
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
III.7. Phylogénie
III.7.1 Introduction
Les résultats sont généralement représentés sous forme d’un arbre (à racine ou sans
racine); la longueur des branches peut être liée à la distance séparant les séquences. Étant
donné qu’on ne dispose que de séquences actuelles, on infère la distance les séparant au
départ des similarités. On suppose que plus les caractères sont similaires, plus les espèces
sont proches, mais ce n’est une hypothèse à utiliser avec prudence (figure 36).
45
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
46
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Il est à noter que la méthode de vraisemblance maximum est très lourde lorsque le
nombre de séquences à traiter est important (figure 37).
Étant donné un ensemble de séquences, on détermine pour chaque paire leur distance/
dissimilarité.
Pour en faire un arbre, on choisit les 2 séquences les plus proches et on insère un noeud
représentant leur ancêtre commun.
On remplace ensuite les 2 séquences par un ensemble qui les contient toutes les 2, et les
distances vis-à-vis des autres sont remplacées par la distance moyenne.
47
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Cette méthode considère que l’arbre optimum est celui qui postule un nombre minimum
de mutations. Soit l'alignement de séquences suivant:
1 2 3 4
1 A T C G
2 A T G G
3 T C C A
4 T T C A
Pour chaque position "informative", on reconstruit les arbres possibles et on retient ceux
présentant le moins de mutations.
Seules les positions présentant des caractères identiques dans au moins 2 séquences sont
informatives (voir colonne 2 par exemple: non informatif), et permettent de faire la
différence entre les arbres.
48
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Cette méthode assigne des probabilités aux mutations possibles plutôt que de les compter.
Les ancêtres sont ensuite reconstruits en chaque nœud, et une longueur de branche est
également assignée sur la base des probabilités des mutations considérées.
Pour toute topologie d’arbre, les vitesses de substitutions supposées sont modifiées afin
d’identifier les paramètres qui conduisent à la plus grande vraisemblance de produire les
séquences observées. L’arbre optimal est celui qui présente la plus grande vraisemblance
de générer les données observées.
Remarque:
1. Pour toutes les méthodes, attention à la robustesse. Le mieux est de faire une
phylogénie en utilisant diverses méthodes et de voir si obtient des résultats
concordants.
2. Attention si les vitesses d’évolution des séquences sont différentes.
49
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Soit l’arbre utilisé dans un des exemples précédents, avec sa matrice de dissimilarité.
Si l’espèce d’où est issue la séquence D a changé très rapidement, sans que la phylogénie
n’ait changé, la matrice de dissimilarité sera plutôt:
50
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Dans ce chapitre, on a voulu aussi inséré des rappels de notions et de définitions pour
permettre un recadrage des acquis en notions de base se rapportant aux protéines.
D’autres définitions en guise de rappel d’ordre générale.
51
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
IV.1. Introduction
Les protéines sont les véritables acteurs du vivant. Ce sont elles qui vont assurer la
grande diversité des fonctions allant de la catalyse des réactions à la structuration de la
matière vivante.
Les protéines sont des constituants fondamentaux des organismes vivants, elles
correspondent à des polymères formés de l’enchaînement d’acides aminés (20 au total,
tous de série L) liés par des liaisons covalentes : les liaisons peptidiques.
Les protéines sont des molécules de haut poids moléculaire, la plupart sont comprises
entre 25 000 et 150 000 Datons, certaines possèdent des poids moléculaires plus bas ou
beaucoup plus élevés.
Les protéines jouent un rôle essentiel dans la cohésion des structures morphologiques et
dans le fonctionnement cellulaire, les plus grands groupes de protéines sont :
- Les enzymes qui sont des catalyseurs biologiques de plusieurs réactions chimiques
des cellules.
- Les anticorps qui sont responsables des réponses immunitaires, ils forment des
complexes avec les corps étrangers.
- Les protéines de stockage : elles servent de réserves biologiques d'ions métalliques
et d'acides aminés, telle la ferritine (protéine de stockage qui stocke le fer).
- Les protéines de transport : comme l'hémoglobine pour le transport du
dioxygène et la transferrine pour le transport du fer.
- Les hormones (certaines hormones sont de nature protéiques) comme l'insuline et
l'hormone de croissance.
- Les histones liées à l’ADN, elles participent au contrôle de l’expression génétique.
- Les protéines de structure et de soutien comme la kératine, le collagène et
l’élastine qui sont des constituants du tissu conjonctif.
52
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Une protéine peut être constituée d’une seule chaîne polypeptidique (monomère) ou de
plusieurs chaines polypeptidiques (polymère : dimère, trimère, tétramère,…).
Les acides aminés se distinguent donc par la nature de leur radical R plus communément
appelé chaine latérale. Ces dernières se distinguent par leur dimension, leur forme, leur
charge, leur capacité de contracter des liaisons hydrogènes et leur réactivité chimique.
Une liste complète des 20 acides aminés est donnée dans la figure 39.
53
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Avant de poursuivre notre propos, il est essentiel de s’attarder un peu sur les propriétés
individuelles des constituants élémentaires des protéines. La charge, la polarité,
l’hydrophobicité sont autant de propriétés qui peuvent être mesurées et indicées.
Entre tous, l’hydrophobicité est le paramètre le plus important. Elle mesure la capacité
d’un acide aminé à interagir avec des molécules d’eau et plus généralement son
comportement dans un solvant.
Les acides aminés sont représentés sous deux formes d’abréviation : à 3 lettres et à une
lettre symbolisant l’acide en question (tableau II).
54
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
55
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
a. L’hélice alpha
Structure hélicoïdale, le squelette de la chaîne polypeptidique est enroulé autour de l'axe
de la molécule de telle manière que les groupes de résidus R de la chaîne latérale se
projettent vers l'extérieur à partir du squelette hélicoïdal. Le nombre de résidus requis
pour effectuer un seul tour/bobine est de 3,6 en hélice α. Dans un seul tour d'hélice α, il y
56
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
a une interaction de liaison H entre chacun des carbonyl oxygènes (n) du squelette et le
proton amide du 4e résidu (n + 4) vers l'extrémité C-terminale. Ces liaisons stabilisent la
conformation hélicoïdale et sont presque parallèles à l'axe longitudinal de l'hélice (figure
42).
b. Feuillets β
Contrairement à l'hélice α, où la liaison d’hydrogène (H) est formée entre les résidus
voisins au sein d'une seule chaîne, les feuilles β sont formées par une liaison H entre les
squelettes polypeptidiques adjacents dans les chaînes. Ces sections de chaînes
polypeptidiques adjacentes sont appelées brins β. Les feuillets β comprennent des liaisons
d’hydrogène formées entre les oxygènes carbonyles et l'hydrogène amide sur les brins β
adjacents (figure 43).
57
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
58
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Figure 44: Structure secondaire en coude (type I et II) (Voet et Voet, 1995).
Figure 45: Structure tertiaire d’une alpha amylase humaine (code PDB : 1SMD)
59
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
60
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
L’avantage de cette technique est sa très bonne résolution spatiale, proche du rayon de
van der Waals d’un atome d’hydrogène dans le meilleur de cas.
Le principal désavantage de cette technique est la nécessité de former des cristaux
ordonnés de protéine et il est souvent nécessaire d’en tester un grand nombre avant
d’obtenir les premiers cristaux.
61
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Les structures 2D et 3D sont mieux conservées que les séquences (structures 1D) au
cours de l’évolution d’où l’intérêt cognitif majeur. Cependant, la connaissance seule de la
séquence d’une protéine n’est pas suffisante pour prévoir la structure 3D d’une protéine.
Le but ultime de la prédiction de la structure des protéines est d'élucider une structure à
partir de sa séquence primaire, avec une précision comparable aux résultats obtenus
expérimentalement en utilisant la cristallographie aux rayons X et la RMN.
62
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Une question se pose souvent pour la prédiction des structures tridimensionnelles à partir
de la séquence en acides aminés :
63
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Quelle structure faut-il choisir: la plus stable ou celle qui est accessible le plus
rapidement?
Donc, il a été accepté que le repliement des protéines soit contrôlé par les paramètres
cinétiques et thermodynamiques. Cela veut dire qu’une protéine cherche sa structure
native qui est la plus stable au niveau thermodynamique en suivant un chemin particulier
de repliement.
Les approches de prédiction de la structure des protéines sont basées sur l’hypothèse
thermodynamique, qui postule que l'état natif d'une protéine est l'état d'énergie libre la
plus faible sous conditions physiologiques.
a. La méthode de Chou-Fasman
64
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Algorithme de Chou-Fasman
Les règles pour une hélice α
Identifier les régions de résidus consécutifs pour lesquelles 2/3 des résidus
satisfaits P (h)> 100.
Étendre ces régions dans les deux directions, jusqu’à atteindre 4 résidus
consécutifs de P(h) moyen <100.
Les régions pour lesquelles P(h)>P(f) sont déclarées hélice α.
Tableau III : Propension hélices α et feuillets β des acides aminés (Pα et Pβ) selon la
méthode de Chou-Fasmon (Guillaume Chakroun, 2004)
65
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Suivant leur score de conformation, la méthode de Chou-Fasmon sous classe les acides
aminés en six degrés d’affinité pour chaque structure secondaire :
h : formateur
I : faible formateur
i : indifférent
b : casseur
B : casseur puissant
La méthode de GOR est une méthode statistique, elle se base sur la probabilité d’un acide
aminé d’appartenir à un type de structure secondaire dépend de la nature et de la position
de ses voisins. Autrement dit : chaque acide aminé possède une influence sur la
conformation de tous les autres acides aminés.
Sa théorie est basée sur des principes statistiques solides, est bien définie et comporte peu
de variables introduites artificiellement.
Avantage:
- Généralement applicables et fonctionne avec des séquences sans homologies de
structure connue.
66
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Un réseau de neurones doit pouvoir calculer des valeurs de sorties (s1, s2, s3) (la
prédiction des structures secondaires) en fonction de variables d’entrées (e1, e2, e3)
(séquences de protéines). Les connexions entre les neurones qui composent le réseau
décrivent la topologie du modèle (figure 48).
Avantages :
- Les méthodes de prédiction par un réseau de neurone sont facilement disponibles.
- Elles réussissent souvent dans la pratique.
Inconvénients :
- Les théories physiques et chimiques ne sont pas utilisées.
- Aucune comparaison quantitative n'est faite des règles.
67
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
La modélisation par homologie exige l’existence d’une structure d’une protéine connue
présentant plus de 30% d’identité de séquence avec la protéine cible. Cette structure
servira de structure de référence.
La méthode se base sur le fait que la structure de la protéine est plus conservée que sa
séquence. C’est-à-dire si les séquences sont similaires alors leurs structures le sont aussi.
La Protein Data Bank (PDB) est la base de données qui regroupe toutes les structures des
protéines connues (X-ray, crystallography, NMR).
La modélisation se fait en plusieurs étapes :
68
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
69
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
C'est une méthode qui identifie les structures 3D similaire mais qui n'ont pas de séquence
homologue.
La méthode de reconnaissance des repliements (threading) se base sur le principe qu’il
existe des protéines qui ont des structures qui se ressemblent avec un faible score
d'alignement.
Cette méthode effectue un alignement entre une séquence et un fragment de structure et
intègre à la fois des informations de séquence et de structure (2D, 3D). Elle cherche à
trouver quel type de repliement la nouvelle protéine peut adopter quand on ne dispose
que de sa séquence. Comme le nombre de repliements est limité, il est possible de
retrouver les mêmes repliements dans des protéines très éloignées.
L’inconvénient de cette approche c’est que cette dernière est limitée par le nombre de
repliements connus.
Exemple de programme : 3D-PSSM
(http://www.sbg.bio.ic.ac.uk/~3dpssm/index2.html) et PHYRE
(http://www.sbg.bio.ic.ac.uk/~phyre2/html/page.cgi?id=index).
70
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
La structure fonctionnelle normale d'une protéine (son "état natif") est souvent une
conformation qui a l'énergie libre la plus faible possible. Les méthodes ab initio prédisent
une structure pour une protéine cible en tentant de trouver la conformation d'énergie la
plus faible que la chaîne polypeptidique peut adopter.
Les méthodes ab initio utilisent l’approche hiérarchique, dans laquelle les hélices sont
prédites en premier, puis les brins et la topologie globale des feuillets. Les boucles sont
modélisées à part. L’ensemble des données issues de ces prédictions sont utilisées pour la
conception d’une structure 3D.
Une limitation majeure de cette méthode est une exigence de puissance de calcul énorme.
L’inconvénient de ces méthodes c’est que la prédiction nécessite une exploration de
l’espace conformationnel, donc elles restent applicables uniquement à des petites
protéines de moins d’une centaine de résidus.
71
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
72
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
pour les alignements cible-patron, à une structure de patron à faible résolution et à des
inexactitudes structurelles introduites par le programme de modélisation. L'objectif
principal des programmes de vérification de modèles prédits est de détecter les segments
non fiables dans le modèle en évaluant leur qualité stéréochimique et géométrique pour
que les modèles soient adaptés à des applications ultérieures.
Pour l'évaluation de la qualité de la modélisation, différents programmes sont disponibles
en ligne tels que : PROCHECK (https://www.ebi.ac.uk/thornton-
srv/software/PROCHECK/), ERRAT(http://services.mbi.ucla.edu/ERRAT/), Verify3D
(http://services.mbi.ucla.edu/ERRAT/),WHAT_CHECK(http://servicesn.mbi.ucla.edu/W
HATCHECK/).
73
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
La Protein Data Bank (PDB) est la base de données internationale de dépôt des structures
protéiques obtenues expérimentalement par cristallographie aux rayons X, spectroscopie
RMN et la cryo-microscopie électronique. Cette banque fut créée en 1971 et depuis croit
de manière exponentielle. Aujourd’hui, cette banque contient 190841 de structures
protéiques (Mai 2022). La PDB montre que la méthode expérimentale la plus utilisée est
la cristallographie aux rayons X.
C’est à partir de cette banque que sont détectés les homologues structuraux. La majorité
des séquences ont une homologie inférieure à 20%; on évalue à environ 1000 le nombre
74
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
À travers la base de données PDB, nous pouvons télécharger un fichier (nommé fichier
PDB). Ce dernier stocke des données sous une forme structurée et contient les
coordonnées cartésiennes des atomes constitutifs d’une biomolécule donnée.
75
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Le fichier PDB contient aussi les données cartésiennes (X, Y, Z) des atomes (figure
55).
76
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Le fichier PDB peut être lu par des programmes de visualisation qui permettent une
analyse détaillée de la structure 3D.
Il existe plusieurs logiciels appelés « interfaces graphiques moléculaires » permettent la
présentation et la visualisation des structures des biomolécules, à titre d’exemples:
77
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
78
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
79
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Ce chapitre est dans l’objectif de s’initier aux méthodes de prédiction des différentes
interactions et complexes pour une meilleure compréhension de quelques fonctions
biologiques.
80
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
V.1. Introduction
L’ensemble des processus cellulaires est contrôlé par l’association et la dissociation des
protéines. Ainsi, les interactions protéines-protéines / protéine-ligands sont au cœur de
différentes fonctions essentielles, comme la réplication de l’ADN, l’organisation du
cytosquelette, le contrôle du cycle cellulaire, ou encore la réponse à certains signaux
extracellulaires. Leur caractérisation à l’échelle d’un organisme constitue une étape
majeure pour une meilleure compréhension du rôle des protéines, et plus généralement du
fonctionnement des cellules.
La plupart des protéines assurent leurs fonctions biologiques en interagissant avec une ou
plusieurs autres protéines. Elles peuvent former de larges complexes protéiques,
exemple : le protéasome (qui est un assemblage d’environ 50 sous-unités protéiques).
Les interactions entre la protéine et son partenaire sont généralement non covalentes et de
faibles énergies. Elles sont de même type que celles impliquées dans le repliement des
protéines (liaisons hydrogène, interactions électrostatiques, contacts de type Van der
Waals et effets hydrophobes).
Les interactions sont très diverses, selon leurs composition, leurs affinités ou leur nature
permanente ou transitoire (figure 57).
81
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Une interaction non obligatoire signifie que les protéines sont stables en absence
d’interactions.
c. Permanente ou transitoire : On peut aussi distinguer les interactions selon leur
dynamique : permanente et transitoire.
Les interactions permanentes sont très stables, et les protéines impliquées ne sont
présentes que sous leur forme complexée.
Les interactions transitoires sont beaucoup plus dynamiques, les partenaires
s’associent et se dissocient rapidement in vivo.
Il est important de noter que la plupart des interactions ne tombent pas exactement dans
chacune de ces catégories, mais qu’un continuum existe entre interactions obligatoires et
non-obligatoires, et que la stabilité des complexes dépend beaucoup des conditions
physiologiques et de l’environnement. Une interaction peut être principalement transitoire
in vivo, mais devenir permanente sous certaines conditions cellulaires.
82
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Les méthodes de prédictions sont basées sur les séquences des protéines, et les
caractéristiques structurales et génomiques liées aux interactions et aux relations
fonctionnelles.
Différentes approches bioinformatiques destinées à prédire les interactions entre
protéines sont présentées dans ce chapitre.
83
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
84
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
espèces. Pour chaque protéine, un profil est construit, représenté sous la forme d’un
vecteur dont chaque entrée prend comme valeur 1 ou 0 en fonction de la présence ou de
l’absence d’un homologue dans un génome donné. Les protéines présentant un profil
similaire (comme les protéines A et B dans cet exemple), sont prédites comme étant relié
à la même fonction, et potentiellement en interaction.
d. Conservation du voisinage physique des gènes “ Gene Neighbor ”
Elle explore la conservation du voisinage des gènes dans différentes espèces. Si deux
protéines sont en interaction, alors la proximité physique des deux gènes associés est
supposée être conservée dans les différentes espèces concernées.
À titre d’exemple, dans les génomes procaryotes, certains gènes liés fonctionnellement, et
codant des protéines qui interagissent potentiellement sont regroupées au sein de ce qu’on
appelle des opérons.
La méthode « Gene Neighbor » vise à identifier des paires de protéines proches dans les
génomes de plusieurs organismes. Dans cet exemple, la paire A-B sera prédite en
interaction par l’approche, contrairement à la paire A-C.
85
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Plusieurs bases de données ont été développée pour collecter, classer et rendre accessible
ces différentes données expérimentales issues de l’analyse des interactions protéines-
protéines. Ces bases des données se distinguent par de nombreux critères tels que : le type
d’organisme couvert et les politiques d’acquisition des données. D’une part, les données
d’interactions peuvent être succinctes ou détaillées, et d’autre part elles peuvent être
récupérées de façon automatique ou entrées manuellement par une personne qui extrait
ces informations de la littérature et des différents cribles effectués.
Selon la source des données, on distingue deux types de bases de données :
- Bases de données primaires : les données proviennent exclusivement de
publication validées par des experts ("peer-review"), exemple : IntActet
MatrixDB.
- Bases de données secondaires : les données sont issues des bases de données
primaires (meta-databases), exemple : APID et PINA.
Il existe aussi des bases de données spécialisées en interaction prédites par les méthodes
de bioinformatiques telles que : MIMI, PIPs, MPIDB, STRING, I2D/OPHID et
UniHI.
Le tableau résume les bases de données d’interactions protéine – protéine
86
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
La recherche qui élucide les mécanismes d'interaction au niveau des sites de liaison des
ligands implique généralement une modélisation in silico. La modélisation in silico utilise
des ordinateurs pour comparer les structures protéiques déjà connues et les données
évolutives afin de faire des prédictions dans le but de déterminer la forme de liaison
optimale et l'état énergétique du complexe protéine-ligand.
La disponibilité des coordonnées spatiales des molécules à étudier sont nécessaires pour
les études de modélisation moléculaire. L’ensemble des structures tridimensionnelles
(structures 3D) des protéines biologiques, résolues par cristallographie aux rayons X, par
spectroscopie RMN ou par cryomicroscopie sont regroupées dans la base de données
PDB (Protein Data Bank).
Pour les cas des protéines dont la structure 3D n’est pas résolue expérimentale, il est
possible de construire un modèle à partir d’une protéine homologue dont la structure 3D a
88
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
89
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
90
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
c. Dynamique moléculaire
Les proteines sont tres flexibles et existent sous plusieures conformations en équilibre
entre elles dans le milieu biologique. Dans la majorité des docking moléculaires, la
proteines est considérée fixe. La dynamique moléculaire permet de tenir compte de la
grande flexibilité de la protéine. Elle peut donc être utilisée pour valider ou affiner une
position de docking (complexe ligand/protéine).
En dynamique moléculaire, le mouvement des atomes d’une molécule est simulé en
intégrant les équations de Newton F = ma (F, vecteur force, a, vecteur accélération et m,
la masse) en fonction du temps.
La dynamique moléculaire permet de calculer à chaque instant (t + dt) la force exercée
sur chaque atome, et fournit ainsi différentes informations sur leur trajectoire telles que
accélération, vitesse et position par des méthodes d’intégration numérique.
Compte tenu de la volatilité de la force en fonction de la position de l’atome, il s’avére
necessaire de proceder à des calculs avec des pas petits (pas d’intégration « dt » de
l’ordre de la fentoseconde à la nanoseconde). Ainsi, les pas trop grands, font que la force
change pendant l’intégration et comme ce changement ne sera pas pris en compte, la
simulation sera fausse.
91
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Conclusion générale
Ce cours reste un modeste travail et une contribution à l’initiation et à l’interessement de
nos etudiant de premier palier (L3) à la descipline de bioinformatique.
La méthode didactique suivie se base sur une montée crescendo des notions en
bioinformatique et une construction permettant in-fine, d’hisser le niveau de l’etudiant en
bioinformatique, de consolider ses notions de base et d’attiser sa curiosité et son
enthousiasme pour la discipline, le mieux le préparer pour un palier superieur pour
d’autres notions plus approfondies.
On a veillé à palier à la fois le souci d’inculquer les notions de base en bioinformatique
tout en suivant et respectant les notions pédagogiques d’enseignement.
Nous estimons que le travail fourni et à la hauteur de l’objectif recherché dans ce niveau
(L3), l’etudiant aura toute la latitude de s’interesser d’avantage à cette discipline qui est à
la pointe de la recherche scientifique.
92
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
Références bibliographiques
93
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB
94