Vous êtes sur la page 1sur 109

‫الجمهىريت الجسائريت الديمقراطيت الشعبيت‬

République Algérienne Démocratique et Populaire


‫وزارة التعليم العالي والبحث العلمي‬
Ministère de l’Enseignement Supérieur et de la Recherche Scientifique
‫جامعت ادمحم بىقرة بىمرداش‬
Université M’Hamed Bougara, Boumerdès
Faculté des Sciences
Département de Biologie

Polycopié pédagogique

Cours de:
Bioinformatique générale

Cours destiné aux étudiants de 3éme année


L3 Biotechnologie Végétale et Amélioration

Présenté par :
Dr SADAOUI-SMADHI Nesrine
n.sadaoui@univ-boumerdes.dz

Année universitaire : 2021-2022


Life begins with cells and cell begins with the secret of life:
" DNA"
*
DNA begins with four nucleotides and nucleotide begins with five atoms:
"H, C, O, N, P"
*
Atoms begins with electrons, protons, neutrons and other substructures
*
So, Try to understand Life
SOMMAIRE
Liste des figures
Liste des tableaux
Contenu de la matière
Préambule
Chapitre I : Introduction à la Bioinformatique 01
I.1. Introduction à la bioinformatique…………………………………………….... 02
I.1.1. Définition de la bioinformatique……………………………………………... 02
I.2. Les objectifs de la bioinformatique…………………………………………. 03
I.3. Les domaines de recherche de la bioinformatique…………………………. 03
I.4. Les différentes applications de la bioinformatique…………………………. 04
I.5. Une brève histoire de la bioinformatique…………………………………… 05
I.6. Rappels en biologie moléculaire…………………………………………….. 07
I.6.1. L’ADN (Acide désoxyribonucléique)……………………………………... 07
I.6.2. L’ARN (Acide ribonucléique)…………………………………………….. 09
I.6.3. La protéine…………………………………………………………………. 09
I.7. ADN, ARN et protéines : le dogme central de la biologie moléculaire……….. 10
Chapitre II : Les banques et les bases de données biologiques 12
II.1. Introduction………………………………………………………………… 13
II.2. C’est quoi une base de données?............................................................ 13
II.3. Les types des banques et bases de données biologiques………………….. 15
II.3.1. Banques de données de séquences nucléiques………………………….. 17
II.3.2. Banques de données de séquences protéiques…………………………… 18
II.3.3. Les bases de données associées à Swiss-Prot……………………………. 21
II.3.4. Les bases de données de structures protéiques et leurs classifications…. 24
II.3.5. Base de données des gènes……………………………………………….. 25
II.3.6. Base de données bibliographique…………………………………………… 26
II.3.7. Quelques bases de données utiles pour la biotechnologie végétale…….. 26
II.4. Conclusion………………………………………………………………….. 28
Chapitre III : Séquences de Biomolécules 29
III.1. Introduction 30
III.2. Pourquoi comparer des séquences entre elles ? 32
III.3. Quelques définitions importantes 31
III.4. Format de séquence………………………………………………………….. 32
III.5. Dotplot……………………………………………………………………….. 33
III.6. Alignement de séquences…………………………………………………….. 34
III.6.1. Types d’alignement de séquences………………………………………….. 36
III.6.2. Évaluation de l’alignement de séquences………………………………….. 36

III.6.2.1. Matrices de score………………………………………………………… 36


III.6.2.2. Traitement des ―trous‖ (―gap‖)…………………………………………... 41
III.6.2.3. Pourcentage d'identité de séquences et pourcentage de similarité de 41
séquences……………………………………………………………………………
III.6.3. Alignement de séquences global………………………………………….. 42
III.6.4. Alignement local………………………………………………………….. 44
III.6.5 Alignement multiple……………………………………………………….. 45
III.7. Phylogénie…………………………………………………………………... 45
III.7.1 Introduction………………………………………………………………... 45
III.7.2. Approches pour dériver un arbre phylogénétique………………………… 46
III.7.2.1. Méthode de distances: exemple du clustering hiérarchique…………… 47
III.5.2.2. Parcimonie maximale…………………………………………………… 48
III.5.2.3. Vraisemblance maximale……………………………………………….. 49
Chapitre IV : Structures de proteines 51
IV.1. Introduction…………………………………………………………………. 52
IV.2. Les acides aminés…………………………………………………………… 53
IV.3. Structures des protéines…………………………………………………….. 55
IV.3.1. Structure primaire………………………………………………………… 56
IV.3.2. Structure secondaire……………………………………………………… 56
IV.3.3. Structure tertiaire………………………………………………………… 59
IV.3.4. Structure quaternaire……………………………………………………. 60
IV.4. Détermination de la structure des protéines……………………………….. 60
IV.4.1. Méthodes dites « expérimentales »………………………………………. 60
IV.4.2. Les méthodes dites « in silico »………………………………………….. 62
IV.4.2.1. Prédiction des structures secondaires…………………………………… 64
VI.4.2.2. Prédiction des structures tertiaires…………………………………….. 68
IV.5. Validation d’une structure protéique……………………………………….. 72
IV.5.1. Le diagramme de Ramachandran………………………………………… 73
IV.6. La banque de données internationale de structures « Protéine Data Bank 74
(PDB) »
IV.6.1. Organisation du fichier PDB……………………………………………… 76
IV.7. Programmes de visualisation des structures 3D……………………………. 77

IV.8. Les autres banques de structures protéiques…………………………….. 78

Chapitre V : Interactions protéine-protéine / protéine-ligand 80


V.1. Introduction …………………………………………………………………. 81
V.2. Interactions protéines – protéines……………………………………………. 81
V.2.1. Méthodes de prédiction des interactions protéines-protéines……………… 83
V.2.2. Les bases de données d’interactions protéine-protéine……………………. 86
V.3. Interaction protéine-ligand………………………………………………….. 87
V.3.1. Prédiction des interactions protéine-ligand……………………………….. 87
V.3.1.1. La Modélisation moléculaire…………………………………………….. 88
Conclusion générale……………………………………………………………... 92
Liste des figures
Figure 01 La Bio+informatique……………………………………………....... 03
Figure 02 La structure en double hélice d’ADN……………………………….. 08
Figure 03 La structure chimique des 20 acides aminés………………………… 10
Figure 04 Dogme central de la biologie moléculaire…………………………... 11
Figure 05 Page d’accueil de Genbank………………………………………….. 16
Figure 06 Exemple d’une requête (recherche sur Fusarium oxysporum) dans 16
Genbank……………………………………………………………
…...
Figure 07 Résultats de la recherche sur Fusarium oxysporum dans Gengank… 17
Figure 08 Page d’accueil de la base de données EMBL……………………….. 17
Figure 09 Page d’accueil de la base de données DDBJ……………………… 18
Figure 10 Page d’accueil de la base de données UniprotKB…………………... 19
Figure 11 Page d’accueil de la base de données UniProtKB/Swiss-Prot……… 19
Figure 12 Page d’accueil de la base de données TrEMBL…………………… 20
Figure 13 Page d’accueil de la base de données PIR………………………… 20
Figure 14 Une recherche sur la subtilisin sur la base de données UniProtKB… 21
Figure 15 Page d’accueil de la base de données ENZYME DB……………….. 21
Figure 16 Page d’accueil de la base de données PROSITE………………….. 22
Figure 17 Page d’accueil du Portail Expasy………………………………….... 23
Figure 18 Page d’accueil de la base de données Pfam…………………………. 23
Figure 19 Page d’accueil de la base de données PDB……………………….. 24
Figure 20 Page d’accueil de la base de données SCOP………………………... 24
Figure 21 Page d’accueil de la base de données CATCH…………………..…. 25
Figure 22 Page d’accueil de la base de données Gene ontology………………. 25
Figure 23 Page d’accueil de la base de données Pubmed…………………….... 26
Figure 24 Page d’accueil de la base de données FoodDB…………………...… 26
Figure 25 Page d’accueil de la base de données USDA PLANTS…………… 27
Figure 26 Page d’accueil de la base de données INFOODS…………………. 27
Figure 27 La notion d’un ancêtre commun…………………………………….. 30
Figure 28 Séquence nucléique format FASTA……………………………….... 32
Figure 29 Séquence nucléique format PIR…………………………………….. 33
Figure 30 Exemple d’un Dotplot………………………………………………. 35
Figure 31 Exemple d’un alignement de séquence……………….…………...… 36
Figure 32 Recherche d’un chemin d’alignement dans la matrice Dotplot.…. 36
Figure 33 La matrice PAM………....………………………………………….. 39
Figure 34 La matrice Blosum………………………………………………..… 40
Figure 35 Comparaison entre BLOSUM et PAM……………………………... 41
Figure 36 Arbre phylogénique avec et sans racine…………………………..… 46
Figure 37 Méthodes d’obtention d’un arbre phylogénique…………………… 46
Figure 38 Formule générale d’un acide aminé………………………………… 53
Figure 39 Les 20 acides aminés………………………………………………... 54
Figure 40 Les différentes structures protéiques........................................... 55
Figure 41 Structure primaire d’une protéine............................................... 56
Figure 42 Structure secondaire en hélice α…………………………………..… 57
Figure 43 Structure secondaire en feuillet B…………………………………... 58
Figure 44 Structure secondaire en coude (type I et II)………………………… 59
Figure 45 Structure tertiaire d’une alpha amylase humaine…………………… 59
Figure 46 Structure quaternaire d’une protéine……………………………....... 60
Figure 47 Relation : séquence - structure – fonction…………………………. 62
Figure 48 Schéma général d’un réseau de neurones………………………….... 67
Figure 49 Digramme méthodologique de la prédiction de la structure tertiaire 72
d’une protéine……………………………………………………..…
Figure 50 Un diagramme de Ramachandran…………………………………... 74
Figure 51 Page d’accueil de la base de données PDB……………………….… 75
Figure 52 Statistiques de la base de données PDB…………………………….. 75
Figure 53 Comment télécharger le fichier PDB d’une structure protéique…… 76
Figure 54 En-tête du fichier PDB................................................................. 76
Figure 55 Fichier PDB de la structure de Coordonnées cartésiennes des 77
atomes des acides aminées de la structure………...…………………
Figure 56 Représentation des trois premiers niveaux Classe, Architecture, 79
Topologie de la classification CATH………………………………..
Figure 57 Exemples de différents types d’interactions protéine – protéine......... 82
Figure 58 La méthode « la Pierre Rosetta »……………………………………. 84
Figure 59 Méthode de profils phylogénétiques……………………………….. 84
Figure 60 La méthode ― Gene Neighbor ‖………………………………….…. 85
Figure 61 L’interface d’AUTODOCK……………………………………...…. 90
Figure 62 L’interface du logiciel GOLD…………………………………….… 90
Figure 63 Docking moléculaire avec AUTODOCK………………………….... 91
Liste des tableaux
Tableau I Dates et événement majeurs en Bioinformatique………………... 05
Tableau II Tableau d’abréviations des acides aminés……………………….. 55
Tableau III Propension hélices α et feuillets β des acides aminés (Pα et Pβ)
selon la méthode de Chou-Fasmon........................................…… 65
Tableau IV Description de quelques bases de données d’interactions…..…… 86
Contenu de la matière

Bioinformatique générale

1. Introduction
2. Recherche dans les banques et les bases de données de biomolécules
3. Séquences de Biomolécules
3.1 Introduction
3.2 Alignement de séquences
3.3 Recherche de motifs dans des banques de données de séquences
3.4 Alignement multiple de séquences
3.5 Phylogénie
4. Structure de protéines
4.1 Introduction
4.2 Prédiction de la structure secondaire des protéines
4.3 Prédiction de la structure tertiaire des protéines
5. Interactions protéine-protéine / protéine-ligand
Préambule
Il est attendu par cette contribution, d’apporter un support pédagogique et technique à nos
étudiants s’initiant à la discipline de la Bioinformatique; discipline faut-il le rappeler est à
la pointe de la recherche biologique.
L’intérêt que doit porter l’étudiant à cette discipline et la quête d’intéressement sont les
deux paramètres sur lequel en s’est basé dans l’élaboration de ce cours; dans son contenu
et dans son articulation.
Cet humble travail est l’aboutissement d’heures d’enseignement et de recherche
didactique.
De notre part, l’intérêt que porte la communauté scientifique des biologistes à la
bioinformatique est le souci de s’simplifier, initier et consolider les acquis de nos
étudiants biologistes de premier palier (Licence « L3 ») nous a amenés à construire un
cours en tenant compte d’une accumulation graduelle, mesurée des notions de
Bioinformatique.
De ce fait, constitué de cinq chapitres, par lesquels et à l’issus du dernier chapitre,
l’étudiant aura la maitrise et la connaissance du plus essentiel dans le module de
Bioinformatique générale, ces connaissances lui ouvriront des perspectives de
développement et des horizons d’enrichissement et de consolidation des acquis dans
d’autres palier pédagogiques.
Chapitre I : Introduction à la Bioinformatique
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Chapitre I : Introduction à la Bioinformatique

Ce chapitre donne une brève introduction à la bioinformatique en fournissant d'abord une


introduction à la terminologie, puis en discutant sur les objectifs, domaines et les
applications de la bioinformatique.
Dans ce chapitre aussi, un bref rappel en biologie moléculaire est nécessaire pour une
meilleure compréhension des autres chapitres.
Les objectifs de ce chapitre sont :
- Initier les étudiants à la Bioinformatique.
- Rappeler les étudiants de certaines notions telles que l’ADN, l’ARN et les
protéines.

1
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

I.1. Introduction
Le terme bioinformatique est apparu au début des années 1990, lorsque de grandes
quantités de données expérimentales ont été produites par des projets de séquençage, en
particulier le projet du génome humain. A cette époque, le développement de bases de
données, le développement des algorithmes d'alignement de séquences ont permis et
grâce aux outils d’organisation et d’exploration et d’exploitation, d'approfondir les
connaissances issues de la génomique et les séquences protéiques, les bases de données et
les outils d’exploitation et de recherche constituent ce qu’on appellera par le suite la
bioinformatique; c’est là, la genèse de la discipline.

I.1.1. Définition de la bioinformatique


La bioinformatique est un domaine interdisciplinaire impliquant principalement la
biologie moléculaire et la génétique, l'informatique, les mathématiques et les statistiques.
Les problèmes biologiques à grande échelle et à forte intensité de données sont abordés
d'un point de vue computationnel.
La bioinformatique, est souvent défini comme l'application de techniques informatiques
pour comprendre et organiser les informations associées à des macromolécules
biologiques.
Autrement dit, la bioinformatique est l’application des techniques de l’informatique et
dérivées de disciplines telles que les mathématiques appliquées, l'informatique, et les
statistiques pour comprendre et organiser les informations associées avec des molécules
biologiques, à grande échelle.
La bioinformatique est principalement composée de deux domaines ou disciplines ; l'un
est l'informatique et la technologie de l'information en tant qu'outil d'analyse de données
massives telles que le génome et le protéome, et l'autre est la recherche pour la biologie
intégrée basée sur la connaissance du génome. La bioinformatique vise à comprendre le
vivant dans son ensemble, où l'information sur le génome et le modèle mathématique
jouent des rôles complémentaires (figure 01).

2
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Figure 01 : La Bio+informatique

I.2. Les objectifs de la bioinformatique


En général, les objectifs de la bioinformatique sont triples :
- Premièrement, dans sa forme la plus simple, la bioinformatique organise les
données d'une manière qui permet aux chercheurs d'accéder aux informations
existantes et de soumettre de nouvelles entrées telles qu'elles sont produites, par
exemple : la banque de données sur les protéines. Les informations stockées dans
ces bases de données sont essentiellement inutiles jusqu'à ce qu’elles soient
analysées.
- Le deuxième objectif est de développer des outils et des ressources qui aident à
l'analyse des données. Par exemple, après avoir séquencé une protéine particulière,
il est intéressant de la comparer avec des séquences préalablement caractérisées.
- Le troisième objectif est d'utiliser ces outils pour analyser les données et interpréter
les résultats de manière biologiquement significative. Traditionnellement, les études
biologiques examinaient en détail les systèmes individuels et comparaient
fréquemment à quelques-uns qui sont apparentés. Dans la bioinformatique, nous
pouvons désormais effectuer des analyses de toutes les données disponibles avec
objectif de dégager des principes communes qui s'appliquent à de nombreux
systèmes et mettent en évidence des nouveautés.

I.3. Les domaines de recherche de la bioinformatique


Inclure mais sans s'y limiter
- Organisation, classification, diffusion et analyse des données biologiques et
biomédicales;
- Analyse des séquences biologiques et phylogénétiques;
- Organisation et évolution du génome;
- Régulation de l'expression et de l'épiginétique des gènes;

3
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

- Voies et réseaux biologiques dans les états sains et pathologiques;


- Prédiction de la structure des protéines à partir de la séquence;
- Modélisation et prédiction des propriétés biophysiques des biomolécules pour la
prédiction et la conception rationnelle de médicaments;
- Prédiction de la structure et de la fonction des biomolécules d’intérêts
biotechnologiques (applications en biologie, en médecine, en agriculture et en
industrie).
I.4. Les différentes applications de la bioinformatique
Les applications de la bioinformatique sont très vastes dans différents domaines
scientifiques :
- Applications du génome microbien : identification de nouvelles espèces
microbiennes (traitement des données de séquençage).
- Médecine moléculaire, personnalisée: L’utilisation de l’information génétique d’un
patient joue un rôle majeur, afin d’aider au diagnostic, au pronostic et à la prise en
charge. La bioinformatique joue un rôle essentiel dans l’applicabilité de cette
médecine.
- Thérapie génique : la bioinformatique joue un rôle important dans les études
d’introduction du matériel génétique dans des cellules pour soigner une maladie
(ex : Cancer)
- Développement de médicaments et résistance aux antibiotiques : grâce aux
études in silico, la bioinformatique aide à la conception de nouveaux médicaments.
- Études évolutives et phylogénie : la bioinformatique permet d’étudier l’histoire
évolutive des espèces.
- En Biotechnologie;
- Amélioration des cultures : grâce aux techniques de criblage à haut débit et à la
bioinformatique qui ont permis d’identifier la fonction de chaque locus génétique,
certaines cibles génétiques sont capables de « recevoir » des gènes assurant aux
plantes porteuses une résistance accrue face aux agressions externes.
- Bio-ingénierie: conception d’enzymes modifiées utilisées en industrie
agroalimentaire, exemple: alpha-amylase, amyloglucosidase…

4
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

- Biotechnologie agricole : amélioration des variétés de plantes pour une meilleure


production par des croisements entre espèces végétales.
- Développement de variétés résistantes à la sécheresse.
- …

I.5. Une brève histoire de la bioinformatique


Le tableau I retrace conjointement les grandes étapes de la bioinformatique et montre à
quel point cette discipline s'est développée précocement, accompagnant immédiatement
les innovations conceptuelles et technologiques (tableau I).

Tableau I : Dates et événement majeurs en Bioinformatique (Gauthier et al., 2019)

Dates et Événements majeurs


Les En 1951: détermination de la première séquence protéique (insuline (Sanger))
années En 1953: Watson et Crick décrivent la structure de l'ADN
50 En 1558: John Cowdery Kendrew et Max Ferdinand Perutz élucident la structure
tridimensionnelle de la myoglobine à l’aide des rayons X.
En 1959: le calculateur électronique Edsac (tubes à vide, 250 instructions/sec) est utilisé par
John Cowdery Kendrew pour construire un modèle moléculaire de la myoglobine.
Les En 1962 : concepts de la phylogénie moléculaire proposés par Emilie Zuckerkandl et Linus
années Pauling (formulation de l’hypothèse de l’horloge moléculaire).
60 En 1965 :
- premiers mini-ordinateurs « de série DEC PDP-8» de la société Digital Equipement.
- Découverte des enzymes de restriction.
En 1966 : construction d'un modèle de structure 3D pour un segment du Cytochrome C sur
ordinateur par Cyrus Levinthal.
En 1967: Conception d’Algorithme complet par Walter Monroe Fitch et Emanuel Margoliash
pour la construction d'arbres phylogénétiques à partir de séquences macromoléculaires.
En 1969: Oakley Dayhoff Margaret et Richard V Eck ont mis en place la première collection
de protéines et de structure ("Atlas of Protein Sequence and Structure ") (notion de matrice de
score).
En 1970: Saul Needleman & Christian Wunsch développent l’Algorithme d’alignement global
pour la recherche de similarité entre deux séquences complète.
En 1971 :
Premiers microprocesseurs (Intel 4004x86) inventés et développés par Marcian Hoff.
Premiers travaux sur la prédiction du repliement des ARNs.
En 1972 :
Développement de l’ingénierie génétique: David Jackson, Robert Symons et Paul Berg
réalisent la première molécule d’ADN recombinant par le clonage moléculaire de fragments
d'ADN dans un virus.
En, 1973 :
Les Première réussite de la manipulation génétique : Herbert Boyer, de Stanley Cohen et de
années l'équipe Paul Berg à Stanford introduisent un gène de crapaud dans de l'ADN bactérien

5
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

70 (méthode de transfection).
En 1974 :
Algorithme complet pour la prédiction de la conformation des protéines (Chou, Fasman)
Vint Cerf et Robert Khan développent le concept des réseaux reliant des ordinateurs au sein
d'un « internet » et développent deux protocoles fondamentaux "Transmission Control
Protocol" (TCP) et "Internet Protocol" (IP).
En 1975 : Microprocesseur Intel 8080, kit Altair
En 1976 : Margaret Oakley Dayhoff, Winona C. Barker, R. M. Schwartz et Lois T. Hunt, «
Data base for protein sequences », dans AFIPS National Computer Conference, 1976, p. 261-
266
En 1978 : mutagénèse dirigée : Michael Smith
Bases de données de séquences : ACNUC, PIR, GenBank (sur bandes magnétiques)
En 1980 :
Séquençage du 1er génome à ADN, le bactériophage phiX174 : Frederick Sanger
Premier accès « en ligne » à la base de données PIR (modem téléphonique)
En 1981 :
Micro-ordinateur IBM-PC (8088), 16-32 kb (RAM)
Programme d'alignement local de séquences : Temple Smith & Michael Waterman
En 1982 :
GenBank (Los Alamos) contient 270 séquences pour 370 000 nucléotides
Les Algorithme d'alignement local de séquence (Smith-Waterman)
années En 1983 :
80 Premier micro-ordinateur avec un disque dur (IBM-XT, 10 Mb)
En 1984 :
Premier micro-ordinateur avec une interface graphique (MacIntosh)
Amplification de l'ADN : réaction de polymérisation en chaîne (PCR - Karry Mullis)
En 1985 :
Programme « Fasta » pour la recherche accélérée de similarité de séquences (David Lipman &
William Pearson)
En 1987 :
Nouveau vecteur permettant de cloner des fragments d'ADN 20 fois plus grands : le YAC
(Yeast Artificial Chromosome) qui rend possible le séquençage de grands génomes.
En 1988 :
Taq polymérase, enzyme thermostable pour la PCR.
Création du "National Centre for Biotechnology Information" (NCBI).
En 1989 :
Internet succède à Arpanet et Bitnet
En 1990 :
Programme « Blast » pour la recherche accélérée de similarité de séquences (Altschul et al.)
Première identification d'un gène de maladie génétique par clonage positionnel et séquençage
(neuro-fibromatose de type 1)
En 1991 :
Premier programme performant pour localiser les gènes dans le génome humain (Grail)
"Expressed Sequences Tags" (EST) : méthode rapide d'identification des gènes (C. Venter).
En 19892 :
Séquençage complet du chromosome III de levure
Les En 1993 :
années
90 "European Bioinformatics Institute" (EMBL). Création à terme du "European Bioinformatics
Institute" (EMBL - EBI).

6
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

En 1995 :

Première séquence complète d'un micro-organisme (Venter et al.)


Analyse du transcriptome : début des puces à ADN
En 1996 :

Séquence complète de la levure (consortium européen)


En 1997 :

11 génomes bactériens séquencés


Évolutions de BLAST : "Gapped BLAST" et "PSI-BLAST"
En 2000 :

Séquence complète (« premier jet ») du génome humain : 3,4 milliards de nucléotides


Epigénétique : développement de technologies d'analyse des modifications de l'ADN et des
histones.
Accès aux revues et journaux scientifiques : développement de l'"open access".
Montée en puissance de la biologie synthétique.
Les Détermination de structures de systèmes biologiques de plus en plus complexes (ribosomes,
années spliceosome, virus, ...) - cryo-microscopie électronique et autres techniques ("femtosecond
2000 pulses / X-ray free-electron laser")
Séquençage du 1er génome de plante : Arabidopsis thaliana
En 2001 :

Séquence "premier jet" complète du génome humain


En 2007-2008 :

Avènement des nouvelles technologies de séquençage à très haut débit, dites de seconde
génération et maintenant de 3è génération.
Prise de conscience du phénomène "big data" (pas seulement en biologie) qui devient peu à
peu une discipline scientifique.
En 2021 :

Plus de 18.900 génomes eucaryotes et procaryotes séquencés et des milliers en cours de


séquençage (Genomes OnLine).

> 303 milliards de nucléotides 49 millions séquences d'acides aminés

I.6. Rappels en biologie moléculaire


I.6.1. L’ADN (Acide désoxyribonucléique)
Les travaux d’Avery Mac Leod et Mac Carty ont montré en 1944 que l’ADN est le
support moléculaire de l’information génétique. Sa structure a été élucidée par Watson,
Crick en 1953.
La quasi-totalité de l’ADN se trouve localisée chez les eucaryotes, dans le noyau.

7
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Une petite molécule de l’ADN circulaire possédant une organisation et un code génétique
légèrement différents est aussi retrouvée dans la mitochondrie : elle complète le
patrimoine génétique de la cellule.
La molécule de l’ADN est composée de deux brins, enroulés en hélice droite, constitué
chacun par une longue chaine polydésoxyribonucléotidique.
Dans chaque brin, le squelette est formé par une répétition de molécules de désoxyribose
reliées entre elles par les liaisons phosphodiester et portant chacune une base greffée par
une liaison entre un azote et le carbone 1 du sucre.
Les bases sont au nombre de quatre : Adenine (A) et Guanine (G) qui sont des bases
puriques; Cytosine (C) et Thymine (T) qui sont des bases pyrimidiques.
L’association d’une base et d’un sucre porte le nom de nucléoside, l’association d’un
nucléoside avec un ou plusieurs phosphates porte le nom nucléotide.
Les deux chaines de l’ADN s’associent entre elles au niveau de leurs bases. Ces
associations ne peuvent se faire qu’entre adénine (A) et thymine (T) ou entre guanine (G)
et cytosine (C).
Cette association dans la molécule résulte de liaisons hydrogènes entre les bases. Elles
sont au nombre de trois entre guanine et cytosine et de deux entre adénine et thymine. La
structure globale de la molécule d’ADN est celle d’une double hélice droite.
Chaque brin de la double hélice possède une extrémité 5-phosphate et à l’autre bout une
extrémité 3-hydroxyle libre. Les orientations des deux brins de la double hélice sont
opposées : les deux brins sont dits antiparallèles (figure 02).

Figure 02 : La structure en double hélice d’ADN. (A) L'ADN en double hélice. (B)
Les deux brins de l'hélice sont maintenus ensemble par des liaisons hydrogènes
(représentées en lignes rouges).

8
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

I.6.2. L’ARN (Acide ribonucléique)


La structure de l’ARN est similaire à celle de l’ADN, mais avec d’importantes
différences : L’ARN possède une seule chaine de polynucléotides, le sucre ribose
remplace le désoxyribose et la base azotée uracile remplace la thymine. Une autre
différence importante est que l’ARN est la plupart du temps simple brin.
Trois classes de molécules d’ARN sont nécessaire à l’expression de l’information
génétique : l’ARN ribosomal (ARNr), l’ARN messager (ARNm) et l’ARN de
transfert. Ces molécules sont toutes des copies complémentaires d’un des deux brins de
l’ADN et sont synthétisées lors de la transcription.
L’ARN ribosomal (ARNr) est un composant structural essentiel des ribosomes, il
catalyse la réaction qui prolonge la chaîne protéique.
L’ARN messager (ARNm) transporte l’information génétique depuis l’ADN des gènes
jusqu’aux ribosomes, où à lieu la traduction.
L’ARN de transfert transporte l’acide aminé jusqu’au ribosome pendant la traduction.

I.6.3. La protéine
Les protéines sont les principaux composants fonctionnels des organismes, jouant un rôle
majeur dans presque tous les processus clés de la vie.
Toutes les protéines sont constituées de carbone, de l’oxygène, de l’hydrogène et de
l’azote. D’autres protéines contiennent aussi du soufre et du phosphore.
Pour leurs structures, les protéines peuvent être décrites selon quatre niveaux
d’organisation structurale : une séquence linéaire d’acides aminés, formant une chaîne
polypeptidique, constituant la structure primaire de la protéine. Cette structure primaire
constituée d’acides aminés est le squelette de la molécule de protéine. Ce squelette se
tord et se repli sur lui-même pour donner des niveaux d’organisation moléculaires plus
complexes : structures secondaire, tertiaire et quaternaire.
Les acides aminés sont les constituants des protéines. Il existe 20 acides aminés
importants, tous dotés de deux groupements fonctionnels: un groupe aminé (—NH2) et
un groupe acide organique (—COOH).
Les acides aminés diffèrent entre eux au niveau de leur troisième groupe appelé radical
R (figure 03).

9
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Chaque acide aminé doit son comportement chimique particulier ainsi que son acidité ou
son alcalinité relative aux particularités de l'arrangement des atomes de son groupe R.

Figure 03: La structure chimique des 20 acides aminés (Chavent M, 2009).

I.7. ADN, ARN et protéines : le dogme central de la biologie moléculaire

La définition la plus simple du dogme central de la biologie moléculaire est :


« L’ADN donne ARN donne la protéine »
Il existe une relation clé entre l'ADN, l'ARN et la synthèse des protéines, qui est souvent
désigné comme le dogme central de la biologie moléculaire.
Selon ce concept, il existe essentiellement une seule direction de flux d'informations
génétiques à partir de l'ADN, qui agit comme magasin d'informations, à travers des
molécules d'ARN à partir desquelles l'information est traduite en protéines.
Ce schéma de base (figure 04) vaut pour toutes les formes de vie connues, bien qu'il y
ait quelques variations dans les détails des processus impliqués.

10
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Figure 04: Dogme central de la biologie moléculaire (Thebault P, 2004).

11
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Chapitre II : Les banques et les bases de


données biologiques
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Chapitre II : Les banques et les bases de données biologiques


Ayant la maitrise des notions élémentaires de base, l’étudiant et dans ce chapitre aura à
découvrir les banques et les bases de données biologiques.
Les objectifs de ce chapitre sont
- Connaitre les bases et les banques de données biologiques les plus populaires.
- Apprendre à explorer les banques génomiques et protéiques.
- Apprendre à extraire des séquences, profils et motifs protéiques et nucléiques.

12
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

II.1. Introduction
Plus de 50 ans, la première séquence protéique, celle de l'insuline bovine, a été
déterminée par Frederick Sanger. Dix ans plus tard, il y avait déjà des tentatives pour
rassembler toutes les séquences connues dans une seule base de données comme une aide
à l'analyse des relations entre des séquences similaires. Parallèlement, des programmes
d'extraction et d'analyse de ces séquences ont été développés et le domaine de la
bioinformatique a commencé, même s'il n'a pas reçu ce nom depuis quelques années.

Le nombre de séquences nucléiques documentées se compte désormais en centaines de


milliers, et il existe également plus de cent mille séquences de protéines. Cette explosion
du nombre de séquences a rendu indispensable l'utilisation de bases de données
électroniques pour le stockage et l'analyse. Il y a eu une augmentation parallèle de la
quantité de données dans d'autres domaines de la recherche biomédicale, comme les
structures moléculaires, et grâce à l'utilisation de nouvelles techniques expérimentales
comme les puces à ADN et les mesures d'expression génique. Le besoin de bases de
données a également augmenté dans ces domaines. L'existence de nombreuses bases de
données différentes dans des domaines étroitement liés rend utile l'inclusion de références
croisées entre les entrées liées dans différentes bases de données. Par conséquent,
aujourd'hui, bon nombre de ces bases de données peuvent être considérées comme reliées
entre elles dans un vaste réseau d'informations couvrant un large éventail de recherches
biomédicales et chimiques.

II.2. C’est quoi une base de données?


La base de données est une ressource informatisée où les données sont structurées de
manière à faciliter leur ajout, leur accès et leur mise à jour. L'objectif principal des bases
de données est de permettre une manipulation et une récupération faciles des
informations grâce à plusieurs fonctions de recherche.
Une base de données est un référentiel d'informations doté d'une structure spécifique qui
permet la saisie et l'extraction de données et, dans de nombreux cas, facilite également
l'analyse des données. En général, cette structure de base de données se compose de
fichiers ou de tables, chacun contenant de nombreux enregistrements et champs.

13
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Les bases de données relationnelles sont largement utilisées pour stocker des
informations biologiques. Le type de base de données le plus couramment utilisé pour les
informations biologiques est probablement la base de données relationnelle. Une base de
données relationnelle stocke les données dans un certain nombre de tables. Chaque table
se compose d'enregistrements et de champs (lignes et colonnes).
Les bases de données sont accessibles localement ou en ligne et sont souvent liées les
unes aux autres. L'accès à une base de données peut être local, généralement via des
programmes d'interface utilisateur écrits sur site, par exemple en Java, ou externe via des
interfaces Web. Une base de données stockée localement présente les avantages d'un
accès plus rapide, d'une plus grande flexibilité dans la conception de requêtes spécifiques
et de la sécurité. Cependant, il est nécessaire non seulement d'avoir suffisamment
d'espace disque pour conserver une base de données mais aussi d'investir du temps et de
l'argent pour la gestion et la maintenance de la base de données. Par conséquent, le choix
préféré de la plupart des utilisateurs consiste à accéder à des bases de données externes
via Internet.

En d’autres termes, les bases de données biologiques ont été développées pour
archivage, stockage, diffusion et exploitation des données biologiques.

a. La différence entre une base et une banque de données biologiques


Une banque de données véhicule des informations hétérogènes ou généralistes alors
qu’une base de données contient des informations homogènes plus spécifiques.

b. Recherche de bases de données biologiques


Il existe un site clé à utiliser lors de la recherche de bases de données pertinentes. Chaque
année, le premier nouveau numéro de la revue Nucleic Acids Research (NAR) est
consacré à des articles faisant état de bases de données nouvelles et mises à jour. En plus
des articles présentés, il y a une liste des URL des bases de données qui ont été signalées
dans ces numéros annuels de NAR. Cette liste est appelée Molecular Biology Database
Collection.

14
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Un certain nombre de centres ont été financés pour donner accès à un grand nombre de
bases de données majeures dans un environnement intégré, afin de faciliter leur
utilisation par la communauté des chercheurs. Les principaux centres de bases de données
comprennent le NCBI (http://www.ncbi.nlm.nih.gov/), l'EBI (http://www.ebi.ac.uk) et
l’Institut de Sanger (http://www.sanger.ac.uk). Chacun a des liens vers plus de 100
bases de données différentes et constitue un point de départ très utile pour l'analyse de la
séquence, de la structure et du génome.

II.3. Les types des banques et bases de données biologiques


Il existe essentiellement deux catégories de bases de données : Généralistes et
spécialisées.
a. Bases de données généralistes : elles contiennent des informations hétérogènes.
La collecte est la plus exhaustive possible, et les données sont consultables en une
fois. Exemples : GenBank, EMBL, DDBJ, SwissProt, PIR, … Ces bases de
données sont également appelés banques de données d’archive ou bases de
données primaires.
b. Bases de données spécialisées : elles contiennent des données homogènes,
collecte établie autour d’une thématique particulière. Exemples : base spécialisée
pour un génome, base de séquences d'immunologies, base sur des séquences
validées, … telles Prosite, PRINTS, CATCH, SCOP… Ces bases de données
sont également appelées bases de données dérivées (à partir des bases de données
généralistes) ou bases de données secondaires.

II.3.1. Banques de données de séquences nucléiques


a. Genbank
Genbank est une banque de données publique complète de séquences nucléiques et
d'annotations bibliographiques et biologiques. Elle est construite et distribuée par le
National Center for Biotechnology Information (NCBI) (Figures 05, 06 et 07).

15
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Figure 05 : Page d’accueil de Genbank (https://www.ncbi.nlm.nih.gov/genbank/).

Figure 06 : Exemple d’une requête (recherche sur Fusarium oxysporum) dans


Genbank

16
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Figure 07: Résultats de la recherche sur Fusarium oxysporum dans Gengank.

b. EMBL (European Molecular Biology Laboratory)


EMBL est une collection de séquences nucléotidiques primaires. Elle est maintenu par
l'Institut européen de bioinformatique (EBI) en collaboration avec la DNA Data Bank of
Japan (DDBJ) et GenBank (USA). Les données proviennent de projets sur le génome, de
centres de séquençage, de chercheurs scientifiques et d'offices de brevets. De nouvelles
données sont publiées quotidiennement dans la base de données EMBLNEW et le
contenu d'EMBLNEW est intégré chaque trimestre dans la base de données EMBL pour
diffusion à la communauté scientifique (figure 08).

Figure 08 : Page d’accueil de la base de données EMBL (www.ebi.ac.uk).

17
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

c. DDBJ (DNA Data Bank of Japan


La DNA Data Bank of Japan (DDBJ) est une base de données publique de séquences
nucléotidiques. Depuis 1987, la DDBJ gère et fournit des services publics d'archivage, de
récupération et d'analyse des données biologiques en collaboration avec GenBank au
National Center for Biotechnology Information (NCBI) et l'European Nucleotide Archive
(ENA) à l'European Bioinformatics Institute (EBI) (figure 09).

Figure 09 : Page d’accueil de la base de données DDBJ (www.ddbj.nig.ac.jp).

 La collaboration internationale entre Genbank, EMBL et DDBJ


Les trois opérateurs de bases de données NCBI, EMBL-EBI et DDBJ, composent the
International Nucleotide Sequence Database Collaboration (INSDC). Ainsi, DDBJ,
EMBL et GenBank échangent quotidiennement des données nouvellement publiées et
mises à jour. Étant donné que ces bases de données sont synchronisées, les utilisateurs
n'ont qu'à rechercher EMBL ou DDBJ ou GenBank.

II.3.2. Banques de données de séquences protéiques


a. UniProtKB
Est une base de données complète sur les séquences protéiques, elle se compose de deux
sections : UniProtKB/Swiss-Prot et UniProtKB/TrEMBL (figure 10).

18
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Figure 10 : Page d’accueil de la base de données UniprotKB


(https://www.uniprot.org/uniprot/).

b. UniProtKB/Swiss-Prot
Base de données de séquences protéiques présentant un niveau d’annotation élevé. Elle
contient des centaines de milliers de descriptions de protéines, y compris la fonction, la
structure de domaine, l'emplacement sous-cellulaire, les modifications post-
traductionnelles et les variantes caractérisées de manière fonctionnelle (figure 11).

Figure 11: Page d’accueil de la base de données UniProtKB/Swiss-Prot


(https://www.expasy.org/resources/uniprotkb-swiss-prot)

19
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

c. UniProtKB/TrEMBL
Est une base de données de séquences protéiques annotées qui complète la base
UniProtKB/Swiss-Prot.
UniProtKB/TrEMBL contient les traductions de toutes les séquences codantes (CDS)
présentes dans les bases de données de séquences nucléiques EMBL/GenBank/DDBJ. La
base de données est enrichie d'une classification et d'une annotation automatisée (figure
12).

Figure 12 : Page d’accueil de la base de données TrEMBL


(http://www.bioinfo.pte.hu/more/TrEMBL.htm)

d. PIR (Protein Information Ressource)


Base de données protéiques qui assiste les chercheurs dans l’identification et
l’interprétation de leurs séquences protéiques (figure 13).

Figure 13 : Page d’accueil de la base de données PIR


(https://proteininformationresource.org/)

20
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Exemple d’une requête sur la base de données UniProtKB


(http://www.uniprot.org): « Subtilisin » (figure 14).

Figure 14: Une recherche sur la subtilisin sur la base de données UniProtKB

II.3.3. Les bases de données associées à Swiss-Prot


a. ENZYME DB
Est un référentiel d'informations relatives à la nomenclature des enzymes. Elle est
principalement basée sur les recommandations du Comité de Nomenclature de l'Union
Internationale de Biochimie et de Biologie Moléculaire (IUBMB) (figure 16).

Figure 15 : Page d’accueil de la base de données ENZYME DB


(https://enzyme.expasy.org/)

21
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

b. PROSITE
C’est une base de données des domaines protéiques, des familles et des sites fonctionnels
ainsi que des modèles et profils associés pour les identifier (figure 16).

Figure 16 : Page d’accueil de la base de données PROSITE


(https://prosite.expasy.org/)

c. Expasy (Expert Protein Analysis System)

Est l'une des principales ressources bioinformatiques pour la protéomique. Elle a


maintenant évolué, devenant un portail extensible et intégratif accédant à de nombreuses
ressources scientifiques, bases de données et outils logiciels dans différents domaines des
sciences de la vie. Les scientifiques peuvent désormais accéder de manière transparente à
un large éventail de ressources dans de nombreux différents domaines, tels que la
protéomique, la génomique, la phylogénie/évolution, la biologie des systèmes, la
génétique des populations, la transcriptomique, etc... Les ressources individuelles
(bases de données, outils logiciels en ligne et téléchargeables) sont hébergées de manière
« décentralisée » par différents groupes de l’Institut Suisse de Bioinformatique (SIB)
(figure 17).

22
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Figure 17 : Page d’accueil du Portail Expasy (https://www.expasy.org/)

d. Pfam (The Protein families database)


La base de données Pfam est une vaste collection de familles de protéines, chacune
représentée par des alignements de séquences multiples et des modèles de Markov cachés
(HMM). Les protéines sont généralement composées d'une ou plusieurs régions
fonctionnelles, communément appelées domaines. Différentes combinaisons de domaines
donnent lieu à la gamme diversifiée de protéines trouvées dans la nature. L'identification
des domaines présents dans les protéines peut donc donner un aperçu de leur fonction
(figure 18).

Figure 18 : Page d’accueil de la base de données Pfam (http://pfam.xfam.org)

23
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

II.3.4. Les bases de données de structures protéiques et leurs classifications


a. Protein Data Bank (PDB)
Base de données des structures (tridimensionnelle) 3D des protéines, des acides
nucléiques (ADN et ARN) et des assemblages complexes qui sont déterminés
expérimentalement (figure 19).

Figure 19 : Page d’accueil de la base de données PDB (www.rcsb.org)

b. SCOP (Structural Classification Of Proteins)


La base de données SCOP vise à fournir une description détaillée et complète des
relations structurelles et évolutives entre toutes les protéines dont la structure est connue.
Elle fournit une vaste étude de tous les plis protéiques connus (figure 21).

Figure 20 : Page d’accueil de la base de données SCOP


(https://scop.mrc-lmb.cam.ac.uk/)

24
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

c. CATCH
CATH est base de données de classification des structures protéiques obtenues à partir de
la Protein Data Bank (PDB; www.rcsb.org). Elle regroupe les domaines protéiques en
superfamilles lorsqu'il existe suffisamment de preuves qu'ils ont divergé d'un ancêtre
commun (figure 21).

Figure 21 : Page d’accueil de la base de données CATCH (http://www.cathdb.info)

II.3.5. Base de données des gènes


a. Gene Ontology

La base de connaissances Gene Ontology (GO) est la plus grande source d'informations
au monde sur les fonctions des gènes. Elle constitue une base pour l'analyse informatique
d'expériences de biologie moléculaire et de génétique à grande échelle dans la recherche
biomédicale (figure 22).

Figure 22 : Page d’accueil de la base de données Gene ontology


(http://www.geneontology.org)

25
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

II.3.6. Base de données bibliographique


a. PubMed (Medline)
Base de données de la littérature scientifique (sciences biologiques et biomédicales)
(figure 23).

Figure 23: Page d’accueil de la base de données Pubmed


(https://www.ncbi.nlm.nih.gov/pubmed/)

II.3.7. Quelques bases de données utiles pour la biotechnologie végétale


a. FoodDB (http://foodb.ca/)
FooDB est la ressource la plus importante et la plus complète au monde sur les
constituants, la chimie et la biologie des aliments. Elle fournit des informations sur les
macronutriments et les micronutriments, y compris de nombreux constituants qui donnent
aux aliments leur saveur, leur couleur, leur goût, leur texture et leur arôme (figure 24).

Figure 24 : Page d’accueil de la base de données FoodDB (http://foodb.ca/)

26
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

b. USDA PLANTS
La base de données PLANTS fournit des informations standardisées sur les plantes
vasculaires, les algues et les lichens des États-Unis et de ses territoires (figure 25).

Figure 25 : Page d’accueil de la base de données USDA PLANTS


(https://plants.usda.gov/home)

c. Network of Food Data Systems (INFOODS)


INFOODS est le Réseau international des systèmes de données sur l'alimentation, fondé
en 1984 et constitué de spécialistes de la composition des aliments. Il vise à améliorer la
qualité, la disponibilité, la fiabilité et l'utilisation des données sur la composition des
aliments. INFOODS regroupe plusieurs centres de données régionaux, chapeautés par un
coordonnateur mondial. Ils représentent un forum qui lie l’agriculture, la biodiversité, les
systèmes alimentaires, la santé et la nutrition pour parvenir à une meilleure nutrition au
niveau global (figure 26).

Figure 26 : Page d’accueil de la base de données INFOODS


(http://www.fao.org/infoods/infoods/fr/)

27
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

II.4. Conclusion
L’exhaustivité des bases et banques de données biologiques existantes, ne nous permet
pas de les étudier d’une manière systématique. Le choix a été porté sur les plus usitées,
notre objectif pédagogique étant l’initiation et d’inculquer la curiosité scientifique à
l’étudiant et l’esprit de recherche.
De ce fait, on invite nos étudiants à se référer au guide d’application disponible dans
notre bibliothèque (UMBB) pour comprendre davantage ces banques et bases de données
et les procédures d’interrogation.

28
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Chapitre III : Séquences de Biomolécules


Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Chapitre III : Séquences de biomolécules


Ce chapitre dédié à l’étude des séquences de biomolécule, fait appel aux acquis des
chapitres précédents, l’étudiant mis au gout de la bioinformatique au premier chapitre,
intéressé aux banques et bases de données biologiques au deuxième chapitre aura à
développer sa curiosité scientifique à travers l’exploration de ses bases pour l’examen des
données.

La sensation et la curiosité scientifique chez l’étudiant doivent être attisées.

La finalité (objectif cible principal) étant d’apprendre et de maitriser l’analyse des


différentes séquences de biomolécules en se familiarisant avec certains programmes et
notions d’alignement de séquences.

29
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

III.1. Introduction

Une des utilisations de la bioinformatique consiste à comparer des séquences (d’acides


aminés pour les protéines ou d’acides nucléiques).

L’alignement de séquences est la méthode principale utilisée en bioinformatique pour la


comparaison de séquences biologiques. Cette méthode permet d’inférer les modifications
impliquées dans la transformation d’une séquence en une autre.

Lorsque deux séquences sont comparées, il s’agit d’un alignement par paire, comparer
(aligner) plus de deux séquences, il s’agit d’un alignement multiple.

L’alignement de séquences est local,, quand il identifie des régions ou séquences sans la
prise en considération de la longueur des séquences ou l’organisation des régions.

Il est, l’alignement, global, quand il couvre la totalité des séquences alignées.

Dans ce présent chapitre, on aura à étudier ensemble toutes les notions en rapport avec
l’alignement de séquences, ses matrices et la phylogénie.

III.2. Pourquoi comparer des séquences entre elles ?

Si on part de l’idée d’un ancêtre commun à divers organismes. Suite à l’évolution,


diverses espèces découlent de cet ancêtre commun. Soit la séquence d’un gène codant
pour une protéine déjà présente chez l’ancêtre commun; cette protéine présente une
certaine fonction; les codons des acides aminés catalytiques sont représentés par un carré
rouge (figure 27).

Figure 27 : La notion d’un ancêtre commun

30
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Suite à l’évolution des génomes, les séquences actuelles présentent des modifications
dues à des mutations (délétion, insertion, substitution, duplication, translocation). Les
portions importantes pour la fonction restent conservées. Rechercher les similarités entre
les séquences fournit des informations sur la fonction, la famille à laquelle appartiennent
les séquences, ...

Les buts de comparaison de séquences sont nombreux tels que :

- À travers une banque, et en comparant les séquences, nous pouvons identifier une
séquence obtenue expérimentalement.
- La localisation d’une séquence au sein d’un génome.
- Déterminer la fonction d’une séquence à partir d’autres séquences dont la
fonction est déjà répertoriée.
- La comparaison des séquences permet la prédiction des structures secondaires et
tertiaires des protéines.
- Étudier la phylogénie des séquences

III.3. Quelques définitions importantes

a. Homologie : indique que des séquences descendent d’un ancêtre commun, puis
ont divergé.
La divergence peut résulter d’une duplication ou d’une spéciation.

- Duplication : c’est le dédoublement du matériel génétique sur un chromosome.


- Spéciation : Apparition d'une nouvelle espèce par différenciation entre deux
populations.

Il existe deux catégories d’homologie :

- Orthologie: deux gènes homologues dont le dernier ancêtre commun a eu lieu


immédiatement avant un événement de spéciation.
- Paralogie : deux gènes homologues dont le dernier ancêtre commun a eu lieu
immédiatement avant un événement de duplication génique.

31
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Des protéines homologues peuvent être encodées par :


- Des gènes identiques dans des espèces différentes;
- Des gènes qui ont été transférés entre espèces;
- Des gènes qui trouvent leur origine dans une duplication de gènes ancestraux.
b. Analogie: relation entre deux caractères qui sont apparus de manière convergente
au départ de deux ancêtres non apparentés.
c. Similarité: mesure de la ressemblance (ou différence), indépendamment de la
source de la ressemblance. La similarité peut s’observer sur un ensemble de
données qui ont été collectées ―maintenant‖ et n’implique aucune hypothèse
historique. Par contre, mettre en évidence une homologie nécessite d’effectuer
une inférence à propos d’événements historiques qui ne sont pas observables, la
plupart du temps.

III.4. Format de séquence

Pour pouvoir être lue par les programmes bioinformatiques, la séquence doit être
formatée. Ci-après quelques exemples de formats de séquences de biomolécules :

a. Format FASTA (protéiques et nucléiques)

La séquence protéique ou nucléique est précédée d’une ligne de description (nom,


définition,...) qui doit commencer par le caractère « > » (figure 28).

Figure 28 : Séquence nucléique format FASTA (séquence du gène sodB de la


superoxydase dismutase (E. coli), code NCBI: 944953).

32
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

b. Format PIR

Débute par ―>‖, puis code à 2 lettres (P1=protéine complète, F1=fragment de protéine,
DL=ADN linéaire, DC=ADN circulaire, RL=ARN linéaire, RC=ARN circulaire,
N3=ARN de transfert, N1=autre ARN fonctionnel), puis ―;‖ suivi du code d’entrée dans
la base de données. La ligne suivante correspond à la description de la séquence. Puis
vient la séquence, qui s’achève par "*" (figure 29).

Figure 29 : Séquence nucléique format PIR

c. Format FASTQ:

Ce format stocke la séquence et des informations à propos de la qualité dans un même


fichier. Il s’agit du format standard des sorties de séquenceurs à haut débit.

III.5. Dotplot

Le ―dotplot‖ est une représentation qui donne une vue d’ensemble des similarités entre 2
séquences. C’est un outil graphique pour la comparaison de séquences.

Il s’agit d’une matrice dont les colonnes correspondent aux acides aminés ou aux bases
nucléiques de la première séquence et les lignes à ceux de la seconde séquence.

Principe général: les cases de la matrice sont remplies si une similarité entre les 2
séquences est détectée.

33
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Informations qui peuvent en être déduites: vue d’ensemble rapide, zones où a des
identités de séquence, insertions, palindrome...

Voici un exemple (figure 30):

Figure 30 : Exemple d’un Dotplot

III.6. Alignement de séquences

L’alignement de séquence consiste à identifier des motifs similaires/identiques dans des


séquences et à les aligner. L'objectif de l'alignement est de correspondre les résidus
identiques ou similaires de la première séquences avec ceux de la deuxième séquence.

34
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Ceci nécessite en général l’introduction de trous dans certaines positions pour pouvoir
identifier les zones de concordances. Ces trous correspondent à des insertions ou des
délétions (appelés indel) de nucléotides ou d'acides aminés dans les séquences (figure
31).

Figure 31 : Exemple d’un alignement de séquence

Du Dotplot à l’alignement: Recherche d’un chemin dans la matrice du Dotplot


(figure 32) :

 Mouvement diagonal: alignement;


 mouvement horizontal ou vertical: introduction d’un ―trou‖.

Figure 32 : Recherche d’un chemin d’alignement dans la matrice Dotplot

35
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

III.6.1. Types d’alignement de séquences

On distingue quatre types d’alignement de séquences

 Alignement de paires: on compare deux séquences entre elles, et on identifie les


modifications pour passer de l'une à l'autre.
 Alignement multiple: on identifie les événements évolutifs qui distinguent un
large groupe de séquences.
 Alignement local : on effectue cet alignement quand les 2 séquences n’ont que
certains domaines/portions de séquence en commun ou quand on désire comparer
une séquence avec les séquences contenues dans une banque de données.
Exemples de programmes: Matcher, Blast, ...
 Alignement global : ces alignements sont seront plutôt utilisés pour comparer des
séquences homologues. Exemples de programmes: Clustal, Needle, Stretcher.

III.6.2. Évaluation de l’alignement de séquences

III.6.2.1. Matrices de score

La matrice de score est un système d’évaluation qui permet de prendre en compte la


substitution d’un acide aminé/d’une base nucléique par un/une autre dans l’alignement,
ainsi que les insertions et les délétions. Elle permet une évaluation de la similarité entre
des bases nucléiques ou des acides aminés.

Cas basique: calcul de l’identité. Incrémente le score si les 2 acides aminés/ les 2 acides
nucléiques correspondants sont identiques.

Pour l’ADN : il est courant d’utiliser un schéma de substitution simple tel que défini
dans la matrice suivante:

36
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

A G T C
A 1 -1 -1 -1
G -1 1 -1 -1
T -1 -1 1 -1
C -1 -1 -1 1

Une autre matrice un peu plus compliquée pourrait prendre en compte la fréquence plus
élevée de mutations de transition (purine ↔ purine et pyrimidine ↔ pyrimidine) et que
de transversion (purine ↔ pyrimidine).

A G T C
A 20 10 5 5
G 10 20 5 5
T 5 5 20 10
C 5 5 10 20

Rappel sur les bases nucléotidique

Les purines A et G Les pyrimidines = T, C

b. Pour les protéines : Il existe deux grands types de matrices permettant d’évaluer
la similarité entre 2 acides aminés: PAM et BLOSUM.
 PAM :

Les matrices PAM représentent les échanges possibles ou acceptables d’un acide aminé
par un autre lors de l’évolution des protéines. On déduit la probabilité de remplacement

37
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

d’un acide aminé par un autre d’alignements de paires de séquences homologues. Une
substitution entre acides aminés équivalents devrait se produire plus fréquemment; le
score de ce type de changement devrait donc être élevé (figure 33).

Figure 33 : La matrice PAM

Principe :

1. Alignements de séquences très homologues. On prend des séquences très


homologues pour faire l’hypothèse qu’il n’y a pas eu de mutation multiple à un
site donné (ce qui baisserait le calcul de probabilité).
2. Calcule d’une matrice de probabilité de remplacement d’un acide aminé par un
autre durant 1 étape d’évolution; elle correspond à une substitution acceptée pour
100 sites durant un temps d’évolution donné ➔ 1PAM.
3. Pour X mutations indépendantes: (1PAM)X.
4. Pour arriver aux matrices PAMX: on divise la probabilité de mutation entre 2
acides aminés par le taux de mutation attendu (fréquence relative des acides
aminés), puis on prend le logarithme. (PAMX=PAM100, PAM250, ...).
5. Le score de l’alignement final peut être obtenu par somme des scores individuels
des paires d’acides aminés alignés (∑ log Pi = log ∏ Pi ).
 Blosum :

38
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Les matrices BLOSUM sont obtenues par une recherche des différences de séquences au
sein de régions très conservées de familles protéiques (figure 34).

Figure 34 : La matrice Blosum

Principe :

1. Blocs de séquences collectés dans une base de données Exemple: blocs pour la
famille ―alpha-amylase‖.

2. Dérive une table de fréquences indiquant le nombre de paires d’acides aminés


différents observés en association dans ces séquences conservées.

39
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

3. Normalise cette fréquence par la probabilité d’observer une paire d’acides aminés
donnée et en prend le log. ➔ Si la fréquence observée est inférieure à la fréquence
attendue, l’élément de matrice est négatif.

Pab = probabilité d’observer les résidus a et b alignés dans les séquences homologues.

fa et fb = probabilité d’observer les résidus a et b en moyenne dans les protéines.

λ = facteur de normalisation.

4. Diverses matrices BLOSUM caractérisées par un seuil d’identité de séquence


différent lors de la définition des régions conservées. BLOSUM62: pour définir la
région comme conservée (définir un bloc), il faut 62% d’identité de séquence (!
différence identité et similarité !).

La plupart des programmes d’alignement utilisent par défaut BLOSUM62.

PAM versus BLOSUM (figure 35).

Figure 35 : Comparaison entre BLOSUM et PAM

40
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

De manière générale:

 Les matrices BLOSUM sont un peu plus performantes;


 Les matrices BLOSUM sont meilleures pour détecter des alignements locaux;
 La matrice BLOSUM62 est la meilleure pour détecter la majorité des similarités
entre protéines;
 La matrice BLOSUM45 conviendra mieux pour détecter des alignements longs
avec une faible identité de séquence.
 Il existe d’autres matrices de score que PAM et BLOSUM.

III.6.2.2. Traitement des “trous” (“gap”)

Dans l’exemple vu précédemment, nous obtenions l’alignement:

MLACCKRLIDIMEPPGHGHH
MLACCKRLI- - - - - - GHGHH

Dans la plupart des alignements de séquences, il sera nécessaire d’introduire des ―trous‖,
pour prendre en compte les insertions/délétions. Il sera donc nécessaire de prendre en
compte dans le schéma d’évaluation l’insertion de ces ―trous‖, ainsi que leur extension.

Par exemple, lors de l’utilisation de la matrice BLOSUM62, il est généralement


recommandé de prendre une pénalité d’initiation de ―trou‖ de 11 et une pénalité
d’extension de ―trou‖ de 1 par résidu.

III.6.2.3. Pourcentage d'identité de séquences et pourcentage de similarité de


séquences

Le pourcentage d'identité de séquences est le pourcentage des positions alignées pour


lesquelles l'acide aminé est identique dans les deux séquences.

Le pourcentage de similarité de séquences est le pourcentage des positions alignées pour


lesquelles l'acide aminé est similaire dans les deux séquences => nécessité de définir un
seuil de similarité (par exemple: si une matrice blosum62 a été utilisée pour générer
l'alignement, on peut décider que deux acides aminés sont similaires si le score blosum62
est positif).

41
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

III.6.3. Alignement de séquences global

L’objectif est de trouver le meilleur alignement entre deux séquences complètes.


L’algorithme classique utilisé pour un alignement global est celui de Needleman-
Wunsch.

Soient les 2 séquences suivantes à aligner: RCALMMNPQRST et ARIALQLMMN

La matrice de score choisie est la matrice identité: +1 si les acides aminés sont identiques,
pas de pénalité de "gap".

1. On crée une matrice reprenant les 2 séquences et on la remplit à l’aide de la


matrice de score.

R C A L M M N P Q R S T
A 0 0 1 0 0 0 0 0 0 0 0 0
R 1 0 0 0 0 0 0 0 0 1 0 0

I 0 0 0 0 0 0 0 0 0 0 0 0
A 0 0 1 0 0 0 0 0 0 0 0 0

L 0 0 0 1 0 0 0 0 0 0 0 0

Q 0 0 0 0 0 0 0 0 1 0 0 0

L 0 0 0 0 0 0 0 0 0 0 0 0
M 0 0 0 0 1 1 0 0 0 0 0 0

M 0 0 0 0 0 0 0 0 0 0 0 0
N 0 0 0 0 0 0 1 0 0 0 0 0

2. En partant de la case en haut à gauche, on recalcule le score en chaque point de la


matrice selon l’équation:

M(i,j) = max { M(i-1,j-1) + s(i,j); M(i-1,j-k) - Wk + s(i,j) ; M(i-r,j-1) - Wr + s(i,j)}

42
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

où s(i,j) est le score initial en position (i,j) de la matrice, M(i-1,j-k) est le score en
position (i- 1,j-k) (k > 1) et M(i-r,j-1) est le score en position ! (i-r,j-1) (r > 1) et W est la
pénalité de gap.

L’ordre de ce calcul se fait selon le code couleur suivant:

Après transformation de la matrice, on procède à la construction de l’alignement de


séquences. Cette étape consiste à rechercher un chemin dans cette matrice, en partant du
score maximum, et qui relie les scores les plus élevés. On recherche le chemin qui
conduit au score total le plus élevé. Score total de l’alignement est cumulatif: somme le
long du chemin. Le meilleur alignement a le score total le plus élevé.

43
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

III.6.4. Alignement local

L’objectif est de trouver des segments de séquences similaires. L’algorithme classique


utilisé pour un alignement local est celui de Smith- Waterman.

Reprenons les 2 séquences suivantes à aligner, selon un alignement local maintenant:

RCALMMNPQRST et ARIALQLMMN

Le score en chaque élément de la matrice est calculé comme suit:

M(i,j) = max { M(i-1,j-1) + s(i,j); M(i,j-k) - Wk ; M(i-r,j) - Wr ; 0}

où s(i,j) est le score correspondant à l’alignement du résidu en position i avec celui en


position j, M(i,j-k) est le score en position (i,j-k) (k > 0) et M(i-r,j) est le score en position
(i- r,j) (r > 0) et W est la pénalité de gap.

Dans cet exemple :

 Résidus identiques=> score = +1 •


 Résidus différents=> score = -0,4
 Pénalité de gap => score =1+0,3
 k (k=extension de gap)
 Démarre avec une matrice nulle; place le score correspondant aux résidus
identiques dans la 1ere ligne et la 1ere colonne.

44
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

III.6.5 Alignement multiple

L’objectif est d’aligner plusieurs séquences en une même étape. L’alignement


multiple permet de mettre en évidence des motifs d’acides aminés conservés.
Quelques exemples de l’utilité d’un alignement multiple:

 Des relations de type ―distances entre séquences‖ peuvent en être détectée et


inférées ;
 Les outils de prédiction de structure donnent de meilleurs résultats lorsqu’ils
exploitent des alignements de séquence multiple. Un exemple sur l'alignement
d'un en ensemble de séquences de superoxydes dismutases issues
d’organismes différents est donné dans le cours oral.

III.7. Phylogénie
III.7.1 Introduction

De nos jours, on assiste à une forte accélération d’apparition de nouvelles techniques de


séquençage rapide et peu coûteuses. A ce jour, environ 1000 génomes de bactéries,
archées ou eucaryotes sont entièrement séquencés et disponibles publiquement.

La Phylogénie consiste à mettre en évidence les relations entre espèces, populations,


individus ou gènes.

Les résultats sont généralement représentés sous forme d’un arbre (à racine ou sans
racine); la longueur des branches peut être liée à la distance séparant les séquences. Étant
donné qu’on ne dispose que de séquences actuelles, on infère la distance les séparant au
départ des similarités. On suppose que plus les caractères sont similaires, plus les espèces
sont proches, mais ce n’est une hypothèse à utiliser avec prudence (figure 36).

45
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Figure 36 : Arbre phylogénique avec et sans racine

III.7.2. Approches pour dériver un arbre phylogénétique

Figure 37 : Méthodes d’obtention d’un arbre phylogénique

46
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Il est à noter que la méthode de vraisemblance maximum est très lourde lorsque le
nombre de séquences à traiter est important (figure 37).

III.7.2.1. Méthode de distances: exemple du clustering hiérarchique

Étant donné un ensemble de séquences, on détermine pour chaque paire leur distance/
dissimilarité.

Pour en faire un arbre, on choisit les 2 séquences les plus proches et on insère un noeud
représentant leur ancêtre commun.

On remplace ensuite les 2 séquences par un ensemble qui les contient toutes les 2, et les
distances vis-à-vis des autres sont remplacées par la distance moyenne.

Par exemple, l’élément de matrice (A, {CD})=[(A,C)+(A,D)+(C,D)] / 3.

47
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

III.7.2.2. Parcimonie maximale

Cette méthode considère que l’arbre optimum est celui qui postule un nombre minimum
de mutations. Soit l'alignement de séquences suivant:

1 2 3 4
1 A T C G
2 A T G G
3 T C C A
4 T T C A

Pour chaque position "informative", on reconstruit les arbres possibles et on retient ceux
présentant le moins de mutations.

Seules les positions présentant des caractères identiques dans au moins 2 séquences sont
informatives (voir colonne 2 par exemple: non informatif), et permettent de faire la
différence entre les arbres.

48
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Positions informatives: colonnes 1 et 4.

III.7.2.3. Vraisemblance maximale

Cette méthode assigne des probabilités aux mutations possibles plutôt que de les compter.
Les ancêtres sont ensuite reconstruits en chaque nœud, et une longueur de branche est
également assignée sur la base des probabilités des mutations considérées.

Pour toute topologie d’arbre, les vitesses de substitutions supposées sont modifiées afin
d’identifier les paramètres qui conduisent à la plus grande vraisemblance de produire les
séquences observées. L’arbre optimal est celui qui présente la plus grande vraisemblance
de générer les données observées.

Remarque:

1. Pour toutes les méthodes, attention à la robustesse. Le mieux est de faire une
phylogénie en utilisant diverses méthodes et de voir si obtient des résultats
concordants.
2. Attention si les vitesses d’évolution des séquences sont différentes.

49
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Soit l’arbre utilisé dans un des exemples précédents, avec sa matrice de dissimilarité.

Si l’espèce d’où est issue la séquence D a changé très rapidement, sans que la phylogénie
n’ait changé, la matrice de dissimilarité sera plutôt:

50
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Chapitre IV : Structure de protéines


Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Chapitre IV : Structures de protéines


Ce chapitre s’inséré dans la continuité voulue; l’étudiant après avoir maitrisé la recherche
et l’analyse de certaines données, devra connaitre et s’initier aux méthodes et
programmes existants de prédiction des structures secondaires et tertiaires des protéines.

Dans ce chapitre, on a voulu aussi inséré des rappels de notions et de définitions pour
permettre un recadrage des acquis en notions de base se rapportant aux protéines.
D’autres définitions en guise de rappel d’ordre générale.

L’objectif cible étant de s’initier aux méthodes, programmes et logiciels de prédictions


des structures secondaires et tertiaires des protéines.

51
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

IV.1. Introduction

Les protéines sont les véritables acteurs du vivant. Ce sont elles qui vont assurer la
grande diversité des fonctions allant de la catalyse des réactions à la structuration de la
matière vivante.
Les protéines sont des constituants fondamentaux des organismes vivants, elles
correspondent à des polymères formés de l’enchaînement d’acides aminés (20 au total,
tous de série L) liés par des liaisons covalentes : les liaisons peptidiques.
Les protéines sont des molécules de haut poids moléculaire, la plupart sont comprises
entre 25 000 et 150 000 Datons, certaines possèdent des poids moléculaires plus bas ou
beaucoup plus élevés.
Les protéines jouent un rôle essentiel dans la cohésion des structures morphologiques et
dans le fonctionnement cellulaire, les plus grands groupes de protéines sont :
- Les enzymes qui sont des catalyseurs biologiques de plusieurs réactions chimiques
des cellules.
- Les anticorps qui sont responsables des réponses immunitaires, ils forment des
complexes avec les corps étrangers.
- Les protéines de stockage : elles servent de réserves biologiques d'ions métalliques
et d'acides aminés, telle la ferritine (protéine de stockage qui stocke le fer).
- Les protéines de transport : comme l'hémoglobine pour le transport du
dioxygène et la transferrine pour le transport du fer.
- Les hormones (certaines hormones sont de nature protéiques) comme l'insuline et
l'hormone de croissance.
- Les histones liées à l’ADN, elles participent au contrôle de l’expression génétique.
- Les protéines de structure et de soutien comme la kératine, le collagène et
l’élastine qui sont des constituants du tissu conjonctif.

Les protéines sont distinguées en fonction de leur composition :


- Les holoprotéines : contenant uniquement des acides aminés. Exemple : le
lysozyme (blanc d’œuf de poule) responsable de l’hydrolyse des
mucopolyssacharides de la paroi cellulaire.

52
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

- Les hétéroprotéines : formées d’une chaîne polypeptidique (partie protéique)


associée à un groupement prosthétique (composé non protéique: lipide, acide
nucléique, glucide ect…). Exemple : l’hémoglobine (sang humain), responsable du
transport de l’oxygène dans le sang.

Suivant leur structure on distingue :


- Les protéines fibreuses : de forme allongée, peu solubles, très résistantes, elles
entrent dans la composition des tissus de soutien. Exemples : la myosine (muscle
humain) et le collagène.
- Les protéines globulaires : elles sont d’une forme compacte, solubles, elles jouent
un rôle dynamique dans la cellule. Exemples : le lysozyme, l’hémoglobine.

Une protéine peut être constituée d’une seule chaîne polypeptidique (monomère) ou de
plusieurs chaines polypeptidiques (polymère : dimère, trimère, tétramère,…).

IV.2. Les acides aminés


Il est essentiel de décrire les constituants de base de protéines qui sont les acides aminés
avant de s’intéresser aux protéines elles-mêmes, Ces acides aminés, au nombre de 20,
sont trouvés dans toutes les espèces, de la bactérie a` l’homme.
La formule générale d’un acide aminé est la suivante :

Figure 38 : Formule générale d’un acide aminé

Les acides aminés se distinguent donc par la nature de leur radical R plus communément
appelé chaine latérale. Ces dernières se distinguent par leur dimension, leur forme, leur
charge, leur capacité de contracter des liaisons hydrogènes et leur réactivité chimique.
Une liste complète des 20 acides aminés est donnée dans la figure 39.

53
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Figure 39 : Les 20 acides aminés (cours de biochimie des protéines, Benoit,


Université CHERBROOK)

Avant de poursuivre notre propos, il est essentiel de s’attarder un peu sur les propriétés
individuelles des constituants élémentaires des protéines. La charge, la polarité,
l’hydrophobicité sont autant de propriétés qui peuvent être mesurées et indicées.
Entre tous, l’hydrophobicité est le paramètre le plus important. Elle mesure la capacité
d’un acide aminé à interagir avec des molécules d’eau et plus généralement son
comportement dans un solvant.
Les acides aminés sont représentés sous deux formes d’abréviation : à 3 lettres et à une
lettre symbolisant l’acide en question (tableau II).

54
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Tableau II : Tableau d’abréviations des acides aminés (cours de biochimie,


université Borzuya).

IV.3. Structures des protéines


Il existe quatre niveaux d’organisation : primaire, secondaire, tertiaire et quaternaire
(figure 40).

Figure 40 : Les différentes structures protéiques (Cours : Structure et fonction des


protéines, eBiologie)

55
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

IV.3.1. Structure primaire


La séquence linéaire d'acides aminés dans la protéine est généralement appelée structure
primaire de la protéine, Il s'agit de l'enchaînement des acides aminés constitutifs de la
protéine, reliés entre eux par une liaison peptidique. Cette liaison met en jeu la fonction
amine d'un acide aminé et la fonction acide carboxylique d'un autre acide aminé. Cette
séquence linéaire est un facteur clé pour déterminer comment une protéine se replie et
fonctionne.
La séquence en acides aminés est toujours écrite en partant du résidu N-terminal. Pour
décrire la séquence des acides aminés, le suffixe « -yl » est ajouté à tous les résidus, sauf
au C-terminal (figure 41).

Figure 41: Structure primaire d’une protéine (Guillaume Chakroun, 2004).

IV.3.2. Structure secondaire


La structure secondaire d'une protéine fait référence à des arrangements spatiaux
récurrents et réguliers d'acides aminés linéaires adjacents en tant que conformation locale
de la chaîne polypeptidique. Elle Fait intervenir les liaisons hydrogènes entre CO et NH
de la chaine peptidique ce qui lui confère un aspect régulier.
Les principaux éléments structuraux secondaires qui sont identifiés au cours de la
recherche sur la structure des protéines sont l'hélice alpha (α) et le feuillet bêta (β).

a. L’hélice alpha
Structure hélicoïdale, le squelette de la chaîne polypeptidique est enroulé autour de l'axe
de la molécule de telle manière que les groupes de résidus R de la chaîne latérale se
projettent vers l'extérieur à partir du squelette hélicoïdal. Le nombre de résidus requis
pour effectuer un seul tour/bobine est de 3,6 en hélice α. Dans un seul tour d'hélice α, il y

56
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

a une interaction de liaison H entre chacun des carbonyl oxygènes (n) du squelette et le
proton amide du 4e résidu (n + 4) vers l'extrémité C-terminale. Ces liaisons stabilisent la
conformation hélicoïdale et sont presque parallèles à l'axe longitudinal de l'hélice (figure
42).

Figure 42 : Structure secondaire en hélice α (Pearson Education, 2004).

b. Feuillets β

Contrairement à l'hélice α, où la liaison d’hydrogène (H) est formée entre les résidus
voisins au sein d'une seule chaîne, les feuilles β sont formées par une liaison H entre les
squelettes polypeptidiques adjacents dans les chaînes. Ces sections de chaînes
polypeptidiques adjacentes sont appelées brins β. Les feuillets β comprennent des liaisons
d’hydrogène formées entre les oxygènes carbonyles et l'hydrogène amide sur les brins β
adjacents (figure 43).

57
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Figure 43 : Structure secondaire en feuillet B (Wilmot,C.M. et Thomton,J.M, 1988).

c. Autres structures secondaires


Bien que les hélices α et les feuillets β soient considérés comme des éléments structuraux
secondaires majeurs dans les protéines, ces éléments sont intercalés dans des régions de
structure irrégulière, également appelées boucles, coudes ou bobines.
Les boucles sont non seulement impliquées dans les transitions entre les structures
secondaires régulières, mais elles possèdent également une signification structurelle à
partir de l'analyse des fonctions et peuvent être l'emplacement du site actif fonctionnel.
Généralement, les résidus avec des petites chaînes latérales (groupes R) se trouvent
souvent dans des tours tels que la proline, la cystéine, la sérine, l'aspartate (ou acide
aspartique), l'asparagine et la glycine. L'analyse systématique des résidus a révélé que les
acides aminés ont des chaînes latérales volumineuses ou ramifiées se produisant à de très
basses fréquences
Il existe huit types de coudes β différant par leurs angles de torsion, dont 2 sont présentés
dans la (figure 44).

58
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Figure 44: Structure secondaire en coude (type I et II) (Voet et Voet, 1995).

VI.3.3. Structure tertiaire


La structure tertiaire a été décrite comme une molécule constituée d'une chaîne
polypeptidique qui est pliée en une configuration tridimensionnelle unique dans toute la
molécule. Les liaisons d’hydrogène jouent un rôle dans les interactions des chaînes
latérales des acides aminés. Les interactions non covalentes contribuent également à la
stabilisation de la structure.
La formation de la structure tertiaire rapproche les résidus d'acides aminés non voisins
dans la structure primaire et aide à générer un repliement protéique qui est un facteur
déterminant pour les fonctions des protéines (figure 45).

Figure 45: Structure tertiaire d’une alpha amylase humaine (code PDB : 1SMD)

59
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

IV.3.4. Structure quaternaire


Contrairement à la structure tertiaire qui décrit l'organisation d'une chaîne polypeptidique
unique, la structure quaternaire est une association de deux ou plusieurs polypeptides
repliés indépendamment dans la protéine par des interactions non covalentes. La plupart
des protéines ne fonctionnent pas comme un monomère mais fonctionnent plutôt comme
des protéines multi-sous-unités ou multi-mères ou oligomères (figure46).

Figure 46 : Structure quaternaire d’une protéine (la myoglobine) (Kendrew et al,


1958)

IV.4. Détermination de la structure des protéines


IV.4.1. Méthodes dites « expérimentales »
Les deux techniques les plus répandues sont la radio-cristallographie aux rayons X et la
résonnance magnétique nucléaire (RMN) dont voici une brève présentation .

a. Radio-cristallographie aux rayons X (X-Ray)


Cette technique est basée sur l’obtention de la protéine sous la forme d’un cristal
ordonné. Le motif de diffraction des rayons X après passage dans le cristal est utilisé pour
déterminer l’empreinte atomique de la structure en trois dimensions. À l’aide de cette
empreinte et de données génériques communes à l’ensemble des protéines (structures des
acides aminés, angles dihédriques, …), il est possible de déterminer un modèle de la
protéine.

60
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

L’avantage de cette technique est sa très bonne résolution spatiale, proche du rayon de
van der Waals d’un atome d’hydrogène dans le meilleur de cas.
Le principal désavantage de cette technique est la nécessité de former des cristaux
ordonnés de protéine et il est souvent nécessaire d’en tester un grand nombre avant
d’obtenir les premiers cristaux.

b. La résonance magnétique nucléaire


La spectroscopie RMN s’appuie sur l’étude de l’absorption et la rediffusion de radiations
électromagnétiques d’un nombre limité d’isotopes (1H, 2H, 13C, 14N, 15N, . . .) soumis
à un champ magnétique externe. L’isotope le plus utilisé en RMN reste le noyau
d’hydrogène (1H) contenant un unique proton.
Les expérimentations partant du principe de résonance permettent d’obtenir un ensemble
de caractéristiques structurales sur la molécule étudiée. Ces dernières serviront de
contraintes pour calculer un ensemble de conformères par l’intermédiaire d’algorithmes
de géométrie de distance ou par dynamique moléculaire dans un espace réel.
L’avantage de cette technique expérimentale est de pouvoir étudier la protéine en solution
ou en phase solide ce qui correspond donc à un milieu plus proche de l’état physiologique
par rapport à la cristallographie aux rayons X.
c. La cryo-microscopie électronique
La cryo-microscopie électronique (cryo-EM) est une technique développée par l’équipe
de Knoll dans les années 1930. C’est une technique d’imagerie du vivant qui prend
désormais une place prépondérante en biologie structurale, avec des retombées en
biologie cellulaire et du développement, en bioinformatique, en biomédecine ou en
physique de la cellule.
La microscopie électronique concentre des faisceaux d’électrons pour interagir avec la
matière à la manière d’un microscope photonique classique. Les électrons propulsés à
grande vitesse sur l’échantillon possèdent une longueur d’onde de l’ordre du picomètre
permettant l’observation de la matière à l’échelle atomique.
Les méthodes de traitement et de reconstruction des images tridimensionnelles ont permis
de déterminer des structures de protéines purifiées in vitro ou au sein des cellules.

61
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

IV.4.2. Les méthodes dites « in silico »


La protéine est une macromolécule composée d'acides aminés (les éléments de base)
reliés par des liaisons peptidiques.
Prédire la structure 3D d’une protéine, c’est approcher la fonction potentielle qu’elle
assure dans la cellule (figure 47).

Figure 47 : Relation : séquence - structure - fonction (Jaspard E, 2018).

Les structures 2D et 3D sont mieux conservées que les séquences (structures 1D) au
cours de l’évolution d’où l’intérêt cognitif majeur. Cependant, la connaissance seule de la
séquence d’une protéine n’est pas suffisante pour prévoir la structure 3D d’une protéine.
Le but ultime de la prédiction de la structure des protéines est d'élucider une structure à
partir de sa séquence primaire, avec une précision comparable aux résultats obtenus
expérimentalement en utilisant la cristallographie aux rayons X et la RMN.

Pourquoi avons-nous besoin de prédire les structures des protéines ?


La réponse réside dans le fait que les attributs structuraux des protéines conduisent à des
fonctions biologiques, et les méthodes de prédiction computationnelle sont la seule voie
et pratique dans tous les contextes où les techniques expérimentales échouent. De
nombreuses protéines sont trop grandes pour la RMN ou n'ont pas la disposition à former
des cristaux de qualité de diffraction pour la diffraction des rayons X, donc dans de tels
cas, la méthode de calcul pour la prédiction de la structure est la seule approche.

 Comment une protéine peut maintenir sa structure tridimensionnelle?


Plusieurs interactions entre différents résidus de la chaine polypeptidique repliée dans
l’espace maintiennent la structure de la protéine :
- Interactions électrostatiques (5 kcal/mol).

62
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

- Interactions hydrophobes (< 10 kcal/mol).


- Forces de Van der Waals (1 kcal/mol).
- Ponts d’Hydrogène et disulfures (3-7 kcal/mol).

 Stabilité des protéines et cinétique de repliement (notion d’énergie)


La question : Quelle conformation adopte une protéine suivant les conditions
extérieures?
Il existe un équilibre entre l’état dénaturé D et l’état natif N, et la stabilité est la
différence d’énergie libre (G) entre ces deux états. L’enregistrement d’un paramètre
physique de la protéine en fonction de la température ou de la concentration d’un
dénaturant chimique permet d’obtenir la différence des énergies libres de la molécule de
la protéine entre les états natifs et dénaturés: ΔG N-D = ΔHN-D-TΔSN-D =-RTlnKN-D. Ici,
ΔH et ΔS correspondent aux changements d’enthalpie et d’entropie pendant la réaction
D↔N, et KN-D est la constante de l’équilibre entre les deux états.
Pour les petites protéines la stabilité est de l’ordre 5-10 kcal/mol ce qui est faible par
rapport à la stabilité d’une liaison covalente qui est de 50-300 kcal/mol.

Anfinsen a proposé l’hypothèse « thermodynamique » du repliement qui postulait que la


conformation native d’une protéine correspondait à l’état dans lequel l’énergie libre était
la plus basse et que, par conséquent, cette conformation ne dépendait que de l’ordre des
acides aminés dans la chaine (structure primaire).
Il est connu, qu’in vitro comme in vivo, une protéine se replie en quelques secondes,
voire même quelques millisecondes pour certaines protéines à température ambiante
(Cette énigme porte le nom de « Paradoxe de Levinthal ». Pour résoudre le paradoxe,
Levinthal a introduit l’idée du chemin de repliement : il a supposé que la protéine ne
cherche pas sa structure native au hasard mais seulement parmi les structures qui mènent
vers un minimum local d’énergie le plus rapidement possible. Donc, selon Levinthal la
structure native de la protéine est définie par la cinétique et non par la thermodynamique.

Une question se pose souvent pour la prédiction des structures tridimensionnelles à partir
de la séquence en acides aminés :

63
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Quelle structure faut-il choisir: la plus stable ou celle qui est accessible le plus
rapidement?
Donc, il a été accepté que le repliement des protéines soit contrôlé par les paramètres
cinétiques et thermodynamiques. Cela veut dire qu’une protéine cherche sa structure
native qui est la plus stable au niveau thermodynamique en suivant un chemin particulier
de repliement.

Les approches de prédiction de la structure des protéines sont basées sur l’hypothèse
thermodynamique, qui postule que l'état natif d'une protéine est l'état d'énergie libre la
plus faible sous conditions physiologiques.

IV.4.2.1. Prédiction des structures secondaires


La structure secondaire correspond aux formations périodiques qu’adoptent des portions
partielles d’une protéine donnée. Ces repliements sont : l’hélice α, le feuillet β et les
boucles/coudes.
La fonction d’une protéine dépend en grande partie de sa structure c'est-à-dire de la
manière dont se replie la chaînes d’acides aminés. Prédire la structure 2D revient à
prédire les éléments conformationnels locaux (hélices α, feuillets β et boucles).
Il existe une variété déconcertante de méthodes pour prédire la structure secondaire des
protéines à partir de la structure primaire. Ces méthodes peuvent être divisées en trois
systèmes : statistiques, basés sur la connaissance et hybrides.

a. La méthode de Chou-Fasman

La plus populaire et la plus couramment utilisée de toutes les méthodes de prédiction.


Elle doit sa popularité à sa simplicité d'utilisation, sa facilité de compréhension intuitive
et sa réussite raisonnable dans la pratique.

La méthode de Chou-Fasman est une méthode statistique empirique de prédiction de


structure, elle a été développée dans les années 70. Elle se base sur les propriétés
physico-chimiques définissant la stabilité de la protéine, telle que l’hydrophobicité. Les
auteurs ont donc calculé les valeurs des paramètres de conformation d’un acide aminé

64
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

(propension « P ») de se trouver dans une structure d’hélice α, feuillet β ou de coude à


partir de la structure cristalline de 29 protéines déterminées par cristallographie au rayon
X (tableau I).

Algorithme de Chou-Fasman
 Les règles pour une hélice α
 Identifier les régions de résidus consécutifs pour lesquelles 2/3 des résidus
satisfaits P (h)> 100.
 Étendre ces régions dans les deux directions, jusqu’à atteindre 4 résidus
consécutifs de P(h) moyen <100.
 Les régions pour lesquelles P(h)>P(f) sont déclarées hélice α.

 Les règles pour feuillets β


 Identifier les régions de 5 résidus consécutifs pour lesquelles trois résidus au
moins satisfont P(f)> 100.
 Étendre ces régions.
 Les régions pour lesquelles P(f)> 105 et P(f)> P(h) sont déclarées feuillets β.

Tableau III : Propension hélices α et feuillets β des acides aminés (Pα et Pβ) selon la
méthode de Chou-Fasmon (Guillaume Chakroun, 2004)

65
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Suivant leur score de conformation, la méthode de Chou-Fasmon sous classe les acides
aminés en six degrés d’affinité pour chaque structure secondaire :

H : forte propension à former un motif

h : formateur

I : faible formateur

i : indifférent

b : casseur

B : casseur puissant

 Les avantages de cette méthode


- La méthode est assez facile pour la compréhension.
 Désavantages
- Les statistiques utilisées sont naïves.
- Les règles de prédiction sont peu arbitraires.
- La raison de la désignation de la structure secondaire n'est pas directement liée à la
théorie chimique ou physique.

b. La méthode information directionnelle de Garnier, Osguthorbe et Robson


(méthode GOR)

La méthode de GOR est une méthode statistique, elle se base sur la probabilité d’un acide
aminé d’appartenir à un type de structure secondaire dépend de la nature et de la position
de ses voisins. Autrement dit : chaque acide aminé possède une influence sur la
conformation de tous les autres acides aminés.

Sa théorie est basée sur des principes statistiques solides, est bien définie et comporte peu
de variables introduites artificiellement.

 Avantage:
- Généralement applicables et fonctionne avec des séquences sans homologies de
structure connue.

66
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

- Prise en compte de l’environnement séquentiel.


 Inconvénients:
- Moins bonnes performances que les méthodes actuelles (lesquelles???!!).

c. Modélisation par un réseau de neurone

Un réseau de neurones artificiel est basé sur un modèle simplifié de neurones. Ce


modèle permet certaines fonctions du cerveau (la mémorisation associative,
l’apprentissage par exemple, le travail en parallèle).

Un réseau de neurones doit pouvoir calculer des valeurs de sorties (s1, s2, s3) (la
prédiction des structures secondaires) en fonction de variables d’entrées (e1, e2, e3)
(séquences de protéines). Les connexions entre les neurones qui composent le réseau
décrivent la topologie du modèle (figure 48).

Figure 48: Schéma général d’un réseau de neurones (Khensous. G et H. Mouritz,


2005)

 Avantages :
- Les méthodes de prédiction par un réseau de neurone sont facilement disponibles.
- Elles réussissent souvent dans la pratique.

 Inconvénients :
- Les théories physiques et chimiques ne sont pas utilisées.
- Aucune comparaison quantitative n'est faite des règles.

67
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

VI.4.2.2. Prédiction des structures tertiaires

Lorsque la structure tridimensionnelle d’une protéine n’est pas connue, la construction


d’un modèle 3D à partir de sa séquence en acides aminés peut fournir des informations
essentielles sur ses propriétés et son mécanisme de fonctionnement.

Les méthodes de prédiction de la structure tridimensionnelle des protéines peuvent être


classées en trois catégories :

- La modélisation par homologie (ou comparative).


- Les méthodes de reconnaissance de repliement (ou d’enfilage, threading en anglais).
- Les méthodes ab initio.

Le choix de la méthode est en fonction des informations disponibles pour la réalisation du


modèle. Le facteur le plus déterminant dépend de l’existence ou non dans la PDB d’une
structure protéique résolue (patron ou template) de séquence similaire à celle de la
protéine à modéliser (cible ou target) et du taux d’identité de séquence entre ces
protéines. L’idée sous-jacente est l’identification de protéines homologues (qui découlent
d’un ancêtre commun) ayant conservées une structure proche de la séquence cible malgré
une divergence des séquences due au processus d’évolution moléculaire.

a. La modélisation par homologie (ou comparative)

La modélisation par homologie exige l’existence d’une structure d’une protéine connue
présentant plus de 30% d’identité de séquence avec la protéine cible. Cette structure
servira de structure de référence.

La méthode se base sur le fait que la structure de la protéine est plus conservée que sa
séquence. C’est-à-dire si les séquences sont similaires alors leurs structures le sont aussi.
La Protein Data Bank (PDB) est la base de données qui regroupe toutes les structures des
protéines connues (X-ray, crystallography, NMR).
La modélisation se fait en plusieurs étapes :

1. Recherche de modèle homologue : cette étape consiste à faire des alignements


de séquences dans les bases de données de structures (PDB, SCOP, CATH) en

68
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

utilisant le programme PSI-BLAST. L’alignement est raffiné par la détection des


faibles homologies de séquences. Ensuite le meilleur patron sélectionné c’est le
model qui a un meilleur pourcentage d'identité, avec une meilleure résolution.
2. L’alignement de la séquence de la protéine cible avec le patron: l’alignement
en paire (Smith-Waterman, CLUSTAL)
(https://www.ebi.ac.uk/Tools/msa/clustalo/) est effectué avec la vérification du
bon choix).
3. Alignement de la séquence cible avec le modèle: construire la structure de la
cible (protéine dont la structure est inconnue) avec les données énergétiques de la
protéine patron.
Examples de méthodes:
 Modélisation par assemblage de corps rigides, exemple : SWISS-MODEL
(https://swissmodel.expasy.org/).
 Modélisation par appariement de segments ou reconstruction de
coordonnées: SEGMOD
 Modélisation par satisfaction de contraintes spatiales: MODELLER
(https://salilab.org/modeller/), logiciel le plus utilisé.
4. Le modèle doit ensuite être raffiné et validé : évaluer la stœchiométrie et
d'autres propriétés structurales : Longueur des liaisons, les angles dièdres et les
positions des chaînes latérales.
Exemples de méthodes :
 PROCHECK
(https://www.ebi.ac.uk/thorntonsrv/software/PROCHECK/).
 WHATCHECK (https://swift.cmbi.umcn.nl/gv/whatcheck/).

 JCSG Structure Validation Central (http://www.jcsg.org).

a. Méthodes de reconnaissance de repliement (« Threading »)

Les méthodes de reconnaissance de repliement sont une alternative à la modélisation par


homologie lorsque le taux d’identité avec les séquences disponibles dans la PDB descend
au-dessous de 30% mais reste supérieur à 15%.

69
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

C'est une méthode qui identifie les structures 3D similaire mais qui n'ont pas de séquence
homologue.
La méthode de reconnaissance des repliements (threading) se base sur le principe qu’il
existe des protéines qui ont des structures qui se ressemblent avec un faible score
d'alignement.
Cette méthode effectue un alignement entre une séquence et un fragment de structure et
intègre à la fois des informations de séquence et de structure (2D, 3D). Elle cherche à
trouver quel type de repliement la nouvelle protéine peut adopter quand on ne dispose
que de sa séquence. Comme le nombre de repliements est limité, il est possible de
retrouver les mêmes repliements dans des protéines très éloignées.
L’inconvénient de cette approche c’est que cette dernière est limitée par le nombre de
repliements connus.
Exemple de programme : 3D-PSSM
(http://www.sbg.bio.ic.ac.uk/~3dpssm/index2.html) et PHYRE
(http://www.sbg.bio.ic.ac.uk/~phyre2/html/page.cgi?id=index).

b. Méthodes ab initio (couramment appelées de novo)


La méthode de prédiction ab initio vise à prédire la structure d’une protéine à partir de la
seule connaissance de sa séquence en acides aminés, de potentiels statistiques et de bases
de données. Cet objectif est un défi scientifique majeur.
Les projets de séquençage à grande échelle génèrent un grand nombre de séquences sans
aucune structure homologue connue, le développement de ces approches est
particulièrement pertinent.

La méthode ab initio se base uniquement sur la séquence primaire telle que la


composition en acides aminés et leurs propriétés physico-chimiques (thermodynamique,
hydrophobicité, électrostatique..). Toutes les informations essentielles pour qu'un
polypeptide se replie dans son état natif sont déjà intégrées dans la séquence d'acides
aminés de la protéine. Cette méthode repose sur la recherche de la structure de plus basse
énergie parmi l’ensemble des structures possibles.

70
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Généralement, cette méthode est utilisée en dernier recours dans la prédiction de la


structure des protéines lorsque l'homologue de l'information structurelle est manquant.

La structure fonctionnelle normale d'une protéine (son "état natif") est souvent une
conformation qui a l'énergie libre la plus faible possible. Les méthodes ab initio prédisent
une structure pour une protéine cible en tentant de trouver la conformation d'énergie la
plus faible que la chaîne polypeptidique peut adopter.
Les méthodes ab initio utilisent l’approche hiérarchique, dans laquelle les hélices sont
prédites en premier, puis les brins et la topologie globale des feuillets. Les boucles sont
modélisées à part. L’ensemble des données issues de ces prédictions sont utilisées pour la
conception d’une structure 3D.
Une limitation majeure de cette méthode est une exigence de puissance de calcul énorme.
L’inconvénient de ces méthodes c’est que la prédiction nécessite une exploration de
l’espace conformationnel, donc elles restent applicables uniquement à des petites
protéines de moins d’une centaine de résidus.

En résumé, la figure suivante illustre le diagramme méthodologique de la prédiction de la


structure tertiaire (figure 11).

71
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Figure 49: Digramme méthodologique de la prédiction de la structure tertiaire


d’une protéine.

IV.5. Validation d’une structure protéique


Les protéines sont le cheval de bataille de tous les processus biologiques d'un organisme,
et la clé de leurs fonctions est la structure et la dynamique 3D de la protéine. Pour mieux
comprendre ces fonctions, nous avons besoin d'une prédiction correcte du repliement
natif sur le modèle protéique. Par conséquent, pour augmenter la fiabilité, la prédiction de
la structure des protéines doit être suivie d'un contrôle et d'une évaluation de la qualité. Il
faut sélectionner le meilleur modèle parmi un ensemble de modèles prédits, c'est-à-dire
soit à partir de différentes méthodes/serveurs de modélisation, soit sur la base de la
prédiction de différents alignements et structures de modèles. La meilleure façon est de
générer différents modèles en utilisant les différentes méthodes des serveurs de
modélisation disponibles et d'avoir une évaluation de la qualité du modèle pour en choisir
le meilleur validé stéréochimiquement. La principale raison de ne pas s'appuyer sur une
seule méthode de prédiction ou un seul modèle est due à des méthodes sous-optimales

72
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

pour les alignements cible-patron, à une structure de patron à faible résolution et à des
inexactitudes structurelles introduites par le programme de modélisation. L'objectif
principal des programmes de vérification de modèles prédits est de détecter les segments
non fiables dans le modèle en évaluant leur qualité stéréochimique et géométrique pour
que les modèles soient adaptés à des applications ultérieures.
Pour l'évaluation de la qualité de la modélisation, différents programmes sont disponibles
en ligne tels que : PROCHECK (https://www.ebi.ac.uk/thornton-
srv/software/PROCHECK/), ERRAT(http://services.mbi.ucla.edu/ERRAT/), Verify3D
(http://services.mbi.ucla.edu/ERRAT/),WHAT_CHECK(http://servicesn.mbi.ucla.edu/W
HATCHECK/).

IV.5.1. Le diagramme de Ramachandran


Dans une liaison peptidique, les conformations probables d'une chaîne polypeptidique
sont assez restreintes en raison de la limitation de la liberté de rotation aux angles φ
(Cα−N) et ψ (Cα−C) par encombrement stérique entre le squelette peptidique et les
chaînes latérales du.
Le diagramme (graphique) de Ramachandran cartographie l'ensemble de l'espace
conformationnel d'un polypeptide (graphique de ψ vs φ) et illustre les résidus autorisés et
non autorisés dans cet espace conformationnel. On peut vérifier les statistiques de
Ramachandran pour évaluer les résidus autorisés et non autorisés dans le modèle
protéique et sélectionner les replis dans lesquels plus de 90 % des résidus se situent dans
la région autorisée. En règle générale, > 90 % des critères de la région autorisée doivent
être suivis, ou au moins les résidus critiques pour la fonction de la protéine ou les résidus
dans le site actif doivent être dans la région autorisée. Comme il s'agit de la vérification la
plus puissante de la vérification stéréochimique des protéines pour la structure des
protéines, une tentative doit être faite pour minimiser l'énergie de la structure et résoudre
les régions d'erreur afin qu'elle suive les statistiques de Ramachandran (Figure 50).

73
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Figure 50 : Un diagramme de Ramachandran.


Signification des couleurs :
- Les points noirs : acides aminés constituant la protéine.
- En rouge: zones les plus favorables (valeurs φ et ψ très fréquemment observées
dans les protéines qui ont été résolues expérimentalement).
- En jaune: zones favorables.
- En jaune pâle: zones moins favorables (valeurs φ et ψ mais de manière beaucoup
plus rare).
- En blanc: zones mauvaises (zones où on trouve quasiment jamais des valeurs φ et
ψ dans les protéines qui ont été résolues expérimentalement).

IV.6. La banque de données internationale de structures « Protéine Data Bank


(PDB) »

La Protein Data Bank (PDB) est la base de données internationale de dépôt des structures
protéiques obtenues expérimentalement par cristallographie aux rayons X, spectroscopie
RMN et la cryo-microscopie électronique. Cette banque fut créée en 1971 et depuis croit
de manière exponentielle. Aujourd’hui, cette banque contient 190841 de structures
protéiques (Mai 2022). La PDB montre que la méthode expérimentale la plus utilisée est
la cristallographie aux rayons X.

C’est à partir de cette banque que sont détectés les homologues structuraux. La majorité
des séquences ont une homologie inférieure à 20%; on évalue à environ 1000 le nombre

74
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

total de structures protéiques originales qui suffirait à modéliser la quasi-totalité des


protéines connues (figure 51et 52).

Figure 51: Page d’accueil de la base de données PDB (https://www.rcsb.org/).

Figure 52 : Statistiques de la base de données PDB


(https://www.rcsb.org/stats/summary).

À travers la base de données PDB, nous pouvons télécharger un fichier (nommé fichier
PDB). Ce dernier stocke des données sous une forme structurée et contient les
coordonnées cartésiennes des atomes constitutifs d’une biomolécule donnée.

75
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

La figure 53 montre comment télécharger un fichier PDB de la structure 3D de l’enzyme


acétylcholinestérase ayant le code PDB : 1EEA.

Figure 53 : Comment télécharger le fichier PDB d’une structure protéique (ex :


acétylcholinestérase).
IV.6.1. Organisation du fichier PDB
Le fichier débute par les informations sur la protéine, la méthode utilisée pour déterminer
sa structure 3D ainsi que les conditions expérimentales (figure 54).

Figure 54 : En-tête du fichier PDB (ex : acétylcholinestérase code PDB :1EAA).

Le fichier PDB contient aussi les données cartésiennes (X, Y, Z) des atomes (figure
55).

76
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Figure 55 : Fichier PDB de la structure de Coordonnées cartésiennes des atomes des


acides aminées de la structure (ex : acétylcholinestérase code PDB:1EAA).

IV.7. Programmes de visualisation des structures 3D

Le fichier PDB peut être lu par des programmes de visualisation qui permettent une
analyse détaillée de la structure 3D.
Il existe plusieurs logiciels appelés « interfaces graphiques moléculaires » permettent la
présentation et la visualisation des structures des biomolécules, à titre d’exemples:

- PyMOL: un logiciel libre de visualisation de structures chimiques 3D


(https://pymol.org/2/)
- VMD : un programme de visualisation moléculaire pour afficher, animer et analyser
de grands systèmes biomoléculaires à l'aide de graphiques 3D
(https://www.ks.uiuc.edu/Research/vmd/).
- Chimera: un logiciel de visualisation moléculaire, financé par « The National
Institutes of Health». Il s’agit également d’un logiciel libre et gratuit.
http://www.cgl.ucsf.edu/chimera/

77
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

IV.8. Les autres banques de structures protéiques

Dans le but d’organiser les connaissances, des classifications de domaines protéiques en


fonction de leur structure ou repliement se sont développées.

a. SCOP (Structural Classification Of Proteins)


C’est une banque de données qui regroupe les protéines de la PDB présentant une relation
de similarité structurale et d’évolution. Le classement dans cette banque se fait selon
quatre principaux niveaux hiérarchiques :

 Famille : au sein de la famille, les protéines partagent une origine


évolutionnaire commune, et une identité de séquence de plus de 30% ou une
identité plus faible mais une similarité de structure et de fonction très
importante.
 Super-famille : regroupent des familles de protéines dont le degré de
similarité de séquence est faible mais pour lesquelles des similarités de
structure et de fonction suggèrent une origine d’évolution commune.
 Repliement : protéines avec une similarité structurale majeure. Il regroupe
les superfamilles présentant des structures secondaires similaires et
connectées selon la même topologie. A ce niveau, aucune origine
évolutionnaire commune n’est plus garantie.
 Classe : rassemblent les repliements présentant une composition similaire en
structures secondaires. Quatre principales Classes sont identifiées : les
domaines dits Tout-Alpha (constitués majoritairement d’hélice α), Tout-
Beta (majorité de brins β), Alpha/Beta (notés α/β , alternance d’hélices et de
brins) et Alpha + Beta (notés α+β , constitués de régions distinctes avec une
majorité d’hélices d’une part et de brins d’autre part).

b. CATH (Class Architecture Topology and Homology)


Les protéines dont la structure a été déterminée par RMN et celles dont la résolution de
détermination de structures par cristallographie rayon X est supérieure à 3 angströms sont

78
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

répertoriées dans cette banque. La hiérarchie de classification de CATH est composée de


quatre principaux niveaux (figure 56):
- Niveau C (Classe) : elle caractérise la composition en structures secondaires et leur
arrangement.
- Niveau A (Architecture) : classe les protéines en fonction de l’architecture de leurs
structures secondaires sans tenir compte de leurs connectivités.
- Niveau T (Topologie) : les protéines sont classées par familles de repliements, tenant
compte de l’architecture des structures secondaires mais également de leurs
connectivités.
- Niveau H (superfamilles homologues) : regroupe les domaines pouvant partager un
ancêtre commun en fonction de similarités de séquence et /ou de structure. Les
similarités sont d’abord identifiées par comparaison de séquence puis par
comparaison de structure.

Figure 56: Représentation des trois premiers niveaux Classe, Architecture,


Topologie de la classification CATH. Les hélices sont représentées en bleus, les
feuillets en magenta et les boucles en gris.

79
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Chapitre V : Interactions protéine-protéine /


protéine-ligand
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Chapitre V : Interactions protéine-protéine / protéine-ligand


Dans cette partie, on s’intéressera à un volet aussi important que les deux précédant
chapitre; l’étudiant aura à découvrir l’interactivité des complexes protéines - protéines
protéine-ligand

Ce chapitre est dans l’objectif de s’initier aux méthodes de prédiction des différentes
interactions et complexes pour une meilleure compréhension de quelques fonctions
biologiques.

80
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

V.1. Introduction

L’ensemble des processus cellulaires est contrôlé par l’association et la dissociation des
protéines. Ainsi, les interactions protéines-protéines / protéine-ligands sont au cœur de
différentes fonctions essentielles, comme la réplication de l’ADN, l’organisation du
cytosquelette, le contrôle du cycle cellulaire, ou encore la réponse à certains signaux
extracellulaires. Leur caractérisation à l’échelle d’un organisme constitue une étape
majeure pour une meilleure compréhension du rôle des protéines, et plus généralement du
fonctionnement des cellules.

V.2. Interactions protéines - protéines

La plupart des protéines assurent leurs fonctions biologiques en interagissant avec une ou
plusieurs autres protéines. Elles peuvent former de larges complexes protéiques,
exemple : le protéasome (qui est un assemblage d’environ 50 sous-unités protéiques).

Les interactions entre la protéine et son partenaire sont généralement non covalentes et de
faibles énergies. Elles sont de même type que celles impliquées dans le repliement des
protéines (liaisons hydrogène, interactions électrostatiques, contacts de type Van der
Waals et effets hydrophobes).

Les interactions sont très diverses, selon leurs composition, leurs affinités ou leur nature
permanente ou transitoire (figure 57).

a. Homo-oligomère ou hétéro-oligomère : les interactions peuvent exister entre


protéines identique ou différentes (homo ou hétéro- oligomères).
Pour les homo-oligomères, l’interaction se fait sur une même surface pour les
deux monomères.
Pour les hétéro-oligomères, l’interaction peut avoir lieu sur deux différentes
surfaces.
b. Obligatoire ou non-obligatoire : les complexes formés peuvent être obligatoires
ou non.
Une interaction obligatoire signifie que les monomères impliqués n’ont pas de
structure stable in vivo en absence de cette interaction.

81
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Une interaction non obligatoire signifie que les protéines sont stables en absence
d’interactions.
c. Permanente ou transitoire : On peut aussi distinguer les interactions selon leur
dynamique : permanente et transitoire.
Les interactions permanentes sont très stables, et les protéines impliquées ne sont
présentes que sous leur forme complexée.
Les interactions transitoires sont beaucoup plus dynamiques, les partenaires
s’associent et se dissocient rapidement in vivo.

Il est important de noter que la plupart des interactions ne tombent pas exactement dans
chacune de ces catégories, mais qu’un continuum existe entre interactions obligatoires et
non-obligatoires, et que la stabilité des complexes dépend beaucoup des conditions
physiologiques et de l’environnement. Une interaction peut être principalement transitoire
in vivo, mais devenir permanente sous certaines conditions cellulaires.

Figure 57 : Exemples de différents types d’interactions protéine – protéine.


(A)Homodimère obligatoire, (B)hétérodimèreobligatoire, (C)homodimère non-
obligatoire, (D)hétérodimèrenon obligatoire, (E) hétérodimère permanent non
obligatoire, (F) hétérodimère transitoire non obligatoire (Nooren and Thornton, 2003)

82
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

V.2.1. Méthodes de prédiction des interactions protéines-protéines

Les projets de séquençage de différents organismes génèrent d’énormes masses de


données. L’un des défis les plus importants de l’ère post-génomique consiste à exploiter
ces informations afin de prédire des interactions fonctionnelles entre les protéines.
L’utilisation des méthodes bioinformatiques est une approche qui vise à comparer les
protéomes de différents organismes et prédire des interactions fonctionnelles directes ou
indirectes entre les protéines.
La prédiction d’interactions a aussi l’avantage d’être applicable à grande échelle (génome

et protéome) à peu de frais.

Les méthodes de prédictions sont basées sur les séquences des protéines, et les
caractéristiques structurales et génomiques liées aux interactions et aux relations
fonctionnelles.
Différentes approches bioinformatiques destinées à prédire les interactions entre
protéines sont présentées dans ce chapitre.

a. Transfert par interologues


Le principe de cette méthode est le fait que deux protéines liées fonctionnellement ont
tendance à co-évoluer. Walhout et collaborateurs ont introduit en 2000 la notion
d’interaction conservée ou « interologues ». La définition est la suivante : « en
considérant deux protéines A et B connues pour interagir dans un organisme, si on
trouve des orthologues A’ et B’ dans un autre organisme, A-B et A’-B’ sont considérés
comme des intérologues ».
Cette méthode a permis de prédire des interactions chez l’homme, Caenorhabditis
elegans et Drosophila melanogaster à partir des données d’interaction de levure.

b. Méthode de la Pierre de Rosette


Cette méthode est basée sur l’idée que deux protéines fusionnées dans un organismes ont
de fortes chances d’interagir lorsqu’elles sont indépendantes dans un autre organisme
(figure 58).

83
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Figure 58 : La méthode « la Pierre Rosetta » (Bowers et al., 2004).


Les protéines A et B sont exprimées séparément dans un organisme. Dans un autre
organisme, les protéines A et B sont fusionnées en une seule protéine. L’existence de
cette protéine de fusion permet de prédire l’interaction entre les protéines A et B.

c. Méthode des profils phylogénétiques


Bien que cette méthode soit aussi basée sur la co-évolution de protéines
fonctionnellement associées, elle n’utilise pas les interactions protéine-protéine déjà
connues. Ce sont les relations d’homologie entre les protéines dans différents organismes
qui sont utilisées. Chaque protéine est représentée par un vecteur booléen dans lequel
l’absence ou la présence d’un orthologue dans différents organismes est indiqué. Les
protéines ayant des vecteurs similaires, donc des profils phylogénétiques proches sont
identifiées et ont une forte probabilité de participer à un même complexe ou une même
voie de signalisation, et donc d’interagir physiquement (figure 59).

Figure 59 : Méthode de profils phylogénétiques (Bowers et al., 2004).

Cette figure est un exemple de la méthode de profils phylogénétiques. En considérant


quatre organismes différents, les protéines A, B, C et D sont recherchées au sein de ces

84
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

espèces. Pour chaque protéine, un profil est construit, représenté sous la forme d’un
vecteur dont chaque entrée prend comme valeur 1 ou 0 en fonction de la présence ou de
l’absence d’un homologue dans un génome donné. Les protéines présentant un profil
similaire (comme les protéines A et B dans cet exemple), sont prédites comme étant relié
à la même fonction, et potentiellement en interaction.
d. Conservation du voisinage physique des gènes “ Gene Neighbor ”
Elle explore la conservation du voisinage des gènes dans différentes espèces. Si deux
protéines sont en interaction, alors la proximité physique des deux gènes associés est
supposée être conservée dans les différentes espèces concernées.
À titre d’exemple, dans les génomes procaryotes, certains gènes liés fonctionnellement, et
codant des protéines qui interagissent potentiellement sont regroupées au sein de ce qu’on
appelle des opérons.

En 1998, Dandekar et collaborateurs ont proposé que cette conservation de la proximité


des gènes fonctionnellement liés, permette de prédire des interactions physiques entre
protéines. Le principe consiste à prédire une interaction entre les gènes physiquement
proches dans les génomes de plusieurs organismes (figure 60).

Figure 60 : La méthode “ Gene Neighbor ” (Bowers et al., 2004).

La méthode « Gene Neighbor » vise à identifier des paires de protéines proches dans les
génomes de plusieurs organismes. Dans cet exemple, la paire A-B sera prédite en
interaction par l’approche, contrairement à la paire A-C.

85
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

V.2.2. Les bases de données d’interactions protéine-protéine

Plusieurs bases de données ont été développée pour collecter, classer et rendre accessible
ces différentes données expérimentales issues de l’analyse des interactions protéines-
protéines. Ces bases des données se distinguent par de nombreux critères tels que : le type
d’organisme couvert et les politiques d’acquisition des données. D’une part, les données
d’interactions peuvent être succinctes ou détaillées, et d’autre part elles peuvent être
récupérées de façon automatique ou entrées manuellement par une personne qui extrait
ces informations de la littérature et des différents cribles effectués.
Selon la source des données, on distingue deux types de bases de données :
- Bases de données primaires : les données proviennent exclusivement de
publication validées par des experts ("peer-review"), exemple : IntActet
MatrixDB.
- Bases de données secondaires : les données sont issues des bases de données
primaires (meta-databases), exemple : APID et PINA.
Il existe aussi des bases de données spécialisées en interaction prédites par les méthodes
de bioinformatiques telles que : MIMI, PIPs, MPIDB, STRING, I2D/OPHID et
UniHI.
Le tableau résume les bases de données d’interactions protéine – protéine

Tableau IV : Description de quelques bases de données d’interactions (Koh et al.,


2012)
Nom Bases de données- Description Liens

IntAct Interaction Act http://www.ebi.ac.uk/intact/s


Interactions entre protéines ite/index.jsf

MINT Molecular INTeraction database https://mint.bio.uniroma2.it/


Interactions entre protéines

DIP Database of Interacting Proteins http://dip.doe-mbi.ucla.edu


Interactions entre protéines
MatrixDB The extracellular Matrix Interaction Database http://matrixdb.univ-
lyon1.fr/
Interactions établies par les protéines de la
matrice extracellulaire
BIND Biomolecular Interaction Network Database http://www.bind.ca/
Interactions entre biomolécules

86
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

MIPS Munich Information center on Protein


Sequences http://mips.gsf.de/genre/proj/m
Interactions entre protéines pact/

BioGRID Biological General Repository for Interaction http://www.thebiogrid.org/


Datasets.
Interactions entre biomolecules
HPRD The Human Protein Reference Database. https://www.hprd.org/
Interactions entre proteines

V.3. Interaction protéine-ligand


Un ligand est une molécule de petite taille (inférieure à 100 atomes) ou un petit peptide
(chaîne protéique d’une dizaine de résidus). Le ligand est une substance qui peut former
un complexe non-covalent avec une biomolécule dont la liaison est réversible en général
(complexe non-covalent).
Le caractère de liaison protéine-ligand peut être fort ou faible, on parle d’une forte ou
faible affinité, cette dernière peut être caractérisée par une constante d'équilibre Ka et/ou
une énergie libre standard.
Le ligand peut être un substrat, un cofacteur, un activateur, un inhibiteur, un ion
métallique, ou une autre biomolécule.
Les interactions protéine-ligand ont des rôles clés dans les fonctions de transport, de
transmission de signaux cellulaires, ainsi que dans la capacité des scientifiques à moduler
la fonction des protéines en élaborant des médicaments inhibiteurs compétitifs des
ligands naturels (« drug design »).
L'interaction protéine-ligand est sans doute l'approche thérapeutique la plus courante. De
nombreux médicaments ciblent cette liaison, soit pour la bloquer (antagoniste), soit pour
l'activer (agoniste).

V.3.1. Prédiction des interactions protéine-ligand


Un ligand ne se lie qu'à une zone dédiée à la surface de la protéine, connue sous le nom
de site de liaison du ligand. La spécificité du site de liaison au ligand d'une protéine est
déterminée par la disposition de sa chaîne d'acides aminés qui donne à la zone sa forme et
sa réactivité chimique. Par conséquent, un site de liaison au ligand fournit une forme
complémentaire à son ligand et maintient le ligand en place via des interactions
chimiques.
87
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

La recherche qui élucide les mécanismes d'interaction au niveau des sites de liaison des
ligands implique généralement une modélisation in silico. La modélisation in silico utilise
des ordinateurs pour comparer les structures protéiques déjà connues et les données
évolutives afin de faire des prédictions dans le but de déterminer la forme de liaison
optimale et l'état énergétique du complexe protéine-ligand.

V.3.1.1. La Modélisation moléculaire

La Modélisation Moléculaire, est un outil complémentaire à l'expérimentation. C’est la


description des molécules et de leurs interactions dans l’espace à l’aide de calculs. Pour
chaque structure, on peut calculer une énergie et la structure moléculaire la plus probable
correspond à celle ayant l’énergie potentielle la plus basse. Les méthodes de calculs
utilisées peuvent être classées en deux groupes selon la molécule étudiée :

 La mécanique quantique : elle permet une description relativement précise des


systèmes de petites tailles (environ 100 atomes). C’est l’étude de la structure
électronique, de la liaison et réactivité chimique.

 La mécanique moléculaire : elle permet une description plus approximative des


systèmes de grandes tailles (plus de 1000 atomes) telles que les protéines, l’ADN,
l’ARN et bien d’autres. C’est une méthode d'analyse conformationnelle basée sur
l'utilisation de champs des forces empiriques et la minimisation d'énergie.

a. Construction de modèle par homologie de séquence

La disponibilité des coordonnées spatiales des molécules à étudier sont nécessaires pour
les études de modélisation moléculaire. L’ensemble des structures tridimensionnelles
(structures 3D) des protéines biologiques, résolues par cristallographie aux rayons X, par
spectroscopie RMN ou par cryomicroscopie sont regroupées dans la base de données
PDB (Protein Data Bank).
Pour les cas des protéines dont la structure 3D n’est pas résolue expérimentale, il est
possible de construire un modèle à partir d’une protéine homologue dont la structure 3D a

88
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

été définie expérimentalement et qui présente une séquence similaire à celle de la


protéine à modéliser. Deux protéines homologues sont des protéines dont les séquences
ont divergé à partir d’un ancêtre commun. Elles peuvent avoir les mêmes fonctions et une
structure 3D très proche.

b. Le docking moléculaire protéine/ligand


Actuellement, un outil très sollicité dans la recherche de nouvelles molécules à visée
thérapeutique. Le docking (amarrage) moléculaire est une méthode empirique qui permet
de prédire l’affinité entre deux molécules. Il est utilisé pour prédire l’affinité d’un ligand
pour une protéine, entre autre, la position et l’orientation la plus favorable pour un
ligand venant en interaction avec une protéine cible. Il est utilisé pour faire des
criblages très rapides et peu coûteux afin d’identifier une molécule pouvant avoir une
forte activité sur une protéine cible.
D’autres parts, le docking permet de mettre en évidence les régions et les résidus à
explorer pour optimiser l’affinité d’un ligand avec une cible lorsque la structure cible est
définie.
Le principe général est, considérant une cible de géométrie donnée, d’essayer de placer le
ligand en interaction avec la protéine de la façon la plus favorable possible. Lors du
docking, la protéine cible est généralement figée alors qu’une certaine flexibilité est
attribuée au ligand (angle de torsion).
Il existe de nombreux logiciels de docking, qu’on peut répartir en deux catégories selon
la méthode utilisée :

- La simulation de trajectoire et l’ajustement de fragments : à partir d’une


position initiale aléatoire, la simulation de trajectoire consiste à explorer plusieurs
positions (avec différentes conformations du ligand) par évaluation de l’énergie
d’interaction ligand/protéine. La meilleure position est celle qui est la plus basse
en énergie, donc correspond au complexe ligand/protéine le plus stable.
Cette méthode est plus lente mais prend mieux en compte la flexibilité du ligand
et permet l’exploration de régions plus vastes. Exemple d’un logiciel :
AUTODOCK (https://autodock.scripps.edu/) (figure 61).

89
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Figure 61 : L’interface d’AUTODOCK


- L’ajustement de fragments : elle est basée sur la complémentarité des formes.
Dans cette méthode, le ligand est décomposé en plusieurs fragments puis
reconstruit dans le site actif, en essayant de faire correspondre les géométries et
les fonctions chimiques. Cette méthode est beaucoup plus rapide que la simulation
de trajectoire et permet généralement le criblage rapide de vastes librairies de
molécules. Exemple d’un logiciel: GOLD (figure 62).

Figure 62 : L’interface du logiciel GOLD.


La plupart des programmes existants, essayent de déterminer la géométrie du complexe
protéine-ligand. L'algorithme de base tient essentiellement en trois points :
- Définir une géométrie du complexe.

90
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

- Évaluer la qualité de cette géométrie.


- Recommencer en classant les géométries.

Figure 63: Docking moléculaire avec AUTODOCK (Traore, 2016).

c. Dynamique moléculaire
Les proteines sont tres flexibles et existent sous plusieures conformations en équilibre
entre elles dans le milieu biologique. Dans la majorité des docking moléculaires, la
proteines est considérée fixe. La dynamique moléculaire permet de tenir compte de la
grande flexibilité de la protéine. Elle peut donc être utilisée pour valider ou affiner une
position de docking (complexe ligand/protéine).
En dynamique moléculaire, le mouvement des atomes d’une molécule est simulé en
intégrant les équations de Newton F = ma (F, vecteur force, a, vecteur accélération et m,
la masse) en fonction du temps.
La dynamique moléculaire permet de calculer à chaque instant (t + dt) la force exercée
sur chaque atome, et fournit ainsi différentes informations sur leur trajectoire telles que
accélération, vitesse et position par des méthodes d’intégration numérique.
Compte tenu de la volatilité de la force en fonction de la position de l’atome, il s’avére
necessaire de proceder à des calculs avec des pas petits (pas d’intégration « dt » de
l’ordre de la fentoseconde à la nanoseconde). Ainsi, les pas trop grands, font que la force
change pendant l’intégration et comme ce changement ne sera pas pris en compte, la
simulation sera fausse.

91
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Conclusion générale
Ce cours reste un modeste travail et une contribution à l’initiation et à l’interessement de
nos etudiant de premier palier (L3) à la descipline de bioinformatique.
La méthode didactique suivie se base sur une montée crescendo des notions en
bioinformatique et une construction permettant in-fine, d’hisser le niveau de l’etudiant en
bioinformatique, de consolider ses notions de base et d’attiser sa curiosité et son
enthousiasme pour la discipline, le mieux le préparer pour un palier superieur pour
d’autres notions plus approfondies.
On a veillé à palier à la fois le souci d’inculquer les notions de base en bioinformatique
tout en suivant et respectant les notions pédagogiques d’enseignement.
Nous estimons que le travail fourni et à la hauteur de l’objectif recherché dans ce niveau
(L3), l’etudiant aura toute la latitude de s’interesser d’avantage à cette discipline qui est à
la pointe de la recherche scientifique.

92
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Références bibliographiques

93
Cours de Bioinformatique Dr SADAOUI-SMADHI N UMBB

Référence bibliographique (Ouvrages)


1. Introduction to bioinformatics. Arthur M. Lesk. Edition : 4 OUP Oxford, 2013.
2. Bioinformatics: databases, tools, algorithms. Orpita Bosu, Simminder Kaur
Thukral. Edition: 3 Oxford University Press, 2007.
3. Bioinformatique. Deléage G, Gouy M. Edition:02 Dunod,2013,2015.
4. Protein structure prediction. Michael J.E.Sternberg. Oxford University Press,
1996.
5. Protein Structure prediction, Methods and Protocols. David M. Webster. Humana
Press, 2000.
6. Molecular bioinformatics : algorithms and applications. Steffen Schulze-Kremer;
1996.

Références bibliographiques pour certaines figures et tableaux (articles)


1. BOWERS, P. M., PELLEGRINI, M., THOMPSON, M. J., FIERRO, J.,
YEATES, T. O. & EISENBERG, D. 2004. Prolinks: a database of protein
functional linkages derived from coevolution. Genome biology, 5, 1-13.
2. GAUTHIER, J., VINCENT, A. T., CHARETTE, S. J. & DEROME, N. 2019. A
brief history of bioinformatics. Briefings in bioinformatics, 20, 1981-1996.
3. KOH, G. C., PORRAS, P., ARANDA, B., HERMJAKOB, H. & ORCHARD,
S. E. 2012. Analyzing protein–protein interaction networks. Journal of
proteome research, 11, 2014-2031.
4. NOOREN, I. M. & THORNTON, J. M. 2003. Diversity of protein–protein
interactions. The EMBO journal, 22, 3486-3492.
5. TRAORE, M. D. M. 2016. Synthèse et études de modélisation moléculaire dans
l'optimisation de la sélectivité de nouveaux agents antiparasitaires inspirés de
produits naturels. Université Grenoble Alpes.

94

Vous aimerez peut-être aussi