Vous êtes sur la page 1sur 37

Introduction à la Bioinformatique

H. Yezid

Faculté des Sciences Biologiques et des Sciences Agronomiques UMMTO


Introduction

Membrane plasmique

ADN
Cytoplasme
Noyau
Ribosome

Cellule eucaryote
Introduction
Génome humain (3.2 milliards pb)
L’ADN: molécule support de l’information génétique
Structure de l’ADN

La liaison phosphodiester Appariement de bases Double hélice


Structure de l’ADN

* 4 Différents nucléotides : - Adenine, Cytosine, Guanine,


Thymine

* Un simple brin est constitué d’une chaîne de nucléotides


exemple: 5’-ACGTTTGCCGAGTTC-3’

* Le brin complémentaire peut être déduit suivant la règle


d’appariement A-T et C-G

La séquence AN: c’est l’enchainement linéaire des nucléotides


formant un brin d’ADN ou d’ARN. Elle est écrite sous forme de
texte constitué de 4 caractères C G A T (U) allant de l’ext-5’ vers
l’ext-3’.
Exemple: 1560 nucléotides du génome du virus SARS-Cov 2
Croissance du nombre de données Biologiques
La Biologie est une science génératrice d’importantes quantités
de données.
Croissance du nombre de données Biologiques
La Biologie est une science génératrice d’importantes quantités
de données.

Étude du transcriptôme des systèmes (gènes exprimés)


Types de données biologiques

Séquences nucléotidiques (ADN ou ARN).

Séquences protéiques.

Structure 3-D des protéines.

Génomes entiers d’organismes.

Expression des gènes.

Réseaux d’interaction entre gènes (interactomes).


….
Croissance du nombre de données Biologiques

Comment gérer l’énorme quantité de données générée de la


Biologie ?

Réponse: à l’aide de la Bioinformatique et réseaux internet


Croissance du nombre de données Biologiques
Caractéristiques des données biologiques

•Grande quantité

•Croissance rapide

•Variété de types de données.

•Besoin d’analyse

Apparition des besoins de stockage, communication des données,


analyse, exploration et exploitation des données.

Emergence de la discipline de la Bioinformatique


Bioinformatique

La Bioinformatique est une nouvelle discipline scientifique née


de l’interaction des Sciences Biologiques avec l’Informatique.

Définition

La Bioinformatique peut être définie comme étant le traitement


informatique des données issues de la Biologie moléculaire,

 Elle exploite les techniques de l’informatique pour l’étude de:

Structure, fonction, régulation et réseaux d’interaction des gènes


ainsi que des protéines.
Computational Biology versus Bioinformatique
Computational Biology:

inclut toute sous-discipline de la Biologie ayant recours à


l’informatique pour l’analyse, la modélisation ou la prédiction des
phénomènes biologiques.

Exemples:

* Modélisation de la relation prédateur-proie dans un écosystème.

* Prédiction et modélisation de la dynamique de communautés


d’une population dans un écosystème.
Computational Biology versus Bioinformatique
Bioinformatique
Manipulation informatique des macromolécules biologiques.

ARN ADN Protéine

La Bioinformatique est devenue une importante branche des


sciences biologiques dédiée à l’étude in-vivo, in-vitro et in-silico
des gènes et des protéines.

But: Analyse et prédiction de structure, organisation, étude de la


fonction, régulation et dynamique du génome entier d’un
organisme.
Objectifs de la Bioinformatique

Objectif principal

* Description des processus biologiques chez les individus sains


versus malades à travers l’intégration des informations issues des
gènes et des protéines.

* Développement et amélioration des outils Bioinformatiques


destinés à diverses analyses.
Le Dogme central de la Biologie

ADN

ARNm

Protéine
Bioinformatique

Recherche de gènes,
ADN
Génomique comparative

Alignement de
Expression différentielle, séquences, recherche de
ARN
ARNnc similarités dans les BD

Identification de protéines
Mass spec, prédiction de Protéine
structures, alignement de
structures
Bioinformatique
Réseaux
d’interaction
Réseau moléculaire
Protéique, réseaux
de signalisation,
voies métaboliques

Simulation virtuelle Cellule

Génétique des
Physiologie/pathologie
populations, drug design
Exemple: Etude de l’interactome

Activated NOTCH1 and c-MYC network in T-ALL

(voir articleTeresa Palomero et al, 2006 PNAS)


Le coté Informatique de la Bioinformatique

Gestion des données Bases de données

Calcule des données Algorithmes, logiciels,


Serveurs Web

Interprétation des données Découvertes (drugs; biomarkers…)

Modèles prédictives
Modélisation et simulation
Systèmes de simulation
Outils de la Bioinformatique

La Bioinformatique requiert 3 éléments:

* Les données Biologiques (exemple: séquences de gènes).

* Les bases de données construites de données issues de la


Biologie expérimentale.

* Programmes informatique d’analyse et techniques de


visualisation des informations. (écrits avec différents langages de
programmation: Perl, Java, php, mySQL…).

Il existe des milliers de programmes Bioinformatique pour


l’analyse des données biologiques (exemple: Blast, Primer-net,
Protparam, Pymol…etc.).
Applications de la Bioinformatique

Principaux axes traités:

–Bases de Données Biologiques.


–Séquençage et annotation de génomes.
–Comparaison de Séquences de gènes.
–Expression de gènes (puces ADNs).
–Protéomique.
–Interactions Protéines-protéines.
–Structure 3-D des protéines et modélisation moléculaire.
–Simulation de dynamique moléculaire des protéines.
–Simulation des interactions Protéines-Ligands.
–construction de molécules médicamenteuses (Drug design).
…etc.
Historique de la Bioinformatique

* Début des années 1960, collection et analyse de séquences de


protéines, Margaret Dayhoff et collaborateurs.

* En 1965, sortie de l’ouvrage : Atlas of Protein Sequence and


Structure. comportant 50 séquences protéiques connues.
Historique de la Bioinformatique

* Pour ses nombreux travaux relevant de la discipline, Margaret


Dayhoff est considérée comme étant la fondatrice de la
Bioinformatique moderne.

Margaret Dayhoff (1925-1983)


(Maryland)
Historique de la Bioinformatique
Quelques dates historique de la Bioinformatique

1951; Apparition du premier programme informatique pour l’étude


de structure des protéines.

1962: Comparaison entre séquences protéiques.

1965; Atlas of protein sequence and structure.

1970: Alignement de séquences.

1971: Protein Data Bank (PDB)

1977: Séquençage de Sanger

Le terme Bioinformatique a été introduit pour la 1ere fois en 1978


Historique de la Bioinformatique
Quelques dates historique de la Bioinformatique

1981: Smith Waterman local alignment

1982: Genbank

1990: Blast

2000: Alignement de génome

2001: Séquençage du génome humain

2005: Next generation sequencing technologie (NGS)

2010: Analyseur de data NGS

….
Détermination de séquences des AN

Le séquençage: correspond au déchiffrage de la succession de


nucléotides constituant un brin d’ADN ou d’ARN.

Le résultat généré est un texte constitué de 4 caractères C G A T


(U).

La détection de la composition nucléotidiques d’une chaîne est


réalisée sur des appareils appelés «séquenceurs».

Les séquenceurs sont capables de déchiffrer la composition


nucléotidiques de fragments constitués de plusieurs bases,
appelé « reads ». La longueur des fragments varie en fonction
des appareils (~200-300 pb).
Human Genome project (HGP)

Projet International de séquençage et mapping du Génome


humain

Géré par le consortium international (académique)

Collaboration entre: US, UK, Germany, France, Japan and China

Lancé en 1990 Terminé en 2004

Financé par le gouvernement américain, le coût de réalisation


s’élève à plus de 3 milliard $.
Celera Genomics

Firme privée, crée en 1998

Séquençage du génome de la Drosophile en 1999

Compétition au projet HGP pour le séquençage du génome


humain

2004, fin du séquençage des 3.2 milliard pb du génome


humain (le consortium et Celera Genomics a peu près au
même temps)
Données générés:

– Publique: 13 ans, 3 milliard $


– Celera: 5 ans, 300 million$
Séquençage du génome humain

Publication des résultats du séquençage

Celera: Science, 16 February


HGP: Nature, 15 February 2001 2001
Vol 409 Number 6822 Vol 291, Issue 5507
Next generation sequencing (NGS)
Les plateformes de séquençage de nouvelle génération à haut
débit regroupe l’ensemble des plateformes de séquençage
développées depuis 2005 par un nombre de compagnies de
biotechnologies et permettant de séquencer des millions de
fragments en un seul run.

Apparition de séquençeur de nouvelle génération (exple:


Solexa, Solid…) next generation sequencing (NGS

Plus performant (rapide, clarté des données générées)


Coût réduit
Exemples de séquenceurs Next generation sequencing (NGS)

Genome analyzer (compagnie Illumina)

Principe de fonctionnement: séquençage par synthèse base à base


Génome complet du virus de l’Hépatite delta
La Génomique

En 2018 :

133148 procaryotes/ 13989 virus/ 5263 Eucaryotes

Génomes d’organismes séquencés


L’approche: Omique

échelle du singulier échelle globale


(Cas de la génétique mendelienne)

Gène Génome

Transcrit Transcriptome

Protéine Protéome

Faire appel à l’apport des outils de Bioinformatique


Types de données biologiques

 Génomique: plusieurs nouvelles séquences sont publiées régulièrement. (La quantité


de Data obtenue double chaque année dans la banque GenBank).

 Expression génique (Microarray): Les gènes s’expriment différemment (temps,


type de cellule, conditions), d’où l’importance de l’étude de l’expression globale des
ARNs dans un organisme donné par microarray.

 Protéomique: C’est l’étude de l’expression protéique , processus très complexe


comportant de nombreuses modifications, consiste en l’ analyse globale des protéines
par spectrométrie de masse (large mass spectra libraries).

 Metabolomiques, Glycomiques

La Biotechnologie représente un challenge scientifique


majeur du 21eme siècle

Vous aimerez peut-être aussi