Vous êtes sur la page 1sur 23

Master Agroalimentaire S2

Techniques d’analyses des biomolecules :


Bioinformatique
Cours 1
P RO F MAU R ADY AM AL
D É PARTE ME N T D E S SC I E N CE S D E L A V I E
FST T - UAE : 2020-2021
Historique
Les apports de la Bioinformatique sont multiples et permettent de :
• Compiler et organiser les données (bases de données).
• Réaliser un traitement systématique des séquences permettant la
caractérisation des fonction biologiques.
• Elaborer des stratégies pour apporter des connaissances (ex : matrices
de substitution pour les acides aminés).

2
Introduction
 La bioinformatique : L’organisation de séquences et information biologiques
dans des bases de données facilement accessibles.
 Le développement de la bioinformatique s’est fait en parallèle avec les
sciences « omics » qui requières des technologies à haut-débit ne recherchant
pas la précision/qualité, mais plutôt le nombre de résultats
 L’information stocké et analysé dans des bases de données est sous forme de :
 Acide DéxoxyriboNucléique
 Acide RiboNucléique
 messagerADN
 ARNm
 Protéine (structure ou enzyme)

3
Bioinformatique
La Bio-Informatique s’applique à tout type de données biologiques, en particulier moléculaires :
 Les séquences d’ADN et de protéines
 Les structures d’ARN et de protéines
 Les contenus en gènes des génomes
 Les puces à ADN (microarrays)
 Les réseaux d’interactions entre protéines
 Les réseaux métaboliques
 Les arbres de phylogénie

4
Objectifs de la Bioinformatique
 Faire avancer les connaissances dans le domaine de :
 Biologie,
 Génétique humaine,
 Théorie de l’évolution…
 « Drug design »la conception de médicaments
 Etudier les maladies complexes..

5
Objectifs de la Bioinformatique
 Décoder l’information contenue dans les séquences d’ADN et de protéines
 Trouver des gènes
 Différencier entre introns et exons
 Analyser les répétitions dans l’ADN
 Identifier les sites des facteurs de transcription
 Étudier l’évolution des génomes
 Génomique structurale:
 Modéliser les structures 3D des protéines et des ARN structurels
 Déterminer la relation entre structure et fonction

 Génomique fonctionnelle
 Étudier la régulation des gènes
 Déterminer les réseaux d’interaction entre les protéines

6
Séquence sont de différentes natures :
 Nucléotides (ADN/ARN)
 Acide aminées (Protéines)
 Elles peuvent être complète ou non Génomique
 Les études à réaliser sont les suivantes :
 Étude des génomes, donc de l’ADN structurale et fonctionnelle
 Transcriptomique:
 Étude des ARNm d’un tissu
 Protéomique: Étude des protéines d’un tissu
 Génomique : Étude de l’ensemble des génomes ou des séquences dans un
échantillon biologique (eau, sol, tissu)

7
Informations recherchés
 Questions pour un biologiste?

 Rechercher l’Unité fonctionnelle ARNm

 Préservation de l’information ADN

 Compare un tissu malade

 Chercher une séquence d’une Protéine et la comparer à une autre

 Chercher un gène

 Chercher des mutations

 Etc ….

8
Objectifs :
 Identifier une séquence par rapport à une base de données
 Déterminer le degré de similitudes entre deux séquences (intérêt en
taxonomie)
 Repérer des motifs structuraux pour les protéines
 Repérer pour un nucléotide
◦ Gènes,
◦ Promoteurs,
◦ etc.
 Repérer des zone de repliement pour un polypeptide
 site actif, etc.

9
Origine des données Bioinformatiques
 A partir des données de séquençage classique : depuis 1975

Amplification de fragment d’ADN prédéfinis.On séquence un fragment à la fois.

 A partir des données de séquençage de nouvelle génération : depuis 2005


Les taux d’erreurs sont en moyenne 10 fois plus élevés que les méthodes de séquençage en
capillaires le type d’erreur varie selon la plate-forme

 la grande quantité de séquences offre la possibilité de générer de l’information de séquence à


très grande échelle de réduire énormément le les taux d’erreur

10
Historique de la Bioinformatique
La bioinformatique a différents objectifs et différentes applications :
1-Collecter et stocker des informations dans des bases de données, accessibles
en ligne.
Explosion de la quantité de données biologiques nécessitant des outils de
stockage adaptés
2-Fournir des outils de comparaison de séquences (protéiques ou
nucléotidiques).
 Séquence de référence
 Analyse des Séquences :
 Identification des séquences ?
 Points communs entre les séquences ?
. 11
Ressources bioinformatique
Bases de données bio-informatique contiennent :

 Ensemble de données relatives à un domaine, organisées par traitement


informatique, accessibles en ligne et à distance

 Souvent, les données sont stockées sous la forme d’un fichier texte formaté
(respectant une disposition particulière)

Nous avons besoin de trouver sinon de développer des logiciels spécifiques pour
interroger les données contenues dans ces banques

12
Historique des banques de données de séquences

Fin 1960 : Margaret Dayhoff : «Atlas of protein sequences »


1984 : création de PIR (Protein Identification Ressource)
1979 : création de GenBank au NCBI (National Center for Biotechnology
Information)
1980 : création de EMBL (European Molecular Biology Laboratory) EBI
1984 : création de DDBJ (DNA Databank of Japan)
1986 : création de SwissProt

13
Les Banques Généralistes
 Caractéristiques des banques de données généralistes :

 Ces banques contiennent des données hétérogènes

 Collecte la plus exhaustive possible

 Banques de séquences nucléiques

 Banques de séquences protéiques

 Banques de structure 3D de macromolécules

 Banques d’articles scientifiques

 Avantage : on peu consulter plusieurs volets de l’information recherché en


une fois

 Inconvénients : difficiles à maintenir, difficiles à interroger 14


Les Banques Généralistes
Ces banques contiennent l’ensemble des séquences publiées car les
numéros d’enregistrement (accession number) des séquences sont
exigés par les éditeurs lors de la publication. Problèmes :

• Redondance

• Erreurs de séquencage

• Fautes de frappe

• Présence de fragments de vecteurs dans les séquences

15
Les banques de données spécialisées
 Ces banques contiennent des données homogènes
 les données Collecté sont autour d’une thématique particulière
 Avantages : facilité pour mettre à jour les données, vérifier leur intégrité,
offrir une interface adaptée, …
 Inconvénients : ne cible pas toujours ce que l’on veut et on a encore besoin de
crée plusieurs banques spécialisées
 Exemples :
 banques spécialisées pour un génome,
 banques de séquences d'immunologies,
 banques sur des séquences validées, …

16
Les banques de séquences nucléiques
 Origine des données : des données de Séquençage d’ADN et d’ARN

 Les données stockées sont : séquences + annotations et peuvent être des :

 Des Fragments de génomes : un ou plusieurs gènes, un bout de gène, séquence


inter génique, …

 Des Génomes complets

 Des sequences ARNm, ARNt, ARNr, … (fragments ou entiers)

17
Les banques de séquences protéiques
Origine des données de séquençage proteiques :
 Traduction de séquences d’ADN
 Séquençage de protéines
 Protéine dont le géne est séquencé
Protéines dont la structure 3D est connue
 Les données stockées sont des séquences + annotations
 Protéines entières
 Fragments de protéines

18
Une Banque bibliographique, PubMed
Cette banque de données Contient :
 Journaux concernant la biologie et la médecine
 Articles indexés par des experts à l’aide des termes MeSH
 Termes MeSH : vocabulaire contrôlé de termes biomédicaux et de molécules chimiques
Hiérarchisé
 Dictionnaire de synonymes
 termes médicaux, termes chimiques
Subheadings : sous-titres qui décrivent un aspect particulier des termes MeSH
 Elle est Mise à jour régulièrement

19
Les bases de données bioinformatiques :
 Base de données NCBI ( National Center for Biotechnology Information)
Site web : https://www.ncbi.nlm.nih.gov/
 GenBank: Séquences d’ADN (3 billion de paires de bases)
 Site alignement de séquence avec le logiciel de BLAST
 PubMed: Permet la recherche bibliographique
 COGs: pour chercher des Familles de gènes orthologues …

Base de données EMBL (The European Molecular Biology Laboratory)


Site web : https://www.embl.de/index.php
EMBL-EBI : L’institut européen de bio-informatique EBI
https://www.ebi.ac.uk/

20
Les bases de données bioinformatiques :
 DDBJ : ce centre fournit des services de partage et d'analyse pour les données
issues des recherches en sciences de la vie et des avancées scientifiques
Site web : https://www.ddbj.nig.ac.jp/index-e.html
 Est une base de donnée créée en 1984 au Japon.

21
Les bases de données bioinformatiques :
 L’ensemble de ces 3 banques ont un format unique : « DDBJ/EMBL/GenBank Feature
Table » et un contenu quasi identiquede données de séquensage.

 Elles fait partie du consortium international : International Nucleotide Sequence


Database.

22
23

Vous aimerez peut-être aussi