Bioinformatique 3ème Licence Microbiologie 27 05 2018

Introduction à la Bioinformatique
NOTES DE COURS
Licence 3ème Année :

Microbiologie
Année Universitaire 2017/2018

Ver. 05/2018
Graphique page de garde issue du site web de la 6ème école de bioinformatique AVIESAN-
IFB. http://www.france-bioinformatique.fr/fr/evenements/EBA2017
Dr. AMARA KORBA R.

Université Mohamed El Bachir El Ibrahimi - Bordj Bou Arréridj -
Faculté SNV-STU
Ver. 05/2018
Table des matières
1. Qu`est-ce que la bioinformatique ........................................................................................................................4

2. Quels sont les besoins des biologistes ?.............................................................................................................4
3. Quelques domaines de la bioinformatique ..........................................................................................................4
4. Rappel .................................................................................................................................................................4
4.1. La cellule .......................................................................................................................................................4
4.2. La théorie cellulaire.......................................................................................................................................4
4.3. L’ADN ...........................................................................................................................................................5
4.4. Le gène .........................................................................................................................................................5
4.5. Le génome ....................................................................................................................................................5
4.6. La génomique ...............................................................................................................................................6
4.7. Le génome des procaryotes .........................................................................................................................6
4.8. Le génome des eucaryotes ..........................................................................................................................6
5. Le séquençage ....................................................................................................................................................7
5.1. Le séquençage de l'ADN ..............................................................................................................................7
5.2. Pourquoi séquencer l’ADN (ou bien les génomes) ? ...................................................................................7
5.3. Développement du séquençage de l’ADN ...................................................................................................7
5.4. Les techniques de séquençage ....................................................................................................................7
5.4.1. Première génération (à partir de 1977) .................................................................................................7
5.4.2. Deuxième génération (NGS : Next Generation Sequencing) (à partir de 2004) ...................................7
5.4.3. Troisième génération (SMRT® Single Molecule Real Time) (à partir de 2009) .....................................7
5.5. Comment séquencer un génome ? ..............................................................................................................9
5.6. Principe du séquençage d’un génome entier ...............................................................................................9
6. L’annotation des génomes ................................................................................................................................10
6.1. Annotation syntaxique : la recherche d'objets génétiques .........................................................................10
6.1.2. ORF et CDS chez les procaryotes ......................................................................................................10
6.1.3. Le site de liaison au ribosome (Ribosome Binding Site ou RBS en anglais) ......................................11
6.1.4. Le promoteur .......................................................................................................................................11
6.1.5. Le terminateur de transcription ............................................................................................................11
6.2. Annotation fonctionnelle : la recherche de fonctions potentielles ..............................................................12
6.2.1. Les outils bioinformatique de comparaison de séquences..................................................................12
6.2.2. Les outils bioinformatique de comparaison de plusieurs séquences ..................................................12
6.2.3. Objectifs de la comparaison des séquences .......................................................................................12
7. Les bases de données biologiques ...................................................................................................................13
7.1. Structuration des données : fichiers et formats ..........................................................................................14
8. Résumé de l’ensemble du travail réalisé en bioinformatique ............................................................................15
Introduction à la bioinformatique
1. Qu`est-ce que la bioinformatique
La bioinformatique est l'approche « in silico » de la biologie qui consiste en une analyse informatisée
des données biologiques en utilisant un ensemble de moyens :
• Acquisition et organisation des données biologiques ;
• Conception de logiciels pour l'analyse, la comparaison et la modélisation des données ;
• Analyse des résultats produits par les logiciels.
C’est une discipline complémentaire aux approches classiques de la biologie :

• In vivo (tests au sein des organismes vivants) ;
• In situ (tests dans les milieux naturels) ;
• In vitro (tests dans des tubes).
2. Quels sont les besoins des biologistes ?
- Représentation, stockage, distribution des données, format, schémas, interface, outils

d’interrogation. . .
- Gestion des nouvelles données (accessibilité).
- Interconnexion des données : (importance des réseaux).
- Analyse des données issues de l’information biologique.
- Développement de méthodes prédictives, modélisation.
3. Quelques domaines de la bioinformatique
- Stockage et Gestion des données : Banques de données généralistes et spécialisées.

- Structures moléculaires : Visualisation, analyse, classification, prédiction.
- Analyse de séquences : Alignements, recherches de similarités, détection de motifs.
- Génomique structurale : Annotation des génomes, génomique comparative.
- Génomique fonctionnelle : Transcriptome, protéome, interactome.
- Phylogénie : Relations évolutives entre gènes, entre génomes, entre organismes ; Inférence de
scénarios évolutifs.
4. Rappel
4.1. La cellule
C’est l'unité biologique structurelle et fonctionnelle fondamentale de tous les êtres vivants connus. C'est
la plus petite unité vivante capable de se reproduire de façon autonome. La science qui étudie les cellules
est appelée biologie cellulaire.
4.2. La théorie cellulaire
Tous les organismes vivants se composent de cellules
- Toute cellule provient d’une autre cellule

- Les cellules sont des unités fonctionnellement autonomes
4
- Les cellules sont séparées, mais pas isolées, de leur environnement par une membrane.
4.3. L’ADN
- L’ADN est le support de l’information génétique

- L’ADN est une longue molécule, faite de deux brins s’enroulant en une double hélice
- Les deux brins de la double hélice suggèrent un mécanisme de réplication de l’ADN
- L’ADN est une macromolécule
• Deux brins s’enroulant en une double hélice

• Chaque brin est le support d’une succession de nucléotides
• Quatre types de nucléotides : Adénine, Cytosine, Guanine, Thymine
• Le texte génomique est écrit dans un alphabet de 4 lettre : A, C, G, T
• La séquence des nucléotides est le support de l’information génétique
4.4. Le gène
Un gène, est une unité de base d'hérédité qui en principe prédétermine un trait précis de la forme d'un
organisme vivant (phénotype). Au point de vue physique, un gène est un fragment déterminé d'une
séquence d'ADN.
Un gène permet la synthèse d'un ARN donné, en prédéfinissant sa structure et, donc, celle de l'éventuelle
protéine ou de l'éventuel polypeptide synthétisés à partir de cet ARN : c'est ce qu'étudie la biologie
moléculaire.
Sur la molécule d'ADN, un gène est caractérisé à la fois par sa position et par l'ordre de ses bases azotées.
Il s'agit d'un langage codé en "séquence de bases". On dit ainsi que l'ADN est le support de l'information
génétique
4.5. Le génome
C’est l'ensemble du matériel génétique d'une espèce codé dans son (ADN) à l'exception de certains
virus dont le génome est constitué d'ARN. Il contient en particulier tous les gènes codant des protéines
ou correspondant à des ARN structurés. Il se décompose donc en séquences codantes (transcrites en
ARN messagers et traduites en protéines) et non codantes (non transcrites, ou transcrites en ARN, mais
non traduites).
Le génome est constitué d’un ou plusieurs chromosomes dont le nombre total dépend de l'espèce
considérée, chaque chromosome étant constitué d'une unique molécule d'ADN, linéaire chez les
eucaryotes et le plus souvent circulaire chez les procaryotes. Chaque chromosome peut être présent
en un ou plusieurs exemplaires, le plus souvent deux chez les espèces sexuées, l'un d'origine maternelle
et l'autre d'origine paternelle (organisme diploïde).
5
4.6. La génomique
C’est une discipline de la biologie moderne. Elle étudie le fonctionnement d'un organisme, d'un organe,
d'un cancer, etc. à l'échelle du génome, au lieu de se limiter à l'échelle d'un seul gène.
4.7. Le génome des procaryotes
Le matériel génétique des bactéries n'est pas organisé de la même façon que chez les eucaryotes.
Toutefois, les gènes bactériens sont disposés linéairement sur le chromosome. Les procaryotes possèdent
en général un seul chromosome circulaire, en exemplaire souvent unique. Néanmoins, il a été montré
que certaines bactéries ont un chromosome linéaire ou plusieurs chromosomes circulaires et linéaires.
En plus les procaryotes possèdent de l'ADN sous forme extra-génomique. Il s'agit d'une petite molécule
circulaire d'ADN, appelée plasmide, capable de se répliquer indépendamment du chromosome.
4.8. Le génome des eucaryotes
Chez les eucaryotes, les génomes sont en fait visualisés comme des structures filamenteuses, non
circulaires, situées majoritairement dans le noyau, et qui peuvent présenter des configurations variables
suivant le cycle cellulaire (cf. mitose). Il existe également des chromosomes mitochondriaux et
chloroplastiques qui sont pour la plupart circulaires. Ceux-ci sont plus petits que les chromosomes
nucléaires et ne présentent pas d'aspect filamenteux. Les gènes présents sur ces chromosomes extra-
nucléaires ne suivent pas les lois de la transmission mendélienne.
4.9. Taille des génomes d'espèces modèles

1Mpb = 106 pb (1 Méga_paires_de bases = 106 paires_de_bases)
Organisme Taille du génome (Mpb) Nombre de gènes protéiques estimés
Virus de la grippe 0,013
Bactériophage λ 0,05
Virus
Bactériophage T4 0,165
Mimivirus 1,2 1 260
Mycoplasma pneumoniae 0,816 689
Pelagibacter ubique 1,3 1 354
Haemophilus 1,8 1 657
Bactéries
Staphylococcus aureus 2,8 2 619
Bacillus subtilis 4,2 4 106
Escherichia coli 4,64 4 243
Nanoarchaeum equitans 0,49 536
Archaea Pyrococcus abyssi 1,77 1 898
Sulfolobus solfataricus 3 2 977
Encephalitozoon cuniculi 2,9 1 996
Saccharomyces cerevisiae (levure) 12 5 863
Plasmodium falciparum 21,8 5 314
Caenorhabditis elegans (nématode) 100 22 628
Eucaryotes Drosophila melanogaster (mouche) 118 16 548
Zea mais (maïs) 5 000 54 60618
Mus musculus (souris) 3 400 30 000
Homo sapiens (homme) 3 400 26 517
Polychaos dubium (amibe) 675 000
6
5. Le séquençage
5.1. Le séquençage de l'ADN
Consiste à déterminer l'ordre d'enchaînement des nucléotides pour un fragment d’ADN donné.
5.2. Pourquoi séquencer l’ADN (ou bien les génomes) ?
- Etudier des gènes (et leurs fonctions) connaitre leur séquence, c’est-à-dire, « le texte » (la chaîne
de nucléotides) qui la compose.
- Intérêt scientifique (étudier l’évolution des espèces, le fonctionnement des cellules, la biodiversité)
- Intérêt économique (Médecine, Biotechnologies, Ecologie)
- Utilité publique (Nutrition, Nouveaux traitement pour les maladies)
5.3. Développement du séquençage de l’ADN
- 1977 : F. Sanger met au point la méthode de Sanger pour établir le séquençage de l’ADN.
- 1980 : Création de la banque EMBL
- 1984 : Développement de la réaction de polymérisation en chaîne (PCR) par Mullis.
- 1987 : Réalisation et commercialisation du 1er séquenceur automatisé par la société Applied
Biosystems (Californie, USA).
5.4. Les techniques de séquençage
5.4.1. Première génération (à partir de 1977)
- Technique de sanger (synthèse enzymatique par di-désoxynucléotides)

- Technique de Maxam et Gilbert (dégradation chimique sélective)
- Automatisation de la technique de Sanger
5.4.2. Deuxième génération (NGS : Next Generation Sequencing) (à partir de 2004)
- Les techniques basées sur la synthèse d’ADN :

- Pyroséquençage.
- Solexa/Illumina.
- Ion Torrent.
- L'hybridation sur des puces à ADN (SOLiD : Sequencing by Oligo Ligation and Detection
développé par Applied Biosystems®) ;
5.4.3. Troisième génération (SMRT® Single Molecule Real Time) (à partir de 2009)
La détection en temps réel de molécules SMRT® permet d'obtenir plusieurs milliers de bases de
séquence par molécule, et ainsi d'étudier ou de résoudre la structure de gènes complexes ou de génomes
entiers.
7
Tableau. Comparaison des 4 principales techniques de séquençage
Nombre de
Techniques Longueur de la nucléotides lus Prix approximatif
Principe de
Technique Banque d’amplification lecture par par Mpb (en
séquençage
de la banque (Nucléotides) expérimentation euros)
(en Mpb)
Synthèse
Fragments
Technique de enzymatique en
d'ADN
Sanger sur un Multiplication présence
double brin
séquenceur bactérienne ou d'inhibiteurs Jusqu'à 800 0,096 5000
dans un
automatisé (96 PCR standard d'élongation, les
vecteur
réactions) ddNTP et
réplicatif
électrophorèse
Synthèse
Fragments
enzymatique et
d'ADN
Pyroséquençage suivi du relargage
simple brin PCR en
sur une du pyrophosphate 200-300 80-120 75
ligaturés émulsion
plateforme FLX généré lors de
avec des
l'incorporation
adaptateurs
d'un nucléotide
Synthèse
enzymatique,
Fragments
inhibition
d'ADN
réversible de
Technique simple brin PCR par
l'élongation et 30-40 1000 5
Solexa/Illumina ligaturés pontage
suivi de la
avec des
fluorescence du
adaptateurs
nucléotide
incorporé
Fragments Hybridation /
d'ADN ligature d'amorces
Technique simple brin PCR en et suivi de la
35 1000-3000 5
SOLiD ligaturés émulsion fluorescence des
avec des oligonucléotides
adaptateurs hybridés
8
5.5. Comment séquencer un génome ?
L’acquisition des données se fait grâce aux techniques du séquençage. Mais ces dernières n’autorisent
la lecture que de séquences relativement courtes (jusqu’à 800 paires de bases avec la technique de
Sanger). Donc l’obtention du génome se fait par séquençage de fragments du génome qui se chevauchent
(extrémité ayant la même séquence) et réassemblage des fragments grâce à un programme informatique.
5.6. Principe du séquençage d’un génome entier
- Amplification du génome (Besoin de séquencer 8 à 10 fois le génome)

- Les copies du génome sont cassées aléatoirement en fragments de quelques milliers de nucléotides
- Séquençage des extrémités de certains des fragments obtenus (Certaines séquences se chevauchent
en partie)
- Comparaison des séquences obtenues pour aligner les parties séquencées plusieurs fois
- Reconstitution d’enchainements plus grands, appelés contigs en utilisant des logiciels
bioinformatique (indispensable).
Figure. Les différentes étapes du séquençage d’un génome entier
- Assemblage final : Il reste à ordonner et orienter les contigs

- Difficulté : présence de répétitions dans le génome qui peuvent conduire à assembler des contigs
provenant de régions distantes du génome.
- Présence de « trous » qui sont comblées par un séquençage cible pour corriger les erreurs
- Renouvellement du séquençage pour améliorer la qualité de la séquence.
9
6. L’annotation des génomes
Une succession brute de nucléotides n'a aucun sens. L'annotation est le travail d'analyse qui permet
d'expliquer ou de proposer des hypothèses pour les propriétés biologiques d'un génome.
Pour cela, il faut rechercher les objets génétiques présents dans le génome puis essayer de leur attribuer
des fonctions. Ainsi, l'annotation est l'antichambre de l'expérimentation ; elle conduit à élaborer des
protocoles expérimentaux qui valident ou invalident la fonction supposée de l'objet biologique.
Classiquement, on distingue trois étapes principales dans le processus d'annotation d'un génome :
- L’annotation syntaxique : c'est l'étape qui permet d'identifier les objets génétiques présentant une
pertinence biologique (séquences codantes, ARN, séquences répétées, etc.).
- L’annotation fonctionnelle : c'est l'étape qui permet de prédire les fonctions potentielles des objets
génétiques préalablement identifiés (similitudes de séquences, motifs, structures, etc.) et de collecter
d'éventuelles informations expérimentales (littérature, jeux de données à grande échelle) ;
- L’annotation relationnelle : c'est l'étape qui permet de déterminer les interactions que les objets
biologiques préalablement identifiés sont susceptibles d'entretenir (familles de gènes, réseaux de
régulation, réseaux métaboliques, etc.).
6.1. Annotation syntaxique : la recherche d'objets génétiques
La recherche d'objets génétiques passe principalement par la recherche de gènes au sens large, c'est-à-
dire, toute séquence qui, transcrite et/ou traduite, peut avoir un rôle dans le fonctionnement biologique
de la cellule. Cela recouvre donc les séquences codantes (Coding Sequence) ou CDS en anglais, c'est-
à-dire séquences traduites en protéines), les ARN non traduits (ARN de transfert ou ARNt, ARN
ribosomaux ou ARNr, petits ARN, ARN interférents, etc.).
La recherche de séquences codantes, bien qu'insuffisante pour la bonne compréhension du

fonctionnement d'un génome, est néanmoins celle qui est la plus développée et pour laquelle un grand
nombre d'outils informatiques existe tel que : GeneMark-E, Glimmer, Grail, Genescan etc ...
Différences entre l’annotation syntaxique des génomes (procaryotes et eucaryotes) :
- Les génomes procaryotes sont plus petits que les génomes eucaryotes et ont surtout une densité de
codage bien plus importante, de l'ordre de 80-90 %, tandis qu'elle peut aller de 70% chez la levure à
quelques pourcentages chez l'humain ;
- Les gènes procaryotes sont fréquemment organisés en opéron, c'est-à-dire qu'une seule unité de
transcription peut contenir plusieurs séquences codantes ;
- Les gènes procaryotes ne sont pas morcelés1 contrairement à ceux des eucaryotes.
6.1.2. ORF et CDS chez les procaryotes
La phase ouverte de lecture (ORF, Open Reading Frame en anglais) est la région de l'ADN qui sépare
deux codons de terminaison de la traduction (donc potentiellement codante). Dans celle-ci, une séquence
codante (CDS) débute toujours par un codon d'initiation de la traduction et se termine toujours par un
1
Qualifie un gène constitué d'une alternance de séquences codantes (les exons) et non codantes (les introns).
10
codon de terminaison de la traduction. Par abus de langage, la séquence codante est parfois appelée
ORF.
- Le codon universel d'initiation de la traduction ou codon « Start » est le codon ATG. Néanmoins,
chez les procaryotes il existe des codons « Start » plus rares tels les codons GTG et TTG. Les
codons de terminaison de la traduction ou codon « Stop » sont les codons TAA, TAG et TGA. Chez
les procaryotes, chaque séquence codante s'appelle un cistron. Beaucoup d'ARN messagers
procaryotes sont polycistroniques : ils contiennent plusieurs cistrons ou CDS et codent donc pour
plusieurs protéines
6.1.3. Le site de liaison au ribosome (Ribosome Binding Site ou RBS en anglais)
Le site de liaison au ribosome, est une séquence qui se situe entre 3 à 10 nucléotides en amont du codon
« Start ». C'est une région riche en purine de 5-6 nucléotides qui permet au ribosome de se fixer
spécifiquement sur les AUG correspondant à un véritable codon « Start ».
6.1.4. Le promoteur
La région promotrice est la séquence reconnue spécifiquement par le complexe entre l'ARN polymérase
(enzyme qui assure la transcription de l'ADN) et le facteur sigma (facteur protéique qui assure la
spécificité de l'initiation de la transcription).
6.1.5. Le terminateur de transcription
C’est une séquence grâce à laquelle le complexe de transcription va se désassembler et ainsi terminer la
transcription. Les terminateurs sont des séquences palindromiques2 riches en GC suivies de séquences
riches en A ou non.
Figure. La notion de séquence codante chez les procaryotes
La détection d'un RBS, d'un promoteur ou d'un terminateur de transcription peut valider l'existence
d'une séquence codante (CDS) a posteriori. Néanmoins, leurs consensus sont trop faiblement conservés
pour qu'ils constituent des signaux fiables a priori. Donc il faut complété par l’annotation fonctionnelle.
2
Une séquence palindromique est une séquence d'acide nucléique — ADN ou ARN — identique lorsqu'elle est lue dans le
sens 5' → 3' sur un brin ou dans le sens 5' → 3' sur le brin complémentaire. Exemple :
5’-GAATTC-3’
3’-CTTAAG-5’
11
6.2. Annotation fonctionnelle : la recherche de fonctions potentielles
L'annotation fonctionnelle permet d'attribuer à des objets génomiques prédits par l'annotation
syntaxique des fonctions potentielles. L'annotation fonctionnelle est fondée sur la recherche de
similarité avec des séquences nucléotidiques, des séquences d'acides aminés ou éventuellement des
structures déjà décrites dans les bases de données.
En général, l'étape d'annotation s'effectue en deux étapes : une phase automatique qui s'effectue grâce à
des programmes informatiques de comparaison et une phase manuelle au cours de laquelle
l'annotateur peut corriger le cas échéant la première phase.
6.2.1. Les outils bioinformatique de comparaison de séquences
Les séquences peuvent être comparées avec des programmes comme FASTA (FAST-ALL) ou BLAST
(Basic Local Alignment Search Tool). Ces instruments de recherche de similarité reposent sur la notion
d'alignement local. Les algorithmes d'alignement local recherchent dans des paires de séquences des
régions isolées qui ont un haut degré de similitude. Nous décrirons ici l'usage du programme le plus
couramment utilisé (cité dans google scholar 68461 fois), BLAST (Altschul et al. 1990). L'utilisateur
fournit une séquence-requête qui est alors comparée à toutes les séquences d'une base de données
choisie. Différents sous-programmes existent selon la nature de la séquence-requête et des séquences de
la base de données
Tableau. Les différents programmes BLAST
Nom du
Nature de la séquence-requête Nature des séquences des bases de données
programme
Blast ou Blastn Nucléotides Nucléotides
Blastp Acides aminés Acides aminés
Blastx Nucléotides traduits dans les 6 phases de lectures Acides aminés
Blastn Acides aminés Nucléotides traduits dans les 6 phases de lectures
Blastx Nucléotides traduits dans les 6 phases de lectures Nucléotides traduits dans les 6 phases de lectures
6.2.2. Les outils bioinformatique de comparaison de plusieurs séquences
- Alignement multiple : Clustal, Muscle, Dialign, Multalign : alignement de plus de deux séquences
6.2.3. Objectifs de la comparaison des séquences
- Détermination la fonction et la structure d’une séquence

- Detection de régions fonctionnelles au sein des séquences
- Etude des processus de l’évolution à l’échelle moléculaire
- Construire la phylogénie des espèces.
12
7. Les bases de données biologiques
Les bases de données biologiques sont des bibliothèques répertoriant des informations sur les sciences
de la vie collectées grâce à des expériences scientifiques, à la littérature publiée, aux technologies
expérimentales à haut débit, et aux analyses informatiques.
Pourquoi les banques et bases de données biologiques ? Archivage, stockage, diffusion et

exploitation des données biologiques
On peut chercher des similitudes entre l'objet génomique étudié et différentes bases de données.
Tableau. Quelques banques de données généralistes
→ Banques de séquences nucléiques généralistes
Date de
Nom Lien Description
création
Banque européenne (European Moleculary Biology Laboratory)

EMBL http://www.ebi.ac.uk/embl/ 1980
diffusée par l'EBI (European Bioinformatics Institute, Cambridge)
Banque américaine diffusée par NCBI (National Center for
GenBank http://www.ncbi.nlm.nih.gov/ 1982
Biotechnology Information, Los Alamos)
DNA Data Bank of Japan diffusée par le NIG (National Institute of
DDBJ http://www.ddbj.nig.ac.jp/ 1986
Genetics)
→ Banques de séquences protéiques généralistes
Swiss Prot https://expasy.org/ 1986 Séquences annotées & séquences codantes traduite de l'EMBL
Tableau. Quelques banques de données spécialisées
→ Banques de donnés spécialisées
Ensembl http://www.ensembl.org/index.html7 Banque intégrative génomique

Prosite http://prosite.expasy.org/ Recense les motifs protéiques ayant une signification biologique
Reactome https://reactome.org/PathwayBrowser/ Banque intégrative métabolique
Kegg Pathway http://www.genome.jp/kegg/pathway.html Interactions moléculaires et réactions
PFAM http://xfam.org/ Domaines protéiques
Interpro http://www.ebi.ac.uk/interpro/ Regroupe plusieurs banques existantes
Structure 3D de protéines, acides aminés et molécules
PDB http://www.rcsb.org/pdb/home/home.do
biologiques
PubMed https://www.ncbi.nlm.nih.gov/pubmed Citations, résumés et articles (recherche bibliographique)
13
7.1. Structuration des données : fichiers et formats
Les séquences sont stockées en général sous forme de fichiers texte qui peuvent être soit des fichiers
personnels (présents dans un espace personnel), soit des fichiers publics (séquences des banques)
accessibles par des programmes interfaces (tels que SRS, GCG, Entrez).
Le format correspond à l'ensemble des règles (contraintes) de présentation auxquelles sont soumises la
ou les séquences dans un fichier donné.
Le format permet :
- Une mise en forme automatisée

- Le stockage homogène de l'information
- Le traitement informatique ultérieur de l'information.
Il existe plusieurs formats dont le plus courant est le format FASTA : La séquence, sous forme de
lignes de 80 caractères maximum, est précédée d'une ligne de titre (nom, définition ...) qui doit
commencer par le caractère ">". Plusieurs séquences peuvent être ainsi mises dans un même fichier.
Figure. Format FASTA
14
8. Résumé de l’ensemble du travail réalisé en bioinformatique
Figure. Représentation schématique des procédés utilisées par la bioinformatique
Figure. Représentation schématique de l’importance des réseaux en bioinformatique
15

Bioinformatique 3ème Licence Microbiologie 27 05 2018

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Bioinformatique 3ème Licence Microbiologie 27 05 2018

Transféré par

Droits d'auteur :

Formats disponibles

Introduction à la Bioinformatique

Licence 3ème Année :

Année Universitaire 2017/2018

Dr. AMARA KORBA R.

1. Qu`est-ce que la bioinformatique ........................................................................................................................4

1. Qu`est-ce que la bioinformatique

C’est une discipline complémentaire aux approches classiques de la biologie :

2. Quels sont les besoins des biologistes ?

- Représentation, stockage, distribution des données, format, schémas, interface, outils

3. Quelques domaines de la bioinformatique

- Stockage et Gestion des données : Banques de données généralistes et spécialisées.

4.2. La théorie cellulaire

Tous les organismes vivants se composent de cellules

- Toute cellule provient d’une autre cellule

- L’ADN est le support de l’information génétique

• Deux brins s’enroulant en une double hélice

4.9. Taille des génomes d'espèces modèles

5.1. Le séquençage de l'ADN

5.4.1. Première génération (à partir de 1977)

- Technique de sanger (synthèse enzymatique par di-désoxynucléotides)

- Les techniques basées sur la synthèse d’ADN :

- Amplification du génome (Besoin de séquencer 8 à 10 fois le génome)

Figure. Les différentes étapes du séquençage d’un génome entier

- Assemblage final : Il reste à ordonner et orienter les contigs

La recherche de séquences codantes, bien qu'insuffisante pour la bonne compréhension du

Différences entre l’annotation syntaxique des génomes (procaryotes et eucaryotes) :

Figure. La notion de séquence codante chez les procaryotes

Tableau. Les différents programmes BLAST

6.2.2. Les outils bioinformatique de comparaison de plusieurs séquences

6.2.3. Objectifs de la comparaison des séquences

- Détermination la fonction et la structure d’une séquence

Pourquoi les banques et bases de données biologiques ? Archivage, stockage, diffusion et

Tableau. Quelques banques de données généralistes

→ Banques de séquences nucléiques généralistes

Banque européenne (European Moleculary Biology Laboratory)

Tableau. Quelques banques de données spécialisées

→ Banques de donnés spécialisées

Ensembl http://www.ensembl.org/index.html7 Banque intégrative génomique

- Une mise en forme automatisée

Figure. Format FASTA

Figure. Représentation schématique des procédés utilisées par la bioinformatique

Figure. Représentation schématique de l’importance des réseaux en bioinformatique

Vous aimerez peut-être aussi