TD - S6 - Intro Bioinfo

Laboratoire de Microbiologie et Biologie Moléculaire
Faculté des Sciences - Rabat

--------------------------------------
Université Mohamed V - Agdal•
Agdal• Faculté des Sciences B.P. 1014 -
Rabat - MAROC
TD Biologie Moléculaire
SVI – S6
Introduction à la bioinformatique
Dr. Laila Sbabou
Mai 2010
Introduction
Quèst ce que la bioinformatique?
Historique de la Bioinformatique
Acquisition, organisation et stockage des données
Banques de séquences nucléiques
Banques de séquences protéiques
Autres types de banques de données
Analyse de données:
Recherche de similarités dans les bases de données
Recherche des phases de lectures ouvertes (ORF)
2
Introduction
Quèst ce que la bioinformatique?
Une approche in silico de la biologie qui consiste en une

analyse informatisée des données biologiques en utilisant un
ensemble de moyens (concepts, méthodes, implémentations,
logiciels, etc
etc...
...)).
Discipline complémentaire aux approches classiques de la

biologie::
biologie
In vivo (tests au seins des des organismes vivants)

vivants)
In situ (tests dans les milieux naturels)
naturels)
In vitro (tests dans des tubes)
3
Introduction
Historique de la Bioinformatique
(M. Dayhoff et al.) : 50 entrées
1965:: Première compilation de protéines (M.
1965
1967: Article : "Construction of Phylogenetic Trees" (Fitch & Margoliash
1967:
1970:
1970: Programme d’alignement global de séquences (algorithme de Needleman
& Wunsch
Wunsch)).
1972:
1972: Premier microprocesseur Intel 8008
1973: Génie Génétique (Cohen et al.)
1973:
1977:
1977: Micro
Micro--ordinateurs
Séquençage d'ADN : F. Sanger / Maxam & Gilbert
Première suite logicielle bioinformatique (Staden )
1980:
1980: Premières méthodes de prédiction et d’alignement.
d’alignement.
Première bases de données EMBL, GenBank et PIR
1981:: GenBank : 270 séquences
1981
Programme d'alignement local de séquences (Smith & Waterman)
1985:
1985: Programme d'alignement local de séquences "FASTA" (Pearson & Lipman )
1990: Programme d'alignement local de séquences "BLAST" (Altschul et al.)
1990: 4
Acquisition
Organisation
Stockage
des données
Analyse
Analyse des
Comparaison
Résultats
Modélisation
5
Acquisition, organisation et stockage des données:
données:
Types de données
données:
ées:
Séquences nucléotidiques et proteiques
Données proteomique (spectrométrie de masse….)
Données d’expression (puces à ADN…)
Littérature
Stocker Trier Corriger Annoter

6
données:
Banques de séquences
séquences nucléiques:
Divers Banques de Données:

Données:
GenBank::
GenBank
La banque américaine maintenue au NCBI (National Center for
Biotechnology Information) à Bethesda (USA)
EMBL :
La banque européenne maintenue à l’EBI (European
Bioinformatics Institut) à Cambridge (UK)
DDBJ :
La banque japonaise (DNA Data Bank of Japan)
7
données:
Banques de séquences
séquences proteiques:
proteiques:
Swiss Prot:
Prot:
- Niveau élevé d’Annotation (manuelle):
-Description de la fonction des proteines, structure des domaines et modification
post-traductionnelle…. etc
TrEMBL :
Données générées par traduction automatique des informations génétiques de la
banque de données EMBL (d’où TrEMBL =Traduction EMBL)
Annotation automatique
Prosite:
Prosite:
Base de données de familles et domaines de protéines
GenePept:
GenePept:
Traduction automatique des CDS de GenBank
PIR (Protein
(Protein Information Ressource):
Ressource):
Groupe établit par le National Biomedical Research Foundation (NBRF)
Identification et interpretation de l’information des séquences proteiques
Expazy:
Expazy:
Base de données protéomique
En 2002:
2002: consortium UniProt (Universal Protein Resource) formé par le groupe
8
SwissProt-TrEMBL et le groupe PIR
données:
Autres types de banques de données:
données:
Banques de Structure:
Structure:
Ex: la Protein Database PDB dédiée au structures proteiques détérminées
experimentalement
Banques dédiées à un organisme particulier:

Ex: Arabidopsis thaliana (TAIR, ABRC….)
Colibri (E. coli)
Subtilis (Bacillus subtilis)
Flybase (Drosophile)
Banques dédiées à un type de séquences particulier:

- Analyse des promoteurs (PromScan, Virtual Footprint, Prokaryotic
Promoter Prediction ‘PPP’, Scope…)
- Analyse des terminateurs de la transcriptio (FindTerm, RibEx….)
9
Analyse des données:
données:
Par comparaison de séquences afin de trouver des similarités (Voir si ma

séquence ressemble à d’autres déjà connues), définir la structure et Identifier
les domaines et motifs connus.
Acides nucléiques:
- Recherche de phase de lecture ouverte (ORF) d’un gène
- Déduire la structure Intron/Exon d’un gène
-Etablir l’arbre phylogènique
- Recherche d’Etiquettes EST et du profil d’expression des gènes (profiling)
- Analyse de génomes entiers
Protéines:
-Déduire la séquence de la protéine à partir d’une séquence d’ADN
(traduction in silico)
- Identifier la famille, sites actifs et domaines fonctionnelles
- prédiction des modifications post-traductionnelles et structures secondaires
- Etablir un arbre Phylogénique 10
données:
Analyser ma séquence pour ?
Similarité dans la séquence
Similarité dans la structure
Similarité dans la fonction
11
données:
Recherche de similarités dans les banques de données:
données:
Le Blast: Basic Local Alignement Search Tool (Ex: Blast sur NCBI)
12
données:
Programme Séquence Base de données

requête
BlastN
N Nucléique Nucléique
BlastPP Protéique Protéique
BlastX
X Nucléique Protéique
tblastNN Protéique Nucléique
tblastXX Nucléique Nucléique
13
Résultat du Blast
14
données:
Recherche des phases de lectures ouvertes (ORF)

ncbi))
(Utiliser l’ORF finder de ncbi
NCBI / Resources/ Sequence analysis / Tools/ ORF finder
15
données:
A utiliser la séquence de cette protéine dans

une nouvelle recherche
BlastP et tBlastN 16
données:
Comparaison des séquences
séquences par alignement
Utiliser ClustalW (http://www.ebi.ac.uk/Tools/clustalw2
(http://www.ebi.ac.uk/Tools/clustalw2/index.html)
17
Exemple dùn Multi-
Multi-alignement
Séquence 1
Séquence 2
Séquence 3
* = Identité
- = Gap (introduits pour optimiser làlignement entre les deux séquences) 18
19

TD - S6 - Intro Bioinfo

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

TD - S6 - Intro Bioinfo

Transféré par

Droits d'auteur :

Formats disponibles

Laboratoire de Microbiologie et Biologie Moléculaire

Faculté des Sciences - Rabat

Qu`est ce que la bioinformatique?

Une approche in silico de la biologie qui consiste en une

Discipline complémentaire aux approches classiques de la

In vivo (tests au seins des des organismes vivants)

Séquences nucléotidiques et proteiques

Données proteomique (spectrométrie de masse….)

Données d’expression (puces à ADN…)

Stocker Trier Corriger Annoter

Divers Banques de Données:

Banques dédiées à un organisme particulier:

Banques dédiées à un type de séquences particulier:

Par comparaison de séquences afin de trouver des similarités (Voir si ma

Similarité dans la séquence

Similarité dans la structure

Similarité dans la fonction

Programme Séquence Base de données

Recherche des phases de lectures ouvertes (ORF)

A utiliser la séquence de cette protéine dans

Vous aimerez peut-être aussi