Académique Documents
Professionnel Documents
Culture Documents
BIOINFORMATIQUE
Silvina GONZALEZ-RIZZO
silvina.gonzalez-rizzo@univ-anClles.fr
BioinformaCque pour des biologistes
• Objec&f du cours:
– Vous montrer les taches courantes de la bioinforma&que
qu'un biologiste/biochimiste doit savoir traiter par lui-même
sans avoir recours au spécialiste a fin de répondre à des
ques&ons usuelles comme:
Mathématiques
Informatique formelles Statistiques
BIOLOGIE
La bioinformaCque est interdisciplinaire
Chimie
Mathema&ques Biologie
Sta&s&que Moléculaire
BIOINFORMATIQUE
Computer
Science
Médicine
Informa&que
Physique
BioinformaCque
• ARN (Transcriptome)
• Séquence
• Structure
• Protéines (Protéome)
• Séquence
• Structure
• Réseaux d’intérac&on
Bioinformatique
Production de
données
Expérimentations Base de
biologiques données
Hypothèse
Biologie Méthodologies
BIOINFORMATIQUE
Modélisation Traitement
Simulation bioinformatiques
InformaCque
Source: genbank
2001: Coût de
1Mb était de 8 000
$
Bientôt la séquence
complet d’un humain
coûtera environ 500 €
2012
Vers la troisième génération de séquenceur…
Séquençage
Séquençage Analyses
de novo fonctionnelles
Reséquençage
Les applications du séquençage
• Le séquençage de novo
– Fournir la séquence de génome inconnu
– Combinaison de plusieurs méthodes pour obtenir
des version de génome de bonne qualité
– Utilisés dans le domaine médical pour la
découverte de génomes d’agents pathogènes
inconnu ou de nouveaux virus
Les applications du séquençage
• Le reséquençage
Les applicaCons du séquençage
• Les applications fonctionnelles
Les applications du séquençage
Séquençage
Séquençage Analyses
de novo fonctionnelles
Reséquençage
BIONFORMATIQUE
Avant la bioinformaCque (=> 1990) Relation
structure-activité
Activité Etude Séquence Gène
biologique biochimie Protéine Mutagénèse
connue structure 3D
« Omics »
BIOINFORMATIQUE Iden&fica&on de protéines Stockage
Banques de données prédic&on sites/signatures Classification Génomique
Prédiction des gènes Prédic&ons de structure Intégration Protéomique
Modélisa&on moléculaire Criblage
Transcriptomique
Prédiction Études
Séquences Séquences Activités biochimiques
génomiques protéiques biologiques Structures 3D
Génomique
Aujourd'hui (depuis les programmes de structurale
séquençages massif et la bioinformatique)
Biologie in silico
L’ERE D’ « OMICS »
Génomiques
Interactomiques Transcriptomique
«Omics»
Metabolomiques Protéomiques
Epigénomiques
BASES DE DONNÉES
Bases de données
• http://www.jcvi.org/
Bases de données généralistes
Bases de données de séquences protéiques:
http://www.uniprot.org http://www.expasy.org
Bases de données généralistes
Bases de données de structure:
http://mm.rcsb.org
Bases de données spécialisées
• Chaque année, en janvier, le journal Nucleic Acids Research
publie un numéro spécial dédié aux bases de données
« database »
Bases de données spécialisée
Dédiées à un organisme :
h~p://www.ncbi.nlm.nih.gov
Comment on cherche dans les bases de données?
Exemple Genbank
http://www.ncbi.nlm.nih.gov/genbank/
Exemple Genbank
Je connais le No. d’accession (paper)
Exemple Genbank
RESULTATS….
Exemple Genbank
Exemple Genbank
Exemple Genbank
En résumé, une fiche comporte de nombreuses informations :
• hQp://www.ebi.ac.uk/Tools/sfc/
FORMAT FASTA
Ø Format commun de manipula&on des données :
le format FASTA (Fast – alignment)
• Les bases nucléo&diques ne référencient que des monobrins
d’ADN (même si la séquence soumise est de l’ADN bicaténaire
ou de l’ARN)
à la séquence est toujours dans le sens 5’P – 3’OH
• Les séquences nucléotidiques selon le degré de précision de
l’enregistrement seront écrites le plus souvent avec A,T, C et
G et/ou avec R,Y (base puRique A et G / base pYrimidique C
et T) et/ou K,M (base Keto G et T / base aMino A et C).
3D Domains Journals
Structure Books
CDD/CDART Taxonomy
Protein
Entrez Genome
UniSTS
HomoloGene
SNP
UniGene
Gene
GEO/GDS
PopSet Nucleotide
Principes de la comparaison
de séquences
Bases de données
NIH Entrez
NCBI
NIG •Submissions
•Updates SRS
3D Domains Journals
Structure Books
CDD/CDART Taxonomy
Protein
Entrez Genome
UniSTS
HomoloGene
SNP
UniGene
Gene
GEO/GDS
PopSet Nucleotide
Principes de la comparaison des séquences
La prémisse:
• Une séquence n’est pas informa9ve par elle
même; elle doit être analysée par des
méthodes compara9ves contre des bases
de données existantes pour développer des
hypothèses concernant leur rela9on et leur
fonc9on.
Comparaison de séquences biologiques:
Pour quoi faire?
• CeJe comparaison est nécessaire dans différents types d’études :
« FINESTRA »??
Alignements des mots avec « Finestra »
Certaines leJres sont iden9ques
Alignements des mots avec « Finestra »
Certaines leJres sont différentes
Alignements des mots avec « Finestra »
Certaines leJres sont différentes
Certaines leJres n’ont pas de correspondant
Alignements des mots avec « Finestra »
Plusieurs alterna9ves
Alignements des mots avec « Finestra »
Modifica9ons crédibles vs. improbables
• voyelle/voyelle: e <> a
Comment
trancher?
Alignements des mots avec « Finestra »
SCORE
Alignements des mots avec « Finestra »
SCORE
S= -3
S= -1
S= 2
S= 3
CONCLUSION SUR UN ALIGNEMENT
Orthologues ou Paralogues
Orthologues: Paralogues:
gènes homologues gènes homologues issus
issus de la spécia9on d'un phénomène de
duplica9on
L'homologie de séquence
En bioinforma9que: Homologie = parenté = ancêtre commun
orthologs
paralogs
Fonc9on et homologie
• L’homologie n’implique pas même fonc9on
Score de similitude
homologie
• Alignement mul9ple:
• p.e: famille de proteines (ClustalO, MUSCLE)
• Alignement global:
• Sur la totalité de la longueur d’une sequence
• Alignement local:
• Alignement de la ou des régions les plus fortement
conservées
Alignement
• Aligner 2 séquencesà
C’est rechercher le maximum d’appariements
entre les leJres qui les composent (nucléo9des
ou aa) avec le minimum de mésappariements
et de gaps.
Selon ce concept, le bon alignement est celui qui minimise les opéra9ons à
réaliser pour passer d'un séquence à l'autre.
G T T A A G G C G – G G A A A
T T T – – – G C C A G G A C A
* * * * * * * *
G T T A C G A G T T A C G A G T T A C - G A
G T T - G G A OU G T T G - G A OU G T T - - G G A
* * * * * * * * * * * * * * *
• On u9lise à
• une matrice de subs9tu9on
• un modèle de gap
• une fonc9on de score (somme des paires)
Score = S se - S P
IdenEté = 1
Mismatch = 0
Gap = -1 Score = 10 - 4 = 6
Modèle d'évolu9on (ADN)
A C
G T
• Transi9on: A <-> G T <-> C
• Transversions : autres subs9tu9ons
• p(transi9on) > p(transversion)
G T T A C G A G T T A C G A
G T T - G G A < G T T G - G A
* * * * * * * * . * *
Matrice de subs9tu9on (ADN)
A C G T
A 1 0 0.5 0 Exemples :
Exemple:
C 0 1 0 0.5 (iden9que)=
•δ( A, A) = 1 1
• (Transi9on)= 0,5
G 0.5 0 1 0 δ(A,C ) = 0
• (Transversion)= 0
T 0 0.5 0 1 δ( , T) = 0.5
Gap = -1
G T T A C G A G T T A C G A
G T T - G G A G T T G - G A
1 1 1 -1 0 1 1 1 1 1 .5 -1 1 1
BLOSUM 62
matrice construite en comparant des protéines orthologues
ayant en moyenne 62% de similarité
il existe des matrices → BLOSUM30, BLOSUM80,...
Val Ile
NH2 NH2
Substitutions
conservatrices H C COOH H C COOH
HC CH3 HC CH3
CH3 CH2
CH3
Le cas des acide aminés
• On notes que:
• Alignement global
• Alignement local
Alignement global
• « Pairwise » alignementà
ou alignement de 2 séquences
3
EvaluaEon de l’alignement donnant un
score final
descripEf E-value
score
idenEfiant
Résultats de BLAST
4. Les alignements query → la séquence soumise
subject → la séquence trouvée dans la bdd
Résultat:
Liste d'HSP (high scoring pairs = alignements) avec
% idenEté, % gaps score brut, score en bits, E-value
Program Description
blastn Search a nucleotide database using a nucleotide query
©Guy Perrière
Comparer une séquences d’ADN ou une séquence
protéique ??
• Similarité moyenne entre • Similarité moyenne
2 séquences d'ADN de entre 2 de séquences
longueur égale: 25% d'AA longueur égale: 5%