Analyse Des Séquences

Introduction aux analyses de
séquences
I. Introduction
II. Alignement de deux séquences
1. Principes et définitions
2. Méthodes d’alignement
3. Matrices de substitution
1
Que souhaitent connaître les biologistes?
• L’ensemble des gènes (nature/position) d’un génome.
• L’ensemble des transcrits de ce génome.
• Le lieu et le moment de l’expression de chaque transcrit.
• La protéine produite par chaque transcrit.
• Le lieu et le moment de l’expression de chaque protéine.
• La fonction de chaque protéine.
• Les mécanismes cellulaires auxquels participent ces protéines.
2
Pourquoi comparer des séquences?
• Mettre en évidence les régions codantes/non codantes au sein

des séquences nucléiques.
• Déterminer la fonction et/ou la structure d’une protéine.
• Déterminer les régions fonctionnelles pour étudier des processus

de l’évolution à l’échelle moléculaire.
Gène, fonction, motif et/ou

• Séquences similaires
structure similaire
3
Comparaison de séquences
• Déterminer les régions conservées entre deux séquences pour obtenir

des informations sur LA séquence d’intérêt en utilisant les
caractéristiques de L’AUTRE séquence.
RECR_AGRT5 101 GAMNTAYHVLGGTLSPLDGVGPEDLNIKGLIDRVSAGGIRELIIAVNATV 150!

......||||||.:||:||:|||.|.|..|:.|||....:|:|:|::.:|!
UNKNOWN 97 REFKGKYHVLGGVISPMDGIGPEQLTITPLLRRVSQQQPKEVILAISPSV 146!
Extrapolation
RECR_AGRT5
(SwissProt) Hypothetical
!!! Attention aux faux positifs
4
Pourquoi l’alignement de séquences 2 à 2
• De nombreux logiciels d’analyse de séquences dépendent de

l’alignement de séquences 2 à 2.
 Alignements multiples
 Recherche de séquences similaires dans les banques de données
 Prédiction de structure 3D
 Construction de matrices de substitution
 Phylogénie
5
Terminologie
• Proportion des paires de résidus identiques entre deux

Identité
séquences alignées. (Exprimé généralement en %).
• Résidus différents mais possédant des propriétés similaires.

Similitude • Permet une mesure de la ressemblance entre deux séquences.
• Le degré de similitude est quantifié par un score basé sur le
« % » de substitutions des séquences.
• Deux séquences sont homologues si elles dérivent d’un

Homologie ancêtre commun. Elles ne sont pas nécessairement très
similaires !
• Il n’y a pas de « degré » d’homologie.
Les séquences sont homologues ou elles ne le sont pas.
6
séquences
I. Introduction
7
Qu’est-ce qu’une séquence?
• Pour un (bio)informaticien, une séquence est un MOT.
• Un MOT est une collection ordonnée de symboles choisis dans

un alphabet (∑).
ADN: ATGCGATGCGTAGTATCTAGTGC
∑ = A, T, G, C, N
Protéine: ADGFHIKLPRSFGHYSRADKLMEWS
∑ = A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y
• On ne considère que la structure primaire des séquences
8
Formats de séquences
Format fasta
>sp|P05231|IL6_HUMAN Interleukin-6 precursor (IL-6) - Homo sapiens (Human).!

MNSFSTSAFGPVAFSLGLLLVLPAAFPAPVPPGEDSKDVAAPHRQPLTSSERIDKQIRYI!
LDGISALRKETCNKSNMCESSKEALAENNLNLPKMAEKDGCFQSGFNEETCLVKIITGLL!
EFEVYLEYLQNRFESSEEQARAVQMSTKVLIQFLQKKAKNLDAITTPDPTTNASLLTKLQ!
AQNQWLQDMTTHLILRSFKEFLQSSLRALRQM!
Format « raw »
MNSFSTSAFGPVAFSLGLLLVLPAAFPAPVPPGEDSKDVAAPHRQPLTSSERIDKQIRYI!
LDGISALRKETCNKSNMCESSKEALAENNLNLPKMAEKDGCFQSGFNEETCLVKIITGLL!
EFEVYLEYLQNRFESSEEQARAVQMSTKVLIQFLQKKAKNLDAITTPDPTTNASLLTKLQ!
AQNQWLQDMTTHLILRSFKEFLQSSLRALRQM!
Format EMBL
ID X97897; SV 1; linear; mRNA; EST; MUS; 140 BP.!

AC X97897;!
DE M.musculus mRNA for protein homologous to vasodilator-stimulated!
DE phosphoprotein!
SQ Sequence 140 BP; 25 A; 58 C; 39 G; 17 T; 1 other;!
ttctcccaga agctgactct atggngaccc cgagagagac tgagcagaac 60!
ccccgcaccc ctgcacttcc aatcaggggc gccccgggag cactccccgt 120!
ccgccctccg cgcagccatg 140!
//!
9
Qu’est-ce qu’un alignement?
• Mise en correspondance de tous les symboles de 2 séquences avec une

possible insertion d’espaces pour que les longueurs soient identiques.
analysedesgenomes! français
||||!
analizaegjenome--! albanais
Toutes les
correspondances ou
sont autorisées tant
que l’ordre des analys-e-desgenomes!
symboles est |||| | | ||||! ou un autre …
conservé. analizaegje---nome-!
ou
analyse-desg-enomes!
|||| | | ||||| !
analiza--e-gjenome-!
10
Qu’est-ce qu’un alignement?
• 3 situations possibles pour une position de l’alignement:
 si les caractères sont les mêmes: Identité

 si les caractères ne sont pas les mêmes: Substitution
 si un caractère est un espace: Insertion - Délétion
(gap/indel)
1- GAMNTAYHVLGGTLSPLDGVGPEDLNI--LIDRVS!
|||||| ||:|| ||.|.| | |||!
2- REFKGKYHVLGGVISPMDG--PEQLTITPLLRRVS!
Substitution Identité Insertion(1) Délétion (1)

Délétion (2) Insertion(2)
11
Evaluer un alignement
• Qu’est ce qu’un alignement? Une hypothèse sur l’histoire évolutive

entre les séquences.
• Qu’est ce qu’un BON alignement? Celui qui donne le scénario le plus

probable.
• Intuitivement, nous savons que l’alignement suivant est meilleur
analyse-desg-enomes!
|||| | | ||||| !
analiza--e-gjenome-!
• que celui-ci :
analys-e-desgenomes!
|||| | | ||||!
analizaegje---nome-!
• Ceci est exprimé via un système de score contenant tous les

critères de qualité de nos séquences.
12
• Qu’est ce qu’un BON alignement? Celui qui donne le scénario le plus

probable.
• Quel est le scénario le plus probable? L’alignement de score optimal
• Le score est exprimé soit via la distance ou soit via la similitude qui sépare
deux séquences..
• Distance: Attribution d’un poids élémentaire toujours positif à chaque

paire de symboles alignée ⇒ Recherche de l’alignement qui donne le score
minimum.
• Similitude: Attribution d’un coût de substitution pour chaque paire alignée

et une pénalité pour chaque gap introduit ⇒ Recherche de l’alignement qui
donne le score maximum.
• Le score total d’un alignement est la somme de tous les scores des
paires alignées de cet alignement.
13
• Similitude: Scores: identité = 2, substitution = 1, gap = -2
A" T" G" C" A" T" A" C" T" G" Score total de similitude

C" T" G" C" -" -" C" C" T" G" + 10
+1 +2 +2 +2 -2 -2 +1 +2 +2 +2
• Distance: Scores: identité = 0, substitution = 1, gap = 2
A" T" G" C" A" T" A" C" T" G" Score total de distance
C" T" G" C" -" -" C" C" T" G" +6
+1 +0 +0 +0 +2 +2 +1 +0 +0 +0
14
• Pour les acides aminés, le poids de chaque paires (identités et

substitutions) dépend de la nature des acides-aminés et sont extraits
d’une matrice de substitution.
A" R" N" D" P" W" A" Score total
G" K" M" H" C" W" A" + 21
1 3 -2 0 -5 19 5
Blosum 40

15
Pénalité d’insertion et de délétion
YHVLGGTLILPDGGDE!
|||||| |||||||!
YHVLGG---LPDGGDE!
ouverture de gap extension de gap
• L'ouverture de gap pénalise plus fortement le score que l’extension.
YHVLGGTLILPDGGDE! YHVLGGTLILPDGGDE!
|||||| |||||||! |||||| | ||||||!
YHVLGG---LPDGGDE! YHVLGG-L--PDGGDE!
(13 x 1 ) - 5 - (3 x 0.5) = 6.5 (13 x 1) - (2 x 5)- (3 x 0.5) = 1.5
Scores: identité = 1, ouverture gap = 5, extension gap = 0.5
16
Evaluation d’un alignement
• Les alignements sont estimés par rapport aux scores obtenus.
• Recherche de l’alignement avec le score optimal.
• Le score:
 est la somme des scores de substitutions et des pénalités de gap

(ouverture et extension)
 dépend du système de score choisi
• Des alignements différents ne peuvent pas être comparés uniquement sur

la base de la valeur de leur score.
• Le bon alignement est celui qui raconte l’histoire (vraie) entre les
séquences ….
17
Différents types d’alignements
A
B
Alignement global: alignement de toute la séquence A avec toute la séquence B
A A
B B
Alignement local: alignement(s) de sous-séquences de A avec des sous-séquences de B
18
séquences
I. Introduction
1. Méthode graphique
2. Programmation dynamique
19
Les matrices dotplots
• Représentation en 2 dimensions
• Identification visuelle des régions similaires entre 2 séquences
Tissue- Plasminogen Activator (TPA-BOVIN)

Urokinase- Plasminogen Activator (UROK-BOVIN)

20
Seq A"
A C T G T A C T A G C G
Seq B" C
T
A
21
Seq A"
Bruits de fond
A C T G T A C T A G C G
nucléique = 1/4 = 25%
Seq B" C protéique = 1/20 = 5%
G
T Rapport S / B faible
A
C
Filtrage
T
A
22
Filtrage: sélectivité
• Réduction du bruit de fond en calculant un score sur une fenêtre (mot/

kuplet) de plusieurs résidus => Elimination des similitudes courtes, non
significatives.
Seq A"
Seq A : A T G A A C T C T G A
A T G A A C T C T G A Seq B : A T G A T C T C T G A
Seq B"
A
T
Score sur les mots

G A T G
A A T G
T 1
+
1
+
1
= 3

C
C
A C T
T T C T
G 0
+
1
+
1
= 2

A
23

significatives.
Seq A"
Seq B"
A
T
Score sur les mots

G A C T
A T G A
T
0
+
0
+
0
= 0

C
C T G A
T T G A
G 1
+
1
+
1
= 3

A
24

significatives.
Seq A"
Seq B"
A
T
C Avec fenêtre
T
T
G
25

significatives.
Seq A"
Seq B"
A
A
Sans fenêtre
T
C Avec fenêtre
T
T
G
26
Filtrage: sensibilité (seuil)
• Point uniquement si le nombre d’identité dans une fenêtre de

taille « k » est supérieur ou égal à un seuil « S ».
k = 3 et S ≥ 2

A" T" G" C" A" T" C" C"
C" T" G" C" C" T" G" C"
0 1 1 Sc = 2 0 1 0 Sc = 1
27
k = 3 et S ≥ 2
Seq A"
Seq B"
A
T Score sur le mot

C
G A A
T G A T
C
T 1
+
1
+
0
= 2

G
28
k = 3 et S ≥ 2
Seq A"
Seq B"
A
T Score sur le mot

C
A A C
T A T C
C
T 1
+
0
+
1
= 2

G
29
k = 3 et S ≥ 2
Seq A"
Seq B"
A
A Avec fenêtre / Sans seuil

T
Avec fenêtre / Avec seuil
C
T
G
30
k = 3 et S ≥ 2
Seq A"
Seq B"
A
A Avec fenêtre / Sans seuil

T
C
Avec fenêtre / Avec seuil
T
Sans fenêtre
C
T
G
31
Interprétation
• Chaque diagonale représente un alignement possible.
Seq A" • un alignement possible:
Seq A: A C S G E E K S G D E!
Seq B" A C S G E E K S G D E | | | | | | | | | |!
Seq B: A C S G D E K S G D E!
A
C
• un autre alignement possible:
S
G Seq A: A C S G E E K S G D E - - - - -!
| | | | !
D Seq B: - - - - - A C S G D E K S G D E!
E
K • et un autre:
S
Seq A: - - - - - A C S G E E K S G D E!
G
| | |!
D Seq B: A C S G D E K S G D E - - - - -!
E
32
Interprétation
• Visualisation des insertions / délétions.
Seq A"
• un alignement possible:
A C S G K S G D E
Seq B" Seq A: A C S G - - K S G D E!
A
| | | | | | | | |!
C Seq B: A C S G D E K S G D E!
S
• un autre alignement possible:
G
D Seq A: A C S G K S G D E - - - - -!
| | | | | | !
E
Seq B: A C S - - - G D E K S G D E!
K
G
D
33
Similitudes locales
helix-loop-helix (bHLH) domain
34
Domaines répétés
Interactin A precursor de
Listeria Monocytogenese
Région riche en leucines Région répétée

35
Localisation de régions codantes
Intron
Fragment d’ADN de souris contenant de l’hémoglobine (horizontal) /ARNm

humain de l’hémoglobine (vertical)
36
Région de faible complexité
Serine-repeat antigen
protein precursor de
Plasmodium falciparum
37
Domaines conservés
ATP synthase gamma chain
38
Matrice « dotplot »
• Outil graphique: simple, visuel.
• Très informatif:
 zones de similitudes globales ou locales entre deux séquences
 repérer des répétitions, des zones de faible complexité …
 pas ou peu de perte d’information (filtrage non obligatoire)
• Aucun autre programme ne peut fournir autant d’informations.
• Inconvénients:
 difficulté pour quantifier la ressemblance
 résultats difficilement manipulables
 difficulté d’étendre l’application à la comparaison simultanée de
plus de deux séquences.
39
séquences
I. Introduction
1. Méthode graphique
2. Programmation dynamique
40
Alignements
• Trouver l’alignement de score optimal entre 2 séquences étant donné

un système de score (identité, substitutions, insertions et délétions).
• Obligation de générer tous les alignements!
Score identité = 2, Score substitution = 1, Score gap = -2
A T C! A T C -! A - T C! A T C -!
| : |! 5 | :! -1 | : ! -1 | |! 0
A C C! A C - C! A C C -! A - C C!
A - T C! - A T C! - A T C! - A T C!
| |! 0 : :! -2 : |! -1 : |! -1
A C - C! A C C -! A C - C! A - C C!
A T C - -! - A T C -! - - - A T C!
| ! -6 : ! -7 -12 etc …
A - - C C! A C - - C! A C C - - -!
41
Combien d’alignements possibles
entre 2 séquences?
• Pour 2 séquences de longueur: 1µs/alignement
5: 252 0.00252s
10: 184756 0.18s
20: 137846528820 38h
50: 100891344545564193334812497256 3197053785635200 ans
n
> 3 alignements possibles entre 2 séquences
Algorithme
d’optimisation
42
Programmation dynamique:
alignement global
• Comment trouver le score (S) de l’alignement global « optimal » quand

l’énumération exhaustive est impossible?
Programmation dynamique
• Décomposition du problème en plusieurs instances plus faciles à résoudre.
• Résolution de ces instances intermédiaires.
• Stockage de ces instances dans un tableau/graphe.
• L’alignement est un chemin à travers le graphe.
43
alignement global
A - C A - C A!
| | | |!
A C C A A C -!
Le graphe L’alignement global
44
Programmation dynamique: « principe »
A T G!
?!
C T G!
A T G! -! A T! G! A T! G!
?! ?! ?!
C T! G! C T! G! C T G! -!
A! T! A T! -! A! T!
?! ?! ?!
C T! G! C T! G! C T G! -!
A! T! A T! -! A! T!
?! ?! ?!
C! T! C! T! C T! -!
A T – G!
C T G -! A!-! A! A!
?! ?!
C! C! C! -!
45
alignement global
A T G!
?!
C T G!
A T G! -! A T! G! A T! G!
?! ?! ?!
C T! G! C T! G! C T G! -!
A T! G! A T G! -! A T! G! A! T! A T! -! A! T! A! T! A T! -! A! T!
?! ?! ?! ?! ?! ?! ?! ?! ?!
C! T! C! T! C T! -! C! T! C! T! C T! -! C T! G! C T! G! C T G! -!
A! T! A T!-! A! T! A! T! A T!-! A! T! A! T! A T!-! A! T! A! A! -! A! A! A! -! A!

?! ?! ?! ?! ?! ?! ?! ?! ?! ?! ?! ?! ?! ?! ?!
C! C! C! -! C! T! C! T! C T!-! C! C! C! -! C! T! C! T! C T!-! C T!G! C T!G! C T G!-!
A T! G! A T G! -! A T! G! A! A! A! -! A! A! T! A T!-! A! T!
?! ?! ?! ?! ?! ?! ?! ?! ?! ?! ?!
C! C! C! -! C! C! T! C! T! C T!-! C! T! C! T! C T!-!
46
alignement global
• Tous les sous-problèmes sont stockés dans un graphe.
A
T
G

-! A! A T! A T G!
?! ?! ?!
-!
A! A T! A T G!
C
?! ?! ?! ?!
C! C! C! C!
A! A T! A T G!
T
?! ?! ?! ?!
C T! C T! C T! C T!
A! A T! A T G!
G
?! ?! ?! ?!
C T G! C T G! C T G! C T G!
• Les cellules du graphe sont remplies sans se préoccuper si les sous-

problèmes sont utiles ou non.
• Le nombre de calcul est réduit de (3n) à (n x m). ( pour n=100, 104 calculs )
47
alignement global
• Initiation du graphe
A
T
G

-! A! A T! A T G!
?! ?! ?!
-!
C
?!
C!
T
?!
C T!
G
?!
C T G!
48
alignement global
• Remplissage de chaque case: garder la meilleur solution parmi trois.
A
T
G

-! A! A T! A T G!
?! ?! ?!
-!
?
A!
C
?! ?!
C! C!
T
?!
C T!
G
?!
C T G!
49
alignement global
• Remplissage de chaque case: garder la meilleur solution parmi trois.
A
T
G

-! A! A T! A T G!
?! ?! ?!
-!
A!
? A T!
C
?! ?! ?!
C! C! C!
T
?!
C T!
G
?!
C T G!
50
alignement global
• Score optimum de l’alignement global des deux séquences.
A
T
G

-! A! A T! A T G!
?! ?! ?!
-!
A! A T! A T G!
C
?! ?! ?! ?!
C! C! C! C!
A! A T! A T G!
T
?! ?! ?! ?!
C T! C T! C T! C T!
A! A T! A T G!
G
?! ?! ?! ?!
C T G! C T G! C T G! C T G!
51
Alignement global:
Needleman & Wunsch (1970)
Sc( ai , bj) = 4 si i = j!
Système de score Sc( ai , bj) = -1 si i ≠ j!
Sc( ai , --) = Sc( - , bj) = -1 !
G A T C T
0 -1 -2 -3 -4 -5
A -1 -1 3 2 1 0
G A T C - T -! G -2 3 2 2 1 0
| | |!
- A G C G T C
C -3 2 2 1 6 5
G -4 1 1 1 5 5
T -5 0 0 5 4 9
C -6 -1 -1 4 9 8
52
Alignement global:
Needleman & Wunsch (1970)
Sc( ai , bj) = 4 si i = j!
Système de score Sc( ai , bj) = -1 si i ≠ j!
Sc( ai , --) = Sc( - , bj) = -1 !
G A T C T
0 -1 -2 -3 -4 -5
- G A - T C T!
| | |!
A -1 -1 3 2 1 0
A G C G T C - !
G -2 3 2 2 1 0
- G - A T C T!
| | |!
C -3 2 2 1 6 5
A G C G T C -!
G -4 1 1 1 5 5
T -5 0 0 5 4 9
C -6 -1 -1 4 9 8
53
Alignement global:
Sensibilité aux paramètres
Sc( ai , bj) = 4 si i = j!  Pénalité sur les

Système de score
Sc( ai , bj) = 2 si i ≠ j! insertions et les délétions

Sc( ai , --) = Sc( - , bj) = -4 !Substitutions favorisée

G A T C T
0 -4 -8 -12 -16 -20

G A T C T -!
|! A -4 2 0 -4 -8 -12 L’alignement optimal

A G C G T C! obtenu dépend du

G -8 0 4 2 -2 -6 « système de score »

choisi

- G A T C T! C -12 -4 2 6 6 2
| !
A G C G T C! G -16 -8 -2 4 8 8
T -20 -12 -6 2 6 12
C -24 -16 -10 -2 6 8
54
En résumé
• 2 séquences peuvent toujours être alignées.
• Plusieurs alignements sont possibles.
• Nécessité d’utiliser un système de score.
• Plusieurs alignements optimaux possibles (même score).
• Si le système de score est différent, les alignements optimums
sont différents.
• Un alignement résulte d’un algorithme et d’un calcul.
• La déduction biologique viendra de votre interprétation des
résultats.
55
séquences
I. Introduction
56
Les systèmes de scores
• Coût à attribuer aux opérations élémentaires de comparaison de

séquences: « identité, substitution, délétion et insertion ».
• Besoin de systèmes de scores qui soient « biologiquement »

pertinents.
• Le choix du système de scores dépend de la relation recherchée entre

les séquences:
 relation structurale: propriétés physico-chimiques

 relation d’homologie: évolution moléculaire
• Obtenir l’alignement de score maximum qui soit l’alignement le plus

biologiquement significatif.
57
Matrices de scores pour l’ADN
• La matrice identité A C G T
A 1 0 0 0
match 1 C 0 1 0 0
mismatch 0 G 0 0 1 0
T 0 0 0 1
• La matrice de transition/transversion
A C Identité: 3 A C G T
A 3 0 1 0
C 0 3 0 1
Transition: 1
G 1 0 3 0
G T
T 0 1 0 3
Transversion: 0
A C G T
A 1 -3 -3 -3
C -3 1 -3 -3
• La matrice identité dans BLAST G -3 -3 1 -3

T -3 -3 -3 1
58
Matrices liées à l’évolution
moléculaire
• Pour chaque acide aminé, une matrice de substitution définit le score

élémentaire à affecter :
 à la conservation d’un acide aminé.

 au remplacement d’un acide aminé par un autre.
• Elles sont construites à partir de substitutions observées entre acides

aminés au cours de l’évolution moléculaire.
• Ces substitutions sont observées à partir d’alignements multiples de

protéines homologues. Les probabilités ainsi calculées sont les
probabilités de substitutions conservatives vis-à-vis de la fonction.
59
Matrices liées à l’évolution
moléculaire
• Deux grandes familles de matrice: « log odds »
 Matrices PAM (Dayhoff - 1978)

 Matrice BLOSUM (Henikoff & Henikoff - 1992)
• Principe:
 alignement de protéines
 calcul des fréquences de substitutions observées (qij)
 calcul des fréquences de substitutions théoriques
 pi: fréquence de l’acide aminé i dans le jeu de séquences
 pi×pj: fréquence de substitution de i par j si elle se faisait par hasard
 calcul d’un quotient: Rij=qij/pipj
 si Rij > 1 : substitution i par j favorisée au cours de l’évolution
 si Rij < 1 : substitution i par j défavorisée au cours de l’évolution
 calcul de la « log-odds matrix »: Sij=λ log Rij
• Sij exprime le ratio entre la probabilité que 2 résidus i et j soient

alignés par descendance et la probabilité qu’ils soient alignés par
chance.
60
Matrice BLOSUM
(BLOcks Substitutions Matrices)
• Calcul de la fréquence de changements entre deux acides aminés avec

conservation de la structure 3D.
• Echantillons extraits de la banque BLOCKS: ≈2000 blocs à partir de 500

familles de protéines.
Un bloc est obtenu par alignement multiple sans insertion/

délétion de courtes régions protéiques très conservées
61
Matrice BLOSUM
(BLOcks Substitutions Matrices)
• Ces blocs sont utilisés pour regrouper tous les segments de séquences
ayant un pourcentage d’identité minimum au sein d’un bloc .
• Pour une distance évolutive donnée, les matrices sont dérivées

directement à partir des régions protéiques ayant un % d’identité donné.
BLOSUM-y : matrice obtenue à partir de séquences présentant au

minimum y% d’identité entre elles.
62
Exemples de « Matrice Blosum»
BLOSUM 80 BLOSUM 40
63
Choix de la matrice protéique
BLOSUM-y = y% d’identité entre les séquences
BLOSUM-80 BLOSUM-62 BLOSUM-45
- divergent + divergent
64
Exemples d’alignements
Global: seqpro1 vs seqpro2!

Score: 220.50!
seqpro1 1 MSLSSLTLDSNPRFAVGGPYHQEVDGLRESELAKSFIGTTKRGIG 45 !
: || | | :: | ||: |||| ||||!
seqpro2 1 VALD.NAR........EKARG......AKA.IGTTGRGIG 24 !
seqpro1 46 PAYSSKVIRNGIRVGDLRHMD...LPAAAQKLDLCGCLL.....E 82 !
• BLOSUM 80 ||| || | |:||||| | || ||||| || !
seqpro2 25 PAYEDKVARRGLRVGDL..FDKETLP...QKLDL...LLSDAAAR 61 !
seqpro1 83 FRGRF...PGHIIKL 94 !
|:| | | !
seqpro2 62 FQG.FKYTP 69 !
%id = 70.69% !similarity = 81.03!

Overall %id = 43.62 !Overall %similarity = 50.00!
Global: seqpro1 vs seqpro2!

Score: 155.00!
seqpro1 1 MSLSSLTLDSNPRFAVGGPYHQEVDGLRESELAKSFIGTTKRGIG 45 !
:| || |||| ||||!
seqpro2 1 VALDNAREKARGAKAIGTTGRGIG 24 !
seqpro1 46 PAYSSKVIRNGIRVGDLRHMD.LPAAAQKLDLCGCLLEFRGRFPG 89 !
• BLOSUM 45 ||| || | |:||||| : || ||||| | : || |!
seqpro2 25 PAYEDKVARRGLRVGDLFDKETLP...QKLDL..LLSDAAARFQG 64 !
seqpro1 90 HIIKL 94 !
| !
seqpro2 65 ..FKYTP 69 !
%id = 53.03% !similarity = 59.09!

Overall %id = 37.23 !Overall %similarity = 41.49!
65
Merci
66

Analyse Des Séquences

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Analyse Des Séquences

Transféré par

Droits d'auteur :

Formats disponibles

Introduction aux analyses de

• L’ensemble des gènes (nature/position) d’un génome.

• L’ensemble des transcrits de ce génome.

• Le lieu et le moment de l’expression de chaque transcrit.

• La protéine produite par chaque transcrit.

• Le lieu et le moment de l’expression de chaque protéine.

• La fonction de chaque protéine.

• Les mécanismes cellulaires auxquels participent ces protéines.

• Mettre en évidence les régions codantes/non codantes au sein

• Déterminer la fonction et/ou la structure d’une protéine.

• Déterminer les régions fonctionnelles pour étudier des processus

Gène, fonction, motif et/ou

• Déterminer les régions conservées entre deux séquences pour obtenir

RECR_AGRT5 101 GAMNTAYHVLGGTLSPLDGVGPEDLNIKGLIDRVSAGGIRELIIAVNATV 150!

!!! Attention aux faux positifs

• De nombreux logiciels d’analyse de séquences dépendent de

• Proportion des paires de résidus identiques entre deux

• Résidus différents mais possédant des propriétés similaires.

• Deux séquences sont homologues si elles dérivent d’un

• Pour un (bio)informaticien, une séquence est un MOT.

• Un MOT est une collection ordonnée de symboles choisis dans

• On ne considère que la structure primaire des séquences

>sp|P05231|IL6_HUMAN Interleukin-6 precursor (IL-6) - Homo sapiens (Human).!

ID X97897; SV 1; linear; mRNA; EST; MUS; 140 BP.!

• Mise en correspondance de tous les symboles de 2 séquences avec une

• 3 situations possibles pour une position de l’alignement:

 si les caractères sont les mêmes: Identité

Substitution Identité Insertion(1) Délétion (1)

• Qu’est ce qu’un alignement? Une hypothèse sur l’histoire évolutive

• Qu’est ce qu’un BON alignement? Celui qui donne le scénario le plus

• Intuitivement, nous savons que l’alignement suivant est meilleur

• Ceci est exprimé via un système de score contenant tous les

• Qu’est ce qu’un BON alignement? Celui qui donne le scénario le plus

• Quel est le scénario le plus probable? L’alignement de score optimal

• Distance: Attribution d’un poids élémentaire toujours positif à chaque

• Similitude: Attribution d’un coût de substitution pour chaque paire alignée

• Similitude: Scores: identité = 2, substitution = 1, gap = -2

• Distance: Scores: identité = 0, substitution = 1, gap = 2

• Pour les acides aminés, le poids de chaque paires (identités et

A" R" N" D" P" W" A" Score total

G" K" M" H" C" W" A" + 21

ouverture de gap extension de gap

• L'ouverture de gap pénalise plus fortement le score que l’extension.

(13 x 1 ) - 5 - (3 x 0.5) = 6.5 (13 x 1) - (2 x 5)- (3 x 0.5) = 1.5

Scores: identité = 1, ouverture gap = 5, extension gap = 0.5

• Les alignements sont estimés par rapport aux scores obtenus.

• Recherche de l’alignement avec le score optimal.

 est la somme des scores de substitutions et des pénalités de gap

• Des alignements différents ne peuvent pas être comparés uniquement sur

Alignement global: alignement de toute la séquence A avec toute la séquence B

Alignement local: alignement(s) de sous-séquences de A avec des sous-séquences de B

Tissue- Plasminogen Activator (TPA-BOVIN)

• Réduction du bruit de fond en calculant un score sur une fenêtre (mot/

• Réduction du bruit de fond en calculant un score sur une fenêtre (mot/

• Réduction du bruit de fond en calculant un score sur une fenêtre (mot/

• Réduction du bruit de fond en calculant un score sur une fenêtre (mot/

• Point uniquement si le nombre d’identité dans une fenêtre de

A" T" G" C" A" T" C" C"

C" T" G" C" C" T" G" C"

T Score sur le mot

T Score sur le mot

A Avec fenêtre / Sans seuil

A Avec fenêtre / Sans seuil