Vous êtes sur la page 1sur 66

Introduction aux analyses de

séquences

I. Introduction
II. Alignement de deux séquences
1. Principes et définitions
2. Méthodes d’alignement
3. Matrices de substitution

1
Que souhaitent connaître les biologistes?

• L’ensemble des gènes (nature/position) d’un génome.

• L’ensemble des transcrits de ce génome.

• Le lieu et le moment de l’expression de chaque transcrit.

• La protéine produite par chaque transcrit.

• Le lieu et le moment de l’expression de chaque protéine.

• La fonction de chaque protéine.

• Les mécanismes cellulaires auxquels participent ces protéines.

2
Pourquoi comparer des séquences?

• Mettre en évidence les régions codantes/non codantes au sein


des séquences nucléiques.

• Déterminer la fonction et/ou la structure d’une protéine.

• Déterminer les régions fonctionnelles pour étudier des processus


de l’évolution à l’échelle moléculaire.

Gène, fonction, motif et/ou


• Séquences similaires
structure similaire

3
Comparaison de séquences

• Déterminer les régions conservées entre deux séquences pour obtenir


des informations sur LA séquence d’intérêt en utilisant les
caractéristiques de L’AUTRE séquence.

RECR_AGRT5 101 GAMNTAYHVLGGTLSPLDGVGPEDLNIKGLIDRVSAGGIRELIIAVNATV 150!


......||||||.:||:||:|||.|.|..|:.|||....:|:|:|::.:|!
UNKNOWN 97 REFKGKYHVLGGVISPMDGIGPEQLTITPLLRRVSQQQPKEVILAISPSV 146!

Extrapolation

RECR_AGRT5
(SwissProt) Hypothetical

!!! Attention aux faux positifs

4
Pourquoi l’alignement de séquences 2 à 2

• De nombreux logiciels d’analyse de séquences dépendent de


l’alignement de séquences 2 à 2.

 Alignements multiples
 Recherche de séquences similaires dans les banques de données
 Prédiction de structure 3D
 Construction de matrices de substitution
 Phylogénie

5
Terminologie

• Proportion des paires de résidus identiques entre deux


Identité
séquences alignées. (Exprimé généralement en %).

• Résidus différents mais possédant des propriétés similaires.


Similitude • Permet une mesure de la ressemblance entre deux séquences.
• Le degré de similitude est quantifié par un score basé sur le
« % » de substitutions des séquences.

• Deux séquences sont homologues si elles dérivent d’un


Homologie ancêtre commun. Elles ne sont pas nécessairement très
similaires !
• Il n’y a pas de « degré » d’homologie.
Les séquences sont homologues ou elles ne le sont pas.

6
Introduction aux analyses de
séquences

I. Introduction
II. Alignement de deux séquences
1. Principes et définitions
2. Méthodes d’alignement
3. Matrices de substitution

7
Qu’est-ce qu’une séquence?

• Pour un (bio)informaticien, une séquence est un MOT.

• Un MOT est une collection ordonnée de symboles choisis dans


un alphabet (∑).

ADN: ATGCGATGCGTAGTATCTAGTGC

∑ = A, T, G, C, N

Protéine: ADGFHIKLPRSFGHYSRADKLMEWS

∑ = A, C, D, E, F, G, H, I, K, L, M, N, P, Q, R, S, T, V, W, Y

• On ne considère que la structure primaire des séquences

8
Formats de séquences

Format fasta

>sp|P05231|IL6_HUMAN Interleukin-6 precursor (IL-6) - Homo sapiens (Human).!


MNSFSTSAFGPVAFSLGLLLVLPAAFPAPVPPGEDSKDVAAPHRQPLTSSERIDKQIRYI!
LDGISALRKETCNKSNMCESSKEALAENNLNLPKMAEKDGCFQSGFNEETCLVKIITGLL!
EFEVYLEYLQNRFESSEEQARAVQMSTKVLIQFLQKKAKNLDAITTPDPTTNASLLTKLQ!
AQNQWLQDMTTHLILRSFKEFLQSSLRALRQM!

Format « raw »

MNSFSTSAFGPVAFSLGLLLVLPAAFPAPVPPGEDSKDVAAPHRQPLTSSERIDKQIRYI!
LDGISALRKETCNKSNMCESSKEALAENNLNLPKMAEKDGCFQSGFNEETCLVKIITGLL!
EFEVYLEYLQNRFESSEEQARAVQMSTKVLIQFLQKKAKNLDAITTPDPTTNASLLTKLQ!
AQNQWLQDMTTHLILRSFKEFLQSSLRALRQM!

Format EMBL

ID X97897; SV 1; linear; mRNA; EST; MUS; 140 BP.!


AC X97897;!
DE M.musculus mRNA for protein homologous to vasodilator-stimulated!
DE phosphoprotein!
SQ Sequence 140 BP; 25 A; 58 C; 39 G; 17 T; 1 other;!
ttctcccaga agctgactct atggngaccc cgagagagac tgagcagaac 60!
ccccgcaccc ctgcacttcc aatcaggggc gccccgggag cactccccgt 120!
ccgccctccg cgcagccatg 140!
//!

9
Qu’est-ce qu’un alignement?

• Mise en correspondance de tous les symboles de 2 séquences avec une


possible insertion d’espaces pour que les longueurs soient identiques.

analysedesgenomes! français

||||!
analizaegjenome--! albanais

Toutes les
correspondances ou
sont autorisées tant
que l’ordre des analys-e-desgenomes!
symboles est |||| | | ||||! ou un autre …
conservé. analizaegje---nome-!

ou

analyse-desg-enomes!
|||| | | ||||| !
analiza--e-gjenome-!

10
Qu’est-ce qu’un alignement?

• 3 situations possibles pour une position de l’alignement:

 si les caractères sont les mêmes: Identité


 si les caractères ne sont pas les mêmes: Substitution
 si un caractère est un espace: Insertion - Délétion
(gap/indel)

1- GAMNTAYHVLGGTLSPLDGVGPEDLNI--LIDRVS!
|||||| ||:|| ||.|.| | |||!
2- REFKGKYHVLGGVISPMDG--PEQLTITPLLRRVS!

Substitution Identité Insertion(1) Délétion (1)


Délétion (2) Insertion(2)

11
Evaluer un alignement

• Qu’est ce qu’un alignement? Une hypothèse sur l’histoire évolutive


entre les séquences.

• Qu’est ce qu’un BON alignement? Celui qui donne le scénario le plus


probable.

• Intuitivement, nous savons que l’alignement suivant est meilleur

analyse-desg-enomes!
|||| | | ||||| !
analiza--e-gjenome-!
• que celui-ci :

analys-e-desgenomes!
|||| | | ||||!
analizaegje---nome-!

• Ceci est exprimé via un système de score contenant tous les


critères de qualité de nos séquences.

12
Evaluer un alignement

• Qu’est ce qu’un BON alignement? Celui qui donne le scénario le plus


probable.

• Quel est le scénario le plus probable? L’alignement de score optimal

• Le score est exprimé soit via la distance ou soit via la similitude qui sépare
deux séquences..

• Distance: Attribution d’un poids élémentaire toujours positif à chaque


paire de symboles alignée ⇒ Recherche de l’alignement qui donne le score
minimum.

• Similitude: Attribution d’un coût de substitution pour chaque paire alignée


et une pénalité pour chaque gap introduit ⇒ Recherche de l’alignement qui
donne le score maximum.

• Le score total d’un alignement est la somme de tous les scores des
paires alignées de cet alignement.

13
Evaluer un alignement

• Similitude: Scores: identité = 2, substitution = 1, gap = -2

A" T" G" C" A" T" A" C" T" G" Score total de similitude

C" T" G" C" -" -" C" C" T" G" + 10
+1 +2 +2 +2 -2 -2 +1 +2 +2 +2

• Distance: Scores: identité = 0, substitution = 1, gap = 2

A" T" G" C" A" T" A" C" T" G" Score total de distance

C" T" G" C" -" -" C" C" T" G" +6

+1 +0 +0 +0 +2 +2 +1 +0 +0 +0

14
Evaluer un alignement

• Pour les acides aminés, le poids de chaque paires (identités et


substitutions) dépend de la nature des acides-aminés et sont extraits
d’une matrice de substitution.

A" R" N" D" P" W" A" Score total

G" K" M" H" C" W" A" + 21

1 3 -2 0 -5 19 5

Blosum 40

15
Pénalité d’insertion et de délétion

YHVLGGTLILPDGGDE!
|||||| |||||||!
YHVLGG---LPDGGDE!

ouverture de gap extension de gap

• L'ouverture de gap pénalise plus fortement le score que l’extension.

YHVLGGTLILPDGGDE! YHVLGGTLILPDGGDE!
|||||| |||||||! |||||| | ||||||!
YHVLGG---LPDGGDE! YHVLGG-L--PDGGDE!

(13 x 1 ) - 5 - (3 x 0.5) = 6.5 (13 x 1) - (2 x 5)- (3 x 0.5) = 1.5

Scores: identité = 1, ouverture gap = 5, extension gap = 0.5

16
Evaluation d’un alignement

• Les alignements sont estimés par rapport aux scores obtenus.

• Recherche de l’alignement avec le score optimal.

• Le score:

 est la somme des scores de substitutions et des pénalités de gap


(ouverture et extension)
 dépend du système de score choisi

• Des alignements différents ne peuvent pas être comparés uniquement sur


la base de la valeur de leur score.

• Le bon alignement est celui qui raconte l’histoire (vraie) entre les
séquences ….

17
Différents types d’alignements

A
B

Alignement global: alignement de toute la séquence A avec toute la séquence B

A A
B B

Alignement local: alignement(s) de sous-séquences de A avec des sous-séquences de B

18
Introduction aux analyses de
séquences

I. Introduction
II. Alignement de deux séquences
1. Principes et définitions
2. Méthodes d’alignement
1. Méthode graphique
2. Programmation dynamique

3. Matrices de substitution

19
Les matrices dotplots

• Représentation en 2 dimensions
• Identification visuelle des régions similaires entre 2 séquences

Tissue- Plasminogen Activator (TPA-BOVIN)



Urokinase- Plasminogen Activator (UROK-BOVIN)

20
Les matrices dotplots

• Représentation en 2 dimensions
• Identification visuelle des régions similaires entre 2 séquences

Seq A"

A C T G T A C T A G C G
Seq B" C

T
A

21
Les matrices dotplots

• Représentation en 2 dimensions
• Identification visuelle des régions similaires entre 2 séquences

Seq A"
Bruits de fond
A C T G T A C T A G C G
nucléique = 1/4 = 25%
Seq B" C protéique = 1/20 = 5%
G

T Rapport S / B faible
A

C
Filtrage
T
A

22
Filtrage: sélectivité

• Réduction du bruit de fond en calculant un score sur une fenêtre (mot/


kuplet) de plusieurs résidus => Elimination des similitudes courtes, non
significatives.

Seq A"
Seq A : A T G A A C T C T G A

A T G A A C T C T G A Seq B : A T G A T C T C T G A
Seq B"
A

T
Score sur les mots

G A T G
A A T G
T 1
+
1
+
1
= 3

C

C
A C T
T T C T
G 0
+
1
+
1
= 2

A

23
Filtrage: sélectivité

• Réduction du bruit de fond en calculant un score sur une fenêtre (mot/


kuplet) de plusieurs résidus => Elimination des similitudes courtes, non
significatives.

Seq A"
Seq A : A T G A A C T C T G A

A T G A A C T C T G A Seq B : A T G A T C T C T G A
Seq B"
A

T
Score sur les mots

G A C T
A T G A
T
0
+
0
+
0
= 0

C

C T G A
T T G A
G 1
+
1
+
1
= 3

A

24
Filtrage: sélectivité

• Réduction du bruit de fond en calculant un score sur une fenêtre (mot/


kuplet) de plusieurs résidus => Elimination des similitudes courtes, non
significatives.

Seq A"
Seq A : A T G A A C T C T G A

A T G A A C T C T G A Seq B : A T G A T C T C T G A
Seq B"
A

T
C Avec fenêtre
T

T
G

25
Filtrage: sélectivité

• Réduction du bruit de fond en calculant un score sur une fenêtre (mot/


kuplet) de plusieurs résidus => Elimination des similitudes courtes, non
significatives.

Seq A"
Seq A : A T G A A C T C T G A

A T G A A C T C T G A Seq B : A T G A T C T C T G A
Seq B"
A

A
Sans fenêtre
T
C Avec fenêtre
T

T
G

26
Filtrage: sensibilité (seuil)

• Point uniquement si le nombre d’identité dans une fenêtre de


taille « k » est supérieur ou égal à un seuil « S ».

k = 3 et S ≥ 2

A" T" G" C" A" T" C" C"

C" T" G" C" C" T" G" C"

0 1 1 Sc = 2 0 1 0 Sc = 1

27
Filtrage: sensibilité (seuil)

k = 3 et S ≥ 2

Seq A"
Seq A : A T G A A C T C T G A

A T G A A C T C T G A Seq B : A T G A T C T C T G A
Seq B"
A

T Score sur le mot



C
G A A
T G A T
C

T 1
+
1
+
0
= 2

G

28
Filtrage: sensibilité (seuil)

k = 3 et S ≥ 2

Seq A"
Seq A : A T G A A C T C T G A

A T G A A C T C T G A Seq B : A T G A T C T C T G A
Seq B"
A

T Score sur le mot



C
A A C
T A T C
C

T 1
+
0
+
1
= 2

G

29
Filtrage: sensibilité (seuil)

k = 3 et S ≥ 2

Seq A"
Seq A : A T G A A C T C T G A

A T G A A C T C T G A Seq B : A T G A T C T C T G A
Seq B"
A

A Avec fenêtre / Sans seuil


T
Avec fenêtre / Avec seuil
C

T
G

30
Filtrage: sensibilité (seuil)

k = 3 et S ≥ 2

Seq A"
Seq A : A T G A A C T C T G A

A T G A A C T C T G A Seq B : A T G A T C T C T G A
Seq B"
A

A Avec fenêtre / Sans seuil


T
C
Avec fenêtre / Avec seuil

T
Sans fenêtre
C

T
G

31
Interprétation

• Chaque diagonale représente un alignement possible.

Seq A" • un alignement possible:

Seq A: A C S G E E K S G D E!
Seq B" A C S G E E K S G D E | | | | | | | | | |!
Seq B: A C S G D E K S G D E!
A

C
• un autre alignement possible:
S

G Seq A: A C S G E E K S G D E - - - - -!
| | | | !
D Seq B: - - - - - A C S G D E K S G D E!
E

K • et un autre:
S
Seq A: - - - - - A C S G E E K S G D E!
G
| | |!
D Seq B: A C S G D E K S G D E - - - - -!
E

32
Interprétation

• Visualisation des insertions / délétions.

Seq A"
• un alignement possible:
A C S G K S G D E
Seq B" Seq A: A C S G - - K S G D E!
A
| | | | | | | | |!
C Seq B: A C S G D E K S G D E!
S
• un autre alignement possible:
G

D Seq A: A C S G K S G D E - - - - -!
| | | | | | !
E
Seq B: A C S - - - G D E K S G D E!
K

G
D

33
Similitudes locales

helix-loop-helix (bHLH) domain

34
Domaines répétés

Interactin A precursor de
Listeria Monocytogenese

Région riche en leucines Région répétée


35
Localisation de régions codantes

Intron

Fragment d’ADN de souris contenant de l’hémoglobine (horizontal) /ARNm


humain de l’hémoglobine (vertical)

36
Région de faible complexité

Serine-repeat antigen
protein precursor de
Plasmodium falciparum

37
Domaines conservés

ATP synthase gamma chain

38
Matrice « dotplot »

• Outil graphique: simple, visuel.

• Très informatif:
 zones de similitudes globales ou locales entre deux séquences
 repérer des répétitions, des zones de faible complexité …
 pas ou peu de perte d’information (filtrage non obligatoire)

• Aucun autre programme ne peut fournir autant d’informations.

• Inconvénients:
 difficulté pour quantifier la ressemblance
 résultats difficilement manipulables
 difficulté d’étendre l’application à la comparaison simultanée de
plus de deux séquences.

39
Introduction aux analyses de
séquences

I. Introduction
II. Alignement de deux séquences
1. Principes et définitions
2. Méthodes d’alignement
1. Méthode graphique
2. Programmation dynamique

3. Matrices de substitution

40
Alignements

• Trouver l’alignement de score optimal entre 2 séquences étant donné


un système de score (identité, substitutions, insertions et délétions).
• Obligation de générer tous les alignements!

Score identité = 2, Score substitution = 1, Score gap = -2

A T C! A T C -! A - T C! A T C -!
| : |! 5 | :! -1 | : ! -1 | |! 0
A C C! A C - C! A C C -! A - C C!

A - T C! - A T C! - A T C! - A T C!
| |! 0 : :! -2 : |! -1 : |! -1
A C - C! A C C -! A C - C! A - C C!

A T C - -! - A T C -! - - - A T C!
| ! -6 : ! -7 -12 etc …
A - - C C! A C - - C! A C C - - -!

41
Combien d’alignements possibles
entre 2 séquences?

• Pour 2 séquences de longueur: 1µs/alignement

5: 252 0.00252s
10: 184756 0.18s
20: 137846528820 38h
50: 100891344545564193334812497256 3197053785635200 ans

n
> 3 alignements possibles entre 2 séquences

Algorithme
d’optimisation

42
Programmation dynamique:
alignement global

• Comment trouver le score (S) de l’alignement global « optimal » quand


l’énumération exhaustive est impossible?

Programmation dynamique

• Décomposition du problème en plusieurs instances plus faciles à résoudre.

• Résolution de ces instances intermédiaires.

• Stockage de ces instances dans un tableau/graphe.

• L’alignement est un chemin à travers le graphe.

43
Programmation dynamique:
alignement global

A - C A - C A!
| | | |!
A C C A A C -!

Le graphe L’alignement global

44
Programmation dynamique: « principe »

A T G!
?!
C T G!

A T G! -! A T! G! A T! G!
?! ?! ?!
C T! G! C T! G! C T G! -!

A! T! A T! -! A! T!
?! ?! ?!
C T! G! C T! G! C T G! -!

A! T! A T! -! A! T!
?! ?! ?!
C! T! C! T! C T! -!

A T – G!
C T G -! A!-! A! A!
?! ?!
C! C! C! -!

45
Programmation dynamique:
alignement global

A T G!
?!
C T G!

A T G! -! A T! G! A T! G!
?! ?! ?!
C T! G! C T! G! C T G! -!

A T! G! A T G! -! A T! G! A! T! A T! -! A! T! A! T! A T! -! A! T!
?! ?! ?! ?! ?! ?! ?! ?! ?!
C! T! C! T! C T! -! C! T! C! T! C T! -! C T! G! C T! G! C T G! -!

A! T! A T!-! A! T! A! T! A T!-! A! T! A! T! A T!-! A! T! A! A! -! A! A! A! -! A!


?! ?! ?! ?! ?! ?! ?! ?! ?! ?! ?! ?! ?! ?! ?!
C! C! C! -! C! T! C! T! C T!-! C! C! C! -! C! T! C! T! C T!-! C T!G! C T!G! C T G!-!

A T! G! A T G! -! A T! G! A! A! A! -! A! A! T! A T!-! A! T!
?! ?! ?! ?! ?! ?! ?! ?! ?! ?! ?!
C! C! C! -! C! C! T! C! T! C T!-! C! T! C! T! C T!-!

46
Programmation dynamique:
alignement global

• Tous les sous-problèmes sont stockés dans un graphe.

A
T
G

-! A! A T! A T G!
?! ?! ?!
-!

A! A T! A T G!
C
?! ?! ?! ?!
C! C! C! C!

A! A T! A T G!
T
?! ?! ?! ?!
C T! C T! C T! C T!

A! A T! A T G!
G
?! ?! ?! ?!
C T G! C T G! C T G! C T G!

• Les cellules du graphe sont remplies sans se préoccuper si les sous-


problèmes sont utiles ou non.

• Le nombre de calcul est réduit de (3n) à (n x m). ( pour n=100, 104 calculs )

47
Programmation dynamique:
alignement global

• Initiation du graphe

A
T
G

-! A! A T! A T G!
?! ?! ?!
-!

C
?!
C!

T
?!
C T!

G
?!
C T G!

48
Programmation dynamique:
alignement global

• Remplissage de chaque case: garder la meilleur solution parmi trois.

A
T
G

-! A! A T! A T G!
?! ?! ?!
-!
?
A!
C
?! ?!
C! C!

T
?!
C T!

G
?!
C T G!

49
Programmation dynamique:
alignement global

• Remplissage de chaque case: garder la meilleur solution parmi trois.

A
T
G

-! A! A T! A T G!
?! ?! ?!
-!

A!
? A T!
C
?! ?! ?!
C! C! C!

T
?!
C T!

G
?!
C T G!

50
Programmation dynamique:
alignement global

• Score optimum de l’alignement global des deux séquences.

A
T
G

-! A! A T! A T G!
?! ?! ?!
-!

A! A T! A T G!
C
?! ?! ?! ?!
C! C! C! C!

A! A T! A T G!
T
?! ?! ?! ?!
C T! C T! C T! C T!

A! A T! A T G!
G
?! ?! ?! ?!
C T G! C T G! C T G! C T G!

51
Alignement global:
Needleman & Wunsch (1970)

Sc( ai , bj) = 4 si i = j!
Système de score Sc( ai , bj) = -1 si i ≠ j!
Sc( ai , --) = Sc( - , bj) = -1 !

G A T C T

0 -1 -2 -3 -4 -5

A -1 -1 3 2 1 0

G A T C - T -! G -2 3 2 2 1 0
| | |!
- A G C G T C
C -3 2 2 1 6 5

G -4 1 1 1 5 5
T -5 0 0 5 4 9

C -6 -1 -1 4 9 8

52
Alignement global:
Needleman & Wunsch (1970)

Sc( ai , bj) = 4 si i = j!
Système de score Sc( ai , bj) = -1 si i ≠ j!
Sc( ai , --) = Sc( - , bj) = -1 !

G A T C T

0 -1 -2 -3 -4 -5
- G A - T C T!
| | |!
A -1 -1 3 2 1 0
A G C G T C - !
G -2 3 2 2 1 0
- G - A T C T!
| | |!
C -3 2 2 1 6 5
A G C G T C -!
G -4 1 1 1 5 5
T -5 0 0 5 4 9

C -6 -1 -1 4 9 8

53
Alignement global:
Sensibilité aux paramètres

Sc( ai , bj) = 4 si i = j!  Pénalité sur les



Système de score
Sc( ai , bj) = 2 si i ≠ j! insertions et les délétions

Sc( ai , --) = Sc( - , bj) = -4 !Substitutions favorisée

G A T C T

0 -4 -8 -12 -16 -20


G A T C T -!
|! A -4 2 0 -4 -8 -12 L’alignement optimal

A G C G T C! obtenu dépend du

G -8 0 4 2 -2 -6 « système de score »

choisi

- G A T C T! C -12 -4 2 6 6 2
| !
A G C G T C! G -16 -8 -2 4 8 8

T -20 -12 -6 2 6 12

C -24 -16 -10 -2 6 8

54
En résumé

• 2 séquences peuvent toujours être alignées.

• Plusieurs alignements sont possibles.

• Nécessité d’utiliser un système de score.

• Plusieurs alignements optimaux possibles (même score).

• Si le système de score est différent, les alignements optimums

sont différents.

• Un alignement résulte d’un algorithme et d’un calcul.

• La déduction biologique viendra de votre interprétation des

résultats.

55
Introduction aux analyses de
séquences

I. Introduction
II. Alignement de deux séquences
1. Principes et définitions
2. Méthodes d’alignement
3. Matrices de substitution

56
Les systèmes de scores

• Coût à attribuer aux opérations élémentaires de comparaison de


séquences: « identité, substitution, délétion et insertion ».

• Besoin de systèmes de scores qui soient « biologiquement »


pertinents.

• Le choix du système de scores dépend de la relation recherchée entre


les séquences:

 relation structurale: propriétés physico-chimiques


 relation d’homologie: évolution moléculaire

• Obtenir l’alignement de score maximum qui soit l’alignement le plus


biologiquement significatif.

57
Matrices de scores pour l’ADN

• La matrice identité A C G T
A 1 0 0 0
match 1 C 0 1 0 0
mismatch 0 G 0 0 1 0
T 0 0 0 1

• La matrice de transition/transversion

A C Identité: 3 A C G T
A 3 0 1 0
C 0 3 0 1
Transition: 1
G 1 0 3 0
G T
T 0 1 0 3
Transversion: 0

A C G T
A 1 -3 -3 -3
C -3 1 -3 -3

• La matrice identité dans BLAST G -3 -3 1 -3


T -3 -3 -3 1

58
Matrices liées à l’évolution
moléculaire

• Pour chaque acide aminé, une matrice de substitution définit le score


élémentaire à affecter :

 à la conservation d’un acide aminé.


 au remplacement d’un acide aminé par un autre.

• Elles sont construites à partir de substitutions observées entre acides


aminés au cours de l’évolution moléculaire.

• Ces substitutions sont observées à partir d’alignements multiples de


protéines homologues. Les probabilités ainsi calculées sont les
probabilités de substitutions conservatives vis-à-vis de la fonction.

59
Matrices liées à l’évolution
moléculaire

• Deux grandes familles de matrice: « log odds »

 Matrices PAM (Dayhoff - 1978)


 Matrice BLOSUM (Henikoff & Henikoff - 1992)

• Principe:

 alignement de protéines
 calcul des fréquences de substitutions observées (qij)
 calcul des fréquences de substitutions théoriques
 pi: fréquence de l’acide aminé i dans le jeu de séquences
 pi×pj: fréquence de substitution de i par j si elle se faisait par hasard
 calcul d’un quotient: Rij=qij/pipj
 si Rij > 1 : substitution i par j favorisée au cours de l’évolution
 si Rij < 1 : substitution i par j défavorisée au cours de l’évolution
 calcul de la « log-odds matrix »: Sij=λ log Rij

• Sij exprime le ratio entre la probabilité que 2 résidus i et j soient


alignés par descendance et la probabilité qu’ils soient alignés par
chance.

60
Matrice BLOSUM
(BLOcks Substitutions Matrices)

• Calcul de la fréquence de changements entre deux acides aminés avec


conservation de la structure 3D.

• Echantillons extraits de la banque BLOCKS: ≈2000 blocs à partir de 500


familles de protéines.

Un bloc est obtenu par alignement multiple sans insertion/


délétion de courtes régions protéiques très conservées

61
Matrice BLOSUM
(BLOcks Substitutions Matrices)

• Ces blocs sont utilisés pour regrouper tous les segments de séquences
ayant un pourcentage d’identité minimum au sein d’un bloc .

• Pour une distance évolutive donnée, les matrices sont dérivées


directement à partir des régions protéiques ayant un % d’identité donné.

BLOSUM-y : matrice obtenue à partir de séquences présentant au


minimum y% d’identité entre elles.

62
Exemples de « Matrice Blosum»

BLOSUM 80 BLOSUM 40

63
Choix de la matrice protéique

BLOSUM-y = y% d’identité entre les séquences

BLOSUM-80 BLOSUM-62 BLOSUM-45

- divergent + divergent

64
Exemples d’alignements

Global: seqpro1 vs seqpro2!


Score: 220.50!

seqpro1 1 MSLSSLTLDSNPRFAVGGPYHQEVDGLRESELAKSFIGTTKRGIG 45 !
: || | | :: | ||: |||| ||||!
seqpro2 1 VALD.NAR........EKARG......AKA.IGTTGRGIG 24 !

seqpro1 46 PAYSSKVIRNGIRVGDLRHMD...LPAAAQKLDLCGCLL.....E 82 !
• BLOSUM 80 ||| || | |:||||| | || ||||| || !
seqpro2 25 PAYEDKVARRGLRVGDL..FDKETLP...QKLDL...LLSDAAAR 61 !

seqpro1 83 FRGRF...PGHIIKL 94 !
|:| | | !
seqpro2 62 FQG.FKYTP 69 !

%id = 70.69% !similarity = 81.03!


Overall %id = 43.62 !Overall %similarity = 50.00!

Global: seqpro1 vs seqpro2!


Score: 155.00!

seqpro1 1 MSLSSLTLDSNPRFAVGGPYHQEVDGLRESELAKSFIGTTKRGIG 45 !
:| || |||| ||||!
seqpro2 1 VALDNAREKARGAKAIGTTGRGIG 24 !

seqpro1 46 PAYSSKVIRNGIRVGDLRHMD.LPAAAQKLDLCGCLLEFRGRFPG 89 !
• BLOSUM 45 ||| || | |:||||| : || ||||| | : || |!
seqpro2 25 PAYEDKVARRGLRVGDLFDKETLP...QKLDL..LLSDAAARFQG 64 !

seqpro1 90 HIIKL 94 !
| !
seqpro2 65 ..FKYTP 69 !

%id = 53.03% !similarity = 59.09!


Overall %id = 37.23 !Overall %similarity = 41.49!

65
Merci

66

Vous aimerez peut-être aussi