Académique Documents
Professionnel Documents
Culture Documents
Bioinformatique 2020
Bioinformatique 2020
• M.Djoudi Brahim
• Docteur en Informatique
• Faculté des science de la nature et de la vie
• Département de Biochimie et Biologie cellulaire et moléculaire
• Email (meilleure façon de me contacter): DjoudiBrahim@hotmail.fr
OBJECTIFS
nouvelles
hypothèses /
données. Émettre / tester
• Ce sont les mutations qui, au cours de l’évolution
COMPARER EN BIOLOGIE naturelle, causent des modification au moment
de la réplication de l’ADN ;
Spéciation
Gene-A Gene-B
1 2 3 4 5 6 7 8 9 10
A G V S I L N Y A ----
--- ---- V S I G Y A K R
• Exemple :
ALIGNEMENT DE SÉQUENCES
1 2 3 4 5 6 7 8 9 10
A G V S I L N Y A ----
• En pratique, l’évolution a pu faire
disparaître (délétion) ou apparaître --- ---- V S I G Y A K R
Global
Alignements Alignement
par paire Multiples
Local
Alignement Multiples
MATRICE DE SCORE
Matrices nucléiques
MATRICE DE SUBSTITUTION
PAM
Besoin d’un systèmes de score qui :
• Modélise le changement des séquences par
rapport au temps d'évolution.
• Favorise les acides aminés identiques ou
apparentés
• Pénalise des acides aminés mal appariés ou des gap
Matrice De Substitution
Les deux types de matrice utilisent des scores basés sur la BLOSUM
comparaison entre la fréquence observée des
substitutions et leur fréquence attendue
"POINT ACCEPTED MUTATION"
• Quand on fait un alignement, on doit choisir l’une des matrices de cette série, en
tenant compte du taux de différences entre les deux séquences qu’on veut aligner.
"POINT ACCEPTED MUTATION"
PAM 250
bloc d’alignement multiple
BLOCKS OF AMINO ACID
SUBSTITUTION MATRIX
L’alignement, permet de mesurer la similitude entre les séquences. S’il y a similitude, cela
signifie qu’il est possible que les deux séquences présentent la même fonction
biologique, ou du moins les deux séquences présente une structure fortement similaire.
Global
Alignements Alignement
par paire Multiples
Local
Alignement Multiples
• L’algorithme de l’alignement Globale était
proposé par Saul Needleman et Christian
Wunsch en 1970
3. Génération de l’alignement
ALIGNEMENT GLOB AL
M P R C L C Q R
Identité C
Substitution Indel
K
• Dans ce exemple nous allons utiliser les
valeur suivant: C
D
Identité=3 Substitution= -1 Indel= -2
ALIGNEMENT GLOB AL
M P R C L C Q R
1. Remplir une matrice des scores
0 -2 -4 -6 -8 -10 -12 -14 -16
P -2 D(i,j)
C -12
R -14
Identité=3 Substitution= -1 Indel= -2
ALIGNEMENT GLOB AL
M P R C L C Q R
1. Remplir une matrice des scores -2 -4
0 -6 -8 -10 -12 -14 -16
• Pour le remplir une case D(i,j) en utilise les -1 -4
équations suivant : P
-2
-1
-4
Identité ( i , j ) Y -4
D ( i-1 , j-1 ) +
Substitution ( i , j ) R -6
=Max D ( i-1 , j ) + Indel ( i , j ) C -8
K -10
D ( i , j-1 ) + Indel ( i , j )
C -12
R -14
D
Identité=3 Substitution= -1 Indel= -2
ALIGNEMENT GLOB AL
M P R C L C Q R
1. Remplir une matrice des scores -4
0 -2 -6 -8 -10 -12 -14 -16
• Pour le remplir une case D(i,j) en utilise les 1 -6
équations suivant : P -2 -1 1
-3
Identité ( i , j ) Y -4
D ( i-1 , j-1 ) +
Substitution ( i , j ) R -6
=Max D ( i-1 , j ) + Indel ( i , j ) C -8
K -10
D ( i , j-1 ) + Indel ( i , j )
C -12
R -14
D
Identité=3 Substitution= -1 Indel= -2
ALIGNEMENT GLOB AL
M P R C L C Q R
-1 1 0 2 5 4 7 6 8 K -10 -9 -7 -2 3 4 2 0 -2
M P -- R C L C Q R C -12 -11 -9 -4 1 2 7 5 3
-- P Y R C K C -- R
R -14 -13 -11 -6 -1 0 5 6 8
D
ALIGNEMENT GLOB AL
? ? ? ? ? ? ? ?
-2 -4
? -1 1 -1
? -3 2 0 -2
• Problème:
Le retour arrière commence à la position dans ? 0 1 3
la dernière ligne avec la plus haute valeur, si on a
les mêmes valeur on fait quoi ? ? -2 3 2 2
? 2 7 5 3
? 0 5 6 8
D
ALIGNEMENT GLOB AL
? ? ? ? ? ? ? ?
D
Score d’Identité :
ALIGNEMENT GLOB AL
la mesure dans laquelle deux séquences sont
invariantes. Une mesure très médiocre car elle ne
tient pas compte des subtilités des relations de
séquence (par exemple une petite région d'un
domaine hautement conservé au sein de deux
séquences qui sont autrement très mal
conservées).
M P R C L C Q R
P -2 -1 1 -1 -3 -5 -7 -9 -11
-1 1 0 2 5 4 7 6 8
M P -- R C L C Q R Y -4 -3 -1 0 -2 -4 -6 -8 -10
-- P Y R C K C -- R R -6 -5 -3 2 0 -2 -4 -6 -5
C -8 -7 -5 0 5 3 1 -1 -3
ü S = (5 * 3) + (1 * -1) + (3 * -2) = 8
K -10 -9 -7 -2 3 4 2 0 -2
C -12 -11 -9 -4 1 2 7 5 3
D
M P -- R C L C Q R
-- P Y R C K C -- R
ü S = (5 * 3) + (1 * -1) + (2 * -2) = 10
1. Donner l’alignement des deux
sequences suivant :
1. Sequence 1 : A G V S I L N Y A
2. Sequence 2 : V S I L Y A K
A FAIRE
En utilisant les scores suivant :
Id=2, Sub=0, Gap=-1
2. Calculer le score d’alignement
1. Donner l’alignement des deux
sequences suivant :
1. Sequence 1 : MPRCLCQRINCYA
2. Sequence 2 : PYRCKCRNICIA
A FAIRE
En utilisant les scores suivant :
Id=2, Sub=-1, Gap=-2
2. Calculer le score d’alignement
RÉFÉRENCES
• PAM series
• Dayhoff, M. O., Schwartz, R. M. & Orcutt, B. (1978). A model of
evolutionary change in proteins. Atlas of Protein Sequence and
Structure 5, 345--352.
• BLOSUM substitution matrices
• Henikoff, S. & Henikoff, J. G. (1992). Amino acid substitution
matrices from protein blocks. Proc Natl Acad Sci U S A 89,
10915-9.
• Il s’agit d’un algorithme de programmation
dynamique pour l’alignement global et
optimal entre deux séquences.
3. Génération de l’alignement
ALIGNEMENT GLOB AL se
V T E E R D A F
L
1. Remplir une matrice des scores
T
S
• On doit initialiser la matrice (se) ( matrice
initiale ) à partir d’une des matrice de H
substitution (PAM_,BLOSUM_). E
L
1. Remplir une matrice des scores
se
V T E E R D A F
L
1. Remplir une matrice des scores
se
V T E E R D A F
L 2 -2 -3 -3 -3 -4 -2 2
T 0 3 0 0 -1 0 1 -3
S -1 1 0 0 0 0 1 -3
H -2 -1 1 1 2 1 -1 -2
E -2 0 4 4 -1 3 0 -5
A 0 1 0 0 -2 0 2 -4
L 2 -2 -3 -3 -3 -4 -2 2
ALIGNEMENT GLOB AL S
V T E E R D A F
L 2
1. Remplir une matrice des scores
T -3
S -3
• Garder que les valeurs des dernières ligne et
colonne, et supprimer les autres valeurs H -2
E -5
• La nouvelle matrice (matrice transformé) est
appeler S A -4
L 2 -2 -3 -3 -3 -4 -2 2
ALIGNEMENT GLOB AL S
V T E E R D A F
L 2
1. Remplir une matrice des scores
T -3
S (i+1,j+1)
S -3
S(i,j) = se(i,j) + MAX S (X,j+1) -P H -2
S (i+1,Y) -P E -5
A S(i,j) -4
J=0 1 2 3 4 5 6 7 8
1. Remplir une matrice des scores i=0 V T E E R D A F
S (i+1,j+1) 1 L 2
S (i+1,Y) 3 S -3
4 H -2
S (7,8)
5 E -5
S(6,7) = se(6,7) + MAX S (X,8)
6 A -4
S (7,Y) 7 L 2 -2 -3 -3 -3 -4 -2 2
ALIGNEMENT GLOB AL
se
V T E E R D A F
1. Remplir une matrice des scores
S (7,8) L 2 -2 -3 -3 -3 -4 -2 2
S
T 0 3 0 0 -1 0 1 -3
S(6,7) = se(6,7) + MAX S (X,8) J=
1 2 3 4 5 6 7 8
S -1 1 0 00 0 0 1 -3
S (7,Y) i=
H -2 -1 10 1 V 2 T 1E E-1 R -2D A F
1 L 2
E -2 0 4 4 -1 3 0 -5
2 T -3
2
A 0 1 03 S0 -2 0 2 -4 -3
S (7,Y) 6 A -4
7 L 2 -2 -3 -3 -3 -4 -2 2
J=0 1 2 3 4 5 6 7 8
1 L 2
1. Remplir une matrice des scores 2 T -3
2 3 S -3
S(6,7) = 2 + MAX S (X,8) 4 H -2
S (7,Y) 5 E -5
6 A -4
7 L 2 -2 -3 -3 -3 -4 -2 2 X X
S(6,7) = 2 + 2 = 4 Y
Pas de valeur pour les X et Y Y
ALIGNEMENT GLOB AL
se
S (7,7) L 2 -2 -3 -3 -3 -4 -2 2
S
T 0 3 0 0 -1 0 1 -3
S(6,6) = se(6,6) + MAX S (X,7) J=
1 2 3 4 5 6 7 8
S -1 1 0 0 00 0 1 -3
S (7,Y) i=
H -2 -1 1 10 2 V 1T E-1 E -2R D A F
1 L 2
E -2 0 4 4 -1 3 0 -5
2 T -3
-2
A 0 1 0 0
3 S -2 0 2 -4 -3
S (7,Y) 6 A 4 -4
7 L 2 -2 -3 -3 -3 -4 -2 2
J=0 1 2 3 4 5 6 7 8
1 L 2
1. Remplir une matrice des scores 2 T -3
-2 3 S -3
S(6,6) = 0 + MAX 2 4 H -2
S (7,Y) 5 E -5
6 A 44 -4
7 L 2 -2 -3 -3 -3 -4 -2
-2 22 X
S(6,6) = 0 + 2 = 2 Y
Y
J=0 1 2 3 4 5 6 7 8
1 L 2
1. Remplir une matrice des scores 2 T -3
-4 3 S -3
S(5,7) = 0 + MAX S(X,8) 4 H -2
E 4-5
2 5
6 A 2 3 2 2 0 2 4 -4 X X
7 L 2 -2 -3 -3 -3 -4 -2 2
S(6,7) = 0 + 2 = 2 Y
J=0 1 2 3 4 5 6 7 8
1 L 2
1. Remplir une matrice des scores 2 T -3
3 3 S -3
S(4,4) = 1 + MAX 7 4 H 9 5 1 -2
3 5 E 2 4 8 8 33 77 22 -5
-5
6 A 2 3 2 2 00 2 4 -4
7 L 2 -2 -3 -3 3-3 -4 -2 2
S(4,4) = 1 + 7 = 8
ALIGNEMENT GLOB AL
J=0 1 2 3 4 5 6 7 8
i=0 V T E E R D A F
1. Remplir une matrice des scores 1 L 2
2 T -3
3 S -3
4 H 9 5 1 -2
5 E 2 4 8 8 3 7 2 -5
6 A 2 3 2 2 0 2 4 -4
7 L 2 -2 -3 -3 -3 -4 -2 2
S
ALIGNEMENT GLOB AL
J=0 1 2 3 4 5 6 7 8
i=0 V T E E R D A F
2. Retour arrière (Backtracing)
1 L 14 7 6 6 4 4 0 2
• Le retour arrière commence à la position 2 T 10 12 9 9 6 4 3 -3
dans la dernière ligne avec la plus haute
valeur 3 S 8 10 9 9 7 4 3 -3
4 H 6 7 9 8 9 5 1 -2
5 E 2 4 8 8 3 7 2 -5
6 A 2 3 2 2 0 2 4 -4
7 L 2 -2 -3 -3 -3 -4 -2 2
S
ALIGNEMENT GLOB AL
J=0 1 2 3 4 5 6 7 8
i=0 V T E E R D A F
2. Retour arrière (Backtracing)
1 L 14 7 6 6 4 4 0 2
• Le retour arrière commence à la position 2 T 10 12 9 9 6 4 3 -3
dans la dernière ligne avec la plus haute
valeur 3 S 8 10 9 9 7 4 3 -3
3. Génération de l’alignement 4 H 6 7 9 8 9 5 1 -2
1 2 3 4 5 6 7 8 9 5 E 2 4 8 8 3 7 2 -5
V T --- E E R D A F 6 A 2 3 2 2 0 2 4 -4
L T S H E --- --- A L
7 L 2 -2 -3 -3 -3 -4 -2 2
14 12 9 8 4 2 S = 49
A FAIRE
L I B R E S E Q E N
0 0 0 0 0 0 0 0 0 0 0
1. Remplir une matrice des scores
S 0
C 0
E 0
D
Identité=2 Substitution= 0 Indel= -1
ALIGNEMENT LOC AL
L I B R E S E Q E N
1. Remplir une matrice des scores
0 0 0 0 0 0 0 0 0 0 0
• Pour le remplir une case D(i,j) en utilise les 0 -1
équations suivant :
S 0
-1 0
E 0
Identité ( i , j )
D ( i-1 , j-1 ) +
Q 0
Substitution ( i , j )
=Max A 0
D ( i-1 , j ) + Indel ( i , j )
N 0
D ( i , j-1 ) + Indel ( i , j )
C 0
0 E 0
D
Identité=2 Substitution= 0 Indel= -1
ALIGNEMENT LOC AL
L I B R E S E Q E N
1. Remplir une matrice des scores
0 0 0 0 0 0 0 0 0 0 0
• Pour le remplir une case D(i,j) en utilise les S 0 0 0 0 0 0 2 1 0 0 0
équations suivant :
E 0 0 0 0 0 2 1 4 3 2 1
Identité ( i , j )
D ( i-1 , j-1 ) +
Q 0 0 0 0 0 1 2 3 6 5 4
Substitution ( i , j )
=Max A 0 0 0 0 0 0 1 2 5 6 5
D ( i-1 , j ) + Indel ( i , j )
N 0 0 0 0 0 0 0 1 4 5 8
D ( i , j-1 ) + Indel ( i , j )
C 0 0 0 0 0 0 0 0 3 4 7
0 E 0 0 0 0 0 2 1 2 2 5 6
D
Identité=2 Substitution= 0 Indel= -1
ALIGNEMENT LOC AL
L I B R E S E Q E N
A 0 0 0 0 0 0 1 2 5 6 5
8 6 6 4 2 N 0 0 0 0 0 0 0 1 4 5 8
N E Q E S C 0 0 0 0 0 0 0 0 3 4 7
N A Q E S E 0 0 0 0 0 2 1 2 2 5 6
D
Identité=2 Substitution= 0 Indel= -1
ALIGNEMENT LOC AL
L I B R E S E Q E N
3. Génération de l’alignement 0 0 0 0 0 0 0 0 0 0 0
S 0 0 0 0 0 0 2 1 0 0 0
8 6 6 4 2
E 0 0 0 0 0 2 1 4 3 2 1
N E Q E S
N A Q E S Q 0 0 0 0 0 1 2 3 6 5 4
A 0 0 0 0 0 0 1 2 5 6 5
N 0 0 0 0 0 0 0 1 4 5 8
SEQ1: LIB R E SEQEN _ _
|| | | C 0 0 0 0 0 0 0 0 3 4 7
SEQ2: _ _ _ _ _SEQ AN C E
E 0 0 0 0 0 2 1 2 2 5 6
D
• Le choix de l’alignement global ou local
revient donc à l’utilisateur biologiste en
fonction des objectifs poursuivis.
GLOBAL
ALIGNEMENTS
PAR PAIRE ALIGNEMENT
S MULTIPLES
LOCAL
ALIGNEMENTS MULTIPLES
ALIGNEMENTS MULTIPLES
Vous pourriez faire une mauvaise
hypothèse et une inférence incorrecte.