Matthieu Basseur
Sommaire
Introduction à la bioinformatique
Notions de base
Alignement 2 à 2 de séquences
Alignement multiple de séquences
Phylogénie
2
Sommaire
Introduction à la bioinformatique
Bio-informatique?
Notions de biologie moléculaire
Notions de base
Alignement 2 à 2 de séquences
Alignement multiple de séquences
Phylogénie
3
Bioinformatique ?
5
Corps – cellules - atomes
6
La cellule
1. Nucléole
8. Réticulum endoplasmique lisse
2. Noyau
9. Mitochondrie
3. Ribosome
10. Vacuole
4. Vésicule
11. Cytoplasme
5. Réticulum endoplasmique rugueux (granuleux)
12. Lysosome
6. Appareil de Golgi
13. Centrosome
7. Microtubule
7
Les chromosomes
9
ADN : Taille des génomes
C. elegans : 100 Mb
10
ADN
11
ADN
12
ADN → Protéines
13
ADN → Protéines
14
ADN → Acides aminés
20 Acides aminés :
Acide aspartique
Acide glutamique
Alanine
Arginine
Asparagine
Cystéine
Glutamine
Glycine
Histidine
Isoleucine
Leucine
Lysine
Phénylalanine
Proline
Sérine
Thréonine
Tryptophane
Tyrosine
Valine
Méthionine/Start
Stop
15
ADN → Acides aminés
Codon Stop : marque la fin de la traduction d'un gène en protéine. Il n'est en général
jamais traduit car il n'existe pas d'ARN de transfert correspondant (il existe 2 acides
aminés supplémentaires, la sélénocystéine et la pyrrolysine qui sont insérés lorsqu'un
codon STOP particulier est rencontré).
16
Structure des protéines
La structure des protéines est la composition en acides aminés et la
conformation en trois dimensions des protéines. Elle décrit la position relative
des différents atomes qui composent une protéine donnée.
Structure primaire : succession linéaire des acides aminés la constituant
Gly-Ile-Val-Glu-Gln-Cys-Cys-Ala-Ser-Val-Cys-Ser
Helice α
17
Structure des protéines
Structure tertiaire : correspond au repliement de la chaîne
polypeptidique dans l'espace (structure 3D).
La structure 3D d'une protéine est
intimement liée à sa fonction : lorsque
cette structure est cassée, la protéine
perd sa fonction (elle est dénaturée)
18
Séquençage de l’ADN
Séquençage de l’ADN :
Consiste à déterminer l'ordre d'enchaînement des nucléotides d’un
fragment d’ADN donné
Techniques de séquençage apparues fin des années 70 (séquenceurs
automatiques : années 90)
Méthodes de Sanger et de Gilbert
Prix nobel de chimie en 1980
Sanger (UK) : Synthèse enzymatique sélective
Gilbert (USA) : Dégradation chimique sélective
Méthode de Sanger souvent utilisée actuellement
méthode de Gilbert : limites de taille, toxicité, difficile à mettre en œuvre
premier organisme séquencé en 1977 : virus bactériophage X174
19
Séquençage de l’ADN
20
Sommaire
Introduction à la bioinformatique
Notions de base
Alignement 2 à 2 de séquences
Alignement multiple de séquences
Phylogénie
21
Vocabulaire - récapitulatif
22
Définitions - Alphabet
Alphabet
Définition : un alphabet Σ est un ensemble fini de symboles distincts {a0,
a1, …, an}. Dans le cas de séquences d'ADN ou d'acides aminés on définit
a0 comme étant le symbole vide ou gap et est représenté par le
caractère « - »
Alphabet de l’ADN (bases azotées)
L’alphabet des molécules d’ADN est composé de 5 symboles: ΣADN =
{−,A,C,G,T}
{−,A,C,G,T} représentent respectivement un gap, l’Adénine, la Cytosine,
la Guanine et la Thymine
Alphabet des Acides aminés
L’alphabet des acides aminés est composé de 21 symboles
ΣAA ={−,A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y} qui représentent les
différents acides aminés
23
Définitions - Séquences
24
Généralités – événement mutationnel
25
Sommaire
Introduction à la bioinformatique
Notions de base
Alignement 2 à 2 de séquences
Introduction / Score d’un alignement
Formulation / Résolution exacte
Alignement global : Needlemann-Wunsch
Alignement local : Smith-Waterman
Modèles de gaps : autres alignements 2 à 2
Alignement multiple de séquences
Phylogénie
26
Alignement de séquences
CAGCA-CTTGGATTCT-GG
CAGC---TTG--TACTCGG
Utilité de l'alignement :
identifier des sites fonctionnels
prédire la ou les fonctions d'une protéine
prédire la structure secondaire (voire tertiaire ou quaternaire) d'une
protéine
établir une phylogénie (évolution: parenté entre les organismes)
27
Alignement de séquences
28
Alignement de séquences
29
Somme des paires
A C C G A T G A
A C – G C T - A
3 +3 -2 +3 -1 +3 -2 +3 = 10
30
Somme des paires
- A C G T
Exemple (matrice de substitution) : - -4 -4 -4 -4
A G T T G T T C
T G – G G T A C
-1 +5 -4 -2 +5 +7 -1 +5 = 14
31
Alignement de séquences
32
Matrices de substitution
Matrices nucléiques
Il existe peu de matrices pour les acides nucléiques car il n'y a que 5 lettres pour
leur alphabet
La plus fréquemment utilisée est la matrice dite unitaire (ou matrice identité) où
toutes les bases sont considérées comme équivalentes
- A C G T
- 0 0 0 0
A 0 1 0 0 0 Match : 1
Mismatch : 0
C 0 0 1 0 0
Indel : 0
G 0 0 0 1 0
T 0 0 0 0 1
34
Résolution exacte
k =0
Longueur des 1 2 3 4 5 6
séquences
Algorithme de Needleman-Wunsch
1970 : A general method applicable to the search for similarities in the amino
acid sequence of two proteins, J Mol Biol. 48(3):443-453
48
effectue un alignement global de deux séquences, de manière optimale
première application de la programmation dynamique pour la comparaison de
séquences biologiques
35
Programmation dynamique - exemple
Suite de Fibonacci :
– La suite de Fibonacci est donnée par la formule récurrente :
• Fib(0) = 0
• Fib(1) = 1
• Fib(n) = Fib(n-1) + Fib(n-2)
– Pour calculer Fib(n) on peut définir naturellement un algorithme
récursif :
36
Programmation dynamique - exemple
24 appels récursifs pour Fib(6) – 40 pour 7, 66 pour 8…
Calculs redondants (exponentiels en fonction de n)
Il faut stocker les résultats intermédiaires
5 4
4 3 3 2
3 2 2 1 2 1 1 0
2 1 1 0 1 0 1 0
1 0
37
Programmation dynamique - exemple
On enregistre les valeurs de Fib(n) une fois calculées
– il suffit d'évaluer les Fib(n) dans l'ordre croissant des n
39
Algorithme de Needleman-Wunsch
42
Algorithme de Needleman-Wunsch
43
Algorithme de Needleman-Wunsch
44
Algorithme de Needleman-Wunsch
45
Algorithme de Needleman-Wunsch
46
Algorithme de Needleman-Wunsch
47
Algorithme de Needleman-Wunsch
48
Algorithme de Needleman-Wunsch
substitution
insertion délétion ou
identité
Remarques :
En général plusieurs chemins sont possibles
On peut construire un chemin en ‘descendant’ le tableau (mais pas tous)
51
Algorithme de Needleman-Wunsch
Complexité de l’algorithme
Pour le calcul du score d'alignement (étape 1) :
O(n * m) en temps
O(min(n,m)) en espace
52
Algorithme de Needleman-Wunsch
ACGGCT-ATC
alignement optimal
ACTG-TAATG
53
Exemple 2
- A C G T
- -2 -2 -2 -2
Match : 2
A -2 2 -1 -1 -1
Mismatch : -1
C -2 -1 2 -1 -1 Indel : -2
G -2 -1 -1 2 -1
T -2 -1 -1 -1 2
54
Exemple 2
- A C C G A T G A
- 0 -2 -4 -6 -8 -10 -12 -14 -16
A -2
C -4
G -6
C -8
T -10
A -12
Initialisation
55
Exemple 2
56
Exemple 2
57
Exemple 2
58
Exemple 2
59
Exemple 2
62
Alignement d’acides aminés
63
Exercice
Séquences ADN :
Aligner les séquences ADN suivantes :
ACGGATTACG
CGCGTATTG
Match 2, Mismatch -2, Indel -3
Séquences protéiques :
Aligner les séquences protéiques suivantes :
STRLPTF
SRAGDVPY
Matrice BLOSUM62 (Indel -4)
64
Exercice : correction
- A C G G A T T A C G
- 0 -3 -6 -9 -12 -15 -18 -21 -24 -27 -30
C -3 -2 -1 -4 -7 -10 -13 -16 -19 -22 -25
G -6 -5 -4 1 -2 -5 -8 -11 -14 -17 -20
C -9 -8 -3 -2 -1 -4 -7 -10 -13 -12 -15
G -12 -11 -6 -1 0 -3 -6 -9 -12 -15 -10
T -15 -14 -9 -4 -3 -2 -1 -4 -7 -10 -13
A -18 -13 -12 -7 -6 -1 -4 -7 -2 -5 -8
T -21 -16 -15 -10 -9 -4 1 -2 -5 -8 -11
T -24 -19 -18 -13 -12 -7 -2 3 0 -3 -6
G -27 -22 -21 -16 -11 -10 -5 0 1 -2 -1
- S T R L P T F
- 0 -4 -8 -12 -16 -20 -24 -28 Alignement
optimal :
S -4 4 0 -4 -8 -12 -16 -20
R -8 0 3 5 1 -3 -7 -11 S--TRLPTF
SRAGDVP-Y
A -12 -4 -1 2 4 0 -4 -8
G -16 -8 -3 -2 0 2 1 -3
D -20 -12 -7 -5 -4 -1 3 -1
V -24 -16 -11 -9 -4 -5 -1 2
P -28 -20 -15 -13 -8 3 -1 -2
Y -32 -24 -19 -17 -12 -1 1 2
66
Alignement global/local
68
Alignement local : exemple
Alignement préfixe+suffixe
ACCCTTCCAGGATTG
GTATTGAGCCTCATAA
71
Alignement par paires : Modèles de gap
72
Alignement par paires : Modèles de gap
Remarques :
Modèle linéaire : modèle de base, vu précédemment
Modèle affine : plus proche de la réalité, mais plus complexe
à calculer
Complexité de l’algorithme « naif » en O(n3)
Complexité ramenée en O(n²) en utilisant des matrices stockant les
résultats intermédiaires
Gap linéaire = cas particulier du gap affine (go=ge)
Gap Affine : ouverture de gap fortement pénalisée
ge < go
73
Exemples de modèles de gap
Gap linéaire
pénalité
Gap affine
Gap logarithmique
|gap|
74
Alignement par paires avec gap affine
En général, considérer que l'insertion d'un gap possède un coût
constant ne correspond pas à un modèle réaliste
On préfère un modèle pour lequel un gap de longueur k est plus
probable que k gaps de longueur 1
On utilise le modèle de gap affine car il n'augmente pas la
complexité du problème d'alignement (O(N²))
On utilise 4 matrices pour le calcul du meilleur alignement
M la matrice des coûts des meilleurs alignements qui dépend des 3 autres
matrices suivantes
D la matrice des coûts des meilleurs alignements entre xi et yj,
V la matrice des coûts des meilleurs alignements entre xi et un gap
H la matrice des coûts des meilleurs alignements entre yj et un gap
75
Alignement par paires avec gap affine
Initialisation :
M [0,0] = D[0,0] = H [0,0] = V [0,0] = 0
D[i,0] = H [i,0] = g o + (i − 1) ⋅ g e , ∀i ∈ [1..N ]
D[0, j ] = V [0, j ] = g o + ( j − 1) ⋅ g e , ∀j ∈ [1..P]
Calcul de M[1,1] :
76
Alignement par paires avec gap affine
H [i,1] = H [i,0] + g o
D[i − 1, j − 1] + sim( xi , y j )
D[i, j ] = max H [i − 1, j − 1] + sim( xi , y j )
V [i − 1, j − 1] + sim( x , y )
i j
V [i, j − 1] + g o
M [i, j ] = max H [i, j ] = max D[i, j − 1] + g o
H [i, j − 1] + g
e
V [i − 1, j ] + g e
V [i, j ] =
max D[i − 1, j ] + g o
H [i − 1, j ] + g
o 78
Gap affine : exemple
Matrice D Matrice V
- C T G A C A T - C T G A C A T
- -
C C
T T
A A
Matrice H Matrice M
- C T G A C A T - C T G A C A T
- -
C C
T T
A A
79
Gap affine : exemple
Matrice D Matrice V
- C T G A C A T - C T G A C A T
- 0 - 0
C C
T T
A A
Matrice H Matrice M
- C T G A C A T - C T G A C A T
- 0 - 0
C C
T T
A A
80
Gap affine : exemple
Matrice D Matrice V
- C T G A C A T - C T G A C A T
- 0 X X X X X X X - 0 X X X X X X X
C X C -3
T X T -4
A X A -5
Matrice H Matrice M
- C T G A C A T - C T G A C A T
- 0 -3 -4 -5 -6 -7 -8 -9 - 0 -3 -4 -5 -6 -7 -8 -9
C X C -3
T X T -4
A X A -5
81
Gap affine : exemple
Matrice D Matrice V
- C T G A C A T - C T G A C A T
- 0 -3 -4 -5 -6 -7 -8 -9 - 0 X X X X X X X
C -3 4 C -3 -6
T -4 T -4
A -5 A -5
Matrice H Matrice M
- C T G A C A T - C T G A C A T
- 0 -3 -4 -5 -6 -7 -8 -9 - 0 -3 -4 -5 -6 -7 -8 -9
C X -6 C -3 4
T X T -4
A X A -5
82
Gap affine : exemple
Matrice D Matrice V
- C T G A C A T - C T G A C A T
- 0 X X X X X X X - 0 X X X X X X X
C X 4 -4 -5 -6 -2 -8 -9 C -3 -6 -7 -8 -9 -10 -11 -12
T X T -4
A X A -5
Matrice H Matrice M
- C T G A C A T - C T G A C A T
- 0 -3 -4 -5 -6 -7 -8 -9 - 0 -3 -4 -5 -6 -7 -8 -9
C X -6 1 0 -1 -2 -3 -4 C -3 4 1 0 -1 -2 -3 -4
T X T -4
A X A -5
83
Gap affine : exemple
Matrice D Matrice V
- C T G A C A T - C T G A C A T
- 0 -3 -4 -5 -6 -7 -8 -9 - 0 X X X X X X X
C -3 4 -4 -5 -6 -2 -8 -9 C -3 -6 -7 -8 -9 -10 -11 -12
T -4 -4 8 0 -1 -2 -3 -4 T -4 1 -2 -3 -4 -5 -6 -7
A -5 -5 0 7 9 3 7 1 A -5 0 5 2 1 0 -1 -2
Matrice H Matrice M
- C T G A C A T - C T G A C A T
- 0 -3 -4 -5 -6 -7 -8 -9 - 0 -3 -4 -5 -6 -7 -8 -9
C X -6 1 0 -1 -2 -3 -4 C -3 4 1 0 -1 -2 -3 -4
T X -7 -2 5 4 3 2 1 T -4 1 8 5 4 3 2 1
A X -8 -3 2 4 6 5 4 A -5 0 5 7 9 6 5 4
84
Gap affine : exemple
Matrice D Matrice V
- C T G A C A T - C T G A C A T
- 0 -3 -4 -5 -6 -7 -8 -9 - 0 X X X X X X X
C -3 4 -4 -5 -6 -2 -8 -9 C -3 -6 -7 -8 -9 -10 -11 -12
T -4 -4 8 0 -1 -2 -3 -4 T -4 1 -2 -3 -4 -5 -6 -7
A -5 -5 0 7 9 3 7 1 A -5 0 5 2 1 0 -1 -2
Matrice H Matrice M
- C T G A C A T - C T G A C A T
- 0 -3 -4 -5 -6 -7 -8 -9 - 0 -3 -4 -5 -6 -7 -8 -9
C X -6 1 0 -1 -2 -3 -4 C -3 4 1 0 -1 -2 -3 -4
T X -7 -2 5 4 3 2 1 T -4 1 8 5 4 3 2 1
A X -8 -3 2 4 6 5 4 A -5 0 5 7 9 6 7 4
85
Gap affine : exemple
Matrice D Matrice V
- C T G A C A T - C T G A C A T
- 0 -3 -4 -5 -6 -7 -8 -9 - 0 X X X X X X X
C -3 4 -4 -5 -6 -2 -8 -9 C -3 -6 -7 -8 -9 -10 -11 -12
T -4 -4 8 0 -1 -2 -3 -4 T -4 1 -2 -3 -4 -5 -6 -7
A -5 -5 0 7 9 3 7 1 A -5 0 5 2 1 0 -1 -2
Matrice H Matrice M
- C T G A C A T - C T G A C A T
- 0 -3 -4 -5 -6 -7 -8 -9 - 0 -3 -4 -5 -6 -7 -8 -9
C X -6 1 0 -1 -2 -3 -4 C -3 4 1 0 -1 -2 -3 -4
T X -7 -2 5 4 3 2 1 T -4 1 8 5 4 3 2 1
A X -8 -3 2 4 6 5 4 A -5 0 5 7 9 6 7 4
86
Gap affine : exemple
87
Gap affine : exemple
- A G C T C G A - A G C T C G A
- 0 X X X X X X X - 0 X X X X X X X
T X T -3
A X A -4
C X C -5
A X A -6
G X G -7
C X C -8
T X T -9
T X T -10
G X G -11
- A G C T C G A - A G C T C G A
- 0 -3 -4 -5 -6 -7 -8 -9 - 0 -3 -4 -5 -6 -7 -8 -9
T X T -3
A X A -4
C X C -5
A X A -6
G X G -7
C X C -8
T X T -9
T X T -10
G X G -11 88
Gap affine : exemple
- A G C T C G A - A G C T C G A
- 0 X X X X X X X - 0 X X X X X X X
T X -2 -5 -6 -3 -8 -9 -10 T -3 -6 -7 -8 -9 -10 -11 -12
A X -1 -4 -7 -8 -5 -8 -5 A -4 -5 -8 -9 -6 -9 -10 -11
C X -6 -3 -2 -7 -4 -7 -10 C -5 -4 -7 -8 -7 -8 -11 -8
A X -3 -6 -5 -4 -7 -6 -5 A -6 -5 -6 -5 -8 -7 -10 -9
G X -8 -1 -8 -7 -6 -5 -8 G -7 -6 -7 -6 -7 -8 -9 -8
C X -9 -8 1 -6 -3 -8 -7 C -8 -7 -4 -7 -8 -9 -8 -9
T X -10 -9 -6 3 -4 -5 -6 T -9 -8 -5 -2 -5 -6 -7 -8
T X -11 -10 -7 0 1 -2 -3 T -10 -9 -6 -3 0 -3 -4 -5
G X -12 -7 -8 -5 -2 3 -4 G -11 -10 -7 -4 -1 -2 -5 -6
- A G C T C G A - A G C T C G A
- 0 -3 -4 -5 -6 -7 -8 -9 - 0 -3 -4 -5 -6 -7 -8 -9
T X -6 -5 -6 -7 -6 -7 -8 T -3 -2 -5 -6 -3 -6 -7 -8
A X -7 -4 -5 -6 -7 -8 -9 A -4 -1 -4 -5 -6 -5 -8 -5
C X -8 -7 -6 -5 -6 -7 -8 C -5 -4 -3 -2 -5 -4 -7 -8
A X -9 -6 -7 -8 -7 -8 -9 A -6 -3 -6 -5 -4 -7 -6 -5
G X -10 -9 -4 -5 -6 -7 -8 G -7 -6 -1 -4 -5 -6 -5 -8
C X -11 -10 -7 -2 -3 -4 -5 C -8 -7 -4 1 -2 -3 -4 -5
T X -12 -11 -8 -5 0 -1 -2 T -9 -8 -5 -2 3 0 -1 -2
T X -13 -12 -9 -6 -3 -2 -3 T -10 -9 -6 -3 0 1 -2 -3
G X -14 -13 -10 -7 -4 -5 0 G -11 -10 -7 -4 -1 -2 3 0 89
Gap affine : exemple
- A G C T C G A - A G C T C G A
- 0 X X X X X X X - 0 X X X X X X X
T X -2 -5 -6 -3 -8 -9 -10 T -3 -6 -7 -8 -9 -10 -11 -12
A X -1 -4 -7 -8 -5 -8 -5 A -4 -5 -8 -9 -6 -9 -10 -11
C X -6 -3 -2 -7 -4 -7 -10 C -5 -4 -7 -8 -7 -8 -11 -8
A X -3 -6 -5 -4 -7 -6 -5 A -6 -5 -6 -5 -8 -7 -10 -9
G X -8 -1 -8 -7 -6 -5 -8 G -7 -6 -7 -6 -7 -8 -9 -8
C X -9 -8 1 -6 -3 -8 -7 C -8 -7 -4 -7 -8 -9 -8 -9
T X -10 -9 -6 3 -4 -5 -6 T -9 -8 -5 -2 -5 -6 -7 -8
T X -11 -10 -7 0 1 -2 -3 T -10 -9 -6 -3 0 -3 -4 -5
G X -12 -7 -8 -5 -2 3 -4 G -11 -10 -7 -4 -1 -2 -5 -6
- A G C T C G A - A G C T C G A
- 0 -3 -4 -5 -6 -7 -8 -9 - 0 -3 -4 -5 -6 -7 -8 -9
T X -6 -5 -6 -7 -6 -7 -8 T -3 -2 -5 -6 -3 -6 -7 -8
A X -7 -4 -5 -6 -7 -8 -9 A -4 -1 -4 -5 -6 -5 -8 -5
C X -8 -7 -6 -5 -6 -7 -8 C -5 -4 -3 -2 -5 -4 -7 -8
A X -9 -6 -7 -8 -7 -8 -9 A -6 -3 -6 -5 -4 -7 -6 -5
G X -10 -9 -4 -5 -6 -7 -8 G -7 -6 -1 -4 -5 -6 -5 -8
C X -11 -10 -7 -2 -3 -4 -5 C -8 -7 -4 1 -2 -3 -4 -5
T X -12 -11 -8 -5 0 -1 -2 T -9 -8 -5 -2 3 0 -1 -2
T X -13 -12 -9 -6 -3 -2 -3 T -10 -9 -6 -3 0 1 -2 -3
G X -14 -13 -10 -7 -4 -5 0 G -11 -10 -7 -4 -1 -2 3 0 90
Gap affine : exemple
- A G C T C G A
- 0 -3 -4 -5 -6 -7 -8 -9
T -3 -2 -5 -6 -3 -6 -7 -8
A -4 -1 -4 -5 -6 -5 -8 -5
C -5 -4 -3 -2 -5 -4 -7 -8
A -6 -3 -6 -5 -4 -7 -6 -5
G -7 -6 -1 -4 -5 -6 -5 -8
C -8 -7 -4 1 -2 -3 -4 -5
T -9 -8 -5 -2 3 0 -1 -2
T -10 -9 -6 -3 0 1 -2 -3
G -11 -10 -7 -4 -1 -2 3 0
91
Problème lié au gap affine
93
Conclusion
BLAST :
• Recherche heuristique permettant de trouver les régions similaires entre deux ou
plusieurs séquences de nucléotides ou d'acides aminés.
• Permet de retrouver rapidement dans des bases de données, les séquences ayant
des zones de similitude avec une séquence donnée (introduite par l'utilisateur).
• Utilisé pour trouver des relations fonctionnelles ou évolutives entre les séquences et
peut aider à identifier les membres d'une même famille de gènes.
Introduction à la bioinformatique
Notions de base
Alignement 2 à 2 de séquences
Alignement multiple de séquences
Introduction / Motif protéique
Alignement multiple optimal
Heuristiques pour l’alignement multiple
Phylogénie
95
Alignement multiple
Alignement 2 à 2 :
Deux séquences quelconques
Recherche d’une certaine similarité syntaxique
Fonction commune ?
Alignement multiple :
Famille de séquences partageant une même fonction
Quelle est la conservation syntaxique ?
Notion de motif protéique
96
Motif protéique
un motif protéique est une séquence de nucléotides "particulière" qui a une
signification biologique.
PMY_PETMA/1-36 PEE..LSKYMLAVRNYINLITRQRY
PPY_LOPAM/1-36 PED..WASYQAAVRHYVNLITRQRY
PAHO_BOVIN/30-65 PEQ..MAQYAAELRRYINMLTRPRY
PAHO_CHICK/26-61 VED..LIRFYNDLQQYLNVVTRHRY
PAHO_ANSAN/1-36 VED..LRFYYDNLQQYRLNVFRHRY
NPF_HELAS/4-39 PNE..LRQYLKELNEYYAIMGRTRF
NPF_MONEX/1-39 DNKAALRDYLRQINEYFAIIGRPRF
97
Motif protéique
Exemple : hormone pancréatique
PMY_PETMA/1-36 PEE..LSKYMLAVRNYINLITRQRY
PPY_LOPAM/1-36 PED..WASYQAAVRHYVNLITRQRY
PAHO_BOVIN/30-65 PEQ..MAQYAAELRRYINMLTRPRY
PAHO_CHICK/26-61 VED..LIRFYNDLQQYLNVVTRHRY
PAHO_ANSAN/1-36 VED..LRFYYDNLQQYRLNVFRHRY
NPF_HELAS/4-39 PNE..LRQYLKELNEYYAIMGRTRF
NPF_MONEX/1-39 DNKAALRDYLRQINEYFAIIGRPRF
Expression Prosite
[FY]-x(3)-[LIVM]-x(2)-Y-x(3)-[LIVMFY]-x-R-x-R-[YF]
Syntaxe
- : séparation des éléments
x : n’importe quel acide aminé
(3,5) : nombre d’occurrences (entre 3 et 5)
[FY] : alternative (F ou Y) – fixer une limite pour le nombre d’alternatives 98
Motif protéique
Exemple 2 : doigt de zinc
YVCPFDGCNKKFAQSTNLKSHILT--H
YKCT--VCRKDISSSESLRTHMFKQHH
FQCD--ICKKTFKNACSVKIHHKN-MH
LKCSVPGCKRSFRKKRALRIHVSE--H
FECN--MCGYHSQDRYEFSSHITRGEH
YKCEFADCEKAFSNASDRAKHQNR-TH
YKCN--QCGIIFSQNSPFIVHQIA--H
FRCS--ECSRSFTHNSDLTAHMRK--H
CKCETENCNLAFTTASNMRLHFKR-AH
YRCSYEDCQTVSPTWTALQTHLKK--H
FRCV--WCKQSFPTLEALTTHMKDSKH
FRCGYKGCGRLYTTAHHLKVHERA--H
YRCPRENCDRTYTTKFNLKSHILT-FH
YTCPEPHCGRGFTSATNYKNHVRI--H
Expression Prosite
C-x(2,4)-C-x(3)-[LIVMFYWCS]-x(8)-H-x(3,5)-H
Influe sur le repliement de la protéine
99
Motif protéique
Exemple 3 : Site de fixation de la cellulose
HWGQCGGI---GYSGCKTCTSGTTCQYSNDYYSQCL
HYGQCGGI---GYSGPTVCASGTTCQVLNPYYSQCL
QWGQCGGI---GYTGSTTCASPYTCHVLNPYYSQCY
VWGQCGGQ---NWSGPTCCASGSTCVYSNDYYSQCL
LYGQCGGA---GWTGPTTCQAPGTCKVQNQWYSQCL
IWGQCGGN---GWTGATTCASGLKCEKINDWYYQCV
VWGQCGGN---GWTGPTTCASGSTCVKQNDFYSQCL
DWAQCGGN---GWTGPTTCVSPYTCTKQNDWYSQCL
QWGQCGGQ---NYSGPTTCKSPFTCKKINDFYSQCQ
RWQQCGGI---GFTGPTQCEEPYICTKLNDWYSQCL
HWAQCGGI---GFSGPTTCPEPYTCAKDHDIYSQCV
LYEQCGGI---GFDGVTCCSEGLMCMKMGPYYSQCR
VWAQCGGQ---NWSGTPCCTSGNKCVKLNDFYSQCQ
PYGQCGGM---NYSGKTMCSPGFKCVELNEFFSQCD
AYYQCGGSKSAYPNGNLACATGSKCVKQNEYYSQCV
EYAACGGE---MFMGAKCCKFGLVCYETSGKWSQCR
C-G-G-x(4,7)-G-x(3)-C-x(5)-C-x(3,5)-[NHG]-x-[FYWM]- x(2)-Q-C
100
Alignement multiple
c1
scoreSP M = ∑ score(ci , c j )
c 1≤i < j ≤ k
k
c1 , L , ck ∈ Α ∪ {−} et score(−,− ) = 0
102
Alignement multiple : score
Exemple :
Identité : +2
Substitution : -1
Indel : -2
A A C G T A C G A T A
A - C G T A - A A T G
G T C G T A - - T T A
103
Alignement multiple : score
Exemple :
Identité : +2
Substitution : -1
Indel : -2
A A C G T A C G A T A
8
A - C G T A - A A T G
G T C G T A - - T T A
104
Alignement multiple : score
Exemple :
Identité : +2
Substitution : -1
Indel : -2
A A C G T A C G A T A
8
A - C G T A - A A T G 5
G T C G T A - - T T A
3
105
Alignement multiple : score
Exemple :
Identité : +2
Substitution : -1
Indel : -2
A A C G T A C G A T A
8
A - C G T A - A A T G 5
G T C G T A - - T T A
3
106
Alignement multiple : score
Exemple :
Identité : +2
Substitution : -1
Indel : -2
A A C G T A C G A T A
A - C G T A - A A T G
G T C G T A - - T T A
107
Alignement multiple : score
Exemple :
Identité : +2
Substitution : -1
Indel : -2
A A C G T A C G A T A
A - C G T A - A A T G
G T C G T A - - T T A
2
-1
-1
=
0
108
Alignement multiple : score
Exemple :
Identité : +2
Substitution : -1
Indel : -2
A A C G T A C G A T A
A - C G T A - A A T G
G T C G T A - - T T A
2 -2 2 2 2 2 -2 -1 2 2 -1
-1 -1 2 2 2 2 -2 -2 -1 2 2
-1 -2 2 2 2 2 0 -2 -1 2 -1
= = = = = = = = = = =
0 -5 6 6 6 6 -4 -5 0 6 0
109
Alignement multiple : score
Exemple :
Identité : +2
Substitution : -1
Indel : -2
A A C G T A C G A T A
A - C G T A - A A T G
G T C G T A - - T T A
2 -2 2 2 2 2 -2 -1 2 2 -1
-1 -1 2 2 2 2 -2 -2 -1 2 2
-1 -2 2 2 2 2 0 -2 -1 2 -1
= = = = = = = = = = =
0 -5 6 6 6 6 -4 -5 0 6 0
110
Score : Visualisation (align. d'acides aminés)
Notations usuelles :
* → correspondance
: → substitution conservative (acides aminés de même groupe et de scores
≥ 0)
. → substitution semi-conservative (acides aminés de même groupe)
A L L A L W G P D P A
A L L A F W G P D P A
A L L A F W G P D P S
A L L V L W E P K P S
A L L V F S G P G T S
* * * . : * . :
111
Formulation
Définition : Alignement
Soit un alphabet Σ.
Soit S = { S1, S2, ..., Sk } un ensemble de k séquences.
Un alignement de S, noté A(S1, S2, ..., Sk) est une matrice k*q
Chaque élément au,v de la matrice a est défini dans Σ.
q est plus grand que la plus grande des séquences, et plus petit que
la somme des tailles des séquences.
Pour tout u tel que q 1≤u ≤ k, la séquence {au,1, au,2,..., au,q}
dans laquelle on supprime les gaps correspond à Su
Formulation : Problème d'alignement multiple
Soient k séquences S1,…,Sk et une matrice de score w, le problème
d'alignement multiple consiste à déterminer un alignement de coût
optimal selon w.
112
Alignement multiple : approche exacte
k n
2 3 4 5
2 13 63 321 1683
4 23917 1.1e7 … …
113
Alignement multiple : approche exacte
Problème algorithmique
Trouver l'alignement multiple de score SP maximal
Approche exacte : programmation dynamique
Alignement deux à deux : chemin dans une matrice de dimension 2
Alignement multiple : chemin dans une matrice de dimension supérieure
k séquences à aligner, matrice de dimension k
G
A
A -G-A-
C-GTG
T AT--G
G
C G T G
114
Alignement multiple : approche exacte
115
Alignement multiple : approche exacte
Problème de complexité
Explosion combinatoire quand le nombre de séquences augmente
116
Alignement multiple : approche exacte
Complexité
s1,…,sk : séquences de taille n
T(i1,…,ik) : score optimal entre les k préfixes
s1(1,…,i1) , … , sk(1,…,ik)
O(nk2kk2)
Table de taille nk
Temps de calcul d'une case : dépend de 2k-1 cases
précédentes
Temps de calcul de chaque scoreSP : k(k-1)/2
Problème de décision NP-Complet
117
Alignement multiple
119
Heuristique en étoile
Heuristique en étoile
Sélection d'une séquence centrale
Construction de l'alignement multiple, en partant de la
séquence centrale, puis en incorporant une à une les autres
séquences
Exemple :
S1 cgatgagtcattgtgactg
S2 cgagccattgtagctactg
S3 cgaccattgtagctacctg
S4 cgatgagtcactgtgactg
S1 2 0 17
S3 0 14 -1
S4 17 0 -1
121
Heuristique en étoile
S1 2 0 17 19
S2 2 14 0 16
S3 0 14 -1 13
S4 17 0 -1 16
122
Heuristique en étoile
S1 12 11 1
S2 12 4 14
S3 11 4 10
S4 1 14 10
127
Clustal
S2 12 4 14 S4 S3
S1 S4
S3 11 4 10
S4 1 14 10
128
Clustal
129
Clustal
130
Clustal
131
Clustal
S1 cgatgagtcattgt-g--ac-tg
S4 cgatgagtcactgt-g--ac-tg
S2 cga---gccattgtagctac-tg
S3 cga----ccattgtagctacctg
S1 cgatgagtcattgtgactg S2 cgagccattgtagctac-tg
|||||||||| |||||||| ||| ||||||||||||| ||
S4 cgatgagtcactgtgactg S3 cga-ccattgtagctacctg
S4 cgagccattgtagctactg S2 cgatgagtcactgtgactg
S1 cgatgagtcattgtgactg S3 cgaccattgtagctacctg
132
Clustal-W
→ Variante de Clustal
Thompson JD, Higgins DG, Gibson TJ (1994) CLUSTAL W: improving the sensitivity
of progressive multiple sequence alignment through sequence weighting,
position specific gap penalties and weight matrix choice. Nucleic Acids Res.
22(22):4673-80.
Modification principale au niveau de la mise à jour de la
matrice des distances après regroupement de 2 séquences
Des poids sont associés selon le nombre de séquences
concernées (cf. phylogénie)
133
Autres algorithmes d’alignement multiple
Beaucoup d’algorithme dans la littérature!
Les plus classiques/performants :
clustal omega : nouvelle variante de clustal
multalin : variante de clustal
T-coffee : variante de clustal
muscle : fonction de création de profils
probcons : modèle de Markov
mafft : transformée de Fourier
dialign : recherche de chemins
saga : algorithme génétique
hmmer : modèle de Markov
Voir: « Multiple sequence alignment », Robert C. Edgar and
Serafim Batzoglou, dans « Current Opinion in Structural
Biology », 2006, volume 16, pages 368–373.
134
Evaluation des heuristiques d’alignement
135
Sommaire
Introduction à la bioinformatique
Notions de base
Alignement 2 à 2 de séquences
Alignement multiple de séquences
Phylogénie
Généralités / Notions sur les arbres
Méthodes de reconstruction phylogénétique
WPGMA / UPGMA
Neighbourg-joigning
Parcimonie
136
Phylogénie
Arbre de Haeckel (1866)
La phylogénie est l'étude de la formation et
de l'évolution des organismes vivants en vue
d'établir leur parenté
On représente couramment une phylogénie
par un arbre phylogénétique. La proximité
des branches de cet arbre représente le
degré de parenté entre les taxons, les
nœuds les ancêtres communs des taxons
Dans un arbre élaboré par phénétique, la
longueur des branches représente la
distance génétique entre taxons
137
Phylogénie
138
Phylogénie
Evolution
L’évolution selon Lamarck (1744-1829)
l'évolution est due à une adaptation continue au
milieu ambiant : un environnement changeant altère
les besoins de l'organisme vivant qui s'adapte en
modifiant son comportement
139
Phylogénie
Evolution
L’évolution selon Darwin (1809-1882)
évolution par sélection naturelle : au sein d'une
même lignée, tous les individus sont différents
et la nature favorise la multiplication de ceux
qui jouissent d'un quelconque avantage
140
Phylogénie
141
Phylogénie
Méthodes de reconstruction
Deux grands types de méthodes permettant la reconstruction
d'arbres phylogénétiques :
Méthodes basées sur les mesures de distances entre séquences prises
deux à deux, c'est à dire le nombre de substitutions de nucléotides ou
d'acides aminés entre ces deux séquences.
UPGMA
Neighbor-Joining
…
Méthodes basées sur les caractères qui s'intéressent au nombre de
mutations (substitutions / insertions /délétions) qui affectent chacun des
sites (positions) de la séquence.
Parcimonie
Maximum de vraisemblance
…
142
Phylogénie
Notions de bases (arbres)
Un arbre phylogénétique est caractérisé par :
sa topologie
la longueur de ses branches (éventuellement)
Seq D
Seq C
Seq A racine Seq C
Seq B Seq D Seq A
143
Phylogénie
Notions de bases (arbres)
Notation de Newick
Pour stocker un arbre dans un fichier texte, on peut utiliser
la notation suivante
((A,B),C)
On peut aussi ajouter la longueur de chaque branche
((A:1,B:1):2,C:4)
1
A
2
1
B
4
C
Phylogénie
Notions de bases (arbres)
Différent types d’arbres
Arbres enracinés
Cladogrammes (longueur des branches non significative)
Phylogramme (longueur des branches proportionnelle au nombre de
substitutions)
Seq D Seq D
racine Seq C racine Seq C
Seq A
Seq A
Seq B
Seq B
145
Phylogénie
Notions de bases (arbres)
Racine
Pour un arbre sans racine (unrooted), il existe plusieurs arbres avec racine
Position de la racine ?
Seq A 2 4 Seq C
Seq B 1 Seq D
3 5
A A B C D
B B A D C
C C C A A
D D D B B
1 2 3 4 5
A BC DEFGHI JKL A B C D H G F EI J K L
Phylogénie
Calcul des distances
Distance d’édition
A partir des opérations nécessaires pour obtenir un alignement, on peut
calculer une distance dite distance d’édition ou de Levenshtein
q
0 si xi = y i
d L (U ,V ) = ∑ d ( xi , yi ) avec d ( xi , yi ) =
i −1 1 sinon
Problème de distance d’édition
Consiste à trouver la distance minimum qui permet de transformer une
séquence en une autre séquence en utilisant les opérations d’édition
(
d L* (U , V ) = min d L (U , V ))
Méthode : optimiser l’alignement pour minimiser la distance
cgagccattctagctac-tg
||| ||||| ||||||| || d=3
cga-ccattgtagctacctg
148
Phylogénie
Calcul des distances
Correction des distances
Si le temps de divergence entre deux séquences augmente, la
probabilité d’avoir plusieurs substitutions à un même site augmente
151
Phylogénie
WPGMA
Premier cycle :
A B C D E F B
A
A 0
B 2 0 C
C 4 4 0
F
D 6 6 6 0
E 6 6 6 4 0 D
E
F 8 8 8 8 8 0
152
Phylogénie
WPGMA
Premier cycle :
A B C D E F B
A
A 0 1
1
B 2 0 C
C 4 4 0
F
D 6 6 6 0
E 6 6 6 4 0 D
E
F 8 8 8 8 8 0
A,B C D E F B
A
1
A,B 0 1
C
C 4 0
D 6 6 0 F
2
2
E 6 6 4 0 D
F 8 8 8 8 0 E
154
Phylogénie
WPGMA
Troisième cycle :
B
A
A,B C D,E F 1
1
A,B 0 1 C
2
C 4 0
F
2
D,E 6 6 0 2
D
F 8 8 8 0 E
155
Phylogénie
WPGMA
Quatrième cycle :
B
A
1
AB,C D,E F 1
1 C
AB,C 0 1
2
D,E 6 0 F 1
2
2
F 8 8 0 D
E
dist(ABC,DE),F=(dist (AB,C)F+dist(D,E)F)/2=8
156
Phylogénie
WPGMA
Cinquième cycle (midpoint rooting) :
B
ABC,DE F A
1
ABC,DE 0 1
1 C
F 8 0 1
2
1
4
F 1
2
2
1
D
1 A E
1 B
1
2 C
1
2
1 D
2 E
4 F
Phylogénie
WPGMA
Exercice : étudier la phylogénie d’un gène commun pour 5
organismes, représentés ci-dessous
AGGCCTTACAT
ACCTATAATTGG
ACGATTATCAT
GGCTTACAA
CGATATCCCATT
Etapes :
Calculer les scores 2 à 2, en recherchant à chaque fois l’alignement
optimal
En déduire la matrice des distances
Choisir le couple des organismes les plus semblables
Reconstruire la matrice des distances, construire l’arbre
Itérer jusqu’à la construction complète de l’arbre
158
Phylogénie
WPGMA
A B C D E A,D,C B E
A,D B C E
A 0 A,D,C 0
A,D 0
B 7 0 B 6.75 0
B 7.5 0
C 4 6 0 E 6 8 0
C 4.5 6 0
D 3 8 5 0
E 7 8 5 0
E 7 8 5 7 0 A,D,C,E B
A,D,C,E 0
1.5 B 7.375 0
0.75
A
0.75
1.5
D
0.6875
2.25
C
3
E
3.6875
B
159
Phylogénie
UPGMA (Unweighted)
Hypothèses :
le taux de mutation est le même dans toutes les lignées (horloge
moléculaire)
Pas de mutations multiples
Méthode
Regroupement des 2 séquences Si et Sj les plus proches
Le noeud Sij est positionné à une distance d de chacune des séquences
d = (dist(Si,Sj ))/2
Calcul de la distance entre le nouveau groupe et les autres séquences
(Unweighted UPGMA)
dist((Si,Sj ),Sk) = (a.
a.dist(S
a. i,Sk)+b.
b.dist(S
b. j,Sk))/((a+b)
a+b)
où a et b sont le nombre de séquences composant Si et Sj
Etc
→ Exemple : http://www.soton.ac.uk/~re1u06/teaching/upgma/
160
Phylogénie
WPGMA / UPGMA
Problème : suppose que la vitesse d'évolution est constante dans toutes les
branches
Problème majeur : si les taux de mutation diffèrent suivant les branches, la
méthode UPGMA peut conduire à une topologie erronée
A B C D E F
1
1 A A 0
4 B
1 B 5 0
2 C C 4 7 0
1
3
1 D D 7 10 7 0
2 E E 6 9 6 5 0
4 F F 8 11 8 9 8 0
Depuis que A et B ont divergé durant Matrice des distances
l’évolution, B a accumulé beaucoup plus de
mutations que A
161
Phylogénie
Neighbor-Joining (NJ)
162
Phylogénie
Neighbor-Joining (NJ)
Les données initiales permettent de construire une matrice qui
donne un arbre en étoile (cf. UPGMA)
Cette matrice de distances est corrigée afin de prendre en compte la
divergence moyenne de chacune des séquences avec les autres
163
Phylogénie
Neighbor-Joining (NJ)
Exemple
A B C D E F
La matrice de distance associée A 0 5 4 7 6 8
à cet arbre est la suivante : B 0 7 10 9 11
C 0 7 6 8
D 0 5 9
E 0 8
F 0
F
D
E 165
Phylogénie
Neighbor-Joining (NJ)
Etape 3 : Choix des plus proches voisins, c'est à dire des deux
séquences ayant le M(i,j) le plus petit
soit A et B soit D et E sur l’exemple.
On forme un nouveau nœud U avec A et B, et on calcule la
longueur de la branche entre U et A ainsi qu'entre U et B :
S (AU) = d (AB) / 2 + [r(A) - r(B)] / 2 (N-2)
= 5/2 + [30-42] /2(6-2) = 1
S (BU) = d (AB) - S(AU) = 5 - 1 = 4 B
A 4
On applique à l’arbre
en construction :
1 U C
F
D
E 166
Phylogénie
Neighbor-Joining (NJ)
Etape 4 : on définit les nouvelles distances entre U et les autres
séquences (ou groupes de séquences)
d (CU) = [d(AC) + d(BC) - d(AB)] /2 = 3
d (DU) = [d(AD) + d(BD) - d(AB)] /2 = 6
d (EU) = [d(AE) + d(BE) - d(AB)] /2 = 5
d (DU) = [d(AF) + d(BF) - d(AB)] /2 = 7 …
Création d'une nouvelle matrice : U C D E F
U 0 3 6 5 7
C 0 7 6 8
D 0 5 9
E 0 8
F 0
La procédure repart de l'étape 1
avec N N-1 = 5 167
Phylogénie
Neighbor-Joining (NJ)
La matrice de distance associée
à cet arbre est la suivante : U C D E F
U 0 3 6 5 7
Etape 1 : calcul de la C 0 7 6 8
divergence de chaque
séquence par rapport aux autres D 0 5 9
r(U)=21, r(C)=24, r(D)=27, r(E)=24, r(F)=32 E 0 8
F 0
Etape 2 : calcul de la nouvelle matrice en utilisant
la formule M(i,j)= d(ij) -[r(i)+r(j)] / (N-2)
U C D E F
Etape 3 : Choix du M(i,j) le plus petit U 0 -12 -10 -10 -10.6
soit U et C soit D et E sur l’exemple C 0 -10 -10 -10.6
On forme un nouveau nœud V avec U et C,
et on calcule la longueur de la branche entre D 0 -12 -10.6
V et U ainsi qu'entre V et C : E 0 -10.6
S (UV) = 1
F 0
S (CV) = 2
168
Phylogénie
Neighbor-Joining (NJ)
On applique à l’arbre en construction : B
A 4
1
1 C
2
F
E D
Etape 4 : on définit les nouvelles distances entre U et les autres séquences (ou
groupes de séquences)
d (DV) = 5, d (EV) = 4, d (DV) = 6 V D E F
Création d'une nouvelle matrice : V 0 5 4 6
D 0 5 9
E 0 8
F 0
La procédure repart de l'étape 1 avec
N N-1 = 4 169
Phylogénie
Neighbor-Joining (NJ)
La matrice de distance associée
à cet arbre est la suivante : V D E F
V 0 5 4 6
Etape 1 : calcul de la
divergence de chaque D 0 5 9
séquence par rapport aux autres
r(V)=15, r(D)=19, r(E)=17, r(F)=23 E 0 8
F 0
Etape 2 : calcul de la nouvelle matrice en utilisant la formule M(i,j)= d(ij) -[r(i)+r(j)] /
(N-2)
V D E F
Etape 3 : Choix du M(i,j) le plus petit V 0 -12 -12 -13
soit V et F soit D et E sur l’exemple
On forme un nouveau nœud W avec D et E, D 0 -13 -12
et on calcule la longueur de la branche entre
W et D ainsi qu'entre W et E : E 0 -12
S (WD) = 3
F 0
S (WE) = 2
170
Phylogénie
Neighbor-Joining (NJ)
On applique à l’arbre en construction : B
A 4
1
1 C
2
F 3
2
E D
Etape 4 : on définit les nouvelles distances entre W et les autres séquences
(ou groupes de séquences)
d (DW) = 5, d (EW) = 4, d (DW) = 6 V W F
Création d'une nouvelle matrice : V 0 2 6
W 0 6
F 0
Etape 1 : calcul de la
V 0 2 6
divergence de chaque W 0 6
séquence par rapport aux autres
r(V)=8, r(W)=8, r(F)=12 F 0
175
Needlemann-Wunsch
Gib
Chat
Gor
176
UPGMA
Hom
Hom Gib Gor Chat
Hom Gib
Gib 2
Gor 4 5 Chat
Chat 6 5 7
Gor Hom
X Gor Chat 1
Gor 177
UPGMA
Hom
X Gor Chat 1
Hom
Gor
Y Chat 1
Y 6.25 X Gib
1
1.25
Chat 6.25
Chat 2.25
Gor
178
UPGMA
Hom
1
Y Chat
X Gib
Y 6.25 1
1.25
Chat 6.25 Chat 2.25
Gor
Hom
1
Hom 1
1.25
1 X Gib
0.875 Gib 1
1.25
2.25
Gor
3.125 Chat 0.875 2.25
Chat Gor
3.125
179
UPGMA
Arbre en construction : Hom
Gib
Chat
Gor
Etape 4 : on définit les nouvelles distances entre U et les autres séquences (ou
groupes de séquences)
V D E F
d (DV) = 5, d (EV) = 4, d (DV) = 6
V 0 5 4 6
Création d'une nouvelle matrice :
D 0 5 9
E 0 8
F 0
V D E F
Etape 3 : Choix du M(i,j) le plus petit
soit V et F soit D et E sur l’exemple. V 0 -12 -12 -13
On forme un nouveau nœud W avec D et E, D 0 -13 -12
et on calcule la longueur de la branche entre
W et D ainsi qu'entre W et E : E 0 -12
S (WD) = 3 F 0
S (WE) = 2
181
Neighbor-Joining (NJ)
184
Phylogénie
Méthode de Parcimonie
186
Phylogénie
Méthode de Parcimonie – sites informatifs
Sites informatifs : quels sont les sites informatifs correspondant à
ces séquences ? Pourquoi ce résultat ?
S1 cgatgagtcattgt-g--ac-tg
S2 cgatg--tcactgt-g--ac-tg
S3 cga---gccattgtagctac-tg
S1 cgatgagtcattgt-g--ac-tg
S2 cgatgagtcactgt-g--ac-tg
S3 cga---gccattgtagctac-tg
S4 cga----ccattgtagctacctg
S5 cga---gccattacagctacttg
S6 -gatgagtcactgtgg--ac-tg
187
Phylogénie
Méthode de Parcimonie – sites informatifs
Sites informatifs : quels sont les sites informatifs correspondant à
ces séquences ? Pourquoi ce résultat ?
S1 cgatgagtcattgt-g--ac-tg
S2 cgatg--tcactgt-g--ac-tg
S3 cga---gccattgtagctac-tg
S1 cgatgagtcattgt-g--ac-tg
S2 cgatgagtcactgt-g--ac-tg
S3 cga---gccattgtagctac-tg
S4 cga----ccattgtagctacctg
S5 cga---gccattacagctacttg
S6 -gatgagtcactgtgg--ac-tg
188
Phylogénie
Méthode de Parcimonie
Procédure d'analyse par la méthode de parcimonie :
Données de départ : un alignement multiple des séquences
Identifier les sites informatifs
Inférer toutes les topologies d'arbres possibles pour les séquences
données
Calculer le nombre minimum de substitutions pour chaque site
informatif
Calculer la somme de changements pour chaque arbre
Choisir la topologie de l'arbre qui nécessite le moins de changements :
l’arbre le plus court
189
Phylogénie
Méthode de Parcimonie
190
Phylogénie
Méthode de Parcimonie
Fitch: Mise en œuvre
Étape 1 : calcul des états possibles pour chaque caractère à chaque
nœud
Parcours en profondeur postfixé :
Si le nœud est une feuille alors son état est gardé
Sinon si l’intersection entre les 2 descendants du nœud est vide alors
l’union de leurs états est prise
sinon on prend l’intersection
{AC}* {CG}*
{ACG}*
{AC}
191
Phylogénie
Méthode de Parcimonie
Fitch : Mise en œuvre
Étape 2 : déterminer la valeur des états ancestraux
Parcours en profondeur préfixée
Soit x le nœud courant
Si x = racine alors nous choisissons un élément quelconque de la racine
Sinon si le parent est identique à un élément de l’ensemble des éléments de
x alors choisir celui-ci
Sinon choisir un élément quelconque de l’ensemble d’éléments
{AC}*
A {CG}*
G
{ACG}*
A
{AC}
A
192
Phylogénie
Méthode de Parcimonie
Récapitulatif A A
B E
A A C G T A C G A T A C C
A A C G T A C A A T G D B
E D
G T C G T A C C T T A A
A T C G T A C C A T A C
A T C G T A C A A T A E
D
Sites informatifs B
Topologies d’arbres
{AC}* {CG}*
{ACG}*
Choix de la topologie
{AC}
193
Phylogénie
Remarques sur les méthodes de parcimonie
Avantages de la parcimonie
Méthode ne réduisant pas la séquence à un simple nombre
Méthode essayant de donner une information sur les séquences ancestrales
Méthode évaluant différents arbres
Inconvénients
Méthode très lente par rapport aux méthodes basées sur les distances
N'utilise pas toute l'information disponible (seuls les sites informatifs sont pris en
compte)
Pas de corrections pour les substitutions multiples
Aucune information sur la longueur des branches
194
Phylogénie
Variantes de la méthodes de parcimonie
Recherche heuristique
Réarrangement des branches à chaque étape
Ne garantit pas de trouver l'arbre optimal
Arbre consensus
La méthode du maximum de parcimonie peut conduire à trouver
plusieurs arbres équivalents : on crée alors un arbre consensus
Arbre consensus construit à partir des nœuds les plus fréquemment
rencontrés sur l'ensemble des arbres possibles
195
Phylogénie
Remarques générales
196
Phylogénie
Arbre consensus
A A
B C
C B
D D
E E
F F
A
B
Arbre consensus :
C
D
E
F
197
Bootstrap
On compte ensuite pour chaque nœud le nombre de fois où il est présent dans les T'. Cette
fréquence avec laquelle on retrouve un nœud est la valeur de bootstrap (plus elle est
élevée plus la fiabilité de la branche est importante)
On supprime alors éventuellement les nœuds à faible fiabilité
198
Bootstrap
75
A A
99 B 99 B
95 C 95 C
D D
100 100
E E
F F
199