Académique Documents
Professionnel Documents
Culture Documents
Bio-informatique
Introduction à la bioinformatique
Matthieu Basseur
Sommaire
Introduction à la bioinformatique
Notions de base
Alignement 2 à 2 de séquences
Alignement multiple de séquences
Phylogénie
2
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Sommaire
Introduction à la bioinformatique
Bio-informatique?
Notions de biologie moléculaire
Notions de base
Alignement 2 à 2 de séquences
Alignement multiple de séquences
Phylogénie
3
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Bioinformatique ?
5
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
6
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
La cellule
1. Nucléole
8. Réticulum endoplasmique lisse
2. Noyau
9. Mitochondrie
3. Ribosome
10. Vacuole
4. Vésicule
11. Cytoplasme
5. Réticulum endoplasmique rugueux (granuleux)
12. Lysosome
6. Appareil de Golgi
13. Centrosome
7. Microtubule
7
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Les chromosomes
ADN
9
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
C. elegans : 100 Mb
10
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
ADN
11
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
ADN
12
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
ADN → Protéines
13
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
ADN → Protéines
14
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
20 Acides aminés :
Acide aspartique
Acide glutamique
Alanine
Arginine
Asparagine
Cystéine
Glutamine
Glycine
Histidine
Isoleucine
Leucine
Lysine
Phénylalanine
Proline
Sérine
Thréonine
Tryptophane
Tyrosine
Valine
Méthionine/Start
Stop
15
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Codon Stop : marque la fin de la traduction d'un gène en protéine. Il n'est en général
jamais traduit car il n'existe pas d'ARN de transfert correspondant (il existe 2 acides
aminés supplémentaires, la sélénocystéine et la pyrrolysine qui sont insérés lorsqu'un
codon STOP particulier est rencontré).
16
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Helice α
17
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
18
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Séquençage de l’ADN
Séquençage de l’ADN :
Consiste à déterminer l'ordre d'enchaînement des nucléotides d’un
fragment d’ADN donné
Techniques de séquençage apparues fin des années 70 (séquenceurs
automatiques : années 90)
Méthodes de Sanger et de Gilbert
Prix nobel de chimie en 1980
Sanger (UK) : Synthèse enzymatique sélective
Gilbert (USA) : Dégradation chimique sélective
Méthode de Sanger souvent utilisée actuellement
méthode de Gilbert : limites de taille, toxicité, difficile à mettre en œuvre
premier organisme séquencé en 1977 : virus bactériophage X174
19
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Séquençage de l’ADN
20
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Sommaire
Introduction à la bioinformatique
Notions de base
Alignement 2 à 2 de séquences
Alignement multiple de séquences
Phylogénie
21
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Vocabulaire - récapitulatif
22
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Définitions - Alphabet
Alphabet
Définition : un alphabet Σ est un ensemble fini de symboles distincts {a0,
a1, …, an}. Dans le cas de séquences d'ADN ou d'acides aminés on définit
a0 comme étant le symbole vide ou gap et est représenté par le
caractère « - »
Alphabet de l’ADN (bases azotées)
L’alphabet des molécules d’ADN est composé de 5 symboles: ΣADN =
{−,A,C,G,T}
{−,A,C,G,T} représentent respectivement un gap, l’Adénine, la Cytosine,
la Guanine et la Thymine
Alphabet des Acides aminés
L’alphabet des acides aminés est composé de 21 symboles
ΣAA ={−,A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y} qui représentent les
différents acides aminés
23
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Définitions - Séquences
24
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
25
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Sommaire
Introduction à la bioinformatique
Notions de base
Alignement 2 à 2 de séquences
Introduction / Score d’un alignement
Formulation / Résolution exacte
Alignement global : Needlemann-Wunsch
Alignement local : Smith-Waterman
Modèles de gaps : autres alignements 2 à 2
Alignement multiple de séquences
Phylogénie
26
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Alignement de séquences
CAGCA-CTTGGATTCT-GG
CAGC---TTG--TACTCGG
Utilité de l'alignement :
identifier des sites fonctionnels
prédire la ou les fonctions d'une protéine
prédire la structure secondaire (voire tertiaire ou quaternaire) d'une
protéine
établir une phylogénie (évolution: parenté entre les organismes)
27
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Alignement de séquences
28
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Alignement de séquences
29
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
A C C G A T G A
A C – G C T - A
3 +3 -2 +3 -1 +3 -2 +3 = 10
30
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
- A C G T
Exemple (matrice de substitution) : - -4 -4 -4 -4
A G T T G T T C
T G – G G T A C
-1 +5 -4 -2 +5 +7 -1 +5 = 14
31
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Alignement de séquences
32
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Matrices de substitution
Matrices nucléiques
Il existe peu de matrices pour les acides nucléiques car il n'y a que 5 lettres pour
leur alphabet
La plus fréquemment utilisée est la matrice dite unitaire (ou matrice identité) où
toutes les bases sont considérées comme équivalentes
- A C G T
- 0 0 0 0
A 0 1 0 0 0 Match : 1
Mismatch : 0
C 0 0 1 0 0
Indel : 0
G 0 0 0 1 0
T 0 0 0 0 1
Formulation
■ Définition : Alignement par paire
– Soit un alphabet Σ
– Soit S = {S1, S2} 2 séquences de caractères de Σ
– Un alignement de S, noté A(S1, S2) est une matrice 2*q
• Chaque élément au,v de la matrice a est défini dans Σ
• q est plus grand que la plus grande des séquences et plus petit
que la somme des tailles des séquences
• Les séquences {a1,1, a1,2,..., a1,q} et {a2,1, a2,2,..., a2,q} dans
laquelle on supprime les gaps correspondent à S1 et S2
■ Formulation : Problème d'alignement par paire
– Soient deux séquences S1 et S2 et une matrice de score w, le
problème d'alignement par paires consiste à déterminer un
alignement de coût optimal selon w
34
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Résolution exacte
k =0
Longueur des 1 2 3 4 5 6
séquences
Algorithme de Needleman-Wunsch
1970 : A general method applicable to the search for similarities in the amino
acid sequence of two proteins, J Mol Biol. 48(3):443-453
48
effectue un alignement global de deux séquences, de manière optimale
première application de la programmation dynamique pour la comparaison de
séquences biologiques
35
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
36
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
5 4
4 3 3 2
3 2 2 1 2 1 1 0
2 1 1 0 1 0 1 0
1 0
37
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Algorithme de Needleman-Wunsch
39
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Algorithme de Needleman-Wunsch
Algorithme de Needleman-Wunsch
Algorithme de Needleman-Wunsch
42
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Algorithme de Needleman-Wunsch
43
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Algorithme de Needleman-Wunsch
44
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Algorithme de Needleman-Wunsch
45
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Algorithme de Needleman-Wunsch
46
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Algorithme de Needleman-Wunsch
47
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Algorithme de Needleman-Wunsch
48
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Algorithme de Needleman-Wunsch
Algorithme de Needleman-Wunsch
Algorithme de Needleman-Wunsch
substitution
insertion délétion ou
identité
Remarques :
En général plusieurs chemins sont possibles
On peut construire un chemin en ‘descendant’ le tableau (mais pas tous)
51
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Algorithme de Needleman-Wunsch
Complexité de l’algorithme
Pour le calcul du score d'alignement (étape 1) :
O(n * m) en temps
O(min(n,m)) en espace
52
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Algorithme de Needleman-Wunsch
ACGGCT-ATC
alignement optimal
ACTG-TAATG
53
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Exemple 2
- A C G T
- -2 -2 -2 -2
Match : 2
A -2 2 -1 -1 -1
Mismatch : -1
C -2 -1 2 -1 -1 Indel : -2
G -2 -1 -1 2 -1
T -2 -1 -1 -1 2
54
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Exemple 2
- A C C G A T G A
- 0 -2 -4 -6 -8 -10 -12 -14 -16
A -2
C -4
G -6
C -8
T -10
A -12
Initialisation
55
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Exemple 2
56
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Exemple 2
57
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Exemple 2
58
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Exemple 2
59
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Exemple 2
Exemple 2
Exemple 2
62
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
63
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Exercice
Séquences ADN :
Aligner les séquences ADN suivantes :
ACGGATTACG
CGCGTATTG
Match 2, Mismatch -2, Indel -3
Séquences protéiques :
Aligner les séquences protéiques suivantes :
STRLPTF
SRAGDVPY
Matrice BLOSUM62 (Indel -4)
64
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Exercice : correction
- A C G G A T T A C G
- 0 -3 -6 -9 -12 -15 -18 -21 -24 -27 -30
C -3 -2 -1 -4 -7 -10 -13 -16 -19 -22 -25
G -6 -5 -4 1 -2 -5 -8 -11 -14 -17 -20
C -9 -8 -3 -2 -1 -4 -7 -10 -13 -12 -15
G -12 -11 -6 -1 0 -3 -6 -9 -12 -15 -10
T -15 -14 -9 -4 -3 -2 -1 -4 -7 -10 -13
A -18 -13 -12 -7 -6 -1 -4 -7 -2 -5 -8
T -21 -16 -15 -10 -9 -4 1 -2 -5 -8 -11
T -24 -19 -18 -13 -12 -7 -2 3 0 -3 -6
G -27 -22 -21 -16 -11 -10 -5 0 1 -2 -1
Exercice : correction
- S T R L P T F
- 0 -4 -8 -12 -16 -20 -24 -28 Alignement
optimal :
S -4 4 0 -4 -8 -12 -16 -20
R -8 0 3 5 1 -3 -7 -11 S--TRLPTF
SRAGDVP-Y
A -12 -4 -1 2 4 0 -4 -8
G -16 -8 -3 -2 0 2 1 -3
D -20 -12 -7 -5 -4 -1 3 -1
V -24 -16 -11 -9 -4 -5 -1 2
P -28 -20 -15 -13 -8 3 -1 -2
Y -32 -24 -19 -17 -12 -1 1 2
66
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Alignement global/local
68
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Alignement préfixe+suffixe
ACCCTTCCAGGATTG
GTATTGAGCCTCATAA
71
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
72
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Remarques :
Modèle linéaire : modèle de base, vu précédemment
Modèle affine : plus proche de la réalité, mais plus complexe
à calculer
Complexité de l’algorithme « naif » en O(n3)
Complexité ramenée en O(n²) en utilisant des matrices stockant les
résultats intermédiaires
Gap linéaire = cas particulier du gap affine (go=ge)
Gap Affine : ouverture de gap fortement pénalisée
ge < go
73
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Gap linéaire
pénalité
Gap affine
Gap logarithmique
|gap|
74
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
75
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Initialisation :
M [0,0] = D[0,0] = H [0,0] = V [0,0] = 0
D[i,0] = H [i,0] = g o + (i − 1) ⋅ g e , ∀i ∈ [1..N ]
D[0, j ] = V [0, j ] = g o + ( j − 1) ⋅ g e , ∀j ∈ [1..P]
Calcul de M[1,1] :
76
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
H [i,1] = H [i,0] + g o
D[i − 1, j − 1] + sim( xi , y j )
D[i, j ] = max H [i − 1, j − 1] + sim( xi , y j )
V [i − 1, j − 1] + sim( x , y )
i j
V [i, j − 1] + g o
M [i, j ] = max H [i, j ] = max D[i, j − 1] + g o
H [i, j − 1] + g
e
V [i − 1, j ] + g e
V [i, j ] =
max D[i − 1, j ] + g o
H [i − 1, j ] + g
o 78
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Matrice D Matrice V
- C T G A C A T - C T G A C A T
- -
C C
T T
A A
Matrice H Matrice M
- C T G A C A T - C T G A C A T
- -
C C
T T
A A
79
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Matrice D Matrice V
- C T G A C A T - C T G A C A T
- 0 - 0
C C
T T
A A
Matrice H Matrice M
- C T G A C A T - C T G A C A T
- 0 - 0
C C
T T
A A
80
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Matrice D Matrice V
- C T G A C A T - C T G A C A T
- 0 X X X X X X X - 0 X X X X X X X
C X C -3
T X T -4
A X A -5
Matrice H Matrice M
- C T G A C A T - C T G A C A T
- 0 -3 -4 -5 -6 -7 -8 -9 - 0 -3 -4 -5 -6 -7 -8 -9
C X C -3
T X T -4
A X A -5
81
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Matrice D Matrice V
- C T G A C A T - C T G A C A T
- 0 -3 -4 -5 -6 -7 -8 -9 - 0 X X X X X X X
C -3 4 C -3 -6
T -4 T -4
A -5 A -5
Matrice H Matrice M
- C T G A C A T - C T G A C A T
- 0 -3 -4 -5 -6 -7 -8 -9 - 0 -3 -4 -5 -6 -7 -8 -9
C X -6 C -3 4
T X T -4
A X A -5
82
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Matrice D Matrice V
- C T G A C A T - C T G A C A T
- 0 X X X X X X X - 0 X X X X X X X
C X 4 -4 -5 -6 -2 -8 -9 C -3 -6 -7 -8 -9 -10 -11 -12
T X T -4
A X A -5
Matrice H Matrice M
- C T G A C A T - C T G A C A T
- 0 -3 -4 -5 -6 -7 -8 -9 - 0 -3 -4 -5 -6 -7 -8 -9
C X -6 1 0 -1 -2 -3 -4 C -3 4 1 0 -1 -2 -3 -4
T X T -4
A X A -5
83
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Matrice D Matrice V
- C T G A C A T - C T G A C A T
- 0 -3 -4 -5 -6 -7 -8 -9 - 0 X X X X X X X
C -3 4 -4 -5 -6 -2 -8 -9 C -3 -6 -7 -8 -9 -10 -11 -12
T -4 -4 8 0 -1 -2 -3 -4 T -4 1 -2 -3 -4 -5 -6 -7
A -5 -5 0 7 9 3 7 1 A -5 0 5 2 1 0 -1 -2
Matrice H Matrice M
- C T G A C A T - C T G A C A T
- 0 -3 -4 -5 -6 -7 -8 -9 - 0 -3 -4 -5 -6 -7 -8 -9
C X -6 1 0 -1 -2 -3 -4 C -3 4 1 0 -1 -2 -3 -4
T X -7 -2 5 4 3 2 1 T -4 1 8 5 4 3 2 1
A X -8 -3 2 4 6 5 4 A -5 0 5 7 9 6 5 4
84
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Matrice D Matrice V
- C T G A C A T - C T G A C A T
- 0 -3 -4 -5 -6 -7 -8 -9 - 0 X X X X X X X
C -3 4 -4 -5 -6 -2 -8 -9 C -3 -6 -7 -8 -9 -10 -11 -12
T -4 -4 8 0 -1 -2 -3 -4 T -4 1 -2 -3 -4 -5 -6 -7
A -5 -5 0 7 9 3 7 1 A -5 0 5 2 1 0 -1 -2
Matrice H Matrice M
- C T G A C A T - C T G A C A T
- 0 -3 -4 -5 -6 -7 -8 -9 - 0 -3 -4 -5 -6 -7 -8 -9
C X -6 1 0 -1 -2 -3 -4 C -3 4 1 0 -1 -2 -3 -4
T X -7 -2 5 4 3 2 1 T -4 1 8 5 4 3 2 1
A X -8 -3 2 4 6 5 4 A -5 0 5 7 9 6 7 4
85
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Matrice D Matrice V
- C T G A C A T - C T G A C A T
- 0 -3 -4 -5 -6 -7 -8 -9 - 0 X X X X X X X
C -3 4 -4 -5 -6 -2 -8 -9 C -3 -6 -7 -8 -9 -10 -11 -12
T -4 -4 8 0 -1 -2 -3 -4 T -4 1 -2 -3 -4 -5 -6 -7
A -5 -5 0 7 9 3 7 1 A -5 0 5 2 1 0 -1 -2
Matrice H Matrice M
- C T G A C A T - C T G A C A T
- 0 -3 -4 -5 -6 -7 -8 -9 - 0 -3 -4 -5 -6 -7 -8 -9
C X -6 1 0 -1 -2 -3 -4 C -3 4 1 0 -1 -2 -3 -4
T X -7 -2 5 4 3 2 1 T -4 1 8 5 4 3 2 1
A X -8 -3 2 4 6 5 4 A -5 0 5 7 9 6 7 4
86
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
87
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
- A G C T C G A - A G C T C G A
- 0 -3 -4 -5 -6 -7 -8 -9 - 0 -3 -4 -5 -6 -7 -8 -9
T X -6 -5 -6 -7 -6 -7 -8 T -3 -2 -5 -6 -3 -6 -7 -8
A X -7 -4 -5 -6 -7 -8 -9 A -4 -1 -4 -5 -6 -5 -8 -5
C X -8 -7 -6 -5 -6 -7 -8 C -5 -4 -3 -2 -5 -4 -7 -8
A X -9 -6 -7 -8 -7 -8 -9 A -6 -3 -6 -5 -4 -7 -6 -5
G X -10 -9 -4 -5 -6 -7 -8 G -7 -6 -1 -4 -5 -6 -5 -8
C X -11 -10 -7 -2 -3 -4 -5 C -8 -7 -4 1 -2 -3 -4 -5
T X -12 -11 -8 -5 0 -1 -2 T -9 -8 -5 -2 3 0 -1 -2
T X -13 -12 -9 -6 -3 -2 -3 T -10 -9 -6 -3 0 1 -2 -3
G X -14 -13 -10 -7 -4 -5 0 G -11 -10 -7 -4 -1 -2 3 0 89
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
- A G C T C G A - A G C T C G A
- 0 -3 -4 -5 -6 -7 -8 -9 - 0 -3 -4 -5 -6 -7 -8 -9
T X -6 -5 -6 -7 -6 -7 -8 T -3 -2 -5 -6 -3 -6 -7 -8
A X -7 -4 -5 -6 -7 -8 -9 A -4 -1 -4 -5 -6 -5 -8 -5
C X -8 -7 -6 -5 -6 -7 -8 C -5 -4 -3 -2 -5 -4 -7 -8
A X -9 -6 -7 -8 -7 -8 -9 A -6 -3 -6 -5 -4 -7 -6 -5
G X -10 -9 -4 -5 -6 -7 -8 G -7 -6 -1 -4 -5 -6 -5 -8
C X -11 -10 -7 -2 -3 -4 -5 C -8 -7 -4 1 -2 -3 -4 -5
T X -12 -11 -8 -5 0 -1 -2 T -9 -8 -5 -2 3 0 -1 -2
T X -13 -12 -9 -6 -3 -2 -3 T -10 -9 -6 -3 0 1 -2 -3
G X -14 -13 -10 -7 -4 -5 0 G -11 -10 -7 -4 -1 -2 3 0 90
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
- A G C T C G A
- 0 -3 -4 -5 -6 -7 -8 -9
T -3 -2 -5 -6 -3 -6 -7 -8
A -4 -1 -4 -5 -6 -5 -8 -5
C -5 -4 -3 -2 -5 -4 -7 -8
A -6 -3 -6 -5 -4 -7 -6 -5
G -7 -6 -1 -4 -5 -6 -5 -8
C -8 -7 -4 1 -2 -3 -4 -5
T -9 -8 -5 -2 3 0 -1 -2
T -10 -9 -6 -3 0 1 -2 -3
G -11 -10 -7 -4 -1 -2 3 0
91
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Conclusion
93
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Conclusion
BLAST :
• Recherche heuristique permettant de trouver les régions similaires entre deux ou
plusieurs séquences de nucléotides ou d'acides aminés.
• Permet de retrouver rapidement dans des bases de données, les séquences ayant
des zones de similitude avec une séquence donnée (introduite par l'utilisateur).
• Utilisé pour trouver des relations fonctionnelles ou évolutives entre les séquences et
peut aider à identifier les membres d'une même famille de gènes.
Sommaire
Introduction à la bioinformatique
Notions de base
Alignement 2 à 2 de séquences
Alignement multiple de séquences
Introduction / Motif protéique
Alignement multiple optimal
Heuristiques pour l’alignement multiple
Phylogénie
95
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Alignement multiple
Alignement 2 à 2 :
Deux séquences quelconques
Recherche d’une certaine similarité syntaxique
Fonction commune ?
Alignement multiple :
Famille de séquences partageant une même fonction
Quelle est la conservation syntaxique ?
Notion de motif protéique
96
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Motif protéique
un motif protéique est une séquence de nucléotides "particulière" qui a une
signification biologique.
PMY_PETMA/1-36 PEE..LSKYMLAVRNYINLITRQRY
PPY_LOPAM/1-36 PED..WASYQAAVRHYVNLITRQRY
PAHO_BOVIN/30-65 PEQ..MAQYAAELRRYINMLTRPRY
PAHO_CHICK/26-61 VED..LIRFYNDLQQYLNVVTRHRY
PAHO_ANSAN/1-36 VED..LRFYYDNLQQYRLNVFRHRY
NPF_HELAS/4-39 PNE..LRQYLKELNEYYAIMGRTRF
NPF_MONEX/1-39 DNKAALRDYLRQINEYFAIIGRPRF
97
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Motif protéique
Exemple : hormone pancréatique
PMY_PETMA/1-36 PEE..LSKYMLAVRNYINLITRQRY
PPY_LOPAM/1-36 PED..WASYQAAVRHYVNLITRQRY
PAHO_BOVIN/30-65 PEQ..MAQYAAELRRYINMLTRPRY
PAHO_CHICK/26-61 VED..LIRFYNDLQQYLNVVTRHRY
PAHO_ANSAN/1-36 VED..LRFYYDNLQQYRLNVFRHRY
NPF_HELAS/4-39 PNE..LRQYLKELNEYYAIMGRTRF
NPF_MONEX/1-39 DNKAALRDYLRQINEYFAIIGRPRF
Expression Prosite
[FY]-x(3)-[LIVM]-x(2)-Y-x(3)-[LIVMFY]-x-R-x-R-[YF]
Syntaxe
- : séparation des éléments
x : n’importe quel acide aminé
(3,5) : nombre d’occurrences (entre 3 et 5)
[FY] : alternative (F ou Y) – fixer une limite pour le nombre d’alternatives 98
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Motif protéique
Exemple 2 : doigt de zinc
YVCPFDGCNKKFAQSTNLKSHILT--H
YKCT--VCRKDISSSESLRTHMFKQHH
FQCD--ICKKTFKNACSVKIHHKN-MH
LKCSVPGCKRSFRKKRALRIHVSE--H
FECN--MCGYHSQDRYEFSSHITRGEH
YKCEFADCEKAFSNASDRAKHQNR-TH
YKCN--QCGIIFSQNSPFIVHQIA--H
FRCS--ECSRSFTHNSDLTAHMRK--H
CKCETENCNLAFTTASNMRLHFKR-AH
YRCSYEDCQTVSPTWTALQTHLKK--H
FRCV--WCKQSFPTLEALTTHMKDSKH
FRCGYKGCGRLYTTAHHLKVHERA--H
YRCPRENCDRTYTTKFNLKSHILT-FH
YTCPEPHCGRGFTSATNYKNHVRI--H
Expression Prosite
C-x(2,4)-C-x(3)-[LIVMFYWCS]-x(8)-H-x(3,5)-H
Influe sur le repliement de la protéine
99
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Motif protéique
Exemple 3 : Site de fixation de la cellulose
HWGQCGGI---GYSGCKTCTSGTTCQYSNDYYSQCL
HYGQCGGI---GYSGPTVCASGTTCQVLNPYYSQCL
QWGQCGGI---GYTGSTTCASPYTCHVLNPYYSQCY
VWGQCGGQ---NWSGPTCCASGSTCVYSNDYYSQCL
LYGQCGGA---GWTGPTTCQAPGTCKVQNQWYSQCL
IWGQCGGN---GWTGATTCASGLKCEKINDWYYQCV
VWGQCGGN---GWTGPTTCASGSTCVKQNDFYSQCL
DWAQCGGN---GWTGPTTCVSPYTCTKQNDWYSQCL
QWGQCGGQ---NYSGPTTCKSPFTCKKINDFYSQCQ
RWQQCGGI---GFTGPTQCEEPYICTKLNDWYSQCL
HWAQCGGI---GFSGPTTCPEPYTCAKDHDIYSQCV
LYEQCGGI---GFDGVTCCSEGLMCMKMGPYYSQCR
VWAQCGGQ---NWSGTPCCTSGNKCVKLNDFYSQCQ
PYGQCGGM---NYSGKTMCSPGFKCVELNEFFSQCD
AYYQCGGSKSAYPNGNLACATGSKCVKQNEYYSQCV
EYAACGGE---MFMGAKCCKFGLVCYETSGKWSQCR
C-G-G-x(4,7)-G-x(3)-C-x(5)-C-x(3,5)-[NHG]-x-[FYWM]- x(2)-Q-C
100
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Alignement multiple
Alignement multiple
Comment scorer un alignement multiple ?
Score SP - sum of pairs : somme des scores de ses colonnes
Comment scorer une colonne ?
adaptable à un nombre quelconque de lignes
indépendant de l'ordre
reflète la similarité
c1
scoreSP M = ∑ score(ci , c j )
c 1≤i < j ≤ k
k
c1 , L , ck ∈ Α ∪ {−} et score(−,− ) = 0
102
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
A A C G T A C G A T A
A - C G T A - A A T G
G T C G T A - - T T A
103
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
A A C G T A C G A T A
8
A - C G T A - A A T G
G T C G T A - - T T A
104
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
A A C G T A C G A T A
8
A - C G T A - A A T G 5
G T C G T A - - T T A
3
105
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
A A C G T A C G A T A
8
A - C G T A - A A T G 5
G T C G T A - - T T A
3
106
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
A A C G T A C G A T A
A - C G T A - A A T G
G T C G T A - - T T A
107
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
A A C G T A C G A T A
A - C G T A - A A T G
G T C G T A - - T T A
2
-1
-1
=
0
108
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
A A C G T A C G A T A
A - C G T A - A A T G
G T C G T A - - T T A
2 -2 2 2 2 2 -2 -1 2 2 -1
-1 -1 2 2 2 2 -2 -2 -1 2 2
-1 -2 2 2 2 2 0 -2 -1 2 -1
= = = = = = = = = = =
0 -5 6 6 6 6 -4 -5 0 6 0
109
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
A A C G T A C G A T A
A - C G T A - A A T G
G T C G T A - - T T A
2 -2 2 2 2 2 -2 -1 2 2 -1
-1 -1 2 2 2 2 -2 -2 -1 2 2
-1 -2 2 2 2 2 0 -2 -1 2 -1
= = = = = = = = = = =
0 -5 6 6 6 6 -4 -5 0 6 0
110
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
A L L A L W G P D P A
A L L A F W G P D P A
A L L A F W G P D P S
A L L V L W E P K P S
A L L V F S G P G T S
* * * . : * . :
111
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Formulation
Définition : Alignement
Soit un alphabet Σ.
Soit S = { S1, S2, ..., Sk } un ensemble de k séquences.
Un alignement de S, noté A(S1, S2, ..., Sk) est une matrice k*q
Chaque élément au,v de la matrice a est défini dans Σ.
q est plus grand que la plus grande des séquences, et plus petit que
la somme des tailles des séquences.
Pour tout u tel que q 1≤u ≤ k, la séquence {au,1, au,2,..., au,q}
dans laquelle on supprime les gaps correspond à Su
Formulation : Problème d'alignement multiple
Soient k séquences S1,…,Sk et une matrice de score w, le problème
d'alignement multiple consiste à déterminer un alignement de coût
optimal selon w.
112
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
k n
2 3 4 5
2 13 63 321 1683
4 23917 1.1e7 … …
113
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Problème algorithmique
Trouver l'alignement multiple de score SP maximal
Approche exacte : programmation dynamique
Alignement deux à deux : chemin dans une matrice de dimension 2
Alignement multiple : chemin dans une matrice de dimension supérieure
k séquences à aligner, matrice de dimension k
G
A
A -G-A-
C-GTG
T AT--G
G
C G T G
114
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
115
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Problème de complexité
Explosion combinatoire quand le nombre de séquences augmente
116
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Complexité
s1,…,sk : séquences de taille n
T(i1,…,ik) : score optimal entre les k préfixes
s1(1,…,i1) , … , sk(1,…,ik)
O(nk2kk2)
Table de taille nk
Temps de calcul d'une case : dépend de 2k-1 cases
précédentes
Temps de calcul de chaque scoreSP : k(k-1)/2
Problème de décision NP-Complet
117
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Alignement multiple
119
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Heuristique en étoile
Heuristique en étoile
Sélection d'une séquence centrale
Construction de l'alignement multiple, en partant de la
séquence centrale, puis en incorporant une à une les autres
séquences
Exemple :
S1 cgatgagtcattgtgactg
S2 cgagccattgtagctactg
S3 cgaccattgtagctacctg
S4 cgatgagtcactgtgactg
Heuristique en étoile
Etape 1 : Alignements globaux de toutes les séquences deux par deux
S1 cgatgagtcattgt-g--actg S2 cgagccattgtagcta-ctg
||| | |||||| | |||| ||| |||||||||||| |||
S2 cga-g--ccattgtagctactg S3 cga-ccattgtagctacctg
S1 cgatgagtcattg-tgactg S2 cga-g--ccattgtagctactg
||| | | | | | ||| ||| | || ||| | ||||
S3 cgacca-ttgtagctacctg S4 cgatgagtcactgt-g--actg
S1 cgatgagtcattgtgactg S3 cgaccattgtagctacctg
|||||||||| |||||||| ||| | | | |||
S4 cgatgagtcactgtgactg S4 cgatgagtcactgtgactg
Tableau des scores
S1 S2 S3 S4
S1 2 0 17
S3 0 14 -1
S4 17 0 -1
121
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Heuristique en étoile
S1 2 0 17 19
S2 2 14 0 16
S3 0 14 -1 13
S4 17 0 -1 16
122
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Heuristique en étoile
Heuristique en étoile
Heuristique en étoile
Clustal
Higgins et Sharp [1988]. CLUSTAL: a package for performing multiple sequence
alignment on a microcomputer. Gene, 73, 237-244.
Clustal = CLUSTer + ALignment
Inspiré par la classification hiérarchique ascendante
Regroupement progressif des séquences
Exemple :
S1 cgatgagtcattgtgactg
S2 cgagccattgtagctactg
S3 cgaccattgtagctacctg
S4 cgatgagtcactgtgactg
Clustal
S1 12 11 1
S2 12 4 14
S3 11 4 10
S4 1 14 10
127
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Clustal
S2 12 4 14 S4 S3
S1 S4
S3 11 4 10
S4 1 14 10
128
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Clustal
129
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Clustal
130
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Clustal
131
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Clustal
S1 cgatgagtcattgt-g--ac-tg
S4 cgatgagtcactgt-g--ac-tg
S2 cga---gccattgtagctac-tg
S3 cga----ccattgtagctacctg
S1 cgatgagtcattgtgactg S2 cgagccattgtagctac-tg
|||||||||| |||||||| ||| ||||||||||||| ||
S4 cgatgagtcactgtgactg S3 cga-ccattgtagctacctg
S4 cgagccattgtagctactg S2 cgatgagtcactgtgactg
S1 cgatgagtcattgtgactg S3 cgaccattgtagctacctg
132
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Clustal-W
→ Variante de Clustal
Thompson JD, Higgins DG, Gibson TJ (1994) CLUSTAL W: improving the sensitivity
of progressive multiple sequence alignment through sequence weighting,
position specific gap penalties and weight matrix choice. Nucleic Acids Res.
22(22):4673-80.
Modification principale au niveau de la mise à jour de la
matrice des distances après regroupement de 2 séquences
Des poids sont associés selon le nombre de séquences
concernées (cf. phylogénie)
133
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
135
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Sommaire
Introduction à la bioinformatique
Notions de base
Alignement 2 à 2 de séquences
Alignement multiple de séquences
Phylogénie
Généralités / Notions sur les arbres
Méthodes de reconstruction phylogénétique
WPGMA / UPGMA
Neighbourg-joigning
Parcimonie
136
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
Arbre de Haeckel (1866)
La phylogénie est l'étude de la formation et
de l'évolution des organismes vivants en vue
d'établir leur parenté
On représente couramment une phylogénie
par un arbre phylogénétique. La proximité
des branches de cet arbre représente le
degré de parenté entre les taxons, les
nœuds les ancêtres communs des taxons
Dans un arbre élaboré par phénétique, la
longueur des branches représente la
distance génétique entre taxons
137
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
138
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
Evolution
L’évolution selon Lamarck (1744-1829)
l'évolution est due à une adaptation continue au
milieu ambiant : un environnement changeant altère
les besoins de l'organisme vivant qui s'adapte en
modifiant son comportement
139
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
Evolution
L’évolution selon Darwin (1809-1882)
évolution par sélection naturelle : au sein d'une
même lignée, tous les individus sont différents
et la nature favorise la multiplication de ceux
qui jouissent d'un quelconque avantage
140
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
141
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
Méthodes de reconstruction
Deux grands types de méthodes permettant la reconstruction
d'arbres phylogénétiques :
Méthodes basées sur les mesures de distances entre séquences prises
deux à deux, c'est à dire le nombre de substitutions de nucléotides ou
d'acides aminés entre ces deux séquences.
UPGMA
Neighbor-Joining
…
Méthodes basées sur les caractères qui s'intéressent au nombre de
mutations (substitutions / insertions /délétions) qui affectent chacun des
sites (positions) de la séquence.
Parcimonie
Maximum de vraisemblance
…
142
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
Notions de bases (arbres)
Un arbre phylogénétique est caractérisé par :
sa topologie
la longueur de ses branches (éventuellement)
Seq D
Seq C
Seq A racine Seq C
Seq B Seq D Seq A
143
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
Notions de bases (arbres)
Notation de Newick
Pour stocker un arbre dans un fichier texte, on peut utiliser
la notation suivante
((A,B),C)
On peut aussi ajouter la longueur de chaque branche
((A:1,B:1):2,C:4)
1
A
2
1
B
4
C
Phylogénie
Notions de bases (arbres)
Différent types d’arbres
Arbres enracinés
Cladogrammes (longueur des branches non significative)
Phylogramme (longueur des branches proportionnelle au nombre de
substitutions)
Seq D Seq D
racine Seq C racine Seq C
Seq A
Seq A
Seq B
Seq B
145
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
Notions de bases (arbres)
Racine
Pour un arbre sans racine (unrooted), il existe plusieurs arbres avec racine
Position de la racine ?
Seq A 2 4 Seq C
Seq B 1 Seq D
3 5
A A B C D
B B A D C
C C C A A
D D D B B
1 2 3 4 5
Phylogénie
Notions de bases (arbres)
Ordre des branches
L’ordre des branches appartenant à un même nœud n’a aucune
importance
La rotation autour d’un nœud ne change rien à la topologie de l’arbre
A BC DEFGHI JKL A B C D H G F EI J K L
Phylogénie
Calcul des distances
Distance d’édition
A partir des opérations nécessaires pour obtenir un alignement, on peut
calculer une distance dite distance d’édition ou de Levenshtein
q
0 si xi = y i
d L (U ,V ) = ∑ d ( xi , yi ) avec d ( xi , yi ) =
i −1 1 sinon
Problème de distance d’édition
Consiste à trouver la distance minimum qui permet de transformer une
séquence en une autre séquence en utilisant les opérations d’édition
d L* (U , V ) = min d L (U , V ) ( )
Méthode : optimiser l’alignement pour minimiser la distance
cgagccattctagctac-tg
||| ||||| ||||||| || d=3
cga-ccattgtagctacctg
148
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
Calcul des distances
Correction des distances
Si le temps de divergence entre deux séquences augmente, la
probabilité d’avoir plusieurs substitutions à un même site augmente
Phylogénie
WPGMA / UPGMA
Problème : minimiser la somme des distances d’édition de l’arbre
(pour maximiser la vraisemblance de l’arbre)
WPGMA / UPGMA
« Weighted Pair Group Method with Arithmetic mean »
« Unweighted Pair Group Method with Arithmetic mean »
méthodes utilisées pour reconstruire des arbres phylogénétiques si les
séquences ne sont pas trop divergentes.
algorithmes de clusterisation séquentiel dans lequel les relations sont
identifiées dans l'ordre de leur similarité et la reconstruction de l'arbre se
fait pas à pas grâce à cet ordre.
UPGMA est utilisé pour l’alignement multiple dans l’algo. CLUSTAL
Principe général
Identification des deux séquences les plus proches
Ces deux séquences sont ensuite traitées comme un tout
On recherche les séquences les plus proches
…et ainsi de suite jusqu'à ce qu'il n'y ait plus que deux groupes
150
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
WPGMA
Hypothèses :
le taux de mutation est le même dans toutes les lignées (horloge
moléculaire)
Pas de mutations multiples
Méthode
Regroupement des 2 séquences Si et Sj les plus proches
Le noeud Sij est positionné à une distance d de chacune des séquences
(Weighted PGMA)
d = (dist(Si,Sj ))/2
Calcul de la distance entre le nouveau groupe et les autres séquences
dist((Si,Sj ),Sk) = (dist(Si,Sk)+dist(Sj,Sk))/2
etc...
151
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
WPGMA
Premier cycle :
A B C D E F B
A
A 0
B 2 0 C
C 4 4 0
F
D 6 6 6 0
E 6 6 6 4 0 D
E
F 8 8 8 8 8 0
152
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
WPGMA
Premier cycle :
A B C D E F B
A
A 0 1
1
B 2 0 C
C 4 4 0
F
D 6 6 6 0
E 6 6 6 4 0 D
E
F 8 8 8 8 8 0
Phylogénie
WPGMA
Deuxième cycle :
A,B C D E F B
A
1
A,B 0 1
C
C 4 0
D 6 6 0 F
2
2
E 6 6 4 0 D
F 8 8 8 8 0 E
154
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
WPGMA
Troisième cycle :
B
A
A,B C D,E F 1
1
A,B 0 1 C
2
C 4 0
F
2
D,E 6 6 0 2
D
F 8 8 8 0 E
155
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
WPGMA
Quatrième cycle :
B
A
1
AB,C D,E F 1
1 C
AB,C 0 1
2
D,E 6 0 F 1
2
2
F 8 8 0 D
E
dist(ABC,DE),F=(dist (AB,C)F+dist(D,E)F)/2=8
156
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
WPGMA
Cinquième cycle (midpoint rooting) :
B
ABC,DE F A
1
ABC,DE 0 1
1 C
F 8 0 1
2
1
4
F 1
2
2
1
D
1 A E
1 B
1
2 C
1
2
1 D
2 E
4 F
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
WPGMA
Exercice : étudier la phylogénie d’un gène commun pour 5
organismes, représentés ci-dessous
AGGCCTTACAT
ACCTATAATTGG
ACGATTATCAT
GGCTTACAA
CGATATCCCATT
Etapes :
Calculer les scores 2 à 2, en recherchant à chaque fois l’alignement
optimal
En déduire la matrice des distances
Choisir le couple des organismes les plus semblables
Reconstruire la matrice des distances, construire l’arbre
Itérer jusqu’à la construction complète de l’arbre
158
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
WPGMA
A B C D E A,D,C B E
A,D B C E
A 0 A,D,C 0
A,D 0
B 7 0 B 6.75 0
B 7.5 0
C 4 6 0 E 6 8 0
C 4.5 6 0
D 3 8 5 0
E 7 8 5 0
E 7 8 5 7 0 A,D,C,E B
A,D,C,E 0
1.5 B 7.375 0
0.75
A
0.75
1.5
D
0.6875
2.25
C
3
E
3.6875
B
159
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
UPGMA (Unweighted)
Hypothèses :
le taux de mutation est le même dans toutes les lignées (horloge
moléculaire)
Pas de mutations multiples
Méthode
Regroupement des 2 séquences Si et Sj les plus proches
Le noeud Sij est positionné à une distance d de chacune des séquences
d = (dist(Si,Sj ))/2
Calcul de la distance entre le nouveau groupe et les autres séquences
(Unweighted UPGMA)
dist((Si,Sj ),Sk) = (a.
a.dist(S
a. i,Sk)+b.
b.dist(S
b. j,Sk))/((a+b)
a+b)
où a et b sont le nombre de séquences composant Si et Sj
Etc
→ Exemple : http://www.soton.ac.uk/~re1u06/teaching/upgma/
160
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
WPGMA / UPGMA
Problème : suppose que la vitesse d'évolution est constante dans toutes les
branches
Problème majeur : si les taux de mutation diffèrent suivant les branches, la
méthode UPGMA peut conduire à une topologie erronée
A B C D E F
1
1 A A 0
4 B
1 B 5 0
2 C C 4 7 0
1
3
1 D D 7 10 7 0
2 E E 6 9 6 5 0
4 F F 8 11 8 9 8 0
Depuis que A et B ont divergé durant Matrice des distances
l’évolution, B a accumulé beaucoup plus de
mutations que A
161
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
Neighbor-Joining (NJ)
162
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
Neighbor-Joining (NJ)
Les données initiales permettent de construire une matrice qui
donne un arbre en étoile (cf. UPGMA)
Cette matrice de distances est corrigée afin de prendre en compte la
divergence moyenne de chacune des séquences avec les autres
163
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
Neighbor-Joining (NJ)
Exemple
A B C D E F
La matrice de distance associée A 0 5 4 7 6 8
à cet arbre est la suivante : B 0 7 10 9 11
C 0 7 6 8
D 0 5 9
E 0 8
F 0
Phylogénie
Neighbor-Joining (NJ)
Etape 2 : calcul de la nouvelle A B C D E F
matrice en utilisant la formule A 0 -13 -11.5 -10 -10 -10.5
M(i,j)= d(ij) -[r(i)+r(j)] / (N-2)
B -13 0 -11.5 -10 -10 -10.5
Exemple pour la paire AB :
M(AB)= 5 - [30+42]/4 = -13 C -11.5 0 -10.5 -10.5 -11
D -10 0 -13 -11.5
E -10 0 -11.5
F -10.5 0
B
On débute par l’arbre en étoile A
suivant :
C
D
E 165
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
Neighbor-Joining (NJ)
Etape 3 : Choix des plus proches voisins, c'est à dire des deux
séquences ayant le M(i,j) le plus petit
soit A et B soit D et E sur l’exemple.
On forme un nouveau nœud U avec A et B, et on calcule la
longueur de la branche entre U et A ainsi qu'entre U et B :
S (AU) = d (AB) / 2 + [r(A) - r(B)] / 2 (N-2)
= 5/2 + [30-42] /2(6-2) = 1
S (BU) = d (AB) - S(AU) = 5 - 1 = 4 B
A 4
On applique à l’arbre
en construction :
1 U C
F
D
E 166
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
Neighbor-Joining (NJ)
Etape 4 : on définit les nouvelles distances entre U et les autres
séquences (ou groupes de séquences)
d (CU) = [d(AC) + d(BC) - d(AB)] /2 = 3
d (DU) = [d(AD) + d(BD) - d(AB)] /2 = 6
d (EU) = [d(AE) + d(BE) - d(AB)] /2 = 5
d (DU) = [d(AF) + d(BF) - d(AB)] /2 = 7 …
Création d'une nouvelle matrice : U C D E F
U 0 3 6 5 7
C 0 7 6 8
D 0 5 9
E 0 8
F 0
La procédure repart de l'étape 1
avec N N-1 = 5 167
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
Neighbor-Joining (NJ)
La matrice de distance associée
à cet arbre est la suivante : U C D E F
U 0 3 6 5 7
Etape 1 : calcul de la C 0 7 6 8
divergence de chaque
séquence par rapport aux autres D 0 5 9
r(U)=21, r(C)=24, r(D)=27, r(E)=24, r(F)=32 E 0 8
F 0
Etape 2 : calcul de la nouvelle matrice en utilisant
la formule M(i,j)= d(ij) -[r(i)+r(j)] / (N-2)
U C D E F
Etape 3 : Choix du M(i,j) le plus petit U 0 -12 -10 -10 -10.6
soit U et C soit D et E sur l’exemple C 0 -10 -10 -10.6
On forme un nouveau nœud V avec U et C,
et on calcule la longueur de la branche entre D 0 -12 -10.6
V et U ainsi qu'entre V et C : E 0 -10.6
S (UV) = 1
F 0
S (CV) = 2
168
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
Neighbor-Joining (NJ)
On applique à l’arbre en construction : B
A 4
1
1 C
2
F
E D
Etape 4 : on définit les nouvelles distances entre U et les autres séquences (ou
groupes de séquences)
d (DV) = 5, d (EV) = 4, d (DV) = 6 V D E F
Création d'une nouvelle matrice : V 0 5 4 6
D 0 5 9
E 0 8
F 0
La procédure repart de l'étape 1 avec
N N-1 = 4 169
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
Neighbor-Joining (NJ)
La matrice de distance associée
à cet arbre est la suivante : V D E F
V 0 5 4 6
Etape 1 : calcul de la
divergence de chaque D 0 5 9
séquence par rapport aux autres
r(V)=15, r(D)=19, r(E)=17, r(F)=23 E 0 8
F 0
Etape 2 : calcul de la nouvelle matrice en utilisant la formule M(i,j)= d(ij) -[r(i)+r(j)] /
(N-2)
V D E F
Etape 3 : Choix du M(i,j) le plus petit V 0 -12 -12 -13
soit V et F soit D et E sur l’exemple
On forme un nouveau nœud W avec D et E, D 0 -13 -12
et on calcule la longueur de la branche entre
W et D ainsi qu'entre W et E : E 0 -12
S (WD) = 3
F 0
S (WE) = 2
170
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
Neighbor-Joining (NJ)
On applique à l’arbre en construction : B
A 4
1
1 C
2
F 3
2
E D
Etape 4 : on définit les nouvelles distances entre W et les autres séquences
(ou groupes de séquences)
d (DW) = 5, d (EW) = 4, d (DW) = 6 V W F
Création d'une nouvelle matrice : V 0 2 6
W 0 6
F 0
Phylogénie
Neighbor-Joining (NJ)
La matrice de distance associée
à cet arbre est la suivante : V W F
Etape 1 : calcul de la
V 0 2 6
divergence de chaque W 0 6
séquence par rapport aux autres
r(V)=8, r(W)=8, r(F)=12 F 0
Phylogénie
Neighbor-Joining (NJ)
On applique à l’arbre en construction : B
A 4
1
2
C
5 ? 1 1
F 1
2
3
E D
Etape 4 : on définit les nouvelles distances entre W et les autres séquences
(ou groupes de séquences)
d (XF) = 5 X F
Création d'une nouvelle matrice : X 0 5
F 0
Phylogénie
Enraciner un arbre
Exercice Récapitulatif
175
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Needlemann-Wunsch
Gib
Chat
Gor
176
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
UPGMA
Hom
Hom Gib Gor Chat
Hom Gib
Gib 2
Gor 4 5 Chat
Chat 6 5 7
Gor Hom
X Gor Chat 1
Gor 177
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
UPGMA
Hom
X Gor Chat 1
Hom
Gor
Y Chat 1
Y 6.25 X Gib
1
1.25
Chat 6.25
Chat 2.25
Gor
178
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
UPGMA
Hom
1
Y Chat
X Gib
Y 6.25 1
1.25
Chat 6.25 Chat 2.25
Gor
Hom
1
Hom 1
1.25
1 X Gib
0.875 Gib 1
1.25
2.25
Gor
3.125 Chat 0.875 2.25
Chat Gor
3.125
179
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
UPGMA
Arbre en construction : Hom
Gib
Chat
Gor
Etape 4 : on définit les nouvelles distances entre U et les autres séquences (ou
groupes de séquences)
V D E F
d (DV) = 5, d (EV) = 4, d (DV) = 6
V 0 5 4 6
Création d'une nouvelle matrice :
D 0 5 9
E 0 8
F 0
Neighbor-Joining (NJ)
V D E F
Etape 3 : Choix du M(i,j) le plus petit
soit V et F soit D et E sur l’exemple. V 0 -12 -12 -13
On forme un nouveau nœud W avec D et E, D 0 -13 -12
et on calcule la longueur de la branche entre
W et D ainsi qu'entre W et E : E 0 -12
S (WD) = 3 F 0
S (WE) = 2
181
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Neighbor-Joining (NJ)
Neighbor-Joining (NJ)
Phylogénie
Méthode de Parcimonie
Consiste à minimiser le nombre de "pas" (mutations /
substitutions) nécessaires pour passer d'une séquence à une
autre dans une topologie de l'arbre – hypothèses :
les sites évoluent indépendamment les uns des autres (caractères non
ordonnés)
la vitesse d'évolution est lente et constante au cours du temps
La méthode de maximum de parcimonie recherche toutes les
topologies possibles afin de trouver l'arbre optimal (minimum)
nombre d'arbres enracinés possibles
pour n séquences = (2 − 3)! / (2 ( ) )( − 2)!
nombre d'arbres non enracinés possibles
pour n séquences = (2 − 5)! / (2 ( ) )( − 3)!
184
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
Méthode de Parcimonie
Phylogénie
Méthode de Parcimonie
Principe de parcimonie : principe postulant que, pour un groupe
d'espèces, la phylogénie la plus vraisemblable est celle qui
nécessite le plus petit nombre de changements évolutifs
L'arbre phylogénétique est conçu de manière à impliquer le minimum
d'événements évolutifs
La longueur de l'arbre L est égale à la somme du nombre de changements
l pour chacun des k sites informatifs
k
L = ∑ li
i =1
186
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
Méthode de Parcimonie – sites informatifs
Sites informatifs : quels sont les sites informatifs correspondant à
ces séquences ? Pourquoi ce résultat ?
S1 cgatgagtcattgt-g--ac-tg
S2 cgatg--tcactgt-g--ac-tg
S3 cga---gccattgtagctac-tg
S1 cgatgagtcattgt-g--ac-tg
S2 cgatgagtcactgt-g--ac-tg
S3 cga---gccattgtagctac-tg
S4 cga----ccattgtagctacctg
S5 cga---gccattacagctacttg
S6 -gatgagtcactgtgg--ac-tg
187
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
Méthode de Parcimonie – sites informatifs
Sites informatifs : quels sont les sites informatifs correspondant à
ces séquences ? Pourquoi ce résultat ?
S1 cgatgagtcattgt-g--ac-tg
S2 cgatg--tcactgt-g--ac-tg
S3 cga---gccattgtagctac-tg
S1 cgatgagtcattgt-g--ac-tg
S2 cgatgagtcactgt-g--ac-tg
S3 cga---gccattgtagctac-tg
S4 cga----ccattgtagctacctg
S5 cga---gccattacagctacttg
S6 -gatgagtcactgtgg--ac-tg
188
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
Méthode de Parcimonie
Procédure d'analyse par la méthode de parcimonie :
Données de départ : un alignement multiple des séquences
Identifier les sites informatifs
Inférer toutes les topologies d'arbres possibles pour les séquences
données
Calculer le nombre minimum de substitutions pour chaque site
informatif
Calculer la somme de changements pour chaque arbre
Choisir la topologie de l'arbre qui nécessite le moins de changements :
l’arbre le plus court
189
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
Méthode de Parcimonie
190
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
Méthode de Parcimonie
Fitch: Mise en œuvre
Étape 1 : calcul des états possibles pour chaque caractère à chaque
nœud
Parcours en profondeur postfixé :
Si le nœud est une feuille alors son état est gardé
Sinon si l’intersection entre les 2 descendants du nœud est vide alors
l’union de leurs états est prise
sinon on prend l’intersection
{AC}* {CG}*
{ACG}*
{AC}
191
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
Méthode de Parcimonie
Fitch : Mise en œuvre
Étape 2 : déterminer la valeur des états ancestraux
Parcours en profondeur préfixée
Soit x le nœud courant
Si x = racine alors nous choisissons un élément quelconque de la racine
Sinon si le parent est identique à un élément de l’ensemble des éléments de
x alors choisir celui-ci
Sinon choisir un élément quelconque de l’ensemble d’éléments
{AC}*
A {CG}*
G
{ACG}*
A
{AC}
A
192
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
Méthode de Parcimonie
Récapitulatif A A
B E
A A C G T A C G A T A C C
A A C G T A C A A T G D B
E D
G T C G T A C C T T A A
A T C G T A C C A T A C
A T C G T A C A A T A E
D
Sites informatifs B
Topologies d’arbres
{AC}* {CG}*
{ACG}*
Choix de la topologie
{AC}
193
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
Remarques sur les méthodes de parcimonie
Avantages de la parcimonie
Méthode ne réduisant pas la séquence à un simple nombre
Méthode essayant de donner une information sur les séquences ancestrales
Méthode évaluant différents arbres
Inconvénients
Méthode très lente par rapport aux méthodes basées sur les distances
N'utilise pas toute l'information disponible (seuls les sites informatifs sont pris en
compte)
Pas de corrections pour les substitutions multiples
Aucune information sur la longueur des branches
194
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
Variantes de la méthodes de parcimonie
Recherche heuristique
Réarrangement des branches à chaque étape
Ne garantit pas de trouver l'arbre optimal
Arbre consensus
La méthode du maximum de parcimonie peut conduire à trouver
plusieurs arbres équivalents : on crée alors un arbre consensus
Arbre consensus construit à partir des nœuds les plus fréquemment
rencontrés sur l'ensemble des arbres possibles
195
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
Remarques générales
196
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Phylogénie
Arbre consensus
A A
B C
C B
D D
E E
F F
A
B
Arbre consensus :
C
D
E
F
197
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Bootstrap
On compte ensuite pour chaque nœud le nombre de fois où il est présent dans les T'. Cette
fréquence avec laquelle on retrouve un nœud est la valeur de bootstrap (plus elle est
élevée plus la fiabilité de la branche est importante)
On supprime alors éventuellement les nœuds à faible fiabilité
198
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)
lOMoARcPSD|34004850
Bootstrap
75
A A
99 B 99 B
95 C 95 C
D D
100 100
E E
F F
199
Téléchargé par Assema Salmi (assemasalmi93@gmail.com)