Vous êtes sur la page 1sur 39

Cours 8

Analyse des génomes

II- Annotation fonctionnelle des


génomes
Annotation des génomes
Deux niveaux d’annotation:

1- Annotation structurelle: Inventaire et analyse des éléments


presents dans un génome
• Identification de tous les génes codants pour des protéines et
des ARN (ribosomique, de transfert).

• Identification de sites promoteurs, de terminaison de la


transcription et de la traduction, d’epissage, intron, exons…etc

2- Annotation fonctionnelle
Identifier la fonction de tous les gènes détectés lors
de l’étape precedente.
Annotation fonctionnelle

Question:
Comment connaitre la fonction d’un gene quand on ne
connait que sa sequence?

Reponse:
Recherche de similarité entre les séquences
Annotation fonctionnelle

Méthodologie: Prediction de fonction par similarite:


Principe
Toute protéine inconnue ayant un pourcentage de similarité suffisamment élevé
avec au moins une protéine connue dont la fonction est identifiée se verra
attribuer cette fonction
Pour comparer 2 séquences il faut les
aligner
ABDELKADER
ABDALKADER

ABDELKADER
ABDALKADER

ABDELKADEER
ABDELKADAR

ABDELKADEER
ABDELKADA- R
Comparaison des séquences
• Identifier les points communs ou les différences entre deux
séquences.

• Retracer l’histoire évolutive des séquences en simulant les


mutations:
- Changement d’un nucléotide par un autre (substitution).
- Ajout ou suppression d’un ou plusieurs nucléotides
(insertion ou deletion)

• Comparer deux séquences revient à rechercher un alignement.

• Exemple:

Alignment de deux sequences


Types d’alignements
• Alignement global: prise en compte de la totalite de la séquence
Protéine A
Protéine B

• Alignement local: Recherche de la région de plus forte similarité entre


deux séquences domaine
Protéine A
Protéine B
Alignement des séquences
Alignement des séquences
Alignement des séquences
Comment évaluer un alignement de
séquences?
Les matrices de substitution
Pour comparer deux sequences, on a besoin de comparer
chaque position dans les deux sequences.
On a besoin de connaitre combien ça “coute” pour substituer
une base par une autre ou un acide amine par un autre.
Exemple:
Alanine en Isoleucine
Tryptophan en Glycine

La table qui contient les valeures de toutes les substitutions
possible s’appele matrice de substitution (substitution matrix).

Les matrices de substitution sont utilises pour calculer le score


d’un alignement d’une base avec une base (DNA) ou acide amine
avec acide amine (proteine).
Exemple d’une simple matrice
de score
A C G T
A 1 0 0 0 Oui/Non

C 0 1 0 0
G 0 0 1 0
T 0 0 0 1
Calcul du score d’un alignement a
partir d’une simple matrice de score

ATCTACGTACT
|||||| |||| 1 mismatch G=C
ATCTACCTACT score = 10/11

LARERLLATVRKV
|| ||||||| || 2 mismatches
LAKERLLATVDKV R=K and R=D
score = 11/13
Identity and Similarity
Identity
Sequence 1 M A L Y H D M F R
Match M A + M F R
Sequence 2 M A C V D E M F R

Similarity

Blue = Nitrogen
White = Carbon
Red = Oxygen
Et quand il s’agit de sequences de
proteines?
LARERLLATVRKV
|| ||||||| || 2 mismatches
LAKERLLATVDKV R=K and R=D

• Mais, aRginine au Lysine(K) ont des propriétés physico-


chimiques similaires
• alors que aRginine en aspartic acid (D) n’ont pas.

R and K sont des acide aminees charges positivement, Ils ont


une structure tres similaraire (NH4+)
Aspartic acid a une charge negative (COO-)
Donc RK sont moins differents que R D.
Et les autre acide amines?
Dans ce cas une matrice simple n’est pas utile.
Propriétés physico-chimiques des acides
aminés
Les acides aminés composant une proteine peuvent avoir des propriétés
physico-chimiques similaires.

On sait que la structure 3D dépend de ces


caractéristiques

Une similitude au niveau de ces propriétés


sera suffisante pour permettre la substitution
d’un acid aminé en un autre sans perturber la
fonction de la protéine (par exemple, échange
de l’acide aminé hydrophobe valine en leucine)

Lors de la comparaison de 2 sequences protéiques, nous devons prendre en


compte ces similitudes et pas seulement les identites.
Propriétés physico-chimiques des acides
aminés

Category Amino Acid


Acids and Amides Asp (D) Glu(E) Asn (N) Gln (Q)
Basic His (H) Lys (K) Arg (R)
Aromatic Phe (F) Tyr (Y) Trp (W)
Hydrophilic Ala(A) Cys(C) Gly(G) Pro(P) Ser(S) Thr(T)

Hydrophobic Ile (I) Leu (L) Met (M) Val (V)


Les matrices de substitutions des acides
aminés
The deux plus populaires matrices sont:

• BLOSUM

• BLOCKS SUBSTITUTION MATRIX

• PAM

• POINT ACCEPTED MUTATIONS


La matrice de substitution
Ala
Arg
Asn
A
R
N
4
-1
-2
5
0 6
BLOSSUM62
Asp D -2 -2 1 6
Cys C 0 -3 -3 -3 9
Gln Q -1 1 0 0 -3 5
Glu E -1 0 0 2 -4 2 5
Gly G 0 -2 0 -1 -3 -2 -2 6
His H -2 0 1 -1 -3 0 0 -2 8
Ile I -1 -3 -3 -3 -1 -3 -3 -4 -3 4
Leu L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4
Lys K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5
Met M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5
Phe F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6
Pro P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7
Ser S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4
Thr T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5
Trp W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11
Tyr Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7
Val V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4
B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4
Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4
X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1
* -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1
Phe
Asn

Asp

Met
Leu
Cys
Arg

Pro

Ser

Thr
Gln

Glu

Lys

Trp

Tyr
Gly

Val
Ala

His

Ile

A R N D C Q E G H I L K M F P S T W Y V B Z X *
Hydrophobic A C G I L M P V
Aromatic H F W Y
Polar N Q S T Y
Basic R H K
Acidic D E
La matrice de substitution
Cys
Ser
C
S
12
0 2
PAM250
Thr T -2 1 3
Pro P -1 1 0 6
Ala A -2 1 1 1 2
Gly G -3 1 0 -1 1 5
Asn N -4 1 0 -1 0 0 2
Asp D -5 0 0 -1 0 1 2 4
Glu E -5 0 0 -1 0 0 1 3 4
Gln Q -5 -1 -1 0 0 -1 1 2 2 4
His H -3 -1 -1 0 -1 -2 2 1 1 3 6
Arg R -4 0 -1 0 -2 -3 0 -1 -1 1 2 6
Lys K -5 0 0 -1 -1 -2 1 0 0 1 0 3 5
Met M -5 -2 -1 -2 -1 -3 -2 -3 -2 -1 -2 0 0 6
Ile I -2 -1 0 -2 -1 -3 -2 -2 -2 -2 -2 -2 -2 2 5
Leu L -6 -3 -2 -3 -2 -4 -3 -4 -3 -2 -2 -3 -3 4 2 6
Val V -2 -1 0 -1 0 -1 -2 -2 -2 -2 -2 -2 -2 2 4 2 4
Phe F -4 -3 -3 -5 -4 -5 -4 -6 -5 -5 -2 -4 -5 0 1 2 -1 9
Tyr Y 0 -3 -3 -5 -3 -5 -2 -4 -4 -4 0 -4 -4 -2 -1 -1 -2 7 10
Trp W -8 -2 -5 -6 -6 -7 -4 -7 -7 -5 -3 2 -3 -4 -5 -2 -6 0 0 17
C S T P A G N D E Q H R K M I L V F Y W
Cys Ser Thr Pro Ala Gly Asn Asp Glu Gln His Arg Lys Met Ile Leu Val Phe Tyr Trp
Hydrophobic C P A G M I L V
Aromatic H F Y W
Polar S T N Q Y
Basic H R K
Acidic D E
Calcul du score de l’alignement
Ala A 4
Arg R -1 5
Asn N -2 0 6
Asp D -2 -2 1 6
Cys C 0 -3 -3 -3 9
Gln Q -1 1 0 0 -3 5
Glu E -1 0 0 2 -4 2 5
Gly G 0 -2 0 -1 -3 -2 -2 6
His H -2 0 1 -1 -3 0 0 -2 8
Ile I -1 -3 -3 -3 -1 -3 -3 -4 -3 4
Leu L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4
Lys K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5
Met M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5
Phe F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6
Pro P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7
Ser S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4
Thr T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5
Trp W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11
Tyr Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7
Val V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4

Phe
Met
Asn

Asp

Leu
Cys
Arg

Lys

Ser

Thr
Pro
Gln

Glu

Tyr
Trp
Gly

His

Val
Ala

Ile

A R N D C Q E G H I L K M F P S T W Y V

i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
R L A S V E T D M P - - - - - L T L R Q H
. | . | : : | . : . go ge ge ge ge . . | . . |
T L T S L Q T T L K N L K E M A H L G T H
S -1 +4 +0 +4 +1 +2 +5 -1 +2 -1 -10 -1 -1 -1 -1 -1 -2 +4 -2 -1 +8 = 7
Calcul du score de l’alignement
Gaps : indels
Insertions or délétions
• Les protéines contiennent souvent des régions dans lesquelles des résidus ont
été ajoutés ou perdus.
• Ceci peut correspondre à :
• Des domaines peu fonctionnels.
• Des mutations à effet phénotypique.

Exemple

GCATGCATGCAACTGCAT
|||||||||
GCATGCATGGGCAACTGCAT

L'alignement est grandement amélioré par insertion d'un indel.

GCATGCATG--CAACTGCAT
||||||||| |||||||||
GCATGCATGGGCAACTGCAT
Penalisation de l’ouverture/extension de gap
Coûts de création d'un gap.
• L'ouverture d'un gap est peu fréquente dans l'évolution, on la pénalise.
• Par contre, on peut avoir eu un événement qui a délété plusieurs résidus d'un
coup. Le coût de l'extension est donc moins fort.
Exemple
• Deux alignements avec le même nombre d'indels, : mais avec une distribution
différente. L'alignement de gauche sera donc préféré.

CGATGCAGCAGCAGCATCG CGATGCAGCAGCAGCATCG
|||||| ||||||| || || |||| || || |
CGATGC------AGCATCG CG-TG-AGCA-CA--AT-G
ouverture extension

Malus pour ouverture d'indel.


Compté chaque fois qu'on crée un indel.
Malus pour extension d'indel
Compté chaque fois qu'on allonge un indel d'une position.
Exemples de calcul de score
Exemple
• Bonus pour un match : 1
• Malus pour un mismatch : 0
• Malus d'ouverture d'indel : -10
• Malus d'extension d'indel : -1

CGATGCAGCAGCAGCATCG CGATGCAGCAGCAGCATCG
|||||| ||||||| || || |||| || || |
CGATGC------AGCATCG CG-TG-AGCA-CA--AT-G
ouverture extension

13 x 1 - 10 - 6 x 1 = 13 x 1 - 5 x 10 - 6 x 1 =
-3 -43
Calcul du score de l’alignement
Recherche par similarité dans les
bases de données

Pourquoi ?
 Savoir si ma séquence ressemble à d'autres déjà connues
 Déterminer la fonction d’une protéine inconnue
 Trouver toutes les séquences d'une même famille

Tâche bioinformatique la plus fréquemment exécutée par les


biologistes.
Logiciels d'alignement de deux
séquences

• BLAST
Algorithmes d'alignement de deux séquences

Q OC

Requête (Querry)

Outil de Comparaison
bases de données
BLAST
Basic local alignment search tool
• BLAST est un algorithme de recherche de similarité
entre une séquence et une banque de séquences.
• Le programme le plus utilise en bioinformatique (the
workhoese of bioinformatics).
• BLAST: incontournable “pipette” de la bioinformatique

séquence requête
BLAST
BLAST
BLAST
Basic local alignment search tool
http://www.ncbi.nlm.nih.gov/BLAST/
Different BLAST programs

séquence requête
BLAST programs

DNA vs DNA (blastn)


DNA translation vs Protein (blastx)
Protein vs Protein (blastp)
Protein vs DNA translation (tblastn)
DNA translation vs DNA translation (tblastx)
BLAST sur Internet : Requête(1/8) http://www.ncbi.nlm.nih.gov/blast/

séquence requête

choix de la base de données

Université d’Angers - Maîtrise de Biologie Cellulaire 35


BLAST:

Query
sequence or
accession
number
séquence requête ou
Numero d’accession
Sequence
database
to search

Choix de la base
de donnees
Resultas de BLAST search:
1-Graphic display

Please come
back later Fichier de sortie
Resultas de BLAST search:
2-list of hits
Fichier de sortie

E-value
Definition:
La E-value (Expect value), le nombre attendu d’alignement qui par chance aurait un score ≥S .

Plus la E-value est proche de 0, plus la similarite est significative.


Resultats de BLAST search:
3-alignement des sequences
Fichier de sortie

Vous aimerez peut-être aussi