Cours 07 Bio Info

Cours 8
Analyse des génomes
II- Annotation fonctionnelle des

génomes
Annotation des génomes
Deux niveaux d’annotation:
1- Annotation structurelle: Inventaire et analyse des éléments

presents dans un génome
• Identification de tous les génes codants pour des protéines et
des ARN (ribosomique, de transfert).
• Identification de sites promoteurs, de terminaison de la

transcription et de la traduction, d’epissage, intron, exons…etc
2- Annotation fonctionnelle
Identifier la fonction de tous les gènes détectés lors
de l’étape precedente.
Annotation fonctionnelle
Question:
Comment connaitre la fonction d’un gene quand on ne
connait que sa sequence?
Reponse:
Recherche de similarité entre les séquences
Annotation fonctionnelle
Méthodologie: Prediction de fonction par similarite:

Principe
Toute protéine inconnue ayant un pourcentage de similarité suffisamment élevé
avec au moins une protéine connue dont la fonction est identifiée se verra
attribuer cette fonction
Pour comparer 2 séquences il faut les
aligner
ABDELKADER
ABDALKADER
ABDELKADER
ABDALKADER
ABDELKADEER
ABDELKADAR
ABDELKADEER
ABDELKADA- R
Comparaison des séquences
• Identifier les points communs ou les différences entre deux
séquences.
• Retracer l’histoire évolutive des séquences en simulant les

mutations:
- Changement d’un nucléotide par un autre (substitution).
- Ajout ou suppression d’un ou plusieurs nucléotides
(insertion ou deletion)
• Comparer deux séquences revient à rechercher un alignement.
• Exemple:
Alignment de deux sequences

Types d’alignements
• Alignement global: prise en compte de la totalite de la séquence
Protéine A
Protéine B
• Alignement local: Recherche de la région de plus forte similarité entre

deux séquences domaine
Protéine A
Protéine B
Alignement des séquences
Comment évaluer un alignement de
séquences?
Les matrices de substitution
Pour comparer deux sequences, on a besoin de comparer
chaque position dans les deux sequences.
On a besoin de connaitre combien ça “coute” pour substituer
une base par une autre ou un acide amine par un autre.
Exemple:
Alanine en Isoleucine
Tryptophan en Glycine
…
La table qui contient les valeures de toutes les substitutions
possible s’appele matrice de substitution (substitution matrix).
Les matrices de substitution sont utilises pour calculer le score

d’un alignement d’une base avec une base (DNA) ou acide amine
avec acide amine (proteine).
Exemple d’une simple matrice
de score
A C G T
A 1 0 0 0 Oui/Non
C 0 1 0 0
G 0 0 1 0
T 0 0 0 1
Calcul du score d’un alignement a
partir d’une simple matrice de score
ATCTACGTACT
|||||| |||| 1 mismatch G=C
ATCTACCTACT score = 10/11
LARERLLATVRKV
|| ||||||| || 2 mismatches
LAKERLLATVDKV R=K and R=D
score = 11/13
Identity and Similarity
Identity
Sequence 1 M A L Y H D M F R
Match M A + M F R
Sequence 2 M A C V D E M F R
Similarity
Blue = Nitrogen
White = Carbon
Red = Oxygen
Et quand il s’agit de sequences de
proteines?
LARERLLATVRKV
|| ||||||| || 2 mismatches
LAKERLLATVDKV R=K and R=D
• Mais, aRginine au Lysine(K) ont des propriétés physico-

chimiques similaires
• alors que aRginine en aspartic acid (D) n’ont pas.
R and K sont des acide aminees charges positivement, Ils ont

une structure tres similaraire (NH4+)
Aspartic acid a une charge negative (COO-)
Donc RK sont moins differents que R D.
Et les autre acide amines?
Dans ce cas une matrice simple n’est pas utile.
Propriétés physico-chimiques des acides
aminés
Les acides aminés composant une proteine peuvent avoir des propriétés
physico-chimiques similaires.
On sait que la structure 3D dépend de ces

caractéristiques
Une similitude au niveau de ces propriétés

sera suffisante pour permettre la substitution
d’un acid aminé en un autre sans perturber la
fonction de la protéine (par exemple, échange
de l’acide aminé hydrophobe valine en leucine)
Lors de la comparaison de 2 sequences protéiques, nous devons prendre en

compte ces similitudes et pas seulement les identites.
Propriétés physico-chimiques des acides
aminés
Category Amino Acid

Acids and Amides Asp (D) Glu(E) Asn (N) Gln (Q)
Basic His (H) Lys (K) Arg (R)
Aromatic Phe (F) Tyr (Y) Trp (W)
Hydrophilic Ala(A) Cys(C) Gly(G) Pro(P) Ser(S) Thr(T)
Hydrophobic Ile (I) Leu (L) Met (M) Val (V)

Les matrices de substitutions des acides
aminés
The deux plus populaires matrices sont:
• BLOSUM
• BLOCKS SUBSTITUTION MATRIX
• PAM
• POINT ACCEPTED MUTATIONS

La matrice de substitution
Ala
Arg
Asn
A
R
N
4
-1
-2
5
0 6
BLOSSUM62
Asp D -2 -2 1 6
Cys C 0 -3 -3 -3 9
Gln Q -1 1 0 0 -3 5
Glu E -1 0 0 2 -4 2 5
Gly G 0 -2 0 -1 -3 -2 -2 6
His H -2 0 1 -1 -3 0 0 -2 8
Ile I -1 -3 -3 -3 -1 -3 -3 -4 -3 4
Leu L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4
Lys K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5
Met M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5
Phe F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6
Pro P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7
Ser S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4
Thr T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5
Trp W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11
Tyr Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7
Val V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4
B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4
Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4
X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1
* -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1
Phe
Asn
Asp
Met
Leu
Cys
Arg
Pro
Ser
Thr
Gln
Glu
Lys
Trp
Tyr
Gly
Val
Ala
His
Ile
A R N D C Q E G H I L K M F P S T W Y V B Z X *
Hydrophobic A C G I L M P V
Aromatic H F W Y
Polar N Q S T Y
Basic R H K
Acidic D E
La matrice de substitution
Cys
Ser
C
S
12
0 2
PAM250
Thr T -2 1 3
Pro P -1 1 0 6
Ala A -2 1 1 1 2
Gly G -3 1 0 -1 1 5
Asn N -4 1 0 -1 0 0 2
Asp D -5 0 0 -1 0 1 2 4
Glu E -5 0 0 -1 0 0 1 3 4
Gln Q -5 -1 -1 0 0 -1 1 2 2 4
His H -3 -1 -1 0 -1 -2 2 1 1 3 6
Arg R -4 0 -1 0 -2 -3 0 -1 -1 1 2 6
Lys K -5 0 0 -1 -1 -2 1 0 0 1 0 3 5
Met M -5 -2 -1 -2 -1 -3 -2 -3 -2 -1 -2 0 0 6
Ile I -2 -1 0 -2 -1 -3 -2 -2 -2 -2 -2 -2 -2 2 5
Leu L -6 -3 -2 -3 -2 -4 -3 -4 -3 -2 -2 -3 -3 4 2 6
Val V -2 -1 0 -1 0 -1 -2 -2 -2 -2 -2 -2 -2 2 4 2 4
Phe F -4 -3 -3 -5 -4 -5 -4 -6 -5 -5 -2 -4 -5 0 1 2 -1 9
Tyr Y 0 -3 -3 -5 -3 -5 -2 -4 -4 -4 0 -4 -4 -2 -1 -1 -2 7 10
Trp W -8 -2 -5 -6 -6 -7 -4 -7 -7 -5 -3 2 -3 -4 -5 -2 -6 0 0 17
C S T P A G N D E Q H R K M I L V F Y W
Cys Ser Thr Pro Ala Gly Asn Asp Glu Gln His Arg Lys Met Ile Leu Val Phe Tyr Trp
Hydrophobic C P A G M I L V
Aromatic H F Y W
Polar S T N Q Y
Basic H R K
Acidic D E
Calcul du score de l’alignement
Ala A 4
Arg R -1 5
Asn N -2 0 6
Asp D -2 -2 1 6
Cys C 0 -3 -3 -3 9
Gln Q -1 1 0 0 -3 5
Glu E -1 0 0 2 -4 2 5
Gly G 0 -2 0 -1 -3 -2 -2 6
His H -2 0 1 -1 -3 0 0 -2 8
Ile I -1 -3 -3 -3 -1 -3 -3 -4 -3 4
Leu L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4
Lys K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5
Met M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5
Phe F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6
Pro P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7
Ser S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4
Thr T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5
Trp W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11
Tyr Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7
Val V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4
Phe
Met
Asn
Asp
Leu
Cys
Arg
Lys
Ser
Thr
Pro
Gln
Glu
Tyr
Trp
Gly
His
Val
Ala
Ile
A R N D C Q E G H I L K M F P S T W Y V
i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21
R L A S V E T D M P - - - - - L T L R Q H
. | . | : : | . : . go ge ge ge ge . . | . . |
T L T S L Q T T L K N L K E M A H L G T H
S -1 +4 +0 +4 +1 +2 +5 -1 +2 -1 -10 -1 -1 -1 -1 -1 -2 +4 -2 -1 +8 = 7
Gaps : indels
Insertions or délétions
• Les protéines contiennent souvent des régions dans lesquelles des résidus ont
été ajoutés ou perdus.
• Ceci peut correspondre à :
• Des domaines peu fonctionnels.
• Des mutations à effet phénotypique.
Exemple
GCATGCATGCAACTGCAT
|||||||||
GCATGCATGGGCAACTGCAT
L'alignement est grandement amélioré par insertion d'un indel.
GCATGCATG--CAACTGCAT
||||||||| |||||||||
GCATGCATGGGCAACTGCAT
Penalisation de l’ouverture/extension de gap
Coûts de création d'un gap.
• L'ouverture d'un gap est peu fréquente dans l'évolution, on la pénalise.
• Par contre, on peut avoir eu un événement qui a délété plusieurs résidus d'un
coup. Le coût de l'extension est donc moins fort.
Exemple
• Deux alignements avec le même nombre d'indels, : mais avec une distribution
différente. L'alignement de gauche sera donc préféré.
CGATGCAGCAGCAGCATCG CGATGCAGCAGCAGCATCG
|||||| ||||||| || || |||| || || |
CGATGC------AGCATCG CG-TG-AGCA-CA--AT-G
ouverture extension
Malus pour ouverture d'indel.

Compté chaque fois qu'on crée un indel.
Malus pour extension d'indel
Compté chaque fois qu'on allonge un indel d'une position.
Exemples de calcul de score
Exemple
• Bonus pour un match : 1
• Malus pour un mismatch : 0
• Malus d'ouverture d'indel : -10
• Malus d'extension d'indel : -1
CGATGCAGCAGCAGCATCG CGATGCAGCAGCAGCATCG
|||||| ||||||| || || |||| || || |
CGATGC------AGCATCG CG-TG-AGCA-CA--AT-G
ouverture extension
13 x 1 - 10 - 6 x 1 = 13 x 1 - 5 x 10 - 6 x 1 =
-3 -43
Recherche par similarité dans les
bases de données
Pourquoi ?
 Savoir si ma séquence ressemble à d'autres déjà connues
 Déterminer la fonction d’une protéine inconnue
 Trouver toutes les séquences d'une même famille
Tâche bioinformatique la plus fréquemment exécutée par les

biologistes.
Logiciels d'alignement de deux
séquences
• BLAST
Algorithmes d'alignement de deux séquences
Q OC
Requête (Querry)
Outil de Comparaison
bases de données
BLAST
Basic local alignment search tool
• BLAST est un algorithme de recherche de similarité
entre une séquence et une banque de séquences.
• Le programme le plus utilise en bioinformatique (the
workhoese of bioinformatics).
• BLAST: incontournable “pipette” de la bioinformatique
séquence requête
BLAST
BLAST
BLAST
Basic local alignment search tool
http://www.ncbi.nlm.nih.gov/BLAST/
Different BLAST programs
séquence requête
BLAST programs
DNA vs DNA (blastn)

DNA translation vs Protein (blastx)
Protein vs Protein (blastp)
Protein vs DNA translation (tblastn)
DNA translation vs DNA translation (tblastx)
BLAST sur Internet : Requête(1/8) http://www.ncbi.nlm.nih.gov/blast/
séquence requête
choix de la base de données
Université d’Angers - Maîtrise de Biologie Cellulaire 35

BLAST:
Query
sequence or
accession
number
séquence requête ou
Numero d’accession
Sequence
database
to search
Choix de la base
de donnees
Resultas de BLAST search:
1-Graphic display
Please come
back later Fichier de sortie
Resultas de BLAST search:
2-list of hits
Fichier de sortie
E-value
Definition:
La E-value (Expect value), le nombre attendu d’alignement qui par chance aurait un score ≥S .
Plus la E-value est proche de 0, plus la similarite est significative.

Resultats de BLAST search:
3-alignement des sequences
Fichier de sortie

Cours 07 Bio Info

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours 07 Bio Info

Transféré par

Droits d'auteur :

Formats disponibles

Cours 8

Analyse des génomes

II- Annotation fonctionnelle des

1- Annotation structurelle: Inventaire et analyse des éléments

• Identification de sites promoteurs, de terminaison de la

Méthodologie: Prediction de fonction par similarite:

• Retracer l’histoire évolutive des séquences en simulant les

• Comparer deux séquences revient à rechercher un alignement.

Alignment de deux sequences

• Alignement local: Recherche de la région de plus forte similarité entre

Les matrices de substitution sont utilises pour calculer le score

• Mais, aRginine au Lysine(K) ont des propriétés physico-

R and K sont des acide aminees charges positivement, Ils ont

On sait que la structure 3D dépend de ces

Une similitude au niveau de ces propriétés

Lors de la comparaison de 2 sequences protéiques, nous devons prendre en

Category Amino Acid

Hydrophobic Ile (I) Leu (L) Met (M) Val (V)

• BLOCKS SUBSTITUTION MATRIX

• POINT ACCEPTED MUTATIONS

L'alignement est grandement amélioré par insertion d'un indel.

Malus pour ouverture d'indel.

Tâche bioinformatique la plus fréquemment exécutée par les

DNA vs DNA (blastn)

choix de la base de données

Université d’Angers - Maîtrise de Biologie Cellulaire 35

Plus la E-value est proche de 0, plus la similarite est significative.

Vous aimerez peut-être aussi