Académique Documents
Professionnel Documents
Culture Documents
human
mouse
rat
dog
La production des données de génomique
326 millions
686 milliards
Bactérie Levure Nématode Drosophile Humain Souris Poule Chimpanzee J.C. Venter
1990 91 92 93 94 95 96 97 98 99 2000 01 02 03 04 05 06 07 08 09
Cartographie génétique
Cartographie physique
Projet Celera
Projet HapMap
Aujourdhui l’information issue du génome humain et du génome d’espèces modèles nous permet de
mieux comprendre certains processus biologiques
Bientôt, l’information issue de milliers de génomes humains, intégrée à des données épidémiologiques
et de structure de la population, seront la base d’une nouvelle médecine « personnalisée ».
Whole genome random sequencing and assembly of Haemophilus
influenza Rd
Fleischmann et al. (1995) Science 269:496-512!
• 1,830,137 bases!
• 38% GC!
• 6 opérons ARNr!
• Origine de réplication trouvée!
• 1743 gènes annotés!
• 736 gènes sans rôle assigné!
• ~50% des protéines connues de E.
coli n’ont pas de similarité !
(Saccharomyces cerevisae)!
Conséquences politiques!
!
• Un génome eucaryote complexe peut-être séquencé. !
• le projet a révélé l’importance de la bioinformatique (AceDB, GeneFinder)!
• Un modèle de projet « ouvert »: accès libre au matériel et aux données!
Résultats scientifiques!
!
• 19099 gènes, trois fois plus que la levure!
• La densité en gène est plus importante près des centromères (sauf sur le X)!
• Les éléments répétés sont plus nombreux vers les télomères!
• Les extrémités des chromosomes seraient des régions à évolution plus rapide!
• 32 % des protéines de C. elegans sont similaires à des protéines humaines,
70% des protéines humaines sont similaires à celles de C. elegans !
Initial sequence of the chimpanzee genome
and comparison with the human genome
Nature (2005) vol 439:69-87!
• 1,23 % de divergence nucléotidique avec l’espèce humaine sous forme de SNPs, dont
1,06% fixé au cours de l’évolution (ce qui fait ~ 30 millions de bases). !
• 29% des protéines sont identiques entre les 2 espèces, la plupart des autres ne divergent
que par 2 acides aminés!
~
Tout un symbole
Un symbole de l’opposition « privé - public »!
!
• Celera (Craig Venter)!
!
• Human Genome Project (F. Collins, R. Waterston, J. Sulston, P. Green!
!
!Opposition !
! !- sur les finalités!
! !- l’accès aux données!
! !- la stratégie!
Mais la population humaine est composée de > 6 milliards d’individus, chacun avec
un génome qui lui est unique.
En plus des influences de l’environnement, cette variabilité entre individus est l’un des
déterminants majeurs de la morphologie, des propriétés physiologique, du
comportement, de la santé des individus.
• 1 007 329 SNPs ont été testés dans 269 individus appartenant à 4 groupes:!
• population des Yoruba (Ibadan) au Niger!
• familles du CEPH (Utah, USA)!
• population chinoise (Han) de Beijing!
• population japonaise de Tokyo !
A haplotype map of the human genome
Nature (2005) vol 437:1299-1320!
Des confirmations:!
!
Les échantillons ne sont pas homogènes!
!- la population du Niger est plus riche en SNPs de faible fréquence!
!!
Mais nous sommes bien de la même espèce :-)!
!- seulement 16 SNPs sur 1 million sont « fixés » dans une population par !
rapport aux autres!
!
!
Quelques surprises:!
!
La plupart des variants dans la population sont rares: !
!- 46 % des SNPs ont une fréquence d’allèle minoritaire (FAM) < 0.05!
!- 9% ne sont vus que dans un seul individu. !
!
La plupart des variants sont largement partagés!
!- 90% des variants observés dans un individu sont des SNPs !
« communs » !
Séquençage par synthèse (SBS)
Le séquençage des génomes
Il a fallu créer une nouvelle division dans les bases de données: Short Read Archives (SRA)
4,5
trillions
573
trillions
Le séquençage des génomes
La
séquence
d’un
génome
est
donc
une
succession
de
conDgs
organisés
en
scaffolds.
Selon
le
degré
de
finiDon,
les
scaffolds
peuvent
être
ancrés
sur
une
carte
généDque,
ordonnés
et
orientés,
et
les
trous
de
séquence
entre
les
conDgs
et
scaffolds
peuvent
être
bouchés.
Les
génomes
eucaryotes
séquencé
à
très
haut
niveau
de
qualité
(<
1.106
erreurs/base)
Saccharomyces
cerevisiae
Levure
de
boulanger
Le
«
N50
»,
une
mesure
devenue
classique
pour
évaluer
la
conDnuité
d’un
assemblage.
Le
N50
est
la
taille
du
scaffold
(ou
conDg)
tel
que
50%
des
bases
de
l’assemblage
sont
comprises
dans
des
scaffolds
de
taille
supérieures
à
ceTe
taille.
N50
Scaffolds
de
l’assemblage
La taille du segment (scaffold) telle que la moitié de
la somme des bases de tous les segments
(assemblage) soit compris dans des segments de
taille supérieure.
Le génome humain en 2013
Un génome à l’état de « brouillon »
Après
le
séquençage,
la
première
étape
de
«
valorisaDon
»
de
la
séquence
est
d’y
idenDfier
(annoter)
les
régions
foncDonnelles,
principalement
les
gènes
codant
les
protéines.
Chaque
génome
eucaryote
conDent
des
milliers
de
gènes.
On
ne
peut
pas
envisager
de
faire
une
«
expérience
»
pour
idenDfier
chaque
gène:
il
faut
recourir
à
des
logiciels
pour
réaliser
une
annotaDon
automaDque,
ou
à
des
ressources
génomiques.
Annoter
les
gènes
automaDquement
est
une
tâche
difficile
et
un
champs
encore
très
«
ouvert
»
de
la
bioinformaDque.
Dans
les
génomes
eucaryotes,
les
gènes
ont
des
structures
extrêmement
variables:
il
difficile
d’établir
des
«
règles
».
Combien(y(a(t,il(de(gènes(dans(le(génome(humain?(
Premières(estimations((année(2000)(
(
(
Chr. 20 Chr. 21 Chr. 22
Nombre d’exons
Connus 10,3
Pseudogènes 1,4
120 000
100 000
80 000
60 000
40 000
20 000
92 93 94 95 96 97 98 99 00 01 02 03 04 05 06
Altschul et al. (1990) Basic Local Alignment Search Tool. J. Mol. Biol. 215:403-410
27
Query: RYKELTEQQMPGALPPECTPNMDGPHARSVRREQSLHSFHTLFCRRCFKYDRFLH
+YKELTEQQ+PGALPPECTPN+DGP+A+SV+REQSLHSFHTLFCRRCFKYD FLH
Sbjct: KYKELTEQQLPGALPPECTPNIDGPNAKSVQREQSLHSFHTLFCRRCFKYDCFLH
Query: LLFQLFLALSDLKQLRILHTDLKPDNVMLVD--EKELKIKLMDFGLALLTHEAKT--GTI
+L Q+ AL LK L ++H DLKP+N+MLVD + ++K++DFG A +H +KT T
Sbjct: ILQQVATALKKLKSLGLIHADLKPENIMLVDPVRQPYRVKVIDFGSA--SHVSKTVCSTY
Query: SPWTFPS*FLMSSSMKVPSWSRISSPM*GIL*STVSSST
SPWTFPS* L+SSS+KV S S SSPM*GIL T SSST
Sbjct: SPWTFPS*LLISSSIKVSSSSFTSSPM*GILHKTXSSST
Query: VNALAQYSHNEDEEEEEEHDFKVDKT-DLCDSKKHPE
VNAL QY+ ++D+++ ++ + + +K DL D + E
Sbjct: VNALGQYNDDDDDDDGDDPEEREEKQKDLEDHRDDKE
28
BLAST
A T T G C G T A T G C A G C G T A G C A A T T G C G A T A C!
29
Blast:
W
Query
A T T G C G T A T G C A G C G T A G C A A T T G C G A T A C!
Subject
T T A C G C G A T G T A G A C A G C G T A G C A A T G T T G C
T A T G C A G C G T A G C A A T!
+5-4-4+5!
30
TBLASTX,
BLASTP,
BLASTX
L E C N Q L I P I A H K T C P E G K N L
H K T! Automate
H L T!
H V T!
(Seuil
“T”)
H Y T!
Y K T!
N K T!
L K C H N T Q L P F I Y K T C P E G K N
31
Matrice de score BLOSUM62
A R N D C Q E G H I L K M F P S T W Y V B Z X *
A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4
R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4
N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4
D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4
C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4
Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4
E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4
G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4
H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4
I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4
L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4
K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4
M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4
F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4
P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4
S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4
T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4
W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4
Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -1 -4
V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4
B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4
Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4
X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4
* -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1
32
Nombre de gènes dans les génomes eucaryotes
Levure 6000
Nematode 19000
Drosophile 13600
Arabidopsis 25000
Humain 25000
33
EVOLUTION
MOLECULAIRE
Quelques
principes
34
MutaDon
Les fréquences des variations au sein d’une population fluctuent au cours du temps.
Les variations NEUTRES fluctuent de manière aléatoire
Les variations AVANTAGEUSES sont sélectionnées et augmentent en fréquence
Les variations DELETERES sont éliminées et diminuent en fréquence
0
Générations (temps)
Pour estimer les fréquences dans une population, il faut échantillonner de nombreux
individus
La sélection naturelle
Cys Ser Arg Cys Lys Gly His Cys Arg Ala Arg!
TGT TCG AGA TGT AAG GGC CAT TGT CGA GCA AGA!
!
!
!
Cys Leu Arg Cys Lys Arg His Cys Arg Ala Lys!
TGT TTG AGA TGT AAA CGC CAT TGT AGA GCT AAA!
!
!
!
Observé Attendu neutre
Substitutions synonymes 3
Substitutions non-synonymes 3 ~3 X 4 = 12 è 75% des
mutations sont
délétères
dS: taux de substitution synonyme (Ks)
dN: taux de substitution non-synonymes (Ka)
ω = dN / dS
ω~1 è
L’alignement multiple entre génome est un outil fondamental pour identifier des
régions conservées au cours de l’évolution (par sélection négative)
Tous les mammifères possèdent à peu près le même nombre de gènes, et partagent
les mêmes grandes fonctions de la vie
- reproduction
- développement
- système nerveux central
- système digestif
- système musculaire
- ….
On estime que les gènes présents dans le génome de la souris ou du chien peuvent
être informatifs pour identifier les gènes humains (ou vice-versa) simplement par
alignement de séquence.
Les séquences fonctionnelles les mieux connues dans le génome humain sont les
exons des gènes codant les protéines.
On peut les comparer par paires, mais les comparer toutes ensemble est plus
informatif, à l’aide d’un alignement multiple
SELECTION POSITIVE
Ex. G6PD, CD40 protection
contre la malaria en Afrique
SELECTION PURIFICATRICE
Ex. Beaucoup de gènes humain
SELECTION BALANCEE
Ex. MHC worldwide, HbS en
Afrique (malaria)
La plupart des adultes ne peuvent métaboliser le lactose, sucre principal du lait, car
la fonction de l’enzyme lactase-phlorizin hydrolase diminue après le sevrage.
Certains SNPs ont été retrouvés dans les introns d’un gènes voisin de la lactase, et
sont associé au phénotype « persistance de la lactase »
La cas de la lactase
Intron 13
Danois et Suédois
Europe du sud
S. A. Tishkoff et al., Convergent adaptation of human lactase persistence in Africa and Europe. Nature genetics 39, 31 (2007).
La cas de la lactase
Europe du sud
S. A. Tishkoff et al., Convergent adaptation of human lactase persistence in Africa and Europe. Nature genetics 39, 31 (2007).
La cas de la lactase
Conclusions:
Les mutations favorables sont dans les introns d’un gènes voisin du gène dont
la protéine confère l’avantage