Intro Genomique

La Génomique
Biologie, informatique, évolution
Hugues Roest Crollius

hrc@ens.fr
Dyogen Group
L3 – Introduction aux sciences du vivant – 03.12.2013
La « génomique fonctionnelle »
La « génomique évolutive » human TAATGGTACCAGTTAGCAGAGT…
baboon TAATGGTACCGGTTAACAGAGT…
mouse CGATGGTGCCGGTCGACAGAGC…
dog CTATGGTCCCTGTTATCAGAGC…
cat GTATGGTCCCTGTCGTCAGAGC…
cow CCATGGTTCCCGTAGCCAGAGT…
pig CCATGGTTCCCGTAGCCAGAGT…
chicken TTATGGTACCTGTTAACAGAGT…
human
mouse
rat
dog
La production des données de génomique
Applied Biosystems 3730 Illumina MySeq2500

Séquençage manuel (ici au Broad Institute (USA)) Capable de re-séquencer
par radioactivité 1 Mb / jour 1 génome humain / jour
100 b / jour (40X; 135 Gb)
1990 2008 2013

La production des données de séquençage
326 millions
686 milliards
Bactérie Levure Nématode Drosophile Humain Souris Poule Chimpanzee J.C. Venter
1990 91 92 93 94 95 96 97 98 99 2000 01 02 03 04 05 06 07 08 09
Cartographie génétique
Cartographie physique
Human Genome Project (HGP)
Projet Celera
Projet HapMap
Séquençage très haut débit
Aujourdhui l’information issue du génome humain et du génome d’espèces modèles nous permet de
mieux comprendre certains processus biologiques
Bientôt, l’information issue de milliers de génomes humains, intégrée à des données épidémiologiques
et de structure de la population, seront la base d’une nouvelle médecine « personnalisée ».
Whole genome random sequencing and assembly of Haemophilus
influenza Rd
Fleischmann et al. (1995) Science 269:496-512!
• Preuve par l’exemple: assembler un

génome à partir d’un séquençage
aléatoire est possible (14 pages /17)!
• 1,830,137 bases!
• 38% GC!
• 6 opérons ARNr!
• Origine de réplication trouvée!
• 1743 gènes annotés!
• 736 gènes sans rôle assigné!
• ~50% des protéines connues de E.
coli n’ont pas de similarité !
• Quelques conclusions biologiques

générales: !
• voies métaboliques absentes
et présentes!
• gènes de pathogénicité!
Life with 6000 genes
Science (1996) Vol. 274: 546 - 567
(Saccharomyces cerevisae)!
• 1er génome eucaryote séquencé!
• 600 chercheurs, 100 laboratoires, le plus grand projet décentralisé de

la biologie moléculaire !
!
!
• Seules 43,3 % des protéines ont une fonction connue ou « suggérée »!
• Beaucoup de régions du génome sont dupliquées!
• Tous les gènes d’histones sont présents (dont H1)!

Genome Sequence of the Nematode C.
elegans: A Platform for Investigating
Biology
Science (1998) vol. 282: 2012-2018.
Conséquences politiques!
!
• Un génome eucaryote complexe peut-être séquencé. !
• le projet a révélé l’importance de la bioinformatique (AceDB, GeneFinder)!
• Un modèle de projet « ouvert »: accès libre au matériel et aux données!
Résultats scientifiques!
!
• 19099 gènes, trois fois plus que la levure!
• La densité en gène est plus importante près des centromères (sauf sur le X)!
• Les éléments répétés sont plus nombreux vers les télomères!
• Les extrémités des chromosomes seraient des régions à évolution plus rapide!
• 32 % des protéines de C. elegans sont similaires à des protéines humaines,
70% des protéines humaines sont similaires à celles de C. elegans !
Initial sequence of the chimpanzee genome
and comparison with the human genome
Nature (2005) vol 439:69-87!
• 1,23 % de divergence nucléotidique avec l’espèce humaine sous forme de SNPs, dont
1,06% fixé au cours de l’évolution (ce qui fait ~ 30 millions de bases). !
• 1,5 % de la séquence euchromatique de chaque espèce lui est spécifique (insertions ou

délétions; ~45 Mb)!
• 29% des protéines sont identiques entre les 2 espèces, la plupart des autres ne divergent
que par 2 acides aminés!
• Les protéines de la réponse immunitaire, de la reproduction et de l’olfaction divergent plus

vite que les autres!
• De nombreuses «pépites » sur les gènes spécifiques à l’espèce humaine (éliminé du

chimpanzé) ou vice-versa, parfois en liaison avec des maladies humaines. Certaines
mutations humaines causant des maladies sont en fait l’allèle sauvage « ancestral » (ex:
predisposition au diabète de type 2)!
Le génome
Humain
~
Tout un symbole
Un symbole de l’opposition « privé - public »!
!
• Celera (Craig Venter)!
!
• Human Genome Project (F. Collins, R. Waterston, J. Sulston, P. Green!
!
!Opposition !
! !- sur les finalités!
! !- l’accès aux données!
! !- la stratégie!
Un symbole de la médiatisation de la science!

!
• Course à la (aux) publication(s)!
• battage médiatique intense!
• Reconnaissance par le monde politique!

La variabilité génétique
« La » séquence du génome humain disponible dans les

bases de données représente en réalité un génome fictif: il
s’agit d’un assemblage de l’ADN obtenus de plusieurs
individus.
Cette séquence ne contient pas de variabilité (polymorphisme

allélique).
Cette séquence est conventionnellement utilisée comme

référence.
Mais la population humaine est composée de > 6 milliards d’individus, chacun avec
un génome qui lui est unique.
En plus des influences de l’environnement, cette variabilité entre individus est l’un des
déterminants majeurs de la morphologie, des propriétés physiologique, du
comportement, de la santé des individus.
Comment se manifeste cette variabilité génétique?

A haplotype map of the human genome
Nature (2005) vol 437:1299-1320!
• Nous ignorons encore les causes génétiques de la plupart des maladies

humaines: troubles maniaco-depressifs, réponses aux anti-hypertensenseurs,
etc…!
• Nous savons que probabement la moitié des facteurs de risques à la racine

de ces maux sont d’origine génétique. !
• 1 007 329 SNPs ont été testés dans 269 individus appartenant à 4 groupes:!
• population des Yoruba (Ibadan) au Niger!
• familles du CEPH (Utah, USA)!
• population chinoise (Han) de Beijing!
• population japonaise de Tokyo !
A haplotype map of the human genome
Nature (2005) vol 437:1299-1320!
Des confirmations:!
!
Les échantillons ne sont pas homogènes!
!- la population du Niger est plus riche en SNPs de faible fréquence!
!!
Mais nous sommes bien de la même espèce :-)!
!- seulement 16 SNPs sur 1 million sont « fixés » dans une population par !
rapport aux autres!
!
!
Quelques surprises:!
!
La plupart des variants dans la population sont rares: !
!- 46 % des SNPs ont une fréquence d’allèle minoritaire (FAM) < 0.05!
!- 9% ne sont vus que dans un seul individu. !
!
La plupart des variants sont largement partagés!
!- 90% des variants observés dans un individu sont des SNPs !
« communs » !
Séquençage par synthèse (SBS)
Le séquençage des génomes
Il a fallu créer une nouvelle division dans les bases de données: Short Read Archives (SRA)
4,5 trillions
573 trillions
La séquence d’un génome est donc une succession de conDgs organisés en scaffolds. Selon
le degré de finiDon, les scaffolds peuvent être ancrés sur une carte généDque, ordonnés et
orientés, et les trous de séquence entre les conDgs et scaffolds peuvent être bouchés.
Les génomes eucaryotes séquencé à très haut niveau de qualité (< 1.106 erreurs/base)

Saccharomyces cerevisiae Levure de boulanger
Caenorhabdi2s elegans Ver nématode
Drosophila melanogaster Mouche à vinaigre
Arabidopsis thaliana ArabeTe
Homo sapiens Humain
Mus musculus Souris
Danio rerio Poisson zèbre

Le « N50 », une mesure devenue classique pour évaluer la conDnuité d’un
assemblage.

Le N50 est la taille du scaffold (ou conDg) tel que 50% des bases de l’assemblage sont
comprises dans des scaffolds de taille supérieures à ceTe taille.
Trier par taille
50% des bases 50% des bases
N50
Scaffolds de l’assemblage La taille du segment (scaffold) telle que la moitié de
la somme des bases de tous les segments
(assemblage) soit compris dans des segments de
taille supérieure.
Le génome humain en 2013
Un génome à l’état de « brouillon »
Le génome du cheval (Equus caballus)

L’assemblage actuel (2013) est la version version EquCab2, obtenu par la technique Whole
Genome Shotgun (WGS) avec une couverture de 6.79x en lecture « Sanger ». Une jument
appelée "Twilight" fut sélecDonnée pour obtenir le génome référence de l’espèce. Le projet
fut coordonné et le génome séquencé par Le Broad InsDtute (USA).

La taille N50 des conDgs est de 112.38 kb, et la somme totale des conDgs est de 2.43 Gb. En
incluant la taille esDmé des trou entre les conDgs dans les scaffolds, l’assemblage couvre
2.68 Gb.
Un génome à l’état de « brouillon »
Platyfish (Xiphophorus maculatus)
L’assemblage (version XipMac4.4.2) a été produit par The Genome InsDtute,

Washington University School of Medicine (USA). Cet assemblage a été réalisé
par whole genome shotgun à parDr de séquences produites par la technologie
“454” et Illumina, pour une couverture totale du génome de ~19.6X.
Le séquençage du génome humain
Les gènes ….
Après le séquençage, la première étape de « valorisaDon » de la séquence est d’y
idenDfier (annoter) les régions foncDonnelles, principalement les gènes codant les
protéines.

Chaque génome eucaryote conDent des milliers de gènes. On ne peut pas envisager de
faire une « expérience » pour idenDfier chaque gène: il faut recourir à des logiciels pour
réaliser une annotaDon automaDque, ou à des ressources génomiques.

Annoter les gènes automaDquement est une tâche difficile et un champs encore très
« ouvert » de la bioinformaDque. Dans les génomes eucaryotes, les gènes ont des
structures extrêmement variables: il difficile d’établir des « règles ».
Combien(y(a(t,il(de(gènes(dans(le(génome(humain?(
Premières(estimations((année(2000)(
(
(
Chr. 20 Chr. 21 Chr. 22
Taille chromosome 59,42 Mb 33,54 Mb 33,46 Mb
Gènes connus 335 127 270

Autres 392 98 298
Pseudogènes 168 (18,7%) 59 (20,7%) 134 (19,1%)
Densité en gènes 12,2 g./Mb 6,7 g./Mb 17,0 g./Mb
Tailles des gènes

Connus 51,3 kb 57,0 kb 1 ↔ 593 kb
Pseudogènes 1,9 kb
Taille des exons

Connus 294 bp 8 ↔ 7600 bp
Pseudogènes 499 bp
Nombre d’exons
Connus 10,3
Pseudogènes 1,4
40000 20000 50000 25

EsDmaDons du nombre de gènes dans le génome
160 000
EsDmaDons publiées
140 000
120 000
100 000
80 000
60 000
40 000
20 000
92 93 94 95 96 97 98 99 00 01 02 03 04 05 06
(Fields et al.) (Lander et al.)

(Liang et al.)
(Antequera and Bird)
(Ewing and Green et al.)
(Roest Crollius et al.)
BLAST
Altschul et al. (1990) Basic Local Alignment Search Tool. J. Mol. Biol. 215:403-410
Nombre total de citations : 36103 (en novembre 2013)

L’article le plus cité en sciences du vivant
27
Query: RYKELTEQQMPGALPPECTPNMDGPHARSVRREQSLHSFHTLFCRRCFKYDRFLH
+YKELTEQQ+PGALPPECTPN+DGP+A+SV+REQSLHSFHTLFCRRCFKYD FLH
Sbjct: KYKELTEQQLPGALPPECTPNIDGPNAKSVQREQSLHSFHTLFCRRCFKYDCFLH
Query: LLFQLFLALSDLKQLRILHTDLKPDNVMLVD--EKELKIKLMDFGLALLTHEAKT--GTI
+L Q+ AL LK L ++H DLKP+N+MLVD + ++K++DFG A +H +KT T
Sbjct: ILQQVATALKKLKSLGLIHADLKPENIMLVDPVRQPYRVKVIDFGSA--SHVSKTVCSTY
Query: SPWTFPS*FLMSSSMKVPSWSRISSPM*GIL*STVSSST
SPWTFPS* L+SSS+KV S S SSPM*GIL T SSST
Sbjct: SPWTFPS*LLISSSIKVSSSSFTSSPM*GILHKTXSSST
Query: VNALAQYSHNEDEEEEEEHDFKVDKT-DLCDSKKHPE
VNAL QY+ ++D+++ ++ + + +K DL D + E
Sbjct: VNALGQYNDDDDDDDGDDPEEREEKQKDLEDHRDDKE
28
BLAST
Query “mot” de taille W = 11 bases
A T T G C G T A T G C A G C G T A G C A A T T G C G A T A C!
Subject Match exact

T T A C G C G A T G T A G A C A G C G T A G C A A T G T T G C A!
29
Blast:
W
Query
A T T G C G T A T G C A G C G T A G C A A T T G C G A T A C!
Subject
T T A C G C G A T G T A G A C A G C G T A G C A A T G T T G C
T A T G C A G C G T A G C A A T!
+5-4-4+5!
Matrice de score NUC.4.4

A T G C N!
- 8 < X! A 5 -4 -4 -4 -2!
T -4 5 -4 -4 -2!
G -4 -4 5 -4 -2!
C -4 -4 -4 5 -2!
X = seuil maximal de mismatch autorisé N -2 -2 -2 -2 -1!
= 21 par défaut
30
TBLASTX, BLASTP, BLASTX
Mot “W” = 3 a. a.
L E C N Q L I P I A H K T C P E G K N L
H K T! Automate
H L T!
H V T!
(Seuil “T”)
H Y T!
Y K T!
N K T!
L K C H N T Q L P F I Y K T C P E G K N
Extension (Seuil “X”)
31
Matrice de score BLOSUM62
A R N D C Q E G H I L K M F P S T W Y V B Z X *
A 4 -1 -2 -2 0 -1 -1 0 -2 -1 -1 -1 -1 -2 -1 1 0 -3 -2 0 -2 -1 0 -4
R -1 5 0 -2 -3 1 0 -2 0 -3 -2 2 -1 -3 -2 -1 -1 -3 -2 -3 -1 0 -1 -4
N -2 0 6 1 -3 0 0 0 1 -3 -3 0 -2 -3 -2 1 0 -4 -2 -3 3 0 -1 -4
D -2 -2 1 6 -3 0 2 -1 -1 -3 -4 -1 -3 -3 -1 0 -1 -4 -3 -3 4 1 -1 -4
C 0 -3 -3 -3 9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4
Q -1 1 0 0 -3 5 2 -2 0 -3 -2 1 0 -3 -1 0 -1 -2 -1 -2 0 3 -1 -4
E -1 0 0 2 -4 2 5 -2 0 -3 -3 1 -2 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4
G 0 -2 0 -1 -3 -2 -2 6 -2 -4 -4 -2 -3 -3 -2 0 -2 -2 -3 -3 -1 -2 -1 -4
H -2 0 1 -1 -3 0 0 -2 8 -3 -3 -1 -2 -1 -2 -1 -2 -2 2 -3 0 0 -1 -4
I -1 -3 -3 -3 -1 -3 -3 -4 -3 4 2 -3 1 0 -3 -2 -1 -3 -1 3 -3 -3 -1 -4
L -1 -2 -3 -4 -1 -2 -3 -4 -3 2 4 -2 2 0 -3 -2 -1 -2 -1 1 -4 -3 -1 -4
K -1 2 0 -1 -3 1 1 -2 -1 -3 -2 5 -1 -3 -1 0 -1 -3 -2 -2 0 1 -1 -4
M -1 -1 -2 -3 -1 0 -2 -3 -2 1 2 -1 5 0 -2 -1 -1 -1 -1 1 -3 -1 -1 -4
F -2 -3 -3 -3 -2 -3 -3 -3 -1 0 0 -3 0 6 -4 -2 -2 1 3 -1 -3 -3 -1 -4
P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4 7 -1 -1 -4 -3 -2 -2 -1 -2 -4
S 1 -1 1 0 -1 0 0 0 -1 -2 -2 0 -1 -2 -1 4 1 -3 -2 -2 0 0 0 -4
T 0 -1 0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1 1 5 -2 -2 0 -1 -1 0 -4
W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1 1 -4 -3 -2 11 2 -3 -4 -3 -2 -4
Y -2 -2 -2 -3 -2 -1 -2 -3 2 -1 -1 -2 -1 3 -3 -2 -2 2 7 -1 -3 -2 -1 -4
V 0 -3 -3 -3 -1 -2 -2 -3 -3 3 1 -2 1 -1 -2 -2 0 -3 -1 4 -3 -2 -1 -4
B -2 -1 3 4 -3 0 1 -1 0 -3 -4 0 -3 -3 -2 0 -1 -4 -3 -3 4 1 -1 -4
Z -1 0 0 1 -3 3 4 -2 0 -3 -3 1 -1 -3 -1 0 -1 -3 -2 -2 1 4 -1 -4
X 0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2 0 0 -2 -1 -1 -1 -1 -1 -4
* -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 1
32
Nombre de gènes dans les génomes eucaryotes
Levure 6000
Nematode 19000
Drosophile 13600
Arabidopsis 25000
Humain 25000
33
EVOLUTION MOLECULAIRE

Quelques principes
34
MutaDon
Délétère Neutre Avantageuse
SélecDon Dérive SélecDon

négaDve généDque posiDve
DispariDon Fréquence FixaDon

0% Intermédiaire 100%
0-‐100%
Evolution moléculaire
Les fréquences des variations au sein d’une population fluctuent au cours du temps.
Les variations NEUTRES fluctuent de manière aléatoire
Les variations AVANTAGEUSES sont sélectionnées et augmentent en fréquence
Les variations DELETERES sont éliminées et diminuent en fréquence
0
Générations (temps)
Pour estimer les fréquences dans une population, il faut échantillonner de nombreux
individus
La sélection naturelle
Cys Ser Arg Cys Lys Gly His Cys Arg Ala Arg!
TGT TCG AGA TGT AAG GGC CAT TGT CGA GCA AGA!
!
!
!
Cys Leu Arg Cys Lys Arg His Cys Arg Ala Lys!
TGT TTG AGA TGT AAA CGC CAT TGT AGA GCT AAA!
!
!
!
Observé Attendu neutre
Substitutions synonymes 3
Substitutions non-synonymes 3 ~3 X 4 = 12 è 75% des
mutations sont
délétères
dS: taux de substitution synonyme (Ks)
dN: taux de substitution non-synonymes (Ka)
ω = dN / dS
ω~1 è
ω << 1 è evolution sous sélection négative

ω >> 1 è evolution sous sélection positive
Fréquence des valeurs de ω pour 835 paires de gènes orthologues rat-
souris (les valeurs indiquées en abscisse sont la moyenne de la classe)
Hurst DL (2002) TIGS 18:486-487

Génomique Comparative
L’alignement multiple entre génome est un outil fondamental pour identifier des
régions conservées au cours de l’évolution (par sélection négative)
UCSC Genome Browser : http://genome.ucsc.edu/
Une région de 100 pb sur Xq26:

Génomique ComparaDve: Annoter les Gènes
Tous les mammifères possèdent à peu près le même nombre de gènes, et partagent
les mêmes grandes fonctions de la vie
- reproduction
- développement
- système nerveux central
- système digestif
- système musculaire
- ….
On estime que les gènes présents dans le génome de la souris ou du chien peuvent
être informatifs pour identifier les gènes humains (ou vice-versa) simplement par
alignement de séquence.
Généralisation: Toutes les informations importantes contenues dans le génome

(codage des protéines et autres…) sont susceptibles d’êtres partagées entre espèces
différentes et donc d’être découvertes par alignement de séquences.
Génomique Comparative (5)
Les séquences fonctionnelles les mieux connues dans le génome humain sont les
exons des gènes codant les protéines.
On peut les comparer par paires, mais les comparer toutes ensemble est plus
informatif, à l’aide d’un alignement multiple
Les exons codant sont particulièrement ben conservés, à travers l’ensemble

des vertébrés (sélection négative).
Les régions « UTRs » évoluent plus vite.
Les introns ne montrent pas de conservation particulière (évolution neutre)
Les espèces trop proches de l’homme sont peu informatives (ex: Macaque)
Migration, adaptation et selection naturelle
Les variations génétiques qui confèrent un avantage pour une meilleure

adaptation seront sélectionnés
Different types de sélection naturelle
SELECTION POSITIVE
Ex. G6PD, CD40 protection
contre la malaria en Afrique
SELECTION PURIFICATRICE
Ex. Beaucoup de gènes humain
SELECTION BALANCEE
Ex. MHC worldwide, HbS en
Afrique (malaria)
Mutation avantageuse Mutation délétère mutation “balancée” Mutation neutre

La cas de la lactase
La plupart des adultes ne peuvent métaboliser le lactose, sucre principal du lait, car
la fonction de l’enzyme lactase-phlorizin hydrolase diminue après le sevrage.
Mais certaines population, principalement celles descendantes de population ayant

pratiqué la domestication du bétail, maintiennent cette possibilité à l’âge adulte.
Fréquences de la « persistance de la lactase »
> 90% chez les suédois et les danois

~ 50% chez les français et les espagnols
5% - 20% chez les africains de l’ouest « non-pastoraux »
1 % chez les chinois
Mais 90% chez les Tutsis, Fulani, … populations africaines « pastorales ».
Certains SNPs ont été retrouvés dans les introns d’un gènes voisin de la lactase, et
sont associé au phénotype « persistance de la lactase »
Distribution du phénotype « persistance de la lactase » dans le monde

Intron 13
Danois et Suédois
Europe du sud
S. A. Tishkoff et al., Convergent adaptation of human lactase persistence in Africa and Europe. Nature genetics 39, 31 (2007).
Afrique Danois et Suédois
Europe du sud
S. A. Tishkoff et al., Convergent adaptation of human lactase persistence in Africa and Europe. Nature genetics 39, 31 (2007).
Conclusions:
Les mutations de la lactase sont un cas classique d’évolution convergente:

le même phénotype est sélectionné de manière indépendante dans
des populations différentes, mais pas par le biais du même génotype.
Les mutations favorables sont dans les introns d’un gènes voisin du gène dont
la protéine confère l’avantage
Les mutations augmentent la production de lactase au cours de la vie adulte

(modification de l’expression du gène)

Intro Genomique

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Intro Genomique

Transféré par

Droits d'auteur :

Formats disponibles

La Génomique

Biologie, informatique, évolution

Hugues Roest Crollius

Applied Biosystems 3730 Illumina MySeq2500

1990 2008 2013

Human Genome Project (HGP)

Séquençage très haut débit

• Preuve par l’exemple: assembler un

• Quelques conclusions biologiques

• 1er génome eucaryote séquencé!

• 600 chercheurs, 100 laboratoires, le plus grand projet décentralisé de

• Beaucoup de régions du génome sont dupliquées!

• Tous les gènes d’histones sont présents (dont H1)!

• 1,5 % de la séquence euchromatique de chaque espèce lui est spécifique (insertions ou

• Les protéines de la réponse immunitaire, de la reproduction et de l’olfaction divergent plus

• De nombreuses «pépites » sur les gènes spécifiques à l’espèce humaine (éliminé du

Un symbole de la médiatisation de la science!

• battage médiatique intense!

• Reconnaissance par le monde politique!

« La » séquence du génome humain disponible dans les

Cette séquence ne contient pas de variabilité (polymorphisme

Cette séquence est conventionnellement utilisée comme

Comment se manifeste cette variabilité génétique?

• Nous ignorons encore les causes génétiques de la plupart des maladies

• Nous savons que probabement la moitié des facteurs de risques à la racine

Caenorhabdi2s elegans Ver nématode

Drosophila melanogaster Mouche à vinaigre

Arabidopsis thaliana ArabeTe

Homo sapiens Humain

Mus musculus Souris

Danio rerio Poisson zèbre

Trier par taille

50% des bases 50% des bases

Le génome du cheval (Equus caballus)

Platyﬁsh (Xiphophorus maculatus)

L’assemblage (version XipMac4.4.2) a été produit par The Genome InsDtute,

Les gènes ….

Taille chromosome 59,42 Mb 33,54 Mb 33,46 Mb

Gènes connus 335 127 270

Tailles des gènes

Taille des exons

40000 20000 50000 25

(Fields et al.) (Lander et al.)

Nombre total de citations : 36103 (en novembre 2013)

Query “mot” de taille W = 11 bases

Subject Match exact

Matrice de score NUC.4.4

Mot “W” = 3 a. a.

Extension (Seuil “X”)

Délétère Neutre Avantageuse

SélecDon Dérive SélecDon

DispariDon Fréquence FixaDon

ω << 1 è evolution sous sélection négative

Hurst DL (2002) TIGS 18:486-487

UCSC Genome Browser : http://genome.ucsc.edu/

Une région de 100 pb sur Xq26:

Généralisation: Toutes les informations importantes contenues dans le génome

Les exons codant sont particulièrement ben conservés, à travers l’ensemble

Les variations génétiques qui confèrent un avantage pour une meilleure

Mutation avantageuse Mutation délétère mutation “balancée” Mutation neutre

Mais certaines population, principalement celles descendantes de population ayant

Fréquences de la « persistance de la lactase »

> 90% chez les suédois et les danois

La Génomique