Vous êtes sur la page 1sur 16

GENETIQUE – Le support de l'information génétique, Structure et fonction du génome

21/10/2015
MAIRE Mégane L2
CR : PAYRASTRE Clémentine
Génétique
Prof. Christophe BEROUD
16 pages

Le support de l'information génétique – Structure et fonction du génome

Plan

A. Support de l'information génétique : des gènes aux protéines


I. Structure de l'ADN
II. Structure des gènes
III.Expression des gènes : transcription et traduction
IV. Régulation de l'expression des gènes

B. Le projet Génome Humain


I. De la structure de l’ADN à la séquence du génome humain en 50 ans
II. Informations issues du projet

Le suffixe-omique (très à la mode) désigne le tout concernant un sujet, c'est-à-dire que :


– Génomique désigne tout le génome
– Transcriptomique désigne tous les transcrits
– Protéomique désigne toutes les protéines
– Métabolomique désigne tous les métabolismes
– Lipidomique désigne tout ce qui concerne les lipides
– Etc.

L'information génétique est contenue dans l’ADN, il existe plusieurs molécules d’ADN dans une cellule
humaine, elles sont localisées soit dans le noyau (au niveau des chromosomes) soit dans les mitochondries
(sous forme d'ADN circulaire).

La molécule d'ADN circulaire mitochondrial est constituée de 16 568 paires de bases (pb) et a été séquencée en
1981. C'est un ADN assez simple qui fait penser au génome des procaryotes, avec une très forte densité de
gènes qui ne sont pas morcelés comme les gènes nucléaires.

Les molécules d’ADN nucléaire sont hyper compactées en chromosomes pendant la division cellulaire
(métaphase). Il y a différents degrés de compactions pour permettre cette division :
– La double hélice d'ADN non compactée

– Les nucléosomes de 11nm (qui forment un chapelet u collier de perle)

– La fibre de chromatine de 30 nm

– La chromatine condensée

1/16
GENETIQUE – Le support de l'information génétique, Structure et fonction du génome

– La chromatine hyper-condensée

– Le chromosome métaphasique

Un chromosome dispose de 3 régions :


– Un bras court p
– Un centromère (partie médiane)
– Un bras long q
Au niveau des extrémités se trouvent les
télomères.
Les chromosomes acrocentriques sont des
chromosomes qui n'ont pas de bras court.

Le génome nucléaire est fragmenté en 23 paires de chromosomes (22 paires de chromosomes autosomes et 1
paire de chromosomes sexuels). Il a une taille d'environ 3 milliards paires de bases dont seulement 3 x 107 soit
1% environ (30 millions de paires de bases) représente la partie codante.
Cette partie codante est constituée de 25 000 à 30 000 gènes (on ne connaît qu'un ordre de grandeur, on ne
connaît pas le chiffre exact).

La chromatine est constituée par un assemblage de l’ADN avec des protéines histones. En effet, un
nucléosome est constitué de 8 histones (2 histones H2A, 2 histones H2B, 2 histones H3 et 2 histones H4).
L'ADN s'enroule autour des nucléosomes pour former une structure en collier de perle d'un diamètre de 11 nm.

De plus, l'histone H1 permet l'association des nucléosomes entre eux ce qui conduit à une compaction des
nucléosomes et donc à la fibre de chromatine de 30 nm. Cette fibre constitue l'unité de base de la chromatine.

Il faut faire la distinction entre 2 types de chromatine :

• L'hétérochromatine qui est dense et plus compacte. Elle concerne des régions intergéniques et des
gènes inactifs (il est impossible pour les enzymes de la transcription d’accéder à la double hélice
d’ADN du fait de la compaction).

• L'euchromatine qui est décondensée et qui contient les gènes actifs (les enzymes de la transcription
peuvent accéder à la double hélice car l'euchromatine est moins condensée)

2/16
GENETIQUE – Le support de l'information génétique, Structure et fonction du génome

A. Support de l'information génétique : des gènes aux protéines

I. Structure de l'ADN

Le support de l’information génétique est l'acide désoxyribonucléique (ADN). L'information génétique est
représentée par la succession de 4 bases azotées ATCG qui s’apparient 2 à 2 (GC et AT) dans la double hélice.
L'appariement GC est plus stable que l'appariement AT car il y a 3 liaisons pour GC et 2 liaisons pour AT.
Au niveau de l'ARN, les T sont remplacés par U.

Le 25 avril 1953 parait dans Nature « A Structure for Deoxyribose Nucléic Acid » par F. Crick et J. Watson.
Rosalind Elsie Franklin a également beaucoup contribué à la découverte de cette structure, bien qu'elle soit
souvent oubliée.

L'ADN peut être copié au travers des générations cellulaires successives, c'est la réplication de l’ADN qui
conduit à un même ADN dans toutes les cellules filles.

L’ADN peut être traduit en protéines, c'est la transcription de l’ADN en ARN (avec une maturation) puis la
traduction en protéines.
Un ARN d'un gène donné peut coder pour plusieurs protéines.

Enfin, l'ADN peut être réparé en cas de besoin, c'est la réparation de l’ADN. Cependant ce système n'est pas
fiable à 100%.

II. Structure des gènes

Un gène est défini comme l’unité d’hérédité. C'est une unité élémentaire d’ADN capable de se reproduire
(réplication), susceptible de mutations (qui peuvent être délétères ou bénéfiques) et capable de transmettre un
message héréditaire.

3/16
GENETIQUE – Le support de l'information génétique, Structure et fonction du génome

Un gène dispose d'une structure morcelée, il y a des exons (qui contiennent l'information génétique) et des
introns (qui seront enlevés lors de la transcription, CR : ne sont pas traduits) qui sont transcrits, et des
séquences régulatrices (en amont ou en aval du gène) qui sont non transcrites.

Un gène eucaryote est toujours orienté de 5' vers 3', mais si on lit sur le brin antisens, on lira de 3' vers 5' car les
deux brins sont opposés dans la double hélice. Il est transcrit en ARN pré messager en utilisant le brin antisens
(sur ce schéma, il n'y a que le brin sens) (CR : le brin antisens sert de matrice à la transcription, donc c'est
l'information du brin sens qui est recopiée par complémentarité). L'ARN pré messager va alors subir une
maturation (épissage) dans le noyau, c'est-à-dire qu'il va perdre ses introns et il ne lui restera que les exons
collés ensemble. De plus, il va recevoir une coiffe en 5' et une queue poly A en 3' et deviendra alors un ARN
messager mature. L'ARN messager migre alors du noyau vers le cytoplasme, où il sera traduit en protéines par
les ribosomes.

On remarque 2 points critiques dans l'exon 1 :


– Le site d'initiation de la transcription au début de l'exon 1
– Le codon d'initiation de la traduction ATG qui code pour une méthionine. Il se trouve la plupart du
temps dans le premier exon mais peut également se trouver dans les exons suivants.

4/16
GENETIQUE – Le support de l'information génétique, Structure et fonction du génome

Il peut y avoir plus d'un codon ATG dans les exons d'un gène, et le codon d'initiation de la traduction n'est pas
toujours le premier. Qu'est-ce qui détermine le codon d'initiation de la traduction ? C'est le contexte,
l'environnement de ce codon.

Le promoteur est indispensable à la transcription (CR : il se situe en amont de l'exon1), il est composé de
différents éléments reconnus par des facteurs de transcriptions. Ces éléments sont :
– TATA box (TATAAA) en -35 à -20 (par rapport au site d'initiation de la transcription)
– Initiator (= Inr = site d'initiation de la transcription) en +1 composé de 2 pyrimidines (C ou T) puis une
adénine puis une adénine ou une thymine et encore 2 pyrimidines Donc : PyPyA(A/T)PyPy
– CAAT box (CCAAT) en -200 à -70
– GC box (GGGCGG) en -200 à -70

Les facteurs de transcriptions se fixent donc à ces éléments :


– Le site Inr est reconnu par le facteur TBP (TATA-box biding protein)
– La TATA box est reconnue par le facteur TBP elle-aussi
– La CAAT box est reconnue par les facteurs CBF (CAAT binding protein), NF1 et C/EBP
(CAAT/enhancer binding protein)
– La GC box est reconnue par le facteur SP1

Ces signaux servent à ce que des protéines puissent reconnaître spécifiquement ce motif nucléotidique, s'y fixer,
et activer la transcription. On va ainsi pouvoir réguler finement l'expression de certains gènes en fonction de
l'expression de ces facteurs de transcription.

Sur le promoteur de l'interleukine 2 (IL-2), on remarque donc la TATA box, le site d'initiation de la
transcription et le site d'initiation de la traduction. Il n'y a pas CAAT box ni de GC box dans ce promoteur car
ils ne sont pas constants. On peut au contraire en trouver plusieurs versions dans un même promoteur ce qui
montre à quel point ces paramètres sont variables.
Pour déterminer l'emplacement du site d'initiation de la transcription, on a fait des expériences sur la cellule.

5/16
GENETIQUE – Le support de l'information génétique, Structure et fonction du génome

En amont du promoteur se trouvent des séquences régulatrices qui interviennent dans la régulation du niveau
d'expression et notamment dans la tissu-spécificité (= différences d'expression des gènes suivant les tissus).
C'est une régulation spatio-temporelle précise. Ces séquences sont souvent en 5' mais peuvent aussi être dans
les introns ou en 3'. (CR : les séquences régulatrices se situent à distance du promoteur)

Il y a trois types de régions régulatrices :


– Les enhancers sont des éléments de régulation positive, ils sont localisés le plus souvent en amont des
gènes. Ils sont plus ou moins dégénérés (une séquence dégénérée est une séquence sujette aux
variations). Exemples (CR : ne pas connaître) :
– TGAGTCA sur lequel se fixe AP-1 (= activator protéin 1)
– CCC(A/C)N(C/G)3 sur lequel se fixe AP-2 (= activator protéin 2)
– ATGCAAAT sur lequel se fixe Oct-1 (= octamer 1)
– (A/T)GATAPu sur lequel se fixe GATA-1 (= GATA binding factor 1)Pu = purine = A ou G
– PuGPuCATGPyCPy sur lequel se fixe p53
– GGGPuNTPyPyCC sur lequel se fixe NF-kB (= nuclear factor-kappa B)
– GGAGAPu sur lequel se fixe NFAT (= nuclear factor of activated T-cells)
– TGACTAG sur lequel se fixe NF-E2 (= nuclear factor erythroid 2)
– Les silencers sont des éléments de régulation négative, ils interagissent avec des répresseurs.
– Il existe des éléments mixtes « enhancer/silencer » dont la fonction dépend du ligand protéique qui
sera différent suivant les tissus. Si on prend l'exemple de l'élément E box (CACGTC) :
– En cas de liaison avec le dimère Max-Myc, il sera enhancer
– En cas de liaison avec le dimère Max-Mad, il sera silencer

Si on revient sur le gène de l'interleukine 2, on trouve des enhancers mais ils ne sont bien sûr pas tous
présents :

6/16
GENETIQUE – Le support de l'information génétique, Structure et fonction du génome

Il y a une régulation extrêmement précise pour reconnaître le début et la fin d'un intron sans erreur. Ces sites de
régulation sont des sites dégénérés car il n'y a pas de séquence exacte, juste quelques bases qui sont quasiment
invariables :
– Le site donneur d'épissage (à la jonction exon-intron) qui est constitué de GT (=GU en ARN) et de 7
autres pb sujettes à variation.
– Le point de branchement (entre 20 et 50 nucléotides en amont du site accepteur) qui est le plus
souvent une adénine et d'autres pb sujettes à variation.
– Le site accepteur d'épissage (à la jonction intron-exon) qui est constitué de AG et de 10 autres pb
sujettes à variation.

La dégénérescence des sites de régulation de l'épissage des introns est apparu au cours de l'évolution.
Cela s'explique par l'épissage alternatif qui est le mécanisme permettant d'avoir plusieurs protéines à partir
d'un même gène. La cellule va inclure ou pas certains exons dans l'ARNm mature ce qui signifie qu'on va avoir
des ARNm différents à partir d'un même gène.Ce mécanisme favorise la dégénérescence des signaux, car moins
il sont précis, plus ils vont permettre une régulation fine suivant les tissus.

Dans la photo ci-dessus, la hauteur de la lettre correspond à la fréquence retrouvée au niveau des introns chez
l'homme. On remarque que certaines bases sont quasiment équiprobables (les lettres font toutes la même
taille).

7/16
GENETIQUE – Le support de l'information génétique, Structure et fonction du génome

L'épissage des introns est un des mécanismes les plus complexes de la cellule. Ici sera présentée une version
simplifiée :

– Première étape = fixation de la small nuclear


ribonucleoprotein U1 (snRNP) sur le site donneur.

– Seconde étape = fixation de la small nuclear


ribonucleoprotein U2 (snRNP) sur le point de
branchement.U1 et U2 se lient l'un à l'autre, et
rapprochent donc les 2 exons dans l'espace, ce qui crée
une boucle au niveau de l'intron.

– Troisième étape = assemblage des snRNPS U4 U5 et U6


puis fixation et formation du spliceosome ce qui a pour
effet de rapprocher encore plus les 2 exons.

– On veut maintenant se débarrasser de l'intron et on va pour


cela réaliser une trans-estérification qui consomme de
l'énergie sous forme d'ATP. Le groupement OH de l'adénine
du point de branchement va attaquer le phosphate du premier
nucléotide de l'intron.

– Il va y avoir ensuite une seconde trans-estérification qui


va elle-aussi consommer de l'énergie sous forme d'ATP.
Le OH libéré en 3' de l'exon en amont va attaquer le
phosphate 5' de l'exon en aval. On a donc régénération
d'une liaison phosphate entre les exons et élimination de
l'intron sous forme de lariat (= lasso).

8/16
GENETIQUE – Le support de l'information génétique, Structure et fonction du génome

Schéma récapitulatif :

Avant l'arrêt de la transcription, il y a un site de polyadénylation dont on ignore la localisation précise. Il va


induire la formation d'une queue poly A du coté 3' (0,5 à 2 kb) destinée à protéger l'ARNm. On ne sait pas non
plus ce qui détermine la fin de la transcription. On sait juste que ce site de polyadénylation est présent dans la
plupart des gènes, et que la transcription s'arrête un peu après.

Les gènes ont une structure et une longueur variable :


– Le gène de la titine dispose de 363 exons et de 101518 pb. C'est le nombre maximum d'exons que l'on
connaisse. On comprend aisément que grâce à l'épissage alternatif, ce gène code potentiellement pour
énormément de protéines.
– Le gène UbI4 dispose de 4 exons et de 2382 pb. Ce gène peut donc coder pour beaucoup moins de
protéines.
– Le gène le plus long que l'on connaît est le gène de la dystrophine situé sur le chromosome X. Il code
pour plus d'1 million de pb et est responsable de la maladie de Duchenne.

Un gène moyen contient quelque exons seulement. Un exon est généralement petit, il est composé de quelques

9/16
GENETIQUE – Le support de l'information génétique, Structure et fonction du génome

dizaines à quelques centaines de pb. La taille des introns quant à elle varie. Les gènes sont soumis à une
pression de sélection. Les exons sont très conservés (car ils portent l'information critique) tandis que les introns
varient d'une espèce à l'autre à la fois dans leur taille et dans leur composition car leur rôle est plus accessoire.

Le dogme classique est « un gène code pour une protéine » mais ce n’est pas si simple, il y a beaucoup de cas
différents :
– Un gène unique codant pour une protéine unique.
– Un gène unique codant pour plusieurs protéines (via l'épissage alternatif).
– Un gène codant pour un ARN non traduit en protéines, c'est-à-dire un ARN non codant. Cet ARN non
codant va agir sur la régulation de l’expression d’autres gènes.
– Des gènes dispersés codant pour plusieurs protéines semblables (familles et super-familles de gènes).
Ces gènes dérivent probablement d’un gène ancestral commun.
– Le cas particulier des gènes ribosomaux
– Des gènes ne codant pour aucune protéine, ni aucun ARN, c'est-à-dire des pseudogènes. Si un gène se
duplique, et qu’une des version s’inactive par mutation, on a alors un pseudogène sans avoir de déficit
fonctionnel, car il reste toujours une version fonctionnelle du gène.

III. Expression des gènes : transcription/traduction

La plupart des gènes ont pour but d’être transcrit en ARN. La transcription est un processus dynamique et
continu, c'est-à-dire que toutes les étapes se chevauchent. Par exemple, l'épissage débute pendant la
transcription.

La maturation de l'ARNm nécessite en plus des structures destinées à protéger l'ARNm de la dégradation. En
effet, dans un but de régulation de la traduction, il y a beaucoup de molécules dans le cytoplasme dont le but est
de dégrader les ARNm non protégés par ces structures. Ces structures sont :
– Le« Capping » qui désigne la pose d'un chapeau (ou coiffe) en 5'. Ce chapeau est un 7-
méthylguanosine, c'est-à-dire une guanosine qui a subi une modification chimique.
– La queue poly A créée par une polyadénylation en 3'.

10/16
GENETIQUE – Le support de l'information génétique, Structure et fonction du génome

Voici un schéma récapitulatif de la transcription/traduction :

Un chromosome est composé d'une double hélice d'ADN donc de deux brins qui sont anti parallèles. L'un de
ces brins porte l’information prit en compte pour la transcription, l'autre brin est le brin complémentaire. Le
brin porteur de l'information est le brin sens, l'autre brin est le brin anti sens qui sera sujet à la transcription.
L'ARN est synthétisé par complémentarité au brin anti sens.

La séquence du gène se trouve sur le brin sens, mais la transcription (grâce à l'ARN polymérase) se réalise sur
le brin anti-sens par complémentarité. Le brin anti-sens est donc la matrice mais l'ARNm contient la même
information génétique que le brin sens (c'est-à-dire la même information génétique que le gène).

11/16
GENETIQUE – Le support de l'information génétique, Structure et fonction du génome

La traduction en protéines se réalise grâce au code génétique. Un codon est une séquence de 3 bases
correspondant à un acide aminé, et l'ensemble des codons constituent le code génétique.La séquence
nucléotidique dans l’ADN (et transcrite en ARNm) spécifie donc l’ordre des acides aminés dans la protéine.

Le code génétique est redondant (ou


dégénéré), c'est-à-dire que plusieurs codons
codent pour le même acide aminé. Pour
certains codons, le dernier nucléotide n'a
même pas d'importance car les 4 versions
codent pour le même acide aminé. Ce code
génétique n'est jamais ambigu, c'est-à-dire
qu'un codon ne code jamais pour plus d'un
acide aminé.

Il comporte également les signaux d'initiation


(codon d'initiation ATG) et d'arrêt (codons
stop UAA, UAG et UGA).

On peut remarquer que nous n'avons pas le


même code génétique nucléaire et
mitochondrial.

IV. Régulation de l'expression des gènes

"Si les caractères de l'individu sont déterminés par les gènes, pourquoi toutes les cellules d'un organisme ne
sont-elles pas identiques ?" T. Morgan

Il y a environ 30000 gènes mais plus de 100000 protéines différentes.

C'est parce qu'il y a une régulation de l’expression des gènes à différents niveaux :
– Au niveau chromatinien via la compaction de la chromatine (hétéro/euchromatine).
– Au niveau transcriptionnel via les effets des facteurs de transcription qui stimulent ou inhibent
l'expression d'un gène.
– Au niveau post-transcriptionnel via la modulation de la demi-vie des ARNm (ex : queue polyA courte).
– Au niveau traductionnel via la modification de facteurs d'initiation de la traduction.
– Au niveau post-traductionnel via les modifications post-traductionnelles des protéines telles que la
glycosylation, la méthylation, l'acétylation... Ces modifications agissent sur le degré d'activité de la
protéine en la désactivant ou en l'activant. Ces modifications sont très importantes comme le prouve
l'exemple de la levure (eucaryote simple) qui ne peut pas synthétiser toutes les protéines humaines du
fait du manque de modifications post-traductionnelles.

L'épigénétique est l'ensemble des modifications de l’expression des gènes sans altération des séquences
nucléotidiques, réversibles et transmissibles d’une génération à l’autre.

12/16
GENETIQUE – Le support de l'information génétique, Structure et fonction du génome

Il y a trois principaux mécanismes d'épigénétique, le code histone (acétylation ou méthylation des histones), la
méthylation de l'ADN (très courant) et l'action de certains ARN non-codants (par exemple les micro ARNs)
qui se fixent sur l'ARNm simple brin par complémentarité et entraînent donc la dégradation de l'ARNm. Ces
mécanismes régulent l’équilibre entre gènes « actifs » et « inactifs ».

Au niveau chromatinien, la compaction de l'ADN est influencée par les modifications biochimiques des
histones, c'est le code histone. Ainsi, si les histones sont acétylées, alors on aura des gènes actifs et de
l'euchromatine. A l'inverse, si les histones sont méthylés, on aura des gènes inactifs et de l'hétérochromatine.

La méthylation de l'ADN favorise la compaction de l'ADN et l'inactivation de l'expression des gènes. Elle est
impliquée dans l'inactivation du chromosome X chez la femme. Elle est également impliquée dans le
phénomène d'empreinte génomique parentale qui désigne la non-équivalence d'expression de certains gènes
selon l'origine parentale.En effet, pour la majorité des gènes, la copie d'origine maternelle et la copie d'origine
paternelle sont exprimés, mais pour certains gènes, seul l'allèle maternel ou paternel est exprimé (ce sera
toujours le même allèle pour une gène donné).

B.Le projet Génome Humain

I. De la structure de l'ADN à la séquence du génome humain en 50 ans

Le séquençage du génome humain avait pour objectifs :


– savoir si le génome humain était plus complexe que celui des procaryotes, et connaître sa composition.
– savoir si le génome humain contenait plus de gène que les autres espèces.
– répondre à la question : « comment expliquer les différents niveaux d'évolution ? »
– savoir si plus une espèce est évoluée, plus elle a de gènes.
– identifier les gènes responsables des maladies génétiques tels que les cancers, les maladies rares, etc...
Cela aurait permis de mieux les traiter.
– placer les gènes sur les différents chromosomes.

Le séquençage du génome humain est le plus grand projet scientifique mondial lancé en 1988/1989. Human
Genome Project débute donc en 1990.

Pour se rendre compte de l'ampleur de la tache, il faut savoir que 3000 paires de bases s'écrivent sur une page
d'un livre. Ainsi, un tome de 500 pages contient 1 500 000 paires de bases. Un génome haploïde quant à lui
représente 1000 de ces tomes !

La capacité de séquençage a énormément progressé :


– En 1975, on séquençait 1 000 nucléotides/semaine. Il aurait fallu 500 ans pour 100 personnes !
– En 1986, on séquençait 10 000 nucléotides/jour. Il aurait fallu 8 ans pour 100 machines.
– En 1998, on séquençait 200 000 nucléotides/jour. Il aurait juste fallu 5 mois pour 100 machines.

Les cartes génétiques du génome sont des cartes relatives, où les distances sont exprimées en centimorgan
(cM). Un cM correspond à 1% de recombinaison.
Les cartes physiques du génome sont des cartes absolues, où les distances sont exprimées en paire de bases
(pb). Ainsi, un kilobase (kb) est égal à 1000 pb, et 1 mégabase (Mb) est égal à 1000 kb.

Chez l'homme, 1 cM vaut environ 1 Mb.

13/16
GENETIQUE – Le support de l'information génétique, Structure et fonction du génome

Pour le séquençage du génome humain, il y a eu 2 projets concurrents, le Human Genome Project HGP (public)
et le projet de l'entreprise CELERA (privé). Le but du projet privé était de breveter le génome humain.
Les 2 projets ont utilisé des méthodes différentes :

• Le projet HGP a réalisé le séquençage à partir d'une carte physique, c'est-à-dire qu'il a construit une
carte génétique puis une carte physique afin de la pouvoir sélectionner les clones d'intérêts, et alors
pouvoir faire le séquençage (ou shotgun) puis l'assemblage (ou contigs).Pour faire simple, ils ont
séquencé des morceaux d'ADN dont ils connaissaient la localisation dans le génome.

• Le projet CELERA a réalisé le séquençage aléatoirement, c'est-à-dire qu'il a directement commencé le


séquençage (ou shotgun) de clones, ainsi que les extrémités des clones, avant de réaliser l'assemblage
(ou contigs). Tout ça pour enfin incorporer d'autres séquences et des données des extrémités.Pour faire
simple, ils ont séquencé des morceaux d'ADN dont ils n'avaient pas pris la peine de connaître la
localisation, en espérant tomber sur quelque chose d'utile et de brevetable.

II. Informations issues du projet

De ce séquençage a pu être tirée la composition du génome humain :

14/16
GENETIQUE – Le support de l'information génétique, Structure et fonction du génome

On remarque qu'il y a moins 1% d'ADN codant pour des protéines et plus de 50% de séquences répétées dont
on ignore la fonction, ce qui était assez inattendu.

Le génome humain est donc constitué de 3272 millions de nucléotides. Les régions riches en gènes sont
également les régions riches en G et C alors que les régions pauvres en gènes sont riches en A et T. Cela
s'explique par la transition chimique spontanée de C vers T : les régions riches en gènes ont gardé leur capital
en GC grâce à la pression sélective alors que les régions pauvres en gènes ont lentement évolué vers une
majorité de AT.

Ces différentes régions peuvent généralement être visualisées comme des bandes claires ou sombres sur les
chromosomes métaphasiques, c'est le banding : les bandes G sont riches en AT et pauvres en gènes, alors que
les bandes R sont riches en GC et riches en gènes.

Le chromosome 1 qui est le plus grand contient le plus grand nombre de gènes estimés (environ 3000) alors que
le chromosome Y en a le moins (231).

Le nombre total de genes se situe entre 25000 et 30000.


La taille moyenne d’un gène est de 3000 bases et 9 exons mais la taille varie beaucoup comme par exemple le
gène de la dystrophine qui a une taille de 2,4 Mb.

Il y a 99,9% de séquence identique entre 2 personnes, soit 0,1% de différence correspondant à 3,5 millions de
différences par génomes.
Plus de la moitié des gènes ont une fonction inconnue !

Le HGP a permis la création de base de données séquentielles et d'annotations, à la disposition de tous (bases de
données publiques), ainsi que le séquençage du génome de nombreux organismes.

Nous entrons maintenant dans une nouvelle aire, celle de la médecine personnalisée :
– Le HGP a mis 13 ans de 1990 à 2003 dans un projet international à 3 milliard de dollars pour séquencer
un génome
– En 2011, les séquenceurs à haut débit permettent de séquencer un génome humain en 1 semaine pour
10 000 dollars, mais l'analyse des données reste difficiles.

On a remarqué des mutations délétères chez certaines personnes qui n'avait pas de problème de santé.

Il existe des services privés payants permettant de se faire séquencer son génome individuel pour 10 000
dollars, ce qui est inquiétant et rassurant à la fois !

Conclusion

Le génome humain est séquencé, et le génome humain individuel est séquençable. Nous entrons donc dans l'ère
post-génomique !
Le génome doit interagir avec les autres « -omes » pour les connaissances fondamentales : transcriptome,
protéome, métabolome, interactome, …

Il persiste une difficulté : l'analyse des données.

Nous devons mieux comprendre la diversité des êtres vivants, laquelle n'est pas expliqué par le seul nombre de
gènes.
En médecine, nous devons mieux comprendre les bases génétiques des maladies à la fois causales (maladies
génétiques monofactorielles) et à effet modificateur (prédisposition génétique qui conduit à des maladies
diverses : cancérologie, cardiovasculaires, métaboliques...).

15/16
GENETIQUE – Le support de l'information génétique, Structure et fonction du génome

16/16