Vous êtes sur la page 1sur 109

DIU de Médecine Moléculaire en Cancérologie

Module de Biologie du Cancer


Institut Curie
24 Novembre 2022

Structure du génome humain

Pr Ivan Bièche
Unité de Pharmacogénomique, Service de Génétique, Institut Curie
(ivan.bieche@curie.fr)

Laboratoire de Génétique Moléculaire, Faculté de Pharmacie,


Université de Paris (ivan.bieche@u-paris.fr)
Le génome représente l’ensemble du matériel génétique
(patrimoine génétique) d’un individu ou d’une espèce.

Il est constitué d’acides nucléiques : ADN (le plus souvent) ou


ARN (virus).

L’ADN (acide désoxyribonuléique) est formé de 2 chaînes de


désoxyribonucléotides (reliés entre eux par des fonctions
ester) et maintenues par des liaisons hydrogène qui
s’établissent entre les bases azotées.

Chaque nucléotide est formé d’un ose (désoxyribose), d’une


base azotée (bases puriques : Adénine, Guanine ; bases
pyrimidiques : Cytosine ou Thymine) et d’un groupement
phosphate.
OH
CH2 O OH
5’
1’
Ribose
4’
H H
H H
3’ 2’ Acide ribonucléique, ARN
OH OH

OH
CH2 O OH
5’
4’ 1’

H
H H
H 2’désoxyribose
3’ 2’
Acide 2’désoxyribonucléique, ADN
OH H
Purines
NH2 O

6 7 6 7
C 5 C 5
1 N 1 N
N C 8 HN C 8
CH CH
HC C C C
2 NH 2 4 NH
N 4 H2N N
9 9
3 3

Adénine (A) Guanine (G)

Pyrimidines
NH2 O O

4 4 CH3 4
3
C 5 C 5 C 5
3 3
N CH HN C HN CH

C CH C CH C CH
2 2 2
O NH 6
O NH 6 O NH 6
1 1 1

Cytosine (C) Thymine (T) Uracile (U)


Cytosine Uracile
NH2 O

4
C 5 C
3 Désamination
N CH HN CH

C CH C CH
2 NH 6 NH
O O
1
Efficacement reconnue par
Méthylation les systèmes de réparation
du carbone 5

NH2 O

C CH3 C CH3
N C HN C
Désamination
C CH C CH
O NH O NH

5-méthylcytosine Thymine
Inefficacement reconnue par
les systèmes de réparation
Désamination
m oxydative TG Transition C  T
Brin 5’CG3’ TG AC
codant 3’GC5’ GC
m CG
GC
Mésappariement T/G

Désamination
oxydative CG
m CG GC
Brin 5’CG3’
matrice GT CA
3’GC5’
m GT Transition G  A

Mésappariement G/T
NH2 NH2

6 7 6 7
C 5 C 5
1 N 1 N
N C 8 N C 8
CH CH
HC C HC C
2 N 2 N
N 4
9 N 4
9
3 3
O O O
  
OH P P P O
O O O

5’
CH2 O O O O
5’
CH2 O
4’ 1’ 4’ 1’

H H H H
H H H H
3’ 2’ 3’ 2’

OH OH OH OH

Nucléoside Nucléotide
Les deux chaînes de désoxyribonucléotides sont :
 Antiparallèles
 Hélicoïdales
 Complémentaires
-

+
H
H
N
+
Sucre
Adénine (A)
6
-
7
5 C
N
Thymine (T)
1
8 C N
HC
C CH
H
N 4 N 2
9
3

+
Sucre
- -
O
Sucre
7 6 +
5 C
N 1
C N
-
8
Guanine (G) HC
+
C C
N
9
4 N 2
N Cytosine (C)
3

H
Sucre
Les débuts de la génomique

 1953 : Watson et Crick découvrent la structure de l’ADN

 1977 : F. Sanger élabore le séquençage de l’ADN

 1987 : Mise au point de séquenceurs automatiques

 1995 : Séquence du 1er génome bactérien (H. influenzae ; 1,83 Mb)

 2001 : Séquençage préliminaire du génome humain

 2005 : Utilisation de nouveaux séquenceurs ultra-rapides


 NGS : Next Generation Sequencing
 2022 : - 25 406 génomes complètement séquencés
- 162 923 projets génomes (http://www.genomesonline.org)
Séquençage préliminaire du génome humain
(The Human Genome Projet : 1990-2003)

Euchromatine (2.9 Gb): 110 gaps


Hétérochromatine: très nombreux gaps / non séquencée
Méthode de Sanger ( 500 pb)
La taille des génomes
2003 2005

1.06%
nucléotides

1418
gènes

Homo sapiens Pan troglodytes


(46 chromosomes) (48 chromosomes)
Séquençage exclusivement de l’euchromatine (2,9Gb)
La révolution Next Generation Sequencing

Le séquençage haut débit (HTS pour high-throughput


sequencing) aussi appelé NGS pour next-generation
sequencing désigne un ensemble de méthodes apparues à
partir de 2005 produisant des millions de séquences en un
run et à faibles coûts

Elles se caractérisent par l'utilisation d'approches


massivement parallèles, permettant de séquencer des
millions de fragments simultanément
Séquençage : nouvelles technologies
(NGS : Next Generation Sequencing)

Appareils Débit Cout


Anciennes 2Mb/J 500€/Mb
Technologies
Illumina
Life Technologies >1Gb/J <1€/Mb

 Génome complet (2,9 Gb) : 3 000 €


 Exome (35 Mb) : 500 €
Profondeur et couverture
Le géno-tsunami
Cout d’un séquençage complet du génome humain

2002 100 millions €


2006 1.5 millions €
2012 10 000 €
2015 1000 €
2025 100 € ?
Nature 2022, 607:732-40
USA

17 septembre 2015
https://b1mg-project.eu/
Nature 2021, 590:217–8
GRCh38.p13
Assembled bases :
2.92 Gb

T2T-CHM13 v1.1
Assembled bases :
3.055 Gb

Science 2022, 376:44-53


Zahn LM. Filling the gaps. Science 2022, 376:42-4

Red segments denote previously missing sequences that the T2T Consortium resolved
Analyses des altérations génétiques somatiques

Gène individuel Génome global


(Diagnostic) (Recherche translationnelle,
Essais cliniques)
•FISH* •CGH
ADN •Southern blot •CGH-array
•PCR quantitative •Whole Exome (60 Mb)
•Séquençage (Sanger ou NGS) •Whole Genome (3 Gb)
•ISH* •OligoN microarray
ARN •Northern blot •MicroRNAome-array
•RT-PCR quantitative •Séquençage complet ARN
•Séquençage  RNAseq
•IHC*
Protéine •Western blot •Antibody-Array?
•RIA, EIA
*: Mise en évidence de l’hétérogénéité spatiale intra-tumorale
« Exome » versus « Génome complet »

WES WGS
(Whole Exome sequencing) (Whole Genome sequencing)

ADN 60 Mb (2%) 3 Gb (100%)

Altérations Mutations exons Mutations exons


Amplifications Amplifications
Délétions Délétions
Mutations introns
Mutations promoteurs
Mutations intragéniques
Translocations

Cout 500 € (100X) 3 000 € (100X)


20 000

Whole Genome Sequence


gènes

Translocations
interchromosomiques Mutations

 Mutations
 Délétions/Amplifications
 Translocations

 FISH, CGH-array?

Translocations
intrachromosomiques Délétions
Amplifications

Circos plot
WGS – Recherche cancer - 2016
Essai MAPPYACTS – pédiatrie (2016-)

Tumeur

RNAseq (ARN) WES (ADN)


Transcrits de fusion Mutations
Transcriptome Amplifications
Délétions

TC 1 TC 2 TC 3 TC 4 TC 5
 Plateforme SeqOiA : AP-HP,
Institut Curie, Gustave Roussy,
Institut Imagine

 Plateforme AURAGEN : Lyon,


Clermont-Ferrand, Grenoble, Saint-
Etienne

 WES, WGS and RNAseq en


routine clinique

 18 000 génomes par an

 Cancers, maladies rares, maladies


communes

 Implémentation en cours en 2019


France médecine génomique 2025 : pré-indications liées au cancer

https://pfmg2025.aviesan.fr/le-plan/indications-dacces-au-sequencage-genomique/
Principales caractéristiques du génome humain

Génome nucléaire
3.05 109 bp

Génome mitochondrial
16 569 bp
Principales caractéristiques du génome humain
Génome nucléaire haploïde Génome mitochondrial

Taille 3.05 109 pb 16 569 pb

Nombre de molécules  23 (femme) ou 24 (homme) 1


(chromosomes) (46 molécules/cellule diploïde) (~ 1000 copies/cellule)
Structure des molécules linéaire circulaire
Protéines nucléaires associées histones et non histones ~ absentes

Gènes codant des protéines 20 000 13


Gènes non codants (RNA genes) > 26 000 24
% de séquences codantes ~ 1,1 % ~ 66%
Densité de gènes ~ 1 tous les 120 kpb ~ 1 tous les 0.45 kpb
ADN répétitif ~ 54% ~ absent
Introns Présents Absents
Nombre de transcrits minimum 1 transcrit/gène 2 transcrits multigéniques
Code génétique classique spécifique
Transmission mendélienne : chrom. X et autosomes maternelle
paternelle : chrom. Y
Le génome humain revisité

Duplications segmentaires (5,3%)


De moins en moins de gènes codant des protéines
De plus en plus de gènes non codants (RNA gene)
Séquences hautement conservées (~5%)
Séquences répétées (54%)
De plus en plus de polymorphismes
Duplications segmentaires
Existence de plus d’une copie
5.3% du génome euchromatinien
Duplications intra- ou inter-chromosomiques
Régions instables (péricentromériques et subtélomériques)
Taille : 1 kb-50Mb
Nombre : ~ 10 000
>90% d’identité de séquence entre les copies
Spécifiques des primates (à l’intérieur de 40 millions d’années)
Source de polymorphisme : CNVs (Copy Number Variants)
Source de pathologies (DiGeorge 22q11.2)
6.109 bp
# 60 000 genes
CLASS NUMBE
R
Protein-coding 19 954
genes
19 836
23 347
RNA15genes
778 25 526
7 569
Long ncRNA 17 957
14 460
10 704
Small ncRNA 7 569
3 469
Pseudogenes 14 767
Processed 10 671
Unprocessed 3 557
Other 539

GENCODE version 35 (GRCh38.p13)


https://www.genome.gov/sequencingcosts/
De moins en moins de gènes codant des protéines
Variation de la composition du génome au cours de l’évolution des Eucaryotes

Organisme Taille du Nbre de gènes Nbre de Kb Pourcentage de


génome codant des protéines pour 1 gène DNA non codant

Encephalitozoom
Cuniculi* 2.5 Mb 2000 1 10

S. cerevisiae 12 Mb 6000 2 28

C. elegans 97 Mb 19000 5 74

D melanogaster 137 Mb 14000 10 87

H. sapiens 2900 Mb <20000 120 98.5

* Le plus élémentaire des eucaryotes (microsporie)


6.109 bp
# 60 000 genes
CLASS NUMBE
R
Protein-coding 19 954
genes
19 836
23 347
RNA15genes
778 25 526
7 569
Long ncRNA 17 957
14 460
10 704
Small ncRNA 7 569
3 469
Pseudogenes 14 767
Processed 10 671
Unprocessed 3 557
Other 539

GENCODE version 35 (GRCh38.p13)


https://www.genome.gov/sequencingcosts/
Séquences hautement conservées

~ 5% du génome humain est hautement conservé au cours


de l’évolution (importance fonctionnelle?) :
- séquences codantes des protéines (1,2%)
- séquences transcrites et non codantes (RNA gene…)
- séquences non transcrites et non codantes (Ex : UCE)

 Les UCE (Ultra Conserved Elements)


- Taille : > 200pb
- Nombre : ~ 500
- ~ 100% d’identité homme/rat/souris
- > 95% d’identité homme/chien/poule
- Fonctions?
. Points d’ancrage de la matrice protéique nucléaire
. Séquences cis-régulatrices (action très à distance)
Séquences cis-régulatrices à distance
Composition globale du génome humain

 Séquences répétées (54%)

 Gènes codants des protéines (30%)

 Régions inter-géniques (16%):


« junk DNA »? : UCR, ncRNA…
Repetitive
DNA

Tandemly Interspersed
repeated genome-wide
DNA repeats

Satellite Microsatellite
DNA DNA HERVs SINEs

Minisatellite DNA
LINEs transposons
DNA

9% 45%

Séquences répétées : S. cerevisiae (3.4%), D. melanogaster (12%)


Les séquences répétées dispersées
du génome humain

Transposition par Transposition par


l’intermédiaire l’intermédiaire
d’un ARN (fréquent) d’un ADN (rare)

Incapable de Capable de
coder la RT coder la RT

Ne possèdent pas Possèdent


de LTR des LTR

SINEs (Alu) LINEs (L1) Retrovirus endogènes Transposons


Rétropseudogènes HERV Mariner

(13%) (21%) (8%) (3%)


Transposons à ADN
Transposition conservatrice, de type « couper-coller » :
- « gènes sauteurs »
- 200 000 copies par génome haploïde
- Familles : Mariner, Sleeping Beauty
- Une ORF : code une transposase
- Encadrées par des séquences répétées directes
d’une quinzaine de paires de bases

5’ 3’
RD RI transposase RI RD

RI : répétion inversée
RD : répétion directe
Séquences répétées directes

ET

5’ 3’

3’ 5’

5’ 3’

3’ 5’

5’ 3’
3’ 5’
High-throughput insertional mutagenesis screens
Rétrotransposition
Elément Nouveau ET
Transposable (Copie ADN fille)
5’ 3’ 5’ 3’
    

ADNc
ARNm

Transcriptase
reverse
 Queue polyA ( )
 Séquence répétée directe ( )
 Codon stop (  )

Transposition de type « copier-coller »


Rétrotransposition incomplète
Elément
ET tronqué
transposable
5’ 3’ 5’ 3’
    

ADNc
ARNm

Transcriptase
reverse
 Queue polyA ( )
 Séquence répétée directe ( )
 Codon stop (  )
Les SINEs (« Short INterspersed Elements ») dont la taille
est de l’ordre de quelques centaines de paires de bases.
Ils représentent environ 13% du génome humain.

Au sein des SINEs, il est possible d’individualiser les séquences


Alu dont les principales caractéristiques sont les suivantes :
-  106 copies par génome haploïde
-  280 pb
- similitude de séquence nucléotidique > 80%
- Spécifiques des primates
- Pas d’ORF (« Open Reading Frame »)
- Encadrées par des séquences répétées directes
d’une quinzaine de paires de bases

5’ 3’
Patient-Derived Xenograft (PDX) Models
Les LINEs (« Long INterspersed Elements ») dont la taille est de
l’ordre de plusieurs milliers de pb.
Ils représentent environ 20% du génome humain.

Au sein des LINEs, il est possible d’individualiser les séquences


L1 dont les principales caractéristiques sont les suivantes :

- Plus de 500 000 copies par génome haploïde, la plupart sont


incomplètes et tronquées en 5’
- 6.1 kpb (élément complet)
- Spécifiques des mammifères
- Deux d’ORFs dont l’une code une reverse transcriptase
- Encadrées par des séquences répétées directes d’une quinzaine
de paires de bases

5’ 3’
5’UTR p40 RT 3’UTR
Les HERVs (« Human Endogenous RetroVirus »)

- Près de 400 000 / génome humain haploïde


- 5-9 kpb (élément complet), LTR isolés
- LTR (Long Terminal Repeat)
- Trois d’ORFs dont l’une code une reverse transcriptase
- Séquences homologue aux rétrovirus (LTR,pol) vestiges
d’infections virales

LTR LTR
5’ 3’
U3 R U5 gag pol env U3 R U5

Initiation de la Site de
transcription polyadenylation
Mecanisms of alterations
in human tumors
Tumor suppressor
Oncogenes genes
 Activating mutations  Inacativating mutations
 Gene amplifications  Deletions (+/- larges)
 Translocations  Epigenetic alterations
 Insertions (virus, ALU, HERV…) • Insertions (virus, ALU, HERV…)
Repetitive
DNA

Tandemly Interspersed
repeated genome-wide
DNA repeats

Satellite Microsatellite
DNA DNA HERVs SINEs

DNA
Minisatellite
LINEs transposons
DNA

7% 40%

Séquences répétées : S. cerevisiae (3.4%), D. melanogaster (12%)


ADN répété en tandem
Blocs de séquences d’ADN répétées en tandem dont le profil
de localisation chromosomique peut être très restreint ou au
contraire très dispersé.

Taille Taille de la Localisation sur


Type totale répétion le génome

Satellites 300Kb-10Mb 5-171 pb Centromères


Ex: -satellites (171pb) (Hétérochromatine)

Minisatellites 0.1-20Kb TTAGGG Tèlomères


9-64 pb (VNTR)* Régions sub-télomériques

Microsatellites <100 pb 1-4 pb* Régulièrement


Ex: CA repeats (2pb) répartis

* Polymorphes multi-allèliques
ADN satellite

Hétérochromatine
- 200 Mb (6,7% du génome humain)
- ADN non séquencé
- grande partie du chromosome Y
- bras court des chromosomes acrocentriques 13, 14, 15, 21 et 22
- régions péricentromériques des chromosomes 1q, 9q, 16q et 19
Hétérochromatine
ADN télomérique
TTAGGG Vertébrés : Homos sapiens, Mus musculus...
TTAGG Insectes : Bombyx mori...
TTAGGG Flagellés : Trypanosoma brucei...
TTTAGGG Plantes : Arabidopsis thaliana...
TTAGGC Nématodes : Ascaris...
TTAGGG Champignons : Neurosposa...

•••••••TAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGGTTAGGG

Nombre de répétions : 500-2000 (fonction de l’âge de la cellule)


Notion d’horloge mitotique

(TTAGGG)2000 :  12-15 kb

 50 mitoses
(perte de 50 à 200 pb / division)

(TTAGGG)500 :  3-5 kb

Sénescence réplicative
(blocage en G0)
Cellule cancéreuse

(TTAGGG)2000 :  12 kb

Immortalisation
Télomérase

(TTAGGG)500 :  3 kb
Cancer

Sénescence
réplicative
ADN répété en tandem
Blocs de séquences d’ADN répétées en tandem dont le profil
de localisation chromosomique peut être très restreint ou au
contraire très dispersé.

Taille Taille de la Localisation sur


Type totale répétion le génome

Satellites 300Kb-10Mb 5-171 pb Centromères


Ex: -satellites (171pb) (Hétérochromatine)

Minisatellites 0.1-20Kb TTAGGG Tèlomères


9-64 pb (VNTR)* Régions sub-télomériques

Microsatellites <100 pb 1-4 pb* Régulièrement


Ex: CA repeats (2pb) répartis

* Polymorphes multi-allèliques
Les polymorphismes de l’ADN
Ungène ou un locus peuvent exister sous deux ou plusieurs
versions ou allèles qui diffèrent par leur séquence
nucléotidique.

 Ondistingue les polymorphismes :


- des séquences répétées en tandem : microsatellites…
- liées à une substitution nucléotides (SNPs)
- les « structural variants »:
. les InDels (<50pb)
. les CNVs: Copy Number Variations (>50pb)

Nonpathogènes le plus souvent, bien qu’en association ils


peuvent augmenter ou abaisser une susceptibilité aux
maladies multifactorielles
Définitions
Variant : Changement de séquence du génome par rapport à
l’allèle de référence (ancestral)

• Polymorphisme : variant non pathogène


Généralement la MAF (Minor Allele Frequency) >1% (Attention aux
sous populations, mutations avec fréquence allélique élevée telle que F508)

• Variant rare : MAF <1%


• Mutation : caractère causal = variant à effet pathogène

Variant

Polymorphisme Mutation
Non pathogène Effet pathogène
Objectifs
Patient

Recherche de l’origine génétique de la maladie

Séquençage ciblé (gène candidat), WES,WGS

Identification d’un ou plusieurs variants génétiques


 Quel rôle dans la pathologie?
 Variant Pathogène (5)
 Variant Probablement Pathogène (4)
 Variant de Signification incertaine(VUS) (3)
 Variant probablement Benin (2)
 Variant Benin (1)
5’GCTATACATGACATGACAGTA
GCAGATGACATAGACATGAGTAC
ACCTTCATTCACTCACAGATCAG
ATTGTGCACCACACACACACACA
CACACACACACACACACATGATG
ACAGATGAGATGGATGATCTGAT
TGGTGGTAGACAGCATTCATACA
GATGCAGATACA 3’
5’GCTATACATGACATGACAGTA
GCAGATGACATAGACATGAGTAC
ACCTTCATTCACTCACAGATCAG
ATTGTGCACCACACACACACACA
CACACACACACACACACATGATG
ACAGATGAGATGGATGATCTGAT
TGGTGGTAGACAGCATTCATACA
GATGCAGATACA 3’

Microsatellite (CA)16
5’GCTATACATGACATGACAGTA
GCAGATGACATAGACATGAGTAC
ACCTTCATTCACTCACAGATCAG
ATTGTGCACCACACACACACACA
CACACACACACACACACACACAC
ACATGATGACAGATGAGATGGAT
GATCTGATTGGTGGTAGACAGCA
TTCATACAGATGCAGATACA 3’

Microsatellite (CA)20
5’GCTATACATGACATGACAGTA
GCAGATGACATAGACATGAGTAC
ACCTTCATTCACTCACAGATCAG
ATTGTGCACCACACACACACACA
CACACACACACACACACACACAC
ACACATGATGACAGATGAGATGG
ATGATCTGATTGGTGGTAGACAG
CATTCATACAGATGCAGATACA3’

Microsatellite (CA)21
Défaut de réparation des
mésappariements de l’ADN
MicroSatellite Instability)
Syndrome de Lynch
MMR
MMR (A1) Tissu M2 (A2) My-1 My Tissu
"Normal" Cancéreux

Altérations génétiques Altérations génétiques


constitutionnelles somatiques (acquises)
(héritées)

15% des tumeurs sporadiques du colon


(+ cancers de l’endomètre, de l’estomac et du pancréas)

MMR MMR
Tissu M1 M2 (A1) (A2) Mx-1 Mx
Tissu
Normal Cancéreux
Altérations génétiques somatiques (acquises)
Réparation des mésappariements chez l’homme

MSH2
MSH6
ADN  Complexe hétérodimérique
Poly

MSH2-MSH6

MSH6
 Reconnaissance du mésappariement
MSH2
 Changement de conformation

MSH6
MSH2  Liaison de PMS2 et MLH1
PMS2
MLH1

 Discrimination du brin altéré


 Excision (Exonucléase)

 Resynthèse (DNA polymérase)


 Ligation (DNA ligase)
Phénotype MSI (MicroSatellite Instability)

• Altération " généralisées et multiples au niveau des


microsatellites dans les cellules tumorales

• "Microsatellites" du génome (Test diagnostique)

• "polyN codant" au niveau d’Oncogènes et de Gènes


Suppresseurs de Cancer: BAX, TGFBR2, IGF2R,
TCF4…
Gènes cibles dans les tumeurs du colon MSI +

 Voies du TGF, de l’EGF, WNT (APC/-caténine), apoptose


SNPs (Single Nucleotide Polymorphisms)

SNP
C
...AT C G C A A G C A C A A C G C A TT...
A

 Substitutions nucléotidiques
 Au moins 85 millions
 Régulièrement répartis sur l’ensemble du génome
 Système bi-allèlique (deux allèles possibles)
 Base de données publique dbSNP (http://www.ncbi.nlm.nih.gov/projects/SNP)
 Désignés par un nombre précédé de « rs »
 Ex : rs1447295 - 8:127472793 - C/A – fréquences : 0,82/0,18
- MAF (Minor Allele Frequency) = 0,18
5’TAGCAGATGACAGATGACAGA
TGATCAGATAGACAGATAGACAG
ATAGACAGGACATATAGACACCA
TTTGAGATACATCGCACAGATGA
CTTTGCATAGACAGATAGACAGA
TGCGTGCAGCGTAGCGAGACAGC3’

SNP : C/A
5’TAGCAGATGACAGATGACAGA
TGATCAGATAGACAGATAGACAG
ATAGACAGGACATATAGACACCA
TTTGAGATACATAGCACAGATGA
CTTTGCATAGACAGATAGACAGA
TGCGTGCAGCGTAGCGAGACAGC3’

SNP : C/A
85 millions de SNPs
(Single Nucleotide Polymorphisms)

 Fréquence allélique de l’allèle le plus rare (MAF pour


Minor Allele Frequency)
- 8 millions ont une MAF > 5% (common variants)
- 12 millions ont une MAF comprise entre 0.5% et 5%
- 65 millions ont une MAF < 0.5% (rare variants)

 Analysables individuellement (PCR) ou globalement


(puces à ADN, NGS)

The 1000 Genome Project (Nature, 2015, 526,68-74) : 2504 génomes provenant de 26 populations
Structural Variants (SVs)
En fonction de la taille de la variation structurale on
distingue :

 Les INDELS qui correspondent à des


insertions/délétions < 50 nucléotides

 3.6 million short insertions/deletions (INDELS)

 Les CNV (Copy Number Variants): > 50 nucleotides


CNV (Copy Number Variants)

 Larges segments d’ADN : 50pb-qqMb


 CNV > 10 000
 Comprenant plus de 3000 gènes
 5% du génome humain
 Révélés par la CGH-array
 Duplications segmentaires
Caractéristiques du génome humain par rapport au
génome de référence

# 5.6 M de SNV:
- 81.5% des CpGTpG transitions
- 11.8% de toutes les transitions possibles
- 4.0% de toutes les transversions possibles
# 1.3 M INDEL:
# 8000 SVs ≥ 50 bp (50% délétions et 50% insertions)

 WGS : 7 millions de variants…


Base de données : Populations

• 1000 Genomes Project


(http://www.internationalgenome.org/)
• dbSNP : Database des courtes variations génétiques
(<50pb) (https://www.ncbi.nlm.nih.gov/projects/SNP/)
• gnomAD : Genome Aggregation Database
(anciennement ExAC) (http://gnomad.broadinstitute.org/)
Google  NCBI (National Center for Biotechnology Information)
Fréquence du variant dans la population générale

http://gnomad.broadinstitute.org/

gnomAD v3.1 : 71 702 WGS


http://gnomad.broadinstitute.org/ Exemple de BRCA2
http://gnomad.broadinstitute.org/ Exemple de BRCA2
http://gnomad.broadinstitute.org/ Exemple de BRCA2

BRCA2 c.9976A>T, NM_000059 = p.Lys3326*


Altérations somatiques activatrices
d’oncogènes
 Mutations faux-sens (missense)
- EGFR : c.2573T>G (p.Leu858Arg ou p.L858R)
- Variant hot spot
- présent dans bases de données :TumorPortal, COSMIC
 Indel (qqs nucléotides) « in frame »
- EGFR : c.2235_2249del15 (p.E746_A750delELREA)
- Indel hot spot
- connue dans bases de données :TumorPortal, COSMIC
 Variants non retenus comme pathogènes :
- SNP > 0.1% : 1000 genomes, gnomAD, dbSNP…
- silencieuses : EGFR : c.1281C>T (p.Arg427= ou p.R427R)
- non-sens, frameshift (Indel, Mutations affectant l’épissage)
- faux-sens hors « région hot spot »

 Possibilité d’analyser uniquement les régions hot spots


Génome humain et cancers

MSI (MicroSatellite Instability) : Défaut de réparation


des mésappariements de l’ADN.

HRD (Homologous Recombination Deficiency) : Défaut de


réparation des cassures double-brin de l’ADN.

TMB (Tumour Mutational Burden) : La charge


mutationnelle

Signatures mutationnelles trinucleotidiques


Signatures BRCAness - Signatures HRD ?
(homologous recombination deficiency )

Signatures génomiques

Exemple of tumeur sans HRD Exemple of tumeur avec HRD

Défaut de réparation des cassures double-brin de l’ADN.

Mutations d’un gène HRR (homologous recombination repair) :


BRCA1, BRCA2, PALB2…

Méthodologies : - CGH-array
- Shallow WGS (sWGS 1X)

Biomarqueur prédictif de la réponse aux anti-PARP


Charge
mutationnelle

TMB
(Tumor Mutational Burden)
Fréquence de mutations somatiques
(Par analyse WES/WGS ou large panel NGS)

Nombre de mutations somatiques par Mb


Biomarqueurs prédictifs
de la réponse immunomodulateurs

CTLA4 inh
PD1 inh

Néoantigènes

TMB high
MSI-H
Signatures mutationnelles trinucleotidiques
Merci

Vous aimerez peut-être aussi