Académique Documents
Professionnel Documents
Culture Documents
RAPPORT DE STAGE
STAGIAIRE DE RECHERCHE
Pierre Monjaret
10/06/2022
Université Bretagne Sud
Institut Universitaire de Technologie
Département Statistique et Informatique Décisionnelle
RAPPORT DE STAGE
AVRIL 2022 - JUIN 2022
Mes remerciements sont également adressés au CHU Sainte-Justine qui m’a reçu au
sein de son établissement de santé et notamment au personnel des ressources humaines qui
a fait tout son possible pour faciliter mon accès au CHU en période de pandémie.
A toutes ces personnes, je souhaite leur exprimer ma gratitude pour m’avoir permis de
réaliser un stage à l’étranger dans les meilleures dispositions durant ces 10 semaines.
4
LISTE DES SIGLES ET ABREVIATIONS
On donne ci-dessous une liste présentant les différents sigles et abréviations utilisés
dans ce rapport :
BAC : Baccalauréat
CV : Curriculum Vitae
Exp() : Exponentielle()
OR : Odds-Ratio
5
Université Bretagne Sud
Institut Universitaire de Technologie
Département Statistique et Informatique Décisionnelle
RAPPORT DE STAGE
6
SOMMAIRE
Introduction ..................................................................................................................... 8
3. Traitements et Analyses......................................................................................... 21
Conclusion ..................................................................................................................... 49
7
INTRODUCTION
Depuis des années, la médecine ne cesse d’évoluer avec des inventions, des techniques
et des notions nouvelles. La qualité et l’hygiène de vie se sont considérablement améliorées
entrainant une hausse significative de l’espérance de vie. En effet, au XVIIIème siècle, la
moyenne d’espérance de vie était d’environ 30 ans tandis qu’elle est de 90 ans 300 ans plus
tard. On peut l’expliquer par le développement de plusieurs sciences telles que la biologie, la
chimie ou encore la statistique.
La leucémie aiguë lymphoblastique2 est le cancer le plus fréquent chez les enfants et
représente 25 % de toutes les tumeurs3 infantiles. Au cours des dernières décennies, le
traitement de celle-ci a été amélioré augmentant significativement la survie des patients. On
estime que 80 % des enfants atteints de leucémie lymphoblastique aigüe en guérissent. Le
1
Hématologie-oncologie : spécialité médicale qui se consacre à l’étude, au diagnostic et au traitement des
maladies de la moelle osseuse, du sang et du système lymphatique
2
Leucémie aiguë lymphoblastique : cancer, touchant principalement les enfants, qui prend naissance dans les
cellules souches du sang. Les cellules de la moëlle osseuse sont très rapidement remplacées par les cellules
cancéreuses
3
Tumeur : augmentation de volume d'une partie de corps, causée par une croissance anormale des tissus. Elles
peuvent être bégnines ou malignes (cancer)
8
traitement peut prendre la forme d’une chimiothérapie4 ou d’un traitement ciblé visant à
détruire les cellules leucémiques ou les gènes et protéines responsables du cancer.
Malheureusement, le traitement est particulièrement long (2 à 3 ans) et est associé à
d'importants effets indésirables liés à l’utilisation de l’asparagine, une substance
incontournable au traitement de la leucémie. Il s'agit d'une enzyme nécessaire à toutes les
cellules cancéreuses qui catalyse l'hydrolyse de l'acide aminé5 asparagine en acide aspartique6
et en ammoniac. Ce traitement est sujet à d’importants effets secondaires qui peuvent
contribuer à la morbidité et à la mortalité précoces, à l'interruption du traitement et aux
complications à long terme. Ces dernières peuvent être bégnines comme la fatigue, les
nausées et vomissements ou encore la perte d’appétit mais peuvent être aussi plus graves
comme le développement d’allergies ou de maladies telles que la thrombose7 et la
pancréatite8.
Par ailleurs, pour un même traitement les patients ne développent pas tous ces effets
secondaires suggérant une dépendance génétique entre le traitement et ces effets
secondaires. Des études ont donc été réalisées afin d’identifier et d’associer les gènes à
risques aux différents effets secondaires.
La suite de cette étude réside dans le fait de quantifier ces liens et d’estimer la
probabilité de développer un effet indésirable donné pour un patient dont on connait sa
génétique. Cela permettrait de modifier le traitement en évitant ou en modifiant
l’asparaginase pour les patients dont le risque de développer des effets secondaires est trop
élevé. On pourra compléter l’analyse en rajoutant des facteurs non-génétiques tels que l’âge,
le sexe, etc… On débutera cette étude par la présentation et la reproduction d’analyse
identifiant les gènes à risques. Ensuite, on analysera et quantifiera le lien entre les gènes à
risques et la pancréatite. Enfin on estimera le risque individuel pour des patients quelconques
de développer une pancréatite à la suite du traitement leucémique.
4
Chimiothérapie : usage de certaines substances chimiques pour traiter une maladie
5
Acide aminé : molécules qui, associées dans un ordre précis, vont former des protéines.
6
Acide aspartique : un acide aminé
7
Thrombose : caillot de sang qui se forme dans une veine empêchant le sang de circuler correctement
8
Pancréatite : inflammation aiguë du pancréas provoquant diverses complications
9
1. CONTEXTE DU STAGE
1.1.1 Sa localisation
Le CHU Sainte-Justine est un établissement de santé dédié aux soins des enfants,
adolescents et mères au Canada fondé en 1907 par Justine Lacoste-Beaubien et Irma
Levasseur. Il est notamment le plus grand centre pédiatrique du Canada et l’un des 4 plus
grands centres en Amérique. De plus en tant que Centre Hospitalier Universitaire (CHU), il est
affilié à l’université de Montréal. L’organisme peut donc compter sur plus de 5400 employés,
près de 500 médecins et 3000 stagiaires et étudiants. Leur mission est donc de prodiguer des
soins spécialisés et adaptés à chaque patient afin qu’il trouve un équilibre physique,
psychique, social et moral. Cette mission s’organise autour d’axes majeurs tels que la
recherche fondamentale et clinique en santé de la mère et de l'enfant, l’enseignement auprès
des futurs professionnels de la santé et la promotion de la santé
10
1.1.3 Son histoire
Tout d’abord, l’Hôpital Sainte-Justine est fondé en 1907 par Justine Lacoste-Beaubien
et Irma Levasseur, deux religieuses. L’hôpital accueille alors les patients dans une maison avec
une capacité de 12 lits. Soutenu par de nombreuses femmes dévouées à la cause des soins
aux jeunes enfants, l’hôpital prend rapidement de l’ampleur et en 1908, il accueille déjà 34
lits.
Ensuite, 7 ans après sa création par les deux religieuses, en 1914, l’hôpital Sainte-
Justine va signer un premier contrat d’affiliation avec l’université Laval de Montréal et
emménager dans le premier « véritable hôpital ». Ce dernier peut maintenant accueillir 80
patients.
Le 20 octobre 1957, l’Hôpital Sainte-Justine inaugure ses nouveaux locaux qu’il occupe
encore aujourd’hui. La surface est multipliée par 5 et commence à s’imposer en tant que
leader des soins aux jeunes enfants et mère du Québec. Ce nouveau bâtiment permet une
croissance de l’activité avec des nouveaux centres spécialisés.
9
Obstétrique : spécialité chirurgicale dédiée à la surveillance du déroulement de la grossesse et de
l'accouchement
10
Dialyse : Processus artificiel d’élimination des résidus et des liquides en excès de l’organisme
11
Ensuite, l’ouverture de centres spécialisés s’est succédée avec notamment l’ouverture
du Centre de cancérologie Charles Bruneau en 1995. L’Hôpital est alors désigné comme le CHU
mère-enfant du Québec. Cela devient donc un hôpital dédié aux soins, à l’enseignement et à
la recherche.
Le centre pédiatrique se repose sur ses différents pôles d’excellence afin d’assurer la
meilleure expérience clinique aux patients. En effet, ces pôles permettent d’avoir un excellent
champ de compétence dans les domaines où les maladies et leurs impacts sont les plus grands.
L’objectif est donc de compter sur un personnel qualifié qui puisse maintenir l’excellence dans
les domaines ciblés. Le CHU Sainte-Justine a donc une expertise unique dans la génétique, la
biologie moléculaire et la pharmacologie11 clinique lui permettant d’assurer des soins pour
tous les enfants, adolescents et mères du Québec. Le centre de recherche, où se déroule le
stage, est le 1er en recherche clinique et, en génétique et maladies rares au Canada. Son
leadership est renforcé par ses projets internationaux menés d’un pays à un autre.
1.2 Le sujet
11
Pharmacologie : science qui étudie les médicaments
12
1.2.1 La leucémie lymphoblastique aigüe
1.2.2 La problématique
12
Moelle osseuse : tissu situé au centre des os produisant les différentes cellules du sang
13
Insuffisance hépatique : dégradation sévère du foie
14
Anémie : baisse anormale du taux d'hémoglobine (une protéine) dans le sang
13
effets puis on quantifiera les risques associés à chaque complication et plus particulièrement
la pancréatite.
ℎ(𝑡, 𝑋) = ℎ (𝑡) 𝑒
Avec ℎ (𝑡) une fonction de risque des sujets pour lesquels toutes les variables explicatives
sont nulles
Avec 𝛽 le vecteur des coefficients de régression à estimer
Avec X la valeur de la variable étudiée
On utilisera également des tests d’hypothèses pour vérifier la significativité des liens
entre ces facteurs et la présence d’effets secondaires. On retrouvera notamment le test du
chi2 ou le test de Wald. Par ailleurs, dans le cadre des analyses de survie (on parlera
maintenant d’analyse de risques), l’estimateur de Kaplan-Meier sera utilisé. Enfin, on aura
recours à des statistiques descriptives brèves afin de présenter et d’introduire nos résultats.
14
1.2.4 Logiciels utilisés
15
2. PRESENTATION DES DONNEES
15
Cohorte : échantillon d’individu participant à notre analyse
16
En étudiant uniquement la cohorte de découverte, on remarque qu’il y a presque
autant d’hommes que de femmes représentant respectivement 54 % et 46 %. Les enfants de
0 à 9 ans représentent 80 % de l’échantillon. Ceci est expliqué par la nature du cancer, la
leucémie lymphoblastique est présente essentiellement chez les enfants. On présente
également diverses caractéristiques tels que le nombre de globules16 blancs ou le type de
traitement, près de 75 % des patients ont suivi les traitements les plus récents de 1995 ou de
2000 sachant que 29 personnes ont reçu l’asparaginase provenant de la bactérie Erwinia
tandis que le reste a reçu l’asparaginase provenant de la bactérie E.coli.
Tableau 2 : Distribution des effets secondaires étudiés dans les cohortes de découverte (QcALL) et de
réplication (DFCI)
16
Globule : cellule dans le sang
17
Graphique 1 : Distribution des effets secondaires étudiés dans les cohortes de découverte (QcALL) et
de réplication (DFCI)
On observe des effets secondaires plus fréquents que d’autres chez les patients. En
effet, dans la cohorte de découverte, les allergies sont identifiées chez 48 patients parmi les
302 tandis que seulement 10 et 15 patients ont respectivement contracté une thrombose et
une pancréatite.
18
2.2.2 Variables génétiques
Légende
Allèles A
Allèles B
Gène
Paire de chromosomes
17
Gènes à risque : gènes associés significativement à l’un des médicament compris dans le traitement de la
leucémie
18
Polymorphisme génétique : forme différente que peut prendre un même gène
19
Allèle majeur : allèle très fréquent (plus de 95 % des cas)
20
Allèle mineur : allèle peu fréquent (moins de 5 % des cas)
19
recensant le nombre de gènes à risque que possède le patient. Toutes ces variables sont
présentées en détail dans le dictionnaire des variables (Annexe II : Dictionnaire des variables)
20
3. TRAITEMENTS ET ANALYSES
21
Génome : ensemble de l'information génétique d'un organisme
22
Génotypage : processus déterminant l'existence de variations génétiques, sur une partie ou la totalité du
génome
21
3.1.1 Allergie
On identifie les gènes associés significativement avec l’apparition des allergies grâce à
des régressions logistiques où l’on va comparer les différents allèles du gène. On commence
par le gène SLC7A13. On effectue une première approche en analysant la distribution de la
présence d’allergies en fonction du génotype du gène SLC7A13 ci-dessous :
22
H0 : l’homozygote23 de génotype GG n’a pas d’impact sur la présence d’allergies
B0 = 0
H1 : l’homozygote de génotype GG a un impact sur la présence d’allergies B0 ≠ 0
On regarde la p-value associée au test de Wald ; elle est égale à 0,019 < 0,05 donc on
rejette H0, le test est significatif. On considère donc que le génotype GG dans le gène SLC7A13
joue un rôle dans la présence d’allergies.
De plus l’odds-ratio nous permet de confirmer que la présence du génotype GG multiplie le
risque de contracter des allergies de 8,8 fois par rapport à une personne étant homozygote
AA. Attention tout de même à l’IC à 95% qui est assez large et donc augmente l’incertitude sur
notre OR (odds-ratio). On réalise cette même analyse mais pour comparer le génotype AG et
AA, on effectue donc une deuxième régression dont les résultats sont présentés ci-dessous :
On remarque que l’OR est d’environ 1,6, les individus possédant le génotype AC ont
donc presque 2 fois plus de risques de contracter des allergies. Cependant cette différence
n’est pas significative puisque la p-value est supérieure à 0,05. On essaie maintenant de
trouver un meilleur modèle en comparant les deux génotypes avec allèle(s) mineur(s) avec les
homozygotes pour l’allèle majeur :
23
Homozygote : deux gènes identiques sur chaque chromosome de la même paire
23
Tableau 5 : Comparaison des génotypes AG et GG par rapport au génotype AA dans le gène SLC7A13
On obtient donc un modèle additif significatif avec environ 2 fois plus de risques de
développer des allergies pour les individus porteurs d’au moins un allèle mineur. On peut donc
conclure que le gène SCL7A13 est un gène à risque puisqu’un génotype différent peut favoriser
la contraction d’allergies.
On poursuit ces analyses et on obtient deux autres gènes significativement associés aux
allergies. En effet les gènes MYBBP1A et YTHDC2 favorisent l’apparition d’allergies avec
respectivement 2,4 (p-value : 6x10-4) et 3,1 (p-value : 0,008) fois plus de risques, pour un
individu possédant un génotype avec au moins un allèle mineur, de développer des allergies.
On a donc identifié 3 gènes à risque de provoquer des allergies, à savoir les gènes
SLC7A13, MYBBP1A et YTHDC2.
3.1.2 Thrombose
24
Graphique 3 : Contraction de thrombose ou non selon le génotype du gène PKD2L1
On observe qu’il y a 10 individus qui ont développé une thrombose avec un peu moins
d’un tiers d’entre eux qui possèdent le génotype CA ou AA (A, allèle mineur). De plus
seulement 1 individu possède le génotype AA et 24 patients possèdent le génotype CA. Ces
derniers représentent donc 9% de l’échantillon alors qu’ils représentent 20% des cas de
thrombose. De même pour le seul individu, il représente 10% des cas. Cependant ce résultat
est à nuancer puisqu’avec seulement 1 individu, il est impossible de tirer des conclusions et
de généraliser le résultat. On va donc effectuer les régressions logistiques afin de confirmer
ces premières impressions. Les hypothèses de test suivent toujours le même principe :
24
Hétérozygote : deux gènes différents sur chaque chromosome de la même paire
25
Tableau 6 : Comparaison du génotype CA par rapport au génotype CC dans le gène PKD2L1
Tableau 7 : Comparaison des génotypes CA et AA par rapport au génotype CC dans le gène PKD2L1
La p-value du test de Wald est inférieure à 5 % donc le test est significatif, les génotypes
CA et AA sont donc fortement associés avec l’apparition d’une thrombose avec notamment 5
fois plus de risques que les individus possédant le génotype CC. On ne réalise pas l’analyse du
génotype AA par rapport au génotype CC car aucun individu avec ce premier génotype n’a
développer de thrombose donc la régression n’est pas possible.
En continuant ces tests d’hypothèses, cinq autres gènes à risque concernant la thrombose ont
été identifiés : RIN3, SPEF2, SLC39A12, MPEG1 et IL16. En effet les porteurs d’allèles mineurs
ont un risque nettement plus élevé que les non-porteurs. On a notamment un risque 13,7 fois
plus élevé dans RIN3 et 7,4 fois plus élevé dans IL16. On retrouve toutes ces analyses dans le
récapitulatif des gènes à risques en annexe.
26
3.1.3 Pancréatite
H0 : l’hétérozygote de génotype GC (C, allèle mineur) n’a pas d’impact sur la présence de
pancréatite B0 = 0
27
Tableau 8 : Comparaison des allèles GC par rapport aux allèles GG dans le gène MYBBP1A
On observe une p-value associée au test de Wald nettement inférieure à 0,05, soit un
test significatif. On peut donc considérer que l’hétérozygote de génotype GC a un impact
majeur sur la présence de pancréatite. Ceci est confirmé par l’OR d’environ 8 équivalent à un
risque 8 fois plus important concernant les patients porteurs de l’hétérozygote. On compare
ensuite les patients porteurs d’allèle(s) mineur(s) avec les non-porteurs :
Tableau 9 : Comparaison des génotypes GC et CC par rapport au génotype GG dans le gène MYBBP1A
Les résultats sont sensiblement semblables avec un test significatif qui indique un lien
entre la maladie et les allèles mineurs présents chez l’individu. Pour vérifier ce lien, on peut
également réaliser un test de CHI2 ou utiliser le test de Fisher exact puisque l’on compare
deux variables avec 2 modalités. On vérifie auparavant que les variables sont bien
indépendantes et qu’au moins 80 % des effectifs théoriques sont supérieurs à 5 ainsi que
toutes les modalités comprennent plus d’un individu.
28
On peut faire les mêmes remarques concernant les effectifs que le graphique
précédent. Bien que les génotypes GC et CC ne représentent environ que 40 % des individus,
80 % des individus atteints de pancréatite possèdent les génotypes GC ou CC. On retrouve la
première impression du graphique nous guidant vers une relation forte entre le gène et la
présence de la maladie. On confirme cela avec le test de Fisher ci-dessous :
Les conditions d’application du test de Fisher exact sont respectées donc nous pouvons
l’utiliser. On obtient une p-value de 0,002 donc le test est significatif. Il y a une relation forte
entre le gène MYBB1A et la présence de la pancréatite.
Les différents gènes associés à la pancréatite sont résumés dans le Annexe III :
Récapitulatif des gènes à risque.
Cette identification de gènes à risque nous a permis d’associer chaque gène à une
toxicité. On va donc étudier s’ils peuvent être associés à d’autre toxicités comme la
pancréatite, la toxicité que l’on va analyser par la suite. On présente les résultats ci-dessous :
29
rs11556218_IL16_T6 vs Pancréatite rs34708521_SPEF2_T3 vs Pancréatite
On présente le lien de rs1156218 dans le gène IL16 et rs34708521 dans le gène SPEF2
avec la pancréatite. Les porteurs d’allèles mineurs dans le gène IL16 ont environ 3 fois plus de
risques de développer une thrombose que les autres patients (p-value = 0,01). Par ailleurs, on
retrouve un autre gène corrélé positivement avec la pancréatite, SPEF2, qui présente un
risque de développer une pancréatite 4 fois plus élevé pour les porteurs d’allèle(s) mineur(s).
30
Allergies Thrombose
IC (95 %) IC (95 %)
Nombre de gènes à risque P-value Nombre de gènes à risque P-value
OR - + OR - +
0 vs 1 1,7 0,8 3,5 0,25 0 vs 1 3,3 3,3 32,5 0,35
-5 -3
0 vs >= 2 6,5 2,7 15,6 1x10 0 vs >= 2 14,6 1,7 124,7 4x10
-5 -3
0 vs >=1 2,5 1,6 3,9 4x10 0 vs >=1 4 1,5 10,6 2x10
Pancréatite
IC (95 %)
Nombre de gènes à risque P-value
OR - +
0 vs 1 4,1 0,5 73,6 0,2
0 vs >= 2 27,9 3,5 224,3 3x10-3
-6
0 vs >=1 5,9 2,4 14,4 7x10
31
3.2 Risques de développer une pancréatite
L’étude des gènes à risques va maintenant se limiter à ceux liés à la pancréatite. Grâce
aux analyses précédentes, on a associé 5 gènes à la pancréatite : MYBBP1A, SPECC1,
ADAMTS13 et, IL16 et SPEF2 qui ont été identifiés par des associations complémentaires. Nous
allons donc, à partir de tous ces gènes, estimer le risque individuel de patients quelconques
de contracter une pancréatite. Nous allons développer un modèle de prédiction avec ces
gènes. Procédons tout d’abord à l’analyse des risques de développer la pancréatite selon le
génotype des 5 gènes. On rappelle que les temps de survie ont été simulés pour un soucis de
données manquantes.
On présentera en détail seulement 2 gènes, IL16 et MYBBP1A pour éviter tout soucis
de redondance. Les sorties logiciels des autres gènes seront mis en annexe (Sorties logicielles
des modèles de Cox). Les modèles présentés dans cette partie sont tous des modèles
univariés.
3.2.1.1 IL16
32
Graphique 7 : Risque associé à la pancréatite selon le génotype du gène IL16
De manière générale, on remarque que les génotypes TG et GG (G, allèle mineur) dans
le gène IL16 sont vraisemblablement associés à la pancréatite chez les patients. En effet, le
risque associé au gène avec le génotype TT est inférieur à celui du gène avec les génotypes TG
ou GG. Par exemple, le risque à 60 jours pour les patients porteurs de l’homozygote de
génotype TT est de 2% alors qu’il est environ de 8% chez les patients avec les génotypes TG
ou GG. De même au bout de 100 jours, le risque associé aux patients avec le génotype TT est
de 4 % alors qu’il est de 11 % chez les patients porteurs d’allèles mineurs. On confirme cette
légère différence avec le test du log rank :
Tableau 13 : Test du log rank comparant la survie entre les homozygotes de génotype TT et les
porteurs d’allèles mineurs TG et GG
33
P-value = 0,068 > 5% donc on ne rejette pas H0, le test n’est pas significatif.
Les fonctions de survie sont donc globalement les mêmes, cela veut dire que l’allèle récessif
n’a pas d’impact significatif sur la présence de la pancréatite. On peut tout de même nuancer
par la proximité de la p-value du seuil de 5%. Il existe donc une différence bien réelle entre les
deux fonctions de survie bien que celle-ci ne soit pas significative.
On propose maintenant un modèle de Cox afin d’obtenir les risques relatifs et ainsi
quantifier le lien entre les différents gènes à risques et la survie dans le temps. On obtient le
modèle suivant :
ℎ(𝑡, 𝑋) = ℎ (𝑡) 𝑒
Cependant, le modèle de Cox subit une hypothèse forte, l’hypothèse des risques
proportionnels. Cette dernière doit être vérifiée avant d’utiliser le modèle de Cox. On réalise
donc le test d’hypothèse et le graphique nécessaire à cette vérification :
On analyse le graphique en premier lieu qui modélise les résidus martingales du gène
IL16 en fonction du temps. Ces résidus représentent l’erreur cumulée entre le modèle et les
données. Un grand nombre de trajectoire est simulée et on peut vérifier la cohérence de notre
trajectoire avec celles simulées. On remarque que notre courbe suit la tendance des courbes
simulées donc il n’y a pas d’erreur manifeste de cohérence. On confirme cela par le test
d’hypothèses où la p-value est égale à 0,58. Le test n’est donc pas significatif, l’hypothèse des
risques proportionnels est vérifiée. On peut utiliser le modèle de Cox. On prend comme
34
modalité de référence la modalité codée 0 correspondant génotype TT. On obtient le tableau
suivant :
Tableau 15 : Comparaison des génotypes TG et GG par rapport au génotype TT dans le gène IL16
On remarque que le coefficient B est positif donc la probabilité de survivre (ne pas
développer la pancréatite) jusqu’au temps t est plus faible lorsque le patient possède les
génotypes TG ou GG. Avec le risque relatif exp(B), on peut conclure que le risque de contracter
une pancréatite est 2,8 fois plus important chez un patient ayant les génotypes TG ou GG que
chez un patient ayant le génotype TT.
Par ailleurs, la p-value du test d’hypothèse ayant pour hypothèse nulle H0 : B1 = 0, est > 5 %
donc le test n’est pas significatif. On retrouve les mêmes résultats qu’auparavant avec deux
groupes de patients qui présentent une différence de survie selon leurs génotypes mais celle-
ci n’est pas significative.
3.2.1.2 MYBBP1A
35
Graphique 9 : Risque associé à la pancréatite selon le génotype du gène MYBBP1A
L’allure générale de la courbe montre une différente nette de risques surtout à partir
du 60ème jour. En effet, 60 jours après le début du traitement, on remarque que 5 % des
individus porteurs d’au moins un allèle mineur ont déjà contracté une pancréatite tandis que
seulement 2 % des homozygotes porteurs d’allèles majeurs dans le gène MYBBP1A l’ont
développé. On effectue ce même constat au bout de 100 jours ; plus de 10 % des patients
ayant les génotypes GC ou CC (C, allèle mineur) sont malades alors que les patients ayant le
génotype GG ne sont toujours que 2 % à être malade. On va essayer de confirmer cette
impression graphique par le test du log rank :
Tableau 16 : Test du log rank comparant la survie entre les porteurs de l’homozygote de génotype GG
et les porteurs d’allèles mineurs GC et CC
36
On observe une P-value inférieure à 0,001 donc inférieure au seuil de 5 % donc on peut
rejeter H0, le test est significatif. Les fonctions de survie sont donc significativement
différentes, cela confirme notre première impression par rapport au graphique.
On propose maintenant un modèle de Cox afin d’obtenir les risques relatifs et ainsi
quantifier le lien entre le génotype du gène à risques MYBBP1A et la survie dans le temps. On
obtient le modèle suivant :
ℎ(𝑡, 𝑋) = ℎ (𝑡) 𝑒
37
Tableau 18 : Comparaison des génotypes GC et CC par rapport au génotype GG dans le gène
MYBBP1A
On compare toujours les individus porteurs de l’homozygote d’allèles majeurs avec les
individus porteurs d’au moins un allèle mineur. Le coefficient B est largement positif donc la
probabilité de ne pas tomber malade jusqu’au temps t (temps quelconque) est plus faible
lorsque les individus présentent au moins un allèle mineur. En effet, ceci est confirmé par le
risque instantané égal à 6,5 équivalent à un risque 6,5 fois plus élevé pour les individus
porteurs d’allèles mineurs que pour les autres de développer une pancréatite.
De même lorsque l’on observe la p-value associée au test de Wald, on remarque que le test
est significatif donc il existe un lien évident entre le génotype du gène MYBBP1A et la présence
de la maladie.
38
Tableau 19 : Test des risques
proportionnels sur le modèle complet
On remarque que le gène le plus significatif est MYBBP1A donc c’est celui qui joue le
rôle le plus important dans le développement de la pancréatite parmi les 5 gènes à risque.
Cependant d’autres gènes tels que SPEF2 et IL16 ne sont pas significatifs. Ce dernier a même
un coefficient de régression de signe négatif. On peut supposer une corrélation forte avec
d’autres gènes du modèle. On conserve tout de même ces 5 gènes puisqu’ils ont été définis
auparavant comme des gènes à risques bien que statistiquement cela ne fait pas de sens. On
présente ensuite les différentes moyennes des variables présentes dans notre modèle :
39
Tableau 21 : Moyenne des différentes variables incluses dans le modèle
Les moyennes sont toutes comprises entre 0 et 1 puisqu’on étudie des variables
catégorielles binaires. On peut interpréter ces moyennes par le pourcentage d’individus qui
sont porteurs d’allèles mineurs. Par exemple, 38 % des individus sont porteurs d’allèles
mineurs du gène MYBBP1A. Ces données nous seront utiles afin d’appliquer la formule
d’estimation de risque de développer une pancréatite. Dans ce même objectif, on présente la
fonction de risque associé à la pancréatite lorsque toutes les variables sont égales à leur
moyenne :
40
sélectionne un patient au hasard puis on applique les formules. Les caractéristiques
génétiques du patient sont présentées ci-dessous :
On remarque que sur les 5 gènes à risque, il possède 4 variants avec un allèle mineur
donc on peut déjà prévoir un fort risque de développer la pancréatite. On automatise le calcul
sur Excel et on obtient le tableau ci-dessous :
∑ ∑
Le risque est obtenu par le calcul suivant : 1 − [𝑆 (𝑡)]
Avec 𝑆 (𝑡) La survie au bout de 100 jours à la moyenne de toutes les variables
41
3.2.2.2 Réalisation d’un nomogramme
42
On détermine le gène avec le plus d’effet sur l’apparition de pancréatite. On vérifie les
p-values et on découvre que le gène MYBBP1A est le plus significatif. Un patient porteur
d’allèle(s) mineur(s) de ce gène se verra donc attribué 100 points alors qu’un patient avec
deux allèles majeurs n’aura pas de points. Afin de déterminer le poids des autres variables
dans le nomogramme, on effectue le rapport de leur coefficient Béta par le coefficient Béta
de la variable MYBBP1A_dom_surv multiplié par 100. On obtient donc l’échelle de points
suivante pour les individus porteurs d’allèles mineurs :
43
Graphique 13 : Nomogramme prédisant les probabilités de développer une pancréatite selon le
génotype
44
cette perpendiculaire et de l’échelle de probabilité, on peut lire la probabilité associée au
risque de développer une pancréatite suite au traitement contre la leucémie.
45
On retrouve donc cette courbe Roc avec la sensibilité en fonction de l’antispécificité (1–
spécificité). Par équivalence, on exprime ici la proportion de vrais positifs chez les malades en
fonction de 1 moins la proportion de vrais négatifs chez les non malades. Concernant le
modèle complet, on a une aire sous la courbe égale à 0,849, soit des prédictions globalement
bonnes. En effet, on peut interpréter ce résultat : dans 85 % des cas, un individu malade aura
une probabilité estimée plus grande qu’un individu sain. On confirme cette cohérence par
comparaison avec le modèle avec 1 variable explicative, le gène MYBBP1A. En effet, avec une
aire sous la courbe de 0,752, le second modèle est beaucoup moins bon et valide l’efficacité
de notre premier modèle. On peut également vérifier la cohérence de notre modèle en créant
des groupes de risque à partir des probabilités estimées par la régression logistique. On définit
3 groupes d’individus, les individus ayant une probabilité inférieure à 10 % de développer une
pancréatite représentant un faible risque, les individus ayant une probabilité comprise entre
10 % et 40 %, puis les individus ayant une probabilité supérieure à 40 %, soit un risque élevé.
On analyse ensuite le risque à l’aide de l’estimateur de Kaplan-Meier et on obtient ce
graphique :
46
probabilité estimée de plus de 0,4 donc cela semble cohérent. De même pour les individus
ayant un risque modéré et faible, on retrouve respectivement 20 % et 2 % des individus ayant
contracté une pancréatite. On peut donc conclure que notre modèle est cohérent et fiable
avec des probabilités estimées correspondantes au risque associé.
47
3.3 Difficultés rencontrées
48
CONCLUSION
Lors de ce stage, j’ai mis en application mes connaissances acquises pendant mes deux
ans de formation STID. En effet, j’ai notamment utilisé des logiciels statistiques tels que SPSS,
un logiciel que je découvrais, avec lesquels des régressions logistiques, des analyses de survie
ou encore des test d’hypothèses ont été réalisés. J’ai également modifié une base de données
avec la création, modification de certaines variables sollicitant mes capacités de traitement de
base de données.
J’ai pu mener à bien une étude statistique grâce aux analyses réalisées sur SPSS, mais
aussi grâce à d’autres logiciels tels que Rstudio me permettant de vérifier des hypothèses
statistiques ou encore Excel pour l’automatisation de calculs et la mise en forme de tableaux.
La réalisation de rapports et de comptes-rendus s’est faite, quant-à-elle sur Word.
Dans le futur, cette analyse pourra être généralisée aux autres effets secondaires avec
l’estimation de la probabilité de développer une thrombose ou une allergie. On pourra
également réaliser une analyse conjointe des trois effets secondaires où l’on estimerait la
probabilité de développer un des trois effets secondaires. On pourra également ajouter les
facteurs non-génétiques dans le modèle tels que l’âge, le sexe, le type de traitement etc…
Enfin ces résultats pourront être vérifiés et confirmés par la même analyse sur la cohorte de
validation.
Ce projet a été très inspirant et constitue une grande source de motivation pour le
futur. En effet les enjeux de ce stage étaient de savoir si notre projet professionnel allait être
49
renforcé ou fragilisé. Je peux affirmer que ce stage l’a renforcé tant j’ai aimé réaliser celui-ci.
Le sujet du cancer et plus particulièrement celui de la leucémie est une problématique grave
qui nécessite de longues années de recherche afin de développer un traitement fiable à 100
%. Cela a donc été un plaisir de pouvoir apporter mes connaissances statistiques à ce sujet en
espérant avoir été utile. De plus ce stage m’a permis de gagner en maturité et en autonomie
car les échanges avec Madame Krajinovic ne se faisaient qu’à distance. D’un point de vue
statistique, j’ai pu acquérir et renforcer mes connaissances notamment en modèles de
prédiction et en analyses de survie grâce aux conseils de Madame Krajinovic. La mission était
parfaitement adaptée à des étudiants en 2ème année de DUT, ce qui l’a rendu d’autant plus
agréable.
Enfin cet expérience à l’étranger m’a permis de découvrir une nouvelle culture, un
nouveau mode de vie et d’exercer mon anglais dans la vie quotidienne. Je tenais une nouvelle
fois à remercier l’ensemble de l’équipe de recherche et en particulier Madame Krajinovic pour
sa confiance, sa bienveillance ainsi que pour m’avoir donné l’opportunité de de vivre cette
magnifique expérience.
50
LEXIQUE
Leucémie aiguë lymphoblastique (P.8) : cancer, touchant principalement les enfants, qui
prend naissance dans les cellules souches du sang. Les cellules de la moëlle osseuse sont très
rapidement remplacées par les cellules cancéreuses
Tumeur (P.8) : augmentation de volume d'une partie de corps, causée par une croissance
anormale des tissus. Elles peuvent être bégnines ou malignes (cancer)
Chimiothérapie (P.9) : usage de certaines substances chimiques pour traiter une maladie
Acide aminé (P.9) : molécules qui, associées dans un ordre précis, vont former des protéines.
Thrombose (P.9) : caillot de sang qui se forme dans une veine empêchant le sang de circuler
correctement
Dialyse (P.11) : Processus d’élimination des résidus, des liquides en excès de l’organisme
Moelle osseuse (P.13) : tissu situé au centre des os produisant les différentes cellules du sang
Anémie (P.13) : baisse anormale du taux d'hémoglobine (une protéine) dans le sang
Gènes à risque (P.19) : gènes associés significativement à l’un des médicament compris dans
le traitement de la leucémie
Polymorphisme génétique (P.19) : forme différente que peut prendre un même gène
51
Génotypage (P.21) : processus déterminant l'existence de variations génétiques, sur une
partie ou la totalité du génome
Homozygote (P.23) : deux gènes (ou allèles d’un polymorphisme) identiques sur chaque
chromosome de la même paire
Hétérozygote (P.25) : deux gènes différents sur chaque chromosome de la même paire
52
REFERENCES
1. Rachid Abaji, Vincent Gagné, Chang Jiang Xu, Jean-François Spinella, Francesco Ceppi,
Caroline Laverdière, Jean-Marie Leclerc, Stephen E. Sallan, Donna Neuberg, Jeffery L.
Kutok, Lewis B. Silverman, Daniel Sinnett and Maja Krajinovic Whole-exome
sequencing identified genetic risk factors for asparaginase-related complications in
childhood ALL patients. Research paper, Oncotarget, 2017, Vol. 8, (No. 27), pp: 43752-
43767
2. Jia X, Baig MM, Mirza F, Gholam Hosseini H. A Cox-Based Risk Prediction Model for
Early Detection of Cardiovascular Disease: Identification of Key Risk Factors for the
Development of a 10-Year CVD Risk Prediction. Adv Prev Med. 2019 Apr
9;2019:8392348.
3. Iasonos A, Schrag D, Raj GV, Panageas KS. How to build and interpret a nomogram
for cancer prognosis. J Clin Oncol. 2008;26(8):1364-70.
4. Visscher H, Ross CJ, Rassekh SR, Barhdadi A, Dubé MP, Al-Saloos H, et al,
Pharmacogenomic prediction of anthracycline-induced cardiotoxicity in children. J
Clin Oncol. 2012 May 1;30(13):1422-8.
53
TABLE DES ANNEXES
54
TABLE DES FIGURES
55
TABLE DES GRAPHIQUES
Graphique 5 : Association des gènes associés à deux toxicités dont la pancréatite .... 30
56
TABLE DES TABLEAUX
Tableau 2 : Distribution des effets secondaires étudiés dans les cohortes de découverte
(QcALL) et de réplication (DFCI) ............................................................................................... 17
Tableau 8 : Comparaison des allèles GC par rapport aux allèles GG dans le gène
MYBBP1A .................................................................................................................................. 28
Tableau 13 : Test du log rank comparant la survie entre les homozygotes de génotype
TT et les porteurs d’allèles mineurs TG et GG.......................................................................... 33
57
Tableau 16 : Test du log rank comparant la survie entre les porteurs de l’homozygote
de génotype GG et les porteurs d’allèles mineurs GC et CC .................................................... 36
Tableau 22 : Exemple du génotype des 5 gènes à risque d’un patient quelconque .... 41
58
ANNEXES
Annexe I : Frise chronologique relatant les principales dates de développement du CHU Sainte-Justine
59
60
Nom Type Libellé Valeur
id Qualitative Identifiant
Cohort Qualitative Cohorte 1 (QcAll) / 2 (DFCI)
1 (Protocole 1(2000)) / 2 (Protocole 2(1995)) /
prot_1 Qualitative Protocole
3 (Protocole 3(1991)) / 4 (Protocole 4(1987))
recsex Qualitative Sexe recodé 0 (Femme) / 1 (Homme)
Age_rec_10etPlus Qualitative Age recodé en classe 1 (0 à 9 ans) / 2 (10 ans et plus)
recrisk2 Qualitative Risque défini par le protocole 0 (standard risk) / 1 (high and ver high)
Complication Complication
Toxicity Gene_SNP OR (95%-CI) P Model OR (95%-CI) P
+ - + -
SLC7A13_rs9656982: A > G*
37 217
AA 1 1
(77,1 %) (87,2 %)
8 30 1,6 2,1
AG 0,3 0,02
(16,7 %) (12,1 %) (0,7-3,7) (1,1-3,9)
3 2 8,8
GG 0,03
(6,3 %) (0,8 %) (1,4-54,5)
MYBBP1A_rs3809849: G > C*
20 160
GG 1 1
(41,7 %) (65 %)
Allergie 23 79 2,3 2,4 -4
GC 0,01 6x10
(47,9 %) (32,1 %) (1,2-4,5) (1,4-3,9)
5 7 5,7
CC 0,01
(10,4 %) (2,9 %) (1,7-19,7)
YTHDC2_rs75714066: G > C
37 232 37 232
GG 1 1 GG 1 -
(77,1 %) (91,3 %) (77,1 %) (91,3 %)
11 21 3,3
GC 0,005
(22,9 %) (8,3 %) (1,5-7,4) 11 22 3,1
GC+CC 0,008
0 1 (22,9 %) (8,7 %) (1,4-7,0)
CC NA -
(0 %) (0,4 %)
ADAMTS17_rs72755233: G > A
7 232 7 232
GG 1 1 GG 1 -
(46,7 %) (83,2 %) (46,7%) (83,1 %)
8 45 5,9
GA 0,002
(53,3 %) (16,1 %) (2-17,1) 8 47 5,6
GA+AA 0,002
0 2 (53,3 %) (16,9 %) (1,9-16,3)
AA NA -
(0%) (0,7 %)
MYBBP1A_rs3809849: G > C
3 177 3 177
GG 1 1 GG 1 -
(20 %) (63,4 %) (20 %) (63,4 %)
Pancréatite 12 90 7,9
GC 0,0005
(80 %) (32,3 %) (2,2-28,6) 12 102 6,9
GC+CC 0,002
0 12 (80 %) (36,6 %) (1,9-25,2)
CC NA -
(0 %) (4,3 %)
SPECC1_rs9908032: C > G*
8 228
CC 1 1
(53,3 %) (80,6 %)
5 53 2,7 3,9 -4
CG 0,1 8x10
(33,3 %) (18,7 %) (0,8-8,5) (1,6-9,2)
2 2 28,5
GG 0,009
(13,3 %) (0,7 %) (3,6-228,8)
61
(13,3 %) (0,7 %) (3,6-228,8)
PKD2L1_rs6584356: C > A
7 257 7 257
CC 1 1 CC 1 -
(70 %) (92,1 %) (70 %) (92,1 %)
2 22 3,3
CA 0,2
(20 %) (7,9 %) 0,7-17) 3 22 5
CA+AA 0,05
1 0 (30 %) (7,9 %) (1,2-20,7)
AA NA -
(10 %) (0 %)
RIN3_rs3742717: C > T
6 219
CC 1 1
(60 %) (77,7 %) 8 277
CC+TT
2 58 1,3 (80 %) (98,2 %) 13,8
CT 1 0,02
(20 %) (20,6 %) (0,2-6,4) (2,3-82,5)
2 5 14,6 2 5
TT 0,02 TT
(20 %) (1,8 %) (2,3-91) (20 %) (1,8 %)
SPEF2_rs34708521: G > A
5 242 5 242
GG 1 1 GG 1 -
(62,5 %) (91 %) (62,5 %) (91 %)
3 23 6,3
GA 0,03
(37,5 %) (8,7 %) (1,4-28,1) 3 24 6,1
GA+AA 0,03
0 1 (37,5 %) (9 %) (1,4-26,9)
AA NA -
(0 %) (0,4 %)
Thrombose
SLC39A12_rs62619938: C > T*
6 262
CC 1 1
(60 %) (91 %)
3 23 5,7 4,4 -4
CT 0,04 5x10
(30 %) (8 %) (1,3-24,3) (1,6-11,7)
1 3 14,6
TT 0,1
(10 %) (1 %) (1,3-161)
MPEG1_rs7926933: G > A
4 234 4 234
GG 1 1 GG 1 -
(44,4 %) (82,1 %) (44,4 %) (82,1 %)
5 45 6,5
GA 0,009
(55,6 %) (15,8 %) (1,7-25,1) 5 51 5,7
GA+AA 0,01
0 6 (55,6 %) (17,9 %) (1,5-22,1)
AA NA -
(0 %) (2,1 %)
IL16_rs11556218: T > G
4 238 4 238
TT 1 1 TT 1 -
(50 %) (88,2 %) (50 %) (88,1 %)
4 30 7,9
TG 0,009
(50 %) (11,1 %) (1,9-33,4) 4 32 7,4
TG+GG 0,01
0 2 (50 %) (11,9 %) (1,8-31,2)
GG NA -
(0 %) (0,7 %)
62
Sorties logicielles des modèles de Cox
63
Annexe V : Sorties logicielles du modèle de Cox comprenant le gène SPEF2
64
Annexe VI : Sorties logicielles du modèle de Cox comprenant le gène ADAMTS17
65
Diagramme de Gantt
66
TABLE DES MATIERES
Remerciements................................................................................................................ 4
Sommaire ........................................................................................................................ 7
Introduction ..................................................................................................................... 8
1.2.2 La problématique....................................................................................... 13
3. Traitements et Analyses......................................................................................... 21
67
3.1 Identification des gènes a risque .................................................................... 21
3.1.3 Pancréatite................................................................................................. 27
Conclusion ..................................................................................................................... 49
Lexique........................................................................................................................... 51
Références ..................................................................................................................... 53
Annexes ......................................................................................................................... 59
68
Resume .......................................................................................................................... 70
69
RESUME
Mon stage de fin de DUT s’est déroulé au CHU Sainte-Justine à Montréal, au Canada
du 04 avril 2022 au 10 juin 2022. J’ai intégré le centre de recherche et plus particulièrement
l’équipe de recherche de Madame Krajinovic afin de réaliser une étude statistique.
Les modèles de prédiction ont été réalisés à partir de la génétique des patients, selon
les gènes associés préalablement à la pancréatite. On retrouve deux modèles de prédiction,
l’un réalisé par une régression logistique, et l’autre, par une régression de Cox. La qualité
du modèle de régression logistique a été évaluée et semble être bonne.
Grâce aux logiciels statistiques tels que Rstudio, SPSS ou Excel, on peut désormais
estimer pour chaque patient, la probabilité de développer une pancréatite suite au
traitement de la leucémie. Le traitement pourra alors être modifié si la patient présente un
risque trop élevé
The prediction models were made from the genetics of the patients, according to the
genes previously associated with pancreatitis. There are two prediction models, one carried
out by a logistic regression, and the other, by a Cox regression. The quality of the logistic
regression model was assessed and appears to be good.
70