Vannes - 2-Monjaret Pierre - Rapport2022

CHU SAINTE-JUSTINE
RAPPORT DE STAGE
STAGIAIRE DE RECHERCHE
Pierre Monjaret
10/06/2022
Université Bretagne Sud
Institut Universitaire de Technologie
Département Statistique et Informatique Décisionnelle
RAPPORT DE STAGE
AVRIL 2022 - JUIN 2022
« DEVELOPPEMENT DE MODELES DE PREDICTION AFIN D’ESTIMER

LA PROBABILITE DE DEVELOPPER UNE TOXICITE CONSEQUENTE AU
TRAITEMENT DE LA LEUCEMIE »
Tutrice de stage : Maja Krajinovic
Enseignante tutrice : Alison Leonard

3
REMERCIEMENTS
Tout d’abord, je remercie ma directrice de recherche et tutrice de stage Madame Maja

Krajinovic qui m’a accordé sa confiance durant tout le processus de ma candidature au CHU
Sainte-Justine et qui m’a accompagné et partagé son expertise lors de mon stage. Je tiens
aussi à remercier chaleureusement l’ensemble du personnel du laboratoire de Madame
Krajinovic qui ont fait preuve d’une bienveillance certaine à mon égard, et notamment
Monsieur Vincent Gagne qui m’a accueilli dans le laboratoire en l’absence de Madame Maja
Krajinovic. Je remercie donc toutes ces personnes d’avoir contribuer à enrichir mon parcours
professionnel.
Mes remerciements sont également adressés au CHU Sainte-Justine qui m’a reçu au
sein de son établissement de santé et notamment au personnel des ressources humaines qui
a fait tout son possible pour faciliter mon accès au CHU en période de pandémie.
Enfin je remercie Alison Leonard, mon enseignante tutrice de m’avoir accordée sa

confiance, surtout pour tuteurer un stage à l’étranger ; je la remercie également pour son suivi
exemplaire de mon stage et des potentielles difficultés liées au stage à l’étranger.
A toutes ces personnes, je souhaite leur exprimer ma gratitude pour m’avoir permis de
réaliser un stage à l’étranger dans les meilleures dispositions durant ces 10 semaines.
4
LISTE DES SIGLES ET ABREVIATIONS
On donne ci-dessous une liste présentant les différents sigles et abréviations utilisés
dans ce rapport :
ADN : Acide Désoxyribonucléique
BAC : Baccalauréat
CHU : Centre Hospitalier Universitaire
CHUSJ : Centre Hospitalier Universitaire Sainte-Justine
CV : Curriculum Vitae
DFCI : Dana-Farber Cancer Institute
DSC : Département de Santé Communautaire
DUT : Diplôme Universitaire de Technologie
Exp() : Exponentielle()
IUT : Institut Universitaire de Technologie
QcALL : Québec Acute Lymphoblastic Leukemia
SPSS : Statistical Package for the Social Sciences
STID : Statistique et Informatique Décisionnelle
OR : Odds-Ratio
5
Université Bretagne Sud
Institut Universitaire de Technologie
Département Statistique et Informatique Décisionnelle
RAPPORT DE STAGE
« DEVELOPPEMENT DE MODELES DE PREDICTION AFIN D’ESTIMER

LA PROBABILITE DE DEVELOPPER UNE TOXICITE CONSEQUENTE AU
TRAITEMENT DE LA LEUCEMIE »
6
SOMMAIRE
Introduction ..................................................................................................................... 8
1. Contexte du stage .................................................................................................. 10
1.1 Le CHU Sainte-Justine, en bref ....................................................................... 10
1.2 Le sujet ............................................................................................................ 12
2. Présentation des données ..................................................................................... 16
2.1 Présentation de l’échantillon étudiée ............................................................ 16
2.2 Présentation des variables étudiées............................................................... 18
2.3 Transformation et création de variables. ....................................................... 20
3. Traitements et Analyses......................................................................................... 21
3.1 Identification des gènes a risque .................................................................... 21
3.2 Risques de développer une pancréatite ......................................................... 32
3.3 Difficultés rencontrées ................................................................................... 48
Conclusion ..................................................................................................................... 49
7
INTRODUCTION
Depuis des années, la médecine ne cesse d’évoluer avec des inventions, des techniques
et des notions nouvelles. La qualité et l’hygiène de vie se sont considérablement améliorées
entrainant une hausse significative de l’espérance de vie. En effet, au XVIIIème siècle, la
moyenne d’espérance de vie était d’environ 30 ans tandis qu’elle est de 90 ans 300 ans plus
tard. On peut l’expliquer par le développement de plusieurs sciences telles que la biologie, la
chimie ou encore la statistique.
Ma formation en Statistique et Informatique Décisionnelle (STID) me permet justement

d’effectuer un stage de fin d’étude de 10 semaines, du 4 avril au 10 juin 2022, afin de mettre
en pratique les connaissances acquises au cours des deux années de mon Diplôme
Universitaire de Technologie (DUT). J’ai donc pu réaliser mon stage au CHU Sainte-Justine à
Montréal, au Canada, dans le centre de recherche au service hématologie-oncologie1. Ces
connaissances appliquées au domaine de la santé vont me donner une première approche de
l’apport de la statistique en médecine. C’est aussi l’occasion de découvrir le monde en
entreprise et plus particulièrement celui à l’étranger afin de se familiariser au monde
professionnel. Dans le cadre de ce stage, une mission m’a été confiée, celle d’identifier les
causes génétiques et cliniques des effets indésirables causés par le traitement de la leucémie.
Cette tâche doit permettre de mettre en application mes connaissances et

compétences acquises tout au long des deux ans passés à l’IUT de Vannes que ce soit au niveau
de la gestion de base de données, de l’analyse statistique de ces données ainsi que de la
communication et la restitution des résultats obtenus. Ce stage doit aussi démontrer ma
capacité à intégrer une équipe de recherche et à acquérir une nouvelle expérience
professionnelle dans un domaine qui peut se révéler peu évident pour des novices.
La leucémie aiguë lymphoblastique2 est le cancer le plus fréquent chez les enfants et
représente 25 % de toutes les tumeurs3 infantiles. Au cours des dernières décennies, le
traitement de celle-ci a été amélioré augmentant significativement la survie des patients. On
estime que 80 % des enfants atteints de leucémie lymphoblastique aigüe en guérissent. Le
1
Hématologie-oncologie : spécialité médicale qui se consacre à l’étude, au diagnostic et au traitement des
maladies de la moelle osseuse, du sang et du système lymphatique
2
Leucémie aiguë lymphoblastique : cancer, touchant principalement les enfants, qui prend naissance dans les
cellules souches du sang. Les cellules de la moëlle osseuse sont très rapidement remplacées par les cellules
cancéreuses
3
Tumeur : augmentation de volume d'une partie de corps, causée par une croissance anormale des tissus. Elles
peuvent être bégnines ou malignes (cancer)
8
traitement peut prendre la forme d’une chimiothérapie4 ou d’un traitement ciblé visant à
détruire les cellules leucémiques ou les gènes et protéines responsables du cancer.
Malheureusement, le traitement est particulièrement long (2 à 3 ans) et est associé à
d'importants effets indésirables liés à l’utilisation de l’asparagine, une substance
incontournable au traitement de la leucémie. Il s'agit d'une enzyme nécessaire à toutes les
cellules cancéreuses qui catalyse l'hydrolyse de l'acide aminé5 asparagine en acide aspartique6
et en ammoniac. Ce traitement est sujet à d’importants effets secondaires qui peuvent
contribuer à la morbidité et à la mortalité précoces, à l'interruption du traitement et aux
complications à long terme. Ces dernières peuvent être bégnines comme la fatigue, les
nausées et vomissements ou encore la perte d’appétit mais peuvent être aussi plus graves
comme le développement d’allergies ou de maladies telles que la thrombose7 et la
pancréatite8.
Par ailleurs, pour un même traitement les patients ne développent pas tous ces effets
secondaires suggérant une dépendance génétique entre le traitement et ces effets
secondaires. Des études ont donc été réalisées afin d’identifier et d’associer les gènes à
risques aux différents effets secondaires.
La suite de cette étude réside dans le fait de quantifier ces liens et d’estimer la
probabilité de développer un effet indésirable donné pour un patient dont on connait sa
génétique. Cela permettrait de modifier le traitement en évitant ou en modifiant
l’asparaginase pour les patients dont le risque de développer des effets secondaires est trop
élevé. On pourra compléter l’analyse en rajoutant des facteurs non-génétiques tels que l’âge,
le sexe, etc… On débutera cette étude par la présentation et la reproduction d’analyse
identifiant les gènes à risques. Ensuite, on analysera et quantifiera le lien entre les gènes à
risques et la pancréatite. Enfin on estimera le risque individuel pour des patients quelconques
de développer une pancréatite à la suite du traitement leucémique.
4
Chimiothérapie : usage de certaines substances chimiques pour traiter une maladie
5
Acide aminé : molécules qui, associées dans un ordre précis, vont former des protéines.
6
Acide aspartique : un acide aminé
7
Thrombose : caillot de sang qui se forme dans une veine empêchant le sang de circuler correctement
8
Pancréatite : inflammation aiguë du pancréas provoquant diverses complications
9
1. CONTEXTE DU STAGE
1.1 Le CHU Sainte-Justine, en bref
1.1.1 Sa localisation
Le CHU Sainte-Justine se situe à Montréal, dans la province du Québec au Canada et

plus précisément au Chemin de la Côte-Sainte-Catherine.
Source : 123rf.com Source : researchgate.net

Figure 1 : Localisation du Québec (image 1) et de Montréal (image 2)
1.1.2 Présentation de l’organisme
Le CHU Sainte-Justine est un établissement de santé dédié aux soins des enfants,
adolescents et mères au Canada fondé en 1907 par Justine Lacoste-Beaubien et Irma
Levasseur. Il est notamment le plus grand centre pédiatrique du Canada et l’un des 4 plus
grands centres en Amérique. De plus en tant que Centre Hospitalier Universitaire (CHU), il est
affilié à l’université de Montréal. L’organisme peut donc compter sur plus de 5400 employés,
près de 500 médecins et 3000 stagiaires et étudiants. Leur mission est donc de prodiguer des
soins spécialisés et adaptés à chaque patient afin qu’il trouve un équilibre physique,
psychique, social et moral. Cette mission s’organise autour d’axes majeurs tels que la
recherche fondamentale et clinique en santé de la mère et de l'enfant, l’enseignement auprès
des futurs professionnels de la santé et la promotion de la santé
10
1.1.3 Son histoire
Depuis le XIXème siècle, la médecine s’est massivement développée dans le monde

entier. On rappelle que plus d’un enfant sur quatre mourait avant l’âge d’un an. L’accès aux
soins, aux traitements s’est largement démocratisé au fil des années et a permis une
augmentation significative de l’espérance de vie. Le CHU Sainte-Justine est à l’image de ce
développement avec une évolution croissante qui lui a permis de s’installer en tant que leader
de la santé dédié aux soins des enfants, adolescents et mères au Canada.
Tout d’abord, l’Hôpital Sainte-Justine est fondé en 1907 par Justine Lacoste-Beaubien
et Irma Levasseur, deux religieuses. L’hôpital accueille alors les patients dans une maison avec
une capacité de 12 lits. Soutenu par de nombreuses femmes dévouées à la cause des soins
aux jeunes enfants, l’hôpital prend rapidement de l’ampleur et en 1908, il accueille déjà 34
lits.
Ensuite, 7 ans après sa création par les deux religieuses, en 1914, l’hôpital Sainte-
Justine va signer un premier contrat d’affiliation avec l’université Laval de Montréal et
emménager dans le premier « véritable hôpital ». Ce dernier peut maintenant accueillir 80
patients.
En 1928, on observe la création d’un département d’obstétrique9 afin de prendre en

charge les grossesses et les accouchements.
Le 20 octobre 1957, l’Hôpital Sainte-Justine inaugure ses nouveaux locaux qu’il occupe
encore aujourd’hui. La surface est multipliée par 5 et commence à s’imposer en tant que
leader des soins aux jeunes enfants et mère du Québec. Ce nouveau bâtiment permet une
croissance de l’activité avec des nouveaux centres spécialisés.
En effet, en l’espace de 5 ans, l’hôpital va inaugurer 3 nouvelles branches et 2 nouvelles

fondations. En 1969, la Fondation Justine-Lacoste-Beaubien est créée afin d’encourager la
recherche. En 1971, on inaugure un centre de dialyse10 pour enfant ; deux ans après le centre
de recherche est ouvert puis en 1974, le Département de Santé Communautaire (DSC) et
l’unité de soins intensifs pour les prématurés sont inaugurés. L’Hôpital Sainte-Justine devient
donc un centre provincial de consultation et d’expertise dans les cas de grossesses à haut
risque et de prématurés. Afin de pallier au vieillissement des équipements médicaux et des
unités de soins, la Fondation Sainte-Justine est créée.
9
Obstétrique : spécialité chirurgicale dédiée à la surveillance du déroulement de la grossesse et de
l'accouchement
10
Dialyse : Processus artificiel d’élimination des résidus et des liquides en excès de l’organisme
11
Ensuite, l’ouverture de centres spécialisés s’est succédée avec notamment l’ouverture
du Centre de cancérologie Charles Bruneau en 1995. L’Hôpital est alors désigné comme le CHU
mère-enfant du Québec. Cela devient donc un hôpital dédié aux soins, à l’enseignement et à
la recherche.
On notifie peu de changements ensuite mis à part quelques travaux d’agrandissement

en 2012 initié par le projet « Grandir en santé » et de l’ouverture du nouveau centre de
recherche en 2017.
On résume ces événements grâce à une frise chronologique placée en annexe

(Annexe I : Frise chronologique relatant les principales dates de développement du CHU
Sainte-Justine)
1.1.4 Son excellence clinique
Le centre pédiatrique se repose sur ses différents pôles d’excellence afin d’assurer la
meilleure expérience clinique aux patients. En effet, ces pôles permettent d’avoir un excellent
champ de compétence dans les domaines où les maladies et leurs impacts sont les plus grands.
L’objectif est donc de compter sur un personnel qualifié qui puisse maintenir l’excellence dans
les domaines ciblés. Le CHU Sainte-Justine a donc une expertise unique dans la génétique, la
biologie moléculaire et la pharmacologie11 clinique lui permettant d’assurer des soins pour
tous les enfants, adolescents et mères du Québec. Le centre de recherche, où se déroule le
stage, est le 1er en recherche clinique et, en génétique et maladies rares au Canada. Son
leadership est renforcé par ses projets internationaux menés d’un pays à un autre.
1.2 Le sujet
Le sujet se fonde sur le traitement de la leucémie lymphoblastique aigüe et notamment

sur les effets indésirables des médicaments contribuant au traitement. Je serai affilié au
service hématologie – oncologie épaulé statistiquement et médicalement par Mme.
Krajinovic, ma tutrice de stage. Tout d’abord, expliquons l’origine de cette maladie.
11
Pharmacologie : science qui étudie les médicaments
12
1.2.1 La leucémie lymphoblastique aigüe
La leucémie lymphoblastique aigüe est une maladie touchant majoritairement les

enfants qui remplace les cellules de la moelle osseuse12 par des cellules cancéreuses. Par la
circulation sanguine, ces cellules peuvent se multiplier dans diverses organes telles que le foie,
la rate ou encore le cerveau. Les globules blancs, responsables de notre protection face aux
infections et aux bactéries, se retrouvent alors en trop petit nombre pour nous protéger. Ainsi
on peut observer des insuffisances hépatiques13 et rénales, des lésions d’organes ou encore
une anémie14. Les symptômes peuvent être la fièvre, la fatigue et la pâleur de la peau puisque
les cellules sanguines non cancéreuses ne sont pas assez nombreuses. L’individu peut aussi
être plus sensible aux autres infections puisque son système immunitaire est déficient. Des
douleurs abdominales ou des saignements peuvent être également synonymes de leucémie
lymphoblastique. Celle-ci est alors confirmée ou non par une prise de sang du patient et un
examen de la moelle osseuse. Concernant le traitement, on dispose de la chimiothérapie et
d’autres médicaments dans le cadre d’une thérapie ciblée. La chimiothérapie est considérée
efficace avec des cycles de traitement correspondant à l’évolution de la maladie. Dans ce
traitement on retrouve l’asparaginase, une enzyme de nature protéique extraite de cultures
de bactéries telles que l’Escherichia coli ou bien du genre d’Erwinia. En effet cette enzyme va
détruire les cellules cancéreuses incapables de faire la synthèse de l’asparagine. Cependant
ce traitement est associé à d’importants effets secondaires menant à l’interruption du
traitement et à des complications à long terme.
1.2.2 La problématique
La problématique de ce traitement de la leucémie est donc d’identifier les différents

profils de patients sensibles à l’Asparaginase. Ce traitement serait la cause d’effets
indésirables tels que la pancréatite, la thrombose et les allergies. Afin d’appliquer mes
compétences statistiques au domaine médical, ma mission est donc de réaliser des modèles
de prédiction des effets indésirables des médicaments associés au traitement de la leucémie.
L’objectif est donc de déterminer quels profils de patients sont sensibles au traitement pour
adapter celui-ci dans le futur. Le profil peut être déterminé par sa génétique mais aussi par
d’autres facteurs tels que l’âge et le sexe. Concernant la génétique, on expliquera, en
reproduisant de précédentes analyses, l’identification des gènes susceptibles de causer ces
12
Moelle osseuse : tissu situé au centre des os produisant les différentes cellules du sang
13
Insuffisance hépatique : dégradation sévère du foie
14
Anémie : baisse anormale du taux d'hémoglobine (une protéine) dans le sang
13
effets puis on quantifiera les risques associés à chaque complication et plus particulièrement
la pancréatite.
1.2.3 Méthodes statistiques
Le développement de modèles de prédiction se fera donc à partir des facteurs

génétiques et non-génétiques à l’aide de la régression logistique et de la régression de Cox.
Ces deux régressions servent à expliquer une variable dichotomique à partir de variables
binaires et/ou de variables quantitatives. Dans notre cas, la plupart de nos variables
explicatives seront binaires. On présente respectivement ci-dessous les modèles de régression
logistique et de Cox :
1
𝜎 =
(1 + 𝑒 )
Avec X la valeur de la variable étudiée
Figure 2 : Modèle de la régression logistique
ℎ(𝑡, 𝑋) = ℎ (𝑡) 𝑒
Avec ℎ (𝑡) une fonction de risque des sujets pour lesquels toutes les variables explicatives
sont nulles
Avec 𝛽 le vecteur des coefficients de régression à estimer
Avec X la valeur de la variable étudiée
Figure 3 : Modèle de la régression de Cox
On utilisera également des tests d’hypothèses pour vérifier la significativité des liens
entre ces facteurs et la présence d’effets secondaires. On retrouvera notamment le test du
chi2 ou le test de Wald. Par ailleurs, dans le cadre des analyses de survie (on parlera
maintenant d’analyse de risques), l’estimateur de Kaplan-Meier sera utilisé. Enfin, on aura
recours à des statistiques descriptives brèves afin de présenter et d’introduire nos résultats.
14
1.2.4 Logiciels utilisés
Afin de réaliser ces différents modèles de prédiction, le logiciel SPSS sera

principalement utilisé. En effet la modélisation statistique est adaptée au logiciel et le test de
significativité des différents modèles reste relativement simple. Il nous permettra donc de
réaliser des graphiques, des tableaux, des tests d’hypothèses et des analyses de risque. Par
ailleurs, le logiciel Excel sera nécessaire pour réaliser certains tableaux et certaines
automatisations de traitement. Enfin le logiciel R-studio sera utilisé afin de vérifier certaines
hypothèses fortes nécessaires aux futures analyses.
15
2. PRESENTATION DES DONNEES
2.1 Présentation de l’échantillon étudiée
La population est constituée de l’ensemble des enfants atteints de leucémie aiguë

lymphoblastique. Notre échantillon est lui composé de 302 enfants ayant été diagnostiqués
leucémiques au Centre Hospitalier Universitaire Sainte-Justine (CHUSJ), Montréal, QC,
Canada, entre janvier 1989 et juillet 2005. Ils ont reçu de l’asparaginase, un médicament
contenant des enzymes de nature protéique, en guise de traitement à leur leucémie dans le
cadre des protocoles Dana-Farber Cancer Institute (DFCI) 87-01, 91-01, 95-01, ou 00-01. Nous
disposons également d’une cohorte15 de validation de 282 enfants pour vérifier et généraliser
nos résultats. Ceux-ci ont suivi le protocole du 95-01 ou du 00-01. A noter que l’ensemble des
participants à l’étude (et/ou leurs parents ou tuteurs légaux) ont signé un consentement écrit
pour diffuser leurs informations personnelles comme le prévoit les accords d’Helsinki.
2.1.1 Caractéristiques cliniques
On présente ci-dessous les différentes caractéristiques cliniques des deux cohortes :
Tableau 1 : Caractéristiques cliniques des cohortes de découverte (QcALL) et de réplication (DFCI)
15
Cohorte : échantillon d’individu participant à notre analyse
16
En étudiant uniquement la cohorte de découverte, on remarque qu’il y a presque
autant d’hommes que de femmes représentant respectivement 54 % et 46 %. Les enfants de
0 à 9 ans représentent 80 % de l’échantillon. Ceci est expliqué par la nature du cancer, la
leucémie lymphoblastique est présente essentiellement chez les enfants. On présente
également diverses caractéristiques tels que le nombre de globules16 blancs ou le type de
traitement, près de 75 % des patients ont suivi les traitements les plus récents de 1995 ou de
2000 sachant que 29 personnes ont reçu l’asparaginase provenant de la bactérie Erwinia
tandis que le reste a reçu l’asparaginase provenant de la bactérie E.coli.
2.1.2 Effets indésirables
On présente également la distribution des effets secondaires dans la population tels

que la thrombose, les allergies et la pancréatite :
Tableau 2 : Distribution des effets secondaires étudiés dans les cohortes de découverte (QcALL) et de
réplication (DFCI)
16
Globule : cellule dans le sang
17
Graphique 1 : Distribution des effets secondaires étudiés dans les cohortes de découverte (QcALL) et
de réplication (DFCI)
On observe des effets secondaires plus fréquents que d’autres chez les patients. En
effet, dans la cohorte de découverte, les allergies sont identifiées chez 48 patients parmi les
302 tandis que seulement 10 et 15 patients ont respectivement contracté une thrombose et
une pancréatite.
2.2 Présentation des variables étudiées
2.2.1 Variables cliniques
On dispose de nombreuses variables concernant les caractéristiques cliniques mais

aussi sur les caractéristiques génétiques du patient. Parmi ces premières, on recense l’âge en
2 classes (0 à 9ans et 10ans et plus), le sexe, les informations relatives au traitement comme
le type de protocole, le risque de rechute et le médicament prescrit.
18
2.2.2 Variables génétiques
Parmi le patrimoine génétique du patient, on dispose du génotype des gènes à risque17.

On définit le génotype ci-dessous pour une meilleure compréhension de l’analyse statistique.
Le corps humain est composé de 23 paires de chromosomes soit un total de 46 chromosomes.
Un chromosome comprend des milliers de gènes. Un gène est un segment d’ADN qui fournit
le code nécessaire pour fabriquer des protéines agissant dans les cellules de l’organisme.
Chaque gène possède plusieurs variants de lui-même nommés allèles. Chaque paire de
chromosome est composé d’un chromosome provenant de la mère et d’un autre provenant
du père. Pour un même gène, les chromosomes d’une même paire peuvent porter 2 allèles
identiques ou deux allèles différents, c’est le polymorphisme génétique18. De plus, ces allèles
peuvent s’exprimer (allèle majeur19) ou ne pas s’exprimer (allèle mineur20). Le génotype est
donc l'ensemble des allèles d'un individu pour un gène donné. On illustre cette explication :
Légende
Allèles A
Allèles B
Gène
Paire de chromosomes
Figure 4 : Composition d’une paire de chromosomes.
On a également les effets secondaires que le patient a contractés suite au traitement

de son cancer. On distingue les 3 effets secondaires suivants : l’allergie, la pancréatite et la
thrombose. La pancréatite, variable dichotomique, sera notre variable à expliquer durant
toute l’analyse. Afin de réaliser les régressions logistiques et celles de Cox, la majorité des
variables présentées sont donc binaires codées 0 ou 1. On dispose également d’une variable
17
Gènes à risque : gènes associés significativement à l’un des médicament compris dans le traitement de la
leucémie
18
Polymorphisme génétique : forme différente que peut prendre un même gène
19
Allèle majeur : allèle très fréquent (plus de 95 % des cas)
20
Allèle mineur : allèle peu fréquent (moins de 5 % des cas)
19
recensant le nombre de gènes à risque que possède le patient. Toutes ces variables sont
présentées en détail dans le dictionnaire des variables (Annexe II : Dictionnaire des variables)
2.3 Transformation et création de variables.
2.3.1 Recodage en variables binaires
Afin de procéder aux futures analyses statistiques, on transforme et on crée des

nouvelles variables. Afin de comparer les différents polymorphismes génétiques dans leur
association à la pancréatite, on recode tous les gènes à risque qui nous intéressent en
variables binaires codées 0 / 1 correspondant au modèle dominant et au modèle récessif.
2.3.2 Création d’une variable de survie
Dans le cadre de la future analyse de survie associée à la pancréatite, on crée une

variable temps de survie car on ne dispose pas des temps de survie pour chacun des patients.
On prend des valeurs aléatoires entre 0 (exclus) et 100 (exclus) pour les individus ayant
contracté la maladie, 100 représentant la censure (l’évènement n’a pas eu lieu au bout de 100
jours, c’est à dire pas de contraction de pancréatite 100 jours après le début du traitement).
On complète cette variable avec une valeur de 100 pour chaque patient non-atteint par la
maladie. On donne plus de détails sur cette variable dans le dictionnaire des variables (Annexe
II : Dictionnaire des variables)
20
3. TRAITEMENTS ET ANALYSES
3.1 Identification des gènes a risque
On cherche à reproduire l’analyse d’identification des gènes à risque de provoquer un des 3

effets secondaires cités précédemment : l’allergie, la thrombose et la pancréatite. Dans
l’ensemble du génome21, on a identifié 4519 variants alléliques, potentiellement liés aux
toxicités, qui substituent un nucléotide à un endroit spécifique répandu dans 3802 gènes
différents. Après plusieurs filtres (génotypage22, biologie, etc…), et des analyses de
fréquences, on obtient 32 gènes susceptibles d’être liés aux effets indésirables de
l’asparaginase. On va restreindre le cercle aux seuls gènes significativement associés aux
complications. On donne ci-dessous le processus de sélection jusqu’à l’obtention de 12 gènes
significativement liés aux 3 toxicités. On va donc détailler ce processus final de sélection dans
le développement suivant. De plus toutes les analyses sont résumées dans le récapitulatif des
gènes à risques en annexe.
Figure 5 : Le processus de sélection après l'étude d'association à l'échelle de l'exome

(source : www.impactjournals.com/oncotarget/)
21
Génome : ensemble de l'information génétique d'un organisme
22
Génotypage : processus déterminant l'existence de variations génétiques, sur une partie ou la totalité du
génome
21
3.1.1 Allergie
On identifie les gènes associés significativement avec l’apparition des allergies grâce à
des régressions logistiques où l’on va comparer les différents allèles du gène. On commence
par le gène SLC7A13. On effectue une première approche en analysant la distribution de la
présence d’allergies en fonction du génotype du gène SLC7A13 ci-dessous :
Graphique 2 : Contraction d’allergies ou non selon le génotype du gène SLC7A13
Les pourcentages sont exprimés en fonction du nombre total d’individus ayant

contracté des allergies ou non. On remarque que parmi les 48 individus ayant contracté des
allergies, 37 possèdent le génotype AA (A, allèle majeur), 8 le génotype AG et 3 le génotype
GG (G, allèle mineur). Cependant, en s’intéressant aux proportions, on observe que les
génotypes AG et GG favorisent l’apparition d’allergies. En effet, bien que les génotypes AG et
GG ne soient présents que chez 17 % des individus, ils représentent 23 % des cas d’allergies.
De même quand on compare au cas par cas, parmi les 5 individus possédant le génotype GG,
3 ont contracté des allergies donc cette première impression se confirme. On va essayer de
confirmer ces impressions par des test statistiques. On effectue un premier test d’hypothèse
sur l’impact du génotype GG par rapport au génotype AA :
22
H0 : l’homozygote23 de génotype GG n’a pas d’impact sur la présence d’allergies
B0 = 0
H1 : l’homozygote de génotype GG a un impact sur la présence d’allergies  B0 ≠ 0
Tableau 3 : Comparaison du génotype GG par rapport au génotype AA dans le gène SLC7A13
On regarde la p-value associée au test de Wald ; elle est égale à 0,019 < 0,05 donc on
rejette H0, le test est significatif. On considère donc que le génotype GG dans le gène SLC7A13
joue un rôle dans la présence d’allergies.
De plus l’odds-ratio nous permet de confirmer que la présence du génotype GG multiplie le
risque de contracter des allergies de 8,8 fois par rapport à une personne étant homozygote
AA. Attention tout de même à l’IC à 95% qui est assez large et donc augmente l’incertitude sur
notre OR (odds-ratio). On réalise cette même analyse mais pour comparer le génotype AG et
AA, on effectue donc une deuxième régression dont les résultats sont présentés ci-dessous :
Tableau 4 : Comparaison du génotype AG par rapport au génotype AA dans le gène SLC7A13
On remarque que l’OR est d’environ 1,6, les individus possédant le génotype AC ont
donc presque 2 fois plus de risques de contracter des allergies. Cependant cette différence
n’est pas significative puisque la p-value est supérieure à 0,05. On essaie maintenant de
trouver un meilleur modèle en comparant les deux génotypes avec allèle(s) mineur(s) avec les
homozygotes pour l’allèle majeur :
23
Homozygote : deux gènes identiques sur chaque chromosome de la même paire
23
Tableau 5 : Comparaison des génotypes AG et GG par rapport au génotype AA dans le gène SLC7A13
On obtient donc un modèle additif significatif avec environ 2 fois plus de risques de
développer des allergies pour les individus porteurs d’au moins un allèle mineur. On peut donc
conclure que le gène SCL7A13 est un gène à risque puisqu’un génotype différent peut favoriser
la contraction d’allergies.
On poursuit ces analyses et on obtient deux autres gènes significativement associés aux
allergies. En effet les gènes MYBBP1A et YTHDC2 favorisent l’apparition d’allergies avec
respectivement 2,4 (p-value : 6x10-4) et 3,1 (p-value : 0,008) fois plus de risques, pour un
individu possédant un génotype avec au moins un allèle mineur, de développer des allergies.
On a donc identifié 3 gènes à risque de provoquer des allergies, à savoir les gènes
SLC7A13, MYBBP1A et YTHDC2.
3.1.2 Thrombose
On identifie cette fois la significativité des gènes associés avec la thrombose. De la

même façon qu’avec les gènes associés aux allergies, on obtient 6 gènes significativement liés
avec l’apparition de la maladie et notamment le gène PKD2L1. On réalise la même approche
que précédemment avec une première description brève du génotype du gène PKD2L1 :
24
Graphique 3 : Contraction de thrombose ou non selon le génotype du gène PKD2L1
On observe qu’il y a 10 individus qui ont développé une thrombose avec un peu moins
d’un tiers d’entre eux qui possèdent le génotype CA ou AA (A, allèle mineur). De plus
seulement 1 individu possède le génotype AA et 24 patients possèdent le génotype CA. Ces
derniers représentent donc 9% de l’échantillon alors qu’ils représentent 20% des cas de
thrombose. De même pour le seul individu, il représente 10% des cas. Cependant ce résultat
est à nuancer puisqu’avec seulement 1 individu, il est impossible de tirer des conclusions et
de généraliser le résultat. On va donc effectuer les régressions logistiques afin de confirmer
ces premières impressions. Les hypothèses de test suivent toujours le même principe :
H0 : l’hétérozygote24 de génotype CA n’a pas d’impact sur la présence de thrombose  B0 =

0
H1 : l’hétérozygote de génotype CA a un impact sur la présence de thrombose  B0 ≠ 0
24
Hétérozygote : deux gènes différents sur chaque chromosome de la même paire
25
Tableau 6 : Comparaison du génotype CA par rapport au génotype CC dans le gène PKD2L1
On se fie toujours au test de Wald et à la significativité du test. On observe une p-value

de 0,147 > 0,05 donc le test n’est pas significatif. Contrairement à nos impressions, le génotype
CA n’est pas associé significativement au développement de thrombose chez les patients.
Néanmoins, on remarque un OR de 3,3 soit un risque de développer une thrombose 3 fois plus
élevé chez les patients possédant le génotype CA que chez les patients avec le génotype CC.
Afin d’obtenir un test significatif, on va comparer maintenant le modèle dominant par rapport
au modèle récessif :
Tableau 7 : Comparaison des génotypes CA et AA par rapport au génotype CC dans le gène PKD2L1
La p-value du test de Wald est inférieure à 5 % donc le test est significatif, les génotypes
CA et AA sont donc fortement associés avec l’apparition d’une thrombose avec notamment 5
fois plus de risques que les individus possédant le génotype CC. On ne réalise pas l’analyse du
génotype AA par rapport au génotype CC car aucun individu avec ce premier génotype n’a
développer de thrombose donc la régression n’est pas possible.
En continuant ces tests d’hypothèses, cinq autres gènes à risque concernant la thrombose ont
été identifiés : RIN3, SPEF2, SLC39A12, MPEG1 et IL16. En effet les porteurs d’allèles mineurs
ont un risque nettement plus élevé que les non-porteurs. On a notamment un risque 13,7 fois
plus élevé dans RIN3 et 7,4 fois plus élevé dans IL16. On retrouve toutes ces analyses dans le
récapitulatif des gènes à risques en annexe.
26
3.1.3 Pancréatite
On présente maintenant les différents gènes associés au développement de la

pancréatite conséquent au traitement leucémique. On associe significativement 3 gènes et on
présente en détail l’analyse du gène MYBBP1A, le plus multiplicatif de risque :
Graphique 4 : Contraction de pancréatite ou non selon le génotype du gène MYBBP1A
On étudie la proportion d’individus ayant développé une pancréatite selon leurs

génotype du gène MYBBP1A. Les pourcentages sont exprimés en fonction du total de cas de
pancréatite et inversement. Une tendance se dégage immédiatement, le génotype GC semble
très fortement associé à la pancréatite. En effet il représente 80% des cas de pancréatite alors
qu’il représente seulement 35 % de la population totale. Etonnamment, parmi les 12 individus
porteurs de deux allèles mineurs, aucun n’a contracté de pancréatite. Cependant, l’effectif de
cette catégorie étant limité, on peut supposer que cette tendance s’inverserait avec plus
d’individus. On confirme nos observations avec les tests d’hypothèses et les régressions
logistiques. On a les hypothèses suivantes :
H0 : l’hétérozygote de génotype GC (C, allèle mineur) n’a pas d’impact sur la présence de
pancréatite  B0 = 0
H1 : l’hétérozygote de génotype GC (C, allèle mineur) a un impact sur la présence de

pancréatite  B0 ≠ 0
27
Tableau 8 : Comparaison des allèles GC par rapport aux allèles GG dans le gène MYBBP1A
On observe une p-value associée au test de Wald nettement inférieure à 0,05, soit un
test significatif. On peut donc considérer que l’hétérozygote de génotype GC a un impact
majeur sur la présence de pancréatite. Ceci est confirmé par l’OR d’environ 8 équivalent à un
risque 8 fois plus important concernant les patients porteurs de l’hétérozygote. On compare
ensuite les patients porteurs d’allèle(s) mineur(s) avec les non-porteurs :
Tableau 9 : Comparaison des génotypes GC et CC par rapport au génotype GG dans le gène MYBBP1A
Les résultats sont sensiblement semblables avec un test significatif qui indique un lien
entre la maladie et les allèles mineurs présents chez l’individu. Pour vérifier ce lien, on peut
également réaliser un test de CHI2 ou utiliser le test de Fisher exact puisque l’on compare
deux variables avec 2 modalités. On vérifie auparavant que les variables sont bien
indépendantes et qu’au moins 80 % des effectifs théoriques sont supérieurs à 5 ainsi que
toutes les modalités comprennent plus d’un individu.
Tableau 10 : Effectifs théoriques et observés concernant l’apparition de la pancréatite selon le

génotype du gène MYBBP1A
28
On peut faire les mêmes remarques concernant les effectifs que le graphique
précédent. Bien que les génotypes GC et CC ne représentent environ que 40 % des individus,
80 % des individus atteints de pancréatite possèdent les génotypes GC ou CC. On retrouve la
première impression du graphique nous guidant vers une relation forte entre le gène et la
présence de la maladie. On confirme cela avec le test de Fisher ci-dessous :
Tableau 11 : Test du Khi2 et de Fisher entre la présence de pancréatite et le génotype du gène

MYBBP1A
Les conditions d’application du test de Fisher exact sont respectées donc nous pouvons
l’utiliser. On obtient une p-value de 0,002 donc le test est significatif. Il y a une relation forte
entre le gène MYBB1A et la présence de la pancréatite.
Les différents gènes associés à la pancréatite sont résumés dans le Annexe III :
Récapitulatif des gènes à risque.
3.1.4 Associations complémentaires
Cette identification de gènes à risque nous a permis d’associer chaque gène à une
toxicité. On va donc étudier s’ils peuvent être associés à d’autre toxicités comme la
pancréatite, la toxicité que l’on va analyser par la suite. On présente les résultats ci-dessous :
29
rs11556218_IL16_T6 vs Pancréatite rs34708521_SPEF2_T3 vs Pancréatite
OR = 2,9 (1,3-6,9) OR = 3,9 (1,5-9,8)

OR = 3,4 (1,1-8,6)
p-value = 0,01 p-value = 0,005
Graphique 5 : Association des gènes associés à deux toxicités dont la pancréatite
On présente le lien de rs1156218 dans le gène IL16 et rs34708521 dans le gène SPEF2
avec la pancréatite. Les porteurs d’allèles mineurs dans le gène IL16 ont environ 3 fois plus de
risques de développer une thrombose que les autres patients (p-value = 0,01). Par ailleurs, on
retrouve un autre gène corrélé positivement avec la pancréatite, SPEF2, qui présente un
risque de développer une pancréatite 4 fois plus élevé pour les porteurs d’allèle(s) mineur(s).
On identifie maintenant les effets secondaires développés en fonction du nombre de

gène à risques que les patients possèdent. Un gène à risque est caractérisé par la présence
d’au moins un allèle mineur. On observe la distribution suivante :
Graphique 6 : Développement d’effets secondaires selon le nombre de gènes à risques
30
Allergies Thrombose
IC (95 %) IC (95 %)
Nombre de gènes à risque P-value Nombre de gènes à risque P-value
OR - + OR - +
0 vs 1 1,7 0,8 3,5 0,25 0 vs 1 3,3 3,3 32,5 0,35
-5 -3
0 vs >= 2 6,5 2,7 15,6 1x10 0 vs >= 2 14,6 1,7 124,7 4x10
-5 -3
0 vs >=1 2,5 1,6 3,9 4x10 0 vs >=1 4 1,5 10,6 2x10
Pancréatite
IC (95 %)
Nombre de gènes à risque P-value
OR - +
0 vs 1 4,1 0,5 73,6 0,2
0 vs >= 2 27,9 3,5 224,3 3x10-3
-6
0 vs >=1 5,9 2,4 14,4 7x10
Tableau 12 : Développement d’effets secondaires selon le nombre de gènes à risques
On observe que le nombre de gènes à risque modifie considérablement le risque de

développer des effets secondaires. De plus, ce risque est significatif lorsque l’on compare des
individus n’ayant aucun gène à risque contre des individus ayant plusieurs gènes à risque. Par
exemple, les patients ayant au moins 2 gènes à risque ont 6,5 fois plus de risques (p-value =
4x10-5) de contracter des allergies à la suite du traitement que les patients n’ayant aucun gène
à risque. De même pour la thrombose et la pancréatite où les patients possédant au moins 2
gènes à risque ont respectivement 14,6 (p-value = 4x10-3) et 27,9 (p-value = 3x10-3) fois plus
de risque de développer ces maladies. Par ailleurs, bien que le risque soit supérieur pour les
individus ne possédant qu’un gène à risque, celui-ci n’est significatif pour aucunes des
maladies.
31
3.2 Risques de développer une pancréatite
L’étude des gènes à risques va maintenant se limiter à ceux liés à la pancréatite. Grâce
aux analyses précédentes, on a associé 5 gènes à la pancréatite : MYBBP1A, SPECC1,
ADAMTS13 et, IL16 et SPEF2 qui ont été identifiés par des associations complémentaires. Nous
allons donc, à partir de tous ces gènes, estimer le risque individuel de patients quelconques
de contracter une pancréatite. Nous allons développer un modèle de prédiction avec ces
gènes. Procédons tout d’abord à l’analyse des risques de développer la pancréatite selon le
génotype des 5 gènes. On rappelle que les temps de survie ont été simulés pour un soucis de
données manquantes.
3.2.1 Risque associé à chaque gène à risque
On présentera en détail seulement 2 gènes, IL16 et MYBBP1A pour éviter tout soucis
de redondance. Les sorties logiciels des autres gènes seront mis en annexe (Sorties logicielles
des modèles de Cox). Les modèles présentés dans cette partie sont tous des modèles
univariés.
3.2.1.1 IL16
On procède à l’analyse de risques de développer une pancréatite en fonction du

génotype du gène IL16 des patients. Cette analyse concerne uniquement la cohorte de
découverte, à savoir les patients du CHU Sainte-Justine. On compare donc le risque entre les
porteurs d’allèle(s) mineur(s) qu’ils soient homozygotes ou hétérozygotes avec les
homozygotes porteurs d’allèles majeurs.
32
Graphique 7 : Risque associé à la pancréatite selon le génotype du gène IL16
De manière générale, on remarque que les génotypes TG et GG (G, allèle mineur) dans
le gène IL16 sont vraisemblablement associés à la pancréatite chez les patients. En effet, le
risque associé au gène avec le génotype TT est inférieur à celui du gène avec les génotypes TG
ou GG. Par exemple, le risque à 60 jours pour les patients porteurs de l’homozygote de
génotype TT est de 2% alors qu’il est environ de 8% chez les patients avec les génotypes TG
ou GG. De même au bout de 100 jours, le risque associé aux patients avec le génotype TT est
de 4 % alors qu’il est de 11 % chez les patients porteurs d’allèles mineurs. On confirme cette
légère différence avec le test du log rank :
H0 : Pour tout t, on a SA(t) = SB(t)

H1 : Il existe au moins un temps t tel que SA(t) <> SB(t)
Avec SA(t) la survie des patients porteurs de l’homozygote de génotype TT

Avec SB(t) la survie des patients porteurs d’allèles mineurs de génotype TG ou GG
Tableau 13 : Test du log rank comparant la survie entre les homozygotes de génotype TT et les
porteurs d’allèles mineurs TG et GG
33
P-value = 0,068 > 5% donc on ne rejette pas H0, le test n’est pas significatif.
Les fonctions de survie sont donc globalement les mêmes, cela veut dire que l’allèle récessif
n’a pas d’impact significatif sur la présence de la pancréatite. On peut tout de même nuancer
par la proximité de la p-value du seuil de 5%. Il existe donc une différence bien réelle entre les
deux fonctions de survie bien que celle-ci ne soit pas significative.
On propose maintenant un modèle de Cox afin d’obtenir les risques relatifs et ainsi
quantifier le lien entre les différents gènes à risques et la survie dans le temps. On obtient le
modèle suivant :
ℎ(𝑡, 𝑋) = ℎ (𝑡) 𝑒
Avec X = « IL16_dom_surv » codé 1 si les génotypes TG ou GG sont présents et codé 0 si le

génotype TT est présent.
Cependant, le modèle de Cox subit une hypothèse forte, l’hypothèse des risques
proportionnels. Cette dernière doit être vérifiée avant d’utiliser le modèle de Cox. On réalise
donc le test d’hypothèse et le graphique nécessaire à cette vérification :
Tableau 14 : Test des risques

proportionnels sur le gène IL16
Graphique 8 : Résidus martingales du gène IL16 en

fonction du temps de survie
On analyse le graphique en premier lieu qui modélise les résidus martingales du gène
IL16 en fonction du temps. Ces résidus représentent l’erreur cumulée entre le modèle et les
données. Un grand nombre de trajectoire est simulée et on peut vérifier la cohérence de notre
trajectoire avec celles simulées. On remarque que notre courbe suit la tendance des courbes
simulées donc il n’y a pas d’erreur manifeste de cohérence. On confirme cela par le test
d’hypothèses où la p-value est égale à 0,58. Le test n’est donc pas significatif, l’hypothèse des
risques proportionnels est vérifiée. On peut utiliser le modèle de Cox. On prend comme
34
modalité de référence la modalité codée 0 correspondant génotype TT. On obtient le tableau
suivant :
Tableau 15 : Comparaison des génotypes TG et GG par rapport au génotype TT dans le gène IL16
On remarque que le coefficient B est positif donc la probabilité de survivre (ne pas
développer la pancréatite) jusqu’au temps t est plus faible lorsque le patient possède les
génotypes TG ou GG. Avec le risque relatif exp(B), on peut conclure que le risque de contracter
une pancréatite est 2,8 fois plus important chez un patient ayant les génotypes TG ou GG que
chez un patient ayant le génotype TT.
Par ailleurs, la p-value du test d’hypothèse ayant pour hypothèse nulle H0 : B1 = 0, est > 5 %
donc le test n’est pas significatif. On retrouve les mêmes résultats qu’auparavant avec deux
groupes de patients qui présentent une différence de survie selon leurs génotypes mais celle-
ci n’est pas significative.
3.2.1.2 MYBBP1A
On analyse maintenant les risques de développer une pancréatite selon le génotype

gène MYBBP1A. On compare, là aussi, les porteurs d’allèle(s) mineur(s) dans le gène MYBBP1A
avec les homozygotes porteurs d’allèles majeurs. On obtient la courbe suivante :
35
Graphique 9 : Risque associé à la pancréatite selon le génotype du gène MYBBP1A
L’allure générale de la courbe montre une différente nette de risques surtout à partir
du 60ème jour. En effet, 60 jours après le début du traitement, on remarque que 5 % des
individus porteurs d’au moins un allèle mineur ont déjà contracté une pancréatite tandis que
seulement 2 % des homozygotes porteurs d’allèles majeurs dans le gène MYBBP1A l’ont
développé. On effectue ce même constat au bout de 100 jours ; plus de 10 % des patients
ayant les génotypes GC ou CC (C, allèle mineur) sont malades alors que les patients ayant le
génotype GG ne sont toujours que 2 % à être malade. On va essayer de confirmer cette
impression graphique par le test du log rank :
H0 : Pour tout t, on a SA(t) = SB(t)

H1 : Il existe au moins un temps t tel que SA(t) <> SB(t)
Avec SA(t) la survie des patients porteurs de l’homozygote de génotype GG

Avec SB(t) la survie des patients porteurs d’allèle(s) mineur(s) GC et CC
Tableau 16 : Test du log rank comparant la survie entre les porteurs de l’homozygote de génotype GG
et les porteurs d’allèles mineurs GC et CC
36
On observe une P-value inférieure à 0,001 donc inférieure au seuil de 5 % donc on peut
rejeter H0, le test est significatif. Les fonctions de survie sont donc significativement
différentes, cela confirme notre première impression par rapport au graphique.
On propose maintenant un modèle de Cox afin d’obtenir les risques relatifs et ainsi
quantifier le lien entre le génotype du gène à risques MYBBP1A et la survie dans le temps. On
obtient le modèle suivant :
ℎ(𝑡, 𝑋) = ℎ (𝑡) 𝑒
Avec X = « MYBBP1A_dom_surv » codé 1 si les génotypes GC ou CC sont présents et codé 0 si

le génotype GG est présent.
On vérifie en premier l’hypothèse des risques proportionnels afin de pourvoir utiliser

ce modèle. On réalise le test d’hypothèse et le graphique associé :

proportionnels sur le gène MYBBP1A
Graphique 10 : Résidus martingales du gène

MYBBP1A en fonction du temps de survie
D’après le test d’hypothèses, l’hypothèse des risques proportionnels est vérifiée

puisqu’aucune p-value n’est inférieure à 0,05. Il n’y a donc pas de contradiction flagrante avec
l’hypothèse des risques proportionnels. Ceci est vérifié par le graphique représentant les
résidus martingales cumulés au cours du temps. On compare la trajectoire de notre courbe
modélisée à partir de nos données avec les courbes simulées. Bien qu’elle se détourne de la
trajectoire de la plupart des courbes simulées elle reste cohérente donc cela confirme le test
avec une p-value proche du seuil de significativité.
On peut maintenant utiliser le modèle de Cox. On prend comme modalité de référence

la modalité codée 0, soit le génotype GG. On obtient le tableau suivant :
37
Tableau 18 : Comparaison des génotypes GC et CC par rapport au génotype GG dans le gène
MYBBP1A
On compare toujours les individus porteurs de l’homozygote d’allèles majeurs avec les
individus porteurs d’au moins un allèle mineur. Le coefficient B est largement positif donc la
probabilité de ne pas tomber malade jusqu’au temps t (temps quelconque) est plus faible
lorsque les individus présentent au moins un allèle mineur. En effet, ceci est confirmé par le
risque instantané égal à 6,5 équivalent à un risque 6,5 fois plus élevé pour les individus
porteurs d’allèles mineurs que pour les autres de développer une pancréatite.
De même lorsque l’on observe la p-value associée au test de Wald, on remarque que le test
est significatif donc il existe un lien évident entre le génotype du gène MYBBP1A et la présence
de la maladie.
3.2.2 Risque individuel associé aux 5 gènes à risques
3.2.2.1 Automatisation du calcul du risque individuel
On cherche donc à estimer le risque individuel pour un patient quelconque. On

automatise le traitement avec Excel. On réalise ce calcul à l’aide d’une précédente analyse
publiée en 2019 sur la détection de maladies cardio-vasculaires (2 : Prediction Model for Early
Detection of Cardiovascular Disease). On ne prend pas en compte la significativité des tests
pour introduire les variables puisque le choix des gènes a été fait auparavant. On inclut donc
les 5 gènes à risques dans notre analyse. On vérifie tout d’abord l’hypothèse des risques
proportionnels :
38
proportionnels sur le modèle complet
Graphique 11 : Résidus martingales du modèle

complet en fonction du temps de survie
L’hypothèse des risques proportionnels est vérifiée puisqu’aucune p-value n’est

inférieure au seuil de significativité. La p-value globale correspondant au modèle complet est
de 0,84 donc très éloignée de 5 %. On peut maintenant appliquer le modèle de Cox et estimer
les différents coefficients de régression. On obtient ceci :
Tableau 20 : Estimation des différents coefficients de régression à l’aide de la régression de Cox
On remarque que le gène le plus significatif est MYBBP1A donc c’est celui qui joue le
rôle le plus important dans le développement de la pancréatite parmi les 5 gènes à risque.
Cependant d’autres gènes tels que SPEF2 et IL16 ne sont pas significatifs. Ce dernier a même
un coefficient de régression de signe négatif. On peut supposer une corrélation forte avec
d’autres gènes du modèle. On conserve tout de même ces 5 gènes puisqu’ils ont été définis
auparavant comme des gènes à risques bien que statistiquement cela ne fait pas de sens. On
présente ensuite les différentes moyennes des variables présentes dans notre modèle :
39
Tableau 21 : Moyenne des différentes variables incluses dans le modèle
Les moyennes sont toutes comprises entre 0 et 1 puisqu’on étudie des variables
catégorielles binaires. On peut interpréter ces moyennes par le pourcentage d’individus qui
sont porteurs d’allèles mineurs. Par exemple, 38 % des individus sont porteurs d’allèles
mineurs du gène MYBBP1A. Ces données nous seront utiles afin d’appliquer la formule
d’estimation de risque de développer une pancréatite. Dans ce même objectif, on présente la
fonction de risque associé à la pancréatite lorsque toutes les variables sont égales à leur
moyenne :
Graphique 12 : Risque associé à la pancréatite à la moyenne de toutes les variables
On peut maintenant estimer le risque individuel à partir du modèle de Cox et des

coefficients de régression obtenus. Afin d’illustrer le processus de calcul de risque, on
40
sélectionne un patient au hasard puis on applique les formules. Les caractéristiques
génétiques du patient sont présentées ci-dessous :
IL16 MYBBP1A SPECC1 SPEF2 ADAMTS17

TG GC CG GG GA
Tableau 22 : Exemple du génotype des 5 gènes à risque d’un patient quelconque
On remarque que sur les 5 gènes à risque, il possède 4 variants avec un allèle mineur
donc on peut déjà prévoir un fort risque de développer la pancréatite. On automatise le calcul
sur Excel et on obtient le tableau ci-dessous :
Estimation du risque de développer une pancréatite

𝛽𝑖 Xi X-bari Risque relatif / instantanné
IL16_dom_surv -0,03 1,00 0,12 0,97
MYBBP1A_dom_surv 2,11 1,00 0,38 8,25
SPECC1_dom_surv 1,15 1,00 0,19 3,16
SPEF2_dom_surv 1,26 0,00 0,10 3,53
ADAMTS17_dom_surv 1,41 1,00 0,19 4,09
Risque de développer une pancréatite = 0,43
Tableau 23 : Automatisation Excel du calcul du risque de développement d’une pancréatite à partir

d’une régression de Cox
∑ ∑
Le risque est obtenu par le calcul suivant : 1 − [𝑆 (𝑡)]
Avec 𝑆 (𝑡) La survie au bout de 100 jours à la moyenne de toutes les variables
En appliquant cette formule au génotype de l’individu sélectionné, on obtient le calcul

suivant : risque = 1 – (1 – 0,022)^exp(a-b) avec :
a = -0,03*1 + 2,11*1 + 1,15*1 + 1,26*0 + 1,41*1
b - 0,03*0,12 + 2,11*0,38 + 1,15*0,19 + 1,26*0,10 + 1,41*0,19
On obtient finalement un risque estimé à 0,43. Le patient a donc un risque de 43 %, soit

presque 1 « chance » sur 2 de développer la pancréatite après avoir subi son traitement contre
la leucémie. Ce risque est majeur et ne peut pas être omis donc on va chercher à adapter les
traitements pour ce patient. On vérifie la cohérence de ce calcul en observant si le patient
avec ce génotype a développé une pancréatite après son traitement. On constate qu’il a, en
effet, bien développé une pancréatite donc l’utilisation de ce petit calcul aurait pu éviter toute
complication au patient en adaptant le traitement.
41
3.2.2.2 Réalisation d’un nomogramme
On cherche, ici, à réaliser un nomogramme, un graphique permettant d'obtenir des

prévisions de façon individuelle pour chaque patient Tout d’abord, on effectue sensiblement
le même travail qu’auparavant en estimant le risque individuel à partir des 5 gènes à risques.
Cependant l’estimation des coefficients de régression se fait à partir d’une régression
logistique et non pas une régression de Cox. On détaille la formule ci-dessous :
1
𝑟𝑖𝑠𝑞𝑢𝑒 = ( )
(1 + 𝑒
On prend le même exemple que précédemment avec un individu possédant les 4

mêmes variants avec un allèle mineur. On applique la formule à cet individu, on obtient un
risque estimé de développer une pancréatite de 0,49. De la même manière que
précédemment, le traitement est automatisé sur Excel. A noter que l’on a transformé la
variable binaire IL16_dom_surv en variable continue afin d’éviter les soucis de coefficient de
régression estimé négatif. On a donc inséré dans notre modèle la variable IL16_3G à la place
de la variable IL16_dom_surv qui présente 3 valeurs 0, 1 ou 2 pour chaque combinaison
allélique possible. On présente l’automatisation ci-dessous :
Estimation du risque de développer une pancréatite

𝛽𝑖 Xi
Constante -5,33 /
IL16_3G 0,46 1,00
MYBBP1A_dom_surv 2,20 1,00
SPECC1_dom_surv 1,20 1,00
SPEF2_dom_surv 1,15 0,00
ADAMTS17_dom_surv 1,42 1,00
Risque estimé de développer une pancréatite = 0,49
Tableau 24 : Automatisation Excel du calcul du risque de développement d’une pancréatite à partir

d’une régression logistique
On présente le détail du calcul de risque ; en appliquant la formule on a :
Risque = 1 / (1 + exp(-(-5,33 + 0,46*1 + 2,2*1 + 1,2*1 + 1,15*0 + 1,42*1)))
Cette estimation à partir de la régression logistique se rapproche de la précédente

estimation du risque de développer une pancréatite. Cela semble donc cohérent, on peut
désormais poursuivre par l’élaboration du nomogramme.
42
On détermine le gène avec le plus d’effet sur l’apparition de pancréatite. On vérifie les
p-values et on découvre que le gène MYBBP1A est le plus significatif. Un patient porteur
d’allèle(s) mineur(s) de ce gène se verra donc attribué 100 points alors qu’un patient avec
deux allèles majeurs n’aura pas de points. Afin de déterminer le poids des autres variables
dans le nomogramme, on effectue le rapport de leur coefficient Béta par le coefficient Béta
de la variable MYBBP1A_dom_surv multiplié par 100. On obtient donc l’échelle de points
suivante pour les individus porteurs d’allèles mineurs :
IL16_dom_surv = 20,91 points
MYBBP1A_dom_surv = 100 points
SPECC1_dom_surv = 54,55 points
SPEF2_dom_surv = 52,27 points
ADAMTS17_dom_surv = 64,55 points
On a donc un total potentiel de points pour un individu possédant au moins un allèle

mineur pour chaque gène à risque de 292,28 points. On réalise le nomogramme puis on le
présente ci-dessous :
43
Graphique 13 : Nomogramme prédisant les probabilités de développer une pancréatite selon le
génotype
Ce graphique permet donc assez simplement d’associer un génotype à une probabilité.

En effet lorsque l’on additionne les points attribués en fonction des variants présents chez
l’individu analysé, on obtient un total de points compris entre 0 et 293. Ensuite on trace une
perpendiculaire à cette échelle de points jusqu’à l’échelle de probabilité. A l’intersection de
44
cette perpendiculaire et de l’échelle de probabilité, on peut lire la probabilité associée au
risque de développer une pancréatite suite au traitement contre la leucémie.
3.2.2.3 Evaluation du modèle
On va maintenant cherche à évaluer la qualité de notre modèle. On vérifie si les

prédictions et les probabilités estimées sont globalement cohérentes. Pour cela, on réalise
une courbe ROC (Receiver Operating Characteristic), une courbe de performance de notre
modèle. En effet, l’aire sous la courbe va nous donner une estimation de la performance
diagnostique de nos tests. L’aire est comprise entre 0 et 1 et plus celle-ci est grande, plus les
prédictions sont bonnes. On présente ci-dessous la qualité du modèle de régression logistique
en comparant le modèle complet comprenant les 5 gènes à risque avec un modèle
comprenant seulement le gène MYBBP1A.
Graphique 14 : Courbe ROC évaluant la cohérence du modèle de régression logistique
Tableau 25 : Aire sous la courbe ROC
45
On retrouve donc cette courbe Roc avec la sensibilité en fonction de l’antispécificité (1–
spécificité). Par équivalence, on exprime ici la proportion de vrais positifs chez les malades en
fonction de 1 moins la proportion de vrais négatifs chez les non malades. Concernant le
modèle complet, on a une aire sous la courbe égale à 0,849, soit des prédictions globalement
bonnes. En effet, on peut interpréter ce résultat : dans 85 % des cas, un individu malade aura
une probabilité estimée plus grande qu’un individu sain. On confirme cette cohérence par
comparaison avec le modèle avec 1 variable explicative, le gène MYBBP1A. En effet, avec une
aire sous la courbe de 0,752, le second modèle est beaucoup moins bon et valide l’efficacité
de notre premier modèle. On peut également vérifier la cohérence de notre modèle en créant
des groupes de risque à partir des probabilités estimées par la régression logistique. On définit
3 groupes d’individus, les individus ayant une probabilité inférieure à 10 % de développer une
pancréatite représentant un faible risque, les individus ayant une probabilité comprise entre
10 % et 40 %, puis les individus ayant une probabilité supérieure à 40 %, soit un risque élevé.
On analyse ensuite le risque à l’aide de l’estimateur de Kaplan-Meier et on obtient ce
graphique :
Graphique 15 : Risque associé à la pancréatite en fonction du groupe de risque
On vérifie que le pourcentage d’individu ayant développé une pancréatite correspond

au groupe de risque associé. D’un point de vue général, on remarque que les trois groupes se
distinguent nettement. Au bout de 100 jours, plus de 40 % des individus ayant un risque élevé
ont développé une pancréatite. On retrouve donc dans ce groupe les individus ayant une
46
probabilité estimée de plus de 0,4 donc cela semble cohérent. De même pour les individus
ayant un risque modéré et faible, on retrouve respectivement 20 % et 2 % des individus ayant
contracté une pancréatite. On peut donc conclure que notre modèle est cohérent et fiable
avec des probabilités estimées correspondantes au risque associé.
47
3.3 Difficultés rencontrées
Les difficultés majeures rencontrées sont liées au domaine du stage, la recherche en

génétique. D’un point de vue extérieur, c’est très compliqué de s’approprier ce domaine en
seulement quelques semaines car la formation STID ne propose pas d’enseignement en
génétique. Cependant, avec quelques rappels des cours de lycée et de longues heures de
documentation, la compréhension acquise permet de réaliser des interprétations cohérentes.
D’autre part le logiciel statistique utilisé était SPSS, un logiciel peu ou jamais utilisé dans ma
formation. La prise en main du logiciel a donc nécessité quelques jours bien qu’il reste
suffisamment intuitif. Enfin en ces temps de pandémie, le travail à distance avec Madame
Krajinovic fut en premier lieu assez compliqué. En effet lorsqu’on découvre un sujet, les
questions et les hésitations affluent mais heureusement Madame Krajinovic était joignable en
tout temps par mail et par visio-conférence. Ces difficultés étaient donc d’ordre technique et
logistique mais j’estimerai à 1 ou 2 semaines d’adaptation complète afin de se sentir
pleinement intégré au rythme de travail.
48
CONCLUSION
Pour terminer, ce stage de 10 semaines au sein du centre de recherche du CHU Sainte-

Justine aura été une expérience professionnelle et humaine très enrichissante. J’ai pu faire
partie d’une équipe de recherche et découvrir le monde professionnel à l’étranger. Bien que
le thème de la génétique ne m’était pas familier, ce fût un plaisir d’apporter mes
connaissances statistiques au domaine de la santé. J’ai été en relation avec une équipe de
recherche, un milieu inconnu qui renforce mon apprentissage.
Lors de ce stage, j’ai mis en application mes connaissances acquises pendant mes deux
ans de formation STID. En effet, j’ai notamment utilisé des logiciels statistiques tels que SPSS,
un logiciel que je découvrais, avec lesquels des régressions logistiques, des analyses de survie
ou encore des test d’hypothèses ont été réalisés. J’ai également modifié une base de données
avec la création, modification de certaines variables sollicitant mes capacités de traitement de
base de données.
J’ai pu mener à bien une étude statistique grâce aux analyses réalisées sur SPSS, mais
aussi grâce à d’autres logiciels tels que Rstudio me permettant de vérifier des hypothèses
statistiques ou encore Excel pour l’automatisation de calculs et la mise en forme de tableaux.
La réalisation de rapports et de comptes-rendus s’est faite, quant-à-elle sur Word.
Ma principale mission était de développer un modèle de prédiction utilisant plusieurs

gènes à risques afin d’estimer la probabilité de développer, à la suite d’une chimiothérapie,
un effet secondaire parmi les allergies, la thrombose ou la pancréatite. C’est ce dernier que
nous avons étudié. Grâce à cette modélisation, il est maintenant possible, à partir du
génotype, d’estimer la probabilité pour un patient quelconque de développer une pancréatite
après le traitement de sa leucémie. Il appartient maintenant aux médecins de déterminer un
seuil au-dessus duquel le traitement doit être modifié et adapté pour le patient.
Dans le futur, cette analyse pourra être généralisée aux autres effets secondaires avec
l’estimation de la probabilité de développer une thrombose ou une allergie. On pourra
également réaliser une analyse conjointe des trois effets secondaires où l’on estimerait la
probabilité de développer un des trois effets secondaires. On pourra également ajouter les
facteurs non-génétiques dans le modèle tels que l’âge, le sexe, le type de traitement etc…
Enfin ces résultats pourront être vérifiés et confirmés par la même analyse sur la cohorte de
validation.
Ce projet a été très inspirant et constitue une grande source de motivation pour le
futur. En effet les enjeux de ce stage étaient de savoir si notre projet professionnel allait être
49
renforcé ou fragilisé. Je peux affirmer que ce stage l’a renforcé tant j’ai aimé réaliser celui-ci.
Le sujet du cancer et plus particulièrement celui de la leucémie est une problématique grave
qui nécessite de longues années de recherche afin de développer un traitement fiable à 100
%. Cela a donc été un plaisir de pouvoir apporter mes connaissances statistiques à ce sujet en
espérant avoir été utile. De plus ce stage m’a permis de gagner en maturité et en autonomie
car les échanges avec Madame Krajinovic ne se faisaient qu’à distance. D’un point de vue
statistique, j’ai pu acquérir et renforcer mes connaissances notamment en modèles de
prédiction et en analyses de survie grâce aux conseils de Madame Krajinovic. La mission était
parfaitement adaptée à des étudiants en 2ème année de DUT, ce qui l’a rendu d’autant plus
agréable.
Enfin cet expérience à l’étranger m’a permis de découvrir une nouvelle culture, un
nouveau mode de vie et d’exercer mon anglais dans la vie quotidienne. Je tenais une nouvelle
fois à remercier l’ensemble de l’équipe de recherche et en particulier Madame Krajinovic pour
sa confiance, sa bienveillance ainsi que pour m’avoir donné l’opportunité de de vivre cette
magnifique expérience.
50
LEXIQUE
Hématologie-oncologie (P.8) : spécialité médicale qui se consacre à l’étude, au diagnostic et

au traitement des maladies de la moelle osseuse, du sang et du système lymphatique
Leucémie aiguë lymphoblastique (P.8) : cancer, touchant principalement les enfants, qui
prend naissance dans les cellules souches du sang. Les cellules de la moëlle osseuse sont très
rapidement remplacées par les cellules cancéreuses
Tumeur (P.8) : augmentation de volume d'une partie de corps, causée par une croissance
anormale des tissus. Elles peuvent être bégnines ou malignes (cancer)
Chimiothérapie (P.9) : usage de certaines substances chimiques pour traiter une maladie
Acide aminé (P.9) : molécules qui, associées dans un ordre précis, vont former des protéines.
Acide aspartique (P.9) : un acide aminé
Thrombose (P.9) : caillot de sang qui se forme dans une veine empêchant le sang de circuler
correctement
Pancréatite (P.9) : inflammation aiguë du pancréas provoquant diverses complications
Obstétrique (P.11) : spécialité chirurgicale dédiée à la surveillance du déroulement de la

grossesse et de l'accouchement
Dialyse (P.11) : Processus d’élimination des résidus, des liquides en excès de l’organisme
Pharmacologie (P.12) : science qui étudie les médicaments
Moelle osseuse (P.13) : tissu situé au centre des os produisant les différentes cellules du sang
Insuffisance hépatique (P.13) : dégradation sévère du foie
Anémie (P.13) : baisse anormale du taux d'hémoglobine (une protéine) dans le sang
Cohorte (P.16) : échantillon d’individu participant à notre analyse
Globule (P.17) : cellule dans le sang
Gènes à risque (P.19) : gènes associés significativement à l’un des médicament compris dans
le traitement de la leucémie
Polymorphisme génétique (P.19) : forme différente que peut prendre un même gène
Allèle mineur (P.19) : allèle peu fréquent (moins de 5 % des cas)
Allèle majeur (P.19) : allèle très fréquent (plus de 95 % des cas)
Génome (P.21) : ensemble de l'information génétique d'un organisme
51
Génotypage (P.21) : processus déterminant l'existence de variations génétiques, sur une
partie ou la totalité du génome
Homozygote (P.23) : deux gènes (ou allèles d’un polymorphisme) identiques sur chaque
chromosome de la même paire
Hétérozygote (P.25) : deux gènes différents sur chaque chromosome de la même paire
52
REFERENCES
1. Rachid Abaji, Vincent Gagné, Chang Jiang Xu, Jean-François Spinella, Francesco Ceppi,
Caroline Laverdière, Jean-Marie Leclerc, Stephen E. Sallan, Donna Neuberg, Jeffery L.
Kutok, Lewis B. Silverman, Daniel Sinnett and Maja Krajinovic Whole-exome
sequencing identified genetic risk factors for asparaginase-related complications in
childhood ALL patients. Research paper, Oncotarget, 2017, Vol. 8, (No. 27), pp: 43752-
43767
2. Jia X, Baig MM, Mirza F, Gholam Hosseini H. A Cox-Based Risk Prediction Model for
Early Detection of Cardiovascular Disease: Identification of Key Risk Factors for the
Development of a 10-Year CVD Risk Prediction. Adv Prev Med. 2019 Apr
9;2019:8392348.
3. Iasonos A, Schrag D, Raj GV, Panageas KS. How to build and interpret a nomogram
for cancer prognosis. J Clin Oncol. 2008;26(8):1364-70.
4. Visscher H, Ross CJ, Rassekh SR, Barhdadi A, Dubé MP, Al-Saloos H, et al,
Pharmacogenomic prediction of anthracycline-induced cardiotoxicity in children. J
Clin Oncol. 2012 May 1;30(13):1422-8.
53
TABLE DES ANNEXES
Annexe I : Frise chronologique relatant les principales dates de développement du CHU

Sainte-Justine ........................................................................................................................... 59
Annexe II : Dictionnaire des variables ........................................................................... 60
Annexe III : Récapitulatif des gènes à risque ................................................................. 62
Annexe IV : Sorties logicielles du modèle de Cox comprenant le gène SPECC1 ........... 63
Annexe V : Sorties logicielles du modèle de Cox comprenant le gène SPEF2............... 64
Annexe VI : Sorties logicielles du modèle de Cox comprenant le gène ADAMTS17 ..... 65
Annexe VII : Diagramme de Gantt ................................................................................. 66
54
TABLE DES FIGURES
Figure 1 : Localisation du Québec (image 1) et de Montréal (image 2) ........................ 10
Figure 2 : Modèle de la régression logistique ............................................................... 14
Figure 3 : Modèle de la régression de Cox .................................................................... 14
Figure 4 : Composition d’une paire de chromosomes. ................................................. 19
Figure 5 : Le processus de sélection après l'étude d'association à l'échelle de l'exome

(source : www.impactjournals.com/oncotarget/) ................................................................... 21
55
TABLE DES GRAPHIQUES
Graphique 1 : Distribution des effets secondaires étudiés dans les cohortes de

découverte (QcALL) et de réplication (DFCI) ............................................................................ 18
Graphique 2 : Contraction d’allergies ou non selon le génotype du gène SLC7A13..... 22
Graphique 3 : Contraction de thrombose ou non selon le génotype du gène PKD2L1 25
Graphique 4 : Contraction de pancréatite ou non selon le génotype du gène MYBBP1A

.................................................................................................................................................. 27
Graphique 5 : Association des gènes associés à deux toxicités dont la pancréatite .... 30
Graphique 6 : Développement d’effets secondaires selon le nombre de gènes à risques

.................................................................................................................................................. 30
Graphique 8 : Risque associé à la pancréatite selon le génotype du gène IL16 ........... 33
Graphique 9 : Résidus martingales du gène IL16 en fonction du temps de survie....... 34
Graphique 10 : Risque associé à la pancréatite selon le génotype du gène MYBBP1A 36
Graphique 11 : Résidus martingales du gène MYBBP1A en fonction du temps de survie

.................................................................................................................................................. 37
Graphique 12 : Résidus martingales du modèle complet en fonction du temps de survie

.................................................................................................................................................. 39
Graphique 13 : Risque associé à la pancréatite à la moyenne de toutes les variables 40
Graphique 14 : Nomogramme prédisant les probabilités de développer une pancréatite

selon le génotype ..................................................................................................................... 44
Graphique 15 : Courbe ROC évaluant la cohérence du modèle de régression logistique

.................................................................................................................................................. 45
Graphique 16 : Risque associé à la pancréatite en fonction du groupe de risque ....... 46
56
TABLE DES TABLEAUX
Tableau 1 : Caractéristiques cliniques des cohortes de découverte (QcALL) et de

réplication (DFCI) ...................................................................................................................... 16
Tableau 2 : Distribution des effets secondaires étudiés dans les cohortes de découverte
(QcALL) et de réplication (DFCI) ............................................................................................... 17
Tableau 3 : Comparaison du génotype GG par rapport au génotype AA dans le gène

SLC7A13 .................................................................................................................................... 23
Tableau 4 : Comparaison du génotype AG par rapport au génotype AA dans le gène

SLC7A13 .................................................................................................................................... 23
Tableau 5 : Comparaison des génotypes AG et GG par rapport au génotype AA dans le

gène SLC7A13 ........................................................................................................................... 24
Tableau 6 : Comparaison du génotype CA par rapport au génotype CC dans le gène

PKD2L1...................................................................................................................................... 26
Tableau 7 : Comparaison des génotypes CA et AA par rapport au génotype CC dans le

gène PKD2L1 ............................................................................................................................. 26
Tableau 8 : Comparaison des allèles GC par rapport aux allèles GG dans le gène
MYBBP1A .................................................................................................................................. 28
Tableau 9 : Comparaison des génotypes GC et CC par rapport au génotype GG dans le

gène MYBBP1A ......................................................................................................................... 28
Tableau 10 : Effectifs théoriques et observés concernant l’apparition de la pancréatite

selon le génotype du gène MYBBP1A ...................................................................................... 28
Tableau 11 : Test du Khi2 et de Fisher entre la présence de pancréatite et le génotype

du gène MYBBP1A .................................................................................................................... 29
Tableau 12 : Développement d’effets secondaires selon le nombre de gènes à risques

.................................................................................................................................................. 31
Tableau 13 : Test du log rank comparant la survie entre les homozygotes de génotype
TT et les porteurs d’allèles mineurs TG et GG.......................................................................... 33
Tableau 14 : Test des risques proportionnels sur le gène IL16 ..................................... 34
Tableau 15 : Comparaison des génotypes TG et GG par rapport au génotype TT dans le

gène IL16 .................................................................................................................................. 35
57
Tableau 16 : Test du log rank comparant la survie entre les porteurs de l’homozygote
de génotype GG et les porteurs d’allèles mineurs GC et CC .................................................... 36
Tableau 17 : Test des risques proportionnels sur le gène MYBBP1A............................ 37
Tableau 18 : Comparaison des génotypes GC et CC par rapport au génotype GG dans le

gène MYBBP1A ......................................................................................................................... 38
Tableau 19 : Test des risques proportionnels sur le modèle complet .......................... 39
Tableau 20 : Estimation des différents coefficients de régression à l’aide de la régression

de Cox ....................................................................................................................................... 39
Tableau 21 : Moyenne des différentes variables incluses dans le modèle................... 40
Tableau 22 : Exemple du génotype des 5 gènes à risque d’un patient quelconque .... 41
Tableau 23 : Automatisation Excel du calcul du risque de développement d’une

pancréatite à partir d’une régression de Cox........................................................................... 41
Tableau 24 : Automatisation Excel du calcul du risque de développement d’une

pancréatite à partir d’une régression logistique ...................................................................... 42
Tableau 25 : Aire sous la courbe ROC............................................................................ 45
58
ANNEXES
Frise chronologique de l’histoire du CHU
Annexe I : Frise chronologique relatant les principales dates de développement du CHU Sainte-Justine
59
60
Nom Type Libellé Valeur
id Qualitative Identifiant
Cohort Qualitative Cohorte 1 (QcAll) / 2 (DFCI)
1 (Protocole 1(2000)) / 2 (Protocole 2(1995)) /
prot_1 Qualitative Protocole
3 (Protocole 3(1991)) / 4 (Protocole 4(1987))
recsex Qualitative Sexe recodé 0 (Femme) / 1 (Homme)
Age_rec_10etPlus Qualitative Age recodé en classe 1 (0 à 9 ans) / 2 (10 ans et plus)
recrisk2 Qualitative Risque défini par le protocole 0 (standard risk) / 1 (high and ver high)
Annexe II : Dictionnaire des variables

asp_prior_switch Qualitative Type de médicament 1/ 2
pancreatit_rec Qualitative Présence de pancréatite 0 (Non) / 1 (Oui)
allergies_rec Qualitative Présence d'allergies 0 (Non) / 1 (Oui)
thrombose_rec Qualitative Présence de thrombose 0 (Non) / 1 (Oui)
ALL_PAN_THR_0_12 Qualitative Présence d'effets secondaires 0 (Non) / 1 (Oui)
rs72755233_ADAMTS17_P1 Qualitative Génotype du gène ADAMTS17 GG / GA / AA
Dictionnaire des variables
ADAMTS17_dom_surv Qualitative Composé d'au moins un allèle mineur 0 (Non) / 1 (Oui)

rec_rs3809849_MYBBP1A_A2 Qualitative Génotype du gène MYBB1A GG / GC / CC
MYBBP1A_dom_surv Qualitative Composé d'au moins un allèle mineur 0 (Non) / 1 (Oui)
rs9908032_SPECC1_PANCREATITIS_P3 Qualitative Génotype du gène SPECC1 CC / CG / GG
SPECC1_dom_surv Qualitative Composé d'au moins un allèle mineur 0 (Non) / 1 (Oui)
rs11556218_IL16_THROMBOSIS_T6 Qualitative Génotype du gène IL16 TT / TG / GG
IL16_dom_surv Qualitative Composé d'au moins un allèle mineur 0 (Non) / 1 (Oui)
IL16_3G QuantitativeGénotype du gène IL16 recodé 0 (TT) / 1 (TG) / 2 (GG)
rs34708521_SPEF2_THROMBOSIS_T3 Qualitative Génotype du gène SPEF2 GG / GA / AA
SPEF2_dom_surv Qualitative Composé d'au moins un allèle mineur 0 (Non) / 1 (Oui)
Temps_survie QuantitativeJours avant le dvlpt de la pancréatite /
Combined_MYBBP1A_SPEF2_SPECC1_
Qualitative Nombre de gènes à risque 0 (0) / 1 (1) / 2 (2 ou plus)
ADAMTS17_Pancreatitis_0_1_234
gp_risque Qualitative Risque de développer une pancréatite 0 (Faible) / 1 (Modéré) / 2 (Elevé)
Récapitulatif des gènes à risque
Complication Complication
Toxicity Gene_SNP OR (95%-CI) P Model OR (95%-CI) P
+ - + -
SLC7A13_rs9656982: A > G*
37 217
AA 1 1
(77,1 %) (87,2 %)
8 30 1,6 2,1
AG 0,3 0,02
(16,7 %) (12,1 %) (0,7-3,7) (1,1-3,9)
3 2 8,8
GG 0,03
(6,3 %) (0,8 %) (1,4-54,5)
MYBBP1A_rs3809849: G > C*
20 160
GG 1 1
(41,7 %) (65 %)
Allergie 23 79 2,3 2,4 -4
GC 0,01 6x10
(47,9 %) (32,1 %) (1,2-4,5) (1,4-3,9)
5 7 5,7
CC 0,01
(10,4 %) (2,9 %) (1,7-19,7)
YTHDC2_rs75714066: G > C
37 232 37 232
GG 1 1 GG 1 -
(77,1 %) (91,3 %) (77,1 %) (91,3 %)
11 21 3,3
GC 0,005
(22,9 %) (8,3 %) (1,5-7,4) 11 22 3,1
GC+CC 0,008
0 1 (22,9 %) (8,7 %) (1,4-7,0)
CC NA -
(0 %) (0,4 %)
ADAMTS17_rs72755233: G > A
7 232 7 232
GG 1 1 GG 1 -
(46,7 %) (83,2 %) (46,7%) (83,1 %)
8 45 5,9
GA 0,002
(53,3 %) (16,1 %) (2-17,1) 8 47 5,6
GA+AA 0,002
0 2 (53,3 %) (16,9 %) (1,9-16,3)
AA NA -
(0%) (0,7 %)
MYBBP1A_rs3809849: G > C
3 177 3 177
GG 1 1 GG 1 -
(20 %) (63,4 %) (20 %) (63,4 %)
Pancréatite 12 90 7,9
GC 0,0005
(80 %) (32,3 %) (2,2-28,6) 12 102 6,9
GC+CC 0,002
0 12 (80 %) (36,6 %) (1,9-25,2)
CC NA -
(0 %) (4,3 %)
SPECC1_rs9908032: C > G*
8 228
CC 1 1
(53,3 %) (80,6 %)
5 53 2,7 3,9 -4
CG 0,1 8x10
(33,3 %) (18,7 %) (0,8-8,5) (1,6-9,2)
2 2 28,5
GG 0,009
(13,3 %) (0,7 %) (3,6-228,8)
61
(13,3 %) (0,7 %) (3,6-228,8)
PKD2L1_rs6584356: C > A
7 257 7 257
CC 1 1 CC 1 -
(70 %) (92,1 %) (70 %) (92,1 %)
2 22 3,3
CA 0,2
(20 %) (7,9 %) 0,7-17) 3 22 5
CA+AA 0,05
1 0 (30 %) (7,9 %) (1,2-20,7)
AA NA -
(10 %) (0 %)
RIN3_rs3742717: C > T
6 219
CC 1 1
(60 %) (77,7 %) 8 277
CC+TT
2 58 1,3 (80 %) (98,2 %) 13,8
CT 1 0,02
(20 %) (20,6 %) (0,2-6,4) (2,3-82,5)
2 5 14,6 2 5
TT 0,02 TT
(20 %) (1,8 %) (2,3-91) (20 %) (1,8 %)
SPEF2_rs34708521: G > A
5 242 5 242
GG 1 1 GG 1 -
(62,5 %) (91 %) (62,5 %) (91 %)
3 23 6,3
GA 0,03
(37,5 %) (8,7 %) (1,4-28,1) 3 24 6,1
GA+AA 0,03
0 1 (37,5 %) (9 %) (1,4-26,9)
AA NA -
(0 %) (0,4 %)
Thrombose
SLC39A12_rs62619938: C > T*
6 262
CC 1 1
(60 %) (91 %)
3 23 5,7 4,4 -4
CT 0,04 5x10
(30 %) (8 %) (1,3-24,3) (1,6-11,7)
1 3 14,6
TT 0,1
(10 %) (1 %) (1,3-161)
MPEG1_rs7926933: G > A
4 234 4 234
GG 1 1 GG 1 -
(44,4 %) (82,1 %) (44,4 %) (82,1 %)
5 45 6,5
GA 0,009
(55,6 %) (15,8 %) (1,7-25,1) 5 51 5,7
GA+AA 0,01
0 6 (55,6 %) (17,9 %) (1,5-22,1)
AA NA -
(0 %) (2,1 %)
IL16_rs11556218: T > G
4 238 4 238
TT 1 1 TT 1 -
(50 %) (88,2 %) (50 %) (88,1 %)
4 30 7,9
TG 0,009
(50 %) (11,1 %) (1,9-33,4) 4 32 7,4
TG+GG 0,01
0 2 (50 %) (11,9 %) (1,8-31,2)
GG NA -
(0 %) (0,7 %)
Annexe III : Récapitulatif des gènes à risque
62
Sorties logicielles des modèles de Cox
Annexe IV : Sorties logicielles du modèle de Cox comprenant le gène SPECC1
63
Annexe V : Sorties logicielles du modèle de Cox comprenant le gène SPEF2
64
Annexe VI : Sorties logicielles du modèle de Cox comprenant le gène ADAMTS17
65
Diagramme de Gantt
Annexe VII : Diagramme de Gantt
66
TABLE DES MATIERES
Remerciements................................................................................................................ 4
Liste des sigles et abréviations ........................................................................................ 5
Sommaire ........................................................................................................................ 7
Introduction ..................................................................................................................... 8
1. Contexte du stage .................................................................................................. 10
1.1 Le CHU Sainte-Justine, en bref ....................................................................... 10
1.1.1 Sa localisation ............................................................................................ 10
1.1.2 Présentation de l’organisme...................................................................... 10
1.1.3 Son histoire ................................................................................................ 11
1.1.4 Son excellence clinique .............................................................................. 12
1.2 Le sujet ............................................................................................................ 12
1.2.1 La leucémie lymphoblastique aigüe .......................................................... 13
1.2.2 La problématique....................................................................................... 13
1.2.3 Méthodes statistiques ............................................................................... 14
1.2.4 Logiciels utilisés ......................................................................................... 15
2. Présentation des données ..................................................................................... 16
2.1 Présentation de l’échantillon étudiée ............................................................ 16
2.1.1 Caractéristiques cliniques .......................................................................... 16
2.1.2 Effets indésirables...................................................................................... 17
2.2 Présentation des variables étudiées............................................................... 18
2.2.1 Variables cliniques ..................................................................................... 18
2.2.2 Variables génétiques ................................................................................. 19
2.3 Transformation et création de variables. ....................................................... 20
2.3.1 Recodage en variables binaires ................................................................. 20
2.3.2 Création d’une variable de survie.............................................................. 20
3. Traitements et Analyses......................................................................................... 21
67
3.1 Identification des gènes a risque .................................................................... 21
3.1.1 Allergie ....................................................................................................... 22
3.1.2 Thrombose ................................................................................................. 24
3.1.3 Pancréatite................................................................................................. 27
3.1.4 Associations complémentaires .................................................................. 29
3.2 Risques de développer une pancréatite ......................................................... 32
3.2.1 Risque associé à chaque gène à risque ..................................................... 32
3.2.1.1 IL16 ..................................................................................................... 32
3.2.1.2 MYBBP1A ............................................................................................ 35
3.2.2 Risque individuel associé aux 5 gènes à risques........................................ 38
3.2.2.1 Automatisation du calcul du risque individuel ................................... 38
3.2.2.2 Réalisation d’un nomogramme .......................................................... 42
3.2.2.3 Evaluation du modèle ......................................................................... 45
3.3 Difficultés rencontrées ................................................................................... 48
Conclusion ..................................................................................................................... 49
Lexique........................................................................................................................... 51
Références ..................................................................................................................... 53
Table des annexes ......................................................................................................... 54
Table des figures............................................................................................................ 55
Table des graphiques..................................................................................................... 56
Table des tableaux ......................................................................................................... 57
Annexes ......................................................................................................................... 59
Frise chronologique de l’histoire du CHU.................................................................. 59
Dictionnaire des variables ......................................................................................... 60
Récapitulatif des gènes à risque ................................................................................ 61
Sorties logicielles des modèles de Cox ...................................................................... 63
Diagramme de Gantt ................................................................................................. 66
Table des matières ........................................................................................................ 67
68
Resume .......................................................................................................................... 70
69
RESUME
Mon stage de fin de DUT s’est déroulé au CHU Sainte-Justine à Montréal, au Canada
du 04 avril 2022 au 10 juin 2022. J’ai intégré le centre de recherche et plus particulièrement
l’équipe de recherche de Madame Krajinovic afin de réaliser une étude statistique.
En effet, ma mission était de développer des modèles de prédiction afin d’estimer la

probabilité pour les patients atteints de leucémie lymphoblastique aigüe de contracter des
effets indésirables conséquents au traitement. On a restreint l’étude à l’explication d’un
seul effet indésirable, la pancréatite, par manque de temps.
Les modèles de prédiction ont été réalisés à partir de la génétique des patients, selon
les gènes associés préalablement à la pancréatite. On retrouve deux modèles de prédiction,
l’un réalisé par une régression logistique, et l’autre, par une régression de Cox. La qualité
du modèle de régression logistique a été évaluée et semble être bonne.
Grâce aux logiciels statistiques tels que Rstudio, SPSS ou Excel, on peut désormais
estimer pour chaque patient, la probabilité de développer une pancréatite suite au
traitement de la leucémie. Le traitement pourra alors être modifié si la patient présente un
risque trop élevé
My internship occurred in the CHU Sainte-Justine in Montreal, Canada from April 4,

2022 to June 10, 2022. I settled in the research center and more specifically in the Ms.
Krajinovic's research team in order to carry out a statistical study.
Indeed, my objective was to develop predictive models to estimate the probability

for patients with acute lymphoblastic leukemia to develop adverse drug reaction. The study
was restricted to the explanation of a single adverse effect, pancreatitis, due to a lack of
time.
The prediction models were made from the genetics of the patients, according to the
genes previously associated with pancreatitis. There are two prediction models, one carried
out by a logistic regression, and the other, by a Cox regression. The quality of the logistic
regression model was assessed and appears to be good.
Thanks to statistical software such as Rstudio, SPSS or Excel, it is now possible to

estimate for each patient the probability of developing pancreatitis following treatment for
leukemia. The treatment can then be modified if the patient is at too high a risk.
70

Vannes - 2-Monjaret Pierre - Rapport2022

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Vannes - 2-Monjaret Pierre - Rapport2022

Transféré par

Droits d'auteur :

Formats disponibles

CHU SAINTE-JUSTINE

« DEVELOPPEMENT DE MODELES DE PREDICTION AFIN D’ESTIMER

Tutrice de stage : Maja Krajinovic

Enseignante tutrice : Alison Leonard

Tout d’abord, je remercie ma directrice de recherche et tutrice de stage Madame Maja

Enfin je remercie Alison Leonard, mon enseignante tutrice de m’avoir accordée sa

ADN : Acide Désoxyribonucléique

CHU : Centre Hospitalier Universitaire

CHUSJ : Centre Hospitalier Universitaire Sainte-Justine

DFCI : Dana-Farber Cancer Institute

DSC : Département de Santé Communautaire

DUT : Diplôme Universitaire de Technologie

IUT : Institut Universitaire de Technologie

QcALL : Québec Acute Lymphoblastic Leukemia

SPSS : Statistical Package for the Social Sciences

STID : Statistique et Informatique Décisionnelle

« DEVELOPPEMENT DE MODELES DE PREDICTION AFIN D’ESTIMER

1. Contexte du stage .................................................................................................. 10

1.1 Le CHU Sainte-Justine, en bref ....................................................................... 10

1.2 Le sujet ............................................................................................................ 12

2. Présentation des données ..................................................................................... 16

2.1 Présentation de l’échantillon étudiée ............................................................ 16

2.2 Présentation des variables étudiées............................................................... 18

2.3 Transformation et création de variables. ....................................................... 20

3.1 Identification des gènes a risque .................................................................... 21

3.2 Risques de développer une pancréatite ......................................................... 32

3.3 Difficultés rencontrées ................................................................................... 48

Ma formation en Statistique et Informatique Décisionnelle (STID) me permet justement

Cette tâche doit permettre de mettre en application mes connaissances et

1.1 Le CHU Sainte-Justine, en bref

Le CHU Sainte-Justine se situe à Montréal, dans la province du Québec au Canada et

Source : 123rf.com Source : researchgate.net

1.1.2 Présentation de l’organisme

Depuis le XIXème siècle, la médecine s’est massivement développée dans le monde

En 1928, on observe la création d’un département d’obstétrique9 afin de prendre en

En effet, en l’espace de 5 ans, l’hôpital va inaugurer 3 nouvelles branches et 2 nouvelles

On notifie peu de changements ensuite mis à part quelques travaux d’agrandissement

On résume ces événements grâce à une frise chronologique placée en annexe

1.1.4 Son excellence clinique

Le sujet se fonde sur le traitement de la leucémie lymphoblastique aigüe et notamment

La leucémie lymphoblastique aigüe est une maladie touchant majoritairement les

La problématique de ce traitement de la leucémie est donc d’identifier les différents

1.2.3 Méthodes statistiques

Le développement de modèles de prédiction se fera donc à partir des facteurs

Avec X la valeur de la variable étudiée

Figure 2 : Modèle de la régression logistique

Figure 3 : Modèle de la régression de Cox

Afin de réaliser ces différents modèles de prédiction, le logiciel SPSS sera

2.1 Présentation de l’échantillon étudiée

La population est constituée de l’ensemble des enfants atteints de leucémie aiguë

2.1.1 Caractéristiques cliniques

On présente ci-dessous les différentes caractéristiques cliniques des deux cohortes :

Tableau 1 : Caractéristiques cliniques des cohortes de découverte (QcALL) et de réplication (DFCI)

2.1.2 Effets indésirables

On présente également la distribution des effets secondaires dans la population tels

2.2 Présentation des variables étudiées

2.2.1 Variables cliniques

On dispose de nombreuses variables concernant les caractéristiques cliniques mais

Parmi le patrimoine génétique du patient, on dispose du génotype des gènes à risque17.

Figure 4 : Composition d’une paire de chromosomes.

On a également les effets secondaires que le patient a contractés suite au traitement

2.3 Transformation et création de variables.

2.3.1 Recodage en variables binaires

Risque = 1 / (1 + exp(-(-5,33 + 0,461 + 2,21 + 1,21 + 1,150 + 1,42*1)))