Vous êtes sur la page 1sur 20

Ministère de l’Enseignement Supérieur

et de la Recherche Scientifique
  
Université de Carthage
  
Institut National des Sciences
Appliquées et de Technologie

Rapport de Stage Obligatoire d’Eté

Filière : Biologie Industrielle


Niveau : 4ième Année

Réalisé par : Firas AOUINET

Organisme d’accueil :

Institut Pasteur de Tunis

Année Universitaire : 2018/2019


Ministère de l’Enseignement Supérieur
et de la Recherche Scientifique
  
Université de Carthage
  
Institut National des Sciences
Appliquées et de Technologie

Rapport de Stage Obligatoire d’Eté

Filière : Biologie Industrielle


Niveau : 4ème Année

Sujet :

Etude bioinformatique du réseau transcriptionnel des


ZCFs de champignons pathogènes pour mieux comprendre
leurs interactions
Réalisé par : Firas AOUINET

Organisme d’accueil :

Institut Pasteur de Tunis

Responsable à l’institut: Avis de la commission des stages


Dr. Oussema Khammassi

(Cachet et Signature
obligatoires)

Année Universitaire : 2018/2019


1 Introduction
• Cadre général :
La bioinformatique représente une des disciplines qui m’attirent le plus. Cela revient d’une part,
au fait qu’elle combine mes deux passions, la biologie et l’informatique, et d’autre part, car il s’agit
d’une discipline récente dont l’émergence a permis de surmonter certains obstacles en si peu de
temps, permettant à la récolte de données en biologie de connaitre une avancée quantitative et
qualitative en très peu de temps.
C’est dans ce contexte et dans le cadre de ma 1ère année d’étude d’ingénierie en Biologie
Industrielle à l’Institut National des Sciences Appliquées de Tunis, que j’ai eu l’opportunité
d’effectuer mon stage au sein du laboratoire des Mycobactéries et du laboratoire de Bio-
Informatique, Bio-Mathématiques et Bio-Statiques (BIMS) de l’Institut Pasteur de Tunis.

2 Présentation de l’Institut Pasteur de Tunis (IPT)


• Le réseau international des instituts pasteur :
L’IPT est l’un des centres de recherche du Réseau International des Instituts Pasteurs (RIIP). Ce
réseau est présent dans 26 pays sur tous les continents et il regroupe 33 institutions unies par des
missions et des valeurs communes au bénéfice des populations. Implanté en particulier au cœur
de nombreuses zones d’endémie, le RIIP a démontré à de multiples reprises son rôle majeur de
sentinelle face aux émergences infectieuses.

Figure1 : Le Réseau international des instituts Pasteur


• L’IPT: Création et motivation
En 1893, Adrien Loir, neveu de Louis Pasteur, fut dépêché en 1893 à Tunis pour améliorer les
procédés de vinification, laboratoire qui fut par la suite complété par un centre de traitement
antirabique. Ce complexe prit plus tard le nom d’Institut Pasteur de Tunis, première implantation
pasteurienne sur le continent africain. Charles Nicolle remplaça quelques années plus tard, en
1902, Adrien Loir. Motivé par un esprit avant-gardiste, Charles Nicolle se lança dans des
recherches poussées, notamment en microbiologie ou la Tunisie lui offrait un champ d’activité
d’une richesse incomparable. De ce fait, il aborda toutes les maladies du littoral méditerranéen.
Ses œuvres lui ont values le Prix Nobel de médecine en 1928, son élection à l’Académie des
Sciences en 1929 et sa nomination à la Chaire de Médecine expérimentale au Collège de France,
en 1932. Charles Nicolle fut également le fondateur des Archives de l’Institut Pasteur de Tunis en
1906, une revue que l’IPT continue toujours de publier.

• Les différentes missions de l’IPT


L’IPT est placé sous la tutelle du Ministère de la Santé. Il assume les missions fixées par la Loi 58-
35 portant son statut. Cette loi définit l'Institut Pasteur de Tunis comme « un établissement de
Recherche Scientifique d'après les méthodes Pasteuriennes». Son rôle est « d'effectuer toutes les
enquêtes, missions, analyses ou recherches scientifiques intéressant soit la santé publique humaine
ou animale, soit le développement économique de la Tunisie». Il prépare les produits biologiques
tels que vaccins, sérums, antigènes dont la production paraîtrait nécessaire». Il a en outre «la
faculté de collaborer à l'enseignement supérieur en Tunisie».
Ainsi L’IPT a pour mission de contribuer à l’amélioration de la santé humaine, en particulier face
aux agents infectieux, par :
o La recherche biomédicale
o Les activités de santé publique
o La formation et l’encadrement
o L'innovation et le transfert technologique

• Les coopérations scientifiques:


Conscient que le partenariat est le meilleur instrument du désenclavement scientifique, l’Institut
Pasteur de Tunis a toujours œuvré pour tisser et développer des relations étroites de coopération
à l’échelle nationale, régionale et internationale.
L’IPT a signé des accords de coopération scientifiques avec de nombreuses Institutions
Scientifiques étrangères en particulier avec l’Institut Pasteur de Paris avec qui le relient des liens
étroits de partenariat scientifique. L’IPT fait aussi partie du Réseau Régional MATI des Instituts
Pasteurs (Maroc, Algérie, Tunisie, Iran) dont le mobile principal de sa création est l’existence de
thématiques de recherche communes aux différents pays du Maghreb ainsi que l’Iran.
Par ailleurs l’IPT collabore avec l’Organisation Mondiale de la Santé pour les recherches sur
la tuberculose, la poliomyélite et les Leishmanioses et avec d’autres organismes tels que la
Communauté Européenne (CE), National Institute of Health (NIH)/National Institute of
Allergy and Infectious Diseases (NIAID), National Institute of Health (NIH)/Fogarty
International Center (FIC) etc…

3 Présentation du projet

3.1 Contexte générale du projet


On estime que plus 300 millions de personnes à travers le monde, sont touchées par des mycoses
(une infection provoquée par des champignons parasites ou saprophytes) sévères, et dont environ
25 millions, sont sous risque de perdre leurs vies, ou dans des cas meilleurs leurs vues. Les
candidoses en particulier présentent une cause importante de mortalité chez les patients
immunodéprimés comme les patients atteints du SIDA, les patients cancéreux
sous chimiothérapie ou après transplantation de moelle osseuse. Les candidémies sont
caractérisées par une mortalité de l'ordre de 40 %. Par conséquent il est visiblement claire que
jusqu’à nos jours, on confronte des impasses thérapeutiques lorsqu’il s’agit de certaines infections
fongiques invasives. Ainsi notre projet s'inscrit dans le cadre des recherches visant le
développement de nouveaux médicaments antifongiques.

3.2 Notions de base

3.2.1 Facteurs de transcription


Un facteur de transcription est une protéine nécessaire à l'initiation ou à la régulation de
la transcription d'un gène dans l'ensemble du règne du vivant. Elle interagit avec l'ADN et
l'ARN-polymérase. Sa structure se distingue par la présence de 3 domaines : un domaine de
liaison à l’ADN (Dna Binding Domain), un Trans-activating Domain (TAD) et un domaine
optionnel signal sensing domain (SSD).
3.2.2 Dna Binding Domain
Un DBD est donc la portion du facteur de transcription qui est responsable de la liaison
spécifique à l’ADN.
Parmi les familles de domaines de liaisons à l’Adn (DBD) on distingue la famille de doigt de
zinc qui rassemble de petits motifs structuraux trouvés dans les protéines et capables d'ordonner
en complexe un ou plusieurs ions zinc pour stabiliser leurs plis. Il existe plusieurs sous familles de
doigt de zinc qui incluent la sous famille des ZCFs ou Zn2/Cys6

Figure2 : Les sous familles de doigt de zinc

3.2.3 Qu’est-ce qu’un ZCF ?


C’est une sous famille de zinc finger transcription factors, connue aussi sous le nom de binuclear
zinc cluster. Les domaines de liaison à l’ADN de cette sous famille contiennent 6 résidus de
cystéines qui coordonnent 2 atomes de zinc.

Figure3 : Représentation du Zn(II)2Cys6 zinc cluster motif


3.3 Présentation du travail
On s’intéresse à étudier la sous famille des ZCFs chez 4 espèces de champignons Candida
albicans, Candida glabrata, Saccharomyces cerevisiae et Schizosaccharomyces pombe

3.3.1 Intérêt du choix des ZCFs

On a choisi de travailler sur les ZCFs pour plusieurs raisons :

• Spécifiques aux champignons :


Les autres sous familles sont ubiquitaires alors que cette sous famille est retrouvée
uniquement chez les champignons

• Ayant des Intérêts cliniques


Notre argument le plus solide derrière le choix de cette sous famille, réside dans les intérêts
cliniques que montrent les ZCFs, notamment :

-La résistance aux antifongiques : En effet il a été prouvé que quelques-uns d’entre sont
impliqués dans la régulation transcriptionnelle des ponts, qui interviennent dans le signal de
résistance. Ce qui fait que l’enlèvement de ZCFs tels que Pdr1 et Pdr3 rend la cellule sensible à
l’antifongique.

-La capacité de filamentation : Il s’est montré que les ZCFs sont des régulateurs de la
filamentation. La transition entre l’état levure à l’état filamenteux est importante car elle permet
l’invasion des tissus.

• Leurs fonctions diversifiées :


Il n’y a pas d’enrichissement de catégorie Ils sont impliqués dans plusieurs sentiers métaboliques
3.3.2 Intérêt du choix des espèces

Figure 4 : Classification phylogénétique des 4 espèces à étudier

On a sélectionné 4 espèces en particulier, sur lesquelles on va mener ce travail. Ci-dessous on


explique le choix de chaque espèce.

• Candida albicans : C’est l’espèce de levure la plus importante et la plus connue du genre
Candida. Il s’agit d’un pathogène opportuniste représentant la 1ere source d’infection
fongique chez l’homme

• Candida glabrata : Il s’agit de la 2ème source des infections fongiques chez l’homme. En
termes de phylogénie, ce champignon est plus apparenté à S.cerevisiae

• Saccharomyces cerevisiae : C’est l’espèce model de levure caractérisée par la richesse de


la littérature et des annotations qui
• Schizosaccharomyces pombe : Caractérisée par les anciens traits qu’elle a gardés qui
pourront représenter un modèle pour nous montrer l’évolution de ces régulateurs.

4 Objectifs visés
• Répertoriage des ZCFs chez les 4 espèces
• Caractérisation des ZCFs obtenus
5 Journal de stage

Journal de stage sous forme de diagramme de gantt


6 Travail réalisé
Avant d’entamer les taches, il est indispensable de collecter les données pour chaque espèce. On a
besoin d’avoir les protéomes pour chacune des 4 levures. Pour ce faire, les bases de données
suivantes ont été utilisées comme sources :
- http://www.candidagenome.org/
- http://www.yeastgenome.org/
- https://www.pombase.org/
Dans chaque cas, le dernier assemblage des séquences nous a permis de télécharger les protéomes
recherchés.

6.1 Repertoriage des ZCFs

6.1.1 Démarche suivie


Le Zn2Cys6 possède le pattern hautement conservé suivant CX(2) CX(6) C (cela signifie qu’en
utilisant un programme de recherche de motifs tels que Patmatch, on s’intéresse, dans les
séquences protéiques à des séquences contenant ce consensus conservé) suivit d’une partie plus
variable à laquelle on s’intéressera ultérieurement en détails.
Néanmoins, le fait qu’une séquence contienne ce motif-là, ne signifie pas qu’il s’agit
obligatoirement d’un ZCF, évidemment la liste comporte de nombreux intrus c’est pourquoi il
fallait filtrer.
En partant du fait qu’un ZCF contient obligatoirement le domaine Gal4 (qui est une protéine
modulaire comprenant largement un domaine de liaison à l'ADN et un domaine d'activation) il
était nécessaire d’avoir recours à une base de données bio-informatique de familles de protéines
qui classe diverses propriétés des domaines protéiques sur la base de leurs alignements de
séquences multiples. Il existe plusieurs programmes qui répondent à ce besoin, on peut citer
PFAM,PROSITE,SMART… .
Pour ce travail on a opté pour PFAM, qui rassemble une grande collection de familles de
protéines, chacune étant représentée par des alignements de séquences multiples et des modèles
cachés de Markov (HMM). Il est important de rappeler que les protéines sont généralement
constituées d'une ou plusieurs régions fonctionnelles, communément appelées domaines.
Différentes combinaisons de domaines donnent lieu à la diversité des protéines trouvées dans la
nature. L'identification des domaines qui se produisent au sein des protéines peut donc donner
une idée de leur fonction. La classification des domaines protéiques par PFAM couvre près de
80 % des protéines répertoriées sur UniProt. Elle est construite par identification de séquences
récurrentes à l'aide d'algorithmes d'apprentissage automatique par reconnaissance de formes
utilisant un modèle de Markov caché
Ainsi, un travail manuel a été réalisé dans le but d’aboutir aux listes affinées des ZCFs de chaque
espèce.

6.1.2 Résultats
On est arrivé à obtenir une liste bien définie de ZCFs pour toutes les espèces. À cause du nombre
de pages restreint, on ne peut pas mettre les listes dans ce rapport. Ci-dessous un tableau
récapitulatif de ce qui a été obtenu.

Espèces Nombre de ZCFs


Candida albicans 81
Candida glabrata 41
Schizosaccharomyces pombe 32
Saccharomyces cerevisae 54

Tableau1 : Tableau récapitulatif des résultats obtenus

6.2 Etude du domaine variable


Comme on l’a évoqué précédemment, le consensus CX(2) CX(6) C est directement suivit d’un
domaine variable dont on a voulu voir en détails. Pour chaque espèce le consensus complet est
CX(2) CX(6) CX (n) CX(2) CX(m) C, avec n et m, les intervalles qu’on veut déterminer.

6.2.1 Démarche suivie


Pour ce faire, il a fallu effectuer un alignement multiple de séquences pour toutes les séquences
de ZCFs de chaque espèce à part. Il est important de rappeler qu’un alignement est une manière
de représenter deux ou plusieurs séquences de macromolécules biologiques (ADN, ARN ou
protéines) les unes sous les autres, de manière à en faire ressortir les régions homologues ou
similaires. L'objectif de l'alignement est de disposer les composants (nucléotides ou acides
aminés) pour identifier les zones de concordance. Ces alignements sont réalisés par des
programmes informatiques dont l'objectif est de maximiser le nombre de coïncidences entre
nucléotides ou acides aminés dans les différentes séquences. Pour ce travail on a opté à
l’utilisation de Vector NTI parmi tant de programmes d’alignement multiple, grâce à son
interface et son efficacité.
Après l’alignement, une étape de vérification manuelle est essentielle afin d’obtenir un alignement
plus raffiné.
Par la suite le travail est manuel, et consiste à calculer les acides aminés dans la région variable de
consensus pour chaque espèce, de définir les intervalles spécifiques à chaque espèce et d’extraire
les exceptions.

6.2.2 Résultats
Ci-dessous un exemple de résultats obtenus pour Schizosaccharomyces pombe suivit d’un tableau
récapitulatif des résultats obtenus pour les 4 espèces

Figure5 : Alignement des ZCFs de S.pombe

.
Tablau2 : Tableau récapitulatif

6.3 Etude du DNA-Binding Domain du Gal4


Le Gal4 est un régulateur positif des gènes induits par le galactose. Il représente le type le plus
connu et le plus étudié des Zn2Cys6 [ 5].

6.3.1 Démarche suivie


Pour chaque espèce, il aurait fallu extraire la séquence codante pour le Gal4 à partir de la
séquence de chaque ZCF
Par la suite la représentation en motif logo nous permet de déterminer la fréquence de chaque
acide aminé à une position donnée de la séquence consensus chez les quatre espèces. Dans ce but
on a utilisé l’outil MEME ou Multiple EM pour Motif Elicitation qui est un outil pour découvrir
des motifs dans un groupe d'séquences d'ADN ou de protéines apparentées. MEME prend
comme entrée un groupe d'ADN ou de séquences de protéines et produit autant de motifs que
requis jusqu'à un seuil de confiance statistique spécifié par l'utilisateur. MEME utilise des
techniques de modélisation statistique pour choisir automatiquement la meilleure largeur, le
nombre d'occurrences et la description de chaque motif.
6.3.2 Résultats

Figure6 : Représentation en motif logo du pattern CX(2) CX(6) C

Figure 7 : Représentation en motif logo de la région variable du consensus


6.3.3 Discussion

Comme le confirme la Figure 6, la région CX(2) CX(6) C est hautement conservée au sein des
espèces. Ceci est prévu vu qu’il s’agit d’un domaine clef. Les 6 résidus de cystéine coordonnent 2
atomes de zinc ce qui assure le repliement du domaine impliqué dans la liaison à l’ADN [ 3].
La figure 7 représente la fréquence de la 2eme partie du consensus conservé qui est la partie
CX(2)CX(6-9)C.
Le fait que les deux régions apparaissent dans 2 motifs séparés confirme que la séquence qui se
trouve juste en leurs milieux est très variable ce qui coïncide avec les résultats précédemment
obtenus et qui montrent que le nombre d’acides aminés de cette séquence varie de 5 à 76.
Les résidus d’arginine et de lysine se trouvant entre la 2eme et la 3eme cystéine sont impliqués
dans la reconnaissance de l’ADN par le Gal4. Effectivement la 1ere arginine et la 2eme lysine
établissent un pont salin avec les groupes de phosphates de l’ADN. La 1ere lysine est impliquée
des contacts spécifiques avec les bases d’ADN [ 4].
La figure 6 montre la conservation d’un résidu de proline entre la séquence hautement conservée
du domaine et la séquence variable. Il a été montré que ce résidu assure la flexibilité de la
structure [ 5].

6.4 Etude de la Fungal transcription factor regulatory middle


homology region
La protéine Zn cluster peut aussi contenir une autre région importante qui est la MHR et qui
sépare le DBD de la C-terminal.

6.4.1 Démarche suivie


Pour ce faire on a suivi les mêmes étapes que celles suivies lors de l’étude du domaine Gal4. On a
extrait manuellement les séquences codantes pour le domaine Fungal-trans à partir des ZCFs de
chaque espèce en s’aidant de SMART. Puis une représentation en motif logo a été effectuée avec
MEME.
6.4.2 Résultats

Figure 8 : Représentation en motif logo du Fungal specific transcription factor domain

6.4.3 Discussion
Les résultats révèlent que ce domaine aussi est très conservé au sein des 4 espèces étudiées. Cette
région pourrait être impliquée dans le control de l’activité transcriptionnelle des ZCFs [ 6]. La
délétion de ce domaine a provoqué dans plusieurs cas une activité constitutive [ 7] (càd une
activation spontanée du facteur de transcription en absence de tout médiateur ou ligand).

6.5 Identification d’orthologues

6.5.1 Démarche
• Calcul d’orthologie : Inparanoid
Ce programme requiert deux protéomes A et B complets, sous forme FASTA. La similarité entre
paires est calculée en quatre étapes séparées (à l’aide de NCBI-Blast ou un autre programme
d’alignement) : A versus B, B versus A, B versus B et A versus A. Cette étape permet d’organiser
les données et de minimiser l’utilisation de mémoire. Puis, les paires de séquences avec les
meilleurs scores mutuels sont détectées. Par ailleurs, si un « out-group », appelons le C, est utilisé,
les scores de similarités A versus C et B versus C sont également calculés. Dans ce cas, la paire
supposée d’orthologues, A-B, est éliminée si le score entre A et B est inférieur soit au score entre
A et C ou bien au score entre B et C. une fois les comparaisons effectuées selon les mécanismes
énoncés plus haut, des groupes d’orthologues, initialement composé de deux « seed orthologs »,
sont établis. Puis, une autre séquence peut être ajoutée à un groupe si elle est plus proche d’une
de ses deux séquences que de n’importe quelle autre séquence du protéome de l’autre espèce. Les
membres d’un groupe d’orthologues appartenant à une même espèce sont appelés « inparalogs».
Ainsi le programme a été exécuté sur les protéomes des espèces en entrant ces 15 combinaisons
o C.albicans – S.cereviseae
o C.albicans – S.Pombe
o C.albicans – C.glabrata
o C.albicans – C.auris
o C.albicans – C.dubliniensis
o S.cereviseae – S.Pombe
o S.cereviseae – C.glabrata
o S.cereviseae – C.auris
o S.cereviseae – C.dubliniensis
o S.Pombe – C.glabrata
o S.Pombe – C.auris
o S.Pombe – C.dubliniensis
o C.glabrata – C.auris
o C.glabrata – C.dubliniensis
o C.auris – C.dubliniensis

• Génération de matrice avec Rstudio


Pour mieux voir les résultats, on les a mis sous forme de matrice par l’intermédiaire de Rstudio
qui constitue un environnement de développement multiplateforme pour R, un langage de
programmation utilisé pour le traitement de données et l’analyse statistique.
7 Conclusion
Au terme de ce stage, nous avons obtenu des résultats qui serviront de support pour des études
futures de l'équipe. En effet l’objectif majeur est le déchiffrement du réseau transcriptionnel des
ZCFs, en obtenant un schéma conceptuel des interactions, tout en se basant sur les analyses
précédentes et d’autres technologies telles que le chip-chip. Ainsi les analyses in silico sont d’une
très grande importance. La prochaine étape serait de détecter les ZCFs spécifiques aux clades et
d’essayer de comprendre leurs évolutions.

Remerciements
Je tiens à remercier vivement mon maitre de stage, Dr Oussema Khamessi, pour son accueil, le
temps passé ensemble, son attention, ses renseignments précieux qui m’ont guidé durant mon
stage, et le partage de son expertise au quotidien.
Enfin, je tiens à remercier toute l'équipe du laboratoire de Bio-informatique, Bio-Mathématiques
et Bio-Statiques (BIMS) pour leur accueil et l’aide qu’ils ont pu m’apporter afin de dépasser
certaines difficultés techniques.
Bibliographies
Ouvrage ou mémoire :
[1] N.Klimova, R.Yeung, N.Kachurina, and B.Turcotte , Phenotypic Analysis of a Family of
Transcriptional Regulators, the Zinc Cluster Proteins, in the Human Fungal Pathogen Candida
glabrata
[2] S.MacPherson, M.Larochelle and B.Turcotte, A Fungal Family of Transcriptional
Regulators: the Zinc Cluster Proteins
[3] Vallee, B. L., J. E. Coleman, and D. S. Auld, 1991 Zinc fingers, zinc clusters, and zinc
twists in DNA-binding protein domains.
[4] Marmorstein et al. 1991
[5] Marmorstein, R., M. Carey, M. Ptashne, and S. C. Harrison. 1992. DNA recognition by
GAL4: structure of a protein-DNA complex. Nature
[6] Schjerling, P., and S. Holmberg, 1996 Comparative amino acid sequence analysis of the C6
zinc cluster family of transcriptional regulators. Nucleic Acids Res
[7] MacPherson, S., M. Larochelle, and B. Turcotte, 2006 A fungal family of transcriptional
regulators: the zinc cluster proteins. Microbiol. Mol. Biol.

Adresses Web :

[1] https://www.pasteur.fr/
[2] http://www.pasteur.tn/
[3] http://www.gaffi.org/why/fungal-disease-frequency/
[4] https://fr.wikipedia.org/wiki/Candida_albicans
[5] http://www.biochemj.org/content/414/2/177

Vous aimerez peut-être aussi