Académique Documents
Professionnel Documents
Culture Documents
39
Remerciements
C’est avec un réel plaisir que je réserve ces lignes de gratitude et de profonde reconnaissance
travail.
Abdelouahid Sbai pour avoir encadré mon travail. Un grand merci pour son aide si précieuse,
son soutien, ses conseils et ses commentaires ont été très précieux pour mener à bien ce
travail.
Je tiens à remercier les membres de mon jury d’avoir accepté de lire mon manuscrit et
d’évaluer mon travail : Le Professeur Hamid Maghat et le Professeur Mohammed Aziz Ajana.
Mes parents, mes frères et sœurs, mes amis, merci du fond du cœur pour votre présence, votre
amour, votre soutien dans les moments où j’en avais le plus besoin.
39
SOMMAIRE
Symboles et abréviations-------------------------------------------------------------------------------6
Introduction générale-----------------------------------------------------------------------------------7
I.2.1. Classification------------------------------------------------------------------------------------------14
39
Chapitre II: Méthodologie QSAR
II. Historique---------------------------------------------------------------------------------------------19
II.1 Principe----------------------------------------------------------------------------------------------19
II.5.2.Validation de modèle----------------------------------------------------------------------------25
II.6.1.1. ChemDraw---------------------------------------------------------------------------------------------28
II.6.1.3. XLSTAT---------------------------------------------------------------------------------------------------29
39
Chapitre III : Résultats et discussions
III. Introduction-----------------------------------------------------------------------------------------31
Conclusion générale---------------------------------------------------------------------------------43
Références bibliographiques---------------------------------------------------------------------44
39
Symboles et abréviations
QSAR: Relations Quantitatives Structure/ Activité.
RLM : régression linière multiple
ACP : Analyse des composants principales
EQM: Ecart quadratique moyen.
EQMC: Ecart quadratique moyen calculé sur l'ensemble de calibrage.
EQMP : Ecart quadratique moyen de prédiction.
EQMPext :: Ecart quadratique moyen calculé sur l'ensemble de validation externe.
ei : Résidu : différence entre les valeurs observée (i y) et estimée ( i yˆ ).
LOO: Validation croisée par omission d'une observation
N: Dimension de la population (échantillon).
n-p : Nombre de degrés de liberté.
PRESS : Somme des carrés des erreurs de prédiction.
p : Nombre de descripteurs en comptant la constante
Q2LOO: Coefficient de prédiction.
R2 : Coefficient de détermination.
Mol : molécule
PD : Point d’ébullition (en kelvin)
CLH : Constante de la loi d'Henry
LP : LogP
RM : réfractivité moléculaire
MM : masse molaire(en g/mol)
ND: Nombre d'accepteurs
LS : LogS
IB : Index de Balaban
ITM: Index topologique moléculaire
NLR : Nombre de liaisons rotatives
SP : Surface polaire(en Aͦ 2 )
IW : Index de Wiener
ET : Energie totale(en eV)
39
Introduction Générale
39
39
La discipline de la chimie médicinale est consacrée à la découverte et au développement de
nouveaux agents pour le traitement des maladies [1]. Découvrir de nouveaux médicaments de
la manière la plus efficace et la moins coûteuse possible constitue un enjeu majeur pour les
années à venir. Il est admis que, en moyenne, pour une molécule qui arrive sur le marché en
tant que médicament innovant, 10 000 molécules sont synthétisées et testées. Le
développement s'agit en effet de trouver une molécule qui doit à la fois présenter des
propriétés thérapeutiques particulières, et posséder le minimum d'effets secondaires
indésirables. Le prix de revient d’un médicament est essentiellement dû à ces synthèses
longues, coûteuses et finalement inutiles. Pour cette raison, l'industrie pharmaceutique [2]
s'oriente vers la conception rationnelle “Rational design” qui signifie que la connaissance des
relations entre les propriétés physico-chimiques et la structure moléculaire des molécules
connues permet aux scientifiques de développer de nouvelles molécules, avec une assez
bonne anticipation [3]. Ces nouvelles méthodes de recherche consistent à prédire les
propriétés et activités de molécules avant même que celles-ci ne soient synthétisées. Les
ordinateurs sont devenus des outils indispensables en chimie pharmaceutique moderne. Leur
rôle est essentiel, tant au niveau de la découverte de nouveau médicaments que du
développement de ceux-ci. Les progrès rapides réalisés dans les logiciels et dans le matériel
qui les accompagnent fait que la plus part des opérations qui étaient, jadis uniquement,
réalisables par des informaticiens avertis peuvent maintenant être exécutées par des
pharmaco-chimistes, avec des ordinateurs couramment employés aux laboratoires, pour autant
qu’ils possèdent les notions élémentaires de mécanique quantique et autres équations qui ont
trait aux molécules [4].
39
Le développement des outils informatiques a permis de mettre au point des techniques de
calculs de plus en plus poussées, rendant ainsi possible l’étude des Systèmes de plus en plus
complexes [6,7]. Les techniques QSAR s’appuient sur le concept postulant que des structures
similaires ont des propriétés similaires, plus les molécules sont différentes, plus il est difficile
à corréler les propriétés physico-chimiques et l’activité biologique, alors que le contraire est
plus aisé [8].
Si la prévention, le dépistage et l’amélioration des traitements du cancer sont les grands axes
de lutte contre la maladie cancéreuse. La tendance actuelle porte surtout sur le développement
de la thérapie ciblée. Ceci passe obligatoirement par une meilleure compréhension des
mécanismes de l’oncogenèse grâce aux dernières percées de la biologie moléculaire. Ces dites
percées sont le fruit de l’étroite collaboration entre le biologiste, chimiste et Informaticien.
caractéristiques et processus biologiques du cancer ainsi qu’un aperçu sur les thiazoles
et leur intérêt biologique, nous aborderons une généralité sur quelques méthodes de
Dans le deuxième chapitre nous présentons un aperçu général théorique sur les
39
Données bibliographiques
39
I. Introduction
Le fardeau mondial du cancer s’alourdi progressivement, en particulier dans les pays à revenu
faible et moyen. La nécessité de mettre en œuvre des stratégies efficaces de prévention
primaire est urgente. Ces stratégies doivent obligatoirement s'axer d'abord sur une
hiérarchisation des mesures de lutte contre le cancer, et par la suite sur l'élaboration d'outils
simples d'évaluation de l'efficacité de ces stratégies, et surtout leur rapport coût-efficacité.
Le cancer reste l'une des maladies les plus redoutées du monde moderne. Selon l'organisation
mondiale de la santé, cette maladie a touché une personne sur trois et a causé le quart des
décès dans les pays développés au cours de l'année 2000 [9]. Le cancer défini comme une
maladie dans laquelle un groupe de cellules anormales se développe de manière incontrôlable
(Figure1) en ignorant les règles normales de la division cellulaire. Les cellules normales sont
constamment soumises à des signaux qui déterminent si les cellules se divisent, se
différencient en une autre cellule ou meurent. Les cellules cancéreuses développent une
certaine autonomie par rapport à ces signaux, ce qui entraîne une croissance et une
prolifération incontrôlées. Si la prolifération fatal [10]
39
I.1. Progression tumorale et immortalité :
Les cellules normales sont programmées pour un nombre limité de dédoublements (environ
60–70 in vitro). Aux extrémités des chromosomes se trouvent des séquences répétitives
(télomères) qui sont érodées à chaque réplication de l’ADN. Leur disparition induit un arrêt
de la prolifération (G0). Dans la plupart des cellules tumorales, il existe un maintien des
télomères au cours des réplications successives. Ceci est dû à la surexpression des
télémétrasses, qui sont les enzymes capables d’ajouter des séquences répétées à l’extrémité
des chromosomes.
Ces anomalies fonctionnelles sont l’aboutissement d’un processus multi-étapes dans lequel
l’environnement n’est pas neutre. Elles s’accompagnent de modifications morphologiques de
la cellule qui permettent le plus souvent de reconnaître son caractère cancéreux en l’observant
au microscope optique. Il faut cependant faire deux remarques :
Aucune de ces anomalies morphologiques prises séparément n’est spécifique de la
cellule cancéreuse (en dehors pour certains auteurs des figures de mitoses anormales).
Certaines tumeurs au comportement authentiquement malin sont constituées de
cellules morphologiquement très proches de leur contrepartie normale ; d’autres
critères morphologiques (mauvaise limitation, invasion vasculaire) ou évolutifs
(métastases) sont alors nécessaires pour affirmer la malignité.
39
I.1.2. Aspects morphologiques
Les modifications morphologiques ne sont visibles qu’en microscopie électronique :
irrégularités, microvillosités, bulles, projections, modifications des systèmes de jonction. Elles
ne sont pas prises en compte pour le diagnostic de cancer en routine. Il existe des
modifications des protéines de surface, et notamment des molécules d’adhérence, qui sont
impliquées dans les interactions intercellulaires et cellules-matrices extracellulaire. En savoir
plus : « Anomalies des molécules d’adhésion »
39
I.2. Généralités sur les hétérocycles
Les hétérocycles et leurs dérivés constituent une classe de composés cycliques dans lesquels
une ou plusieurs atomes de carbone d’un carbocycle de référence (benzène cyclopentadiène
cyclopentane, par exemple) est remplacé par un hétéroatome. De part leur structure
particulière et leur stabilité en milieu physiologique, les hétérocycles sont des éléments
structuraux essentiels dans la recherche de molécules bio-actives [4,5]. Ce sont en effet des
pharmacophores convoités en chimie médicinale pour leurs propriétés variées.
I.2.1. Classification
Par la nature de l’hétéroatome : les hétérocycles oxygénés, soufrés et azotés sont les
plus importants.
Par le nombre de chaînons : les hétérocycles à 5 et 6 chaînons sont les plus stables et
les plus fréquents.
Les dérivés des thiazoles ont un grand potentiel dans de nombreux produits naturels et
synthétiques ayant une large gamme d'activités biologiques et pharmacologiques comme les
anti-inflammatoires [9], les antidiabétiques [10], les antifongiques ... [11].
39
I.2.3. Synthèse des thiazoles
Compte tenu de l’importance des thiazoles et de leurs dérivés, plusieurs méthodes de synthèse
des dérivés du thiazole sont développées par Hantzsch, Dubs,Cook-Heilborn, Gabriel et
d'autres groupes.
La synthèse de Gabriel est une autre méthode qui est largement utilisée pour synthétiser les
thiazoles substitués par des groupes alkyle, aryle ou alcoxy en positions 2 ou 5 ou( 2,5)
impliquant le traitement de α - acylaminocétones avec quantité stoechiométrique de P 2S5
(Schéma 2) [13,14]
39
I.2.3.3. Synthèse de Cook- Heilbron
Cette synthèse était réalisée par Cook- Heilbron pour préparer des 5-aminothiazoles
diversement substitués en position 2 par réaction des α- aminonitriles avec des esters de
dithioacides, disulfure de carbone, oxysulfure de carbone, et isothiocyanates dans des
conditions extrêmement douces(Schéma 3)[15].
La réaction se fait par l'attaque nucléophile d'atome d'azote d’aminonitrile sur l'atome de
carbone thioacide pour former l'intermédiaire thioamide suivi la cyclisation intramoléculaire,
produisant le produit final aromatique 5-amino thiazole avec un bon rendement (Schéma 3) [16].
39
Schéma 4 R1, R2= alkyle ou aryle
Les acides thiocarboxyliques et leurs dérivés réagissent facilement avec les α-bromocétones
en présence d'acétate d'ammonium dans l’acide acétique au reflux donne les dérivés du 1,3-
thiazole (Schéma 5) [18,19].
Les thiazoles sont considérés comme une classe importante de composés hétérocycliques à la
fois biologiquement et chimiquement. Des études antérieures ont montré que les composés à
base de thiazole avaient une efficacité importance pharmacologique avec antimicrobien [33]
anti-inflammatoire [34] anticonvulsivant [35] antidiabétiques [36] anti-VIH[37] anti
tumorales [38] et antioxydants [39]. D'autre part, les coumarines se produisent dans les
graines, les racines et les feuilles d'un grand nombre de plantes, [40] de champignons, de
bactéries et de sources marines [41] Les coumarines présentent diverses espèces biologiques
activités comme antimicrobien[42] anticancéreux et anti-inflammatoire [42–44] antioxydant
[43] antiviral [44] et antituberculeux.[45] La warfarine est un dérivé de la coumarine qui
possède des propriétés anticoagulantes, utilisées pour traiter ou prévenir les caillots sanguins
dans les veines [46]. De plus, le fragment thiazolyl coumarine a des propriétés
anticancéreuses [44-46].
Pour cette raison nous avons décidé d’étudier une série des thiazoles et leurs activités
anticancéreuses
39
Méthodologie QSAR
39
II. Historique
Il y a plus d'un siècle et demi, en 1863, des scientifiques ont observé que des propriétés
physico-chimiques des alcanes augmentent quand le nombre d'atomes de carbone augmentent.
Ils ont observé également une diminution de la solubilité dans l'eau des alcools avec
l'augmentation du nombre d'atomes de carbone, cela est considéré depuis, comme la première
formulation générale en QSAR.
Cinq ans après, en 1868, Crum-Brown et Fraser [21,22] postulèrent que « l‘activité biologique
d‘une molécule est une fonction de sa constitution chimique »
Quelques décennies plus tard, en 1893, Richet [23] a découvert que la toxicité des composés
organiques a un rapport avec leur solubilité dans l'eau est définie par : ϪØ =f (ϪC)
A la fin du 19ème siècle, Meyer en 1899 et Overton en 1901 [24 ,25], ont observé « une
relation linéaire entre l'activité des narcotiques et leur coefficient de partage huile-eau ».
Six ans après, en 1907, Fühner et Neubauer [26] ont montré pour une série de narcotiques
homologues, que l‘activité augmente en fonction de la progression géométrique de la série de
composés, cela montrait l‘importance de la contribution d‘additivité de groupements
fonctionnels pour l‘activité biologique.
L‘année 1964 est considérée comme le début des méthodes QSAR modernes. Hansch et
Fujita [27] ont établi les premières corrélations entre les propriétés physico-chimiques et
l‘activité biologique (activité enzymatique, pharmacologique).
II.1. Principe
L’étude QSAR/QSPR consiste à définir une relation mathématique entre une activité
biologique, ou une propriété mesurée pour une série de composés similaires dans les mêmes
conditions expérimentales, avec des descripteurs moléculaires à l‘aide des méthodes
statistiques. L‘objectif de ces études est d‘analyser les données structurales afin de détecter les
facteurs déterminants pour l‘activité ou la propriété étudiée. Pour ce faire, différents types de
méthodes statistiques peuvent être employées. L'expression mathématique obtenue est utilisée
comme un moyen prédictif de l‘activité/propriété étudiée pour de nouvelles molécules ou bien
des molécules pour lesquelles les données expérimentales ne sont pas disponibles.[28].
39
II.2. La stratégie globale
Pour développer un modèle, il faut débuter par la recherche du maximum possible des
données expérimentales fiables. Ensuite, le développement d‘une série de descripteurs
qui caractérisent les structures moléculaires des composés de la base de données en vue
de les relier à l‘activité/propriété expérimentale étudiée. Une fois développé, le modèle
doit être validé en termes de corrélation.
L‘influence des composés du jeu d‘entraînement sur le modèle est estimée par des
méthodes de validation interne. Pour estimer le pouvoir prédictif du modèle, il est
nécessaire de disposer de données expérimentales supplémentaires, c’est la validation
externe.[28]
39
Différents descripteurs moléculaires physico- chimiques représentant la structure peuvent être
déterminés empiriquement ou en utilisant des méthodes théoriques et computationnelles de
différents niveaux de complexité. Il a fallu mettre en évidence que la connaissance de la
constitution chimique exacte et/ou de la structure moléculaire tridimensionnelle des composés
chimiques étudiés est une condition essentielle à l’application de l’approche QSAR.
Un descripteur moléculaire est un paramètre (une valeur numérique) propre à une structure
chimique donnée. Ces valeurs peuvent être obtenues expérimentalement ou calculées à partir
de la structure de la molécule. Les descripteurs calculés, permettent d‘effectuer des
prédictions sans avoir à synthétiser les molécules, ce qui est l‘un des objectifs de la
modélisation moléculaire. Les descripteurs moléculaires jouent un rôle fondamental dans les
études de la relation quantitative structure activité/propriété. Ils sont utilisés en tant que
variables indépendantes pour prédire une variable dépendante (activité ou propriété).
L'utilisation des descripteurs moléculaires dans le développement de modèles QSAR/QSPR
n'est pas une tâche aisée. Tout d'abord, un très grand nombre de descripteurs moléculaires, de
différentes complexités et de conceptions diverses a été introduit au cours des dernières
années. Ensuite, pendant ce temps, aucune règle stricte n'a été établie pour la sélection de
descripteurs adaptés parmi le grand nombre de descripteurs disponibles. Ce choix a souvent
été basé sur l'intuition chimique des chercheurs, ou en se pliant à la tradition.
39
dans laquelle l’effet des substituant et introduit sous la forme d’une valeur tabulée.
Si ce type de descripteurs est employé pour obtenir les modèles QSAR/QSPR les plus
simples, pour une bonne interprétation des mécanismes d’interaction mis en jeu pour la
propriété étudiée, ces derniers peuvent poser problème. Par exemple, on ne peut pas
distinguer les isomères (sans géométrie). Or, pour la grande majorité des propriétés, la
position d’un substituant modifie la valeur expérimentale d’une propriété. Les paramètres
constitutionnels sont, dans de tels cas, défaillants. Il faut alors recourir à d’autres classes de
descripteurs.
Les descripteurs topologiques sont des indices obtenus à partir d’une structure 2D de la
molécule, à savoir une simple table de connectivité des atomes dans la molécule. Ils
contiennent en leur sein des informations sur la taille globale du système, sa forme globale et
ses ramifications.
Le système moléculaire est considéré comme un graphe G [V, R] dans lequel les atomes sont
des sommets V et les liaisons chimiques des arrêtes R. La distance topologique d entre deux
atomes est alors définie comme le nombre de liaisons minimum qui relie ces atomes.
L’indice de Wiener, par exemple, permet de caractériser le volume moléculaire et le taux de
ramification des molécules. Il est calculé comme la somme de toutes les distances
topologiques entre atomes au sein de la molécule et donc définie par cette équation :
Parmi les autres indices topologiques courants, on retrouve l’indice de Randic, qui peut être
interprété comme une mesure de l’aire de la molécule accessible au solvant, les indices de
Kier-Hall ou encore l’indice de Balaban. Enfin, des indices de contenu d’information
appliquent les fondements de la théorie de l’information de Shannon aux distances
topologiques.
39
En général, ce type de descripteurs simplifie grandement la représentation de la connectivité
chimique au sein de la molécule puisqu’ils ne prennent pas en compte les différences de
distances, d’angles et d’ordres de liaison ni même la nature des atomes dans la molécule. Si
certains indices ont été développés pour intégrer de manière très approximative ce genre
d’informations, ils restent souvent insuffisants pour caractériser l’intégralité des propriétés
moléculaires. Finalement, les indices topologiques sont souvent considérés comme des
descripteurs convenables d’un point de vue numériques. Cela dit, dans la plu part des cas,
l’interprétation des équations QSAR/QSPR qui en résulte n’est pas aisée, puisqu’il est
difficile de les relier aux mécanismes sous-jacents. (Figure 3)
Figure 3 : Angle dièdre dirigeant l’activité catalytique des complexes bis (arylimino) pyridine du fer
39
II.5. Méthodes utilisées pour le développement de modèle QSAR.
La réalisation d'un modèle QSAR n'est pas une tâche aisée, on rencontre plusieurs difficultés
liées à plusieurs domaines. La première difficulté rencontrée et due à la différence d'échelle
existant entre les données à corréler car la structure est à une échelle moléculaire alors que les
propriétés à prédire sont à une échelle macroscopique.
De plus il tient compte des problèmes d'incertitude à la fois au niveau des structures
moléculaires liées niveau du calcul et de données expérimentales protocole de mesure. Parmi
les problèmes importants on cite le traitement de grande quantité de données, on analyse un
grand nombre de descripteurs et de molécules.
Or il n'existe aucune règle stricte concernant le choix des paramètres structuraux les plus
importants parmi la totalité de ceux disponibles. Afin de mettre en place des modèles QSAR
fiables à partir de données disponibles il faut trouver le moyen le plus adapté parmi plusieurs
outils existants. Plusieurs approches sont envisageables, selon chaque cas il faut alors choisir
celles permettant de mieux caractériser le système [29]
En dernier ressort, les modèles QSAR peuvent être développés selon des modèles
mathématiques différents, généralement en relation avec l'analyse statistique multi-variée. Le
premier modèle, et le plus largement utilisé, consiste en une équation (multi) linéaire obtenue
par régression des données expérimentales en fonction d'un ensemble de descripteurs pré-
sélectionnés (ou d'un seul), en utilisant la méthode des moindres carrés ordinaires (MCO).
Dans quelques cas, les modèles physiques ou chimiques connus du phénomène étudié laissent
prévoir certaines formes mathématiques non linéaires (exponentielles ou logarithmiques) de la
dépendance entre les données expérimentales et les descripteurs moléculaires. Les modèles
QSAR peuvent alors être établis à l'aide de la technique de régression par les moindres carrés
non linéaires [20].
39
II.5.1. Méthodes de régressions multilinéaire
Comme cité plus haut, le chercheur choisit dans chaque cas un ou plusieurs descripteurs
supposé(s) refléter les interactions physiques ou chimiques à la base de la propriété
moléculaire ou de la caractéristique du phénomène étudié. Ce choix est généralement fondé
sur l’intuition chimique, la tradition ou simplement la disponibilité du descripteur. Néanmoins
pour établir un modèle QSAR, 5 principes peuvent aider à la sélection des descripteurs
convenables pour l'établissement de modèles QSAR. Ce sont :
Les valeurs des descripteurs doivent être obtenues de la même source et, de préférence,
mesurées selon le même protocole expérimental ou calculées en utilisant le même logiciel.
Le nombre de descripteurs dans les modèles de régression multiples doit être minimisé, sans perte
d'information, ce qui met en évidence les critères statistiques (valeurs des tests t et F…).
Dans les modèles RLM, les descripteurs utilisés doivent être statistiquement orthogonaux.
Pourvu que les autres critères soient similaires, la nature physique ou chimique du
descripteur sélectionné doit être la plus proche de la propriété ou du phénomène étudié.
39
Pour un ensemble de descripteurs différents, il est nécessaire d’effectuer une analyse des
données bi-variées, c'est-à-dire de calculer le coefficient de corrélation linéaire R entre
chacune des paires de l’ensemble des descripteurs. Si R est statistiquement significatif
(R>0,50), ces deux descripteurs ne peuvent être utilisés simultanément lors de l’analyse par
RLM [20].
C’est une étude qui donne une idée sur la qualité du modèle, Deux paramètres statistiques
sont couramment utilisés pour l’évaluation de la qualité du modèle :
39
II.5.2.3. Validation croisée
La validation croisée par « leave – one - out » (LOO) [31] consiste à recalculer le modèle sur
(n-1) observations, et à utiliser le modèle ainsi obtenu pour calculer la grandeur d’intérêt du
composé écarté, notée ŷ(i). On répète le procédé pour chacune des grandeurs d’intérêt. La
somme des carrés des erreurs de prédiction, désignée par le symbole PRESS, est une mesure
de la dispersion des estimations. On l’utilise pour définir le coefficient de prédiction [31].
Si de petites valeurs de Q²vc indiquent des modèles peu robustes, caractérisés par de faibles
capacités prédictives internes, le contraire n’est pas nécessairement vrai. En fait, si une forte
valeur de Q²LOO est une condition nécessaire de robustesse et d’une possible capacité
prédictive élevée d’un modèle, cette condition seule n’est pas suffisante, et peut conduire à
une surestimation de la capacité prédictive du modèle lorsqu’il est appliqué à des composés
réellement externes.
Evidemment, on peut être amené à écarter 2, 3 ou un plus grand nombre d’éléments à la fois,
ce qui conduit aux procédures LMO (leave– many- out).
Dans le cas où on a suffisamment de données qui n’ont pas servi dans la création du modèle
ou après collecte de nouvelles données, on peut ou on doit procéder à la validation de ce
dernier, c’est la validation externe. La statistique se rapportant à ce procédé, notée Q²ext, est
calculée comme suit :
39
II.6. Matériels et Méthodes
Optimisation : tous les calculs d’optimisation des structures des molécules ont été
effectués en utilisant le logiciel HyperChem 08.
i. Calcul de descripteurs : Les géométries ainsi optimisées ont été transférées dans le
logiciel Chem3D version 7 pour le calcul plus de descripteurs.
ii. Conception du modèle : Dans le présent travail, la sélection du modèle a été réalisée
par algorithme génétique, en utilisant le logiciel XLSTAT.
II.6.1.1 ChemDraw
Est un outil complet destiné aux chimistes et biologistes, intégrant toute une gamme d’outils
intelligents permettant de faciliter les travaux des chercheurs, il est développé en 1985 par
David A. Evans et Stewart Rubenstein. C’est un outil essentiel et préféré pour illustrer les
concepts chimiques et biologiques et Il est imposé comme une référence pour le dessin de
structures moléculaires. Puisqu’ il est simple à utiliser, puissant et permet de dessiner de
manière intuitive et efficace en deux et trois dimensions [27].
39
II.6.1.2 Chem 3D
II.6.1.3 XLSAT
XLSTAT est un logiciel dont le fonctionnement s’appuie sur Microsoft Excel pour la saisie
des données et la publication des résultats. En revanche, les calculs sont entièrement réalisés
dans des programmes autonomes. L’utilisation d’Excel comme interface rend le produit très
convivial, simple d’utilisation et efficace. La qualité des calculs est quant à elle identique à
celle des logiciels scientifiques les plus renommés.
XLSTAT offre de très nombreuses fonctionnalités qui font d’Excel un outil performant et
facile d’accès pour répondre à la majorité de vos besoins en analyse de données et
modélisation.
39
Résultats et Discussions
39
III. Introduction
En guise d’application, nous avons proposé d’élaborer un modèle statistique (QSAR) pour
coder l’information chimique sous forme d’équation mathématique d’une série de molécules à
base de noyau thiazole pour son activité anticancéreuse. Dans cette étude, l’analyse en
composantes principales, la régression linéaire multiple (RLM), l’analyse de validation
interne, externe et croisée ont été appliques à une série de molécules afin de développer le
modèle QSAR
Dans cette étude, nous avons sélectionné une série de 24 molécules (figure 3) contenant le
noyau thiazole. Pour exercer la méthode QSAR de manière opportune, les valeurs déclarées
de IC50 ont été convertis en pIC50 en calculant le logarithme négatif et ensuite les utiliser
comme variables dépendantes pour le développement du modèle QSAR. . Le tableau 1 montre
les substituants des composés étudiés et leurs activités expérimentales pIC50.
39
Tableau 1 : Série des dérivés de thiazole sélectionnés
Molécules R1 R2 IC50 (µM) pIC50
39
10a 4.75 5.34
39
10g 3.15 5.5
39
10m 3.23 5.49
39
10s 9.35 5.03
Remarque :
39
III.2. Calcul des descripteurs
Avant toute modélisation, il est nécessaire de calculer un certain nombre de descripteurs. Les
paramètres caractéristiques de chaque molécule sont représentés dans le tableau suivant :
10a 5.34 1040.35 23.41 4.58 113.57 433.08 5 -5.94 1195765 20534 8 117.09 2867 23.82
10b 5.27 1051.95 23.37 5.067 118.61 447.09 5 -6.31 1386004 22497 8 117.09 3127 28.3
10c 5.26 1037.68 23.35 4.74 113.79 451.06 6 -6.22 1386004 21714 8 117.09 3127 28.63
10d 5.33 1064 24.64 4.45 120.03 563.08 6 -6 1607187 24175 9 126.32 3419 34.07
10e 5.02 1065.66 24.07 5.12 123.36 475.08 6 -6.45 1971244 28198 10 126.32 3964 34.01
10f 5.28 1077.26 24.02 5.61 128.402 489.5 6 -6.81 2250785 30589 10 126.32 4281 33.79
10g 5.5 1053.6 23.52 5.25 122.26 459.08 5 -6.63 1673840 25697 9 117.09 3563 37.51
10h 5.53 1065.2 23.45 5.57 127.29 473.1 5 -7 1920309 27956 9 117.09 3860 37.17
10i 4.59 1015.77 23.09 4.92 111.78 482.98 6 -6.21 1479064 18733 9 117.09 2923 31.81
10j 4.29 985.21 20.95 5.65 114.12 551.04 12 -6.8 3324810 27469 11 117.09 4651 41.54
10k 4.27 1027.38 22.97 5.21 116.54 497 6 -6.36 1744197 21020 10 117.09 3240 39.99
10l 4.31 1051.95 23.37 5.07 116.31 447.08 5 -6.14 1375220 22312 8 117.09 3102 26.87
10m 5.49 1051.95 23.37 5.07 118.61 447.08 5 -6.29 1396556 22682 8 117.09 3152 28.38
39
III.3. Analyse de composantes principales (ACP)
PD 0.615 1
ITM 0.265 0.432 0.062 0.668 0.829 0.492 0.393 -0.685 0.741 1
NLR -0.290 -0.231 -0.233 0.330 0.239 0.595 0.587 -0.189 0.785 0.520 1
SP 0.273 0.577 0.741 -0.283 0.346 0.134 -0.025 0.213 0.090 0.326 0.302 1
IW 0.012 0.127 -0.220 0.738 0.614 0.670 0.690 -0.728 0.931 0.927 0.669 0.202 1
ET -0.209 -0.269 -0.342 0.442 0.276 0.635 0.510 -0.360 0.717 0.469 0.851 0.012 0.618 1
39
D’après ce tableau, nous peuvent conclure que les descripteurs ayant une influence positive
sur IC50 sont : PD, CLH, RM, ITM, SP et IW
Par contre les descripteurs ayant une influence négative sont : LP, MM, ND, LS, NLR et ET
Généralement tous les descripteurs possédant une faible corrélation sur l’activité biologique à
l’exception de PD et CLH, qui ont une corrélation dépassant 0,5.
On peut supprimer quelques descripteurs qui montrent une forte corrélation par exemple : Les
cases en rouge (tableau 3)
Afin de minimiser le nombre des descripteurs le tableau suivant montre les descripteurs filtré
par cette méthode d’ACP. (Tableau 4)
Mol PiC50 ND MM RM LS LP
10a 5.34 5 433.08 113.57 -5.94 4.58
10b 5.27 5 447.09 118.61 -6.31 5.067
10c 5.26 6 451.06 113.79 -6.22 4.74
e
10 5.02 6 475.08 123.36 -6.45 5.12
10f 5.28 6 489.5 128.402 -6.81 5.61
10g 5.5 5 459.08 122.26 -6.63 5.25
10h 5.53 5 473.1 127.29 -7 5.57
10i 4.59 6 482.98 111.78 -6.21 4.92
10j 4.29 12 551.04 114.12 -6.8 5.65
10k 4.27 6 497 116.54 -6.36 5.21
10m 5.49 5 447.08 118.61 -6.29 5.07
10n 5.22 6 463.08 120.04 -5.78 4.45
10o 5.3 6 451.06 113.79 -6.18 4.74
10p 5.27 5 467.88 118.37 -6.64 5.14
10q 4.87 5 467.88 118.37 -6.62 5.14
10r 5.33 6 458.07 119.31 -6 4.61
10s 5.03 8 501.06 119.54 -6.96 5.501
10t 5.09 8 501.06 119.54 -6.96 5.501
10u 4.95 6 465.08 118.83 -6.54 5.22
10v 4.63 6 465.08 118.83 -6.42 5.22
10w 4.83 7 469.05 114 -6.46 4.9
10x 4.67 5 413.1 107.54 -5 4.14
39
III.4. La régression linéaire multiple
pIC50 = 1.441+0.120*ND-0,012*MM+0,070*RM-1.054*LS-1.240*LP
Avec les valeurs des paramètres statistiques ci-après :
L’équation de modèle montre que l’activité anticancéreuse à était explique par cinq
descripteurs qui sont ND, MM, RM, LS et LP.
Le ND et la RM sont contribues positivement sur l’activité, donc pour augmenter l’activité il
faut jouer sur ces deux descripteurs. C’est-à-dire si le ND et RM sont augmentent l’activité
biologique augmente.
L’augmentation de RM implique que l’ajoute des groupements plus encombrés à
la molécule.
L’augmentation de ND implique que l’ajoute des substituant électro-attracteur.
Par contre MM, LS et LP qui sont contribues négativement sur l’activité, donc pour améliorer
l’activité biologique il faut diminuent ces trois descripteurs.
La diminution de MM c’est-à-dire de réduire le nombre d’atomes au sien de la
molécule.
La diminution de LP ça implique que l’ajoute des substances hydrophile.
39
III.5. Validation de modèle
Pour valider nos résultats, nous avons effectué une validation interne par la méthode de
validation croisée, et une validation externe en utilisant l’ensemble de test réservé,
III.5.2.Validation externe
Pour identifier la qualité du modèle nous avons utilisé un ensemble de teste constituant
des molécules n’intervient pas à formation du modèle, pour attient cet objectif un
coefficient de test R²test a été calculé.
La valeur de R²test est très significatif de l’ordre de 0,83 ce qui monte une autre fois que
notre modèle performant est de bon qualité prédictif.
Les deux figures suivantes représentent respectivement la relation entre les valeurs
prédites et celles calculées, et la variation de résidu (figure 4 et 5).
39
Figure 5 : la variation de résidu en fonction de P réd (pIC50)
III.6.Domaine d’applicabilité
Le domaine d'applicabilité permet de définir une zone dans laquelle un tel composé peut être
prédit avec confiance, dans notre cas le domaine d'applicabilité a été évalué par l'analyse de
levier qui s'exprime en diagramme de Williams (Figure 6), cette méthode consiste à calculer
la distance de levier h de l'ensemble des composés de la phase d'apprentissage
La valeur de levier critique est donnée par la relation suivante :
h*= (3P+1)/N
Si un tel composé a un résiduel et que l'effet de levier dépasse la valeur critique h * alors cela
composé a été considéré en dehors du domaine d'applicabilité du modèle développé.
L'effet de levier a été utilisé comme mesure quantitative de l'applicabilité des modèle, pour
évaluer son extrapolation et détecter des composés extrêmes
39
Figure 6 : valeur résiduelle PLS en fonction de l’effet de levier
39
Conclusion générale
39
Dans ce travail, nous avons utilisé les méthodes d’analyse statistiques pour elaborer
un modèle QSAR fiable, capable de prédire l’activité anticancéreuse d’une série constituée de
24 molécules dérivées de thiazole dont les valeurs expérimentales des activités sont comprises
entre 4, 27 et 5,53.
Des validations rigoureuses internes et externes ont été utilisées pour juger la stabilité, la
justesse et la capacité prédictive de modèle obtenu.
39
Références bibliographiques
[1] : S.M. Kumar, D.S. Kumar, S. kumargupta, S.P. Pandey, R.Yadav, Asian Journal of Pharmaceutical
Research, 1, 62, 2011.
[4] : H.T. Phuong, Thèse de doctorat, Synthèse et étude des relations structure/activité quantitatives
(QSAR/2D) d’analogues Benzo[c]phénanthridiniques, Université d’Angers, 2007.
[6] : J. L. Rivail, Eléments de chimie quantique à l’usage des chimistes, CNRS Edition, Paris,
[7] : D. A. Mc Quarrie, J. D. Simon, Chimie Physique Approche Moléculaire, Dunod, Paris, 2000.
[8]: A.G. Maldonado, J. P. Doucet, M. Petitjean, B.T. Fan, Molecular Diversity, 10, 39- 79, 2006.
[9]: Charlier, C., & Michaux, C. Dual inhibition of cyclooxygenase-2 (COX-2) and 5-lipoxygenase (5-LOX) as
à new strategy to providesafer non-steroidal anti-inflammatorydrugs. European journal of
medicinalchemistry, 2003, 38(7-8), 645-659.
[10]: Reginato, M. J., Bailey, S. T., Krakow, S. L., Minami, C., Ishii, S., Tanaka, H., &Lazar, M. A. (1998). A
potentantidiabeticthiazolidinedionewith unique peroxisomeproliferator-activatedreceptor γ-
activatingproperties. Journal of BiologicalChemistry, 273(49), 32679-32684.
[12]: Bramley, S. E., Dupplin, V., Goberdhan, D. G., &Meakins, G. D. The Hantzsch thiazole
synthesisunderacidicconditions : change of regioselectivity. Journal of the Chemical Society, Perkin
Transactions 1, 1987, 639-643.
[13]: Mishra, C. B., Kumari, S., & Tiwari, M. Thiazole: A promising heterocycle for the development of
potent CNS active agents. European journal of medicinal chemistry, (2015), 92, 1-34
39
[14]: Peter Maienfisch, Andrew J.F. Edmunds, in Advances in Heterocyclic Chemistry, Maienfisch, P., &
Edmunds, A. J. . Thiazole and Isothiazole Ring–Containing Compounds in Crop Protection. In Advances in
Heterocyclic Chemistry,2017, Vol. 121, p. 35-88.
[15]: Cook, A. H., Heilbron, I., & Levy, A. L. 318. Studies in the azoleseries. Part I. A novel route to 5-
aminothiazoles. Journal of the Chemical Society (Resumed), 1947, 1594-1598.
[16]:Li, J. J. (Ed.). Name reactions in heterocyclic chemistry, Vol. 3,2004, John Wiley & Sons.
[17]: Botta, M., Castagnolo, D., Pagano, M., &Bernardini, M. Domino alkylation-cyclizationreaction of
propargylbromideswiththioureas/thiopyrimidinones: A new facile synthesis of 2-aminothiazoles and 5H-
thiazolo [3, 2-a] pyrimidin-5-ones. Synlett, 2009(13), 2093-2096.
[19]: Venkateswararao, E., Jalani, H. B., Manoj, M., & Jung, S. H. Exploration and Optimization of an Efficient
One‐pot Sequential Synthesis of Di/tri‐substituted Thiazoles from α‐Bromoketones, Thioacids Salt, and
Ammonium Acetate. Journal of Heterocyclic Chemistry, 2006, 53(5), 1449-1456.
[20] : K BOUHEDJAR, Toxicité des phénols : Une étude QSAR basée sur la méthode préconisée par l’OCDE,
université Annaba décembre 2010
[21] : A.C. Crum-Brown and T.R. Fraser, ―On the Connection Between Chemical Constitution and
Physiological Action, Part I: On the Physiological Action of the Salts of the Ammonium Bases, Derived from
Strychnia, Brucia, Thebia, Codeia, Morphia, Nicotia‖, Earth and Environmental Science Transactions of the
Royal Society of Edinburgh, 25, 1868, 151–203;
[22] : A.C. Crum-Brown and T.R. Fraser, ―On the Connection between Chemical Constitution and
Physiological Action. Part II: On the Physiological Action of the Ammonium Bases derived from Atropia
and Conia‖, Earth and Environmental Science Transactions of the Royal Society of Edinburgh, 25, 1869,
693–739.
[23]: J.A. Pople, ―Nobel Lecture: Quantum chemical models‖, Review of Modern Physics, 71, 1999, 1267–
1274.
39
[24] : H. Meyer,La théorie de la narcose alcoolique. Premier message Quelle propriété des anesthésiques
est la cause de leur effet narcotique, Archive pour Pathologie experimental et pharmacologie, 1899,109 –
118.
[25] : E. Overton et G. Fischer, É tudes sur l'anesthésie en même temps, une contribution à la
pharmacologie générale,1901.
[26] : H. Fü hner et E. Neubauer, "Immolation par des séries homologues de substances", Archive pour
Pathologie experimental et pharmacologie,333-345, 1907.
[27] : C. Hansch and T. Fujita, ―p-σ-π Analysis. A Method for the Correlation of Biological Activity and
Chemical Structure‖, Journal of the American Chemical Society, 86(8), 1964, 1616–1626.
[28]: S Chtita, Modélisation de molécules organiques hétérocycliques biologiquement actives par des
méthodes QSAR/QSPR. Recherche de nouveaux médicaments, 2017
[29] : Guillaume F, Développement de modèles QSPR pour la prédiction despropriétés d’explosibilité des
composés nitroaromatiques , 2010
[30] : R. Tomassone, E. Lesquoy, C. Miller. La régression : nouveaux regards sur une ancienne méthode
statistique. Masson, INRA (1983).
[31]: R. Wehrens, H. Putter, L. M. C. Buydens. Chemom. Int. Lab. Syst., 54, 2000, 35- 52
[33]: N. R. Draper, H. Smith. Applied Regression Analysis, 3rd ed; Wiley Series in Probability and Statistics
(1998).
[34]: Thomas, V.; Giles, D.; Basavarajaswamy, P. M. G.; Das, A. K.; Patel, A. Anticancer Agent. Med. Chem.
2017, 17, 415–423. DOI: 10.2174/1871520616666160902094739.
39
[35]: Desai, N. C.; Karkar, T. J.; Vekariya, R. H.; Joshi, S. B.; Jadeja, K. A.; Vaja, D. V. Indian J.Chem. 2020, 59B,
231.
[36]: Gomha, S. M.; Abdel-Aziz, H. M.; Badrey, M. G.; Abdulla, M. M. J. Heterocyclic Chem. 2019, 56, 1275–
1282. DOI: 10.1002/jhet.3487.
[37]: P_erez-Cruz, K.; Moncada-Basualto, M.; Morales-Valenzuela, J.; Barriga-Gonz_alez, G.; Navarrete-
Encina, P.; N_u~nez-Vergara, L.; Squella, J. A.; Olea-Azar, C. Arab. J. Chem. 2018, 11, 525–537. DOI:
10.1016/j.arabjc.2017.05.007.
[38] : Shen, Y.; Liu, L.; Feng, C.; Hu, Y.; Chen, C.; Wang, G.; Zhu, B. Fish Shellfish Immunol.
[39]: Hu, Y.; Xu, Z.; Zhang, S.; Wu, X.; Ding, J.; Lv, Z.; Feng, L. Eur. J. Med. Chem. 2017, 136, 122–130. DOI:
10.1016/j.ejmech.2017.05.004.
[42]: Abdul Rahman, F. S.; Yusufzai, S. K.; Osman, H.; Mohamad, D. J. Phy. Sci. 2016, 27, 77.
[43] : Pardo-Jim_enez, V.; Navarrete-Encina, P.; D_ıaz-Araya, G. Molecules. 2019, 24, 739.
DOI:10.3390/molecules24040739.
[44]: Koca, _I.; G€um€us¸, M.; €Ozg€ur, A.; Dis¸li, A.; Tutar, Y. Anticancer Agent. Med. Chem. 2015, 15, 916–
930. DOI: 10.2174/1871520615666150407155623.
[45] Gabr, M. T.; El-Gohary, N. S.; El-Bendary, E. R.; El-Kerdawy, M. M.; Ni, N. Excli. J. 2017,16, 1114–1131.
DOI: 10.17179/excli2017-208.
[46] : Kumar, S.; Saini, V.; Maurya, I. K.; Sindhu, J.; Kumari, M.; Kataria, R.; Kumar, V. PLOS One. 2018, 13,
e0196016. DOI: 10.1371/journal.pone.0196016.
39
39