Rapport Oulhaj Naciri99

Département de Chimie
Filière : Sciences de la Matière Chimie

Projet de fin d’études de licence fondamentale
Relations Quantitatives Structures Activités

d'une série de composés hétérocycliques
bioactifs à base de thiazoles
Présenté par : Encadré par :

NACIRI OULHAJ Pr : SBAI ABDELOUAHID
Soutenu le 30/06/2022 devant le jury :
 Pr : H. MAGHAT Professeur à la Faculté des Sciences Meknès
 Pr : M.A. AJANA Professeur à la Faculté des Sciences Meknès
 Pr : A. SBAI Professeur à la Faculté des Sciences Meknès
Année Universitaire : 2021/2022
39
Remerciements
Au nom d’Allah et le miséricordieux On trouve dans la tradition prophétique le hadith (celui
qui ne remercie pas les gens n’a pas remercié Allah).
C’est avec un réel plaisir que je réserve ces lignes de gratitude et de profonde reconnaissance
à tous ceux qui, de près ou de loin, ont contribué à la réalisation et à l’aboutissement de ce
travail.
Je tiens tout d’abord à adresser mes sincères remerciements à Monsieur le Professeur
Abdelouahid Sbai pour avoir encadré mon travail. Un grand merci pour son aide si précieuse,
pour ses conseils éclairés, sa simplicité et sa patience.
Je tiens à exprimer toute ma reconnaissance et ma gratitude au professeur Kamal Tabti pour
son soutien, ses conseils et ses commentaires ont été très précieux pour mener à bien ce
travail.
Je tiens à remercier les membres de mon jury d’avoir accepté de lire mon manuscrit et
d’évaluer mon travail : Le Professeur Hamid Maghat et le Professeur Mohammed Aziz Ajana.
Merci aussi d’avoir pris le temps pour m’écouter.
Mes parents, mes frères et sœurs, mes amis, merci du fond du cœur pour votre présence, votre
amour, votre soutien dans les moments où j’en avais le plus besoin.
39
SOMMAIRE
Symboles et abréviations-------------------------------------------------------------------------------6
Introduction générale-----------------------------------------------------------------------------------7
Chapitre I: Données bibliographiques

I. Introduction---------------------------------------------------------------------------------------------
11
I.1 Progression tumorale et immortalité--------------------------------------------------------------12
I.1.1. Fiche signalétique de la cellule cancéreuse---------------------------------------------------12
I.1.2. Aspects morphologiques--------------------------------------------------------------------------13
I.1.3. Aspects fonctionnels--------------------------------------------------------------------------------13
I.2. Généralités sur les

hétérocycles-----------------------------------------------------------------14
I.2.1. Classification------------------------------------------------------------------------------------------14
I.2.2. Structure de thiazole-------------------------------------------------------------------------------14
I.2.3. Synthèse de thiazole--------------------------------------------------------------------------------15

I.2.3.1. La synthèse de Hantzsch-----------------------------------------------------------------------15
I.2.3.2. La synthèse de Gabriel-------------------------------------------------------------------------15
I.2.3.3. La synthèse de Cook- Heilbronn-------------------------------------------------------------16
I.2.3.4. La synthèse de thio-urée avec un alcyne-----------------------------------------------------16
I.2.3.5. La synthèse de Dubs---------------------------------------------------------------------------17
I.3. Activités biologiques des dérivés de thiazole-------------------------------------------------17
39
Chapitre II: Méthodologie QSAR
II. Historique---------------------------------------------------------------------------------------------19
II.1 Principe----------------------------------------------------------------------------------------------19
II.2 La stratégie globale--------------------------------------------------------------------------------20
II.3 Modèle QSAR/QSPR-------------------------------------------------------------------------------20
II.4 Les descripteurs------------------------------------------------------------------------------------21

II.4.1 Descripteurs constitutionnels--------------------------------------------------------------------21
II.4.2 Descripteurs topologiques---------------------------------------------------------------------22
II.4.3 Descripteurs géométriques--------------------------------------------------------------------23
II.5. Méthodes utilisées pour le développement de modèle QSAR----------------------------24
II.5.1. Méthode de régression multilinéaire-------------------------------------------------------25
II.5.2.Validation de modèle----------------------------------------------------------------------------25
II.5.2.1 Validation interne-----------------------------------------------------------------------------26
II.5.2.2 Validation externe-----------------------------------------------------------------------------26
II.5.2.3 Validation croisée-----------------------------------------------------------------------------27
II.6. Matériels et méthodes----------------------------------------------------------------------------28
II.6.1. Les logiciels utilisés-----------------------------------------------------------------------------28
II.6.1.1. ChemDraw---------------------------------------------------------------------------------------------28
II.6.1.2. Chem 3D----------------------------------------------------------------------------------------29
II.6.1.3. XLSTAT---------------------------------------------------------------------------------------------------29
39
Chapitre III : Résultats et discussions
III. Introduction-----------------------------------------------------------------------------------------31
III.1. Base de données----------------------------------------------------------------------------------

31
III.2. Les descripteurs calculés-----------------------------------------------------------------------36
III.3. Analyse des composants principales---------------------------------------------------------37
III.4. Régression linéaire multiple-------------------------------------------------------------------39
III.5. Validation de modèle----------------------------------------------------------------------------40
III.5.1. Validation interne------------------------------------------------------------------------------40
III.5.2. Validation externe------------------------------------------------------------------------------40
III.6. Domaine d’applicabilité-------------------------------------------------------------------------41
Conclusion générale---------------------------------------------------------------------------------43
Références bibliographiques---------------------------------------------------------------------44
39
Symboles et abréviations
QSAR: Relations Quantitatives Structure/ Activité.
RLM : régression linière multiple
ACP : Analyse des composants principales
EQM: Ecart quadratique moyen.
EQMC: Ecart quadratique moyen calculé sur l'ensemble de calibrage.
EQMP : Ecart quadratique moyen de prédiction.
EQMPext :: Ecart quadratique moyen calculé sur l'ensemble de validation externe.
ei : Résidu : différence entre les valeurs observée (i y) et estimée ( i yˆ ).
LOO: Validation croisée par omission d'une observation
N: Dimension de la population (échantillon).
n-p : Nombre de degrés de liberté.
PRESS : Somme des carrés des erreurs de prédiction.
p : Nombre de descripteurs en comptant la constante
Q2LOO: Coefficient de prédiction.
R2 : Coefficient de détermination.
Mol : molécule
PD : Point d’ébullition (en kelvin)
CLH : Constante de la loi d'Henry
LP : LogP
RM : réfractivité moléculaire
MM : masse molaire(en g/mol)
ND: Nombre d'accepteurs
LS : LogS
IB : Index de Balaban
ITM: Index topologique moléculaire
NLR : Nombre de liaisons rotatives
SP : Surface polaire(en Aͦ 2 )
IW : Index de Wiener
ET : Energie totale(en eV)
39
Introduction Générale
39
39
La discipline de la chimie médicinale est consacrée à la découverte et au développement de
nouveaux agents pour le traitement des maladies [1]. Découvrir de nouveaux médicaments de
la manière la plus efficace et la moins coûteuse possible constitue un enjeu majeur pour les
années à venir. Il est admis que, en moyenne, pour une molécule qui arrive sur le marché en
tant que médicament innovant, 10 000 molécules sont synthétisées et testées. Le
développement s'agit en effet de trouver une molécule qui doit à la fois présenter des
propriétés thérapeutiques particulières, et posséder le minimum d'effets secondaires
indésirables. Le prix de revient d’un médicament est essentiellement dû à ces synthèses
longues, coûteuses et finalement inutiles. Pour cette raison, l'industrie pharmaceutique [2]
s'oriente vers la conception rationnelle “Rational design” qui signifie que la connaissance des
relations entre les propriétés physico-chimiques et la structure moléculaire des molécules
connues permet aux scientifiques de développer de nouvelles molécules, avec une assez
bonne anticipation [3]. Ces nouvelles méthodes de recherche consistent à prédire les
propriétés et activités de molécules avant même que celles-ci ne soient synthétisées. Les
ordinateurs sont devenus des outils indispensables en chimie pharmaceutique moderne. Leur
rôle est essentiel, tant au niveau de la découverte de nouveau médicaments que du
développement de ceux-ci. Les progrès rapides réalisés dans les logiciels et dans le matériel
qui les accompagnent fait que la plus part des opérations qui étaient, jadis uniquement,
réalisables par des informaticiens avertis peuvent maintenant être exécutées par des
pharmaco-chimistes, avec des ordinateurs couramment employés aux laboratoires, pour autant
qu’ils possèdent les notions élémentaires de mécanique quantique et autres équations qui ont
trait aux molécules [4].
La modélisation moléculaire est un terme général qui englobe différentes techniques de

graphisme moléculaire et de chimie computationnelle permettant de dessiner, afficher,
simuler, analyser, calculer et stocker les propriétés des molécules [4]. La modélisation
moléculaire est une application des méthodes théoriques et des méthodes de calcul pour
résoudre des problèmes impliquant la structure moléculaire et la réactivité chimique ou
l’activité biologique [5].
39
Le développement des outils informatiques a permis de mettre au point des techniques de
calculs de plus en plus poussées, rendant ainsi possible l’étude des Systèmes de plus en plus
complexes [6,7]. Les techniques QSAR s’appuient sur le concept postulant que des structures
similaires ont des propriétés similaires, plus les molécules sont différentes, plus il est difficile
à corréler les propriétés physico-chimiques et l’activité biologique, alors que le contraire est
plus aisé [8].
Si la prévention, le dépistage et l’amélioration des traitements du cancer sont les grands axes
de lutte contre la maladie cancéreuse. La tendance actuelle porte surtout sur le développement
de la thérapie ciblée. Ceci passe obligatoirement par une meilleure compréhension des
mécanismes de l’oncogenèse grâce aux dernières percées de la biologie moléculaire. Ces dites
percées sont le fruit de l’étroite collaboration entre le biologiste, chimiste et Informaticien.
Le but principal de ce travail est une initiation à la recherche dans le domaine de la

modélisation moléculaire, notamment l’application des méthodes QSAR pour la prédiction
l’activité anticancéreuse reliant les activités expérimentales aux structures moléculaires
Le manuscrit de ce projet de fin d’études est divisé en trois chapitres :
 Le premier chapitre de ce travail est réservé à un rappel bibliographique sur les
caractéristiques et processus biologiques du cancer ainsi qu’un aperçu sur les thiazoles
et leur intérêt biologique, nous aborderons une généralité sur quelques méthodes de
synthèse de ces molécules.
 Dans le deuxième chapitre nous présentons un aperçu général théorique sur les
différentes méthodes de la modélisation moléculaire utilisée dans ce travail.
 Dans le troisième chapitre nous présentons et discutons le model calculé.
Enfin ce manuscrit se termine par une conclusion générale.
39
Données bibliographiques
39
I. Introduction
Le fardeau mondial du cancer s’alourdi progressivement, en particulier dans les pays à revenu
faible et moyen. La nécessité de mettre en œuvre des stratégies efficaces de prévention
primaire est urgente. Ces stratégies doivent obligatoirement s'axer d'abord sur une
hiérarchisation des mesures de lutte contre le cancer, et par la suite sur l'élaboration d'outils
simples d'évaluation de l'efficacité de ces stratégies, et surtout leur rapport coût-efficacité.
Le cancer reste l'une des maladies les plus redoutées du monde moderne. Selon l'organisation
mondiale de la santé, cette maladie a touché une personne sur trois et a causé le quart des
décès dans les pays développés au cours de l'année 2000 [9]. Le cancer défini comme une
maladie dans laquelle un groupe de cellules anormales se développe de manière incontrôlable
(Figure1) en ignorant les règles normales de la division cellulaire. Les cellules normales sont
constamment soumises à des signaux qui déterminent si les cellules se divisent, se
différencient en une autre cellule ou meurent. Les cellules cancéreuses développent une
certaine autonomie par rapport à ces signaux, ce qui entraîne une croissance et une
prolifération incontrôlées. Si la prolifération fatal [10]
Figure 1 : développement des cellules cancéreuses
39
I.1. Progression tumorale et immortalité :
Les cellules normales sont programmées pour un nombre limité de dédoublements (environ
60–70 in vitro). Aux extrémités des chromosomes se trouvent des séquences répétitives
(télomères) qui sont érodées à chaque réplication de l’ADN. Leur disparition induit un arrêt
de la prolifération (G0). Dans la plupart des cellules tumorales, il existe un maintien des
télomères au cours des réplications successives. Ceci est dû à la surexpression des
télémétrasses, qui sont les enzymes capables d’ajouter des séquences répétées à l’extrémité
des chromosomes.
I.1.2. Fiche signalétique de la cellule cancéreuse

D’un point de vue fonctionnel on reconnaît aux cellules cancéreuses des propriétés communes
qui les différencient des cellules normales :
 Indépendance vis-à-vis des signaux de prolifération (facteurs de croissance) provenant
de l’environnement.
 Insensibilité aux signaux anti-prolifératifs .
 Résistance à l’apoptose.
 Prolifération illimitée (perte de la sénescence) .
 Capacité à induire l’angiogénèse.
 Capacité d’invasion tissulaire et diffusion métastatique.
Ces anomalies fonctionnelles sont l’aboutissement d’un processus multi-étapes dans lequel
l’environnement n’est pas neutre. Elles s’accompagnent de modifications morphologiques de
la cellule qui permettent le plus souvent de reconnaître son caractère cancéreux en l’observant
au microscope optique. Il faut cependant faire deux remarques :
 Aucune de ces anomalies morphologiques prises séparément n’est spécifique de la
cellule cancéreuse (en dehors pour certains auteurs des figures de mitoses anormales).
 Certaines tumeurs au comportement authentiquement malin sont constituées de
cellules morphologiquement très proches de leur contrepartie normale ; d’autres
critères morphologiques (mauvaise limitation, invasion vasculaire) ou évolutifs
(métastases) sont alors nécessaires pour affirmer la malignité.
39
I.1.2. Aspects morphologiques
Les modifications morphologiques ne sont visibles qu’en microscopie électronique :
irrégularités, microvillosités, bulles, projections, modifications des systèmes de jonction. Elles
ne sont pas prises en compte pour le diagnostic de cancer en routine. Il existe des
modifications des protéines de surface, et notamment des molécules d’adhérence, qui sont
impliquées dans les interactions intercellulaires et cellules-matrices extracellulaire. En savoir
plus : « Anomalies des molécules d’adhésion »
I.1.3. Aspects fonctionnels

 Anomalies des récepteurs membranaires : augmentation de nombre et perte de
régulation.
 Modifications des enzymes membranaires : augmentation des enzymes protéolytiques

(protéases, glycosidases) favorisant la dégradation de la substance intercellulaire.
 Modifications des antigènes de membrane :
 Altération ou perte des antigènes normaux (Ag d’espèces, d’organes ou de tissus) ;
 Apparition de néo antigènes : ré-expression d’antigènes embryonnaires : alpha

foetoprotéine, antigène carcinoembryonnaire ;
 Expression anormale d’antigène de différenciation, d’Ag associés aux virus (ex:

protéine latente de membrane du virus d’Epstein-Barr virus).
 Modifications de la perméabilité membranaire :
 L’augmentation de perméabilité pour différents cations (Ca 2+ et Mg2+) joue un rôle

dans plusieurs fonctions cellulaires, en particulier la prolifération. [11]
39
I.2. Généralités sur les hétérocycles
Les hétérocycles et leurs dérivés constituent une classe de composés cycliques dans lesquels
une ou plusieurs atomes de carbone d’un carbocycle de référence (benzène cyclopentadiène
cyclopentane, par exemple) est remplacé par un hétéroatome. De part leur structure
particulière et leur stabilité en milieu physiologique, les hétérocycles sont des éléments
structuraux essentiels dans la recherche de molécules bio-actives [4,5]. Ce sont en effet des
pharmacophores convoités en chimie médicinale pour leurs propriétés variées.
I.2.1. Classification
 Par la nature de l’hétéroatome : les hétérocycles oxygénés, soufrés et azotés sont les
plus importants.
 Par le nombre de chaînons : les hétérocycles à 5 et 6 chaînons sont les plus stables et
les plus fréquents.
 Par le degré d'instauration (analogie avec les composés carbocycliques): hétérocycles

saturés, hétérocycles éthyléniques (partiellement saturés), hétérocycles aromatiques
(insaturés) [6].
I.2.2. Structure des thiazoles

Les thiazoles sont une classe de composés organiques reliés aux azole par le groupement
fonctionnel thiazole (Figure 2), qui a une structure moléculaire cyclique à cinq chaînons
C3H3NS.
Figure 2 : Noyau de base thiazole
Les dérivés des thiazoles ont un grand potentiel dans de nombreux produits naturels et
synthétiques ayant une large gamme d'activités biologiques et pharmacologiques comme les
anti-inflammatoires [9], les antidiabétiques [10], les antifongiques ... [11].
39
I.2.3. Synthèse des thiazoles
Compte tenu de l’importance des thiazoles et de leurs dérivés, plusieurs méthodes de synthèse
des dérivés du thiazole sont développées par Hantzsch, Dubs,Cook-Heilborn, Gabriel et
d'autres groupes.
I.2.3.1. Synthèse de Hantzsch

C'est la première méthode la plus simple utilisée, impliquant la condensation et
cyclisation entre α-halo carbonyle et des dérivés de thio-urée ou de thioamide appliquée
pour la préparation de thiazoles avec des groupements alkyles ou aryles dans les
positions 2,4 ou 5(Schéma 1) [12].
La réaction implique une attaque nucléophile de l'atome de soufre du thioamide sur
l'atome de carbone d’α-halo carbonyle avec formation l'intermédiaire et après la
déshydratation pour donner thiazole substitué.
Schéma1 : R1, R2= alkyl, aryl, R3=H
I.2.3.2. Synthèse de Gabriel
La synthèse de Gabriel est une autre méthode qui est largement utilisée pour synthétiser les
thiazoles substitués par des groupes alkyle, aryle ou alcoxy en positions 2 ou 5 ou( 2,5)
impliquant le traitement de α - acylaminocétones avec quantité stoechiométrique de P 2S5
(Schéma 2) [13,14]
Schéma 2 :R1=C6H5, R2= H, R3= alkyle ou alkoxy
39
I.2.3.3. Synthèse de Cook- Heilbron
Cette synthèse était réalisée par Cook- Heilbron pour préparer des 5-aminothiazoles
diversement substitués en position 2 par réaction des α- aminonitriles avec des esters de
dithioacides, disulfure de carbone, oxysulfure de carbone, et isothiocyanates dans des
conditions extrêmement douces(Schéma 3)[15].
La réaction se fait par l'attaque nucléophile d'atome d'azote d’aminonitrile sur l'atome de
carbone thioacide pour former l'intermédiaire thioamide suivi la cyclisation intramoléculaire,
produisant le produit final aromatique 5-amino thiazole avec un bon rendement (Schéma 3) [16].
Schéma 3 : R1,R2=alkyle , aryle
I.2.3.4. Synthèse de thio-urée avec un alcyne

Une réaction d'alkylation-cyclisation des bromures de propargyle disponible dans le
commerce avec la thio-urée en présence d'une quantité stœchiométrique de K2CO3 et sous
irradiation micro-ondes (300W.10 min) conduisant aux 2- aminothiazoles avec de rendement
élevé (Schéma 4) [17].
39
Schéma 4 R1, R2= alkyle ou aryle
I.2.3.5. Synthèse de Dubs
Les acides thiocarboxyliques et leurs dérivés réagissent facilement avec les α-bromocétones
en présence d'acétate d'ammonium dans l’acide acétique au reflux donne les dérivés du 1,3-
thiazole (Schéma 5) [18,19].
Schéma 5 R1, R2, R3 = alkyle ou aryle
I.3. Activités biologiques des dérivés de thiazole
Les thiazoles sont considérés comme une classe importante de composés hétérocycliques à la
fois biologiquement et chimiquement. Des études antérieures ont montré que les composés à
base de thiazole avaient une efficacité importance pharmacologique avec antimicrobien [33]
anti-inflammatoire [34] anticonvulsivant [35] antidiabétiques [36] anti-VIH[37] anti
tumorales [38] et antioxydants [39]. D'autre part, les coumarines se produisent dans les
graines, les racines et les feuilles d'un grand nombre de plantes, [40] de champignons, de
bactéries et de sources marines [41] Les coumarines présentent diverses espèces biologiques
activités comme antimicrobien[42] anticancéreux et anti-inflammatoire [42–44] antioxydant
[43] antiviral [44] et antituberculeux.[45] La warfarine est un dérivé de la coumarine qui
possède des propriétés anticoagulantes, utilisées pour traiter ou prévenir les caillots sanguins
dans les veines [46]. De plus, le fragment thiazolyl coumarine a des propriétés
anticancéreuses [44-46].
Pour cette raison nous avons décidé d’étudier une série des thiazoles et leurs activités
anticancéreuses
39
Méthodologie QSAR
39
II. Historique
Il y a plus d'un siècle et demi, en 1863, des scientifiques ont observé que des propriétés
physico-chimiques des alcanes augmentent quand le nombre d'atomes de carbone augmentent.
Ils ont observé également une diminution de la solubilité dans l'eau des alcools avec
l'augmentation du nombre d'atomes de carbone, cela est considéré depuis, comme la première
formulation générale en QSAR.
Cinq ans après, en 1868, Crum-Brown et Fraser [21,22] postulèrent que « l‘activité biologique
d‘une molécule est une fonction de sa constitution chimique »
Quelques décennies plus tard, en 1893, Richet [23] a découvert que la toxicité des composés
organiques a un rapport avec leur solubilité dans l'eau est définie par : ϪØ =f (ϪC)
A la fin du 19ème siècle, Meyer en 1899 et Overton en 1901 [24 ,25], ont observé « une
relation linéaire entre l'activité des narcotiques et leur coefficient de partage huile-eau ».
Six ans après, en 1907, Fühner et Neubauer [26] ont montré pour une série de narcotiques
homologues, que l‘activité augmente en fonction de la progression géométrique de la série de
composés, cela montrait l‘importance de la contribution d‘additivité de groupements
fonctionnels pour l‘activité biologique.
L‘année 1964 est considérée comme le début des méthodes QSAR modernes. Hansch et
Fujita [27] ont établi les premières corrélations entre les propriétés physico-chimiques et
l‘activité biologique (activité enzymatique, pharmacologique).
II.1. Principe
L’étude QSAR/QSPR consiste à définir une relation mathématique entre une activité
biologique, ou une propriété mesurée pour une série de composés similaires dans les mêmes
conditions expérimentales, avec des descripteurs moléculaires à l‘aide des méthodes
statistiques. L‘objectif de ces études est d‘analyser les données structurales afin de détecter les
facteurs déterminants pour l‘activité ou la propriété étudiée. Pour ce faire, différents types de
méthodes statistiques peuvent être employées. L'expression mathématique obtenue est utilisée
comme un moyen prédictif de l‘activité/propriété étudiée pour de nouvelles molécules ou bien
des molécules pour lesquelles les données expérimentales ne sont pas disponibles.[28].
39
II.2. La stratégie globale
Pour développer un modèle, il faut débuter par la recherche du maximum possible des
données expérimentales fiables. Ensuite, le développement d‘une série de descripteurs
qui caractérisent les structures moléculaires des composés de la base de données en vue
de les relier à l‘activité/propriété expérimentale étudiée. Une fois développé, le modèle
doit être validé en termes de corrélation.
L‘influence des composés du jeu d‘entraînement sur le modèle est estimée par des
méthodes de validation interne. Pour estimer le pouvoir prédictif du modèle, il est
nécessaire de disposer de données expérimentales supplémentaires, c’est la validation
externe.[28]
II.3. Modèle QSAR/QSPR

Au cours des années passées, les Relations Quantitatives Structure Activité,
Quantitatives Structure Propriété (QSAR/QSPR) sont devenues un puissant outil
théorique, à la place de la mécanique quantique, pour la description et la prédiction des
propriétés des systèmes moléculaires complexes dans différentes circonstances.
L’approche QSAR procède à l’hypothèse d’une relation dépendante entre n’importe
quelle propriété physique, affinité chimique, ou activité biologique d’un composé
chimique et sa structure moléculaire. Cette correspondance univoque peut être
représentée par la composition chimique, la connectivité des atomes, la surface
d’énergie potentielle, et la fonction d’onde électronique d’un composé. (Schéma 4)
Schéma 4 : schéma général QSAR
39
Différents descripteurs moléculaires physico- chimiques représentant la structure peuvent être
déterminés empiriquement ou en utilisant des méthodes théoriques et computationnelles de
différents niveaux de complexité. Il a fallu mettre en évidence que la connaissance de la
constitution chimique exacte et/ou de la structure moléculaire tridimensionnelle des composés
chimiques étudiés est une condition essentielle à l’application de l’approche QSAR.
La réalisation de l’approche QSAR, dépend de de l’utilisation appropriée des descripteurs

moléculaires [20].
II.4. Les descripteurs
Un descripteur moléculaire est un paramètre (une valeur numérique) propre à une structure
chimique donnée. Ces valeurs peuvent être obtenues expérimentalement ou calculées à partir
de la structure de la molécule. Les descripteurs calculés, permettent d‘effectuer des
prédictions sans avoir à synthétiser les molécules, ce qui est l‘un des objectifs de la
modélisation moléculaire. Les descripteurs moléculaires jouent un rôle fondamental dans les
études de la relation quantitative structure activité/propriété. Ils sont utilisés en tant que
variables indépendantes pour prédire une variable dépendante (activité ou propriété).
L'utilisation des descripteurs moléculaires dans le développement de modèles QSAR/QSPR
n'est pas une tâche aisée. Tout d'abord, un très grand nombre de descripteurs moléculaires, de
différentes complexités et de conceptions diverses a été introduit au cours des dernières
années. Ensuite, pendant ce temps, aucune règle stricte n'a été établie pour la sélection de
descripteurs adaptés parmi le grand nombre de descripteurs disponibles. Ce choix a souvent
été basé sur l'intuition chimique des chercheurs, ou en se pliant à la tradition.
II.4.1. Descripteurs constitutionnels
Le but de représenter un système moléculaire d’une façon simple, on considère sa

composition chimique seulement, sans considérer son côté géométrique ou électronique.
On prend comme exemples les caractéristiques de descripteurs constitutionnels : les nombres
absolus et relatifs d’atomes (C, H, N…) ; les nombres absolus et relatifs de groupes
fonctionnels (NO2, COOH, OH…) ; les nombres absolus et relatifs de liaisons (simples,
doubles, aromatiques…) ; les nombres absolus et relatifs de cycles (aromatiques ou non) ; la
masse moléculaire. Ces descripteurs sont très couramment utilisés du fait de leur extrême
simplicité non seulement d’un point de vue conceptuel mais surtout calculatoire. Ils sont
notamment à la base des analyses par groupes de contribution, comme la méthode de Benson,
39
dans laquelle l’effet des substituant et introduit sous la forme d’une valeur tabulée.
Si ce type de descripteurs est employé pour obtenir les modèles QSAR/QSPR les plus
simples, pour une bonne interprétation des mécanismes d’interaction mis en jeu pour la
propriété étudiée, ces derniers peuvent poser problème. Par exemple, on ne peut pas
distinguer les isomères (sans géométrie). Or, pour la grande majorité des propriétés, la
position d’un substituant modifie la valeur expérimentale d’une propriété. Les paramètres
constitutionnels sont, dans de tels cas, défaillants. Il faut alors recourir à d’autres classes de
descripteurs.
II.4.2. Descripteurs topologiques
Les descripteurs topologiques sont des indices obtenus à partir d’une structure 2D de la
molécule, à savoir une simple table de connectivité des atomes dans la molécule. Ils
contiennent en leur sein des informations sur la taille globale du système, sa forme globale et
ses ramifications.
Ces descripteurs, ou indices topologiques, viennent de la théorie des graphes appliquée à la

table de connectivité qui n’est autre qu’une représentation compacte de la connectivité
interatomique au sein de la molécule.
Le système moléculaire est considéré comme un graphe G [V, R] dans lequel les atomes sont
des sommets V et les liaisons chimiques des arrêtes R. La distance topologique d entre deux
atomes est alors définie comme le nombre de liaisons minimum qui relie ces atomes.
L’indice de Wiener, par exemple, permet de caractériser le volume moléculaire et le taux de
ramification des molécules. Il est calculé comme la somme de toutes les distances
topologiques entre atomes au sein de la molécule et donc définie par cette équation :
Parmi les autres indices topologiques courants, on retrouve l’indice de Randic, qui peut être
interprété comme une mesure de l’aire de la molécule accessible au solvant, les indices de
Kier-Hall ou encore l’indice de Balaban. Enfin, des indices de contenu d’information
appliquent les fondements de la théorie de l’information de Shannon aux distances
topologiques.
39
En général, ce type de descripteurs simplifie grandement la représentation de la connectivité
chimique au sein de la molécule puisqu’ils ne prennent pas en compte les différences de
distances, d’angles et d’ordres de liaison ni même la nature des atomes dans la molécule. Si
certains indices ont été développés pour intégrer de manière très approximative ce genre
d’informations, ils restent souvent insuffisants pour caractériser l’intégralité des propriétés
moléculaires. Finalement, les indices topologiques sont souvent considérés comme des
descripteurs convenables d’un point de vue numériques. Cela dit, dans la plu part des cas,
l’interprétation des équations QSAR/QSPR qui en résulte n’est pas aisée, puisqu’il est
difficile de les relier aux mécanismes sous-jacents. (Figure 3)
Figure 3 : Angle dièdre dirigeant l’activité catalytique des complexes bis (arylimino) pyridine du fer
II.4.3. Descripteurs géométriques

Il s’agit de descripteurs évalués à partir des positions relatives des atomes d’une
molécule dans l’espace, ainsi que des rayons et masses atomiques. Ils nécessitent donc
de connaître la structure 3D de la molécule. Celle-ci peut être obtenue
expérimentalement bien entendu mais le plus souvent par modélisation moléculaire,
empirique ou ab initio. Par conséquent, contrairement aux descripteurs précédents, ils
nécessitent un certain temps de calcul. Parmi ces descripteurs, on retrouve le volume et
la surface moléculaire, le moment d’inertie ou encore des distances, angles ou angles dièdres
particuliers entre atomes dans la molécule.
Un tel paramètre géométrique a pu notamment montrer son rôle central pour caractériser
l’activité des complexes bis (arylimino) pyridine du fer (II) pour l’oligomérisation de
l’éthylène. Il a pu être montré que l’activité de ces complexes est liée à un angle dièdre
particulier φ qui régit l’accessibilité au cœur réactif métallique du précurseur du complexe
catalytique par son activateur.
39
II.5. Méthodes utilisées pour le développement de modèle QSAR.
La réalisation d'un modèle QSAR n'est pas une tâche aisée, on rencontre plusieurs difficultés
liées à plusieurs domaines. La première difficulté rencontrée et due à la différence d'échelle
existant entre les données à corréler car la structure est à une échelle moléculaire alors que les
propriétés à prédire sont à une échelle macroscopique.
De plus il tient compte des problèmes d'incertitude à la fois au niveau des structures
moléculaires liées niveau du calcul et de données expérimentales protocole de mesure. Parmi
les problèmes importants on cite le traitement de grande quantité de données, on analyse un
grand nombre de descripteurs et de molécules.
Or il n'existe aucune règle stricte concernant le choix des paramètres structuraux les plus
importants parmi la totalité de ceux disponibles. Afin de mettre en place des modèles QSAR
fiables à partir de données disponibles il faut trouver le moyen le plus adapté parmi plusieurs
outils existants. Plusieurs approches sont envisageables, selon chaque cas il faut alors choisir
celles permettant de mieux caractériser le système [29]
En dernier ressort, les modèles QSAR peuvent être développés selon des modèles
mathématiques différents, généralement en relation avec l'analyse statistique multi-variée. Le
premier modèle, et le plus largement utilisé, consiste en une équation (multi) linéaire obtenue
par régression des données expérimentales en fonction d'un ensemble de descripteurs pré-
sélectionnés (ou d'un seul), en utilisant la méthode des moindres carrés ordinaires (MCO).
Dans quelques cas, les modèles physiques ou chimiques connus du phénomène étudié laissent
prévoir certaines formes mathématiques non linéaires (exponentielles ou logarithmiques) de la
dépendance entre les données expérimentales et les descripteurs moléculaires. Les modèles
QSAR peuvent alors être établis à l'aide de la technique de régression par les moindres carrés
non linéaires [20].
39
II.5.1. Méthodes de régressions multilinéaire
Comme cité plus haut, le chercheur choisit dans chaque cas un ou plusieurs descripteurs
supposé(s) refléter les interactions physiques ou chimiques à la base de la propriété
moléculaire ou de la caractéristique du phénomène étudié. Ce choix est généralement fondé
sur l’intuition chimique, la tradition ou simplement la disponibilité du descripteur. Néanmoins
pour établir un modèle QSAR, 5 principes peuvent aider à la sélection des descripteurs
convenables pour l'établissement de modèles QSAR. Ce sont :
 Un nombre maximal de données expérimentales (de préférence toutes) doivent être

caractérisées par des valeurs de descripteurs originaux complémentaires.
 Les valeurs des descripteurs doivent être obtenues de la même source et, de préférence,
mesurées selon le même protocole expérimental ou calculées en utilisant le même logiciel.
 Le nombre de descripteurs dans les modèles de régression multiples doit être minimisé, sans perte
d'information, ce qui met en évidence les critères statistiques (valeurs des tests t et F…).
 Dans les modèles RLM, les descripteurs utilisés doivent être statistiquement orthogonaux.
 Pourvu que les autres critères soient similaires, la nature physique ou chimique du
descripteur sélectionné doit être la plus proche de la propriété ou du phénomène étudié.
II.5.2. Validation de modèle
Il est hautement recommandé d’examiner la qualité statistique des données de départ. A la

fois les données à corréler et les descripteurs utilisés dans la corrélation avant d'entamer le
développement effectif des équations de régression QSAR.
Dans ce genre de prétraitement des données on distingue généralement les analyses uni-
variées et les analyses bi-variées. Dans l’analyse uni-variée, il est recommandé de vérifier la
conformité des données à la distribution normale. Une précaution particulière doit être prise
lors de la procédure de régression subséquente si les valeurs de la propriété étudiée, ou d’un
descripteur, ne suivent pas la loi de Laplace- Gauss.
39
Pour un ensemble de descripteurs différents, il est nécessaire d’effectuer une analyse des
données bi-variées, c'est-à-dire de calculer le coefficient de corrélation linéaire R entre
chacune des paires de l’ensemble des descripteurs. Si R est statistiquement significatif
(R>0,50), ces deux descripteurs ne peuvent être utilisés simultanément lors de l’analyse par
RLM [20].
II.5.2.1 Validation interne
C’est une étude qui donne une idée sur la qualité du modèle, Deux paramètres statistiques
sont couramment utilisés pour l’évaluation de la qualité du modèle :
 Le coefficient de détermination multiple :
Où est la valeur moyenne des valeurs observées pour l’ensemble de calibrage.
 La racine de l’écart quadratique moyen de calcul :
II.5.2.2. Validation externe

La validation externe donne généralement une image claire sur la performance du modèle,
pour cela Il est intéressant de considérer le coefficient calculé sur l’ensemble de validation
externe (R2ext) :
39
II.5.2.3. Validation croisée
La validation croisée par « leave – one - out » (LOO) [31] consiste à recalculer le modèle sur
(n-1) observations, et à utiliser le modèle ainsi obtenu pour calculer la grandeur d’intérêt du
composé écarté, notée ŷ(i). On répète le procédé pour chacune des grandeurs d’intérêt. La
somme des carrés des erreurs de prédiction, désignée par le symbole PRESS, est une mesure
de la dispersion des estimations. On l’utilise pour définir le coefficient de prédiction [31].
Contrairement à R2 qui augmente avec le nombre de paramètres du modèle, le facteur Q² vc

affiche une courbe avec maximum (ou avec palier) obtenue pour un certain nombre de
descripteurs, puis décroît de façon monotone. Ce qui confère une grande importance au
coefficient Q²vc.
Une valeur de Q²vc > 0,5 est considérée comme satisfaisante, et une valeur supérieure à 0,9 est
excellente [32].
Si de petites valeurs de Q²vc indiquent des modèles peu robustes, caractérisés par de faibles
capacités prédictives internes, le contraire n’est pas nécessairement vrai. En fait, si une forte
valeur de Q²LOO est une condition nécessaire de robustesse et d’une possible capacité
prédictive élevée d’un modèle, cette condition seule n’est pas suffisante, et peut conduire à
une surestimation de la capacité prédictive du modèle lorsqu’il est appliqué à des composés
réellement externes.
Evidemment, on peut être amené à écarter 2, 3 ou un plus grand nombre d’éléments à la fois,
ce qui conduit aux procédures LMO (leave– many- out).
Dans le cas où on a suffisamment de données qui n’ont pas servi dans la création du modèle
ou après collecte de nouvelles données, on peut ou on doit procéder à la validation de ce
dernier, c’est la validation externe. La statistique se rapportant à ce procédé, notée Q²ext, est
calculée comme suit :
39
II.6. Matériels et Méthodes
L’étude Relations Quantitatives Structure-Activité (QSAR) passe par trois étapes :
 Dessin des molécules.
 Pour le dessin des structures des molécules on a utilisé le logiciel « ChemDraw »

version 7.
 Optimisation : tous les calculs d’optimisation des structures des molécules ont été
effectués en utilisant le logiciel HyperChem 08.
 Modélisation : la modélisation passe par deux étapes :
i. Calcul de descripteurs : Les géométries ainsi optimisées ont été transférées dans le
logiciel Chem3D version 7 pour le calcul plus de descripteurs.
ii. Conception du modèle : Dans le présent travail, la sélection du modèle a été réalisée
par algorithme génétique, en utilisant le logiciel XLSTAT.
II.6.1. Logiciels utilisés
La simulation numérique dans le domaine de la chimie moléculaire et dans les domaines

connexes de la chimie moléculaire et de la science des matériaux, est un champ du calcul
scientifique en pleine expansion. En effet, le développement de la chimie théorique est lié
d’une manière étroite aux développements des moyens informatiques
II.6.1.1 ChemDraw
Est un outil complet destiné aux chimistes et biologistes, intégrant toute une gamme d’outils
intelligents permettant de faciliter les travaux des chercheurs, il est développé en 1985 par
David A. Evans et Stewart Rubenstein. C’est un outil essentiel et préféré pour illustrer les
concepts chimiques et biologiques et Il est imposé comme une référence pour le dessin de
structures moléculaires. Puisqu’ il est simple à utiliser, puissant et permet de dessiner de
manière intuitive et efficace en deux et trois dimensions [27].
39
II.6.1.2 Chem 3D
Chem3D est outil de Modélisation moléculaire avec un ensemble complet de fonctionnalités

et des outils faciles à utiliser. Créez des modèles à l'aide d'opérations cliqué-glissé. Ouvrez les
fichiers créés dans tous les formats de modélisation leaders de l'industrie. Permettent de
calculer les descripteurs caractéristiques des structures. Enregistrez votre travail au format de
fichier natif GIF, EPS, PICT, WMF, Ajoutez des structures 3D à vos rapports, graphiques ou
présentations.
II.6.1.3 XLSAT
XLSTAT est un logiciel dont le fonctionnement s’appuie sur Microsoft Excel pour la saisie
des données et la publication des résultats. En revanche, les calculs sont entièrement réalisés
dans des programmes autonomes. L’utilisation d’Excel comme interface rend le produit très
convivial, simple d’utilisation et efficace. La qualité des calculs est quant à elle identique à
celle des logiciels scientifiques les plus renommés.
XLSTAT offre de très nombreuses fonctionnalités qui font d’Excel un outil performant et
facile d’accès pour répondre à la majorité de vos besoins en analyse de données et
modélisation.
39
Résultats et Discussions
39
III. Introduction
En guise d’application, nous avons proposé d’élaborer un modèle statistique (QSAR) pour
coder l’information chimique sous forme d’équation mathématique d’une série de molécules à
base de noyau thiazole pour son activité anticancéreuse. Dans cette étude, l’analyse en
composantes principales, la régression linéaire multiple (RLM), l’analyse de validation
interne, externe et croisée ont été appliques à une série de molécules afin de développer le
modèle QSAR
III.1. Base de données
Dans cette étude, nous avons sélectionné une série de 24 molécules (figure 3) contenant le
noyau thiazole. Pour exercer la méthode QSAR de manière opportune, les valeurs déclarées
de IC50 ont été convertis en pIC50 en calculant le logarithme négatif et ensuite les utiliser
comme variables dépendantes pour le développement du modèle QSAR. . Le tableau 1 montre
les substituants des composés étudiés et leurs activités expérimentales pIC50.
Figure 3 : Noyau de base des dérives choisit
39
Tableau 1 : Série des dérivés de thiazole sélectionnés
Molécules R1 R2 IC50 (µM) pIC50
39
10a 4.75 5.34
10b 5.38 5.27
10c 5.50 5.26
10d 4.68 5.33
10e 9.44 5.02
10f 5.18 5.28
39
10g 3.15 5.5
10h 2 ?98 5.53
10i 25.8 4.59
10j 51.1 4.29
10k 53.3 4.27
10l 48.9 4.31
39
10m 3.23 5.49
10n 6.04 5.22
10o 5.02 5.3
10p 5.42 5.27
10q 13.4 4.87
10r 4.67 5.33
39
10s 9.35 5.03
10t 8.11 5.09
10u 11.1 4.95
10v 23.4 4.63
10w 14.8 4.83
10x 21.1 4.67
Remarque :
39
III.2. Calcul des descripteurs
Avant toute modélisation, il est nécessaire de calculer un certain nombre de descripteurs. Les
paramètres caractéristiques de chaque molécule sont représentés dans le tableau suivant :
Tableau 2 : ensembles des descripteurs calculés
Mol PIC50 PD CLH LP RM MM ND LS ID ITM NLR SP IW ET
10a 5.34 1040.35 23.41 4.58 113.57 433.08 5 -5.94 1195765 20534 8 117.09 2867 23.82
10b 5.27 1051.95 23.37 5.067 118.61 447.09 5 -6.31 1386004 22497 8 117.09 3127 28.3
10c 5.26 1037.68 23.35 4.74 113.79 451.06 6 -6.22 1386004 21714 8 117.09 3127 28.63
10d 5.33 1064 24.64 4.45 120.03 563.08 6 -6 1607187 24175 9 126.32 3419 34.07
10e 5.02 1065.66 24.07 5.12 123.36 475.08 6 -6.45 1971244 28198 10 126.32 3964 34.01
10f 5.28 1077.26 24.02 5.61 128.402 489.5 6 -6.81 2250785 30589 10 126.32 4281 33.79
10g 5.5 1053.6 23.52 5.25 122.26 459.08 5 -6.63 1673840 25697 9 117.09 3563 37.51
10h 5.53 1065.2 23.45 5.57 127.29 473.1 5 -7 1920309 27956 9 117.09 3860 37.17
10i 4.59 1015.77 23.09 4.92 111.78 482.98 6 -6.21 1479064 18733 9 117.09 2923 31.81
10j 4.29 985.21 20.95 5.65 114.12 551.04 12 -6.8 3324810 27469 11 117.09 4651 41.54
10k 4.27 1027.38 22.97 5.21 116.54 497 6 -6.36 1744197 21020 10 117.09 3240 39.99
10l 4.31 1051.95 23.37 5.07 116.31 447.08 5 -6.14 1375220 22312 8 117.09 3102 26.87
10m 5.49 1051.95 23.37 5.07 118.61 447.08 5 -6.29 1396556 22682 8 117.09 3152 28.38
39
III.3. Analyse de composantes principales (ACP)
L’analyse de composant principale permettant d’identifier la relation entre les descripteurs, et

la relation entre les descripteurs et pIC50 afin de réduire le nombre des descripteurs. Le
tableau suivant résume les résultats obtenus (tableau 3).
Tableau 3 : Matrice de corrélation entre les différents descripteurs

PiC50 PD CLH LP RM MM ND LS IB ITM N.L.R SP IW ET
VAR
PIC50 1
PD 0.615 1
CLH 0.524 0.830 1
LP -0.121 0.058 -0.447 1
RM 0.473 0.761 0.406 0.552 1
MM -0.192 -0.075 -0.192 0.397 0.267 1
ND -0.400 -0.490 -0.603 0.405 -0.123 0.664 1
LS -0.092 -0.218 0.285 -0.927 -0.603 -0.464 -0.371 1
IB -0.238 -0.200 -0.453 0.679 0.337 0.720 0.854 -0.602 1
ITM 0.265 0.432 0.062 0.668 0.829 0.492 0.393 -0.685 0.741 1
NLR -0.290 -0.231 -0.233 0.330 0.239 0.595 0.587 -0.189 0.785 0.520 1
SP 0.273 0.577 0.741 -0.283 0.346 0.134 -0.025 0.213 0.090 0.326 0.302 1
IW 0.012 0.127 -0.220 0.738 0.614 0.670 0.690 -0.728 0.931 0.927 0.669 0.202 1
ET -0.209 -0.269 -0.342 0.442 0.276 0.635 0.510 -0.360 0.717 0.469 0.851 0.012 0.618 1
39
D’après ce tableau, nous peuvent conclure que les descripteurs ayant une influence positive
sur IC50 sont : PD, CLH, RM, ITM, SP et IW
Par contre les descripteurs ayant une influence négative sont : LP, MM, ND, LS, NLR et ET
Généralement tous les descripteurs possédant une faible corrélation sur l’activité biologique à
l’exception de PD et CLH, qui ont une corrélation dépassant 0,5.
On peut supprimer quelques descripteurs qui montrent une forte corrélation par exemple : Les
cases en rouge (tableau 3)
Afin de minimiser le nombre des descripteurs le tableau suivant montre les descripteurs filtré
par cette méthode d’ACP. (Tableau 4)
Tableau 4 : L’ensemble des descripteurs filtré par L’ACP
Mol PiC50 ND MM RM LS LP
10a 5.34 5 433.08 113.57 -5.94 4.58
10b 5.27 5 447.09 118.61 -6.31 5.067
10c 5.26 6 451.06 113.79 -6.22 4.74
e
10 5.02 6 475.08 123.36 -6.45 5.12
10f 5.28 6 489.5 128.402 -6.81 5.61
10g 5.5 5 459.08 122.26 -6.63 5.25
10h 5.53 5 473.1 127.29 -7 5.57
10i 4.59 6 482.98 111.78 -6.21 4.92
10j 4.29 12 551.04 114.12 -6.8 5.65
10k 4.27 6 497 116.54 -6.36 5.21
10m 5.49 5 447.08 118.61 -6.29 5.07
10n 5.22 6 463.08 120.04 -5.78 4.45
10o 5.3 6 451.06 113.79 -6.18 4.74
10p 5.27 5 467.88 118.37 -6.64 5.14
10q 4.87 5 467.88 118.37 -6.62 5.14
10r 5.33 6 458.07 119.31 -6 4.61
10s 5.03 8 501.06 119.54 -6.96 5.501
10t 5.09 8 501.06 119.54 -6.96 5.501
10u 4.95 6 465.08 118.83 -6.54 5.22
10v 4.63 6 465.08 118.83 -6.42 5.22
10w 4.83 7 469.05 114 -6.46 4.9
10x 4.67 5 413.1 107.54 -5 4.14
39
III.4. La régression linéaire multiple
Pour proposer un modèle mathématique et évaluer quantitativement les effets physico

chimiques des substituants sur pIC50 pour la série étudiée, nous avons soumis la matrice de
données à une analyse de régression multiple descendante. D’autre part, nous avons utilisé
l’étude décroissante de RLM pour éliminer les descripteurs aberrants jusqu’ a la validation du
modèle. Cependant, cette méthode utilise les coefficients R, R2, R2 ajusté afin de sélectionner la
meilleure performance de régression, où R est le coefficient de corrélation, R2 est le
coefficient de détermination. Le modèle QSAR obtenu en utilisant la méthode de régression
linéaire multiple (RLM) est représenté par l’équation suivante :
pIC50 = 1.441+0.120*ND-0,012*MM+0,070*RM-1.054*LS-1.240*LP
Avec les valeurs des paramètres statistiques ci-après :
Tableau 5 : les paramètres statistiques caractéristiques de modèle

Statistique N R² R² ajusté MCE
Echantillon 20.000 0.739 0.639 0.063
d'apprentissage
L’équation de modèle montre que l’activité anticancéreuse à était explique par cinq
descripteurs qui sont ND, MM, RM, LS et LP.
Le ND et la RM sont contribues positivement sur l’activité, donc pour augmenter l’activité il
faut jouer sur ces deux descripteurs. C’est-à-dire si le ND et RM sont augmentent l’activité
biologique augmente.
 L’augmentation de RM implique que l’ajoute des groupements plus encombrés à
la molécule.
 L’augmentation de ND implique que l’ajoute des substituant électro-attracteur.
Par contre MM, LS et LP qui sont contribues négativement sur l’activité, donc pour améliorer
l’activité biologique il faut diminuent ces trois descripteurs.
 La diminution de MM c’est-à-dire de réduire le nombre d’atomes au sien de la
molécule.
 La diminution de LP ça implique que l’ajoute des substances hydrophile.
39
III.5. Validation de modèle
Pour valider nos résultats, nous avons effectué une validation interne par la méthode de
validation croisée, et une validation externe en utilisant l’ensemble de test réservé,
III.5.1. Validation interne

Pour juger la stabilité et la performance du modèle nous avons calculé le coefficient de
validation croisée Q².
La valeur de Q² =0,64 et bien Q² est supérieur à 0,5.
III.5.2.Validation externe
Pour identifier la qualité du modèle nous avons utilisé un ensemble de teste constituant
des molécules n’intervient pas à formation du modèle, pour attient cet objectif un
coefficient de test R²test a été calculé.
La valeur de R²test est très significatif de l’ordre de 0,83 ce qui monte une autre fois que
notre modèle performant est de bon qualité prédictif.
Les deux figures suivantes représentent respectivement la relation entre les valeurs
prédites et celles calculées, et la variation de résidu (figure 4 et 5).
Figure 4 : la variation de pIC50 en fonction de Préd(pIC50)
39
Figure 5 : la variation de résidu en fonction de P réd (pIC50)
III.6.Domaine d’applicabilité
Le domaine d'applicabilité permet de définir une zone dans laquelle un tel composé peut être
prédit avec confiance, dans notre cas le domaine d'applicabilité a été évalué par l'analyse de
levier qui s'exprime en diagramme de Williams (Figure 6), cette méthode consiste à calculer
la distance de levier h de l'ensemble des composés de la phase d'apprentissage
La valeur de levier critique est donnée par la relation suivante :
h*= (3P+1)/N
Si un tel composé a un résiduel et que l'effet de levier dépasse la valeur critique h * alors cela
composé a été considéré en dehors du domaine d'applicabilité du modèle développé.
L'effet de levier a été utilisé comme mesure quantitative de l'applicabilité des modèle, pour
évaluer son extrapolation et détecter des composés extrêmes
39
Figure 6 : valeur résiduelle PLS en fonction de l’effet de levier
39
Conclusion générale
39
Dans ce travail, nous avons utilisé les méthodes d’analyse statistiques pour elaborer
un modèle QSAR fiable, capable de prédire l’activité anticancéreuse d’une série constituée de
24 molécules dérivées de thiazole dont les valeurs expérimentales des activités sont comprises
entre 4, 27 et 5,53.
Un grand nombre de descripteurs moléculaires a été calculé (Descripteurs constitutionnels,

électroniques, topologiques, géométriques, physicochimiques,…).
La méthodologie basée sur la MLR, a été utilisée principalement dans la prédiction.
Des validations rigoureuses internes et externes ont été utilisées pour juger la stabilité, la
justesse et la capacité prédictive de modèle obtenu.
La qualité de l’ajustement de modèle développé a été vérifiée en procédant à la représentation

des valeurs calculées en fonction du celles observées. Le domaine d’application de modèle a
été étudié à l’aide du diagramme de Williams, ce dernier fait ressortir parmi les composés de
l’ensemble de calibrage et de validation les composés influents et aberrants.
39
Références bibliographiques
[1] : S.M. Kumar, D.S. Kumar, S. kumargupta, S.P. Pandey, R.Yadav, Asian Journal of Pharmaceutical
Research, 1, 62, 2011.
[2] : G.S.A. Aurélie, Thèse de doctorat, Université de Paris 6, 2008.
[3] : M. Mellaoui, Mémoire de Magister, Université de Biskra, 2009.
[4] : H.T. Phuong, Thèse de doctorat, Synthèse et étude des relations structure/activité quantitatives
(QSAR/2D) d’analogues Benzo[c]phénanthridiniques, Université d’Angers, 2007.
[5] : D. Harkati, Thèse de doctorat, Université de Biskra, 2015
[6] : J. L. Rivail, Eléments de chimie quantique à l’usage des chimistes, CNRS Edition, Paris,
[7] : D. A. Mc Quarrie, J. D. Simon, Chimie Physique Approche Moléculaire, Dunod, Paris, 2000.
[8]: A.G. Maldonado, J. P. Doucet, M. Petitjean, B.T. Fan, Molecular Diversity, 10, 39- 79, 2006.
[9]: Charlier, C., & Michaux, C. Dual inhibition of cyclooxygenase-2 (COX-2) and 5-lipoxygenase (5-LOX) as
à new strategy to providesafer non-steroidal anti-inflammatorydrugs. European journal of
medicinalchemistry, 2003, 38(7-8), 645-659.
[10]: Reginato, M. J., Bailey, S. T., Krakow, S. L., Minami, C., Ishii, S., Tanaka, H., &Lazar, M. A. (1998). A
potentantidiabeticthiazolidinedionewith unique peroxisomeproliferator-activatedreceptor γ-
activatingproperties. Journal of BiologicalChemistry, 273(49), 32679-32684.
[11]: NaghamMahmoodAljamali., Synthesis of Antifungal Chemical Compounds fromFluconazolewith

(Pharma-Chemical) Studying, Research journal of Pharmaceutical, biological and chemical sciences, 2017,
8(3), 564-573.
[12]: Bramley, S. E., Dupplin, V., Goberdhan, D. G., &Meakins, G. D. The Hantzsch thiazole
synthesisunderacidicconditions : change of regioselectivity. Journal of the Chemical Society, Perkin
Transactions 1, 1987, 639-643.
[13]: Mishra, C. B., Kumari, S., & Tiwari, M. Thiazole: A promising heterocycle for the development of
potent CNS active agents. European journal of medicinal chemistry, (2015), 92, 1-34
39
[14]: Peter Maienfisch, Andrew J.F. Edmunds, in Advances in Heterocyclic Chemistry, Maienfisch, P., &
Edmunds, A. J. . Thiazole and Isothiazole Ring–Containing Compounds in Crop Protection. In Advances in
Heterocyclic Chemistry,2017, Vol. 121, p. 35-88.
[15]: Cook, A. H., Heilbron, I., & Levy, A. L. 318. Studies in the azoleseries. Part I. A novel route to 5-
aminothiazoles. Journal of the Chemical Society (Resumed), 1947, 1594-1598.
[16]:Li, J. J. (Ed.). Name reactions in heterocyclic chemistry, Vol. 3,2004, John Wiley & Sons.
[17]: Botta, M., Castagnolo, D., Pagano, M., &Bernardini, M. Domino alkylation-cyclizationreaction of
propargylbromideswiththioureas/thiopyrimidinones: A new facile synthesis of 2-aminothiazoles and 5H-
thiazolo [3, 2-a] pyrimidin-5-ones. Synlett, 2009(13), 2093-2096.
[18]: Dubs, P; Stuessl , R. Synthesis 1976,6,681.
[19]: Venkateswararao, E., Jalani, H. B., Manoj, M., & Jung, S. H. Exploration and Optimization of an Efficient
One‐pot Sequential Synthesis of Di/tri‐substituted Thiazoles from α‐Bromoketones, Thioacids Salt, and
Ammonium Acetate. Journal of Heterocyclic Chemistry, 2006, 53(5), 1449-1456.
[20] : K BOUHEDJAR, Toxicité des phénols : Une étude QSAR basée sur la méthode préconisée par l’OCDE,
université Annaba décembre 2010
[21] : A.C. Crum-Brown and T.R. Fraser, ―On the Connection Between Chemical Constitution and
Physiological Action, Part I: On the Physiological Action of the Salts of the Ammonium Bases, Derived from
Strychnia, Brucia, Thebia, Codeia, Morphia, Nicotia‖, Earth and Environmental Science Transactions of the
Royal Society of Edinburgh, 25, 1868, 151–203;
[22] : A.C. Crum-Brown and T.R. Fraser, ―On the Connection between Chemical Constitution and
Physiological Action. Part II: On the Physiological Action of the Ammonium Bases derived from Atropia
and Conia‖, Earth and Environmental Science Transactions of the Royal Society of Edinburgh, 25, 1869,
693–739.
[23]: J.A. Pople, ―Nobel Lecture: Quantum chemical models‖, Review of Modern Physics, 71, 1999, 1267–
1274.
39
[24] : H. Meyer,La théorie de la narcose alcoolique. Premier message Quelle propriété des anesthésiques
est la cause de leur effet narcotique, Archive pour Pathologie experimental et pharmacologie, 1899,109 –
118.
[25] : E. Overton et G. Fischer, É tudes sur l'anesthésie en même temps, une contribution à la
pharmacologie générale,1901.
[26] : H. Fü hner et E. Neubauer, "Immolation par des séries homologues de substances", Archive pour
Pathologie experimental et pharmacologie,333-345, 1907.
[27] : C. Hansch and T. Fujita, ―p-σ-π Analysis. A Method for the Correlation of Biological Activity and
Chemical Structure‖, Journal of the American Chemical Society, 86(8), 1964, 1616–1626.
[28]: S Chtita, Modélisation de molécules organiques hétérocycliques biologiquement actives par des
méthodes QSAR/QSPR. Recherche de nouveaux médicaments, 2017
[29] : Guillaume F, Développement de modèles QSPR pour la prédiction despropriétés d’explosibilité des
composés nitroaromatiques , 2010
[30] : R. Tomassone, E. Lesquoy, C. Miller. La régression : nouveaux regards sur une ancienne méthode
statistique. Masson, INRA (1983).
[31]: R. Wehrens, H. Putter, L. M. C. Buydens. Chemom. Int. Lab. Syst., 54, 2000, 35- 52
[32]: L. Eriksson, J. Jaworska, A. P. Worth, M. T. D. Cronin, R. M. Mc Dowell, P. Gramatica. Methods for

Reliability and Uncertainty Assessment and for Applicability Evaluations of Classification and Regression
Based QSARs. EnvironmentalHealth Perspectives 111, 2003, 1361-1375 ().
[33]: N. R. Draper, H. Smith. Applied Regression Analysis, 3rd ed; Wiley Series in Probability and Statistics
(1998).
[34]: Thomas, V.; Giles, D.; Basavarajaswamy, P. M. G.; Das, A. K.; Patel, A. Anticancer Agent. Med. Chem.
2017, 17, 415–423. DOI: 10.2174/1871520616666160902094739.
39
[35]: Desai, N. C.; Karkar, T. J.; Vekariya, R. H.; Joshi, S. B.; Jadeja, K. A.; Vaja, D. V. Indian J.Chem. 2020, 59B,
231.
[36]: Gomha, S. M.; Abdel-Aziz, H. M.; Badrey, M. G.; Abdulla, M. M. J. Heterocyclic Chem. 2019, 56, 1275–
1282. DOI: 10.1002/jhet.3487.
[37]: P_erez-Cruz, K.; Moncada-Basualto, M.; Morales-Valenzuela, J.; Barriga-Gonz_alez, G.; Navarrete-
Encina, P.; N_u~nez-Vergara, L.; Squella, J. A.; Olea-Azar, C. Arab. J. Chem. 2018, 11, 525–537. DOI:
10.1016/j.arabjc.2017.05.007.
[38] : Shen, Y.; Liu, L.; Feng, C.; Hu, Y.; Chen, C.; Wang, G.; Zhu, B. Fish Shellfish Immunol.
2018, 81, 57–66. DOI: 10.1016/j.fsi.2018.07.005.
[39]: Hu, Y.; Xu, Z.; Zhang, S.; Wu, X.; Ding, J.; Lv, Z.; Feng, L. Eur. J. Med. Chem. 2017, 136, 122–130. DOI:
10.1016/j.ejmech.2017.05.004.
[40]: Breckenridge, A. Semin. Hematol. 1978, 15, 19.
[41]: Abdel-Aziem, A. J. Heterocycl. Chem. 2015, 52, 251. DOI: 10.1002/jhet.2390.
[42]: Abdul Rahman, F. S.; Yusufzai, S. K.; Osman, H.; Mohamad, D. J. Phy. Sci. 2016, 27, 77.
[43] : Pardo-Jim_enez, V.; Navarrete-Encina, P.; D_ıaz-Araya, G. Molecules. 2019, 24, 739.
DOI:10.3390/molecules24040739.
[44]: Koca, _I.; G€um€us¸, M.; €Ozg€ur, A.; Dis¸li, A.; Tutar, Y. Anticancer Agent. Med. Chem. 2015, 15, 916–
930. DOI: 10.2174/1871520615666150407155623.
[45] Gabr, M. T.; El-Gohary, N. S.; El-Bendary, E. R.; El-Kerdawy, M. M.; Ni, N. Excli. J. 2017,16, 1114–1131.
DOI: 10.17179/excli2017-208.
[46] : Kumar, S.; Saini, V.; Maurya, I. K.; Sindhu, J.; Kumari, M.; Kataria, R.; Kumar, V. PLOS One. 2018, 13,
e0196016. DOI: 10.1371/journal.pone.0196016.
39
39

Rapport Oulhaj Naciri99

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Rapport Oulhaj Naciri99

Transféré par

Droits d'auteur :

Formats disponibles

Département de Chimie

Filière : Sciences de la Matière Chimie

Relations Quantitatives Structures Activités

Présenté par : Encadré par :

Soutenu le 30/06/2022 devant le jury :

 Pr : H. MAGHAT Professeur à la Faculté des Sciences Meknès

 Pr : M.A. AJANA Professeur à la Faculté des Sciences Meknès

 Pr : A. SBAI Professeur à la Faculté des Sciences Meknès

Année Universitaire : 2021/2022

Au nom d’Allah et le miséricordieux On trouve dans la tradition prophétique le hadith (celui

qui ne remercie pas les gens n’a pas remercié Allah).

à tous ceux qui, de près ou de loin, ont contribué à la réalisation et à l’aboutissement de ce

Je tiens tout d’abord à adresser mes sincères remerciements à Monsieur le Professeur

pour ses conseils éclairés, sa simplicité et sa patience.

Je tiens à exprimer toute ma reconnaissance et ma gratitude au professeur Kamal Tabti pour

Merci aussi d’avoir pris le temps pour m’écouter.

Chapitre I: Données bibliographiques

I.1 Progression tumorale et immortalité--------------------------------------------------------------12

I.1.1. Fiche signalétique de la cellule cancéreuse---------------------------------------------------12

I.1.2. Aspects morphologiques--------------------------------------------------------------------------13

I.1.3. Aspects fonctionnels--------------------------------------------------------------------------------13

I.2. Généralités sur les

I.2.2. Structure de thiazole-------------------------------------------------------------------------------14

I.2.3. Synthèse de thiazole--------------------------------------------------------------------------------15

I.3. Activités biologiques des dérivés de thiazole-------------------------------------------------17

II.2 La stratégie globale--------------------------------------------------------------------------------20

II.3 Modèle QSAR/QSPR-------------------------------------------------------------------------------20

II.4 Les descripteurs------------------------------------------------------------------------------------21

II.4.2 Descripteurs topologiques---------------------------------------------------------------------22

II.4.3 Descripteurs géométriques--------------------------------------------------------------------23

II.5. Méthodes utilisées pour le développement de modèle QSAR----------------------------24

II.5.1. Méthode de régression multilinéaire-------------------------------------------------------25

II.5.2.1 Validation interne-----------------------------------------------------------------------------26

II.5.2.2 Validation externe-----------------------------------------------------------------------------26

II.5.2.3 Validation croisée-----------------------------------------------------------------------------27

II.6. Matériels et méthodes----------------------------------------------------------------------------28

II.6.1. Les logiciels utilisés-----------------------------------------------------------------------------28

II.6.1.2. Chem 3D----------------------------------------------------------------------------------------29

III.1. Base de données----------------------------------------------------------------------------------

III.2. Les descripteurs calculés-----------------------------------------------------------------------36

III.3. Analyse des composants principales---------------------------------------------------------37

III.4. Régression linéaire multiple-------------------------------------------------------------------39

III.5. Validation de modèle----------------------------------------------------------------------------40

III.5.1. Validation interne------------------------------------------------------------------------------40

III.5.2. Validation externe------------------------------------------------------------------------------40

III.6. Domaine d’applicabilité-------------------------------------------------------------------------41

La modélisation moléculaire est un terme général qui englobe différentes techniques de

Le but principal de ce travail est une initiation à la recherche dans le domaine de la

Le manuscrit de ce projet de fin d’études est divisé en trois chapitres :

 Le premier chapitre de ce travail est réservé à un rappel bibliographique sur les

synthèse de ces molécules.

différentes méthodes de la modélisation moléculaire utilisée dans ce travail.

 Dans le troisième chapitre nous présentons et discutons le model calculé.

Enfin ce manuscrit se termine par une conclusion générale.

Figure 1 : développement des cellules cancéreuses

I.1.2. Fiche signalétique de la cellule cancéreuse

I.1.3. Aspects fonctionnels

 Modifications des enzymes membranaires : augmentation des enzymes protéolytiques

 Modifications des antigènes de membrane :

 Altération ou perte des antigènes normaux (Ag d’espèces, d’organes ou de tissus) ;

 Apparition de néo antigènes : ré-expression d’antigènes embryonnaires : alpha

 Expression anormale d’antigène de différenciation, d’Ag associés aux virus (ex:

 Modifications de la perméabilité membranaire :