Vous êtes sur la page 1sur 43

INTRODUCTION GÉNÉRALE

Le cancer du sein est indéniablement la maladie la plus néfaste, qui puisse toucher la femme,
avec plus de2.26 millions de cas par an et de 685 000 morts annuellement
Ces statistiques alarmantes et effroyables, qui ne cessent d'augmenter ont poussé les
chercheurs scientifiques et les médecins depuis des années à essayer de trouver un moyen de
combattre cette maladie, soit avec un dépistage précoce ou bien avec divers traitements. De
nombreuses méthodes d'imagerie médicale ont été introduites au fil du temps, telles que la
mammographie, l'échographie et l'imagerie à résonance magnétiques (IRM). Cette dernière
représente l'examen de certitude quand les deux premières, ne parviennent pas à classifier la
tumeur.
L'arrivée de la technologie de l'intelligence artificielle, a donné un essor considérable au
domaine médical et plus particulièrement, en oncologie. Au début, ce processus était délicat
voire même difficile, à cause du peu d'images disponibles donnant lieu à un entrainement
médiocre. Mais avec le développement des matériels informatiques et l'augmentation rapide
du data, ceci est devenu possible.

Dans ce contexte, notre étude se porte sur la réalisation d'un système de détection du cancer
du sein fondé capable de prédire avec une haute efficacité le type de tumeur.

Le projet que nous présentons vise à exploiter le potentiel du machine learning pour la
prédiction du cancer du sein, en utilisant des algorithmes sophistiqués capables d'analyser des
données complexes provenant de diverses sources médicales. En combinant l'expertise
médicale avec les capacités prédictives du machine learning, nous aspirons à transformer la
manière dont le cancer du sein est diagnostiqué et géré.

En tirant parti des avancées du machine learning, ce projet vise à apporter des solutions
novatrices pour la détection précoce du cancer du sein, avec l'objectif ultime de personnaliser
les stratégies de dépistage et de traitement. En réduisant les erreurs de diagnostic, nous
espérons améliorer la qualité des soins, accélérer les procédures de prise de décision clinique,
et contribuer ainsi à un impact positif sur la santé des individus touchés par cette maladie.
Ce projet incarne notre engagement à utiliser la technologie pour résoudre des problèmes de
santé mondiaux pressants.

1
Chapitre 1 : LE CANCER DU SEIN

I. Présentation générale du cancer du sein

Cancer du Sein : Une Menace Répandue

Le cancer du sein est l'un des cancers les plus courants chez les femmes à l'échelle mondiale,
touchant environ 1 femme sur 8 et restant la principale cause de décès. Bien qu'il soit plus
fréquent chez les femmes de plus de 50 ans, il peut également affecter des femmes plus jeunes
et, rarement, des hommes. Le dépistage précoce et les traitements adaptés sont essentiels pour
améliorer les chances de guérison et la qualité de vie des personnes touchées. .Anatomie et
Fonctionnement du Sein
Le sein, une structure complexe, varie considérablement d'une personne à l'autre. Chez les
femmes, il est principalement composé d'une glande mammaire, de tissu adipeux et de
ligaments de Cooper pour le soutien, le tout enveloppé par la peau. Les hommes possèdent
également des composants similaires, mais en moindre quantité par rapport aux femmes.
Situé au-dessus du muscle pectoral, le sein contient des nerfs, des vaisseaux sanguins et
lymphatiques. La glande mammaire se divise en lobes, chacun abritant des lobules reliés à des
canaux qui acheminent le lait vers le mamelon, entouré de l'aréole. À des fins de protection
contre les infections, des chaînes de ganglions lymphatiques filtrant les microbes sont
présentes, pouvant être le lieu de développement du cancer du sein.

Figure1 : Les ganglions lymphatiques de sein

Le traitement du cancer dépend souvent des résultats de la biopsie, car elle fournit des
informations cruciales sur la nature et le type de la tumeur, guidant ainsi les décisions
thérapeutiques.

formation du cancer du sein

2
Le cancer du sein peut se développer dans les canaux (carcinome canalaire) ou les lobules
(carcinome lobulaire), formant une tumeur cancéreuse "maligne" composée de cellules
capables d'envahir et de détruire les tissus avoisinants. Ces cellules ont également la capacité
de se propager, créant des "métastases" dans d'autres parties du corps. Parfois, les cellules
mammaires subissent des altérations conduisant à une croissance ou à un comportement
anormal, pouvant entraîner des affections non cancéreuses telles que l'hyperplasie atypique,
des kystes ou des tumeurs bénignes comme les papillomes intra-canalaires. Chez les hommes,
le cancer affecte principalement les canaux et rarement les lobules. Pour diagnostiquer et
traiter correctement cette maladie, une compréhension approfondie de la structure et du
fonctionnement du sein est essentielle

Classification des Types de Cancer du Sein

Le cancer du sein présente différents types en fonction du site de formation des cellules.
Parmi eux se trouvent le carcinome canalaire, débutant dans les canaux transportant le lait
vers le mamelon, et le carcinome lobulaire, prenant naissance dans les lobules producteurs de
lait. D'autres types comprennent le cancer inflammatoire du sein, la maladie de Paget du sein
et le cancer du sein triple négatif, avec le carcinome canalaire étant le plus courant, se
développant dans les canaux mammaires.

Les options thérapeutiques principales:

Les différentes options sont thérapeutiques sont les suivantes :


- Chirurgie : Utilisée pour enlever la tumeur.
- Radiothérapie : Utilise des rayonnements ciblés pour détruire ou ralentir la croissance des
cellules cancéreuses dans la zone touchée du sein, réduisant ainsi le risque de récidive après
la chirurgie.
- Chimiothérapie : Consiste à utiliser des agents chimiothérapeutiques pour détruire ou
ralentir la croissance des cellules cancéreuses dans le sein. Ces médicaments peuvent être
administrés par voie intraveineuse ou orale et sont souvent utilisés après la chirurgie pour
réduire le risque de récidive ou dans le cadre d'un traitement global pour maîtriser la
maladie. - Thérapie hormonale : Utilise des médicaments pour bloquer les hormones
responsables de la croissance des cellules cancéreuses sensibles à ces hormones. Souvent
combinée à d'autres traitements.
- Thérapie ciblée : Utilise des médicaments ciblés qui s'attaquent à des éléments spécifiques
des cellules cancéreuses pour les stopper ou les détruire de manière précise.

II. Importance de la détection précoce

Le programme de dépistage organisé vise à détecter des anomalies, à un stade précoce, avant
l’apparition de symptômes du cancer du sein. Ce dépistage consiste à réaliser une
mammographie Une mammographie est une radiographie des seins. Dans le cadre du

3
dépistage, elle permet notamment de détecter des cancers de petite taille, bien avant qu’ils ne
soient palpables ou que des symptômes n’apparaissent.
Le dépistage précoce du cancer du sein est essentiel pour plusieurs raisons :
-Meilleures chances de guérison : Lorsque le cancer du sein est détecté à un stade précoce, les
options de traitement sont plus nombreuses et les chances de guérison sont plus élevées. -
Moins de traitements invasifs : Un cancer du sein détecté tardivement peut nécessiter des
traitements plus agressifs tels que la chimiothérapie, la radiothérapie ou une mastectomie
(ablation du sein).
-Réduction du risque de propagation : Si le cancer du sein est détecté avant qu'il ne se propage
à d'autres parties du corps, les chances de contrôler la maladie sont bien meilleures. -
Amélioration de la qualité de vie : La détection précoce permet de minimiser les effets
secondaires des traitements et d'améliorer la qualité de vie des patientes.

III. Introduction à la prédiction du cancer du sein par l'intelligence artificielle

L'intelligence artificielle (IA) est utilisée dans la prédiction et le dépistage du cancer du sein.
Elle offre des avancées significatives, comme un modèle capable de détecter si toutes les
cellules cancéreuses ont été retirées lors d'une opération, ce qui peut améliorer les chances de
guérison et éviter des interventions supplémentaires. De plus, un algorithme a permis de
prédire l'apparition du cancer du sein cinq ans avant la détection ou l'apparition des premiers
symptômes. L'IA améliore la précision diagnostique et peut aider à détecter les tumeurs de
manière plus précoce. Cependant, bien qu'elle présente des avantages, elle n'égale pas encore
la précision des radiologues humains et doit être utilisée en complément de l'expertise
médicale.

4
Chapitre 2 : CONTEXTE MÉDICAL

I. Statistiques sur l'incidence du cancer du sein

Dans le monde, le cancer du sein est le cancer le plus fréquent chez la femme. En 2018,
environ 2,08 millions de nouveaux cas de cancer du sein ont été diagnostiqués à travers le
monde. Il représente 24,2 % (soit environ un sur quatre) des nouveaux cas de cancers
féminins, et 11,6% de l’ensemble des cancers (tous sexes confondus).
Les taux d’incidence varient beaucoup d’une région du monde à l’autre (Figure1), avec un
rapport qui peut aller de 1 à 4 entre les pays généralement développés à forte incidence et les
pays en voie de développement à relativement faible incidence.
Actuellement, les taux d’incidence les plus élevés sont observés en Australie, Nouvelle
Zélande, au Nord et à l’Ouest de l’Europe, ainsi qu’en l’Amérique du Nord. Les taux
intermédiaires sont observés en Europe Centrale et Orientale, et au Nord et au Sud de
l’Afrique et les taux les plus bas au Centre et à l'Est de l'Afrique ainsi qu’en Asie du Sud.
Cette disparité de l’incidence à travers le monde peut être expliquée en partie par des
expositions différentes aux facteurs de risques de cancer du sein incluant les facteurs
héréditaires, génétiques et environnementaux, des différences de mode de vie et de
comportements reproductifs des femmes, mais aussi par des différences liées aux activités de
dépistage ainsi qu’aux méthodes diagnostiques du cancer du sein.

Cas du Maroc (Données de "Global Cancer Observatory", CIRC- 2018)

5
Avec environ 10 136 nouveaux cas estimés en 2018, le cancer du sein représente le premier
cancer chez la femme Marocaine. Le taux d’incidence standardisé sur la population mondiale
est de 51 pour 100 000 femmes en 2018 (Figure 4). Il représente 36,9% de l’ensemble des cas
de cancer diagnostiqués chez les femmes et environ 19,2% de l’ensemble des cas
diagnostiqués chez les deux sexes.

Le Maroc ne disposant pas d’un registre national pour mesurer l’incidence du cancer sur
l’ensemble du territoire. De ce fait, l’incidence est estimée à partir de deux registres de
population, considérés la principale source de données fiables en terme de morbidité du
cancer au Maroc : le registre des cancers du Grand Casablanca et le registre des cancers de
Rabat, qui couvrent environ 12,0% et 2,1% de la population marocaine, respectivement.

Entre 2008 et 2012, les données de registre de cancer du Grand Casablanca indiquent que le
taux d’incidence du cancer du sein standardisé sur la population mondiale est de 49,5 pour
100 000 femmes. L’incidence du cancer du sein a considérablement augmenté entre 2008 et
2011, passant de 47,0 en 2008 à 52,2 en 2011, soit une augmentation annuelle de 3,68 %.
L’incidence a légèrement diminué en 2012 (Tableau 1).

6
II. Facteurs de risque et symptômes associés

Symptômes du cancer du sein

Les signes et symptômes du cancer du sein varient selon le stade et les patients. Le symptôme
le plus commun du cancer du sein est l'apparition d'une masse ou d'une bosse nouvelle. Une
masse indolore, dure et aux contours inhabituels, est plus susceptible d'être un cancer. Mais
les cancers du sein peuvent être sensibles, mous ou ronds. Ils peuvent même être douloureux.
Cependant, il existe des patientes (ou des patients) « asymptomatiques », cela signifie que la
personne malade est atteinte du cancer, mais ne montre aucun symptôme ou douleur
inhabituelle.
Les signes les plus fréquents sont :
➢ Une douleur au sein,
➢ Une peau rouge et piquée sur l'ensemble du sein,
➢ Un gonflement de tout ou d'une partie du sein,
➢ Un écoulement du mamelon autre que du lait maternel y compris du sang, ➢ Un
changement soudain et inexpliqué de la forme ou de la taille du sein,
➢ Une bosse ou un gonflement sous le bras.

7
Facteurs de risque

Il existe plusieurs facteurs de risque du cancer du sein.


On distingue :

➢ Le sexe :
L'un des principaux facteurs de risque et le plus fréquent est le sexe. En effet, il touche 99%
des femmes contre 1% des hommes.

➢ L'âge :
C'est le facteur de risque le plus important. L'incidence de cette maladie augmente avec l'âge.
Plus la personne est âgée, plus elle est sujette à cette maladie avec un risque élevé pour les
femmes de plus de 50 ans.

➢ Facteur génétique et héréditaire :


Plus de 10% des cancers du sein sont héréditaires, en effet le risque de développer un cancer
du sein est plus élevé pour les cas où l'un des parents à déjà était victime de cette maladie. La
mutation génétique est aussi prise en considération, la mutation de gêne tel que BRCA1(bras
long du chromosome 17) et BRCA2(bras long du chromosome 13) qui peut être utilisée pour
indiquer la possibilité d'une consultation en oncogénétique ou pour déterminer le risque de
cancer du sein en cas d'absence de mutation.

➢ Facteur hormonal :
Le traitement hormonal augmente le risque du cancer du sein, la puberté précoce ou la
ménopause tardive sont aussi à risque de cancer du sein à cause de la consommation du
traitement hormonal tel que l’œstrogène. De plus la prise de médicaments hormonaux tels que
l'œstrogène en raison d'une grossesse retardée est aussi un facteur de risque important.

➢ Facteurs liés à la densité mammaire :


Les personnes ayant une forte densité mammaire sont plus susceptibles de 4 à 6 fois d'être
atteintes du cancer du sein qu'une personne à faible densité mammaire, à cause de leurs
surpoids.

➢ Facteurs liés au mode de vie :


La mauvaise alimentation qui résulte à l'obésité et l'alimentation riche en protéine telle que la
viande rouge ou en graisse est aussi un facteur de risque. L'abus d'alcool et le tabagisme
augmentent le risque d'être touché par cette maladie.
La sédentarité et l'absence d'activités physiques comme que le sport aussi favorisent aussi
l'apparition d'un cancer du sein.

8
L'exercice quotidien d'activité physiques et une consommation importante de fruits et de
céréales sont recommandés par les médecins pour diminuer le risque d'être touché par cette
maladie.

➢ Facteurs environnementaux et professionnels Exposition aux radiations ionisantes :


Le Centre International de Recherche sur le Cancer a classé les rayons X et gamma comme
étant des cancérogènes reconnus avec preuves suffisantes pour le cancer du sein féminin [58].
L’exposition du tissu mammaire aux radiations ionisantes est associée d’une manière linéaire
au risque de cancer du sein [70–72]. Ce risque dépend beaucoup de l’âge à l’exposition, les
femmes exposées à une radiation de 1 Gy avant l’âge de 40 ans ont trois fois plus de risque
d’avoir un cancer du sein [73]. Par ailleurs, les résultats concernant l’exposition aux
radiations non-ionisantes (champs électromagnétiques) sont plus controversés [70,74,75].

III. Technologies de prédiction existantes

III.1) Présentation des méthodes traditionnelles de dépistage


➢ La mammographie
La mammographie est systématiquement proposée aux femmes âgées de 50 à 74 ans dans le
cadre du dépis- tage organisé. Elle est bilatérale et comporte donc pour chaque sein un cliché
de face et un cliché de profil.
La mammographie diagnostique est prescrite à une femme, quel que soit son âge, si une
anomalie a été détectée (nodule de consistance dure, de contours réguliers ou irréguliers,
indolore à la palpation et semblant comme « fixé » dans le sein) à la palpation par le médecin
généraliste ou le gynécologue. Elle peut concerner un sein (unilatérale) ou les deux seins
(bilatérale) selon les signes observés.
Il n’y a pas d’intervalle de temps requis entre une mammographie diagnostique et une
mammographie de dépis- tage. Une femme peut donc passer une mammographie
diagnostique moins de 1 an après sa mammographie de dépistage si le besoin s’en fait sentir.

➢ L’échographie
Dans le cadre d’un diagnostic de cancer du sein, que ce soit au cours d’un dépistage organisé
ou individuel, l’écho- graphie permet de caractériser plus précisément la nature d’une lésion
repérée par la mammographie. L’examen est indolore et dure moins de 30 minutes.
L’échographie vient compléter la mammographie en cas de masse visible et/ou de seins
denses rendant son analyse très difficile car pouvant masquer de petites lésions ayant la même
densité que le tissu mammaire environnant.

➢ L’IRM mammaire
L’indication de l’IRM mammaire est controversée compte tenu du nombre important de faux
positifs associés à cette technique.

9
Elle est systématique en cas d’antécédent d’irradiation thoracique médicale à haute dose
(comme par exemple pour la maladie de Hodgkin), de prédisposition génétique avérée ou
d’antécédent familial de cancer du sein.
Elle est optionnelle en présence d’anomalies radiologiques à la mammographie, d’une
densité mammaire de classe 4, ou d’un écoulement unipore sérosanglant. Elle n’est pas
préconisée en première intention en cas de masse palpable.

➢ L'aspiration ou ponction cytologique


La ponction à l'aiguille fine utilise une mince aiguille pour aspirer du liquide ou des cellules
provenant de la lésion suspecte. L'intervention est rapide, mais peut être inconfortable à cause
de la sensibilité des seins.

➢ La biopsie à l’aiguille
La biopsie, qu’il s’agisse de microbiopsies ou de macrobiopsies, est faite au moyen d’une
aiguille introduite par une petite incision pratiquée dans le sein. C’est un examen rapide
(durée < 1 heure) qui ne nécessite pas d’hospitalisa- tion. Une anesthésie locale permet que
l’intervention ne soit pas douloureuse.

Les microbiopsies sont indiquées pour explorer les anomalies de type masses ou opacités,
visibles. Elles sont faites sous échographie à l’aide d’un pistolet automatique muni d’une
aiguille. Cette technique peut être faite sous contrôle mammographique (microbiopsie sous
stéréotaxie) ou échographique, sous anesthésie locale.
Les macro biopsies sont indiquées pour explorer les foyers de microcalcifiactions. Elles sont
faites selon la même technique que la biopsie guidée par stéréotaxie, mais avec une aiguille
de prélèvement plus large (aiguille creuse qui protège un petit couteau cylindrique rotatif).
Cela permet de procéder à plusieurs prélèvements par rotation sans nouvelle piqûre et
d’obtenir un échantillon beaucoup plus important (de 35 à 95 mg, contre 20 mg pour une
microbiopsie).

➢ La biopsie chirurgicale
Une biopsie peut être faite au bloc opératoire par un chirurgien sous anesthésie locale ou
générale. Cela permet d’enlever toute la lésion suspecte palpée ou identifiée à la
mammographie ou à l’échographie.
La biopsie chirurgicale est recommandée après une biopsie à l’aiguille de gros calibre
lorsqu’un cancer du sein a été confirmé.
Elle est aussi recommandée pour s’assurer qu’il n’y a pas de cancer du sein lorsque la biopsie
à l’aiguille de gros calibre a identifié une hyperplasie canalaire atypique.
Elle sera faite dans de rares cas où on ne peut faire la biopsie à l’aiguille de gros calibre en
échographie ou en stéréotaxie, en raison de problèmes de santé de la femme (exemple :
impossibilité de rester couchée sur le ventre) ou de la localisation de l’image à biopsier.

➢ Le prélèvement ganglionnaire

10
Une exploration échographique axillaire est faite dans le même temps que l’échographie
mammaire diagnostique ou lors de la biopsie tumorale mammaire. Un prélèvement percutané
ganglionnaire axillaire est fait, dans le même temps que la biopsie tumorale, en cas de
ganglion(s) suspect(s).

➢ L’examen histologique
L’examen anatomo-pathologique a pour objet de préciser :
✓ Si le cancer est d’origine canalaire ou lobulaire ;
✓ Si le cancer est in situ ou invasif (franchissement de la membrane basale) ;
✓ S’il s’agit d’un cancer du sein différencié ou indifférencié ;
✓ Le statut des récepteurs hormonaux, c’est-à-dire la présence et le pourcentage de
récepteurs dans les cellules tumorales ;
✓ S’il existe une surexpression de la protéine HER 2 (human epidermal growth factor
receptor 2).

III.2) Limitations de ces méthodes

➢ Sur diagnostic et sur traitements


Il arrive parfois que l’on diagnostique et traite un cancer qui n’aurait pas ou peu évolué. Dans
l’état actuel des connaissances scientifiques, le diagnostic ne permet pas de distinguer les
cancers qui vont évoluer, qui sont majoritaires de ceux qui évolueront peu ou qui n’auront pas
de conséquences pour la femme concernée (10 à 20 % des cancers détectés). Pour ces cancers,
qui n’auraient pas été découverts en l’absence de mammographie, on parle de "surdiagnostic".
Par précaution, il est proposé de traiter l’ensemble des cancers détectés, ce qui peut entraîner
un “surtraitement”.
Les chercheurs travaillent actuellement à identifier les cancers susceptibles d’être
peu évolutifs pour proposer des traitements adaptés. ➢ Survenue d’un cancer radio
induit

La mammographie expose à des rayons X et une exposition répétée peut parfois entraîner
l’apparition d’un cancer. Elle ne doit donc être utilisée que si elle est utile.
Le risque de décès par cancer radio-induit est de l’ordre de 1 à 10 pour 100 000 femmes ayant
réalisé une mammographie tous les 2 ans pendant 10 ans. Le nombre de décès évités avec le
dépistage est largement supérieur au risque de décès par cancer radio-induit. À titre indicatif,
si une femme suit strictement la recommandation de participation au programme de dépistage
organisé de 50 à 74 ans, elle réalisera 13 mammographies au total. Son exposition aux
rayonnements ionisants représentera alors au total le quart de celle provoquée par un scanner
abdominopelvien, acte très courant.
Les mammographies représentent en France moins de 2 % de l’exposition totale de la
population aux rayonnements ionisants.

11
➢ Un résultat dit « Faux négatif ou Faux positif »
• Faux négatif
Un résultat négatif indique qu'aucune anomalie n'a été détectée. Or une
anomalie, voire un cancer, peut ne pas avoir été repérée. Il s'agit alors d'un
résultat "faux négatif".
La double lecture des clichés de la mammographie permet de réduire
considérablement ce risque.
• Faux positif
Un résultat positif indique la présence d'une anomalie. Dans la plupart des cas,
il se révèle que l’anomalie découverte est bénigne et qu’il ne s’agit pas d’un
cancer. On parle alors d’un résultat “faux positif”

Chapitre 3 : L’APPRENTISSAGE AUTOMATIQUE

Aujourd'hui, l'informatique est omniprésente dans quasiment tous les secteurs tels que la santé,
l'éducation, l'économie et la cosmologie. Cette omniprésence se manifeste dans la vie
quotidienne de chaque individu et a facilité l'utilisation et la compréhension de domaines
complexes. L'un des secteurs les plus significativement impactés par ce développement
informatique considérable est celui de la santé.
L'évolution de l'informatique et de la technologie continue de jouer un rôle de plus en plus
crucial dans le domaine de la santé, favorisant le développement du matériel médical, des
logiciels de surveillance médicale et des logiciels d'analyse médicale, améliorant ainsi la
précision des résultats. Ce progrès a suscité un vif intérêt, notamment de la part des scientifiques
spécialisés dans des domaines tels que l'intelligence artificielle, les systèmes experts,
l'apprentissage automatique (Machine Learning).
1. Définition
L'intérêt pour l'apprentissage automatique a connu une augmentation significative au cours de
la dernière décennie. Malgré le discours abondant sur cette discipline, des conflits émergent
entre les capacités réelles des machines et nos aspirations (Patterson & Gibson, 2017).
L'apprentissage automatique, en tant que sous-ensemble de l'intelligence artificielle (IA), se
concentre sur la création de systèmes capables d'apprendre et d'améliorer leurs performances
en se basant sur les données qu'ils traitent. Les algorithmes d'apprentissage automatique jouent
un rôle crucial en optimisant, simplifiant et sécurisant ce processus (Clayton, 2019).
2. Les types d’apprentissage automatique
L'apprentissage automatique est une méthode employée dans l'intelligence artificielle. C’est une
méthode d'apprentissage statistique où chaque instance dans une base de données est décrite par
un ensemble de caractéristiques ou d'attributs. On peut distinguer 2 grandes catégories :
Apprentissage supervisé.
Apprentissage non supervisé

12
Figure : Types d’apprentissage automatique (Machine Learning)
2.1) Apprentissage supervisé :
C’est une tâche pour l’apprentissage automatique d’apprendre la fonction de prédiction
à partir d’exemples annotés, plutôt qu’un apprentissage non supervisé. Un humain aide
l’algorithme à apprendre, servant le monde comme guide, et enseigne à l’algorithme les
résultats qu’il doit trouver. L’algorithme apprend grâce Les méthodes d’apprentissage supervisé
sont bien généralisables, c’est-à-dire l’apprentissage d’une fonction qui fait des prédictions
correctes sur des données non présentes dans l’ensemble d’apprentissage .

Il y’a trois types d’apprentissage supervisé :

13
➢ La classification
➢ Régression
➢ Prévision

2.2) Apprentissage Non Supervisé


Ici, l'algorithme d'apprentissage automatique étudie les données pour identifier les modèles. Il
n'y a pas de clé de réponse ou d'opérateur humain pour fournir des instructions. Au lieu de cela,
la machine détermine les corrélations et les relations en analysant les données disponibles. Dans
un processus d'apprentissage non supervisé, l'algorithme d'apprentissage automatique doit
interpréter de grands ensembles de données et traiter ces données en conséquence. L'algorithme
essaie d'organiser ces données d'une manière ou d'une autre pour décrire leur structure. Cela
peut signifier regrouper les données en grappes ou les organiser d'une manière qui semble plus
organisée.

Au fur et à mesure qu'il évalue davantage de données, sa capacité à prendre des


décisions sur ces données s'améliore progressivement et s'affine.

X Y A - NS

.
Il y’a deux types d’apprentissage non supervisé :

➢ Regroupement (Clustering)
➢ Réduction de la dimension .
Il y a une Différence entre les types d’apprentissage automatique en résumé dans ce
tableau :
Apprentissage supervisé Apprentissage non supervisé
Données d’entrée sont étiquetées. Données d’entrée son non étiquetées.

Utilise le jeu de données Utilise tout le jeu de données en entrée.


d’apprentissage.
Utilisé pour la prédiction. Utilisé pour l’analyse.

14
Classification et régression. Regroupement, estimation de la densité,
et réduction de la dimensionnalité.
Tableau : Différences entre l’apprentissage supervisé et non supervisé.

3) Les algorithmes de l’apprentissage automatique utilisés


3.1) SVM (Machines à vecteurs de support)
Il s'agit d'un modèle d'apprentissage automatique, puissant et polyvalent, et c'est l'un des
modèles d'apprentissage automatique les plus courants.
Il s'agit d'un classificateur qui divise les ensembles de données en catégories pour
trouver le niveau hyper marginal maximal sur les points de données les plus proches et
minimiser les erreurs de classification.
SVM est une technique de classification ML supervisée couramment utilisée dans le
domaine du diagnostic et du pronostic du cancer. SVM sépare les catégories en sélectionnant
des échantillons clés de toutes les catégories appelés vecteurs de support et en générant une
fonction linéaire qui utilise ces vecteurs de support pour les diviser aussi largement que possible.

Exemple

Figure : Un simple exemple sur le fonctionnement de l’algorithme SVM.

Dans cet exemple, le jeu de données contient des étoiles et des triangles qui sont
respectivement classé dans la classe A et B, dans la phase d’apprentissage le
classificateur SVM consiste à trouver le meilleur hyperplan qui s´empare parfaitement
les deux classes, et classe correctement les nouveaux donnés ainsi comme les vecteurs

15
de support crée une frontière de d´excision entre les deux classes les nouveaux donnés
sera classé `à la base de ces vecteurs.

3.2) La Méthode de k plus proches voisines


Le premier algorithme que nous étudierons est l'algorithme du k plus proche voisin, qui est le
plus souvent utilisé pour la classification, bien qu'il puisse également être utilisé pour
l'estimation et Prédiction. k-Plus proche voisin est un exemple d'apprentissage basé sur les
instances, dans lequel L’ensemble de données d'apprentissage est stocké, de sorte qu'une
classification pour un nouvel enregistrement non classifié, peut-être trouvé simplement en le
comparant aux enregistrements les plus similaires dans l'ensemble d'apprentissage.

Figure: La Méthode de k plus proches voisines

Dans cet exemple , nous avons une donnée non classée et toutes les autres données sont
classée (étoile et triangle) chacun avec leur classe (classe A et B).
Si k=3 les données les plus proches de la nouvelle donnée sont celles qui sont à
l’intérieur du premier cercle, et la classe la plus prééminente c’est triangle (Classe B) car 2
triangles et seulement 1 étoile donc la donnée non classée sera classée un triangle(Classe B).
Si k=7 les données les plus proches de la nouvelle donnée sont celles qui sont à
l’intérieur du deuxième cercle, et la classe la plus prédominante c’est l’étoile (Classe A) car on
a 4 étoiles et 3 triangles donc la donnée non classée sera classée une étoile (ClasseA).

Pré-traitement des données


C’est une technique d’exploration de données qui consiste à transformer des données brutes en
un format compréhensible. Les données du monde réel sont souvent incomplètes, incohérentes
et/ou manquent de certains comportements ou tendances, et sont susceptibles de contenir de

16
nombreuses erreurs. Le prétraitement des données est une méthode éprouvée pour résoudre ces
problèmes. Lorsque nous parlons de données, nous pensons généralement à de grands
ensembles de données avec un grand nombre de lignes et de colonnes. Bien que ce soit un
scénario probable, ce n’est pas toujours le cas – les données peuvent se présenter sous de
nombreuses formes différentes : tableaux structurés, images, fichiers audio, vidéos, etc.
Apprentissage automatique les algorithmes ne fonctionnent pas si bien avec le traitement des
données brutes. Avant de pouvoir transmettre ces données à un algorithme ML, nous devons
les prétraiter. En d’autres termes, nous devons lui appliquer des transformations. Avec le
prétraitement des données, nous convertissons les données brutes en un ensemble de données
propre.
Les étapes utilisées pour le prétraitement des données sont: –
1. Importer des bibliothèques. La première étape consiste généralement à importer
les bibliothèques qui seront nécessaires dans le programme.
2. Obtenir l’ensemble de données
3. Exploration ou analyse de données
4. Prise en charge des données manquantes dans l’ensemble de données
5. Encodage des données catégorielles
6. Fractionnement de l’ensemble de données en ensemble d’apprentissage et en
ensemble de test
7. Mise à l’échelle des fonctionnalités
Nous avons utilisé un ensemble de données titanesque pour une meilleure compréhension. Il
s’agit d’un ensemble de données très connu et c’est souvent la première étape d’un étudiant
dans la classification de l’apprentissage automatique. Nous allons effectuer un prétraitement de
base sur l’ensemble de données.

Allons-y et commençons: –
1) Importer des bibliothèques

import pandas as pd import

numpy as np import os import

matplotlib.pyplot as plt import

seaborn as sns

%matplotlib inline

17
• NumPy: -NumPy est une bibliothèque Python utilisée pour travailler avec des
tableaux. Il a également des fonctions pour travailler dans le domaine de
l’algèbre linéaire, de la transformée de Fourier et des matrices.
• pandas: -Pandas est utilisé pour analyser les données.
• marin: -Seaborn est une bibliothèque qui utilise Matplotlib en dessous pour
tracer des graphiques. Il sera utilisé pour visualiser des distributions aléatoires.
• matplotlib: -Matplotlib est une bibliothèque de traçage de graphes de bas niveau
en python qui sert d’utilitaire de visualisation.
2)Get le jeu de données
• train = pd.read_csv(« train.csv »)

L’instruction ci-dessus est utilisée pour lire l’ensemble de données dans la trame de données
pandas. train est le nom du jeu de données et read_csv est une fonction pandas importante pour
lire les fichiers csv et effectuer des opérations dessus.

3)Exploration/analyse des données

Cela donne des informations sur le jeu de données

18
• train.describe()

Ceci décrit le nombre, min, max, etc. de chaque colonne de notre ensemble de données

4)Prise en charge des données manquantes dans l’ensemble de données


• sns.heatmap(train.isnull(),yticklabels=False,cbar=False,cmap=’viridis’)

19
Fig : Heatmap pour vérifier les valeurs nulles

L’avenir des mégadonnées


Avec quelques conseils, vous pouvez créer une plate-forme de données adaptée aux besoins
de votre organisation et tirer le meilleur parti de votre capital de données.

Obtenir le guide
Ici, ces tirets jaunes montrent que nous avons des informations manquantes. Ainsi, nous
pouvons simplement jeter un coup d’œil sur nos données à partir d’une vue d’ensemble très
éloignée et vérifier que oui, il nous manque des informations sur l’âge et de nombreuses
informations sur la cabine.

20
La proportion d’âge manquant est probablement plus faible pour un remplacement raisonnable
d’une certaine forme d’imputation, ce qui signifie que nous pouvons utiliser la connaissance
d’autres colonnes pour remplir des valeurs raisonnables.
En regardant la colonne de la cabine, il semble qu’il nous manque juste trop de ces données
pour en faire quelque chose d’utile à un niveau de base. Nous allons probablement supprimer
cette colonne.

Il existe de nombreuses façons de traiter les valeurs manquantes, mais nous allons en utiliser
deux
1) Imputer les valeurs manquantes avec la moyenne/médiane
2) Suppression des lignes avec des valeurs manquantes.

Nous allons utiliser la colonne Imputation pour l’âge

• former[‘Age’].plot.hist(bins=55)

Fig : Histogramme pour vérifier l’âge

Ici, nous allons remplir le moyenne âge des passagers


Cependant, nous pouvons même être un peu plus intelligents à ce sujet et vérifier l’âge moyen
dans la classe des passagers.
• boxplot(x=’Pclass’,y=’Age’,data=train)

21
Fig : Boîte à moustaches

Vous trouverez ci-dessous la méthode que nous utilisons pour imputer la colonne d’âge : –

• former[‘Age’]=train[[‘Age’,’Pclass’]].apply(impute_age,axis=1)

Et il semble que nous n’ayons plus d’informations manquantes pour la colonne d’âge. Nous
avons réussi à mettre des valeurs qui étaient des suppositions raisonnables pour l’âge des gens
en fonction de leur classe.
Maintenant, le problème que nous avons est la colonne de la cabine et honnêtement, il y a trop
de points manquants pour faire quelque chose d’utile de cette colonne ici. Mais il y a tellement
d’informations manquantes ici qu’il est plus facile d’aller de l’avant et de laisser tomber cette
colonne de cabine.

• drop(‘Cabin’,axis=1,inplace=True)

22
3) Encodage des données catégorielles
L’algorithme d’apprentissage automatique ne peut pas fonctionner sur des valeurs catégorielles,
nous allons donc les convertir en valeurs fictives. Si vous voyez la colonne sexe ici, nous avons
une caractéristique catégorique d’homme ou de femme. Un algorithme d’apprentissage
automatique ne pourra pas prendre en compte uniquement une chaîne d’hommes ou de femmes
devra créer une nouvelle colonne dans The King, une valeur zéro ou une pour savoir si
quelqu’un est un homme ou non afin d’encoder cette information dans une manière qu’un
algorithme d’apprentissage automatique peut le comprendre. Il en va de même pour la colonne
d’embarquement.

• sexe=pd.get_dummies(train[‘Sex’],drop_first=Vrai)
• embarquer=pd.get_dummies(train[‘Embarked’])
• train=pd.concat([train,sex,embark],axe=1)
• goutte([‘Sex’,’Embarked’,’Name’,’Ticket’],axe=1,inplace=Vrai)
4) Fractionner l’ensemble de données
Chaque ensemble de données pour le modèle d’apprentissage automatique doit être divisé en
deux ensembles distincts : l’ensemble d’apprentissage et l’ensemble de test.
• depuis sklearn.model_selection importer train_test_split

• X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=1
0
1)

• x_train – fonctionnalités pour les données d’entraînement


• x_test – fonctionnalités pour les données de test
• y_train – variables dépendantes pour les données d’entraînement
• y_test – variable indépendante pour tester les données
Par conséquent, la fonction train_test_split() inclut quatre paramètres, dont les deux premiers
sont pour des tableaux de données. La fonction test_size spécifie la taille de l’ensemble de test.
Le test_size peut être .5, .3 ou .2 – cela spécifie le rapport de division entre les ensembles
d’apprentissage et de test. Le dernier paramètre, « random_state » définit la graine d’un
générateur aléatoire afin que la sortie soit toujours la même.

23
5)Mise à l’échelle des fonctionnalités
Mise à l’échelle des fonctionnalités marque la fin du prétraitement des données dans Machine
Learning. C’est une méthode pour normaliser les variables indépendantes d’un ensemble de
données dans une plage spécifique. Par conséquent, la mise à l’échelle des fonctionnalités limite
la plage de variables afin que vous puissiez les comparer sur des bases communes.
Chapitre 4 : ETUDE DE CAS

I-Etude de notre cas

Cette étude de cas se penche sur l'utilisation de techniques d'apprentissage automatique pour
la prédiction du cancer du sein. Le code fourni accomplit plusieurs étapes clés, depuis le
chargement des données jusqu'à l'évaluation des modèles prédictifs. Les principales phases de
cette étude incluent le nettoyage des données, la transformation des étiquettes de diagnostic,
l'exploration visuelle des caractéristiques, la création et l'évaluation de modèles prédictifs
variés.

Le processus de modélisation comprend l'utilisation de méthodes telles que la régression


logistique, les arbres de décision, et les forêts aléatoires. Ces modèles sont formés sur un
ensemble de données d'entraînement, et leur performance est évaluée en utilisant des
techniques de validation croisée. De plus, l'étude examine l'importance des caractéristiques,
offrant des perspectives sur les facteurs qui contribuent significativement à la prédiction du
diagnostic.

Cette approche holistique de la prédiction du cancer du sein fournit une base solide pour
explorer comment les techniques d'apprentissage automatique peuvent être appliquées de
manière significative dans le domaine médical. La compréhension approfondie de chaque
étape du processus, du nettoyage des données à la validation du modèle, permettra d'extraire
des enseignements essentiels pour la prise de décision clinique.

Le code partage un processus complet pour la prédiction du cancer du sein en utilisant des
techniques d'apprentissage automatique.

Voici une synthèse des étapes clés du code :

Import des bibliothèques : Les bibliothèques nécessaires, telles que NumPy, pandas, et
scikitlearn, sont importées.

Chargement des données : Les données médicales du cancer du sein sont chargées à partir
d'un fichier CSV, puis nettoyées en supprimant des colonnes inutiles.

24
Transformation des étiquettes : Les étiquettes du diagnostic ('M' pour malin, 'B' pour bénin)
sont converties en valeurs numériques (1 pour malin, 0 pour bénin).

Exploration des données à l’aide des visualisation : Des visualisations, telles que des
histogrammes, sont utilisées pour explorer les caractéristiques des données.

Modélisation : Plusieurs modèles d'apprentissage automatique, dont la régression logistique,


les arbres de décision, et les forêts aléatoires, sont créés et évalués sur un ensemble de
données d'entraînement.

Importance des fonctionnalités : L'importance des fonctionnalités est analysée, en particulier


pour les modèles basés sur des arbres.

Prédiction : Les modèles formés sont utilisés pour prédire les diagnostics sur un ensemble de
test.

25
26
27
28
29
Observations
1- Les valeurs moyennes du rayon cellulaire, du périmètre, de la surface, de la compacité,
de la concavité et des points concaves peuvent être utilisées pour la classification du cancer.

30
Les valeurs les plus élevées de ces paramètres tendent à montrer une corrélation avec les
tumeurs malignes.
2- Les valeurs moyennes de la texture, de la douceur, de la symétrie ou de la dimension
fractale ne montrent pas de préférence particulière pour un diagnostic par rapport à l'autre.
Dans tous les histogrammes, il n'y a pas de grandes valeurs aberrantes visibles qui justifient
un nettoyage plus approfondi.

Création d'un ensemble de test et d'un ensemble de formation


Étant donné que cet ensemble de données n'est pas ordonné, je vais procéder à une simple
division 70:30 pour créer un ensemble de données de formation et un ensemble de données de
test.

31
Modèle de régression logistique
La régression logistique est largement utilisée pour la classification des données discrètes.
Dans le cas présent, nous l'utiliserons pour la classification binaire (1,0).

Sur la base des observations des histogrammes, nous pouvons raisonnablement supposer que
le diagnostic du cancer dépend du rayon moyen des cellules, du périmètre moyen, de la
surface moyenne, de la compacité moyenne, de la concavité moyenne et de la concavité
moyenne des points. Nous pouvons alors effectuer une analyse de régression logistique en
utilisant ces caractéristiques comme suit :

32
La précision de la prédiction est raisonnable. Que se passe-t-il si nous n'utilisons qu'un seul
prédicteur ? Utilisez le rayon moyen :

Cela donne une précision de prédiction similaire et un score de validation croisée.

La précision des prédictions est bonne, mais pas extraordinaire. Les scores de validation
croisée sont raisonnables. Peut-on faire mieux avec un autre modèle ?

Modèle d'arbre de décision

Ici, le modèle est surajusté, probablement en raison du grand nombre de prédicteurs. Utilisons
un seul prédicteur, le plus évident étant le rayon de la cellule.

33
The accuracy of the prediction is much much better here. But does it depend on the predictor?

Using a single predictor gives a 97% prediction accuracy for this model but the
crossvalidation score is not that great.

Forêt de Randome

L'utilisation de toutes les caractéristiques améliore la précision de la prédiction et le score de


validation croisée est excellent.

L'avantage de Random Forest est qu'il renvoie une matrice d'importance des caractéristiques
qui peut être utilisée pour sélectionner les caractéristiques. Nous allons donc sélectionner les
5 caractéristiques les plus importantes et les utiliser comme prédicteurs.

34
L'utilisation des 5 premières caractéristiques ne modifie que légèrement la précision de la
prédiction, mais je pense que nous obtenons un meilleur résultat si nous utilisons tous les
prédicteurs.

35
Cette méthode donne également une meilleure précision de prédiction, mais la validation
croisée n'est pas très bonne.

Utilisation sur l'ensemble de données de test

La précision de la prédiction pour l'ensemble des données de test en utilisant le modèle


Random Forest ci-dessus est de 95 % !

Conclusion
Le meilleur modèle à utiliser pour diagnostiquer le cancer du sein, tel qu'il ressort de cette
analyse, est le modèle Random Forest avec les 5 prédicteurs les plus importants : "concave
points_mean", "area_mean", "radius_mean", "perimeter_mean", "concavity_mean". Il donne
une précision de prédiction de ~95% et un score de validation croisée de ~93% pour
l'ensemble des données de test.

Je vais voir si je peux encore améliorer ce résultat en peaufinant le modèle et en essayant


d'autres modèles dans une version ultérieure de cette analyse.

II. Défis et enjeux :


1.Limitations actuelles de la prédiction par l'IA
Les obstacles présents dans la prédiction du cancer du sein via l'intelligence artificielle sont :
- Faux positifs et faux négatifs: Les modèles d'IA peuvent produire des résultats
incorrects, conduisant à des faux positifs (indiquant à tort la présence d'un cancer) ou à
des faux négatifs (manquant la détection du cancer). Cela peut entraîner des
conséquences graves pour les patients et nécessite une validation et une surveillance
continues.
- Interprétabilité des modèles: Certains modèles d'IA, en particulier les réseaux
neuronaux complexes, manquent de transparence et sont difficiles à interpréter.
Comprendre comment et pourquoi un modèle a pris une décision particulière peut être
complexe, limitant la confiance des professionnels de la santé dans ces prédictions.

36
- Validation clinique nécessaire : Bien que les modèles d'IA puissent montrer des
performances prometteuses dans des études expérimentales, ils doivent être
rigoureusement validés cliniquement pour être utilisés de manière fiable dans des
environnements médicaux réels.
- Besoin en réglementation et en normes: Il existe un besoin croissant de réglementation
et de normes claires pour encadrer l'utilisation de l'IA dans le domaine médical,
garantissant la sécurité, l'éthique et l'efficacité des applications d'IA pour la prédiction
du cancer du sein.
2.Questions éthiques et confidentialité des données médicales l'IA dans le domaine
médical soulève des questions de réglementation et de normes claires, notamment en ce
qui concerne l'agrégation et l'analyse des données, la transparence des algorithmes, la
communication aux patients et la surveillance pour assurer des normes éthiques. Parmi les
questions éthiques soulevées, on peut citer :
- Exactitude de la détection: L'IA doit être en mesure de détecter correctement le cancer
du sein sans surdiagnostic ou sous-diagnostic, garantissant ainsi la qualité de la prise
de décision médicale.
- Confidentialité des données : L'utilisation de données médicales sensibles pour
entraîner les modèles d'IA soulève des préoccupations concernant la confidentialité
des patients, la sécurité des données et la manière dont ces informations sont utilisées
et partagées
- Transparence des algorithmes: Les algorithmes d'IA doivent être transparents et faciles
à comprendre pour les professionnels de la santé et les patients, permettant de mieux
évaluer la fiabilité et l'efficacité de ces modèles.

- Communication aux patients : Les patients doivent être informés sur les diagnostics
générés par l'IA et les décisions prises sur la basis de ces diagnostics, afin de mieux
comprendre leur traitement et de mieux partager les décisions médicales.

- Surveillance et réglementation : Il est nécessaire d'instaurer des instances


opérationnelles pour surveiller et réglementer l'utilisation de l'IA dans le domaine
médical, garantissant ainsi la sécurité, l'éthique et l'efficacité des applications d'IA
pour la prédiction du cancer du sein

3.Perspectives futures et les Évolutions possibles dans le domaine de la prédiction du cancer


du sein
Les perspectives futures dans le domaine de la prédiction du cancer du sein par l'intelligence
artificielle (IA) comprennent plusieurs évolutions potentielles :
- Personnalisation du dépistage : L'IA pourrait permettre une personnalisation plus
poussée du dépistage, en identifiant les femmes à risque élevé et en adaptant les
protocoles de dépistage à leurs besoins spécifiques.

37
- Prédiction des résultats: Des outils d'IA plus avancés pourraient être en mesure de
prédire de manière plus précise l'issue du cancer du sein, ce qui pourrait contribuer à
éviter des chimiothérapies inutiles et à orienter les décisions thérapeutiques.
- Identification des sites d'origine des cancers : Des modèles d'IA pourraient aider à
déterminer plus précisément le site d'origine des cancers, ce qui pourrait permettre une
prise en charge plus ciblée et des prévisions plus précises sur l'évolution de la maladie.
4.Nouvelles technologies ou approches prometteuses
Diverses technologies et approches prometteuses utilisant l'intelligence artificielle pour la
prédiction du cancer du sein étaient en développement. Certaines de ces avancées
technologies incluent :
1.Imagerie Médicale et Analyse d'Images :
-Mammographie assistée par IA :Des systèmes d'IA sont développés pour aider les
radiologues à détecter des anomalies sur les mammographies, améliorant ainsi la précision du
dépistage.
-IRM mammaire assistée par IA :L'IA peut être utilisée pour analyser les images
par résonance magnétique (IRM) du sein et aider à identifier des caractéristiques
subtiles indiquant la présence de tumeurs. 2.Biopsie Virtuelle et Diagnostic :
- Biopsie virtuelle :Certains chercheurs explorent des techniques où des modèles d'IA
peuvent aider à évaluer la probabilité de malignité d'une lésion sans nécessiter une biopsie
physique immédiate.
- Diagnostic précoce par IA :Des algorithmes d'IA sont développés pour analyser des
données provenant de biopsies et d'autres tests, fournissant des diagnostics plus précoces et
plus précis.
3.Intégration de Données Multiples :
- Données génomiques : L'intégration de données génomiques dans les modèles d'IA
permet une personnalisation plus poussée des prédictions en fonction des caractéristiques
génétiques de chaque patient.
-Données cliniques et d'imagerie :La combinaison de données cliniques, d'imagerie
médicale et de données génomiques permet une approche plus holistique dans la prédiction et
la gestion du cancer du sein.
4.Suivi et Gestion Personnalisés :
- Prédiction de la réponse au traitement :Des modèles d'IA sont développés pour prédire
la réponse individuelle des patients aux différents traitements, permettant une approche plus
personnalisée.
- Suivi post-traitement :L'IA peut être utilisée pour surveiller de manière proactive les
patients après le traitement, identifiant les signes de rechute ou d'effets secondaires.

Utilisation de l'apprentissage profond (Deep Learning) :


Réseaux neuronaux profonds : Les approches basées sur l'apprentissage profond sont
de plus en plus utilisées pour extraire des caractéristiques complexes à partir de données,
améliorant ainsi la capacité des modèles à détecter des signaux subtils.

38
CONCLUSION GENERALE

En clôture de ce projet d'intelligence artificielle dédié à la prédiction du cancer du sein par le


biais du machine learning, il est palpable que l'exploration de ces avancées technologiques a
le potentiel de révolutionner les pratiques médicales dans la détection précoce de cette
maladie dévastatrice.

L'utilisation de modèles de machine learning, tels que la régression logistique et les forêts
aléatoires, a permis de tirer des enseignements importants à partir de données médicales
complexes, dont des images de mammographie et des données génétiques. Cette approche
holistique, englobant des aspects variés de l'information médicale, permet une évaluation
approfondie des risques tout en mettant en lumière des patterns subtils qui peuvent échapper à
une analyse humaine traditionnelle.

Les résultats obtenus démontrent une amélioration significative de la précision diagnostique,


apportant ainsi une valeur ajoutée concrète à la communauté médicale. La capacité de ces
modèles à réduire les erreurs de diagnostic peut contribuer de manière substantielle à
l'efficacité des programmes de dépistage, tout en offrant des recommandations personnalisées
aux professionnels de la santé.

Toutefois, il est crucial de souligner que ces avancées technologiques ne remplacent pas
l'expertise médicale humaine. Au contraire, elles devraient être considérées comme des outils
complémentaires, nécessitant une collaboration étroite entre les professionnels de la santé et
les experts en apprentissage automatique. Cette symbiose garantira une utilisation éthique,
précise et responsable de ces modèles dans le cadre clinique.

En définitive, ce projet marque une étape significative vers une médecine plus prédictive et
personnalisée, où l'intelligence artificielle agit en tandem avec les compétences médicales
pour lutter plus efficacement contre le cancer du sein. Les bénéfices potentiels pour les
patients et la société dans son ensemble sont incommensurables, plaçant ainsi la recherche
dans le domaine de l'IA au cœur des efforts pour améliorer la santé et le bien-être des
individus.

39
CODE

!pip install scikit-learn


import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

# keeps the plots in one place. calls image as static pngs


%matplotlib inline
import matplotlib.pyplot as plt # side-stepping mpl backend
import matplotlib.gridspec as gridspec # subplots
import mpld3 as mpl

#Import models from scikit learn module:


from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import KFold #For K-fold cross validation
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn import metrics

from google.colab import drive


drive.mount('/content/drive')
import os
path = '/content/drive/MyDrive/data.csv'
data= pd.read_csv(path)

from google.colab import drive


drive.mount('/content/drive')
import os
path = '/content/drive/MyDrive/data.csv'
data= pd.read_csv(path)

from google.colab import drive


drive.mount('/content/drive')
import os
path = '/content/drive/MyDrive/data.csv'
data= pd.read_csv(path)
df = pd.read_csv("/content/drive/MyDrive/data.csv",header = 0)
df.head()
df.drop('id',axis=1,inplace=True)
df.drop('Unnamed: 32',axis=1,inplace=True)
# size of the dataframe
len(df)

df.diagnosis.unique()
df['diagnosis'] = df['diagnosis'].map({'M':1,'B':0})
df.head()

40
df.describe()
df.describe()
plt.hist(df['diagnosis'])
plt.title('Diagnosis (M=1 , B=0)')
plt.show()
features_mean=list(df.columns[1:11])
# split dataframe into two based on diagnosis
dfM=df[df['diagnosis'] ==1]
dfB=df[df['diagnosis'] ==0]
#Stack the data
plt.rcParams.update({'font.size': 8})
fig, axes = plt.subplots(nrows=5, ncols=2, figsize=(8,10))
axes = axes.ravel()
for idx,ax in enumerate(axes):
ax.figure
binwidth= (max(df[features_mean[idx]]) -
min(df[features_mean[idx]]))/50
ax.hist([dfM[features_mean[idx]],dfB[features_mean[idx]]],
bins=np.arange(min(df[features_mean[idx]]), max(df[features_mean[idx]]) +
binwidth, binwidth) , alpha=0.5,stacked=True,
label=['M','B'],color=['r','g'])
ax.legend(loc='upper right')
ax.set_title(features_mean[idx])
plt.tight_layout()
plt.show()
traindf, testdf = train_test_split(df, test_size = 0.3)
#Generic function for making a classification model and accessing the
performance.
# From AnalyticsVidhya tutorial
def classification_model(model, data, predictors, outcome):
#Fit the model:
model.fit(data[predictors],data[outcome])

#Make predictions on training set:


predictions = model.predict(data[predictors])

#Print accuracy
accuracy = metrics.accuracy_score(predictions,data[outcome])
print("Accuracy : %s" % "{0:.3%}".format(accuracy))

#Perform k-fold cross-validation with 5 folds


kf = KFold(data.shape[0], n_folds=5)
error = []
for train, test in kf:
# Filter training data
train_predictors = (data[predictors].iloc[train,:])
# The target we're using to train the algorithm.

41
train_target = data[outcome].iloc[train]

# Training the algorithm using the predictors and target.


model.fit(train_predictors, train_target)

#Record error from each cross-validation run


error.append(model.score(data[predictors].iloc[test,:],
data[outcome].iloc[test]))

print("Cross-Validation Score : %s" %


"{0:.3%}".format(np.mean(error)))

#Fit the model again so that it can be refered outside the function:
model.fit(data[predictors],data[outcome])
print(traindf.columns)

predictor_var =
['radius_mean','perimeter_mean','area_mean','compactness_mean','concave
points_mean']
outcome_var='diagnosis'
model=LogisticRegression()
classification_model(model,traindf,predictor_var,outcome_var)

predictor_var = ['radius_mean']
model=LogisticRegression()
classification_model(model,traindf,predictor_var,outcome_var)

predictor_var =
['radius_mean','perimeter_mean','area_mean','compactness_mean','concave
points_mean']
model = DecisionTreeClassifier()
classification_model(model,traindf,predictor_var,outcome_var)

predictor_var = ['radius_mean']
model = DecisionTreeClassifier()
classification_model(model,traindf,predictor_var,outcome_var)

# Use all the features of the nucleus


predictor_var = features_mean
model = RandomForestClassifier(n_estimators=100,min_samples_split=25,
max_depth=7, max_features=2)
classification_model(model, traindf,predictor_var,outcome_var

#Create a series with feature importances:

42
featimp = pd.Series(model.feature_importances_,
index=predictor_var).sort_values(ascending=False)
print(featimp
# Using top 5 features
predictor_var = ['concave
points_mean','area_mean','radius_mean','perimeter_mean','concavity_mean',]
model = RandomForestClassifier(n_estimators=100, min_samples_split=25,
max_depth=7, max_features=2)
classification_model(model,traindf,predictor_var,outcome_var)

predictor_var = ['radius_mean']
model = RandomForestClassifier(n_estimators=100)
classification_model(model, traindf,predictor_var,outcome_var)

# Use all the features of the nucleus


predictor_var = features_mean
model = RandomForestClassifier(n_estimators=100,min_samples_split=25,
max_depth=7, max_features=2)
classification_model(model, testdf,predictor_var,outcome_var)

Lien Google drive :


https://colab.research.google.com/drive/1ZSc5F8TTqxQfjWj4Y8fp9tddGqCsmgqX?usp=shar
ing

43

Vous aimerez peut-être aussi