Académique Documents
Professionnel Documents
Culture Documents
Le cancer du sein est indéniablement la maladie la plus néfaste, qui puisse toucher la femme,
avec plus de2.26 millions de cas par an et de 685 000 morts annuellement
Ces statistiques alarmantes et effroyables, qui ne cessent d'augmenter ont poussé les
chercheurs scientifiques et les médecins depuis des années à essayer de trouver un moyen de
combattre cette maladie, soit avec un dépistage précoce ou bien avec divers traitements. De
nombreuses méthodes d'imagerie médicale ont été introduites au fil du temps, telles que la
mammographie, l'échographie et l'imagerie à résonance magnétiques (IRM). Cette dernière
représente l'examen de certitude quand les deux premières, ne parviennent pas à classifier la
tumeur.
L'arrivée de la technologie de l'intelligence artificielle, a donné un essor considérable au
domaine médical et plus particulièrement, en oncologie. Au début, ce processus était délicat
voire même difficile, à cause du peu d'images disponibles donnant lieu à un entrainement
médiocre. Mais avec le développement des matériels informatiques et l'augmentation rapide
du data, ceci est devenu possible.
Dans ce contexte, notre étude se porte sur la réalisation d'un système de détection du cancer
du sein fondé capable de prédire avec une haute efficacité le type de tumeur.
Le projet que nous présentons vise à exploiter le potentiel du machine learning pour la
prédiction du cancer du sein, en utilisant des algorithmes sophistiqués capables d'analyser des
données complexes provenant de diverses sources médicales. En combinant l'expertise
médicale avec les capacités prédictives du machine learning, nous aspirons à transformer la
manière dont le cancer du sein est diagnostiqué et géré.
En tirant parti des avancées du machine learning, ce projet vise à apporter des solutions
novatrices pour la détection précoce du cancer du sein, avec l'objectif ultime de personnaliser
les stratégies de dépistage et de traitement. En réduisant les erreurs de diagnostic, nous
espérons améliorer la qualité des soins, accélérer les procédures de prise de décision clinique,
et contribuer ainsi à un impact positif sur la santé des individus touchés par cette maladie.
Ce projet incarne notre engagement à utiliser la technologie pour résoudre des problèmes de
santé mondiaux pressants.
1
Chapitre 1 : LE CANCER DU SEIN
Le cancer du sein est l'un des cancers les plus courants chez les femmes à l'échelle mondiale,
touchant environ 1 femme sur 8 et restant la principale cause de décès. Bien qu'il soit plus
fréquent chez les femmes de plus de 50 ans, il peut également affecter des femmes plus jeunes
et, rarement, des hommes. Le dépistage précoce et les traitements adaptés sont essentiels pour
améliorer les chances de guérison et la qualité de vie des personnes touchées. .Anatomie et
Fonctionnement du Sein
Le sein, une structure complexe, varie considérablement d'une personne à l'autre. Chez les
femmes, il est principalement composé d'une glande mammaire, de tissu adipeux et de
ligaments de Cooper pour le soutien, le tout enveloppé par la peau. Les hommes possèdent
également des composants similaires, mais en moindre quantité par rapport aux femmes.
Situé au-dessus du muscle pectoral, le sein contient des nerfs, des vaisseaux sanguins et
lymphatiques. La glande mammaire se divise en lobes, chacun abritant des lobules reliés à des
canaux qui acheminent le lait vers le mamelon, entouré de l'aréole. À des fins de protection
contre les infections, des chaînes de ganglions lymphatiques filtrant les microbes sont
présentes, pouvant être le lieu de développement du cancer du sein.
Le traitement du cancer dépend souvent des résultats de la biopsie, car elle fournit des
informations cruciales sur la nature et le type de la tumeur, guidant ainsi les décisions
thérapeutiques.
2
Le cancer du sein peut se développer dans les canaux (carcinome canalaire) ou les lobules
(carcinome lobulaire), formant une tumeur cancéreuse "maligne" composée de cellules
capables d'envahir et de détruire les tissus avoisinants. Ces cellules ont également la capacité
de se propager, créant des "métastases" dans d'autres parties du corps. Parfois, les cellules
mammaires subissent des altérations conduisant à une croissance ou à un comportement
anormal, pouvant entraîner des affections non cancéreuses telles que l'hyperplasie atypique,
des kystes ou des tumeurs bénignes comme les papillomes intra-canalaires. Chez les hommes,
le cancer affecte principalement les canaux et rarement les lobules. Pour diagnostiquer et
traiter correctement cette maladie, une compréhension approfondie de la structure et du
fonctionnement du sein est essentielle
Le cancer du sein présente différents types en fonction du site de formation des cellules.
Parmi eux se trouvent le carcinome canalaire, débutant dans les canaux transportant le lait
vers le mamelon, et le carcinome lobulaire, prenant naissance dans les lobules producteurs de
lait. D'autres types comprennent le cancer inflammatoire du sein, la maladie de Paget du sein
et le cancer du sein triple négatif, avec le carcinome canalaire étant le plus courant, se
développant dans les canaux mammaires.
Le programme de dépistage organisé vise à détecter des anomalies, à un stade précoce, avant
l’apparition de symptômes du cancer du sein. Ce dépistage consiste à réaliser une
mammographie Une mammographie est une radiographie des seins. Dans le cadre du
3
dépistage, elle permet notamment de détecter des cancers de petite taille, bien avant qu’ils ne
soient palpables ou que des symptômes n’apparaissent.
Le dépistage précoce du cancer du sein est essentiel pour plusieurs raisons :
-Meilleures chances de guérison : Lorsque le cancer du sein est détecté à un stade précoce, les
options de traitement sont plus nombreuses et les chances de guérison sont plus élevées. -
Moins de traitements invasifs : Un cancer du sein détecté tardivement peut nécessiter des
traitements plus agressifs tels que la chimiothérapie, la radiothérapie ou une mastectomie
(ablation du sein).
-Réduction du risque de propagation : Si le cancer du sein est détecté avant qu'il ne se propage
à d'autres parties du corps, les chances de contrôler la maladie sont bien meilleures. -
Amélioration de la qualité de vie : La détection précoce permet de minimiser les effets
secondaires des traitements et d'améliorer la qualité de vie des patientes.
L'intelligence artificielle (IA) est utilisée dans la prédiction et le dépistage du cancer du sein.
Elle offre des avancées significatives, comme un modèle capable de détecter si toutes les
cellules cancéreuses ont été retirées lors d'une opération, ce qui peut améliorer les chances de
guérison et éviter des interventions supplémentaires. De plus, un algorithme a permis de
prédire l'apparition du cancer du sein cinq ans avant la détection ou l'apparition des premiers
symptômes. L'IA améliore la précision diagnostique et peut aider à détecter les tumeurs de
manière plus précoce. Cependant, bien qu'elle présente des avantages, elle n'égale pas encore
la précision des radiologues humains et doit être utilisée en complément de l'expertise
médicale.
4
Chapitre 2 : CONTEXTE MÉDICAL
Dans le monde, le cancer du sein est le cancer le plus fréquent chez la femme. En 2018,
environ 2,08 millions de nouveaux cas de cancer du sein ont été diagnostiqués à travers le
monde. Il représente 24,2 % (soit environ un sur quatre) des nouveaux cas de cancers
féminins, et 11,6% de l’ensemble des cancers (tous sexes confondus).
Les taux d’incidence varient beaucoup d’une région du monde à l’autre (Figure1), avec un
rapport qui peut aller de 1 à 4 entre les pays généralement développés à forte incidence et les
pays en voie de développement à relativement faible incidence.
Actuellement, les taux d’incidence les plus élevés sont observés en Australie, Nouvelle
Zélande, au Nord et à l’Ouest de l’Europe, ainsi qu’en l’Amérique du Nord. Les taux
intermédiaires sont observés en Europe Centrale et Orientale, et au Nord et au Sud de
l’Afrique et les taux les plus bas au Centre et à l'Est de l'Afrique ainsi qu’en Asie du Sud.
Cette disparité de l’incidence à travers le monde peut être expliquée en partie par des
expositions différentes aux facteurs de risques de cancer du sein incluant les facteurs
héréditaires, génétiques et environnementaux, des différences de mode de vie et de
comportements reproductifs des femmes, mais aussi par des différences liées aux activités de
dépistage ainsi qu’aux méthodes diagnostiques du cancer du sein.
5
Avec environ 10 136 nouveaux cas estimés en 2018, le cancer du sein représente le premier
cancer chez la femme Marocaine. Le taux d’incidence standardisé sur la population mondiale
est de 51 pour 100 000 femmes en 2018 (Figure 4). Il représente 36,9% de l’ensemble des cas
de cancer diagnostiqués chez les femmes et environ 19,2% de l’ensemble des cas
diagnostiqués chez les deux sexes.
Le Maroc ne disposant pas d’un registre national pour mesurer l’incidence du cancer sur
l’ensemble du territoire. De ce fait, l’incidence est estimée à partir de deux registres de
population, considérés la principale source de données fiables en terme de morbidité du
cancer au Maroc : le registre des cancers du Grand Casablanca et le registre des cancers de
Rabat, qui couvrent environ 12,0% et 2,1% de la population marocaine, respectivement.
Entre 2008 et 2012, les données de registre de cancer du Grand Casablanca indiquent que le
taux d’incidence du cancer du sein standardisé sur la population mondiale est de 49,5 pour
100 000 femmes. L’incidence du cancer du sein a considérablement augmenté entre 2008 et
2011, passant de 47,0 en 2008 à 52,2 en 2011, soit une augmentation annuelle de 3,68 %.
L’incidence a légèrement diminué en 2012 (Tableau 1).
6
II. Facteurs de risque et symptômes associés
Les signes et symptômes du cancer du sein varient selon le stade et les patients. Le symptôme
le plus commun du cancer du sein est l'apparition d'une masse ou d'une bosse nouvelle. Une
masse indolore, dure et aux contours inhabituels, est plus susceptible d'être un cancer. Mais
les cancers du sein peuvent être sensibles, mous ou ronds. Ils peuvent même être douloureux.
Cependant, il existe des patientes (ou des patients) « asymptomatiques », cela signifie que la
personne malade est atteinte du cancer, mais ne montre aucun symptôme ou douleur
inhabituelle.
Les signes les plus fréquents sont :
➢ Une douleur au sein,
➢ Une peau rouge et piquée sur l'ensemble du sein,
➢ Un gonflement de tout ou d'une partie du sein,
➢ Un écoulement du mamelon autre que du lait maternel y compris du sang, ➢ Un
changement soudain et inexpliqué de la forme ou de la taille du sein,
➢ Une bosse ou un gonflement sous le bras.
7
Facteurs de risque
➢ Le sexe :
L'un des principaux facteurs de risque et le plus fréquent est le sexe. En effet, il touche 99%
des femmes contre 1% des hommes.
➢ L'âge :
C'est le facteur de risque le plus important. L'incidence de cette maladie augmente avec l'âge.
Plus la personne est âgée, plus elle est sujette à cette maladie avec un risque élevé pour les
femmes de plus de 50 ans.
➢ Facteur hormonal :
Le traitement hormonal augmente le risque du cancer du sein, la puberté précoce ou la
ménopause tardive sont aussi à risque de cancer du sein à cause de la consommation du
traitement hormonal tel que l’œstrogène. De plus la prise de médicaments hormonaux tels que
l'œstrogène en raison d'une grossesse retardée est aussi un facteur de risque important.
8
L'exercice quotidien d'activité physiques et une consommation importante de fruits et de
céréales sont recommandés par les médecins pour diminuer le risque d'être touché par cette
maladie.
➢ L’échographie
Dans le cadre d’un diagnostic de cancer du sein, que ce soit au cours d’un dépistage organisé
ou individuel, l’écho- graphie permet de caractériser plus précisément la nature d’une lésion
repérée par la mammographie. L’examen est indolore et dure moins de 30 minutes.
L’échographie vient compléter la mammographie en cas de masse visible et/ou de seins
denses rendant son analyse très difficile car pouvant masquer de petites lésions ayant la même
densité que le tissu mammaire environnant.
➢ L’IRM mammaire
L’indication de l’IRM mammaire est controversée compte tenu du nombre important de faux
positifs associés à cette technique.
9
Elle est systématique en cas d’antécédent d’irradiation thoracique médicale à haute dose
(comme par exemple pour la maladie de Hodgkin), de prédisposition génétique avérée ou
d’antécédent familial de cancer du sein.
Elle est optionnelle en présence d’anomalies radiologiques à la mammographie, d’une
densité mammaire de classe 4, ou d’un écoulement unipore sérosanglant. Elle n’est pas
préconisée en première intention en cas de masse palpable.
➢ La biopsie à l’aiguille
La biopsie, qu’il s’agisse de microbiopsies ou de macrobiopsies, est faite au moyen d’une
aiguille introduite par une petite incision pratiquée dans le sein. C’est un examen rapide
(durée < 1 heure) qui ne nécessite pas d’hospitalisa- tion. Une anesthésie locale permet que
l’intervention ne soit pas douloureuse.
Les microbiopsies sont indiquées pour explorer les anomalies de type masses ou opacités,
visibles. Elles sont faites sous échographie à l’aide d’un pistolet automatique muni d’une
aiguille. Cette technique peut être faite sous contrôle mammographique (microbiopsie sous
stéréotaxie) ou échographique, sous anesthésie locale.
Les macro biopsies sont indiquées pour explorer les foyers de microcalcifiactions. Elles sont
faites selon la même technique que la biopsie guidée par stéréotaxie, mais avec une aiguille
de prélèvement plus large (aiguille creuse qui protège un petit couteau cylindrique rotatif).
Cela permet de procéder à plusieurs prélèvements par rotation sans nouvelle piqûre et
d’obtenir un échantillon beaucoup plus important (de 35 à 95 mg, contre 20 mg pour une
microbiopsie).
➢ La biopsie chirurgicale
Une biopsie peut être faite au bloc opératoire par un chirurgien sous anesthésie locale ou
générale. Cela permet d’enlever toute la lésion suspecte palpée ou identifiée à la
mammographie ou à l’échographie.
La biopsie chirurgicale est recommandée après une biopsie à l’aiguille de gros calibre
lorsqu’un cancer du sein a été confirmé.
Elle est aussi recommandée pour s’assurer qu’il n’y a pas de cancer du sein lorsque la biopsie
à l’aiguille de gros calibre a identifié une hyperplasie canalaire atypique.
Elle sera faite dans de rares cas où on ne peut faire la biopsie à l’aiguille de gros calibre en
échographie ou en stéréotaxie, en raison de problèmes de santé de la femme (exemple :
impossibilité de rester couchée sur le ventre) ou de la localisation de l’image à biopsier.
➢ Le prélèvement ganglionnaire
10
Une exploration échographique axillaire est faite dans le même temps que l’échographie
mammaire diagnostique ou lors de la biopsie tumorale mammaire. Un prélèvement percutané
ganglionnaire axillaire est fait, dans le même temps que la biopsie tumorale, en cas de
ganglion(s) suspect(s).
➢ L’examen histologique
L’examen anatomo-pathologique a pour objet de préciser :
✓ Si le cancer est d’origine canalaire ou lobulaire ;
✓ Si le cancer est in situ ou invasif (franchissement de la membrane basale) ;
✓ S’il s’agit d’un cancer du sein différencié ou indifférencié ;
✓ Le statut des récepteurs hormonaux, c’est-à-dire la présence et le pourcentage de
récepteurs dans les cellules tumorales ;
✓ S’il existe une surexpression de la protéine HER 2 (human epidermal growth factor
receptor 2).
La mammographie expose à des rayons X et une exposition répétée peut parfois entraîner
l’apparition d’un cancer. Elle ne doit donc être utilisée que si elle est utile.
Le risque de décès par cancer radio-induit est de l’ordre de 1 à 10 pour 100 000 femmes ayant
réalisé une mammographie tous les 2 ans pendant 10 ans. Le nombre de décès évités avec le
dépistage est largement supérieur au risque de décès par cancer radio-induit. À titre indicatif,
si une femme suit strictement la recommandation de participation au programme de dépistage
organisé de 50 à 74 ans, elle réalisera 13 mammographies au total. Son exposition aux
rayonnements ionisants représentera alors au total le quart de celle provoquée par un scanner
abdominopelvien, acte très courant.
Les mammographies représentent en France moins de 2 % de l’exposition totale de la
population aux rayonnements ionisants.
11
➢ Un résultat dit « Faux négatif ou Faux positif »
• Faux négatif
Un résultat négatif indique qu'aucune anomalie n'a été détectée. Or une
anomalie, voire un cancer, peut ne pas avoir été repérée. Il s'agit alors d'un
résultat "faux négatif".
La double lecture des clichés de la mammographie permet de réduire
considérablement ce risque.
• Faux positif
Un résultat positif indique la présence d'une anomalie. Dans la plupart des cas,
il se révèle que l’anomalie découverte est bénigne et qu’il ne s’agit pas d’un
cancer. On parle alors d’un résultat “faux positif”
Aujourd'hui, l'informatique est omniprésente dans quasiment tous les secteurs tels que la santé,
l'éducation, l'économie et la cosmologie. Cette omniprésence se manifeste dans la vie
quotidienne de chaque individu et a facilité l'utilisation et la compréhension de domaines
complexes. L'un des secteurs les plus significativement impactés par ce développement
informatique considérable est celui de la santé.
L'évolution de l'informatique et de la technologie continue de jouer un rôle de plus en plus
crucial dans le domaine de la santé, favorisant le développement du matériel médical, des
logiciels de surveillance médicale et des logiciels d'analyse médicale, améliorant ainsi la
précision des résultats. Ce progrès a suscité un vif intérêt, notamment de la part des scientifiques
spécialisés dans des domaines tels que l'intelligence artificielle, les systèmes experts,
l'apprentissage automatique (Machine Learning).
1. Définition
L'intérêt pour l'apprentissage automatique a connu une augmentation significative au cours de
la dernière décennie. Malgré le discours abondant sur cette discipline, des conflits émergent
entre les capacités réelles des machines et nos aspirations (Patterson & Gibson, 2017).
L'apprentissage automatique, en tant que sous-ensemble de l'intelligence artificielle (IA), se
concentre sur la création de systèmes capables d'apprendre et d'améliorer leurs performances
en se basant sur les données qu'ils traitent. Les algorithmes d'apprentissage automatique jouent
un rôle crucial en optimisant, simplifiant et sécurisant ce processus (Clayton, 2019).
2. Les types d’apprentissage automatique
L'apprentissage automatique est une méthode employée dans l'intelligence artificielle. C’est une
méthode d'apprentissage statistique où chaque instance dans une base de données est décrite par
un ensemble de caractéristiques ou d'attributs. On peut distinguer 2 grandes catégories :
Apprentissage supervisé.
Apprentissage non supervisé
12
Figure : Types d’apprentissage automatique (Machine Learning)
2.1) Apprentissage supervisé :
C’est une tâche pour l’apprentissage automatique d’apprendre la fonction de prédiction
à partir d’exemples annotés, plutôt qu’un apprentissage non supervisé. Un humain aide
l’algorithme à apprendre, servant le monde comme guide, et enseigne à l’algorithme les
résultats qu’il doit trouver. L’algorithme apprend grâce Les méthodes d’apprentissage supervisé
sont bien généralisables, c’est-à-dire l’apprentissage d’une fonction qui fait des prédictions
correctes sur des données non présentes dans l’ensemble d’apprentissage .
13
➢ La classification
➢ Régression
➢ Prévision
X Y A - NS
.
Il y’a deux types d’apprentissage non supervisé :
➢ Regroupement (Clustering)
➢ Réduction de la dimension .
Il y a une Différence entre les types d’apprentissage automatique en résumé dans ce
tableau :
Apprentissage supervisé Apprentissage non supervisé
Données d’entrée sont étiquetées. Données d’entrée son non étiquetées.
14
Classification et régression. Regroupement, estimation de la densité,
et réduction de la dimensionnalité.
Tableau : Différences entre l’apprentissage supervisé et non supervisé.
Exemple
Dans cet exemple, le jeu de données contient des étoiles et des triangles qui sont
respectivement classé dans la classe A et B, dans la phase d’apprentissage le
classificateur SVM consiste à trouver le meilleur hyperplan qui s´empare parfaitement
les deux classes, et classe correctement les nouveaux donnés ainsi comme les vecteurs
15
de support crée une frontière de d´excision entre les deux classes les nouveaux donnés
sera classé `à la base de ces vecteurs.
Dans cet exemple , nous avons une donnée non classée et toutes les autres données sont
classée (étoile et triangle) chacun avec leur classe (classe A et B).
Si k=3 les données les plus proches de la nouvelle donnée sont celles qui sont à
l’intérieur du premier cercle, et la classe la plus prééminente c’est triangle (Classe B) car 2
triangles et seulement 1 étoile donc la donnée non classée sera classée un triangle(Classe B).
Si k=7 les données les plus proches de la nouvelle donnée sont celles qui sont à
l’intérieur du deuxième cercle, et la classe la plus prédominante c’est l’étoile (Classe A) car on
a 4 étoiles et 3 triangles donc la donnée non classée sera classée une étoile (ClasseA).
16
nombreuses erreurs. Le prétraitement des données est une méthode éprouvée pour résoudre ces
problèmes. Lorsque nous parlons de données, nous pensons généralement à de grands
ensembles de données avec un grand nombre de lignes et de colonnes. Bien que ce soit un
scénario probable, ce n’est pas toujours le cas – les données peuvent se présenter sous de
nombreuses formes différentes : tableaux structurés, images, fichiers audio, vidéos, etc.
Apprentissage automatique les algorithmes ne fonctionnent pas si bien avec le traitement des
données brutes. Avant de pouvoir transmettre ces données à un algorithme ML, nous devons
les prétraiter. En d’autres termes, nous devons lui appliquer des transformations. Avec le
prétraitement des données, nous convertissons les données brutes en un ensemble de données
propre.
Les étapes utilisées pour le prétraitement des données sont: –
1. Importer des bibliothèques. La première étape consiste généralement à importer
les bibliothèques qui seront nécessaires dans le programme.
2. Obtenir l’ensemble de données
3. Exploration ou analyse de données
4. Prise en charge des données manquantes dans l’ensemble de données
5. Encodage des données catégorielles
6. Fractionnement de l’ensemble de données en ensemble d’apprentissage et en
ensemble de test
7. Mise à l’échelle des fonctionnalités
Nous avons utilisé un ensemble de données titanesque pour une meilleure compréhension. Il
s’agit d’un ensemble de données très connu et c’est souvent la première étape d’un étudiant
dans la classification de l’apprentissage automatique. Nous allons effectuer un prétraitement de
base sur l’ensemble de données.
Allons-y et commençons: –
1) Importer des bibliothèques
seaborn as sns
%matplotlib inline
17
• NumPy: -NumPy est une bibliothèque Python utilisée pour travailler avec des
tableaux. Il a également des fonctions pour travailler dans le domaine de
l’algèbre linéaire, de la transformée de Fourier et des matrices.
• pandas: -Pandas est utilisé pour analyser les données.
• marin: -Seaborn est une bibliothèque qui utilise Matplotlib en dessous pour
tracer des graphiques. Il sera utilisé pour visualiser des distributions aléatoires.
• matplotlib: -Matplotlib est une bibliothèque de traçage de graphes de bas niveau
en python qui sert d’utilitaire de visualisation.
2)Get le jeu de données
• train = pd.read_csv(« train.csv »)
L’instruction ci-dessus est utilisée pour lire l’ensemble de données dans la trame de données
pandas. train est le nom du jeu de données et read_csv est une fonction pandas importante pour
lire les fichiers csv et effectuer des opérations dessus.
18
• train.describe()
Ceci décrit le nombre, min, max, etc. de chaque colonne de notre ensemble de données
19
Fig : Heatmap pour vérifier les valeurs nulles
Obtenir le guide
Ici, ces tirets jaunes montrent que nous avons des informations manquantes. Ainsi, nous
pouvons simplement jeter un coup d’œil sur nos données à partir d’une vue d’ensemble très
éloignée et vérifier que oui, il nous manque des informations sur l’âge et de nombreuses
informations sur la cabine.
20
La proportion d’âge manquant est probablement plus faible pour un remplacement raisonnable
d’une certaine forme d’imputation, ce qui signifie que nous pouvons utiliser la connaissance
d’autres colonnes pour remplir des valeurs raisonnables.
En regardant la colonne de la cabine, il semble qu’il nous manque juste trop de ces données
pour en faire quelque chose d’utile à un niveau de base. Nous allons probablement supprimer
cette colonne.
Il existe de nombreuses façons de traiter les valeurs manquantes, mais nous allons en utiliser
deux
1) Imputer les valeurs manquantes avec la moyenne/médiane
2) Suppression des lignes avec des valeurs manquantes.
• former[‘Age’].plot.hist(bins=55)
21
Fig : Boîte à moustaches
Vous trouverez ci-dessous la méthode que nous utilisons pour imputer la colonne d’âge : –
• former[‘Age’]=train[[‘Age’,’Pclass’]].apply(impute_age,axis=1)
Et il semble que nous n’ayons plus d’informations manquantes pour la colonne d’âge. Nous
avons réussi à mettre des valeurs qui étaient des suppositions raisonnables pour l’âge des gens
en fonction de leur classe.
Maintenant, le problème que nous avons est la colonne de la cabine et honnêtement, il y a trop
de points manquants pour faire quelque chose d’utile de cette colonne ici. Mais il y a tellement
d’informations manquantes ici qu’il est plus facile d’aller de l’avant et de laisser tomber cette
colonne de cabine.
• drop(‘Cabin’,axis=1,inplace=True)
22
3) Encodage des données catégorielles
L’algorithme d’apprentissage automatique ne peut pas fonctionner sur des valeurs catégorielles,
nous allons donc les convertir en valeurs fictives. Si vous voyez la colonne sexe ici, nous avons
une caractéristique catégorique d’homme ou de femme. Un algorithme d’apprentissage
automatique ne pourra pas prendre en compte uniquement une chaîne d’hommes ou de femmes
devra créer une nouvelle colonne dans The King, une valeur zéro ou une pour savoir si
quelqu’un est un homme ou non afin d’encoder cette information dans une manière qu’un
algorithme d’apprentissage automatique peut le comprendre. Il en va de même pour la colonne
d’embarquement.
• sexe=pd.get_dummies(train[‘Sex’],drop_first=Vrai)
• embarquer=pd.get_dummies(train[‘Embarked’])
• train=pd.concat([train,sex,embark],axe=1)
• goutte([‘Sex’,’Embarked’,’Name’,’Ticket’],axe=1,inplace=Vrai)
4) Fractionner l’ensemble de données
Chaque ensemble de données pour le modèle d’apprentissage automatique doit être divisé en
deux ensembles distincts : l’ensemble d’apprentissage et l’ensemble de test.
• depuis sklearn.model_selection importer train_test_split
• X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=1
0
1)
23
5)Mise à l’échelle des fonctionnalités
Mise à l’échelle des fonctionnalités marque la fin du prétraitement des données dans Machine
Learning. C’est une méthode pour normaliser les variables indépendantes d’un ensemble de
données dans une plage spécifique. Par conséquent, la mise à l’échelle des fonctionnalités limite
la plage de variables afin que vous puissiez les comparer sur des bases communes.
Chapitre 4 : ETUDE DE CAS
Cette étude de cas se penche sur l'utilisation de techniques d'apprentissage automatique pour
la prédiction du cancer du sein. Le code fourni accomplit plusieurs étapes clés, depuis le
chargement des données jusqu'à l'évaluation des modèles prédictifs. Les principales phases de
cette étude incluent le nettoyage des données, la transformation des étiquettes de diagnostic,
l'exploration visuelle des caractéristiques, la création et l'évaluation de modèles prédictifs
variés.
Cette approche holistique de la prédiction du cancer du sein fournit une base solide pour
explorer comment les techniques d'apprentissage automatique peuvent être appliquées de
manière significative dans le domaine médical. La compréhension approfondie de chaque
étape du processus, du nettoyage des données à la validation du modèle, permettra d'extraire
des enseignements essentiels pour la prise de décision clinique.
Le code partage un processus complet pour la prédiction du cancer du sein en utilisant des
techniques d'apprentissage automatique.
Import des bibliothèques : Les bibliothèques nécessaires, telles que NumPy, pandas, et
scikitlearn, sont importées.
Chargement des données : Les données médicales du cancer du sein sont chargées à partir
d'un fichier CSV, puis nettoyées en supprimant des colonnes inutiles.
24
Transformation des étiquettes : Les étiquettes du diagnostic ('M' pour malin, 'B' pour bénin)
sont converties en valeurs numériques (1 pour malin, 0 pour bénin).
Exploration des données à l’aide des visualisation : Des visualisations, telles que des
histogrammes, sont utilisées pour explorer les caractéristiques des données.
Prédiction : Les modèles formés sont utilisés pour prédire les diagnostics sur un ensemble de
test.
25
26
27
28
29
Observations
1- Les valeurs moyennes du rayon cellulaire, du périmètre, de la surface, de la compacité,
de la concavité et des points concaves peuvent être utilisées pour la classification du cancer.
30
Les valeurs les plus élevées de ces paramètres tendent à montrer une corrélation avec les
tumeurs malignes.
2- Les valeurs moyennes de la texture, de la douceur, de la symétrie ou de la dimension
fractale ne montrent pas de préférence particulière pour un diagnostic par rapport à l'autre.
Dans tous les histogrammes, il n'y a pas de grandes valeurs aberrantes visibles qui justifient
un nettoyage plus approfondi.
31
Modèle de régression logistique
La régression logistique est largement utilisée pour la classification des données discrètes.
Dans le cas présent, nous l'utiliserons pour la classification binaire (1,0).
Sur la base des observations des histogrammes, nous pouvons raisonnablement supposer que
le diagnostic du cancer dépend du rayon moyen des cellules, du périmètre moyen, de la
surface moyenne, de la compacité moyenne, de la concavité moyenne et de la concavité
moyenne des points. Nous pouvons alors effectuer une analyse de régression logistique en
utilisant ces caractéristiques comme suit :
32
La précision de la prédiction est raisonnable. Que se passe-t-il si nous n'utilisons qu'un seul
prédicteur ? Utilisez le rayon moyen :
La précision des prédictions est bonne, mais pas extraordinaire. Les scores de validation
croisée sont raisonnables. Peut-on faire mieux avec un autre modèle ?
Ici, le modèle est surajusté, probablement en raison du grand nombre de prédicteurs. Utilisons
un seul prédicteur, le plus évident étant le rayon de la cellule.
33
The accuracy of the prediction is much much better here. But does it depend on the predictor?
Using a single predictor gives a 97% prediction accuracy for this model but the
crossvalidation score is not that great.
Forêt de Randome
L'avantage de Random Forest est qu'il renvoie une matrice d'importance des caractéristiques
qui peut être utilisée pour sélectionner les caractéristiques. Nous allons donc sélectionner les
5 caractéristiques les plus importantes et les utiliser comme prédicteurs.
34
L'utilisation des 5 premières caractéristiques ne modifie que légèrement la précision de la
prédiction, mais je pense que nous obtenons un meilleur résultat si nous utilisons tous les
prédicteurs.
35
Cette méthode donne également une meilleure précision de prédiction, mais la validation
croisée n'est pas très bonne.
Conclusion
Le meilleur modèle à utiliser pour diagnostiquer le cancer du sein, tel qu'il ressort de cette
analyse, est le modèle Random Forest avec les 5 prédicteurs les plus importants : "concave
points_mean", "area_mean", "radius_mean", "perimeter_mean", "concavity_mean". Il donne
une précision de prédiction de ~95% et un score de validation croisée de ~93% pour
l'ensemble des données de test.
36
- Validation clinique nécessaire : Bien que les modèles d'IA puissent montrer des
performances prometteuses dans des études expérimentales, ils doivent être
rigoureusement validés cliniquement pour être utilisés de manière fiable dans des
environnements médicaux réels.
- Besoin en réglementation et en normes: Il existe un besoin croissant de réglementation
et de normes claires pour encadrer l'utilisation de l'IA dans le domaine médical,
garantissant la sécurité, l'éthique et l'efficacité des applications d'IA pour la prédiction
du cancer du sein.
2.Questions éthiques et confidentialité des données médicales l'IA dans le domaine
médical soulève des questions de réglementation et de normes claires, notamment en ce
qui concerne l'agrégation et l'analyse des données, la transparence des algorithmes, la
communication aux patients et la surveillance pour assurer des normes éthiques. Parmi les
questions éthiques soulevées, on peut citer :
- Exactitude de la détection: L'IA doit être en mesure de détecter correctement le cancer
du sein sans surdiagnostic ou sous-diagnostic, garantissant ainsi la qualité de la prise
de décision médicale.
- Confidentialité des données : L'utilisation de données médicales sensibles pour
entraîner les modèles d'IA soulève des préoccupations concernant la confidentialité
des patients, la sécurité des données et la manière dont ces informations sont utilisées
et partagées
- Transparence des algorithmes: Les algorithmes d'IA doivent être transparents et faciles
à comprendre pour les professionnels de la santé et les patients, permettant de mieux
évaluer la fiabilité et l'efficacité de ces modèles.
- Communication aux patients : Les patients doivent être informés sur les diagnostics
générés par l'IA et les décisions prises sur la basis de ces diagnostics, afin de mieux
comprendre leur traitement et de mieux partager les décisions médicales.
37
- Prédiction des résultats: Des outils d'IA plus avancés pourraient être en mesure de
prédire de manière plus précise l'issue du cancer du sein, ce qui pourrait contribuer à
éviter des chimiothérapies inutiles et à orienter les décisions thérapeutiques.
- Identification des sites d'origine des cancers : Des modèles d'IA pourraient aider à
déterminer plus précisément le site d'origine des cancers, ce qui pourrait permettre une
prise en charge plus ciblée et des prévisions plus précises sur l'évolution de la maladie.
4.Nouvelles technologies ou approches prometteuses
Diverses technologies et approches prometteuses utilisant l'intelligence artificielle pour la
prédiction du cancer du sein étaient en développement. Certaines de ces avancées
technologies incluent :
1.Imagerie Médicale et Analyse d'Images :
-Mammographie assistée par IA :Des systèmes d'IA sont développés pour aider les
radiologues à détecter des anomalies sur les mammographies, améliorant ainsi la précision du
dépistage.
-IRM mammaire assistée par IA :L'IA peut être utilisée pour analyser les images
par résonance magnétique (IRM) du sein et aider à identifier des caractéristiques
subtiles indiquant la présence de tumeurs. 2.Biopsie Virtuelle et Diagnostic :
- Biopsie virtuelle :Certains chercheurs explorent des techniques où des modèles d'IA
peuvent aider à évaluer la probabilité de malignité d'une lésion sans nécessiter une biopsie
physique immédiate.
- Diagnostic précoce par IA :Des algorithmes d'IA sont développés pour analyser des
données provenant de biopsies et d'autres tests, fournissant des diagnostics plus précoces et
plus précis.
3.Intégration de Données Multiples :
- Données génomiques : L'intégration de données génomiques dans les modèles d'IA
permet une personnalisation plus poussée des prédictions en fonction des caractéristiques
génétiques de chaque patient.
-Données cliniques et d'imagerie :La combinaison de données cliniques, d'imagerie
médicale et de données génomiques permet une approche plus holistique dans la prédiction et
la gestion du cancer du sein.
4.Suivi et Gestion Personnalisés :
- Prédiction de la réponse au traitement :Des modèles d'IA sont développés pour prédire
la réponse individuelle des patients aux différents traitements, permettant une approche plus
personnalisée.
- Suivi post-traitement :L'IA peut être utilisée pour surveiller de manière proactive les
patients après le traitement, identifiant les signes de rechute ou d'effets secondaires.
38
CONCLUSION GENERALE
L'utilisation de modèles de machine learning, tels que la régression logistique et les forêts
aléatoires, a permis de tirer des enseignements importants à partir de données médicales
complexes, dont des images de mammographie et des données génétiques. Cette approche
holistique, englobant des aspects variés de l'information médicale, permet une évaluation
approfondie des risques tout en mettant en lumière des patterns subtils qui peuvent échapper à
une analyse humaine traditionnelle.
Toutefois, il est crucial de souligner que ces avancées technologiques ne remplacent pas
l'expertise médicale humaine. Au contraire, elles devraient être considérées comme des outils
complémentaires, nécessitant une collaboration étroite entre les professionnels de la santé et
les experts en apprentissage automatique. Cette symbiose garantira une utilisation éthique,
précise et responsable de ces modèles dans le cadre clinique.
En définitive, ce projet marque une étape significative vers une médecine plus prédictive et
personnalisée, où l'intelligence artificielle agit en tandem avec les compétences médicales
pour lutter plus efficacement contre le cancer du sein. Les bénéfices potentiels pour les
patients et la société dans son ensemble sont incommensurables, plaçant ainsi la recherche
dans le domaine de l'IA au cœur des efforts pour améliorer la santé et le bien-être des
individus.
39
CODE
df.diagnosis.unique()
df['diagnosis'] = df['diagnosis'].map({'M':1,'B':0})
df.head()
40
df.describe()
df.describe()
plt.hist(df['diagnosis'])
plt.title('Diagnosis (M=1 , B=0)')
plt.show()
features_mean=list(df.columns[1:11])
# split dataframe into two based on diagnosis
dfM=df[df['diagnosis'] ==1]
dfB=df[df['diagnosis'] ==0]
#Stack the data
plt.rcParams.update({'font.size': 8})
fig, axes = plt.subplots(nrows=5, ncols=2, figsize=(8,10))
axes = axes.ravel()
for idx,ax in enumerate(axes):
ax.figure
binwidth= (max(df[features_mean[idx]]) -
min(df[features_mean[idx]]))/50
ax.hist([dfM[features_mean[idx]],dfB[features_mean[idx]]],
bins=np.arange(min(df[features_mean[idx]]), max(df[features_mean[idx]]) +
binwidth, binwidth) , alpha=0.5,stacked=True,
label=['M','B'],color=['r','g'])
ax.legend(loc='upper right')
ax.set_title(features_mean[idx])
plt.tight_layout()
plt.show()
traindf, testdf = train_test_split(df, test_size = 0.3)
#Generic function for making a classification model and accessing the
performance.
# From AnalyticsVidhya tutorial
def classification_model(model, data, predictors, outcome):
#Fit the model:
model.fit(data[predictors],data[outcome])
#Print accuracy
accuracy = metrics.accuracy_score(predictions,data[outcome])
print("Accuracy : %s" % "{0:.3%}".format(accuracy))
41
train_target = data[outcome].iloc[train]
#Fit the model again so that it can be refered outside the function:
model.fit(data[predictors],data[outcome])
print(traindf.columns)
predictor_var =
['radius_mean','perimeter_mean','area_mean','compactness_mean','concave
points_mean']
outcome_var='diagnosis'
model=LogisticRegression()
classification_model(model,traindf,predictor_var,outcome_var)
predictor_var = ['radius_mean']
model=LogisticRegression()
classification_model(model,traindf,predictor_var,outcome_var)
predictor_var =
['radius_mean','perimeter_mean','area_mean','compactness_mean','concave
points_mean']
model = DecisionTreeClassifier()
classification_model(model,traindf,predictor_var,outcome_var)
predictor_var = ['radius_mean']
model = DecisionTreeClassifier()
classification_model(model,traindf,predictor_var,outcome_var)
42
featimp = pd.Series(model.feature_importances_,
index=predictor_var).sort_values(ascending=False)
print(featimp
# Using top 5 features
predictor_var = ['concave
points_mean','area_mean','radius_mean','perimeter_mean','concavity_mean',]
model = RandomForestClassifier(n_estimators=100, min_samples_split=25,
max_depth=7, max_features=2)
classification_model(model,traindf,predictor_var,outcome_var)
predictor_var = ['radius_mean']
model = RandomForestClassifier(n_estimators=100)
classification_model(model, traindf,predictor_var,outcome_var)
43