Académique Documents
Professionnel Documents
Culture Documents
A mes Mes chers parents, pour tous leurs sacrifices, leur amour,
leur tendresse, leur soutien et leurs prières tout au long de mes
études,
A mes frères et ma sœur
A mes amis
NECIB Fahima
II
Remerciements
MERCI A TOUS
I
Résumé
Abstract
In this thesis we have presented the Covid epidemic: its definition, its
symptoms, and how it is transmitted….etc. We used machine learning
algorithms to make a covid-19 prediction application; We selected 4
classification algorithms: Decision tree; Random Forest; K-NN and Logistic
Regression and we applied these algorithms on a covid-19 data-set extracted
from the Kaggle website. Each prediction model has an accuracy indicating
the percentage of correct predictions.
Keywords: Covid-19, artificial intelligence, Machine Learning, Machine
Learning algorithms, prediction.
ملخص
اخااتا ن. الاا.… تعريفااو ورارا ااو وة اا ينتقاا:91- تطرقناا فااه هاا الماا ةرإ ىلاا وباا ك ةيف اا
: خيارز اا تياان4 ؛اختر اا91- الااتع ا ايلااه ء تاا ك تطب اام تنبااي بماار ةيف اا خيارز اا
واال حاا ار ال يتيااته وقمناا بتطب اام هاا الايارز اا ا ااK-ppv شااةرإ القاارار ؛ الغ باا العتاايا ؛
لكااا مااايؤ تنباااي إقااا تتااا ر ىلااا النياااب.Kaggle المياااتارت ااا يقاااcovid-19 ق اااا إ ب ااا
. المئيي ل تنبيا اليح ح
. التنبي، التع ا ايله خيارز، التع ا ايله، ال ة ك االصطن اه،91- ةيف:الكلمات الرئيسية
III
Sommaire :
Remerciement……………………………………………………….……..…………..I
Dédicace…………...………………….……………………………………..………..II
Résumé…………..…..…………..………………………….…………………..……III
Sommaire
Liste Des Tableaux
Liste Des Figures
Introduction Générale
Chapitre 01 : Covid 19
1- INTRODUCTION………………………………………………………….…5
2- Définition de la Covid-1…9 ……………………..……………………………5
2-1 coronavirus …………...…………..………………………………………5
2-2 Covid-19 ………………...……..…………………………………………6
2-3 Transmission………………..……..….…………………………………...8
2-4 les symptômes du Covid..-19 …………………………………..…...8
3- Les varient de covid-19 ………….……………………………………….…..9
4- les vaccin…………………………...……………………...………………...13
5- covid-19 en Algérie ..…………… ………………………..………………...13
6- Conclusion …………………………………………………………………..14
Chapitre 01 : L’apprentissage automatique
1-Introduction..………………………………………………………………….16
2 - Apprentissage automatique ..……… ………….………………………….....16
5- Application……………………………………………………………………45
6-Conclusion …………………………………………………………………….49
Conclusion géénarale
Biblioghraphie
Liste Des Tableaux
Chapitre 1 : Covide-19
P 12
Tableau 1-2 les variants à suivre
2
Dans ce travail nous avons utilisé et appliqué des différents algorithmes de
classification d'apprentissage supervise (K nearest neighbors, Decision Trees,
Random Forest, logistique regression) aux data-set
« covid_early_stage_symptoms »
3
Chapitre1 Covid-19
1 - INTRODUCTION
En décembre 2019, une maladie mystérieuse, a fait son apparition en Chine, dans la
ville de Wuhan. Ses symptômes : de fortes fièvres et des difficultés pour respirer. Le
Covid-19 est donné par un coronavirus, un virus très contagieux. En quelques mois, il a
contaminé des millions de personnes à travers le monde, et causé la mort de plusieurs
milliers d’entre elle.
Quand arrive une maladie très contagieuse, comme celle causée en ce moment par le
2-Définition de la Covid-19 :
2-1 coronavirus :
Les coronavirus font partie d’une famille de virus variés susceptibles d’être à l’origine
d’un large éventail de maladies. Leur nom signifie « virus en couronne » et vient du fait
qu'ils possèdent tous un aspect en forme de couronne lorsqu'ils sont observés au
microscope.
Ces virus à ARN peuvent infecter aussi bien l’homme que l’animal et possèdent un taux de
mutation élevé à l'instar de celui de la grippe ou du virus VIH. Les coronavirus sont aussi
zoonotiques, c’est-à-dire qu’ils se transmettent de l’animal à l’homme. Des enquêtes
détaillées ont révélé que le SARS-CoV se transmettait de la civette, un petit mammifère, à
l’homme et le MERS-CoV du dromadaire à l’homme. On connaît plusieurs coronavirus qui
circulent chez certains animaux, mais qui n’ont pas encore infecté l’homme.
Chez l’homme, les manifestations de l’infection vont du simple rhume à une infection
pulmonaire sévère, responsable d’une détresse respiratoire aiguë. Les coronavirus ont été
identifiés pour la première fois chez l'humain dans les années 1960.
Depuis trois coronavirus ont entraîné des épidémies graves :
le SRAS-CoV (pour syndrome respiratoire aigu sévère), responsable d’une épidémie
mondiale entre novembre 2002 et juillet 2003,
le MERS-CoV (pour Middle East respiratory syndrome), découvert pour la première
fois en 2012 au Moyen-Orient.
le SRAS-CoV-2, à l'origine responsable de la première pandémie liée à un coronavirus en
2020. [1]
2-2 Covid-19 :
Le Sars-CoV-2 est le nom officiel du nouveau coronavirus identifié le 9 janvier 2020
dans la ville de Wuhan, chef-lieu de la province du Hubei en Chine. D'abord appelé
5
Chapitre1 Covid-19
6
Chapitre1 Covid-19
Le virus entre dans la cellule et libère son ARN génomique de polarité positive. Celui-ci est
répliqué en deux brins : un brin de polarité positive qui sera encapsidé dans les virions et un
brin de polarité négative qui servira de matrice à la synthèse des protéines virales. Le virus
s'assemble dans le réticulum endoplasmique rugueux et est transporté vers la membrane
plasmique par une vésicule golgienne. Il bourgeonne et infecte une nouvelle cellule.
7
Chapitre1 Covid-19
2-3 Transmission
8
Chapitre1 Covid-19
forme asymptomatique du virus : ils sont porteurs du virus, mais ne présentent pas de
symptômes. [1]
9
Chapitre1 Covid-19
l’Organisation mondiale de la Santé a ainsi choisi de nommer les variants avec une lettre
issue de l’alphabet grec, suivant leur date d’apparition :
Deux types de variants vont ainsi être concernés par ces nouvelles appellations :
les variants dits « préoccupants », c’est-à-dire les variants qui ont une transmissibilité
augmentée ou qui entrainent une sévérité de la pathologie plus élevée, des changements
dans les symptômes cliniques, ou encore qui sont capables d’influer sur les mesures prises
pour les contrôler et enrayer leur propagation. Les variants précédemment cités font partie
de cette catégorie . [7]
10
Chapitre1 Covid-19
Variant préoccupant : 18
Royaume-Uni, décembre 2020
Alpha B.1.1.7 GRY 20I (V1)
septembre 2020 Variant anciennement
préoccupant : 9 mars 2022
Variant préoccupant : 18
GH/501Y.V Afrique du Sud, mai décembre 2020
Bêta B.1.351 20H (V2)
2 2020 Variant anciennement
préoccupant : 9 mars 2022
Variant préoccupant : 11
GR/501Y.V Brésil, novembre janvier 2021
Gamma P.1 20J (V3)
3 2020 Variant anciennement
préoccupant : 9 mars 2022
11
Chapitre1 Covid-19
Les variants dits « à suivre », qui présentent des mutations notables et qui sont
impliqués dans des cas multiples, des clusters, ou qui ont été détectés au sein de
plusieurs pays.
12
Chapitre1 Covid-19
4- Les vaccins :
Un accès équitable à des vaccins sûrs et efficaces est essentiel pour mettre fin à la
pandémie de COVID-19 ; il est donc extrêmement encourageant de voir autant de vaccins
en phase d'essai et de mise au point. L’OMS travaille sans relâche avec ses partenaires pour
développer, fabriquer et déployer des vaccins sûrs et efficaces.
Le fait d’être vacciné ne signifie pas qu’il faut renoncer à toute prudence, prendre des
risques et en faire prendre aux autres, notamment parce que les recherches sont toujours en
cours pour déterminer jusqu'à quel point les vaccins protègent non seulement contre la
maladie, mais aussi contre l’infection et la transmission
Plusieurs vaccins contre la COVID-19 ont été homologués par l’OMS (au titre du
protocole d’autorisation d’utilisation en situation d’urgence – Protocole EUL). Le premier
programme de vaccination de masse a commencé début décembre 2020
5- Covid-19 en Algérie :
En Algérie, covid-19 se propage à partir du 25 février 2020 lorsqu'un
ressortissant italien est testé positif au SARS-CoV-2.
À partir du 1er mars 2020, un foyer de contagion se forme dans la wilaya de Blida, seize
membres d'une même famille ont été contaminés par le coronavirus lors d'une fête de
mariage à la suite de contacts avec des ressortissants algériens en France. Progressivement,
l'épidémie se propage pour toucher toutes les wilayas algériennes. D'autres cas de Covid-
19 sont ensuite détectés.
Le graphe suivant représente:
13
Chapitre1 Covid-19
6-Conclusion :
Dans ce chapitre nous avons présenté la nouvelle pandémie du Corona Virus dites
covid-19, les symptômes, comment se transmet , les variants de covid -19 ainsi les
vaccins contre cette maladie.
Le Covid-19 est dangereux pour les raisons suivantes :
il est très contagieux : chaque personne infectée va contaminer au moins 3 personnes
en l'absence de mesures de protection ;
14
Chapitre1 Covid-19
une personne contaminée mais qui ne ressent pas encore de symptômes peut
contaminer d’autres personnes.
Dans le chapitre suivant, nous allons présenter c quoi l’apprentissage automatique
« Machine Learning » : la définition ; les types et les algorithmes particulièrement les
algorithmes de classifications utilisés dans notre application du prédiction de covid-19 .
15
Chapitre 2 L’apprentissage automatique
1- Introduction :
L'apprentissage automatique (machine learning en anglais), qui est l'un des sous-domaines de l'intelligence
artificielle, qui est axé sur la création de systèmes qui apprennent ou améliorent les performances en fonction
des données qu’ils traitent. L’intelligence artificielle est un terme large qui désigne des systèmes ou des
machines imitant l’intelligence humaine.
Pour permettre à la machine d’apprendre, nous utilisons :
1- Des données qui sont des exemples, relativement abondantes et compilées dans un tableau appelé Dataset à
partir desquels la machine va apprendre.
2- Des méthodes d’apprentissage fortement inspirées de la façon dont l’être humain apprend les choses. Les
méthodes d’apprentissage sont fonction de la nature du problème étudié
3- Un algorithme d’apprentissage qui est la procédure que l’on fait tourner sur les données pour obtenir un
modèle, en l’occurrence prédictif. Il existe plusieurs familles d’algorithmes à utiliser selon la nature du
problème étudié et la solution la mieux adaptée.
Dans le présent chapitre, nous commencerons par introduire les concepts fondamentaux du Machine Learning :
définition ; types et les algorithmes les plus utilisés.
2 - Apprentissage automatique :
Comme pour la plupart des termes utilisés dans le domaine de l’intelligence artificielle, il n’existe pas de
définition unique du "Machine Learning" (apprentissage automatique) :
En termes simples, le Machine Learning consiste à utiliser des données pour répondre à des questions.
Plus formellement, il s’agit de l’utilisation d’algorithmes qui apprennent des modèles à partir de
données et sont capables d’exécuter des tâches sans être explicitement programmés pour le faire.
En outre, une caractéristique déterminante des systèmes d’apprentissage automatique sous-tend qu’ils
améliorent leurs performances grâce à l’expérience et aux données. En d’autres termes : ils apprennent.
[10]
Le machine Learning (ML) est un sous-ensemble de l’intelligence artificielle (IA) qui est axé sur la création de
systèmes qui apprennent ou améliorent les performances en fonction des données qu’ils traitent . [11]
16
Chapitre 2 L’apprentissage automatique
L’apprentissage automatique c’est donner à la machine la capacité d’apprendre sans lui donner le calcul,
c-à-d sans la programmer de façon explicite. C’est la définition de l’apprentissage automatique selon
son inventeur Arthur Samuel et qui avait développé dès 1959 un programme pouvant apprendre tout
seul comment jouer au jeu de Dames.
Une définition un peu plus moderne du machine Learning est à mettre au crédit de Tom Mitchell 7 qui
en 1998 annonçait qu’une machine apprend quand sa performance à faire une certaine tâche s’améliore
avec de nouvelles expériences.
Le Machine Learning peut être défini comme l’application des méthodes statistiques sur les algorithmes
pour les rendre plus intelligents. [10]
3- Domaines Applications :
L'apprentissage automatique est utilisé dans un large spectre d'applications pour doter des ordinateurs ou des
machines de capacité d'analyser des données d'entrée comme : perception de leur environnement
(vision, Reconnaissance de formes tels des visages, schémas, segmentation d'image, langages naturels,
caractères dactylographiés ou manuscrits ; moteurs de recherche, analyse et indexation d'images et de vidéo, en
particulier pour la recherche d'image par le contenu ; aide aux diagnostics, médical
notamment, bioinformatique, chimioinformatique ; interfaces cerveau-machine ; détection de fraudes à la carte
de crédit, cybersécurité, analyse financière, dont analyse du marché boursier ; classification des séquences
d'ADN ; jeu ; génie logiciel ; adaptation de sites Web ; robotique (locomotion de robots, etc.) ; analyse
prédictive dans de nombreux domaines (financière, médicale, juridique, judiciaire).
Exemples :
un système d'apprentissage automatique peut permettre à un robot ayant la capacité de bouger ses membres,
mais ne sachant initialement rien de la coordination des mouvements permettant la marche, d'apprendre à
marcher. Le robot commencera par effectuer des mouvements aléatoires, puis, en sélectionnant et
privilégiant les mouvements lui permettant d'av
ancer, mettra peu à peu en place une marche de plus en plus efficace ;
la reconnaissance de caractères manuscrits est une tâche complexe car deux caractères similaires ne sont
jamais exactement identiques. Il existe des systèmes d'apprentissage automatique qui apprennent à
reconnaître des caractères en observant des « exemples », c'est-à-dire des caractères connus. Un des
premiers système de ce type est celui de reconnaissance des codes postaux US manuscrits issu des travaux
de recherche de ‘Yann Le Cun’, un des pionniers du domaine , et ceux utilisés pour la reconnaissance
d'écriture ou OCR. [10]
17
Chapitre 2 L’apprentissage automatique
18
Chapitre 2 L’apprentissage automatique
19
Chapitre 2 L’apprentissage automatique
Il existe deux types de modèles d’apprentissages supervisés : les modèles de régressions et les modèles de
classifications.
Régression
Un modèle de régression permet de prédire une valeur quantitative. Cela signifie que l’ensemble des valeurs de
sortie Y qu’on essai d’estimer avec la fonction f est un ensemble de réels : Y⊂R.
Supposons qu’on veut créer un modèle f:X→Y qui prédit le prix d’une maison en sachant la surface en m2
Dans Cet exemple, X représente l’ensemble des surfaces des maisons et Y représente l’ensemble des prix.
Si on veut estimer le prix d’une maison de surface s, on calcule f(s).
Classification
Un modèle de classification permet de prédire une valeur qualitative. Cela signifie que l’ensemble des valeurs
de sortie Y qu’on essai d’estimer avec la fonction f est un ensemble fini : Y={0,1,…,n}.
Exemple : On veut créer un modèle:! qui prédit si un patient P est infecté par le covid 19 ou non.
Dans Cet exemple, X représente l'ensemble des patients _a analyser et Y=0,1 ; 1 si le patient est infecté par
covid 19 et 0 sinon. Si on veut analyser un patient P, on calcule f(P) [16]
A la déférence de l'apprentissage supervisé, le contexte non supervisé est celui ou l'algorithme doit opérer a
partir d'exemples non étiquetés. Il doit extraire automatiquement
les catégories a associer aux données qu'on lui soumet, les plus fréquents problèmes connu dans ce type est :
1. Le clustering qui consiste a regroupé un ensemble d'éléments hétérogènes sous forme de sous groupes
homogène.
2. La réduction de dimension qui consiste a prendre des données dans un espace de grande dimension, et _a les
remplacer par des données dans un espace de plus petite dimension sans perdre la variance. [14]
20
Chapitre 2 L’apprentissage automatique
Le troisième type d’apprentissage machine est l’apprentissage machine par renforcement (aussi
appelé apprentissage auto-supervisé). Dans ce type d’apprentissage automatique, la machine apprend
par essais et erreurs. Contrairement aux deux autres types d’apprentissage machine, les systèmes
d’apprentissage auto-supervisés peuvent s’améliorer sans aucune supervision humaine.
L’apprentissage machine auto-supervisé est utilisé dans de nombreux domaines pour améliorer les systèmes.
L’un de ces domaines est la sécurité informatique, aussi appelée cyber-sécurité. Il est très important de
conserver en sécurité les données confidentielles, notamment les données utilisées par les banques et le
gouvernement. Pour tester un système de sécurité de données, l’apprentissage machine auto -supervisé peut
faire semblant d’être un pirate informatique et montrer ainsi aux humains les failles du système avant qu’un
vrai pirate ne les trouve!
Exemple bien connu est lorsqu’un humain se fait battre par un ordinateur à un jeu. Les ordinateurs peuvent
utiliser l’apprentissage machine auto-supervisé pour trouver le moyen le plus rapide de gagner à un jeu.
Deux ordinateurs peuvent même jouer l’un contre l’autre à l’aide de l’apprentissage machine auto-supervisé.
Par exemple, dans la vidéo suivante, tu verras comment des machines ont découvert une faille dans un jeu
vidéo. [17]
21
Chapitre 2 L’apprentissage automatique
22
Chapitre 2 L’apprentissage automatique
Concentrons-nous sur les algorithmes utilisés dans notre travail, qui sont très largement utilisés.
5-1 La régression logistique :
Définition
La régression logistique est un modèle statistique permettant d’étudier les relations entre un ensemble
de variables qualitatives Xi et une variable qualitative Y. Il s’agit d’un modèle linéaire généralisé utilisant
une fonction logistique comme fonction de lien.
Un modèle de régression logistique permet aussi de prédire la probabilité qu’un événement arrive
(valeur de 1) ou non (valeur de 0) à partir de l’optimisation des coefficients de régression. Ce résultat
23
Chapitre 2 L’apprentissage automatique
varie toujours entre 0 et 1. Lorsque la valeur prédite est supérieure à un seuil, l’événement est
susceptible de se produire, alors que lorsque cette valeur est inférieure au même seuil, il ne l’est pas.
Mathématiquement, comment ça se traduit/ça s’écrit ?
Considérons une entrée X= x1 x2 x3 … xn , la régression logistique a pour objectif de trouver une fonction h
telle que nous puissions calculer :
y= {1 si hX≥ seuil , 0 si hX< seuil}
On comprend donc qu’on attend de notre fonction h qu’elle soit une probabilité comprise entre 0 et 1,
paramétrée par =1 2 3 n à optimiser, et que le seuil que nous définissons correspond à notre critère de
classification, généralement il est pris comme valant 0.5.
La fonction qui remplit le mieux ces conditions est la fonction sigmoïde, définie sur R à valeurs dans [0,1].
Elle s’écrit de la manière suivante :
Graphiquement, celle-ci correspond à une courbe en forme de S qui a pour limites 0 et 1 lorsque x tend
respectivement vers -∞ et +∞ passant par y = 0.5 en x = 0.
24
Chapitre 2 L’apprentissage automatique
Tout le problème de classification par régression logistique apparaît alors comme un simple problème
d’optimisation où, à partir de données.
La fonction h qui définit la régression logistique s’écrit alors :
Tout le problème de classification par régression logistique apparaît alors comme un simple problème
d’optimisation où, à partir de données, nous essayons d’obtenir le meilleur jeu de paramètre Θ permettant à
notre courbe sigmoïde de coller au mieux aux données. C’est dans cette étape qu’intervient notre apprentissage
automatique. [20]
▷ On calcule les distances entre la donnée u et chaque donnée appartenant à E à l’aide de la fonction d
▷ On attribue à u la classe qui est la plus fréquente parmi les k données les plus proches.
25
Chapitre 2 L’apprentissage automatique
Dans K-NN, K est le nombre de plus proches voisins. Le nombre de voisins est le principal facteur
décisif. K est généralement un nombre impair si le nombre de classes est de 2.
Pour K=1
L'algorithme est appelé algorithme du « Plus Proche Voisin ». C'est le cas le plus simple. D'abord, vous trouvez
le point le plus proche de P1, puis l'étiquette du point le plus proche attribué à P1.
26
Chapitre 2 L’apprentissage automatique
Si k=3 les données les plus proche du nouvelle donnée sont qui ont à l'intérieure
de premier cercle, et la classe la plus prédominante c'est triangle (Classe B) car 2 triangles et seulement 1 étoile
donc la donnée non classée sera classer un triangle (Classe B).
Si k=7 les données les plus proches du nouvelle donnée sont qui ont à l'intérieure de deuxième cercle,
et la classe la plus prédominante c'est l'étoile (Classe A) car on a 4 étoiles et 3 triangles donc la donnée
non classée sera classer un étoile (ClasseA).
27
Chapitre 2 L’apprentissage automatique
Inconvénients :
L'algorithme devient beaucoup plus lent à mesure que le nombre d'exemples d'apprentissage augmente.
Le choix de la méthode de calcul de la distance ainsi que le nombre de voisins K peut ne pas être
évident
L'étape de prédiction peut-être lente. La complexité est de l'ordre de O(n) avec (k << n). [22]
a) Definition :
En théorie des graphes, un arbre est un graphe non orienté, acyclique et connexe. L’ensemble des nœuds se
divise en trois catégories :
Nœud racine (l’accès à l’arbre se fait par ce nœud),
Nœuds internes : les nœuds qui ont des descendants (ou enfants), qui sont à leur tour des nœuds,
Nœuds terminaux (ou feuilles) : nœuds qui n’ont pas de descendant . [23]
Un arbre de décision est une structure graphique sous forme d’un arbre (feuilles et branches) qui illustre un
ensemble de choix pour aider à la prise de décision et classer un vecteur d’entrée X.
Cet algorithme est très utilisé dans les fouilles de données et la sécurité.
Chaque nœud de l’arborescence contient une comparaison de fonction simple par rapport à un champ
(exemple: x = femelle?).
Le résultat de chaque comparaison est vrai ou faux, ce qui détermine si nous devons continuer vers la feuille
gauche ou vers la droite du nœud.
28
Chapitre 2 L’apprentissage automatique
b) Principe :
1. Calculer l’entropie de tous les attributs en utilisant l’ensemble d’apprentissage S
2. Partitionner l’ensemble S en utilisant l’attribut pour lequel l’entropie est minimum (gain d’information
maximum)
3. Construire le nœud de l’arbre avec cet attribut
4. Recommencer récursivement sur chaque sous arbre avec chaque sous-ensemble.
Mesure d’entropie :
Mesure de la quantité´e d’incertitude dans un ensemble (dispersion)
Gain d’information :
Mesure de la différence d’entropie entre avant et après le partitionnement selon un attribut
29
Chapitre 2 L’apprentissage automatique
S = ∪tSt
p(St) = ]St/]S
Exemple :
Avantages:
Simple `a comprendre et à interpréter
Support des variables catégoriques
Peu de préparation des données : pas de normalisation, etc.
Application à la régression
Inconvénients :
Prône au sur-ajustement
Instable (non robuste)
30
Chapitre 2 L’apprentissage automatique
Forte variance
Certains problèmes sont difficiles `a apprendre sous forme d’arbre. [28]
Il est rare que les modèles d’apprentissage automatique utilisent un seul arbre de décision. Mais ils agrègent
plusieurs pour obtenir ce que l’on appelle une forêt d’arbres décisionnels ou forêts aléatoires.
5-4Random Forest (forets aléatoires) :
Le random forest est composé de plusieurs arbres de décision, entrainés de manière indépendante sur des sous-
ensembles du data set d'apprentissage (méthode de bagging). Chacun produit une estimation, et c'est la combinaison des
résultats qui va donner la prédiction finale qui se traduit par une variance réduite. En somme, il s'agit de s'inspirer de
différents avis, traitant un même problème, pour mieux l'appréhender. Chaque modèle est distribué de façon aléatoire en
sous-ensembles d'arbres décisionnels.
31
Chapitre 2 L’apprentissage automatique
Exemple : supposons qu'il existe un ensemble de données contenant plusieurs images de fruits. Ainsi,
cet ensemble de données est donné au classificateur de forêt aléatoire. L'ensemble de données est divisé en
sous-ensembles et attribué à chaque arbre de décision. Pendant la phase de formation, chaque arbre de
décision produit un résultat de prédiction, et lorsqu'un nouveau point de données se produit, alors sur la base
de la majorité des résultats, le classificateur Random Forest prédit la décision finale. Considérez l'image ci-
dessous :
32
Chapitre 2 L’apprentissage automatique
6- Conclusion :
Les données dont vous disposez sont-elles annotées ou non ? Si c'est le cas, vous avez affaire à un
problème d'apprentissage supervisé. Sinon, vous serez obligé d'utiliser un algorithme d'apprentissage
non supervisé.
Quel est le type de résultat que vous souhaitez prédire ? S'il s'agit d'un nombre, c'est un problème
de régression. S'il s'agit plutôt d'une valeur discrète, d'une catégorie (par exemple le type d'animal
présent sur une photo), alors c'est un problème de classification.
Dans ce chapitre, nous avons présenté l’apprentissage automatique : ses types, ses algorithmes et ses
applications ; parmi les domaines d’application de ML la santé. Précisément dans notre travaille la prédiction
de covid-19 d’après les symptômes chez un patient.
Le chapitre suivant représente la création d’une application pour prédire le covid-19 en utilisent des
algorithmes de Machine Learning .
33
CHAPITRE 3 Implémentation ; résultats et discussion
1. Introduction :
Dans la machine learning (ML) la tâche la plus importante c’est l’évaluation des modèles ;
Dans ce chapitre, nous présentons d'abord une étude technique dans laquelle
nous définissons l'environnement logiciel utilisé pour développer notre application, puis nous
définirons notre dataset avec une description de ses caractéristiques .A la fin, c'est la partie
application où nous fournissons : des codes source et des résultats des algorithmes utilisés ;
ainsi l’interface graphique.
2. L’environnement de développement :
Pour la réalisation de notre model de prédiction de covid-19 on a utilisé le langage de
programmation python
2-1 python :
Python est un langage interprété populaire et puissant. Python est un langage et une plate-
forme complets que vous pouvez utiliser à la fois pour la recherche et le développement .
Pourquoi Python ?
Python fonctionne sur différentes plates-formes (Windows, Mac, Linux, Raspberry Pi, etc.).
Python a une syntaxe simple similaire à la langue anglaise.
Python a une syntaxe qui permet aux développeurs d'écrire des programmes avec moins de
lignes que certains autres langages de programmation.
Python s'exécute sur un système d'interprétation, ce qui signifie que le code peut être
exécuté dès qu'il est écrit. Cela signifie que le prototypage peut être très rapide.
Python peut être traité de manière procédurale, orientée objet ou fonctionnelle.
2-2 Spyder :
Spyder est un environnement de développement intégré (IDE) gratuit et open source écrit
en Python, pour Python, et conçu par et pour des scientifiques, des ingénieurs et des
analystes de données. Il présente une combinaison unique de fonctionnalités avancées
d'édition, d'analyse, de débogage et de profilage d'un outil de développement complet avec
l'exploration de données, l'exécution interactive, l'inspection approfondie et les belles
capacités de visualisation d'un package scientifique . [31]
La console n’est pas conçue pour coder des programmes en Python, elle permet uniquement de
tester quelques commandes simples.
35
CHAPITRE 3 Implémentation ; résultats et discussion
2-3 Tkinter :
Le tkinter package ("Tk interface") est l'interface Python standard de la boîte à outils Tcl/Tk
GUI. Tk et tkinter sont disponibles sur la plupart des plates-formes Unix, y compris mac OS,
ainsi que sur les systèmes Windows. [32]
Le module Tkinter qui est présent de base dans les distributions Python (pas besoin a
priori de faire d'installation de module externe). Tkinter permet de piloter la bibliothèque
graphique Tk (Tool Kit), Tkinter signifiant tk interface. On pourra noter que cette
bibliothèque Tk peut être également pilotée par d'autres langages (Tcl, perl, etc.). [33]
3. Base de données :
3-1 Définition l'ensemble de données utilisée :
« covid_early_stage_symptoms » c'est un ensemble de données sur le Covid-19,
télecharger depuis le cite « kaggle » sur www .kaggle.com ils se composent de plusieurs
variables prédictives médicales et d'une variable cible Outcome.
Travel_history: Le patient a-t-il une Infection pulmonaire? (1) pour oui et (0) pour
non.
Isolation_treatment:
Outcome: variable de classe (0 ou 1) où 0 indique que le patient ne souffre pas
Covid-19 et 1 indique que le patient est infecté par covid-19.
3-2 visualisation et prétraitement de données
La visualisation des données est définis comme l'exploration visuelle et interactive des
données de toutes volumétries. Qui aident a voir des choses n'étaient pas évidentes
36
CHAPITRE 3 Implémentation ; résultats et discussion
37
CHAPITRE 3 Implémentation ; résultats et discussion
Nous utilisons la méthode train test split importée de la bibliothèque sklearn pour effectuer le
fractionnement train/test. _ test size=0.2 a l'intérieur de la fonction indique le pourcentage des
données qui doivent être conservés pour le test. C'est généralement autour 20% pour le test et le
reste 80% pour l'entrainement ce qui signifie 5209 observations partie d'entrainement et 1303
observations partie test.
4. Résultats et discussion :
Pour implémenter notre application nous avants utilisé les algorithmes suivants :
decison tree
Random forest
K-NN
Logistique Regression
38
CHAPITRE 3 Implémentation ; résultats et discussion
L’image suivante représente le code source de l’algorithme decison tree « arbre de décision » :
Après avoir importé et divisé l’ensemble de données « dataset »on utilisant la méthode train -test
Split on applique le classifieur decison tree .
39
CHAPITRE 3 Implémentation ; résultats et discussion
𝑇𝑟𝑢𝑒_𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒 + 𝑇𝑟𝑢𝑒_𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒
𝐀𝐜𝐜𝐮𝐫𝐚𝐜𝐲 =
𝑡𝑜𝑡𝑎𝑙
Accuracy=0.89
4-2 Algorithme Random forest
a)- code source :
pour construire notre forêt aléatoire, on utilise donc la classe RandomForestClassifier .
Nous allons définir ce qu’on appelle les paramètres du modèle. Il s’agit de :
40
CHAPITRE 3 Implémentation ; résultats et discussion
41
CHAPITRE 3 Implémentation ; résultats et discussion
c)- Accuracy:
𝑇𝑟𝑢𝑒_𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒 + 𝑇𝑟𝑢𝑒_𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒
𝐀𝐜𝐜𝐮𝐫𝐚𝐜𝐲 =
𝑡𝑜𝑡𝑎𝑙
Accuracy=0.90
42
CHAPITRE 3 Implémentation ; résultats et discussion
c)- Accuracy :
𝑇𝑟𝑢𝑒_𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒 + 𝑇𝑟𝑢𝑒_𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒
𝐀𝐜𝐜𝐮𝐫𝐚𝐜𝐲 =
𝑡𝑜𝑡𝑎𝑙
Accuracy=0.85
43
CHAPITRE 3 Implémentation ; résultats et discussion
c)- Accuracy
44
CHAPITRE 3 Implémentation ; résultats et discussion
𝑇𝑟𝑢𝑒_𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒 + 𝑇𝑟𝑢𝑒_𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒
𝐀𝐜𝐜𝐮𝐫𝐚𝐜𝐲 =
𝑡𝑜𝑡𝑎𝑙
Accuracy=0.90
Accuracy
0,91
0,9
0,89
0,88
Regression logistique
0,87
0,86 K-NN
0,85 Arbre de decision
0,84 Foret aléatoire
0,83
0,82
Regression K-NN Arbre de Foret
logistique decision aléatoire
5. Application :
45
CHAPITRE 3 Implémentation ; résultats et discussion
46
CHAPITRE 3 Implémentation ; résultats et discussion
47
CHAPITRE 3 Implémentation ; résultats et discussion
6- Conclusion :
Dans ce chapitre, nous avons utilisé les 'algorithmes decison tree ;Random forest ;K-NN et
Logistique Regression pour implimenter l’application de predire le Covid-19 , on utilisant le
langage de programmation Python, et ensuite nous avons discuté les résultats de chaque
algorithme , et finalement nous avons présenté l’interface de notre application « prédiction de
covid-19 » avec des exemples .
48
Conclusion générale
Un dépistage efficace du SRAS-CoV-2 permet un diagnostic rapide et efficace du
COVID-19 et peut atténuer la charge pesant sur les systèmes de santé ; le processus
d'indentification dangereux et fastidieux entraine la visite d'un patient à un centre de
diagnostic mais l'approche d'apprentissage automatique résoudre ce
problème critique ; dans le but de cette étude pour construire un modèle capable de
prédire si les personnes sont infectés par Covid-19 ou non on utilisant des algorithmes
d'apprentissage automatique.
Dans ce contexte, nous avons adopté une approche basée Machine Learning pour
prédire l’infection par Covid-19 .Nous avons sélectionné 4 algorithmes de
classification « Decision tree ; Random forest ;K-NN ; Logestique regression ».
51
Bibliographies :
1)- https://www.lumni.fr/article/coronavirus-definition-transmission-et-symptomes
3)- Événements zoonotiques et zoonotiques inverses du SRAS-CoV-2 et leur impact sur la santé
mondiale PUBLIÉ EN LIGNE :
HTTPS://WWW.TANDFONLINE.COM/DOI/FULL/10.1080/22221751.2020.1827984
4)- https://www.inspq.qc.ca/covid-19/environnement/modes-transmission
5)- https://www.sante.fr/tout-savoir-sur-le-coronavirus-covid-19
6)- https://www.sciencesetavenir.fr/sciences/covid-19-les-variants-entre-roulette-russe-et-selection-
naturelle_151164
12)- https://www.javatpoint.com/applications-of-machine-learning
13)- https://www.saagie.com/fr/blog/machine-learning-definition/
14)- https://penseeartificielle.fr/introduction-au-machine-learning/
15)- S.Russell et P.Norving – Intelligence artificielle ,3eme édition 2003
16)- https://www.semanticscholar.org/paper/Le-transfert-adaptatif-en-apprentissage-par-%3A-
%C3%A0-la-Machado/33c7263afb42b88c0c7868d468466f6c2fafdef9
17)- https://ibm.com/apprentissage automatique/
18)- Types of classification algorithms in machine learning
https://www.faepa.br/kgyo.aspx?cname=machine+learning+classification+in+r&cid=66
19)- https://www.lemagit.fr/conseil/Machine-Learning-les-9-types-dalgorithmes-les-plus-pertinents-en-
entreprise/
20)- : https://datascientest.com/regression-logistique-quest-ce-que-
cest#:~:text=D%C3%A9finition,logistique%20comme%20fonction%20de%20lien
21)- https://www.datacamp.com/tutorial/k-nearest-neighbor-classification-scikit-learn
22)- https://www.isnbreizh.fr/nsi/activity/algoRefKnn/index.html
23)- http://cedric.cnam.fr/vertigo/cours/ml2/coursArbresDecision.html
24)- https://forum.huawei.com/enterprise/fr/algorithmes-d-apprentissage-automatique-arbres-de-
d%C3%A9cision/thread/739799-100379
25)- https://www-lisic.univ-littoral.fr/~verel/TEACHING/13-14/IASF-M1app/cm10.pdf
26)- http://cedric.cnam.fr/vertigo/cours/ml2/coursArbresDecision.html
27)- https://www.lamsade.dauphine.fr/~atif/lib/exe/fetch.php?media=teaching:decisiontrees.pdf
28)- https://iaobs.com/blog/algorithmes-apprentissage-automatique-7/
29)- : https://help.alteryx.com/fr/20194-ml/designer/random-forest-regression-tool-machine-learning
30)- https://www.journaldunet.fr/web-tech/guide-de-l-intelligence-artificielle/1501905-random-forest-ou-foret-
aleatoire/
31)- https://www.spyder-ide.org/spyder
https://docs.python.org/fr/3/library/tkinter.html#module-tkinter
33)- https://python.sdv.univ-paris-diderot.fr/20_tkinter/