Vous êtes sur la page 1sur 46

Ceci est la version HTML du fichier http://bib.univ-oeb.dz:8080/jspui/bitstream/123456789/11205/1/ML%20based%20Approach%20Master%20Final%282%29.pdf.

Lorsque
Google explore le Web, il crée automatiquement une version HTML des documents récupérés.
Astuce : Pour trouver rapidement votre terme de recherche sur cette page, appuyez sur Ctrl+F ou sur ⌘+F (Mac), puis utilisez la barre de recherche.

Page 1

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE

Ministère de l’enseignement supérieur et de la recherche scientifique

Université Larbi Ben M’hidi -Oum El Bouaghi


Faculté des sciences exactes et des sciences de la nature et de la vie
Département de mathématiques et informatique

Mémoire de fin d’étude présenté pour l’obtention du diplôme de

Master en informatique

Option : Architecture Distribuée

Thème

Une approche basée Machine Learning


pour la prédiction du Covid-19 en Algérie

Soutenu le : _____/07/2021

Présenté par :

▪ BOULEKCHER Rachida
▪ KABOUR Oussama

Devant le jury composé de

Pr. Farid MOKHATI Professeur Président Université d’oum el bouaghi


Dr. Mohamed Sedik CHEBOUT MCB Encadrant Université d’oum el bouaghi
Mr. Fayçal ZAIDI MAA Examinateur Université d’oum el bouaghi

Année universitaire : 2020 /2021


Page 2

Remerciements

En préambule à ce mémoire, nous remercions ALLAH qui nous aide et


nous donne la patience et le courage durant ces longues années d’étude.

Nous souhaitons adresser nos remerciements les plus sincères aux


personnes qui nous ont apportés leur aide et qui ont contribué à
l’élaboration de ce mémoire ainsi qu’à la réussite de ces formidables années
universitaires.

Ces remerciements vont tout d’abord au corps professoral et administratif, pour


la richesse et la qualité de leur enseignement et qui déploient de grands efforts
pour assurer à leurs étudiants une formation actualisée.

Nous tenant à remercier sincèrement Monsieur Mohamed sedik


CHEBOUT, qui, en tant qu’encadrant de ce mémoire, ainsi pour
l’inspiration, l’aide et le temps qu’il a bien voulu nous consacrer et sans qui
ce mémoire n’aurait jamais vu le jour.

On n’oublie pas nos parents pour leur contribution, leur soutien et leur
patience.

Enfin, nous adressons nos plus sincères remerciements à tous nos proches et
amis, qui nous ont toujours encouragées au cours de la réalisation de ce
mémoire.

Merci à toutes et à tous.

Page 3

Dédicace
Je dédie ce mémoire à :
Mes chers parents, pour tous leurs sacrifices, leur amour, leur tendresse, leur
soutien et leurs prières tout au long de mes études,

Mes chers amis, pour leur appui et leur encouragement,

Toute ma famille pour leur soutien tout au long de mon parcours


universitaire,

Que ce travail soit l’accomplissement de vos vœux tant allégués, et le fruit de


votre soutien infaillible,

Merci d’être toujours là pour moi.

II

Page 4

Résumé

En Algérie, Le premier cas confirmé de maladie du Corona Virus (Covid-19)


a été signalé le 25 février 2020 lorsqu'un travailleur étranger en provenance
d'Italie a été testé positif au virus du syndrome respiratoire aigu sévère
(SRAS-CoV), le septième coronavirus pathogène pour l'homme, est
responsable de la maladie Covid-19. Depuis, le nombre de cas augmente de
façon exponentielle chaque jour. Selon la dernière Situation Epidémiologique
(SE) publiée par l'Institut National Algérien de Santé Publique (ANIPH), il a
été signalé 131 283 cas confirmés au 08 juin 2021. Dans ce travail, nous
visons à utiliser des modèles du Machine Learning (ML) supervisés pour
tenter de prévoir l'évolution de la maladie en Algérie. La prédiction des séries
temporelles de la Covid-19 est une tâche très importante dans les méthodes
modernes de prédiction dans le domaine de l'analyse de données. À cet effet,
nous avons sélectionné les modèles de prédictions ARIMA et Prophet et nous
comparons également leurs performances. Le dataset utilisé comprend les cas
confirmés et les cas décédés et est collecté à partir la SE quotidienne du 19
avril 2020 au 23 avril 2021. Les résultats obtenus indiquent que le modèle
Prophet montre une bonne performance et surpasse généralement ARIMA.

Mots-clés : Covid-19, Algérie, Machine Learning, Apprentissage supervisé,

prédiction.

III

Page 5

Abstract

The first case of Corona Virus Disease 2019 (COVID-19) in Algeria was
reported on 25 February 2020 when a foreign worker from Italy was tested
positive for the Severe Acute Respiratory Syndrome COrona Virus (SARS-
CoV), the seventh coronavirus pathogenic to humans which is responsible for
the Covid-19 disease. Since then, the number of cases grows exponentially
each day. According to the last epidemiological situation (ES) published by
the Algerian National Institute of Public Health (ANIPH), it was reported 131
283 confirmed cases by June 08, 2021. In this work, we aim to utilize
Supervised Machine Learning (ML) models in attempt to forecast the trend of
the disease in Algeria. Forecasting the Covid-19 times series is an important
task in modern data analysis prediction methods. For this end, we use ARIMA
and Facebook’s Prophet forecasting Models. We compare also, their
performance and accuracy on dataset containing the confirmed and deaths
cases collected from the daily ES from April 19, 2020 to April 23 2021. The
result shows that Prophet generally outperforms ARIMA.

Keywords: Covid-19, Algeria, Supervised Machine Learning, Forecasting.


‫‪IV‬‬

‫‪Page 6‬‬

‫ﻣُ ﺺﺨﻠ‬

‫ضﺮﻤﺑ ﺔﺑﺎﺻإ ﺔﺎﻟﺣ لوأ ﻦﻋ غﻼﺑﻹا ﻢﺗ ‪،‬ﺮﺋاﺰﺠﻟا ﻲﻓ ﺪﻴﻓﻮﻛ) ﺎﻧورﻮﻛ سوﺮﻴﻓ ( ‪19‬مﻮﻳ ‪25‬ﺮﻳاﺮﺒﻓ‬

‫‪ 2020‬ﻮﻫو ‪،‬ﺔﻤﻴﺧﻮﻟا ةدﺎﺤﻟا ﺔﻴﺴﻔﻨﺘﻟا ﺔﻣزﻼﺘﻤﻟا سوﺮﻴﻔﺑ ﺎﻴﺎﻟﻄﻳإ ﻦﻣ ﻲﺒﻨﺟأ ﻞﻣﺎﻋ ﺔﺑﺎﺻإ ﺖﺘﺒﺛ ﺎﻣﺪﻨﻋ‬
‫ﻊﺑﺎﺳ‬

‫ﺪﻴﻓﻮﻛ ضﺮﻣ ﻦﻋ لوﺆﺴﻤﻟاو ‪،‬نﺎﺴﻧﻺﻟ ﺔﻴﺟﺎﺘﻟا ضاﺮﻣﻸﻟ ﺐﺒﺴﻣ ‪ . 19‬تﻻﺎﺤﻟا دﺪﻋ داز ‪،‬ﻦﻴﺤﻟا ﻚﻟذ ﺬﻨﻣ‬

‫ﺎﺣ ﺮﺧﻵ ًﺎﻘﻓو ‪.‬مﻮﻳ ﺪﻌﺑ مﻮﻳ ﺮﻴﺒﻛ ﻞﻜﺸﺑ‬


‫غﻼﺑﻹا ﻢﺗ ﺔﻣﺎﻌﻟا ﺔﺤﺼﻠﻟ يﺮﺋاﺰﺠﻟا ﻲﻨﻃﻮﻟا ﺪﻬﻌﻤﻟا ﺎﻫﺮﺸﻧ ﺔﻴﺋﺎﺑو ﺔﻟ‬

‫ﻦﻋ ‪131.283‬ﻰﺘﺣ ةﺪﻛﺆﻣ ﺔﺎﻟﺣ مﻮﻳ ‪8‬ﻮﻴﻧﻮﻳ ‪. 2021‬‬

‫ﻰﻟإ فﺪﻬﻧ ‪،‬ﻞﻤﻌﻟا اﺬﻫ ﻲﻓرﻮﻄﺘﺑ ﺆﺒﻨﺘﻟا ﺔﻟوﺎﺤﻤﻟ ﻲﻟﻵا ﻢﻠﻌﺘﻟا جذﺎﻤﻧ ماﺪﺨﺘﺳاءﺎﺑﻮﻟا ﺪﻌﻳ ﺚﻴﺣ ﺮﺋاﺰﺠﻟا ﻲﻓ‬

‫تﺎﻴﻄﻌﻤﻟا ﻞﻴﻠﺤﺗ لﺎﺠﻣ ﻲﻓ ﺔﻴﺳﺎﺳأ ﺔﻤﻬﻣ ﺔﺜﻳﺪﺤﻟا قﺮﻄﺎﻟﺑ ﺔﻴﻨﻣﺰﻟا ﻞﺳﻼﺴﺎﻟﺑ ﺆﺒﻨﺘﻟا‪.‬‬

‫تﺎﻌﻗﻮﺘﻟا جذﺎﻤﻧ مﺪﺨﺘﺴﻨﺳ ‪،‬ضﺮﻐﻟا اﺬﻬﻟ " ‪ "Prophet‬و " ‪ "،ARIMA‬ﺎﻬﺘﻗدو ﺎﻬﺋادأ ًﺎﻀﻳأ نرﺎﻘﻧ‬

‫ﺔﻴﺋﺎﺑﻮﻟا ﺔﻴﻌﺿﻮﻟ‬
‫ﻰﻠﻋ ا ﻦﻣ ﺎﻬﻌﻤﺟ ﻢﺗ ﻲﺘﻟا تﺎﻴﻓﻮﻟاو ةﺪﻛﺆﻤﻟا تﻻﺎﺤﻟا ﻰﻠﻋ يﻮﺘﺤﺗ ﻲﺘﻟا تﺎﻧﺎﻴﺒﻟا ﺔﻋﻮﻤﺠﻣ‬

‫ﻦﻴﺑ ﺔﻴﻣﻮﻤﻌﻟا ﺔﺤﺼﻠﻟ يﺮﺋاﺰﺠﻟا ﻲﻨﻃﻮﻟ ‪19‬ﻞﻳﺮﺑأ ‪2020‬و ‪23‬ﻞﻳﺮﺑأ‬


‫ﻊﻗﻮﻣ ﻰﻠﻋ ةرﻮﺸﻨﻤﻟا ﺔﻴﻣﻮﻴﻟا ﺪﻬﻌﻤﻟا ا‬

‫‪. 2021‬‬

‫‪ .‬جذﻮﻤﻧ نأ ﺔﺠﻴﺘﻨﻟا ﺮﻬﻈﺗو " ‪ "Prophet‬مﺎﻋ ﻞﻜﺸﺑ قﻮﻔﺘﻳ ءادﻷا ﻲﻓجذﻮﻤﻧ ﻰﻠﻋ " ‪."ARIMA‬‬

‫ﺮﺋاﺰﺠﻟا ‪:‬ﺔﻴﺣﺎﺘﻔﻣ تﺎﻤﻠﻛ‪ ،‬ﺪﻴﻓﻮﻛ ‪ ،-19‬ﻲﻟﻵا ﻢﻠﻌﺘﻟا‪ ،‬ﺆﺒﻨﺘﻟا ‪.‬‬

‫‪V‬‬
Page 7

Sommaire
Remerciement…………………………………………………………….……..…………..I
Dédicace…………………………………………………………………………..………..II
Résumé…………..……………………………………………….…………………..……III
Sommaire
Liste Des Tableaux
Liste Des Figures
Introduction Générale
Chapitre 01 : Covid 19 en Algérie

1. Introduction .................................................................................................................... 5
2. Définition de la Covid-19 ............................................................................................... 5
2.2 Dénomination ............................................................................................................... 6
2.3 Les types de coronavirus .............................................................................................. 6
2.4 Transmission et propagation de Covid-19 ................................................................... 7
2.5 Symptômes de la Covid-19 .......................................................................................... 7
2.6 Mortalités de la Covid-19 ............................................................................................ 8
3. Historique de la pandémie en Algérie ............................................................................ 9
4. Propagation de la pandémie en Algérie.......................................................................... 9
5. Chronologie des principaux évènements pendant la pandémie en Algérie .................. 11
6. Conclusion .................................................................................................................... 13
Chapitre 02 : Une approche de prédictio basée Machine Learning

1. Introduction .................................................................................................................. 15
2. Apprentissage Automatique ......................................................................................... 15
3. Principe de l’apprentissage automatique ...................................................................... 15
4. Types d'apprentissage ................................................................................................... 16
4.1 Apprentissage supervisé ............................................................................................ 16
4 .2 Apprentissage non supervisé .................................................................................... 17
4.3 Apprentissage par renforcement ............................................................................. 17
5. Les principales étapes de l’apprentissage supervisé .................................................... 17
5.1 Collecte de données ................................................................................................... 18
5.2 Préparation des données ............................................................................................. 18
5.3 Entrainement du modèle ............................................................................................ 19
5.3.1 Le modèle ARIMA.............................................................................................. 19
5.3.2 Le modèle « Prophet » ........................................................................................ 20
5.4 L’évaluation du modèle ............................................................................................. 23

Page 8

5.4.1 Le score R-carré (R²) .......................................................................................... 23


5.4.2 Erreur absolue moyenne (EAM) ......................................................................... 24
5.4.3 Erreur quadratique moyenne (EQM) ................................................................... 24
5.5 Déploiement du modèle ............................................................................................. 25
5.6 Supervision du modèle ............................................................................................... 25
6. Le langage Python ........................................................................................................ 25
7. Conclusion .................................................................................................................... 27
Chapitre 03 : Impélemntation, résultats et dicsussion

1. Introduction .................................................................................................................. 30
2. Dataset .......................................................................................................................... 30
3. Le data set transformé .................................................................................................. 33
4. Implémentation............................................................................................................. 34
5. Résultats ....................................................................................................................... 36
6. Prédiction future ........................................................................................................... 37
6.1. Cas confirmés avec Prophet .............................................................................. 37
6.2. Cas décédés avec Prophet ................................................................................. 38
6.3. Cas confirmés avec ARIMA ............................................................................. 38
6.4. Cas décédés avec ARIMA................................................................................. 39
7. Discussion .................................................................................................................... 39
8. Conclusion .................................................................................................................... 40
Conclusion géénarale

Biblioghraphie

Page 9

Liste des Tables

Chapitre 3 : Implémentation, résultats et discussion

Table 3. 1: Résumé sur le dataset initiale des cas confirmés. .............................................. 32


Table 3. 2: Résumé sur le dataset transformé en série temporelle. ..................................... 33

Table 3. 3: Performances de Prophet et de ARIMA ............................................................ 40

LISTE DES FIGURES

Chapitre 1 : Le Covid-19 en Algérie

Figure 1. 1: Corps du virus COVID-19 ................................................................................. 5


Figure 1. 2: Symptômes générales de la Covid-19. ............................................................... 8
Figure 1. 3: Répartition spatiale du nombre de cas confirmés dans les wilayas de l’Algérie. ........ 9
Figure 1. 4: Nombre de cas confirmés par semaine de notification au 08 Aout 2020 en Algérie. 10
Figure 1. 5: Evolution du nombre des cas confirmés et décès selon la date de notification
au 08 Août 2020 en Algérie. ................................................................................................ 10

Chapitre 2 : Une Approche de prédiction basée Machine Learning

Figure 2. 1: Relation IA apprentissage automatique et Apprentissage Profond. ................. 15


Figure 2. 2: Classification des algorithmes du Machine Learning. ..................................... 16
Figure 2. 3: Etapes de déroulement d’un apprentissage supervisé. ..................................... 18
Figure 2. 4: Modèle de Facebook Prophet ........................................................................... 21
Figure 2. 5: Graphe de prévision avec l’instruction ‘Prophet. Plot’ .................................... 21
Figure 2. 6: Graphe de prévision avec l’instruction ‘prophet_plot_components’ ............... 22

Chapitre 3 : Implémentation, résultats et discussion

Figure 3. 1: les cas confirmé du 19/04/2020 au 23/04/2021 ............................................... 30


Figure 3. 2: Cas confirmés par Wilaya ................................................................................ 31
Figure 3. 3: les cas Décédés du 19/04/2020 au 23/04/2021 ............................................... 31
Figure 3. 4: mauvais apprentissage avec le modèle LinearRegression ............................... 34
Figure 3. 5: Code Python de la méthode Prophet. ............................................................... 35
Figure 3. 6: Test de Dickey-Fuller ...................................................................................... 36

Page 10

Figure 3. 7: résultats du test des deux modèles ARIMA et Prophet pour les cas confirmés.
............................................................................................................................................. 37

Figure 3. 8: résultats du test des deux modèles ARIMA et Prophet pour les cas décédés. . 37
Figure 3. 9: résultats de la prédiction du modèle Prophet pour les cas confirmés. ............. 38
Figure 3. 10: résultats de la prédiction du modèle Prophet pour les cas décédés. ............... 38
Figure 3. 11: résultats de la prédiction du modèle ARIMA pour les cas confirmés. .......... 39
Figure 3. 12: résultats de la prédiction du modèle ARIMA pour les cas décédés. .............. 39
Page 11
Page 12

Introduction Générale

Contexte général de la problématique :

Les coronavirus sont de gros virus à ARN dont on sait qu'ils existent depuis le milieu
des années 1960. Ils sont responsables de maladies légères à modérer des voies
respiratoires supérieures, similaires au rhume [1]. Deux coronavirus bien connus sont le

coronavirus du syndrome respiratoire aigu sévère (SARS-CoV) et le coronavirus du


syndrome respiratoire du Moyen-Orient (MERS-CoV).

En décembre 2019, de nouvelles infections à coronavirus sont apparues dans la ville


chinoise de Wuhan, dans la province du Hubei [2]. Le 7 janvier 2020, le nouveau virus a
été identifié comme étant le Covid -19. Ses symptômes peuvent inclure de la fièvre, une
toux sèche, des myalgies, des symptômes gastro-intestinaux et une anosmie. De décembre
2020 à mars 2020, le monde a été témoin d'une énorme propagation des infections au
Covid -19 et l'Organisation Mondiale de la Santé (OMS) a déclaré une pandémie. Selon
l'OMS [3], au 22 janvier 2021, plus de 96 millions de cas confirmés de Covid -19 et deux-
millions de décès dus à Covid-19 ont été signalés dans le monde. Des pays du monde
entier ont été touchés par le virus, ce qui a entrainé l'application de diverses mesures,
notamment des fermetures des pays, des couvre-feux et des restrictions de voyage. Bien
que les symptômes courants de l'infection au Covid -19 soient généralement bénins, pour
certains patients, l'infection peut entrainer des complications graves, et parfois mortelles.

Le Machine Learning (ML) est une branche de l'Intelligence Artificielle (IA) qui se
concentre sur la production de systèmes capables d'apprendre à prédire à partir des données
et de s'améliorer sans être explicitement programmés. On distingue les problèmes
de régression des problèmes de classement. Ainsi, on considère que les problèmes de
prédiction d'une variable quantitative sont des problèmes de régression tandis que les
problèmes de prédiction d'une variable qualitative sont des problèmes de classification. En

ce qui concerne la Covid-19, diverses recherches autour du monde on était lancés dans le
but de prédire les futures statistiques en termes de nombre de cas confirmés et le nombre
de décès. Ainsi, prédire les nouveaux cas de la Covid-19 sur le court, moyen et long terme
offre, aux gouvernements, un moyen efficace de prévention contre les crises
socioéconomiques et évite, en conséquence, de tomber dans des situations incontrôlables
telles que celles qu’on a vécues récemment à l’instar de la crise économique où on a assisté
à un manque flagrant des aliments alimentaires et également le manque remarquable de la
liquidité financière.

Page 13

Introduction Générale

Contribution :

L'objectif de ce mémoire est d’exploiter la force des algorithmes du ML supervisé


(i.e. les algorithmes de régression) pour prédire les prochaines statistiques de la
propagation de la Covid-19 en Algérie. Après avoir élaboré le dataset à partir la situation
épidémiologique publiée quotidiennement par l’Institut Algérien de la Santé publique
(IASP) depuis le 19/04/2020 jusqu’à 23/04/2021, on a procédé à une transformation de la
dataset en une série temporelle sous forme de quantités ordonnées chronologiquement de la
forme (date, nb_de_Cas) pour les deux catégories de donnés : cas confirmés et cas décédés.
On parle dans ce cas sur les dataset uni variées qui se place dans le domaine des
statistiques descriptives univariées (SDU). Plusieurs méthodes de prédictions des SDU
existent dans la littérature, on a choisi entre autres la méthode ARIMA vu sa vaste
utilisation et la méthode Prophet qui est récemment publiée (en 2018). Avant d’entamer la
phase d’implémentation des deux méthodes, une étape de prétraitement de la dataset a été
faite dont l’objectif est de nettoyer les valeurs manquantes de type (NAN : Not a Number)
ou des vides dans le dataset. Les valeurs manquantes ont été remplacées par des zéros ce

qui signifie qu’aucun cas n’a été signalé. L’implémentation des deux méthodes a été faite
en se basant sur les bibliothèques Python : Pandas, Sci-Kitlearn, Seaborn et Numpy pour :
l’importation et la manipulation des datatset, l’utilisation des différents modèles du ML, la
génération des graphiques personnalisés et la manipulation matricielles respectivement.
D’autres bibliothèques ont été utilisées également à des fins différentes. Le dataset a été
divisé en deux ensembles d’apprentissage et de test dont 70% des données ont été utilisés
pour entrainer les modèles et 30% pour le test et la prédiction. Nous avons terminé notre
étude par créer une table comparative entre ARIMA et Prophet selon plusieurs métriques
de régression prédéfinies à savoir l’erreur quadratique moyenne (EQM) et sa racine carrée
(REQM), l’erreur absolue moyenne (EAM) et le coefficient de détermination (r2). Les
résultats obtenus indiquent que le modèle Prophet montre une bonne performance et
surpasse généralement ARIMA.

Il est intéressant de noter que l’objectif de la transformation de la dataset est dû au


manque remarquable des données de la Covid-19 pour chaque cas particulier, on a pensé
au début de ce travail à trouver le dataset publié avec plusieurs détails à savoir
l’identificateur du patient, sa date de naissance, son genre, la présence ou non d’une
maladie chronique (HTA, diabète, etc), les symptômes de la Covi-19 remarqués, etc.

Page 14

Introduction Générale

Cependant ce n’était plus le cas. Le dataset de la Covid-19 en Algérie n’est plus accessible
sur les répertoires publics connus sur le web comme Kaggle ni sur le site officiel du
ministère de la Santé Algérienne. L’unique information disponible c’est bien la situation
épidémiologique quotidienne publiée par l’INSP.

Organisation du mémoire :

Le présent mémoire est composé de trois chapitres :

• Dans le premier chapitre, on va cerner la maladie causée par le Covid-19 par

des définitions techniques, puis on explique à travers l’historique de la maladie


sa propagation dans le monde entier et se focalise, ensuite, particulièrement sur
l’évolution de la pandémie en Algérie.
• Le deuxième chapitre est intitulé « Une Approche de prédiction basée Machine

Learning », nous allons expliquer, en premier lieu, les étapes d’une approche
typique basée Machine Learning avec les différents algorithmes et modèles
mathématiques impliqués dans chaque étape. Ensuite, on va basculer vers le
langage Python comme étant le langage le plus répandu actuellement dans le
domaine de la Machine Learning à travers une pile de bibliothèques bien dédié
au domaine.
• Dans le dernier chapitre, on se concentre sur l’implémentation des deux
algorithmes sélectionnés : ARIMA et Prophet, les prédictions trouvées et une
évaluation de performance des deux méthodes selon multiple métriques de
régression les plus connues.

Page 15
Page 16

Chapitre I Covid 19 en Algérie

1. Introduction

En décembre 2019, une épidémie de pneumonie d'étiologie inconnue a été


remarquée dans la ville de Wuhan, en Chine, qui s'est ensuite répandue dans le monde
entier. En janvier 2020, cette maladie ressemblant à une pneumonie a été confirmée [4].

Être un nouveau coronavirus connu sous le nom de SARS-CoV-2 [5]. Ce virus


appartient aux Coronaviridae, une grande famille de virus à ARN simple brin enveloppé
[6]. Les coronavirus sont bien connus pour causer diverses maladies, du simple rhume aux
épidémies importantes, comme le syndrome respiratoire aigu sévère (SARS) [7] et
syndrome respiratoire du Moyen-Orient (MERS) [8]. En mars 2020, l'Organisation
mondiale de la santé (OMS) a classé le Covid-19 comme une pandémie qui pourrait
menacer des millions de personnes dans le monde. Depuis, le nombre de cas confirmés a
augmenté, en partie parce que cette nouvelle maladie virale est très contagieuse pendant la
période d'incubation.

2. Définition de la Covid-19

Covid-19 (Figure 1.1) fait référence à « Coronavirus Disease 2019 », la maladie


provoquée par un virus de la famille des Coronaviridae, le SARS-CoV-2. Cette maladie

infectieuse est une zoonose, dont l'origine est encore débattue, qui a émergé en
décembre 2019 dans la ville de Wuhan, dans la province du Hubei en Chine. Elle s'est
rapidement propagée, d'abord dans toute la Chine, puis à l'étranger provoquant une
épidémie mondiale. [9]

Figure 1.1: Corps du virus Covid-19 [43].


5

Page 17

Chapitre I Covid 19 en Algérie

Le Covid-19 est une maladie respiratoire pouvant être mortelle chez les patients
fragilisés par l'âge ou une autre maladie chronique. Elle se transmet par contact
rapproché avec des personnes infectées. La maladie pourrait aussi être transmise par des
patients asymptomatiques mais les données scientifiques manquent pour en attester avec
certitude.

2.2 Dénomination

Le terme coronavirus (du latin corona et virus, littéralement « virus à couronne »)


provient de l'apparence des virions au microscope électronique, caractérisée par une frange
de grandes protubérances entourant l'enveloppe avec l'apparence d'une couronne, par
analogie avec la couronne solaire. [10]

2.3 Les types de coronavirus

Il existe quatre sous-groupes principaux de coronavirus, appelés alpha, bêta, gamma


et delta.

Et sept formes différentes dont quatre communes (moins graves que les autres) [11] :

229E (alpha coronavirus)

NL63 (alpha coronavirus)

OC43 (bêta-coronavirus)

HKU1 (bêta- coronavirus)

MERS-COV (le coronavirus bêta qui provoque le syndrome respiratoire du Moyen-
Orient, ou MERS découvert en 2012 en Arabie Saoudite).

SARS-COV (le bêta-coronavirus qui cause le syndrome respiratoire aigu sévère,
SARS, identifié en Chine en 2002)

Ce coronavirus a beaucoup de similitudes avec celui du SRAS (origine animale,


identique génétiquement à 80%, responsable d'infections pulmonaires) mais aussi des
différences notables pour les scientifiques au niveau de sa contagion. Il est contagieux dès
le début des symptômes voire parfois en l'absence de symptômes alors que le Sars l'était

quelques jours après les premiers symptômes. Il existe aussi des formes bénignes et
asymptomatiques du Covid-19 alors que le Sars n’entraînait que des formes sévères. [12]

Page 18

Chapitre I Covid 19 en Algérie

2.4 Transmission et propagation de Covid-19

La covid-19 se transmet par des personnes porteuses du virus. La maladie se


propage principalement d’un homme a l’autre lors de contacts rapprochés par le biais de
gouttelettes respiratoires expulsées par le nez ou par la bouche lorsqu’une personne
malade tousse, éternue ou parle. Ces gouttelettes sont relativement lourdes, ne parcourent
pas de grandes distances et tombent rapidement au sol .Il est possible de contracter le
covid-19 en cas d’inhalation de ces gouttelettes. [13]

Toute situation dans laquelle des personnes sont à proximité immédiate les unes des
autres pendant de longues périodes augmente le risque de transmission. Les espaces
intérieurs, en particulier lorsqu’ils sont mal ventilés, présentent plus de risques que les
espaces en plein air. Les activités lors desquelles le volume de particules expulsées par la
bouche est plus important, comme le fait de chanter ou de respirer fortement pendant
l’exercice physique, augmentent également le risque de transmission. [14]

La transmission est facilitée dans les lieux et situations répondant aux 3 critères suivants :

▪ Espaces bondés.

▪ Contact étroit, par exemple lorsque des personnes discutent en se tenant très près

les unes des autres.


▪ Espaces confinés et clos, mal ventilés.
▪ Le risque de propagation de la Covid-19 est plus élevé dans les endroits où ces trois

critères coïncident.

Il est donc important d’appliquer également les règles d’hygiène respiratoire (par
exemple, en se couvrant la bouche et le nez avec le pli du coude lorsque l’on tousse) et
aussi maintenir à distance les personnes Pour prévenir l’infection et ralentir la
transmission de le Covid-19.

2.5 Symptômes de la Covid-19

Les manifestations des coronavirus (covid-19) font leur apparition moins de 24


heures après l'infection. Le plus généralement, le virus entraîne des maladies respiratoires
légères à modérées (Figure 1.2) comme le rhume avec des symptômes tels que : [15]

Symptômes les plus courants :

Page 19

Chapitre I Covid 19 en Algérie

✓ fièvre

✓ toux sèche;
✓ fatigue.

Symptômes moins courants :

✓ courbatures et douleurs
✓ maux de gorge
✓ diarrhée

✓ conjonctivite

✓ maux de tête
✓ perte du goût ou de l’odorat
✓ éruption cutanée ou décoloration des doigts ou des orteils.

Symptômes graves:

✓ difficultés respiratoires ou essoufflement 


✓ douleurs ou sensation d’oppression dans la poitrine 

✓ perte de la parole ou difficultés à se déplacer.

Figure 1. 2: Symptômes générales de la Covid-19 [44].

2.6 Mortalités de la Covid-19

Le taux de mortalité est relativement élevé pour le SARS et le MERS-CoV, avec


respectivement près de 10 à 15 % et plus de 36% de décès des personnes atteintes. Les
personnes les plus sensibles sont celles de plus de 65 ans [16], celles souffrant de
pathologies respiratoires et les immunodéprimées et d’autres problèmes de santé

Page 20

Chapitre I Covid 19 en Algérie

(hypertension, problèmes cardiaques ou pulmonaires, diabète, obésité ou cancer) courent


un risque plus élevé de développer une forme grave de la maladie.

Cependant, n’importe qui peut contracter la Covid-19 et tomber gravement malade

ou mourir à tout âge.

3. Historique de la pandémie en Algérie

Le premier cas, un ressortissant italien, a été notifié le 25 février 2020 dans une base
de vie Hassi Messaoud dans la wilaya de Ouargla. A partir du 02 mars 2020 un foyer a été
détecté dans la wilaya de Blida suite à une alerte lancée par la France après la confirmation
au Covid-19 de deux citoyens Algériens résidant en France ayant séjourné en Algérie.
Depuis l’épidémie s’est étendue à l’ensemble du territoire national [17].

4. Propagation de la pandémie en Algérie

A la date du 08 Août 2020, toutes les 48 wilayas (Figure 1.3) ont notifié des cas
confirmés de Covid-19 depuis le début de l’épidémie en Algérie. Le taux d’incidence
nationale des cas confirmés par PCR est de 79 pour 100 000 habitants. [18]
Figure 1. 3: Répartition spatiale du nombre de cas confirmés dans les wilayas de
l’Algérie [45].

Page 21

Chapitre I Covid 19 en Algérie

A titre informatif, les wilayas de Chlef et Tizi-Ouzou n’ont pas notifié de cas confirmé de
Covid-19 les sept derniers jours qui précédent le du 08 Août 2020, alors que 17 wilayas

n’ont notifié aucun cas dans les précédentes 24 heures (Figure 1.4). Ainsi, 17 wilayas
enregistrent un taux d’incidence supérieur au taux d’incidence national (79 /100000 Hbts).
Les taux les plus élevés sont enregistrés dans les wilayas de :

- Blida : 189,1/100 000 Hbts


- Sétif : 142,2 /100 000 Hbts
- Oran : 140,9 /100 000 Hbts
- Ouargla : 141,4/100 000 Hbts

Aussi, 11 nouveaux décès ont été notifiés le même jour (le 08 Août 2020), soit 02 décès de
plus par rapport aux données de la veille, portant le nombre total des décès enregistrés
depuis le début de l’épidémie à 1 293 décès. La létalité des cas PCR est de 3,73 % au
niveau national (Figures 1.3 et 1.5).

Figure 1. 4: Nombre de cas confirmés par semaine de notification au 08 Août 2020 en


Algérie [46].

Figure 1. 5: Evolution du nombre des cas confirmés et décès selon la date de


notification au 08 Août 2020 en Algérie [47].
10

Page 22

Chapitre I Covid 19 en Algérie

5. Chronologie des principaux évènements pendant la pandémie en


Algérie

Depuis l’arrivée de cette pandémie et ses ravages sur l’humanité, le gouvernement


algérien décidait de prendre des mesures strictes afin d’éviter la propagation et essayer de
stabiliser la situation économique qui s’est engendrée. Voici donc la Chronologie des
principaux évènements durant les premiers mois après l’arrivée de la Covid-19 : [19]

• 20 mai 2021 : Les autorités annoncent la reconduction du confinement partiel pour

une durée d’un mois


• 17 mai 2021 : Les autorités annoncent la réouverture partielle des frontières dès

juin 2021 avec, pour un début, cinq vols quotidiens


• 29 avril 2021 : Les autorités annoncent la reconduction du confinement
• 22 avril 2021 : Les autorités annoncent la reconduction et allègement du

confinement
• 15 avril 2021 : Les autorités annoncent la reconduction du confinement
• 30 mars 2021 : Les autorités annoncent la reconduction et allègement du

confinement
• 30 janvier 2021 : Les autorités annoncent la reconduction et allègement du

confinement
• 03 janvier 2021 : Les autorités annoncent la reconduction du confinement et la

reprise des transports inter-wilaya


• 30 novembre 2020 : Les autorités annoncent la reconduction du confinement et la

reprise des vols domestique à partir du 6 décembre


• 08 novembre 2020 : Les autorités annoncent le durcissement des horaires de

confinement
• 29 octobre 2020 : Les autorités annoncent la reconduction du confinement partiel

pour certaines wilayas et sa réintroduction à neuf nouvelles wilayas


• 01 septembre 2020 : Réouverture des crèches et des bibliothèques
• 15 août 2020 : Réouverture des mosquées, des parcs, des plages et des restaurants
• 03 août 2020 : Le Président Abdelmadjid TEBBOUNE a instruit le Premier

Ministre Abdelaziz DJERAD de programmer la ‘réouverture graduelle’ des lieux


de culte, des plages, des lieux de récréation et de détente

11

Page 23

Chapitre I Covid 19 en Algérie

• 09 juillet 2020 : Les autorités annoncent de nouvelles mesures concernant les

déplacements entre certaines wilayas


• 07 juillet 2020 : Les autorités annoncent les premières mesures de confinement
locales
• 14 juin 2020 : Les autorités annoncent l’assouplissement des horaires de

confinement et la reprise de certaines activités commerciales


•7 juin 2020 : Certaines activités commerciales sont re autorisées
• 11 mai 2020 : Le Ministre de la Santé annonce que la question du déconfinement

sera abordée ‘lorsque le nombre des nouveaux cas positifs sera réduit à un seuil
moins inquiétant’ et ‘lorsqu’on s’approchera de zéro décès.
• 23 mars 2020 : Les autorités annoncent de nouvelles mesures de confinement après

une réunion du Haut Conseil de Sécurité


• 22 mars 2020 : Le Ministre de la Santé annonce que l’Algérie est passée au niveau

trois de l’épidémie
• 19 mars 2020 : Les autorités annoncent de nouvelles mesures de confinement après

une réunion au plus haut niveau dédiée à la crise


• 17 mars 2020 : Le Président fait un discours à la nation dans lequel il donne un

exposé des mesures prises par les autorités algériennes afin de lutter contre la
propagation du covid-19. Outre les mesures restées inchangées, certaines
dispositions ont été élargies tandis que d’autres décisions clés ont été annoncées.
• 13 mars 2020 : Le premier cas de covid-19 est confirmé dans la capitale, à Alger,

et dans d’autres régions du pays


• 12 mars 2020 : Le premier décès d’un patient atteint du covid-19 est enregistré

dans la wilaya de Blida


• 08 mars 2020 : Les autorités débloquent environ 30 millions USD pour

l’acquisition de médicaments et d’autres éléments nécessaires pour combattre la


propagation du covid-19
• 03 mars 2020 : d’autres cas liés au patient de Blida commencent à émerger suite

aux examens de dépistage réalisés auprès des individus qui ont été en contact avec
cette personne
• 01 mars 2020 : Un ressortissant algérien résidant en France est testé positif au

covid-19 lors d’une visite à sa famille dans la wilaya de Blida, au nord du pays

12

Page 24

Chapitre I Covid 19 en Algérie

• 25 février 2020 : Le premier cas de covid-19 est confirmé en Algérie. L’individu

est un ressortissant italien qui travaille dans la base de vie du champ gazier Menzel
Ledjmet-Est (MLE) dans la wilaya de Ouargla, au sud-est du pays. Le patient est
rapatrié en Italie et la base de vie est placée en quarantaine. Aucun cas lié à cet
individu n’a été enregistré
• 03 février 2020 : Les autorités algériennes rapatrient 31 algériens ainsi que 17

tunisiens, libyens et mauritaniens à partir de la ville de Wuhan (Chine). Les


personnes évacuées sont d’abord mises en quarantaine. Après des résultats négatifs
aux tests de dépistage, ces personnes ont recouvert leur liberté de mouvement.

6. Conclusion

Dans ce chapitre, nous avons parlé de cette nouvelle pandémie du Corona Virus dites
(Covid-19) et expliquer d’où provienne cette maladie, ses causes et ses conséquences sur la
santé de l’être humain, aussi ses symptômes et effets. Du coup, on a cité les cas de
contaminations et décès en Algérie depuis le début de cette maladie pour qu’on puisse
utiliser les chiffres de contaminations dans le cadre de notre étude prédictive.

Dans le chapitre suivant, nous allons présenter notre approche de prédiction basée
sur les modèles du Machine Learning supervisé particulièrement les algorithmes de
régression.

13

Page 25
Page 26

Chapitre II Une Approche de prédiction basée ML

1. Introduction

Le présent chapitre commence, en premier lieu, par présenter les différents types du
Machine Learning ensuite on va montrer les étapes d’une approche typique basée Machine
Learning avec les différents algorithmes et modèles mathématiques impliqués dans chaque
étape. Ensuite, on va basculer vers le langage Python comme étant le langage le plus
répandu actuellement dans le domaine de la Machine Learning à travers une pile de
bibliothèques bien dédié au domaine

2. Apprentissage Automatique

L'apprentissage automatique (en anglais : Machine Learning, litt. « Apprentissage


Machine »), apprentissage artificiel ou apprentissage statistique est un champ d'étude de
l'Intelligence Artificielle (IA) (Figure 2.1) qui se fonde sur des approches mathématiques et
statistiques pour donner aux ordinateurs la capacité d'apprendre à partir de données [20].
Nous allons adopter dans ce mémoire le terme Machine Learning au lieu d’Apprentissage
Automatique pour des raison de simplification puisque le concept Machine Learning
possède plusieurs traductions en français et de rester fidèle avec le titre de ce mémoire.

Figure 2. 1: Relation IA, Apprentissage Automatique et Apprentissage Profond [48].

3. Principe de l’apprentissage automatique


L'apprentissage automatique (AA) permet à un système piloté ou assisté par
ordinateur comme un programme ou un robot, d'adapter ses réponses ou comportements
aux situations rencontrées, en se fondant sur l'analyse de données empiriques passées
issues de bases de données, de capteurs, ou du web. [21]

15

Page 27

Chapitre II Une Approche de prédiction basée ML

4. Types d'apprentissage

Les algorithmes d'apprentissage peuvent se catégoriser selon le mode d'apprentissage


qu'ils emploient. La figure suivante (figure 2.2) montre la classification des différents
algorithmes du Machine Learning. Dans ce mémoire nous avons utilisé les algorithmes de
régression dans lesquels on essaye d’estimer le nombre des cas confirmés et décédés par la
Covid-19 sachant que les algorithmes de régression sont proposés principalement pour des
raisons de prédictions.

Figure 2. 2: Classification des algorithmes du Machine Learning [49].

4.1 Apprentissage supervisé

Si les classes cibles sont prédéterminées, le système apprend à classer selon un


modèle de classification ou de classement ; on parle alors d'apprentissage supervisé. Un
expert (ou oracle) doit préalablement étiqueter des exemples. Le processus se passe en
deux phases. Lors de la première phase (hors ligne, dite d'apprentissage), il s'agit de
déterminer un modèle à partir des données étiquetées. La seconde phase (en ligne, dite de
test) consiste à prédire l'étiquette d'une nouvelle donnée, connaissant le modèle
préalablement appris. Parfois il est préférable d'associer une donnée non pas à une classe
unique, mais une probabilité d'appartenance à chacune des classes prédéterminées (on parle
alors d'apprentissage supervisé probabiliste). [22]

16

Page 28

Chapitre II Une Approche de prédiction basée ML


4 .2 Apprentissage non supervisé
Quand le système ou l'opérateur ne dispose que d'exemples, mais non d'étiquette, et
que le nombre de classes et leur nature n'ont pas été prédéterminés, on parle
d'apprentissage non supervisé ou clustering en anglais. Aucun expert n'est requis.
L'algorithme doit découvrir par lui- même la structure plus ou moins cachée des données.
Le partitionnement de données, data clustering en anglais, est un algorithme
d'apprentissage non supervisé. [23]

Le système doit cibler, dans l'espace de description (l'ensemble des données), les
données selon leurs attributs disponibles, pour les classer en groupes homogènes
d'exemples. La similarité est généralement calculée selon une fonction de distance entre
paires d'exemples. C'est ensuite à l'opérateur d'associer ou déduire du sens pour chaque
groupe et pour les motifs (patterns en anglais) d'apparition de groupes, ou de groupes de
groupes, dans leur « espace ». Divers outils mathématiques et logiciels peuvent l'aider. On
parle aussi d'analyse des données en régression (ajustement d'un modèle par une procédure
de type moindres carrés ou autre optimisation d'une fonction de coût). Si l'approche est
probabiliste (c'est-à-dire que chaque exemple, au lieu d'être classé dans une seule classe,
est caractérisé par un jeu de probabilités d'appartenance à chacune des classes), on parle
alors de « soft clustering » (par opposition au « hard clustering »). [24]

4.3 Apprentissage par renforcement

L’algorithme apprend un comportement étant donné une observation. L'action de


l'algorithme sur l'environnement produit une valeur de retour qui guide l'algorithme
d'apprentissage [25]. L'algorithme de Q-learning est un exemple classique.

5. Les principales étapes de l’apprentissage supervisé

L’apprentissage supervisé peut également se dérouler dans quelques étapes


consécutives afin d’obtenir un résultat adéquat. (Figure 2.3).

17

Page 29

Chapitre II Une Approche de prédiction basée ML

Figure 2. 3: Etapes de déroulement d’un apprentissage supervisé [50].

5.1 Collecte de données


Cette étape consiste à rassembler les données nécessaires pour le Machine Learning
et veiller à ce qu’elles soient rassemblées sous une forme consolidée, afin qu’elles soient
toutes contenues dans un seul tableau. [26]

5.2 Préparation des données

Il s’agit de préparer les données afin de les rendre exploitables par les algorithmes
d’apprentissage automatique. Et peut se faire comme suit : [26]

- Nettoyage des données : Trouver les valeurs manquantes (NaN) et les données
dupliquées. Le nettoyage de données consiste à remplacer les (NaN) par d’autres

valeurs (la moyenne de la série, le médian de la série, la moyenne des voisins, etc)
ou les supprimer et s’assurer de ne pas avoir de doublons.
- Décomposition des données : Les colonnes de texte contiennent parfois plus d’une
information ; et doivent être divisés en autant de colonnes dédiées que nécessaire.
Si certaines colonnes représentent des catégories, il est préférable de les convertir
en colonnes de type catégorie.
- Agrégation de données : Regroupez certaines informations ensemble quand c’est

pertinent.
- Mise à l’échelle (Data Scaling) : Cela permettra d’obtenir des données à une
échelle commune, si ce n’est déjà le cas. La mise à l’échelle des données ne
s’applique pas au label ou aux colonnes de catégories. Elle est nécessaire lorsqu’il y
a une grande variation dans les plages de variables (features en anglais).

18

Page 30

Chapitre II Une Approche de prédiction basée ML

- Mise en forme et transformation (Data Shaping & Transformation) :De


catégoriel à numérique.

5.3 Entrainement du modèle

On commence par diviser notre dataset (Observations ou individus et variables ou


features) en un datasets d'entraînement que l'on notera (Xtrain, Ytrain), et un dataset de test,
contenant le restant des individues de la base, que l'on notera (Xtest, Ytest).

Diviser le dataset en « train » et « test » a un but précis : pouvoir tester sur (Xtest, Ytest) les
capacités de généralisation de notre modèle, qui aura été entraîné sur (Xtrain, Ytrain), et
n'aura jamais vu (Xtest, Ytest) au cours de son entraînement avec des algorithmes choisis
pour le faire [20].

Dans ce qui suit, on va présenter les deux modèles que nous avons choisis pour
supporter notre approche de prédiction.

5.3.1 Le modèle ARIMA

Acronyme pour désigner l’Auto Regressive Integrated Moving Average, l’ARIMA


est un modèle statistique conçu pour l’analyse et la prédiction de données d'une série
temporelle ou chronologique. Il détermine les valeurs intégrées à cette dernière en fonction
des précédentes valeurs observées. Un système autorégressif suggère que les fonctions
prédictives sont applicables dans un cas particulier, tout en minimisant le risque d’erreur
inhérent à un tel exercice. [27]

5.3.1.1 Composantes du modèle


Le modèle ARIMA est une généralisation, pour les séries non-stationnaires, du
modèle ARMA qui est lui-même la composition des modèles AR (auto-régressif) et MA
(Moyennes Glissante ou Moving Average). [28]

Modèle AR :

Ce modèle se base sur le caractère auto-régressif de la série. Il est donc applicable


qu’aux séries auto-régressives. Une série (ou un processus) est auto-régressif d’ordre n

lorsque sa valeur à un instant t dépend linéairement des n valeurs précédentes. [28]


Soit :

19

Page 31

Chapitre II Une Approche de prédiction basée ML

Où ϵ est un bruit blanc et c une constante. Appliquer le modèle AR revient donc à trouver
les coefficients pi ainsi que la variance du bruit ϵt et la constante c. On peut trouver le pi
par régression linéaire par exemple.

Modèle MA :

Ce modèle considère que la série (ou la variable) peut s'écrire comme combinaison
linéaire de valeur actuelle d'un processus stochastique et de ses n valeurs précédentes. On
parle d'un MA d'ordre n. La série peut donc s'écrire de la façon suivante : [28]

Le I de ARIMA est pour "Integrated" et indique qu'il faut différencier la série originale
afin d'éliminer un caractère non-stationnaire éventuel.

5.3.1.2 Rôle de l'ARIMA

L’ARIMA permet d’anticiper l’évolution d’un phénomène. Cette notion


mathématique demeure essentielle dans l'analyse de statistiques et le domaine de
l’économétrie. Elle est aussi utilisée dans les processus d’action liés à l’intelligence
artificielle (IA). [28]

Un modèle ARIMA est étiqueté comme modèle ARIMA (p,d,q), dans lequel:

• p est le nombre de termes auto-régressifs.

• d est le nombre de différences.

• q est le nombre de moyennes mobiles.

5.3.2 Le modèle « Prophet »

Prophet est une méthode de prédiction déployé sous forme de bibliothèques Open source
développées par Facebook dans le but de démocratiser les prévisions des séries temporelles
et de les simplifier. Ce modèle convient particulièrement à des séries temporelles de type
‘business‘ affectées par des événements ou des saisonnalités liées à l’activité humaine

20

Page 32

Chapitre II Une Approche de prédiction basée ML

(exemple : fêtes de fin d’année, soldes, saisons, vacances, etc.). Le modèle est implémenté
dans un langage d’inférence statistique en C++ qui s’appelle Stan et est disponible depuis
2017 en R et en Python [29].

Le modèle de Facebook Prophet est un modèle additionnant 3 éléments : la


tendance, la saisonnalité et l’effet des vacances / événements, plus du bruit (Figure
2.4).[30]

Figure 2. 4: Modèle de Facebook Prophet

La tendance est modélisée par défaut de façon linéaire continue par morceaux. Les
points de changement de la tendance (change points dans l’API Prophet) sont
automatiquement détectés mais peuvent aussi être spécifiés de façon explicite par
l’analyste. Les changes points (Figure 2.5) sont représentés par les lignes pointillées
verticales et la tendance est représentée par la ligne brisée rouge dans le graphique
suivant :

Figure 2. 5: Graphe de prévision Prophet [52].

Prophet offre également la possibilité de modéliser des tendances de type croissance


saturée, qui convient à des situations dans lesquelles il existe des limites haute et/ou basse
à la grandeur que l’on cherche à prédire. Par exemple, le nombre d’utilisateurs de
Facebook dans une ville va être contraint par le nombre d’habitants dans la ville. Les

21

Page 33

Chapitre II Une Approche de prédiction basée ML


limites haute et basse peuvent évoluer dans le temps (Figure 2.6), et peuvent tout comme
les change points mentionnés ci-dessus être soit calculées de façon automatique par le
modèle, soit spécifiées par l’analyste comme dans ce cas :[30]

Figure 2. 6: Graphe de prévision des composants (Prophet components) [53]

22

Page 34

Chapitre II Une Approche de prédiction basée ML

La saisonnalité à l’échelle des jours, semaines, mois et années est gérée de façon
automatique par le modèle. En cas de besoin spécifique, la modélisation de la saisonnalité
peut être paramétrée en ajustant sa sensibilité voire en programmant des saisonnalités

conditionnelles (dans le cas où la saisonnalité à la semaine changerait en fonction de la


période de l’année par exemple).

Enfin, les vacances et événements sont pris en compte via des tables renseignées par
l’analyste. L’influence des vacances et événements sur les jours précédents et suivants peut
être paramétrés via un paramètre de régularisation. [30]

L’important à retenir est que l’API de Prophet permet à l’analyste d’avoir de bons
résultats rapidement avec les valeurs par défaut, puis d’enrichir le modèle de façon
itérative avec de la connaissance métier, via: [30]

- Le type de tendance (linéaire ou saturée), avec potentiellement une information


explicite sur les changes points ou les limites hautes et/ou basse de la quantité
prédite.

- L’ajout d’information sur la saisonnalité, par exemple la mise en place explicite


d’une saisonnalité différente pendant une saison sportive.

- La liste explicite des événements et/ou vacances pouvant impacter la valeur prédite.
- Le para métrisation de la régularisation du modèle.

5.4 L’évaluation du modèle

Une fois l’entrainement du modèle est terminé, il est intéressant d’évaluer sa


performance. L'évaluation permet de tester le modèle par rapport à des données qui n'ont
jamais été utilisées pour l’entrainement. Cela permet de voir comment le modèle pourrait
fonctionner par rapport à des données qu'il n'a pas encore vues. Ceci est censé être
représentatif de la façon dont le modèle pourrait fonctionner dans le monde réel.

Il existe plusieurs méthodes pour calculer le score de chaque algorithme pour


ensuite choisir le meilleur pour la prédiction. Voici quelques méthodes de calcul du score.

5.4.1 Le score R-carré (R²)

Le R², ou R-carré est appelé coefficient de détermination. C’est un indicateur utilisé


en statistiques pour juger de la qualité d’une régression linéaire. Mathématiquement, il

23

Page 35

Chapitre II Une Approche de prédiction basée ML

s’agit de la proportion de la variance d’une variable dépendante qui s’explique par une ou
plusieurs variables indépendantes dans le modèle de régression. On l’exprime soit entre 0
et 1, soit en pourcentage.

Alors que la corrélation explique la force de la relation entre une variable

indépendante et une variable dépendante, le R au carré explique dans quelle mesure la


variance d’une variable explique la variance de la seconde variable. [31]

5.4.1.1 Calcul du score R-carré (R²)

Le R² se calcule à partir de la formule suivante :

Avec yi la valeur du point i, ŷ la valeur prédite pour le point i par la régression linéaire, ӯ
la moyenne empirique des points donnés. [31]

5.4.2 Erreur absolue moyenne (EAM)

L'erreur absolue moyenne (MAE) est une mesure des erreurs entre des observations
appariées exprimant le même phénomène. Des exemples de Y par rapport à X
comprennent des comparaisons entre le temps prévu et observé, le temps ultérieur par
rapport au temps initial et une technique de mesure par rapport à une autre technique de
mesure. MAE est calculée comme suit : [32]

Avec ���� ������ prédiction.


����
������ valeur réelle.
= la ��
���� ������ erreur.
= la ��

= la ��
n= nombre de prédiction.

5.4.3 Erreur quadratique moyenne (EQM)

24

Page 36

Chapitre II Une Approche de prédiction basée ML

L’erreur quadratique moyenne d’un estimateur F d’un paramètre O de dimension 1

est une mesure caractérisant la « précision » de cet estimateur. Elle est plus souvent
appelée « erreur quadratique » (« moyenne » étant sous-entendu) ; elle est parfois appelée
aussi « risque quadratique ». [33]

L’erreur quadratique moyenne est définie via l'équation mathématique :

Fi = les valeurs de la prévision du paramètre en question


Oi = la valeur de vérification correspondante (observée ou analysée)
N = le nombre de points de vérification (points de grille ou points d'observations) dans la
zone de vérification

5.5 Déploiement du modèle

Si l'évaluation est réussie, il faudra passer à l'étape de réglage des hyper paramètres.
Cette étape tente d'améliorer les résultats positifs obtenus lors de l'étape d'évaluation. Il
existe différentes manières pour améliorer le modèle. L'un d'eux revisite l'étape
d'entraînement et utilise plusieurs balayages de l'ensemble de données d'entraînement pour
entraîner le modèle. Cela pourrait conduire à une plus grande précision car la durée plus
longue de la formation offre plus d'exposition et améliore la qualité du modèle. Une autre
façon de procéder consiste à affiner les valeurs initiales données au modèle. Les valeurs
initiales aléatoires produisent souvent des résultats médiocres car elles sont
progressivement affinées par essais et erreurs. [34]

5.6 Supervision du modèle

C’est la dernière étape de la démarche ML, cela signifie la prédiction, c’est-à-dire


utiliser le meilleur score et prédire les résultats du jeu de test utilisé pour entrainer le
modèle.

6. Le langage Python

25

Page 37

Chapitre II Une Approche de prédiction basée ML

Python est le langage de programmation open source le plus employé par les
informaticiens. Ce langage s’est propulsé en tête de la gestion d’infrastructure, d’analyse
de données ou dans le domaine du développement de logiciels. En effet, parmi ses qualités,

Python permet notamment aux développeurs de se concentrer sur ce qu’ils font plutôt que
sur la manière dont ils le font. Il a libéré les développeurs des contraintes de formes qui
occupaient leur temps avec les langages plus anciens. Ainsi, développer du code avec
Python est plus rapide qu’avec d’autres langages. [35]

6.1. Les environnements de développement python

Un environnement de développement intégré (IDE) permet d’exécuter du code écrit


dans différents langages de programmation. Il est important de disposer d’un IDE pour
faire tourner Python, car l’utilisation de Python est de plus en plus répandue dans toute une
série d’applications informatiques.

Certains EDI gratuits ont des limites sur la quantité de code que tout le monde peut
utiliser, tandis que les EDI payants offrent bien sûr beaucoup plus de liberté.

a. Anaconda

Anaconda est une distribution libre et open source des langages de programmation

Python appliqué au développement d'applications dédiées à la science des données et à


l'apprentissage automatique (traitement de données à grande échelle, analyse prédictive,

calcul scientifique), qui vise à simplifier la gestion des paquets et de déploiement. Les
versions de paquetages sont gérées par le système de gestion de paquets conda. La
distribution Anaconda est utilisée par plus de 6 millions d'utilisateurs et comprend plus de
250 paquets populaires en science des données adaptés pour Windows, Linux et MacOS.
[37]

b. Jupyter

Jupyter est une application web utilisée pour programmer dans plus de 40 langages de
programmation, dont Python, Julia, Ruby, R, ou encore Scala. C'est un projet
communautaire dont l'objectif est de développer des logiciels libres, des formats ouverts et
des services pour l'informatique interactive. Jupyter est une évolution du projet IPython.
Jupyter permet de réaliser des calepins ou notebooks, c'est-à-dire des programmes

26

Page 38
Chapitre II Une Approche de prédiction basée ML

contenant à la fois du texte en markdown et du code en Julia, Python, R... Ces calepins sont
utilisés en science des données pour explorer et analyser des données. [38]

6.2. Les 4 bibliothèques essentielles pour le Machine Learning


a. Numpy

C'est une bibliothèque mathématique pour travailler avec des tableaux à n


dimensions en Python. Cela nous permet de faire des calculs de manière efficace et

efficiente. Son rôle est d’apporter la structure de données array (Tableaux


multidimensionnels) à python. Contrairement à la structure de liste de python, cette
structure n'est pas dynamique, et le type de ses éléments doit être homogène. [39]

b. Scikit-learn

Il s'agit d'une bibliothèque d'apprentissage automatique gratuite pour le langage


python. Il possède la plupart des algorithmes de classification, de régression et de
clustering, comprend notamment des fonctions pour estimer des forêts aléatoires, des
régressions logistiques, des algorithmes de classification, et les machines à vecteurs de
support. [40]

c. Matplotlib

Matplotlib rend ainsi possible la création de graphes à l'intérieur d'applications


complexes autorisées par le langage python, et ceci sans quitter le langage python. [41]

d. Pandas

Pandas est une bibliothèque écrite pour le langage de programmation Python


permettant la manipulation et l'analyse des données. Elle propose en particulier des
structures de données et des opérations de manipulation de tableaux numériques et de
séries temporelles. [42]

7. Conclusion

27

Page 39

Chapitre II Une Approche de prédiction basée ML

Dans ce chapitre, nous avons expliqué les différentes étapes qui constituent une
approche basée Machine Learning. Ensuite nous avons donné une brève introduction sur le
langage de programmation Python qui est utilisé pour ce projet en citant les étapes de

l’implémentation ainsi que les bibliothèques nécessaires.

Dans le prochain chapitre, on va procéder à l’implémentation des deux algorithmes


sélectionnés : ARIMA et Prophet, les prédictions trouvées et une évaluation de
performance des deux méthodes selon multiple métriques de régression présentées dans ce
chapitre.
28

Page 40
Page 41

Chapitre III Implémentation, résultats et discussion

1. Introduction

L'évaluation des modèles est une tâche essentielle dans le ML en général et dans la

prédiction en particulier. Cette évaluation nous conduit à choisir le meilleur modèle en


termes de performance. Dans ce chapitre, nous discuterons sur les datasets utilisés après
agrégation dans la phase d’entrainement, test et les résultats de prédiction. De même nous
aborderons des exemples de code source utilisés pour effectuer le ML. Nous présenterons
également les résultats des tests et des prédictions. Et enfin, nous évaluerons les deux
modèles et discuterons des résultats obtenus.

2. Dataset

Les données collectées des 48 wilayas sur une plage de 370 jours (du 19/04/2020 au
23/04/2021) soit 17760 données saisies pour les cas confirmés et le même chiffre pour les
cas décédés.

La figure 3.1 montre la variation des nombres des cas confirmés par jours durant une
période de 370 jours. On remarque qu’à partir du 04/06/2020 le nombre des cas a
augmenté de 98 cas confirmés par jours jusqu’à atteindre un premier pique durant la fin du
mois de juillet avec 675 cas. Puis le nombre a chuté à 121 en 07/10/2020. Juste après un

deuxième pique plus grand a eu lieu en 24/11/2020 avec plus de 1088 cas confirmés par
jour. Et vers la fin le nombre de cas a commencé à s’augmenter doucement une troisième
fois à partir d’un minima de 89 cas confirmé durant la quatrième semaine de Mars et le

début du mois d’Avril 2021.

Cas confirmés
1200

1000

800

600

400
200
0 19/04/2020
03/05/2020
17/05/2020
31/05/2020
14/06/2020
28/06/2020
12/07/2020
26/07/2020
09/08/2020
23/08/2020
06/09/2020
20/09/2020
04/10/2020
18/10/2020
01/11/2020
15/11/2020
29/11/2020
13/12/2020
27/12/2020
10/01/2021
24/01/2021
07/02/2021
21/02/2021
07/03/2021
21/03/2021
04/04/2021
18/04/2021

Figure 3. 1: les cas confirmé du 19/04/2020 au 23/04/2021

30

Page 42

Chapitre III Implémentation, résultats et discussion

Le dataset a été collecté à partir des nombres de cas confirmés cumulés durant 370
jours dans toutes les wilayas. Les données figurent dans le diagramme à barres montré
dans la figure 3.2. On remarque une grande différence dans le nombre total entre les
wilayas dont les wilayas de Alger, Oran, Blida et Setif sont les wilayas qu’on peut

distinguer vu leur nombre de cas très élevé.

Cas confirmés par Wilaya


20000

15000

10000

5000

0 l j
f t r a t t u re a a s a a n h s rf uf la e
tif e b éa m nt ia
rar le ua ghi tna jaia ira
lid u re lfa e ’sila Illizirid
a silt ed ras aza ila fla n
h a a cha B essa cen zo lg je Jije Sé b lm rgla rde u M De
Ad C ho u B éB iskra B éB o rasseb ia
T u A D Said b
Skikd
e ntineéd
nna u
a Ora
an M ascara
u ayad rre e lET m nch
Tip aâma rda liza
g o B e lem M indo lO
T T lA A
e G M O lB A T isse E he k Ah in N uche
o ha
e
R
La lB izi O nsta E u um K u A G
E T o stag o o T m
aman iB o B So e
T C T
Sid M jB
um in
O rd
o A
B

Figure 3. 2: Cas confirmés par Wilaya

La figure 3.3 montre le nombre des cas décédés par jour durant une période de 370
jours dans toute l’Algérie. Nous remarquons que les cas augmentent et diminuent à un taux
faible jusqu'au 2/11/2020 quand il a commencé à augmenter jusqu'à ce qu'il atteigne 23 cas
par jour le 26/11/2020 puis il diminue à nouveau et maintient un taux plus faible qu'il était
avant la pique.

Death Cases
25
20

15

10
5
0
20 20 20 20 20 20 20 20 20 21 21 21 21 21
020 020 020 020 020 020 020 020 020 020 020 020 020 021 021 021 021
9/20 3/205/20 9/20 3/205/20 8/200/20 3/20 1/20 4/206/20 2/20 5/20
/01/2 /07/2 /01/2 /06/2 /11/2 /05/2/17/2/29/2/10/2/22/2/04/2/16/2/28/2/09/2 /02/2 /10/2 /03/2
4/1 5/1 5/2 6/1 7/1 7/2 8/1 8/3 9/2 1/2 2/1 2/2 3/2 4/1
05 06 07 08 09 10 10 10 11 11 12 12 12 01 02 03 04

Figure 3. 3: les cas décédés du 19/04/2020 au 23/04/2021

31
Page 43
Chapitre III Implémentation, résultats et discussion

26/04/ 27/04/ 28/04/ 29/04/ 30/04/ 01/05/ 02/05/ 03/05/ 04/05/ 05/05/
2020 2020 2020 2020 2020 2020 2020 2020 2020 2020

1 Adrar 6 4 0 0 5 0 0 6 5 0
2 Chlef 0 0 0 0 0 0 0 0 6 0
3 Laghouat 3 1 1 1 0 1 3 4 6 0
4 Oum El Bouaghi 10 0 4 7 0 5 0 0 11 9
5 Batna 0 0 0 7 1 1 0 14 2 7 …
6 Béjaia 1 5 3 3 1 3 3 1 3 11
7 Biskra 0 8 3 1 0 2 2 5 2 2
8 Béchar 15 1 4 5 3 0 0 0 10 9
9 Blida 0 12 11 14 13 11 10 19 7 14
10 Bouira 2 2 0 1 0 2 1 0 0 0
11 Tamanrasset 0 0 0 2 0 0 0 0 0 0
… … … … … … … … … … …
48 Relizane 1 5 1 1 5 0 2 0 3 0

Table 3. 1: Résumé sur le dataset initiale des cas confirmés

32

Page 44

Chapitre III Implémentation, résultats et discussion

La table 3.1 contient le détail des cas confirmés dont chaque ligne représente une
wilaya et chaque colonne représente la date. Donc chaque cellule contient le nombre de cas
confirmés dans la date de sa colonne et la wilaya de la ligne en question. On constate qu’il
n’est pas intéressant d’étudier chaque wilaya séparément, mais plutôt d’agréger les

nombres de cas regroupés par date pour obtenir le nombre de cas dans toute l’Algérie.

3. Le data set transformé

La table 3.2 représente le résultat de la transformation qu’on a effectué sur le dataset


brute de l’INSP pour les cas confirmés et les cas décédés. Le nouveau format consiste à
joindre à chaque date le nombre de cas, c'est-à-dire les cas confirmés ou décédés, qui lui
correspondent.

Cas confirmés Date nbCas Cas décédés Date nbCas


02/12/2020 932 02/12/2020 17
09/12/2020 598 09/12/2020 15
10/12/2020 565 10/12/2020 10
11/12/2020 542 11/12/2020 11
12/12/2020 517 12/12/2020 9
13/12/2020 464 13/12/2020 12
16/12/2020 442 16/12/2020 8
17/12/2020 426 17/12/2020 9
18/12/2020 438 18/12/2020 7
19/12/2020 410 19/12/2020 12
… … … …

Table 3. 2: résumé sur le dataset transformé en série temporelle.

L’objectif de la transformation est de profiter les avantages des algorithmes des


statistiques descriptives univariés comme ARIMA sachant que les modèles mathématiques
des statistiques decsriptives multi-variées comme RandomForest, Arbre de décision, SVM
(Support Vector Machine) ont présentés de mauvais résultats avec le dataset initiale tel que
indiqué dans la figure suivante (Figure 3.4)

33

Page 45

Chapitre III Implémentation, résultats et discussion

Cas confirmés
Régression linaire

Figure 3. 4: mauvais apprentissage avec le modèle LinearRegression

4. Implémentation

La figure 3.5 montre un fragment de code python qui implémente la méthode


Prophet pour les cas décédés. Principalement, on peut décomposer le code en huit étapes :

1. Chargement des bibliothèques qui seront utilisées dans ce qui suit dans le code.
2. Importation du dataset en question en format CSV (Comma Separated Values).

3. Affichage des graphiques qui ont relation avec le dataset.


4. Initialisation des paramètres du modèle Prophet. Le détail de cette étape est comme

suit :
a. Saisonnalité (seasonality) : La saisonnalité signifie la période qu’on prend
en considération lors de l’analyse des tendances, à savoir saisonnalité
annuelle (yearly_seasonality), hebdomadaire (weekly_seasonality) ou
quotidienne ( daily_seasonality).
b. Développement (growth) : Ce paramètre sert à définir le type de
développement du graphe, à savoir linéaire, logistique ou autres.
c. L'échelle préalable de la saisonnalité (the seasonality prior scale) : Un
paramètre modulant la force du modèle de saisonnalité. Des valeurs plus
grandes permettent au modèle de s'adapter à des variations saisonnières plus
importantes, des valeurs plus petites atténuent la saisonnalité.
5. Entrainement du modèle.
6. Prédiction des nombres de cas décédés dans les prochains trois mois.
7. Affichage des résultats prédits sous forme de graphe.
8. Calcul des métriques d’évaluation.

34

Page 46

Chapitre III Implémentation, résultats et discussion

Figure 3. 5: Code Python de la méthode Prophet.

La figure 3.6 contient un code qui sert à effectuer un test de Augmented Dickey-
Fuller. Ce test permet de quantifier la stationnarité du dataset. Une p-value plus petit que
0.05 permet de dire que le dataset est stationnaire.

35

Page 47
Chapitre III Implémentation, résultats et discussion

Figure 3. 6: Test de Dickey-Fuller

5. Résultats

Les figures 3.7 et 3.8 montre l’allure des graphes des données réelles des cas
confirmés et décédés, respectivement, des résultats de test (les données du test représentent
30% du dataset) du modèle Prophet et ceux du modèle ARIMA. Les deux modèles donnent
de bons résultats dans le cas des cas confirmés et décédés. Les résultats qu’on obtient par
l’utilisation des deux modèles pour la phase du test sont rapprochés les uns des autres, et
les deux sont similaires à l’allure des données réelles. Ce qui montre une bonne qualité de
l’entrainement.

36

Page 48

Chapitre III Implémentation, résultats et discussion

Covid19 Confirmed cases over time


350

300

cased
250

200
firmed
n
o Confirmés
fC150
ARIMA
er100
o
Prophet
mb
u
n 50
0

Figure 3. 7: résultats du test des deux modèles ARIMA et Prophet pour les cas
confirmés.

Covid19 Deaths casess over time


10

7
s cases
6
eath
5 Confirmés
fD
4 ARIMA
er o
3 Prophet
mb
u
N 2
1

Figure 3. 8: résultats du test des deux modèles ARIMA et Prophet pour les cas
décédés.

6. Prédiction future

6.1. Cas confirmés avec Prophet


La figure 3.9 représente le résultat de la prédiction future sur la plage de 120 jours (soit 4
mois) des cas confirmés avec le modèle Prophet. Dans la figure on remarque qu’il y aura
une augmentation remarquable des cas confirmés dans les prochains mois.

37

Page 49

Chapitre III Implémentation, résultats et discussion

Figure 3. 9: résultats de la prédiction du modèle Prophet pour les cas confirmés.

6.2. Cas décédés avec Prophet


C’est presque le même constat pour les cas décédés illustré dans la figure 3.10.
Figure 3. 10: résultats de la prédiction du modèle Prophet pour les cas décédés.

6.3. Cas confirmés avec ARIMA


La figure 3.11 représente les résultats de la prédiction des cas confirmés en utilisant
le modèle ARIMA. On constate que la forme de la partie prédite suit la tendance décrite
par les valeurs précédentes. Donc le nombre de cas continue son augmentation mais avec
moins de détails sur la perturbation qu’on observe dans la partie test.

38

Page 50

Chapitre III Implémentation, résultats et discussion

Prédiction des cas confirmés pour les prochaine 90 jours


350

300

250

200

150

100

50

0
03/01/2021 03/02/2021 03/03/2021 03/04/2021 03/05/2021 03/06/2021 03/07/2021

Figure 3. 11: résultats de la prédiction du modèle ARIMA pour les cas confirmés.

6.4. Cas décédés avec ARIMA


La figure 3.12 représente les résultats de la prédiction des cas décédés en utilisant le
modèle ARIMA. Cette fois-ci, le modèle semble moins précis dans la prédiction des cas
décédés car son extrapolation ne suit pas la forme du graphe qui illustre les données
réelles. La prédiction montre une stagnation qui dans la valeur de 7 décés par jour, ce qui
contredit avec les données qui lui précèdent.

Prédiction des décés pour les prochaine 90 jours


10
9
8
7
6
5
4
3
2
1
0
03/01/2021 03/02/2021 03/03/2021 03/04/2021 03/05/2021 03/06/2021 03/07/2021

Figure 3. 12: résultats de la prédiction du modèle ARIMA pour les cas décédés.
7. Discussion
Après avoir utilisé les deux modèles Prophet et ARIMA, nous avons calculé les
différentes métriques d’évaluation r2 score, MAE, MSE, RMSE et Max error afin de savoir
le meilleur modèle. Nous trouvons que les performances de Prophet sont meilleures que
celles de ARIMA en termes de r2 score dans les 2 types de cas (confirmés et décédés).

39

Page 51

Chapitre III Implémentation, résultats et discussion

Cependant, malgré que le MAE et le RMSE de ARIMA sont plus faible, le modèle Prophet
est plus performant car ces métriques pénalisent les grandes erreurs et non le grand nombre
des erreurs. C’est-à-dire Prophet fait moins d’erreur que ARIMA mais ses erreurs sont de
valeurs plus grandes. Ceci signifie que les métriques d’évaluation choisis ne donnent pas
une évaluation complète toutes seules mais en combinant ces erreurs avec les graphiques
de prédiction on peut conclure que Prophet est le meilleur. Ainsi, le modèle ARIMA oblige
la stationnarité de la série temporelle (i.e. le test Augmented Dickey-Fuller ) à l’instar de
Prophet et est sensible beaucoup au hyperparamètres p, d et q que doivent être soumis à
une phase préalable pour chercher la combinaison optimale (i.e. best parameters).

Confirmed r2 score MAE MSE RMSE Max error


ARIMA 0.846 18.133 476.847 21.836 57.123
Prophet 0.904 65.250 7618.32 87.283 295.160

Deaths r2 score MAE MSE RMSE Max error


ARIMA 0.123 0.977 1.485 1.218 3.898
Prophet 0.778 1.765 4.562 2.136 5.113

Table 3. 3: Performances de Prophet et de ARIMA

8. Conclusion

Dans ce chapitre, nous avons implémenter notre approche de prédiction présenté


dans le chapitre précédent. Nous, avons commencé par montrer graphiquement les

différentes variations des cas confirmés et décès. Ensuite nous avons mis l’accent sur le
dataset initiale collecté et sa transformation en une série temporelle.

Ensuite, nous avons donné un exemple d’implémentation de la méthode Prophet pour


les cas décédés suivie des résultats accompagnés par une discussion sur les performances
des deux modèles. Finalement, on a constaté que Prophet se performe mieux par rapport
ARIMA.

40
Page 52

Page 53

Conclusion Générale

La découverte de la Covid-19 a bouleversé l’ordre mondiale et résulte des crises de taille


sur tous les plans surtout l’axe socio-économique. Comme tous les gens qui ont été
impacté par cette pandémie, on a pensé à contribuer avec un plus dans l’objectif d’offrir un
moyen de prédiction fiable sur une plage de 120 jours futurs. Vraisemblablement, les
résultats présentés déclenchent l’alarme d’un nouveau pic pour les cas confirmés ce qui
impose la prise en considération sérieuse des mesures de confinement et de distanciation
d’une part et la prévention socio-économique d’une autre part.

Dans ce contexte, nous avons adopté une approche basée Machine Learning pour
prédire les futures cas confirmés et décédés de la Covid-19. Nous avons sélectionné deux
méthodes de prédictions célèbres dans le domaine des statistiques descriptives univarié le
modèle ARIMA et le Modèle Prophet.

L’étude de prédiction établie a montré une meilleure performance de Prophet par rapport à
ARIMA. Cela est justifier par le fait que ARIMA nécessite un ajustement de paramètres
pour trouver la meilleure combinaison. De plus, il souffre d’une mauvaise tolérance par
rapport à la stationnarité. Contrairement à Prophet qui montre une grande robustesse,
notamment pour la saisonnalité, la tolérance au manque de stationnarité des dataset et la
grande flexibilité dans le choix de la saisonnalité (annuelle, hebdomadaire et quotidienne)
et même le choix des jours fériés et des vacances par pays.

Ce travail n’est qu’un début et il reste ouvert à plusieurs extensions, comme


perspectives, nous envisageons de :

• Continuer le processus de prédiction au fur et à mesure que les résultats des cas

confirmés et décédés progressent.


• Travailler avec d’autre modèle de prédiction pour les séries temporelles dans

l’objectif d’avoir une meilleure prédiction avec un taux d’erreur réduit.

42

Page 54
Page 55

Bibliographie

[1] Bol Med Hosp Infant Mex. 2021;78(1):41-58. doi: 10.24875/BMHIM.20000249.


[2] 14. Wang C, Horby PW, Hayden FG, Gao GF. A novel coronavirus outbreak of global health
concern. Lancet. 2020;395:470–473.
[3] 15. World Health Organization . WHO; Geneva: 2020. Novel coronavirus (2019-nCoV) situation
report 22.https://apps.who.int/iris/handle/10665/330991 Available at: [accessed 13 April 2020] .
[5] World Health Organization . WHO; Geneva: 2020. Coronavirus disease 2019 (COVID-19)
situation.
[6] Peiris JSM. Coronaviruses. In: Greenwood D, Barer M, Slack R, Irving W, editors. Medical
microbiology. 18th ed. Churchill Livingstone; Edinburgh: 2012. pp. 587–593.
[7] World Health Organization. SARS statistics. Summary of probable SARS cases with onset of
illness from 1 November 2002 to 31 July 2003. Geneva: WHO. Revised on 26 Sep 2003. Available
at:https://www.who.int/csr/sars/country/table2004_04_21/en/ [accessed 13 April 2020].
[8] World Health Organization. Statistics on Middle East respiratory syndrome. Geneva: WHO.
Published on Nov 2019. Available at:https://www.who.int/emergencies/mers-cov/en/ [accessed
13 April 2020].
[10] « S'informer sur le Coronavirus » [archive], sur popsciences.universite-lyon (consulté le 1er
avril 2020).
[11] Jie Cui, Fang Li et Zheng-Li Shi, « Origin and evolution of pathogenic coronaviruses », Nature
Reviews Microbiology, vol. 17, no 3, mars 2019, p. 181–192 (ISSN 1740-1534, DOI
10.1038/s41579-018-0118-9.
[12] Y. Chen, « The Novel Severe Acute Respiratory Syndrome Coronavirus 2 (SARS-CoV-2) Directly
Decimates Human Spleens and Lymph Nodes », University of Oxford - Immunology Network,
202 .

[18] Rev Epidemiol Sante Publique. 2021 Jun; 69: S52. Published online 2021 mai 21. French. DOI :
10.1016/j.respe.2021.04.085.
[19] https://www.aps.dz/algerie/112352-plan-d-action-d-urgence-pour-contenir-la-propagation-
de-la-covid-19.
[20] « apprentissage automatique », Le Grand Dictionnaire terminologique, Office québécois de la
langue française (consulté le 28 janvier 2020).
[22] Antoine Cornuéjols, Laurent Miclet, Yves Kodratoff, Apprentissage Artificiel : Concepts et
algorithmes, Eyrolles, 2002 (ISBN 2-212-11020-0).
[23] Apprentissage automatique - Définition et Explications--https://www.techno-
science.net/glossaire-definition/Apprentissage-automatique.html.
[24] A. Cornuéjols, L. Miclet, Y.Kodratoff, « Apprentissage Artificiel, Concepts et algorithms » ISBN
2-212-11020-0, 2002.
[25] McGraw-Hill International Editions, chap. 13 Reinforcement Learning, p. 367-390.
[29] Taylor SJ, Letham B. 2017. Forecasting at scale. PeerJ Preprint
5:e3190v2 https://doi.org/10.7287/ peerj.preprints.3190v2
[36] https://analyticsinsights.io/pourquoi-python-est-populaire-en-data-science.
[37] « https://docs.anaconda.com/anaconda/reference/release-notes.
[38] « https://jupyter.org/about » [archive] (consulté le 29 janvier 2021) (en) « Jupyter kernels »,
sur github.com.

44

Page 56

Bibliographie

[39] « https://github.com/numpy/numpy/blob/master/LICENSE.txt » (consulté le 1er septembre


2016).
[40] https://makina-corpus.com/blog/metier/2017/initiation-au-machine-learning-avec-python-
theorie.
[41] http://www.python-simple.com/python-matplotlib/matplotlib-intro.php.
[42] http://pandas.pydata.org/pandas-docs/stable/overview.html#license.
[43] https://fr.wikipedia.org/wiki/SARS-CoV-2.

[44] National Center for Immunization and Respiratory Diseases (NCIRD), Division of Viral
Diseases.
[52] facebook.github.io/prophet/docs/quick_start.

45
Page 57

Bibliographie

Webographie :

[4] https://www.lemonde.fr/planete/article/2020/01/09/une-pneumonie-d-origine-inconnue-en-
chine_6025276_3244.html.
[9] https://www.futura-sciences.com/sante/definitions/coronavirus-covid-19-18585.
[13] https://www.cdc.gov/coronavirus/2019-ncov/science/science-briefs/sars-cov-2-transmissio
n.html .
[14] https://www.who.int/fr/health-topics/coronavirus/coronavirus#tab=tab_1.
[15] https://www.who.int/fr/emergencies/diseases/novel-coronavirus-2019/question-and-answ
ers-hub/q-a-detail/coronavirus-disease-covid-19#:~:text=symptomes.
[16] https://www.inserm.fr/information-en-sante/dossiers-information/coronavirus-sars-cov-et-
mers-cov.
[17] https://reliefweb.int/report/algeria/alg-rie-rapport-de-situation-sur-l-pid-mie-du-covid-19-
451-du-22-juin-2021.
[21] https://www.industrie-techno.com/article/yann-lecun-facebook-l-apprentissag e-predictif-
est-le-grand-defi-scientifique-de-l-intelligence-artificielle.43641.
[26] https://www.spiria.com/fr/blogue/intelligence-artificielle/3-etapes-essentielles-apprentissag
e-automatique-machine-learning.
[27] https://www.journaldunet.fr/web-tech/guide-de-l-intelligence-artificielle/1501315-autoregr
essive-integrated-moving-average-arima-definition/
[28] https://ledatascientist.com/arima.
[30] https://blog.engineering.publicissapient.fr/2020/04/01/lanalyse-de-series-temporelles-avec-
prophet-et-deepar.
[31] https://blog.nalo.fr/lexique/r-carre-ou-r2.
[32] https://fr.xcv.wiki/wiki/Mean_absolute_error.
[33] https://datafranca.org/wiki/Erreur_quadratique_moyenne.
[34] https://www.editionseni.fr/open/mediabook.aspx?idR=4a1d225f6d8933d9 88744
4217128e604.
[35] https://www.journaldunet.fr/web-tech/dictionnaire-du-webmastering /1445304python-
definition-et-utilisation-de-ce-langage-informatique.
[45] https://www.afro.who.int/sites/default/files/202007/Sitrep%20102_01072020_%20F_0.pdf.
[46] https://www.afro.who.int/sites/default/files/202007/Sitrep%20102_01072020_%20F_ 0.pdf.
[47] https://www.afro.who.int/sites/default/files/202007/Sitrep%20102_01072020_%20F_ 0.pdf.
[48] https://www.spiria.com/fr/blogue/intelligence-artificielle/3-etapes-essentielles-apprentissa
ge- automatique-machine-learning/.
[49] https://ichi.pro/fr/quel-algorithme-d-apprentissage-automatique-devez-vous-utiliser-par-
type-de-probleme-1816659 63074918.

[50] https://www.spiria.com/fr/blogue/intelligence-artificielle/3-etapes-essentielles-apprentissa
ge-automatique-machine-learning.
[51] https://blog.engineering.publicissapient.fr/2020/04/01/lanalyse-de-series-temporelles-avec-
prophet-et-deepar/.

46

Vous aimerez peut-être aussi