Académique Documents
Professionnel Documents
Culture Documents
Lorsque
Google explore le Web, il crée automatiquement une version HTML des documents récupérés.
Astuce : Pour trouver rapidement votre terme de recherche sur cette page, appuyez sur Ctrl+F ou sur ⌘+F (Mac), puis utilisez la barre de recherche.
Page 1
Master en informatique
Thème
Soutenu le : _____/07/2021
Présenté par :
▪ BOULEKCHER Rachida
▪ KABOUR Oussama
Remerciements
On n’oublie pas nos parents pour leur contribution, leur soutien et leur
patience.
Enfin, nous adressons nos plus sincères remerciements à tous nos proches et
amis, qui nous ont toujours encouragées au cours de la réalisation de ce
mémoire.
Page 3
Dédicace
Je dédie ce mémoire à :
Mes chers parents, pour tous leurs sacrifices, leur amour, leur tendresse, leur
soutien et leurs prières tout au long de mes études,
II
Page 4
Résumé
prédiction.
III
Page 5
Abstract
The first case of Corona Virus Disease 2019 (COVID-19) in Algeria was
reported on 25 February 2020 when a foreign worker from Italy was tested
positive for the Severe Acute Respiratory Syndrome COrona Virus (SARS-
CoV), the seventh coronavirus pathogenic to humans which is responsible for
the Covid-19 disease. Since then, the number of cases grows exponentially
each day. According to the last epidemiological situation (ES) published by
the Algerian National Institute of Public Health (ANIPH), it was reported 131
283 confirmed cases by June 08, 2021. In this work, we aim to utilize
Supervised Machine Learning (ML) models in attempt to forecast the trend of
the disease in Algeria. Forecasting the Covid-19 times series is an important
task in modern data analysis prediction methods. For this end, we use ARIMA
and Facebook’s Prophet forecasting Models. We compare also, their
performance and accuracy on dataset containing the confirmed and deaths
cases collected from the daily ES from April 19, 2020 to April 23 2021. The
result shows that Prophet generally outperforms ARIMA.
Page 6
ﻣُ ﺺﺨﻠ
ضﺮﻤﺑ ﺔﺑﺎﺻإ ﺔﺎﻟﺣ لوأ ﻦﻋ غﻼﺑﻹا ﻢﺗ ،ﺮﺋاﺰﺠﻟا ﻲﻓ ﺪﻴﻓﻮﻛ) ﺎﻧورﻮﻛ سوﺮﻴﻓ ( 19مﻮﻳ 25ﺮﻳاﺮﺒﻓ
2020ﻮﻫو ،ﺔﻤﻴﺧﻮﻟا ةدﺎﺤﻟا ﺔﻴﺴﻔﻨﺘﻟا ﺔﻣزﻼﺘﻤﻟا سوﺮﻴﻔﺑ ﺎﻴﺎﻟﻄﻳإ ﻦﻣ ﻲﺒﻨﺟأ ﻞﻣﺎﻋ ﺔﺑﺎﺻإ ﺖﺘﺒﺛ ﺎﻣﺪﻨﻋ
ﻊﺑﺎﺳ
ﺪﻴﻓﻮﻛ ضﺮﻣ ﻦﻋ لوﺆﺴﻤﻟاو ،نﺎﺴﻧﻺﻟ ﺔﻴﺟﺎﺘﻟا ضاﺮﻣﻸﻟ ﺐﺒﺴﻣ . 19تﻻﺎﺤﻟا دﺪﻋ داز ،ﻦﻴﺤﻟا ﻚﻟذ ﺬﻨﻣ
ﻰﻟإ فﺪﻬﻧ ،ﻞﻤﻌﻟا اﺬﻫ ﻲﻓرﻮﻄﺘﺑ ﺆﺒﻨﺘﻟا ﺔﻟوﺎﺤﻤﻟ ﻲﻟﻵا ﻢﻠﻌﺘﻟا جذﺎﻤﻧ ماﺪﺨﺘﺳاءﺎﺑﻮﻟا ﺪﻌﻳ ﺚﻴﺣ ﺮﺋاﺰﺠﻟا ﻲﻓ
تﺎﻴﻄﻌﻤﻟا ﻞﻴﻠﺤﺗ لﺎﺠﻣ ﻲﻓ ﺔﻴﺳﺎﺳأ ﺔﻤﻬﻣ ﺔﺜﻳﺪﺤﻟا قﺮﻄﺎﻟﺑ ﺔﻴﻨﻣﺰﻟا ﻞﺳﻼﺴﺎﻟﺑ ﺆﺒﻨﺘﻟا.
تﺎﻌﻗﻮﺘﻟا جذﺎﻤﻧ مﺪﺨﺘﺴﻨﺳ ،ضﺮﻐﻟا اﺬﻬﻟ " "Prophetو " "،ARIMAﺎﻬﺘﻗدو ﺎﻬﺋادأ ًﺎﻀﻳأ نرﺎﻘﻧ
ﺔﻴﺋﺎﺑﻮﻟا ﺔﻴﻌﺿﻮﻟ
ﻰﻠﻋ ا ﻦﻣ ﺎﻬﻌﻤﺟ ﻢﺗ ﻲﺘﻟا تﺎﻴﻓﻮﻟاو ةﺪﻛﺆﻤﻟا تﻻﺎﺤﻟا ﻰﻠﻋ يﻮﺘﺤﺗ ﻲﺘﻟا تﺎﻧﺎﻴﺒﻟا ﺔﻋﻮﻤﺠﻣ
. 2021
.جذﻮﻤﻧ نأ ﺔﺠﻴﺘﻨﻟا ﺮﻬﻈﺗو " "Prophetمﺎﻋ ﻞﻜﺸﺑ قﻮﻔﺘﻳ ءادﻷا ﻲﻓجذﻮﻤﻧ ﻰﻠﻋ " ."ARIMA
V
Page 7
Sommaire
Remerciement…………………………………………………………….……..…………..I
Dédicace…………………………………………………………………………..………..II
Résumé…………..……………………………………………….…………………..……III
Sommaire
Liste Des Tableaux
Liste Des Figures
Introduction Générale
Chapitre 01 : Covid 19 en Algérie
1. Introduction .................................................................................................................... 5
2. Définition de la Covid-19 ............................................................................................... 5
2.2 Dénomination ............................................................................................................... 6
2.3 Les types de coronavirus .............................................................................................. 6
2.4 Transmission et propagation de Covid-19 ................................................................... 7
2.5 Symptômes de la Covid-19 .......................................................................................... 7
2.6 Mortalités de la Covid-19 ............................................................................................ 8
3. Historique de la pandémie en Algérie ............................................................................ 9
4. Propagation de la pandémie en Algérie.......................................................................... 9
5. Chronologie des principaux évènements pendant la pandémie en Algérie .................. 11
6. Conclusion .................................................................................................................... 13
Chapitre 02 : Une approche de prédictio basée Machine Learning
1. Introduction .................................................................................................................. 15
2. Apprentissage Automatique ......................................................................................... 15
3. Principe de l’apprentissage automatique ...................................................................... 15
4. Types d'apprentissage ................................................................................................... 16
4.1 Apprentissage supervisé ............................................................................................ 16
4 .2 Apprentissage non supervisé .................................................................................... 17
4.3 Apprentissage par renforcement ............................................................................. 17
5. Les principales étapes de l’apprentissage supervisé .................................................... 17
5.1 Collecte de données ................................................................................................... 18
5.2 Préparation des données ............................................................................................. 18
5.3 Entrainement du modèle ............................................................................................ 19
5.3.1 Le modèle ARIMA.............................................................................................. 19
5.3.2 Le modèle « Prophet » ........................................................................................ 20
5.4 L’évaluation du modèle ............................................................................................. 23
Page 8
1. Introduction .................................................................................................................. 30
2. Dataset .......................................................................................................................... 30
3. Le data set transformé .................................................................................................. 33
4. Implémentation............................................................................................................. 34
5. Résultats ....................................................................................................................... 36
6. Prédiction future ........................................................................................................... 37
6.1. Cas confirmés avec Prophet .............................................................................. 37
6.2. Cas décédés avec Prophet ................................................................................. 38
6.3. Cas confirmés avec ARIMA ............................................................................. 38
6.4. Cas décédés avec ARIMA................................................................................. 39
7. Discussion .................................................................................................................... 39
8. Conclusion .................................................................................................................... 40
Conclusion géénarale
Biblioghraphie
Page 9
Page 10
Figure 3. 7: résultats du test des deux modèles ARIMA et Prophet pour les cas confirmés.
............................................................................................................................................. 37
Figure 3. 8: résultats du test des deux modèles ARIMA et Prophet pour les cas décédés. . 37
Figure 3. 9: résultats de la prédiction du modèle Prophet pour les cas confirmés. ............. 38
Figure 3. 10: résultats de la prédiction du modèle Prophet pour les cas décédés. ............... 38
Figure 3. 11: résultats de la prédiction du modèle ARIMA pour les cas confirmés. .......... 39
Figure 3. 12: résultats de la prédiction du modèle ARIMA pour les cas décédés. .............. 39
Page 11
Page 12
Introduction Générale
Les coronavirus sont de gros virus à ARN dont on sait qu'ils existent depuis le milieu
des années 1960. Ils sont responsables de maladies légères à modérer des voies
respiratoires supérieures, similaires au rhume [1]. Deux coronavirus bien connus sont le
Le Machine Learning (ML) est une branche de l'Intelligence Artificielle (IA) qui se
concentre sur la production de systèmes capables d'apprendre à prédire à partir des données
et de s'améliorer sans être explicitement programmés. On distingue les problèmes
de régression des problèmes de classement. Ainsi, on considère que les problèmes de
prédiction d'une variable quantitative sont des problèmes de régression tandis que les
problèmes de prédiction d'une variable qualitative sont des problèmes de classification. En
ce qui concerne la Covid-19, diverses recherches autour du monde on était lancés dans le
but de prédire les futures statistiques en termes de nombre de cas confirmés et le nombre
de décès. Ainsi, prédire les nouveaux cas de la Covid-19 sur le court, moyen et long terme
offre, aux gouvernements, un moyen efficace de prévention contre les crises
socioéconomiques et évite, en conséquence, de tomber dans des situations incontrôlables
telles que celles qu’on a vécues récemment à l’instar de la crise économique où on a assisté
à un manque flagrant des aliments alimentaires et également le manque remarquable de la
liquidité financière.
Page 13
Introduction Générale
Contribution :
qui signifie qu’aucun cas n’a été signalé. L’implémentation des deux méthodes a été faite
en se basant sur les bibliothèques Python : Pandas, Sci-Kitlearn, Seaborn et Numpy pour :
l’importation et la manipulation des datatset, l’utilisation des différents modèles du ML, la
génération des graphiques personnalisés et la manipulation matricielles respectivement.
D’autres bibliothèques ont été utilisées également à des fins différentes. Le dataset a été
divisé en deux ensembles d’apprentissage et de test dont 70% des données ont été utilisés
pour entrainer les modèles et 30% pour le test et la prédiction. Nous avons terminé notre
étude par créer une table comparative entre ARIMA et Prophet selon plusieurs métriques
de régression prédéfinies à savoir l’erreur quadratique moyenne (EQM) et sa racine carrée
(REQM), l’erreur absolue moyenne (EAM) et le coefficient de détermination (r2). Les
résultats obtenus indiquent que le modèle Prophet montre une bonne performance et
surpasse généralement ARIMA.
Page 14
Introduction Générale
Cependant ce n’était plus le cas. Le dataset de la Covid-19 en Algérie n’est plus accessible
sur les répertoires publics connus sur le web comme Kaggle ni sur le site officiel du
ministère de la Santé Algérienne. L’unique information disponible c’est bien la situation
épidémiologique quotidienne publiée par l’INSP.
Organisation du mémoire :
Learning », nous allons expliquer, en premier lieu, les étapes d’une approche
typique basée Machine Learning avec les différents algorithmes et modèles
mathématiques impliqués dans chaque étape. Ensuite, on va basculer vers le
langage Python comme étant le langage le plus répandu actuellement dans le
domaine de la Machine Learning à travers une pile de bibliothèques bien dédié
au domaine.
• Dans le dernier chapitre, on se concentre sur l’implémentation des deux
algorithmes sélectionnés : ARIMA et Prophet, les prédictions trouvées et une
évaluation de performance des deux méthodes selon multiple métriques de
régression les plus connues.
Page 15
Page 16
1. Introduction
2. Définition de la Covid-19
infectieuse est une zoonose, dont l'origine est encore débattue, qui a émergé en
décembre 2019 dans la ville de Wuhan, dans la province du Hubei en Chine. Elle s'est
rapidement propagée, d'abord dans toute la Chine, puis à l'étranger provoquant une
épidémie mondiale. [9]
Page 17
Le Covid-19 est une maladie respiratoire pouvant être mortelle chez les patients
fragilisés par l'âge ou une autre maladie chronique. Elle se transmet par contact
rapproché avec des personnes infectées. La maladie pourrait aussi être transmise par des
patients asymptomatiques mais les données scientifiques manquent pour en attester avec
certitude.
2.2 Dénomination
Et sept formes différentes dont quatre communes (moins graves que les autres) [11] :
•
229E (alpha coronavirus)
•
NL63 (alpha coronavirus)
•
OC43 (bêta-coronavirus)
•
HKU1 (bêta- coronavirus)
•
MERS-COV (le coronavirus bêta qui provoque le syndrome respiratoire du Moyen-
Orient, ou MERS découvert en 2012 en Arabie Saoudite).
•
SARS-COV (le bêta-coronavirus qui cause le syndrome respiratoire aigu sévère,
SARS, identifié en Chine en 2002)
quelques jours après les premiers symptômes. Il existe aussi des formes bénignes et
asymptomatiques du Covid-19 alors que le Sars n’entraînait que des formes sévères. [12]
Page 18
Toute situation dans laquelle des personnes sont à proximité immédiate les unes des
autres pendant de longues périodes augmente le risque de transmission. Les espaces
intérieurs, en particulier lorsqu’ils sont mal ventilés, présentent plus de risques que les
espaces en plein air. Les activités lors desquelles le volume de particules expulsées par la
bouche est plus important, comme le fait de chanter ou de respirer fortement pendant
l’exercice physique, augmentent également le risque de transmission. [14]
La transmission est facilitée dans les lieux et situations répondant aux 3 critères suivants :
▪ Espaces bondés.
▪ Contact étroit, par exemple lorsque des personnes discutent en se tenant très près
critères coïncident.
Il est donc important d’appliquer également les règles d’hygiène respiratoire (par
exemple, en se couvrant la bouche et le nez avec le pli du coude lorsque l’on tousse) et
aussi maintenir à distance les personnes Pour prévenir l’infection et ralentir la
transmission de le Covid-19.
Page 19
✓ fièvre
✓ toux sèche;
✓ fatigue.
✓ courbatures et douleurs
✓ maux de gorge
✓ diarrhée
✓ conjonctivite
✓ maux de tête
✓ perte du goût ou de l’odorat
✓ éruption cutanée ou décoloration des doigts ou des orteils.
Symptômes graves:
Page 20
Le premier cas, un ressortissant italien, a été notifié le 25 février 2020 dans une base
de vie Hassi Messaoud dans la wilaya de Ouargla. A partir du 02 mars 2020 un foyer a été
détecté dans la wilaya de Blida suite à une alerte lancée par la France après la confirmation
au Covid-19 de deux citoyens Algériens résidant en France ayant séjourné en Algérie.
Depuis l’épidémie s’est étendue à l’ensemble du territoire national [17].
A la date du 08 Août 2020, toutes les 48 wilayas (Figure 1.3) ont notifié des cas
confirmés de Covid-19 depuis le début de l’épidémie en Algérie. Le taux d’incidence
nationale des cas confirmés par PCR est de 79 pour 100 000 habitants. [18]
Figure 1. 3: Répartition spatiale du nombre de cas confirmés dans les wilayas de
l’Algérie [45].
Page 21
A titre informatif, les wilayas de Chlef et Tizi-Ouzou n’ont pas notifié de cas confirmé de
Covid-19 les sept derniers jours qui précédent le du 08 Août 2020, alors que 17 wilayas
n’ont notifié aucun cas dans les précédentes 24 heures (Figure 1.4). Ainsi, 17 wilayas
enregistrent un taux d’incidence supérieur au taux d’incidence national (79 /100000 Hbts).
Les taux les plus élevés sont enregistrés dans les wilayas de :
Aussi, 11 nouveaux décès ont été notifiés le même jour (le 08 Août 2020), soit 02 décès de
plus par rapport aux données de la veille, portant le nombre total des décès enregistrés
depuis le début de l’épidémie à 1 293 décès. La létalité des cas PCR est de 3,73 % au
niveau national (Figures 1.3 et 1.5).
Page 22
confinement
• 15 avril 2021 : Les autorités annoncent la reconduction du confinement
• 30 mars 2021 : Les autorités annoncent la reconduction et allègement du
confinement
• 30 janvier 2021 : Les autorités annoncent la reconduction et allègement du
confinement
• 03 janvier 2021 : Les autorités annoncent la reconduction du confinement et la
confinement
• 29 octobre 2020 : Les autorités annoncent la reconduction du confinement partiel
11
Page 23
sera abordée ‘lorsque le nombre des nouveaux cas positifs sera réduit à un seuil
moins inquiétant’ et ‘lorsqu’on s’approchera de zéro décès.
• 23 mars 2020 : Les autorités annoncent de nouvelles mesures de confinement après
trois de l’épidémie
• 19 mars 2020 : Les autorités annoncent de nouvelles mesures de confinement après
exposé des mesures prises par les autorités algériennes afin de lutter contre la
propagation du covid-19. Outre les mesures restées inchangées, certaines
dispositions ont été élargies tandis que d’autres décisions clés ont été annoncées.
• 13 mars 2020 : Le premier cas de covid-19 est confirmé dans la capitale, à Alger,
aux examens de dépistage réalisés auprès des individus qui ont été en contact avec
cette personne
• 01 mars 2020 : Un ressortissant algérien résidant en France est testé positif au
covid-19 lors d’une visite à sa famille dans la wilaya de Blida, au nord du pays
12
Page 24
est un ressortissant italien qui travaille dans la base de vie du champ gazier Menzel
Ledjmet-Est (MLE) dans la wilaya de Ouargla, au sud-est du pays. Le patient est
rapatrié en Italie et la base de vie est placée en quarantaine. Aucun cas lié à cet
individu n’a été enregistré
• 03 février 2020 : Les autorités algériennes rapatrient 31 algériens ainsi que 17
6. Conclusion
Dans ce chapitre, nous avons parlé de cette nouvelle pandémie du Corona Virus dites
(Covid-19) et expliquer d’où provienne cette maladie, ses causes et ses conséquences sur la
santé de l’être humain, aussi ses symptômes et effets. Du coup, on a cité les cas de
contaminations et décès en Algérie depuis le début de cette maladie pour qu’on puisse
utiliser les chiffres de contaminations dans le cadre de notre étude prédictive.
Dans le chapitre suivant, nous allons présenter notre approche de prédiction basée
sur les modèles du Machine Learning supervisé particulièrement les algorithmes de
régression.
13
Page 25
Page 26
1. Introduction
Le présent chapitre commence, en premier lieu, par présenter les différents types du
Machine Learning ensuite on va montrer les étapes d’une approche typique basée Machine
Learning avec les différents algorithmes et modèles mathématiques impliqués dans chaque
étape. Ensuite, on va basculer vers le langage Python comme étant le langage le plus
répandu actuellement dans le domaine de la Machine Learning à travers une pile de
bibliothèques bien dédié au domaine
2. Apprentissage Automatique
15
Page 27
4. Types d'apprentissage
16
Page 28
Le système doit cibler, dans l'espace de description (l'ensemble des données), les
données selon leurs attributs disponibles, pour les classer en groupes homogènes
d'exemples. La similarité est généralement calculée selon une fonction de distance entre
paires d'exemples. C'est ensuite à l'opérateur d'associer ou déduire du sens pour chaque
groupe et pour les motifs (patterns en anglais) d'apparition de groupes, ou de groupes de
groupes, dans leur « espace ». Divers outils mathématiques et logiciels peuvent l'aider. On
parle aussi d'analyse des données en régression (ajustement d'un modèle par une procédure
de type moindres carrés ou autre optimisation d'une fonction de coût). Si l'approche est
probabiliste (c'est-à-dire que chaque exemple, au lieu d'être classé dans une seule classe,
est caractérisé par un jeu de probabilités d'appartenance à chacune des classes), on parle
alors de « soft clustering » (par opposition au « hard clustering »). [24]
17
Page 29
Il s’agit de préparer les données afin de les rendre exploitables par les algorithmes
d’apprentissage automatique. Et peut se faire comme suit : [26]
- Nettoyage des données : Trouver les valeurs manquantes (NaN) et les données
dupliquées. Le nettoyage de données consiste à remplacer les (NaN) par d’autres
valeurs (la moyenne de la série, le médian de la série, la moyenne des voisins, etc)
ou les supprimer et s’assurer de ne pas avoir de doublons.
- Décomposition des données : Les colonnes de texte contiennent parfois plus d’une
information ; et doivent être divisés en autant de colonnes dédiées que nécessaire.
Si certaines colonnes représentent des catégories, il est préférable de les convertir
en colonnes de type catégorie.
- Agrégation de données : Regroupez certaines informations ensemble quand c’est
pertinent.
- Mise à l’échelle (Data Scaling) : Cela permettra d’obtenir des données à une
échelle commune, si ce n’est déjà le cas. La mise à l’échelle des données ne
s’applique pas au label ou aux colonnes de catégories. Elle est nécessaire lorsqu’il y
a une grande variation dans les plages de variables (features en anglais).
18
Page 30
Diviser le dataset en « train » et « test » a un but précis : pouvoir tester sur (Xtest, Ytest) les
capacités de généralisation de notre modèle, qui aura été entraîné sur (Xtrain, Ytrain), et
n'aura jamais vu (Xtest, Ytest) au cours de son entraînement avec des algorithmes choisis
pour le faire [20].
Dans ce qui suit, on va présenter les deux modèles que nous avons choisis pour
supporter notre approche de prédiction.
Modèle AR :
19
Page 31
Où ϵ est un bruit blanc et c une constante. Appliquer le modèle AR revient donc à trouver
les coefficients pi ainsi que la variance du bruit ϵt et la constante c. On peut trouver le pi
par régression linéaire par exemple.
Modèle MA :
Ce modèle considère que la série (ou la variable) peut s'écrire comme combinaison
linéaire de valeur actuelle d'un processus stochastique et de ses n valeurs précédentes. On
parle d'un MA d'ordre n. La série peut donc s'écrire de la façon suivante : [28]
Le I de ARIMA est pour "Integrated" et indique qu'il faut différencier la série originale
afin d'éliminer un caractère non-stationnaire éventuel.
Un modèle ARIMA est étiqueté comme modèle ARIMA (p,d,q), dans lequel:
Prophet est une méthode de prédiction déployé sous forme de bibliothèques Open source
développées par Facebook dans le but de démocratiser les prévisions des séries temporelles
et de les simplifier. Ce modèle convient particulièrement à des séries temporelles de type
‘business‘ affectées par des événements ou des saisonnalités liées à l’activité humaine
20
Page 32
(exemple : fêtes de fin d’année, soldes, saisons, vacances, etc.). Le modèle est implémenté
dans un langage d’inférence statistique en C++ qui s’appelle Stan et est disponible depuis
2017 en R et en Python [29].
La tendance est modélisée par défaut de façon linéaire continue par morceaux. Les
points de changement de la tendance (change points dans l’API Prophet) sont
automatiquement détectés mais peuvent aussi être spécifiés de façon explicite par
l’analyste. Les changes points (Figure 2.5) sont représentés par les lignes pointillées
verticales et la tendance est représentée par la ligne brisée rouge dans le graphique
suivant :
21
Page 33
22
Page 34
La saisonnalité à l’échelle des jours, semaines, mois et années est gérée de façon
automatique par le modèle. En cas de besoin spécifique, la modélisation de la saisonnalité
peut être paramétrée en ajustant sa sensibilité voire en programmant des saisonnalités
Enfin, les vacances et événements sont pris en compte via des tables renseignées par
l’analyste. L’influence des vacances et événements sur les jours précédents et suivants peut
être paramétrés via un paramètre de régularisation. [30]
L’important à retenir est que l’API de Prophet permet à l’analyste d’avoir de bons
résultats rapidement avec les valeurs par défaut, puis d’enrichir le modèle de façon
itérative avec de la connaissance métier, via: [30]
- La liste explicite des événements et/ou vacances pouvant impacter la valeur prédite.
- Le para métrisation de la régularisation du modèle.
23
Page 35
s’agit de la proportion de la variance d’une variable dépendante qui s’explique par une ou
plusieurs variables indépendantes dans le modèle de régression. On l’exprime soit entre 0
et 1, soit en pourcentage.
Avec yi la valeur du point i, ŷ la valeur prédite pour le point i par la régression linéaire, ӯ
la moyenne empirique des points donnés. [31]
L'erreur absolue moyenne (MAE) est une mesure des erreurs entre des observations
appariées exprimant le même phénomène. Des exemples de Y par rapport à X
comprennent des comparaisons entre le temps prévu et observé, le temps ultérieur par
rapport au temps initial et une technique de mesure par rapport à une autre technique de
mesure. MAE est calculée comme suit : [32]
= la ��
n= nombre de prédiction.
24
Page 36
est une mesure caractérisant la « précision » de cet estimateur. Elle est plus souvent
appelée « erreur quadratique » (« moyenne » étant sous-entendu) ; elle est parfois appelée
aussi « risque quadratique ». [33]
Où
Si l'évaluation est réussie, il faudra passer à l'étape de réglage des hyper paramètres.
Cette étape tente d'améliorer les résultats positifs obtenus lors de l'étape d'évaluation. Il
existe différentes manières pour améliorer le modèle. L'un d'eux revisite l'étape
d'entraînement et utilise plusieurs balayages de l'ensemble de données d'entraînement pour
entraîner le modèle. Cela pourrait conduire à une plus grande précision car la durée plus
longue de la formation offre plus d'exposition et améliore la qualité du modèle. Une autre
façon de procéder consiste à affiner les valeurs initiales données au modèle. Les valeurs
initiales aléatoires produisent souvent des résultats médiocres car elles sont
progressivement affinées par essais et erreurs. [34]
6. Le langage Python
25
Page 37
Python est le langage de programmation open source le plus employé par les
informaticiens. Ce langage s’est propulsé en tête de la gestion d’infrastructure, d’analyse
de données ou dans le domaine du développement de logiciels. En effet, parmi ses qualités,
Python permet notamment aux développeurs de se concentrer sur ce qu’ils font plutôt que
sur la manière dont ils le font. Il a libéré les développeurs des contraintes de formes qui
occupaient leur temps avec les langages plus anciens. Ainsi, développer du code avec
Python est plus rapide qu’avec d’autres langages. [35]
Certains EDI gratuits ont des limites sur la quantité de code que tout le monde peut
utiliser, tandis que les EDI payants offrent bien sûr beaucoup plus de liberté.
a. Anaconda
Anaconda est une distribution libre et open source des langages de programmation
calcul scientifique), qui vise à simplifier la gestion des paquets et de déploiement. Les
versions de paquetages sont gérées par le système de gestion de paquets conda. La
distribution Anaconda est utilisée par plus de 6 millions d'utilisateurs et comprend plus de
250 paquets populaires en science des données adaptés pour Windows, Linux et MacOS.
[37]
b. Jupyter
Jupyter est une application web utilisée pour programmer dans plus de 40 langages de
programmation, dont Python, Julia, Ruby, R, ou encore Scala. C'est un projet
communautaire dont l'objectif est de développer des logiciels libres, des formats ouverts et
des services pour l'informatique interactive. Jupyter est une évolution du projet IPython.
Jupyter permet de réaliser des calepins ou notebooks, c'est-à-dire des programmes
26
Page 38
Chapitre II Une Approche de prédiction basée ML
contenant à la fois du texte en markdown et du code en Julia, Python, R... Ces calepins sont
utilisés en science des données pour explorer et analyser des données. [38]
b. Scikit-learn
c. Matplotlib
d. Pandas
7. Conclusion
27
Page 39
Dans ce chapitre, nous avons expliqué les différentes étapes qui constituent une
approche basée Machine Learning. Ensuite nous avons donné une brève introduction sur le
langage de programmation Python qui est utilisé pour ce projet en citant les étapes de
Page 40
Page 41
1. Introduction
L'évaluation des modèles est une tâche essentielle dans le ML en général et dans la
2. Dataset
Les données collectées des 48 wilayas sur une plage de 370 jours (du 19/04/2020 au
23/04/2021) soit 17760 données saisies pour les cas confirmés et le même chiffre pour les
cas décédés.
La figure 3.1 montre la variation des nombres des cas confirmés par jours durant une
période de 370 jours. On remarque qu’à partir du 04/06/2020 le nombre des cas a
augmenté de 98 cas confirmés par jours jusqu’à atteindre un premier pique durant la fin du
mois de juillet avec 675 cas. Puis le nombre a chuté à 121 en 07/10/2020. Juste après un
deuxième pique plus grand a eu lieu en 24/11/2020 avec plus de 1088 cas confirmés par
jour. Et vers la fin le nombre de cas a commencé à s’augmenter doucement une troisième
fois à partir d’un minima de 89 cas confirmé durant la quatrième semaine de Mars et le
Cas confirmés
1200
1000
800
600
400
200
0 19/04/2020
03/05/2020
17/05/2020
31/05/2020
14/06/2020
28/06/2020
12/07/2020
26/07/2020
09/08/2020
23/08/2020
06/09/2020
20/09/2020
04/10/2020
18/10/2020
01/11/2020
15/11/2020
29/11/2020
13/12/2020
27/12/2020
10/01/2021
24/01/2021
07/02/2021
21/02/2021
07/03/2021
21/03/2021
04/04/2021
18/04/2021
30
Page 42
Le dataset a été collecté à partir des nombres de cas confirmés cumulés durant 370
jours dans toutes les wilayas. Les données figurent dans le diagramme à barres montré
dans la figure 3.2. On remarque une grande différence dans le nombre total entre les
wilayas dont les wilayas de Alger, Oran, Blida et Setif sont les wilayas qu’on peut
15000
10000
5000
0 l j
f t r a t t u re a a s a a n h s rf uf la e
tif e b éa m nt ia
rar le ua ghi tna jaia ira
lid u re lfa e ’sila Illizirid
a silt ed ras aza ila fla n
h a a cha B essa cen zo lg je Jije Sé b lm rgla rde u M De
Ad C ho u B éB iskra B éB o rasseb ia
T u A D Said b
Skikd
e ntineéd
nna u
a Ora
an M ascara
u ayad rre e lET m nch
Tip aâma rda liza
g o B e lem M indo lO
T T lA A
e G M O lB A T isse E he k Ah in N uche
o ha
e
R
La lB izi O nsta E u um K u A G
E T o stag o o T m
aman iB o B So e
T C T
Sid M jB
um in
O rd
o A
B
La figure 3.3 montre le nombre des cas décédés par jour durant une période de 370
jours dans toute l’Algérie. Nous remarquons que les cas augmentent et diminuent à un taux
faible jusqu'au 2/11/2020 quand il a commencé à augmenter jusqu'à ce qu'il atteigne 23 cas
par jour le 26/11/2020 puis il diminue à nouveau et maintient un taux plus faible qu'il était
avant la pique.
Death Cases
25
20
15
10
5
0
20 20 20 20 20 20 20 20 20 21 21 21 21 21
020 020 020 020 020 020 020 020 020 020 020 020 020 021 021 021 021
9/20 3/205/20 9/20 3/205/20 8/200/20 3/20 1/20 4/206/20 2/20 5/20
/01/2 /07/2 /01/2 /06/2 /11/2 /05/2/17/2/29/2/10/2/22/2/04/2/16/2/28/2/09/2 /02/2 /10/2 /03/2
4/1 5/1 5/2 6/1 7/1 7/2 8/1 8/3 9/2 1/2 2/1 2/2 3/2 4/1
05 06 07 08 09 10 10 10 11 11 12 12 12 01 02 03 04
31
Page 43
Chapitre III Implémentation, résultats et discussion
26/04/ 27/04/ 28/04/ 29/04/ 30/04/ 01/05/ 02/05/ 03/05/ 04/05/ 05/05/
2020 2020 2020 2020 2020 2020 2020 2020 2020 2020
1 Adrar 6 4 0 0 5 0 0 6 5 0
2 Chlef 0 0 0 0 0 0 0 0 6 0
3 Laghouat 3 1 1 1 0 1 3 4 6 0
4 Oum El Bouaghi 10 0 4 7 0 5 0 0 11 9
5 Batna 0 0 0 7 1 1 0 14 2 7 …
6 Béjaia 1 5 3 3 1 3 3 1 3 11
7 Biskra 0 8 3 1 0 2 2 5 2 2
8 Béchar 15 1 4 5 3 0 0 0 10 9
9 Blida 0 12 11 14 13 11 10 19 7 14
10 Bouira 2 2 0 1 0 2 1 0 0 0
11 Tamanrasset 0 0 0 2 0 0 0 0 0 0
… … … … … … … … … … …
48 Relizane 1 5 1 1 5 0 2 0 3 0
32
Page 44
La table 3.1 contient le détail des cas confirmés dont chaque ligne représente une
wilaya et chaque colonne représente la date. Donc chaque cellule contient le nombre de cas
confirmés dans la date de sa colonne et la wilaya de la ligne en question. On constate qu’il
n’est pas intéressant d’étudier chaque wilaya séparément, mais plutôt d’agréger les
nombres de cas regroupés par date pour obtenir le nombre de cas dans toute l’Algérie.
33
Page 45
Cas confirmés
Régression linaire
4. Implémentation
1. Chargement des bibliothèques qui seront utilisées dans ce qui suit dans le code.
2. Importation du dataset en question en format CSV (Comma Separated Values).
suit :
a. Saisonnalité (seasonality) : La saisonnalité signifie la période qu’on prend
en considération lors de l’analyse des tendances, à savoir saisonnalité
annuelle (yearly_seasonality), hebdomadaire (weekly_seasonality) ou
quotidienne ( daily_seasonality).
b. Développement (growth) : Ce paramètre sert à définir le type de
développement du graphe, à savoir linéaire, logistique ou autres.
c. L'échelle préalable de la saisonnalité (the seasonality prior scale) : Un
paramètre modulant la force du modèle de saisonnalité. Des valeurs plus
grandes permettent au modèle de s'adapter à des variations saisonnières plus
importantes, des valeurs plus petites atténuent la saisonnalité.
5. Entrainement du modèle.
6. Prédiction des nombres de cas décédés dans les prochains trois mois.
7. Affichage des résultats prédits sous forme de graphe.
8. Calcul des métriques d’évaluation.
34
Page 46
La figure 3.6 contient un code qui sert à effectuer un test de Augmented Dickey-
Fuller. Ce test permet de quantifier la stationnarité du dataset. Une p-value plus petit que
0.05 permet de dire que le dataset est stationnaire.
35
Page 47
Chapitre III Implémentation, résultats et discussion
5. Résultats
Les figures 3.7 et 3.8 montre l’allure des graphes des données réelles des cas
confirmés et décédés, respectivement, des résultats de test (les données du test représentent
30% du dataset) du modèle Prophet et ceux du modèle ARIMA. Les deux modèles donnent
de bons résultats dans le cas des cas confirmés et décédés. Les résultats qu’on obtient par
l’utilisation des deux modèles pour la phase du test sont rapprochés les uns des autres, et
les deux sont similaires à l’allure des données réelles. Ce qui montre une bonne qualité de
l’entrainement.
36
Page 48
300
cased
250
200
firmed
n
o Confirmés
fC150
ARIMA
er100
o
Prophet
mb
u
n 50
0
Figure 3. 7: résultats du test des deux modèles ARIMA et Prophet pour les cas
confirmés.
7
s cases
6
eath
5 Confirmés
fD
4 ARIMA
er o
3 Prophet
mb
u
N 2
1
Figure 3. 8: résultats du test des deux modèles ARIMA et Prophet pour les cas
décédés.
6. Prédiction future
37
Page 49
38
Page 50
300
250
200
150
100
50
0
03/01/2021 03/02/2021 03/03/2021 03/04/2021 03/05/2021 03/06/2021 03/07/2021
Figure 3. 11: résultats de la prédiction du modèle ARIMA pour les cas confirmés.
Figure 3. 12: résultats de la prédiction du modèle ARIMA pour les cas décédés.
7. Discussion
Après avoir utilisé les deux modèles Prophet et ARIMA, nous avons calculé les
différentes métriques d’évaluation r2 score, MAE, MSE, RMSE et Max error afin de savoir
le meilleur modèle. Nous trouvons que les performances de Prophet sont meilleures que
celles de ARIMA en termes de r2 score dans les 2 types de cas (confirmés et décédés).
39
Page 51
Cependant, malgré que le MAE et le RMSE de ARIMA sont plus faible, le modèle Prophet
est plus performant car ces métriques pénalisent les grandes erreurs et non le grand nombre
des erreurs. C’est-à-dire Prophet fait moins d’erreur que ARIMA mais ses erreurs sont de
valeurs plus grandes. Ceci signifie que les métriques d’évaluation choisis ne donnent pas
une évaluation complète toutes seules mais en combinant ces erreurs avec les graphiques
de prédiction on peut conclure que Prophet est le meilleur. Ainsi, le modèle ARIMA oblige
la stationnarité de la série temporelle (i.e. le test Augmented Dickey-Fuller ) à l’instar de
Prophet et est sensible beaucoup au hyperparamètres p, d et q que doivent être soumis à
une phase préalable pour chercher la combinaison optimale (i.e. best parameters).
8. Conclusion
différentes variations des cas confirmés et décès. Ensuite nous avons mis l’accent sur le
dataset initiale collecté et sa transformation en une série temporelle.
40
Page 52
Page 53
Conclusion Générale
Dans ce contexte, nous avons adopté une approche basée Machine Learning pour
prédire les futures cas confirmés et décédés de la Covid-19. Nous avons sélectionné deux
méthodes de prédictions célèbres dans le domaine des statistiques descriptives univarié le
modèle ARIMA et le Modèle Prophet.
L’étude de prédiction établie a montré une meilleure performance de Prophet par rapport à
ARIMA. Cela est justifier par le fait que ARIMA nécessite un ajustement de paramètres
pour trouver la meilleure combinaison. De plus, il souffre d’une mauvaise tolérance par
rapport à la stationnarité. Contrairement à Prophet qui montre une grande robustesse,
notamment pour la saisonnalité, la tolérance au manque de stationnarité des dataset et la
grande flexibilité dans le choix de la saisonnalité (annuelle, hebdomadaire et quotidienne)
et même le choix des jours fériés et des vacances par pays.
• Continuer le processus de prédiction au fur et à mesure que les résultats des cas
42
Page 54
Page 55
Bibliographie
[18] Rev Epidemiol Sante Publique. 2021 Jun; 69: S52. Published online 2021 mai 21. French. DOI :
10.1016/j.respe.2021.04.085.
[19] https://www.aps.dz/algerie/112352-plan-d-action-d-urgence-pour-contenir-la-propagation-
de-la-covid-19.
[20] « apprentissage automatique », Le Grand Dictionnaire terminologique, Office québécois de la
langue française (consulté le 28 janvier 2020).
[22] Antoine Cornuéjols, Laurent Miclet, Yves Kodratoff, Apprentissage Artificiel : Concepts et
algorithmes, Eyrolles, 2002 (ISBN 2-212-11020-0).
[23] Apprentissage automatique - Définition et Explications--https://www.techno-
science.net/glossaire-definition/Apprentissage-automatique.html.
[24] A. Cornuéjols, L. Miclet, Y.Kodratoff, « Apprentissage Artificiel, Concepts et algorithms » ISBN
2-212-11020-0, 2002.
[25] McGraw-Hill International Editions, chap. 13 Reinforcement Learning, p. 367-390.
[29] Taylor SJ, Letham B. 2017. Forecasting at scale. PeerJ Preprint
5:e3190v2 https://doi.org/10.7287/ peerj.preprints.3190v2
[36] https://analyticsinsights.io/pourquoi-python-est-populaire-en-data-science.
[37] « https://docs.anaconda.com/anaconda/reference/release-notes.
[38] « https://jupyter.org/about » [archive] (consulté le 29 janvier 2021) (en) « Jupyter kernels »,
sur github.com.
44
Page 56
Bibliographie
[44] National Center for Immunization and Respiratory Diseases (NCIRD), Division of Viral
Diseases.
[52] facebook.github.io/prophet/docs/quick_start.
45
Page 57
Bibliographie
Webographie :
[4] https://www.lemonde.fr/planete/article/2020/01/09/une-pneumonie-d-origine-inconnue-en-
chine_6025276_3244.html.
[9] https://www.futura-sciences.com/sante/definitions/coronavirus-covid-19-18585.
[13] https://www.cdc.gov/coronavirus/2019-ncov/science/science-briefs/sars-cov-2-transmissio
n.html .
[14] https://www.who.int/fr/health-topics/coronavirus/coronavirus#tab=tab_1.
[15] https://www.who.int/fr/emergencies/diseases/novel-coronavirus-2019/question-and-answ
ers-hub/q-a-detail/coronavirus-disease-covid-19#:~:text=symptomes.
[16] https://www.inserm.fr/information-en-sante/dossiers-information/coronavirus-sars-cov-et-
mers-cov.
[17] https://reliefweb.int/report/algeria/alg-rie-rapport-de-situation-sur-l-pid-mie-du-covid-19-
451-du-22-juin-2021.
[21] https://www.industrie-techno.com/article/yann-lecun-facebook-l-apprentissag e-predictif-
est-le-grand-defi-scientifique-de-l-intelligence-artificielle.43641.
[26] https://www.spiria.com/fr/blogue/intelligence-artificielle/3-etapes-essentielles-apprentissag
e-automatique-machine-learning.
[27] https://www.journaldunet.fr/web-tech/guide-de-l-intelligence-artificielle/1501315-autoregr
essive-integrated-moving-average-arima-definition/
[28] https://ledatascientist.com/arima.
[30] https://blog.engineering.publicissapient.fr/2020/04/01/lanalyse-de-series-temporelles-avec-
prophet-et-deepar.
[31] https://blog.nalo.fr/lexique/r-carre-ou-r2.
[32] https://fr.xcv.wiki/wiki/Mean_absolute_error.
[33] https://datafranca.org/wiki/Erreur_quadratique_moyenne.
[34] https://www.editionseni.fr/open/mediabook.aspx?idR=4a1d225f6d8933d9 88744
4217128e604.
[35] https://www.journaldunet.fr/web-tech/dictionnaire-du-webmastering /1445304python-
definition-et-utilisation-de-ce-langage-informatique.
[45] https://www.afro.who.int/sites/default/files/202007/Sitrep%20102_01072020_%20F_0.pdf.
[46] https://www.afro.who.int/sites/default/files/202007/Sitrep%20102_01072020_%20F_ 0.pdf.
[47] https://www.afro.who.int/sites/default/files/202007/Sitrep%20102_01072020_%20F_ 0.pdf.
[48] https://www.spiria.com/fr/blogue/intelligence-artificielle/3-etapes-essentielles-apprentissa
ge- automatique-machine-learning/.
[49] https://ichi.pro/fr/quel-algorithme-d-apprentissage-automatique-devez-vous-utiliser-par-
type-de-probleme-1816659 63074918.
[50] https://www.spiria.com/fr/blogue/intelligence-artificielle/3-etapes-essentielles-apprentissa
ge-automatique-machine-learning.
[51] https://blog.engineering.publicissapient.fr/2020/04/01/lanalyse-de-series-temporelles-avec-
prophet-et-deepar/.
46