Vous êtes sur la page 1sur 2

Act. 3/ Sem.

2 C106
Intitulé : Analyse et fouille de données
Responsable : Jérôme BOSCHE - UPJV - France
Préambule :
Dans le cadre de ce devoir, le logiciel Scilab sera utilisé pour répondre aux différentes questions de l’énoncé.
Scilab est un logiciel open source de calcul numérique possédant de nombreuses fonctionnalités adaptées à ce
type de problèmes.

Contexte
On se propose d’utiliser les outils abordés dans le cadre de l’UE Data Science afin de prédire l’évolution
du nombre de cas positifs à la COVID-19 en France. Pour cela, nous disposons des données propres
à une dizaine de pays : Allemagne (Al), Belgique (Be), Chine (Ch), Espagne (Es), Etats-Unis (Eu),
France (Fr), Grande-Bretagne (Gb), Italie (It), Portugal (Po) et Russie (Ru), sur la période du 13
janvier au 11 février. Ces données sont extraites du site https://coronavirus.politologue.com/ et
sont renseignées dans le fichier:
COVID2021.sce

Dans ce fichier, figurent également les nombres d’habitants de chacun des 10 pays cités précédem-
ment et rappelés ci-dessous:

1. Allemagne : 83,2 millions d’habitants;


2. Belgique : 11,46 millions d’habitants;
3. Chine : 1,4418 milliard d’habitants;
4. Espagne : 46,94 millions d’habitants;
5. États-Unis : 329,26 millions d’habitants;
6. France : 66,99 millions d’habitants;
7. Grande-Bretagne : 65,1 millions d’habitants;
8. Italie : 60,36 millions d’habitants;
9. Portugal : 10,35 millions d’habitants;
10. Russie : 144,5 millions d’habitants;

Analyse des données


1. A partir des données disponibles (10 pays), calculer le nombre moyen de nouveaux cas positifs
chaque 24 heures.

2. Toujours à partir des données disponibles, donner et tracer l’évolution moyenne du nombre de cas
positifs pour un pays sur la période du 13 janvier au 20 janvier. La courbe sera tracée en bleu.

3. Reconsidérer la question 2 en tenant compte de la démographie. Pour ce faire, pour le calcul de


la moyenne, seront appliqués des coefficients de pondération fonctions du nombre d’habitants. A
savoir, pour chaque pays, le coefficient de pondération sera égal au nombre d’habitants dans le

Q jerome.bosche@u-picardie.fr
pays divisé par le nombre total d’habitants considérés par les 10 pays. Le courbe sera tracée en
rouge sur le même graphe que celui de la question 2.

4. A partir des données initiales (sans pondération) calculer l’écart-type ramené au nombre d’habitants,
propre à chaque pays. En conclure pour quel pays la situation est-elle la plus préoccupante pour
ces 30 derniers jours.

5. On considère que les relevés effectués les 10 derniers jours (du 2 au 11 février) ne sont pas
consolidés (=pas complètement fiables). On leur attribut alors une importance moindre. Plus
1
concrètement, le coefficient de pondération associé à ces 10 jours est pond1 = alors que celui
90
4
associé aux 20 autres jours est pond2 = . Reprendre la question 4 en prenant en compte ces
90
coefficients de pondération. Conclusion.

Prédiction
Plus aucune pondération n’est maintenant prise en compte. Les données initiales seront donc
utilisées pour traiter les questions suivantes.
6. La base de données est maintenant séparée en deux : les données des 15 premiers jours (du 13
au 27 janvier) et celles des 15 derniers jours (du 28 janvier au 11 février). On notera PAYS- les
données des 15 premiers jours et PAYS+ celles des 15 derniers. On distinguera donc Al- et Al+,
Be- et Be+, Ch- et Ch+,...

Calculer les 10 coefficients de corrélation correspondant à la corrélation entre Fr+ et, respective-
ment, Al-, Be-, Ch-, Es-, Eu-, Fr-, Gb-, It-, Po- et Ru-. Conclusion.

7. Calculer les 10 polynômes d’ajustement d’ordre 1, ajustant Fr+ en fonction de Al-, Be-, Ch-,
Es-, Eu-, Fr-, Gb-, It-, Po- et Ru-. puis tracer en bleu les 10 ajustements obtenus à la question
précédente et les comparer avec Fr+, en rouge.

8. Pour chacun des 10 ajustements, calculer l’erreur au sens des moindres carrés et déterminer en ce
sens quel est le meilleur ajustement.

9. A partir des résultats précédents, donner une estimation du nombre de cas positifs relevés en
France le 17 février.

10. Le nombre d’infections enregistrées en France le 17 février s’élevait en réalité à 218011 cas, donner
l’erreur de prédiction (en %) engendrée par l’estimation de la question précédente. Conclusion.

Q jerome.bosche@u-picardie.fr

Vous aimerez peut-être aussi