Vous êtes sur la page 1sur 2

Génie Mathématique Année 2021-2022

Projet GM3 − Semestre 2


Première vague
Probabilités et Statistique

• Titre : Etude statistique de données réelles de pollution par les particules fines

• Consigne : Dès l’affectation du sujet, prendre un premier rendez-vous avec M. Bruno


PORTIER pour la présentation du projet. Ensuite, contacter par mail M. Bobbia pour obtenir
le jeu de données et fixer un rendez-vous.

• Contact :
Bruno Portier − LMI
Tél. : 02 35 52 83 39
Mail : bruno.portier@insa-rouen.fr
Page Web : http://lmi2.insa-rouen.fr/~bportier/

Michel Bobbia − Atmo Normandie


Mail : michel.bobbia@atmonormandie.fr

• Suivi de projet : Trois rendez-vous de travail : un avec M. Portier et deux avec M. Bobbia.

• Evaluation du projet : Le projet sera noté sur la base du rapport remis en fin de projet
(pas de présentation orale).

• Description : L’objet de ce projet est d’expérimenter un certain nombre d’outils de statis-


tiques descriptives sur un jeu de données réelles. Les données sont fournies par Atmo Normandie
et concernent des mesures de la qualité de l’air. Dans ce projet, nous étudierons les particules
de diamètre < 2.5 µm, polluant mesuré à la station LFP d’Atmo Normandie.
On dispose de mesures horaires sur la période du 1er janvier 2015 au 31 décembre 2019.
Chaque valeur représente la concentration horaire moyenne. On s’intéressera en particulier à la
concentration journalière moyenne.
Le projet débutera par une petite étude de contextualisation pour décrire le polluant, les
enjeux de santé publique, et la réglementation qui lui est associée.
Les données sont stockées dans un fichier ASCII, de type csv, que l’on pourra charger dans
R avec la commande suivante :

data = read.table("LFP_PM25.csv", sep=";", dec=".", header=TRUE, as.is=TRUE)

1
Ce fichier contient en première colonne la date et l’heure, en deuxième colonne la concentration
horaire du polluant.

1 Etude Globale
L’étude se fera sur le maximum journalier des concentrations horaires. On commencera donc
par constituer la série chronologique adéquate. Attention, la règle suivante doit être considérée :
un maximum journalier n’est valide que si plus de 75% des concentrations horaires de la journée
sont valides - sous R, utiliser la fonction qui vous sera fournie.
Ceci fait, on représentera sur un graphique la série chronologique constituée par les données,
graphique dont on essayera d’extraire le maximum d’information (tendance, phénomène saison-
nier, épisodes, variabilité, ...) - sous R, utiliser la commande plot, avec type=”l”.
L’étude se poursuivra ensuite avec le calcul des statistiques de base et leur analyse (moyenne,
médiane, écart-type, valeurs manquantes, ...) - sous R, utiliser les commandes summary et sd.
Pour compléter l’analyse, on s’appuiera aussi sur l’étude de la distribution des données grâce
à l’histogramme en fréquence et la boı̂te à moustache - sous R, utiliser les commandes hist et
boxplot.
Reliez l’information déduite de ces graphiques avec les coefficients de  kurtosis  et  skew-
ness .

2 Etude d’un éventuel effet de l’activité humaine


On souhaite mettre en évidence (ou pas) un effet de l’activité humaine sur la qualité de l’air
pour le polluant considéré. Pour cela, nous allons étudier les données en fonction du jour de la
semaine.
Pour comparer les jours, on utilisera les statistiques de base ainsi que les boı̂tes à moustache.
Commenter les résultats obtenus et conclure.

• Rédaction du rapport : Le document qui sera remis à la fin du projet devra contenir :
1. une table des matières ;
2. une introduction précisant notamment l’objet du problème posé, les résultats obtenus et
le plan du document ;
3. une première partie qui présente le polluant, les enjeux de santé publique et la réglementation
associée ;
4. une deuxième partie, présentant et commentant les résultats et les graphiques obtenus ;
5. une conclusion ;
6. une bibliographie ;
7. une annexe contenant le listing du programme R
Un soin particulier devra être apporté à la constitution des figures, avec les légendes adéquates
(labels, titres, couleurs, ...) ; on rappelle qu’une figure doit être  self-contained , c’est-à-dire
qu’on doit pouvoir la comprendre et l’interpréter lorsqu’elle est sortie de son contexte.

Vous aimerez peut-être aussi