Vous êtes sur la page 1sur 3

PROMO EAMAC 2020 – STATISTIQUES TP2 : Modèles de discrimination

Prévisions statistiques d’un dépassement d’un seuil d’Ozone

Description des données :

On cherche ici à élaborer des modèles statistiques permettant de prévoir l’ozone observé
(variable «O3o») à 12H TU sur le site de Cadarache en exploitant 6 prédicteurs potentiels :

O3p : [O3] prévue par MOCAGE à l’échéance considérée (μg/m3)


TEMPE : Température prévue par MOCAGE pour l’échéance considérée (°C)
RMH2O : Rapport de mélange prévu par MOCAGE pour l’échéance considérée (g/kg)
FF : Force du vent prévue par MOCAGE pour l’échéance considérée (m/s)
NO2 : [NO2] prévue par MOCAGE à l’échéance considérée (μg/m3)
JJ : Jour de la semaine (facteur à deux modalités : jours ouvrés (S) /
fins de semaine et jours fériés (F))

Contrairement au TP précédent, le but est ici l’emploi de modèles de discrimination


(régression logistique et analyse discriminante) pour prévoir, à partir des sorties brutes du
modèle de Chimie-Transport MOCAGE à l'échéance 24H (réseau de 12H TU), le
dépassement du seuil d’ozone de 180 μg/m3.

On dispose pour cela d’observations quotidiennes réalisées lors des étés 2002 à 2005.
Le fichier de données est celui du TP précédent : DataTP_MLG.txt.

1) Chargement des librairies et des données :


install.packages(“verification”,dep=T)
library(verification)
library(MASS)

2) Préparation des données :


 Ajouter à la data.frame data deux nouvelles variables, OCC et OCCp, de type factor,
pour respectivement l’occurrence observée de dépassement du seuil et l’occurrence
prévue par MOCAGE. Les occurrences seront codées 1 et les non-occurrences 0.

 Créer une data.frame cad contenant les données relatives au site de Cadarache.

 Exécuter le script scores.R qui permet d’utiliser la fonction scores (fct source).

1
3) Modèle de régression logistique :

 Elaborer un modèle de régression logistique (fonction glm avec family=binomial) et


sélectionner manuellement les meilleurs prédicteurs.

 Comparer avec les modèles sélectionnés par les algorithmes AIC descendant puis BIC
descendant (fonction stepAIC, avec k=log(nrow(cad)) pour utiliser l’indice BIC).

 Evaluer avec la fonction scores les prévisions brutes d’occurrences du dépassement de


seuil (variable OCCp) puis celles fournies pas les régressions logistiques AIC et BIC.
Les probabilités d’occurrences prévues sont disponibles dans le vecteur fitted.values
renvoyé par la fonction glm : comment les exploiter ?

 En exploitant la courbe ROC (fonction roc.plot), déterminer le seuil de probabilité à


utiliser pour une exploitation optimale des prévisions statistiques de dépassement du
seuil par la régression logistique AIC.

 Comparer les Brier Scores (fonction brier) des différentes prévisions.

4) Modèle de régression multiple :

 Utiliser le modèle de régression multiple défini ci-dessous pour prévoir directement


O3o puis en déduire une prévision d’occurrence de dépassement du seuil.

lm.out=lm(O3o~O3p + TEMPE + RMH2O + log(NO2) + FF, data=cad)

Cette méthode donne-t-elle de meilleurs résultats qu’une régression logistique ?


que les prévisions brutes ?

Lancer le script de validation croisée : source(« CV.R »)

5) Analyse discriminante :

 Refaire le TP en utilisant l’analyse discriminante (fcts lda et qda de la librairie MASS)


Conclure.

2
Quelques scores à utiliser :

SCORES ELABORES A PARTIR DE LA TABLE DE CONTINGENCE :

UN SCORE PROBABILISTE : LE BRIER SCORE

oi = 1 si occurrence, 0 sinon
pi est la probabilité d’occurrence prévue
M= nb de prévisions

Ce score varie entre 0 et 1, 0 correspondant à une prévision parfaite (score à orientation


négative). On peut le calculer pour un modèle déterministe, considéré comme un modèle
probabiliste ne prévoyant que des probabilités valant 0 ou 1.

COURBE ROC :

Vous aimerez peut-être aussi