ApprentissageApprent-R-Ozone - Ipynb at Master Wikistatapprentissage GitHub

Features Explore Pricing This repository Search Sign in or Sign up
wikistat / Apprentissage Watch 0 Star 2 Fork 1
Code Issues 0 Pull requests 0 Projects 0 Pulse Graphs
Branch: master Apprentissage / Pic-ozone / Apprent-R-Ozone.ipynb Find file Copy path
wikistat V1.0 5616f5b 9 hours ago
0 contributors
2421 lines (2420 sloc) 78.1 KB Raw Blame History
Scénarios d'Apprentissage Statistique

(https://github.com/wikistat/Apprentissage)
Adaptation Statistique d'un Modèle de Prévision du Pic d'Ozone avec
(https://cran.r-
project.org/)
Résumé: Exploration puis modélisation de données climatiques en utilisant R. L'objectif est de prévoir pour le lendemain un possible
dépassement d'un seuil de concentration en ozone à partir d'une prévision déterministe sur un maillage grossier et de variables climatiques
locales. Estimation par différentes méthodes: régression linéaire (http://wikistat.fr/pdf/st-m-app-select.pdf) ou logistique (http://wikistat.fr/pdf/st-
m-app-rlogit.pdf), analyse discriminante (http://wikistat.fr/pdf/st-m-app-add.pdf), arbre de décision (http://wikistat.fr/pdf/st-m-app-cart.pdf),
réseau de neurones (http://wikistat.fr/pdf/st-m-app-rn.pdf), agrégation de modèle (http://wikistat.fr/pdf/st-m-app-agreg.pdf), SVM
(http://wikistat.fr/pdf/st-m-app-svm.pdf). Comparaison des erreurs de prévision (http://wikistat.fr/pdf/st-m-app-risque-estim.pdf) sur un
échantillon test puis des courbes ROC. Industrialisaiton avec le package caret et itération sur plusieurs échantillons tests pour analyser la
distribution de l'erreur de prévision.
Avertissement Ce tutoriel est découpé en 4 séances de travaux dirigés syncronisées avec le cours d'apprentissage machine. Réfléchir aux
réponses aux questions marquées Qii. Ce sont elles qui sont suceptibles d'être posées lors de la validation par QCM.
Introduction
L'objectif, sur ces données, est d'améliorer la prévision déterministe (MOCAGE), calculée par les services de MétéoFrance, de la concentration
d'ozone dans certaines stations de prélèvement. Il s'agit d'un problème dit d'adaptation statistique d'une prévision locale de modèles à trop
grande échelle en s'aidant d'autres variables également gérées par MétéoFrance, mais à plus petite échelle (température, force du vent...). Plus
précisément, deux variables peuvent être prévues : soit la concentration quantitative d'ozone, soit le dépassement (qualitatif) d'un certain seuil
fixé à 150 . Dans chaque cas, deux approches sont considérées : soit prévoir la concentration quantitative puis en déduire l'éventuel
dépassement ou bien prévoir directement le dépassement. Dans le premier cas, il s'agit d'abord d'une régression tandis que dans le deuxième il
s'agit d'un problème de discrimination à deux classes ou de régression logistique.
La question posée est donc: quelles sont les meilleures méthodes et stratégies pour prévoir la concentration d'ozone du lendemain d'une part et
l'occurrence d'un pic de pollution d'autre part.
On se propose de tester différentes méthodes : régression logistique (http://wikistat.fr/pdf/st-m-app-rlogit.pdf), analyse discriminante

(http://wikistat.fr/pdf/st-m-app-add.pdf), réseau de neurones (http://wikistat.fr/pdf/st-m-app-rn.pdf), arbre de décision (http://wikistat.fr/pdf/st-m-
app-cart.pdf), agrégation d'arbres (http://wikistat.fr/pdf/st-m-app-agreg.pdf) (bagging, boosting, random forest), SVM (http://wikistat.fr/pdf/st-m-
app-svm.pdf). L'objectif final, à ne pas perdre de vue, est la comparaison de ces méthodes afin de déterminer la plus efficace pour répondre au
problème de prévision. Ceci passe par la mise en place d'un protocole très strict afin de s'assurer d'un minimum d'objectivité pour cette
comparaison.
Toutes les opérations sont réalisées dans R avec l'appui de bibliothèques complémentaires éventuellement à télécharger (ROCR, mlbench,
MASS, boot, class, e1071, rpart, partykit, nnet, ipred, gbm, randomForest, caret).
Python (consulter le calepin ()) conduit à des résultats identiques mais moins complets pour leur interprétation. En particulier, l'absence du type
DataFrame dans la librairie scikit-learn n'autorise pas une sélection fine des variables dans les modèles statistiques usuels. En revanche,
l'exécution de la validation croisée Monte Carlo est beaucoup plus rapide en python
1 Prise en charge des données
Les données ont été extraites et mises en forme par le service concerné de Météo France. Elles sont décrites par les variables suivantes:
JOUR Le type de jour ; férié (1) ou pas (0) ;

O3obs La concentration d'ozone effectivement observée le lendemain à 17h locales correspondant souvent au maximum de pollution
observée ;
MOCAGE Prévision de cette pollution obtenue par un modèle déterministe de mécanique des fluides (équation de Navier et Stockes);
TEMPE Température prévue par MétéoFrance pour le lendemain 17h ;
RMH2O Rapport d'humidité ;
NO2 Concentration en dioxyde d'azote ;
NO Concentration en monoxyde d'azote ;
STATION Lieu de l'observation : Aix-en-Provence, Rambouillet, Munchhausen, Cadarache et Plan de Cuques ;
VentMOD Force du vent ;
VentANG Orientation du vent.
Ce sont des données "propres", sans trous, bien codées et de petites tailles. Elles présentent donc avant tout un caractère pédagogique car
permettant de décliner puis comparer toutes les approches de régression et classification supervisée.
Attention: Même si les données sont de qualité, une étude exploratoire préalable es toujours nécessaire pour se familiariser avec les données et
les préparer à la phase de modélisation.
In [ ]: # Lecture des données

# path="http://www.math.univ-toulouse.fr/~besse/Wikistat/data/"
path=""
ozone=read.table(paste(path,"depSeuil.dat",sep=""),sep=",",header=T)
# Vérification du contenu
summary(ozone)
In [ ]: # Changement du type de la variable jour en facteur

ozone[,"JOUR"]=as.factor(ozone[,"JOUR"])
2. Exploration élémentaire
Remarquer le type des variables. Il est nécessaire d'en étudier la distribution. Noter la symétrie ou non de celles-ci.
In [ ]: hist(ozone[,"O3obs"])
In [ ]: hist(ozone[,"NO2"])
In [ ]: # Même chose pour les autres variables
# hist(ozone[,"MOCAGE"]);hist(ozone[,"TEMPE"]);hist(ozone[,"RMH2O"])
# hist(ozone[,"NO"]);hist(ozone[,"VentMOD"]);hist(ozone[,"VentANG"])
Des transformations sont proposées pour rendre certaines distributions plus symétriques et ainsi plus "gaussiennes". C'est nécessaire pour
certaines méthodes à venir de modélisation (linéaires), par pour toutes (arbres).
In [ ]: ozone[,"SRMH2O"]=sqrt(ozone[,"RMH2O"])
ozone[,"LNO2"]=log(ozone[,"NO2"])
ozone[,"LNO"]=log(ozone[,"NO"])
Vérifier l'opportunité de ces transformations puis retirer les variables initiales et construire la variable "dépassement de seuil" pour obtenir le
fichier qui sera effectivement utilisé.
In [ ]: ozone=ozone[,c(1:4,8:13)]
ozone[,"DepSeuil"]=as.factor(ozone[,"O3obs"]>150)
summary(ozone)
In [ ]: pairs(ozone[,c(3,4,6:10)])
# Noter la natue des relations ou de l'ansence de relation entre les variables.
Les commandes suivantes permettent de réaliser une analyse en composantes principales (http://wikistat.fr/pdf/st-m-explo-acp.pdf) sur les
seules variables quantitatives. Par ailleurs la variable à modéliser (O3obs, concentration observée) n'est pas utilisée.
In [ ]: # ACP réduite
acp=princomp(ozone[,c(3:4,6:10)],cor=TRUE)
# Décroissance des valeurs propres
par(mfrow = c(2,1))
plot(acp); boxplot(data.frame(acp$scores))
Q1 Que sont ces graphiques?
Q2 Que dire du choix de la dimension, des valeurs atypiques?
In [ ]: biplot(acp, col=c("grey","blue"))
Q3 Que dire de la structure de corrélation des variables ? Est-elle intuitive ?
Le même graphique en coloriant les jours.
In [ ]: coul=as.integer(ozone[,"DepSeuil"])+2
plot(acp$scores,col=coul, pch=17+coul-2)
L'objectif est donc de définir une surface séparant les deux classes.
Q4 Une discriminaiton linéaire (hyperplan) semble-t-elle possible?
Ce n'est pas utile ici mais une classification non supervisée est facile à obtenir. Par exemple en 4 classes, par l'algorithme k-means:
In [ ]: km.ozone=kmeans(ozone[,c(3:4,6:10)],centers=4)
# Représentatino dans les coordonnées de l'acp
coul=km.ozone$cluster
plot(acp$scores,col=coul, pch=18)
3. Protocole de comparaison
3.1 Stratégie
La recherche d'une meilleure méthode de prévision suit le protocole suivant.
1. Etape descriptive préliminaire uni et multidimensionnelle visant à repérer les incohérences, les variables non significatives ou de
distribution exotique, les individus non concernés ou atypiques... et à étudier les structures des données. Ce peut être aussi la longue
étape de construction de variables, attributs ou features spécifiques des données.
2. Procéder à un tirage aléatoire d'un échantillon test qui ne sera utilisé que lors de la dernière étape de comparaison des méthodes.
3. La partie restante est l'échantillon d'apprentissage pour l'estimation des paramètres des modèles.
4. Pour chacune des méthodes, optimiser la complexité des modèles en minimisant une estimation "sans biais" de l'erreur de prévision, par
exemple par validation croisée.
Variables et interactions à prendre en compte dans la régression linéaire ou logistique;

variables et méthode pour l'analyse discriminante;
nombre de feuilles dans l'arbre de régression ou de classification;
architecture (nombre de neurones, pénalisation) du perceptron;
algorithme d'agrégation,
noyau et pénalisation des SVMs.
5. Comparaison des qualités de prévision sur la base du taux de mal classés pour le seul échantillon test qui est resté à l'écart de tout
effort ou "acharnement" pour l'optimisation des modèles.
Remarques
En cas d'échantillon relativement "petit" il est recommandé d'itérer la procédure de découpage apprentissage / test, afin de réduire la
variance (moyenne) des estimations des erreurs de prévision.
Q5 Commenta appelle-t-on cette procédure spécifique de validation croisée?
Attention: ne pas "tricher" en modifiant le modèle obtenu lors de l'étape précédente afin d'améliorer le résultat sur l'échantillon test !
Le critère utilisé dépend du problème : erreur quadratique, taux de mauvais classement, entropie, AUC (aire sous la courbe ROC), indice
de Pierce, log loss function...
3.2 Extraction des échantillons
Les commandes ci-dessous réalisent l'extraction du sous-ensemble des données d'apprentissage et de test. Attention, chaque participant tire un
échantillon différent ; il est donc "normal" de na pas obtenir les mêmes modèles, les mêmes résultats.
Utiliser trois chiffres au hasard, et remplacer "111" ci-dessous, comme initialisation du générateur de nombres aléatoires.
In [ ]: set.seed(111) # initialisation du générateur

# Extraction des échantillons
test.ratio=.2 # part de l'échantillon test
npop=nrow(ozone) # nombre de lignes dans les données
nvar=ncol(ozone) # nombre de colonnes
# taille de l'échantillon test
ntest=ceiling(npop*test.ratio)
# indices de l'échantillon test
testi=sample(1:npop,ntest)
# indices de l'échantillon d'apprentissage
appri=setdiff(1:npop,testi)
Construction des échantillons pour la régression: prévision de la concentration en ozone.
In [ ]: # construction de l'échantillon d'apprentissage

datappr=ozone[appri,-11]
# construction de l'échantillon test
datestr=ozone[testi,-11]
summary(datappr) # vérification
Construction des échantillons pour la discrimination: prévision de dépassement.
In [ ]: # construction de l'échantillon d'apprentissage

datappq=ozone[appri,-2]
# construction de l'échantillon test
datestq=ozone[testi,-2]
summary(datappq) # vérification
4. Prévision par modèle gaussien
Le premier modèle à tester est un simple modèle de régression linéaire mais, comme certaines variables sont qualitatives, il s'agit d'une analyse
de covariance. D'autre part, on s'intéresse à savoir si des interactions sont à prendre en compte. Le modèle devient alors polynomiale d'ordre 2
ou quadratique.
4.1 Modèle linéaire
Le modèle de régression linéaire simple intégre des variables qualitatives; c'est dans ce cas une analyse de covariance estimée par la fonction
aov mieux adaptée à ce modèle.
In [ ]: # estimation du modèle sans interaction

reg.lm=aov(O3obs~.,data=datappr)
# Extraction des résidus et des valeurs ajustées
# de ce modèle
res.lm=reg.lm$residuals
fit.lm=reg.lm$fitted.values
# graphe des résidus
# Définition d'une fonction pour un graphe coloré et
# des échelles fixes sur les axes
plot.res=function(x,y,titre="titre")
{
plot(x,y,col="blue",xlim=c(0,250),ylim=c(-100,100),
ylab="Résidus",xlab="Valeurs predites",main=titre,pch=20)
# points(x2,y,col="red")
abline(h=0,col="green")
}
plot.res(fit.lm,res.lm,"")
Q6 Que dire de la distribution de ces résidus?
Q7 La forme du nuage renseigne sur les hypothèses de linéarité du modèle et d'homoscédasticité. Que dire de la validité de ce modèle?
Apprécier néanmoins sa significativité par la commande suivante.
In [ ]: summary(reg.lm)
Q8 Ce premier modèle est comparé avec celui de la seule prévision déterministe MOCAGE. Qu'en conclure?
In [ ]: # Graphe des résidus du modèle déterministe MOCAGE

plot.res(datappr[,"MOCAGE"],datappr[,"MOCAGE"]-datappr[,"O3obs"],"")
4.2 Modèle quadratique
L'étude suivante met en oeuvre toutes les interactions d'ordre 2 entre les variables. Il s'agit donc d'un modèle de régression quadratique. Il est
estimé avec la fonction glm qui permet une sélection automatique de modèle. La méthode descendante est utilisée mais celle pas-à-pas pourrait
également l'être. Ce type de procédure n'est pas implémentée en python.
Sélection descendante: à chaque étape, chaque modèle est comparé à tous les sous-modèles possibles obtenus par suppression d'une des
interactions ou une des variables, à condition qu'elle ne soit pas présente dans une interaction. La variable sélectionnée et supprimée est celle qui
fait décroîre le critère considéré : AIC ou Akaïke Information Criterion.
Q9 Quel autre critère, équivalent à AIC dans le cas gaussien et de variance résiduelle connue, est utilisée en régression linéaire?
Q10 Pourquoi n'est-il pas utilisable ici?
In [ ]: # Estimation du modèle de toute interaction d'ordre 2

reg.glm=glm(O3obs~(.)^2,data=datappr)
# Recherche du meilleur modèle au sens
# du critère d'Akaïke par méthode descendante
reg.glm.step=step(reg.glm,direction="backward")
In [ ]: # Coefficients du modèle
anova(reg.glm.step,test="F")
In [ ]: # Extraction des valeurs ajustées et des résidus

fit.glm=reg.glm.step$fitted.values
res.glm=reg.glm.step$residuals
# Graphe des résidus
plot.res(fit.glm,res.glm,"")
On remarque que la présence de certains interactions ou variables sont pertinentes au sens du critère d'Akaïke mais pas significative au sens du
test de Fisher. Cette présence dans le modèle pourrait être plus finement analysée en considérant une estimation de l'erreur par validation
croisée. L'idée serait de retirer une à une les variables ou interactions les moins significatives pour voir comment se comporte la validation
croisée. D'autre part, si la procédure pas-à-pas conduit à un modèle différent, l'estimation de l'erreur par validation croisée permet également
d'optimiser le choix.
Ces raffinements ne s'avèrent pas efficace sur ces données. Le modèle obtenu par minimisaiton du critère AIC est conservé.
4.3 Prévision de l'échantillon test
Le modèle "optimal" obtenu est utilisé pour prédire l'échantillon test et estimer ainsi, sans biais, une erreur de prévision. Deux erreurs sont
estimées ; la première est celle quadratique pour la régression tandis que la deuxième est issue de la matrice de confusion qui croise les
dépassements de seuils prédits avec ceux effectivement observés.
In [ ]: # Calcul des prévisions

pred.glm=predict(reg.glm.step,newdata=datestr)
# Erreur quadratique moyenne de prévision (MSE)
sum((pred.glm-datestr[,"O3obs"])^2)/nrow(datestr)
In [ ]: # Erreur quadratique par MOCAGE

sum((datestr[,"MOCAGE"]-datestr[,"O3obs"])^2)/nrow(datestr)
In [ ]: # Matrice de confusion pour la prévision du

# dépassement de seuil
table(pred.glm>150,datestr[,"O3obs"]>150)

# dépassement de seuil par MOCAGE
table(datestr[,"MOCAGE"]>150,datestr[,"O3obs"]>150)
Noter ces erreurs pour les comparer avec celles obtenues par les autres méthodes. Noter l'asymétrie des erreurs.
5. Prévision par modèle binomial
Plutôt que de prévoir la concentration puis le dépassement, on peut se poser la question de savoir s'il ne serait pas pertinent de prévoir
directement la présence ou l'absence d'un dépassement. La variable à modéliser étant binaire, c'est la régression logistique qui va être employée.
Comme pour la régression, différentes stratégies de choix de modèle peuvent être utilisées et comparées avant d'estimer l'erreur de prévision sur
l'échantillon test.
5.1 Régression logistique sans interaction
In [ ]: # estimation du modèle complet

log.lm=glm(DepSeuil~.,data=datappq,family=binomial)
# significativité des paramètres
anova(log.lm,test="Chisq")
In [ ]: # Recherche d'un modèle optimal au sens d'Akaïke

log.lm.step=step(log.lm,direction="backward")
In [ ]: # Modèle obtenu
anova(log.lm.step,test="Chisq")
In [ ]: # matrice de confusion de l'échantillon

# d'apprentissage et erreur apparente
table(log.lm.step$fitted.values>0.5,
datappq[,"DepSeuil"])
5.2 Régression logistique avec interactions
Avec autant de variables et d'interactions donc de paramètres, l'estimation du modèle complet de régression logistique rencontre des soucis et
affiche des warnings car certaines probabilité trop bien ajustés (0 ou 1) provoquent des divisions par 0. Ici une procédure forward ou mieux
stepwise de sélection des variables et interactions conduit à des résultats raisonnables.
In [ ]: # régression avec le modèle minimum

log.qm=glm(DepSeuil~1,data=datappq,family=binomial)
# algorithme stepwise en précisant le plus grand
# modèle possible
log.qm.step1=step(log.qm,direction="both",
scope=list(lower=~1,upper=~(JOUR + MOCAGE +
TEMPE + STATION + VentMOD + VentANG + LNO2 +
LNO + SRMH2O)^2), family=binomial)
In [ ]: anova(log.qm.step1,test="Chisq")
In [ ]: # Prévision
pred.log=predict(log.qm.step1,newdata=datestq,type="response")
# Matrice de confusion pour la prévision du
# dépassement de seuil
table(pred.log>0.5,datestq[,"DepSeuil"])
Comparer avec l'approche précédente. Mémoriser les résultats obtenus pour comparer avec les autres méthodes.
5.3 Courbe ROC
Il est également possible de construire une courbe ROC en association de la prévision obtenue à partir d'un modèle gaussien. En effet, la
variation du seuil théorique de dépassement (150) va faire varier les proportions respectives des taux de vrais et faux positifs. Cela revient encore
à faire varier le seuil d'une "proba" pour les valeurs de prévisions divisées par 300.
In [ ]: library(ROCR) # Librairie à charger
In [ ]: roclogit=predict(log.qm.step1,newdata=datestq,type="response")
predlogit=prediction(roclogit,datestq[,"DepSeuil"])
perflogit=performance(predlogit, "tpr","fpr")
# Tracé de la courbe
plot(perflogit,col=1)
# Calculs pour la régression
rocglm=pred.glm/300
predglm=prediction(rocglm,datestq[,"DepSeuil"])
perfglm=performance(predglm, "tpr","fpr")
# tracé de la courbe et ajout au graphe précédent.
plot(perfglm,col=2,add=TRUE)
Q11 Que sont sensibilité et spécificité d'une courbe ROC?
Les résultats obtenus dépendent évidemment en plus de l'échantillonnage initial entre apprentissage et test. Dans le cas où les courbes se
croisent, cela signifie qu'il n'y a pas de prévision uniformément meilleure de l'occurrence de dépassement. Cela dépend de la sensibilité ou de la
spécificité retenue pour le modèle. Ceci souligne l'importance de la bonne définition du critère à utiliser pour le choix d'une "meilleure" méthode.
Ce choix dépend directement de celui , "politique" ou "économique" de sensibilité et / ou spécificité du modèle retenu. En d'autres termes, quel
taux de fausse alerte, avec des imputations économiques évidentes, est supportable au regard des dépassements non détectés et donc de la
dégradation sanitaire de la population à risque ?
C'est une fois ce choix arrêté que le statisticien peut opérer une comparaison des méthodes en présence.
Q12 Les performances des deux approches gaussiennes et binomiales sont-elles très différentes?
6. Analyse discriminante
6.1 Introduction
L'objectif est de comparer les trois méthodes d'analyses discriminantes disponibles dans R: lda paramétrique linéaire (homoscédasticité), qda
paramétrique quadratique (hétéroscédasticité) sous hypothèse gaussienne et celle non-paramétrique des plus proches voisins.
Q13 Quel critère d'affectation est utilisé en lda?
Q14 Que signifient les hypothèses d'homo ou d'hétéroscédasticité?
Q15 Quelle fonction est estimée "non paramétriquement" par l'algorithme des plus proches voisins?
Attention, ces techniques n'acceptent par principe que des variables explicatives ou prédictives quantitatives. Néanmoins, une variable qualitative
à deux modalités, par exemple le type de jour, peut être considérée comme quantitative sous la forme d'une fonction indicatrice prenant ses
valeurs dans et, de façon plus "abusive", une variable ordinale est considérée comme "réelle". Dans ce dernier cas, il ne faut pas tenter
d'interpréter les fonctions de discrimination, juste considérer des erreurs de prévision. La variable Station n'est pas prise en compte.
La bibliothèque standard de R (MASS) pour l'analyse discriminante ne propose pas de procédure automatique de choix de variable mais, dans cet
exemple, les variables sont peu nombreuses.
6.2 Estimation des modèles
In [ ]: library(MASS) # chargement des librairies

library(class) # pour kNN
In [ ]: # analyse discriminante linéaire

disc.lda=lda(DepSeuil~.,data=datappq[,-4])
# analyse discriminante quadratique
disc.qda=qda(DepSeuil~.,data=datappq[,-4])
# k plus proches voisins
disc.knn=knn(datappq[,c(-4,-10)],datappq[,c(-4,-10)],datappq$DepSeuil,k=10)
Noter le manque d'homogénéité des commandes de R issues de librairies différentes. L'indice de colonne négatif ( ) permet de retirer la
colonne contenant la variable à prédire de type facteur. Celle-ci est mentionnée en troisième paramètre pour les données d'apprentissage. La
librairie caret (http://topepo.github.io/caret/index.html) contourne ces difficultés en englobant toutes les librairies d'apprentissage et en
homogénéisant les appels pour l'estimation et la prévision des modèles.
6.3 Estimation de l'erreur de prévision par validation croisée

In [ ]: # erreur par validation croisée en analyse discriminante linéaire
disc.lda=lda(DepSeuil~.,data=datappq[,-4],CV=T)
# estimer le taux d'erreur à partir de la matrice de confusion
table(datappq[,"DepSeuil"],disc.lda$class)
In [ ]: # analyse discriminante quadratique

disc.qda=qda(DepSeuil~.,data=datappq[,-4],CV=T)
table(datappq[,"DepSeuil"],disc.qda$class)
Pour knn, le choix du nombre de voisins doit être optimisé par validation croisée mais la procédure proposée par la bibliothèque class est
celle leave-one-out, donc trop coûteuse en calcul pour des gros fichiers. Il serait simple de la programmer mais une autre bibliothèque (e1071)
propose déjà une batterie de fonctions de validation croisée pour de nombreuses techniques de discrimination.
In [ ]: # k plus proches voisins: optimisaiton de k

library(e1071)
plot(tune.knn(as.matrix(datappq[,c(-4,-10)]),as.factor(datappq[,10]),k=2:20))
Q16 Quelle procédure de validation croisée est exécutée par défaut par la fonction tune?
Lancer plusieurs exécutions successives de cette "optimisation".
Q17 Pourquoi la valeur de optimale diffère à chaque exécution? Comment choisir k ?
Comparer avec les erreurs précédentes estimées également par validation croisée.
Q18 Quelle analyse discriminante retenir ? Pourquoi?
6.4 Erreur sur l'échantillon test
Les commandes suivantes calculent la matrice de confusion pour la "meilleure" méthode d'analyse discriminante au sens de la validation croisée.
Cette "meilleure" méthode peut être edifférente d'un participant à l'autre.
In [ ]: disc.lda=lda(DepSeuil~.,data=datappq[,-4])
table(datestq[,"DepSeuil"],predict(disc.lda,datestq[,-4])$class)
A titre indicatif, voici l'estimation de l'erreur sur l'échantillon test pour la méthode des plus proches voisins.
In [ ]: disc.knn=knn(as.matrix(datappq[,c(-4,-10)]),as.matrix(datestq[,c(-4,-10)]),datappq$DepSeuil,k=15)
table(disc.knn,datestq$DepSeuil)
6.5 Courbes ROC
In [ ]: ROCdiscrim=predict(disc.lda,datestq[,c(-4)])$posterior[,2]
preddiscrim=prediction(ROCdiscrim,datestq$DepSeuil)
perfdiscrim=performance(preddiscrim,"tpr","fpr")
# tracer les courbes ROC en les superposant pour mieux comparer
plot(perfdiscrim,col=2,add=TRUE)
Q19 Une méthode est elle uniformément meilleure sur cet échantillon test ?
7. Arbre de décision binaire
La librairie rpart est celle la plus couramment utilisée pour la construction d'arbres de décision. Deux types d'arbre peuvent être estimer selon
que la variable à modéliser est la concentration d'ozone (arbre de régression) ou directement le dépassement du seuil (arbre de discrimination ou
de décision). Différents paramètres contrôlent l'exécution de l'algorithme: la pénalisation minimale (cp) pour la construction de l'arbre maximal, le
nombre minimal d'observation par noeud, le nombre de validations croisées (par défaut 10)... cf. l'aide en ligne (?rpart.control) pour plus de détails
mais celle-ci n'est pas très explicite sur certains paramètres, c'est le travers des logiciels "libres".
NB. Une séquence de valeurs de la pénalisation cp est associée à une séquence d'arbres emboîtés.
7.1 Estimation et élagage de l'arbre de régression

Q20 Quel critère est optimisé lors de la création d'un noeud? de l'arbre?
In [ ]: library(rpart) # chargement de la librairie

tree.reg=rpart(O3obs~.,data=datappr,control=rpart.control(cp=0.001))
# La commande ci-dessous fournit un descriptif de l'arbre obtenu
# summary(tree.reg)
# mais un graphe est préférable
In [ ]: plot(tree.reg)
text(tree.reg)
L'arbre est illisible et présente trop de feuilles pour une bonne prévision (sur-apprentissage), il est nécessaire d'en réduire le nombre par élagage.
Les commandes suivantes calculent les prévisions obtenues par validation croisée 10-fold pour chaque arbre élagué suivant les valeurs
successives du coefficient de complexité. La séquence de ces valeurs est implicitement celle fournit par rpart.
In [ ]: xmat=xpred.rpart(tree.reg)
xerr=(xmat-datappr[,"O3obs"])^2
CVerr=apply(xerr,2,sum)
CVerr # CP erreur
Chercher la valeur de cp correspondant à la plus petite erreur puis l'utiliser la construction del'arbre.
In [ ]: as.numeric(attributes(which.min(CVerr))$names)
In [ ]: tree.reg=rpart(O3obs~.,data=datappr,control=rpart.control(cp=as.numeric(attributes(which.min(CVerr
))$names)))
La librairie partykit propose une construction graphique de l'arbre:
In [ ]: library(partykit)
plot(as.party(tree.reg), type="simple")
La fenêtre est trop petite pour représenter les distributions (histogramme) de la variable cible (concentration en ozone) dans chaque feuille.
Q21 Quelle est la variable qui contribue le plus à l'interprétation?
Graphe des résidus
In [ ]: fit.tree=predict(tree.reg)
res.tree=fit.tree-datappr[,"O3obs"]
plot.res(fit.tree,res.tree)
Q22 A quoi est due la structure particulière de ce graphe?
7.2 Estimation et élagage d'un arbre de discrimination
Dans le cas d'une discrimination, le critère par défaut est l'indice de concentration de Gini ; il est possible de préciser un autre critère
(split="information") ainsi que des poids sur les observations, une matrice de coûts de mauvais classement ainsi que des probabilités a priori (?
rpart pour plus de détails).
Q23 Quel autre critère d'hétérogénéité est utilisé?
In [ ]: tree.dis=rpart(DepSeuil~.,data=datappq,parms=list(split="information"),cp=0.001)
plot(tree.dis)
text(tree.dis)
La même procédure d'élagage par validation croisée est mise en place mais avec un expression différente de l'erreur de prévision: taux de mal
classés plutôt qu'erreur quadratique.
In [ ]: xmat = xpred.rpart(tree.dis)
# Comparaison des valeurs prédite et observée
xerr=datappq$DepSeuil!= (xmat>1.5)
# Calcul des estimations des taux d'erreur
CVerr=apply(xerr, 2, sum)/nrow(xerr)
CVerr
In [ ]: as.numeric(attributes(which.min(CVerr))$names)
In [ ]: tree.dis=rpart(DepSeuil~.,data=datappq,parms=list(split="information"),
cp=as.numeric(attributes(which.min(CVerr))$names))
plot(as.party(tree.dis), type="simple")
7.3 Prévision de l'échantillon test

Différentes prévisions sont considérées assorties des erreurs estimées sur l'échantillon test. Prévision quantitative de la concentration, prévision
de dépassement à partir de la prévision quantitative et directement la prévision de dépassement à partir de l'arbre de décision.

pred.treer=predict(tree.reg,newdata=datestr)
pred.treeq=predict(tree.dis,newdata=datestq,type="class")
# Erreur quadratique moyenne de prévision en régression
sum((pred.treer-datestr[,"O3obs"])^2)/nrow(datestr)

# dépassement de seuil (régression)
table(pred.treer>150,datestr[,"O3obs"]>150)
In [ ]: # Même chose pour l'arbre de discrimination

table(pred.treeq,datestq[,"DepSeuil"])
Q24 Quelle stratégie semble meilleure à ce niveau?
7.4 Courbes ROC
In [ ]: ROCregtree=pred.treer/300
predregtree=prediction(ROCregtree,datestq$DepSeuil)
perfregtree=performance(predregtree,"tpr","fpr")
ROCdistree=predict(tree.dis,newdata=datestq,type="prob")[,2]
preddistree=prediction(ROCdistree,datestq$DepSeuil)
perfdistree=performance(preddistree,"tpr","fpr")
# tracer les courbes ROC en les superposant
# pour mieux comparer
plot(perfregtree,col=2,add=TRUE)
plot(perfdistree,col=3,add=TRUE)
Comparer les qualités de prévision.
Q25 Une meilleure méthode se dégage-t-elle?
8 Réseau de neurones
8.1 Introduction
Il s'agit d'estimer un modèle de type perceptron avec en entrée les variables qualitatives ou quantitatives et en sortie la variable à prévoir. Des
fonctions R pour l'apprentissage d'un perceptron élémentaire ont été réalisées par différents auteurs et sont accessibles sur le réseau. La librairie
nnet de (Ripley, 1999), est limitée au perceptron à une couche. Ce n'est pas de l'apprentissage profond ! mais suffisant dans bien des cas. Une
librairie R associée au logiciel éponyme H2O propose des réseaux à plusieurs couches et "convolutionnels".
Comme pour les arbres, la variable à expliquer est soit quantitative soit qualitative ; la fonction de transfert du neurone de sortie d'un réseau doit
être adaptée en conséquence.
Q26 Quelle fonction de transfert pour le dernier neurone en régression ?
Q27 Quelle focntion de transfert pour le dernier neuronne en discrimination binaire?
Q28 Quid de la discrimination avec plusieurs classes?
Q29 Quel est le choix par défaut pour les neurones de la couche cachée?
Différentes stratégies sont proposées pour éviter le sur-apprentissage. La première conciste à optimiser le nombre de neurones sur la couche
cachée. Très approximativement il est d'usage de considérer, qu'en moyenne, il faut une taille d'échantillon d'apprentissage 10 fois supérieure au
nombre de poids c'est-à-dire au nombre de paramètres à estimer. On remarque qu'ici la taille de l'échantillon d'apprentissage (832) est modeste
pour une application raisonnable du perceptron. Seuls des nombres restreints de neurones peuvent être considérés et sur une seule couche
cachée.
Q30 Quel est le paramètre decay de la fonction nnet?
Q31 Indiquer une autre façon déviter le sur-apprentissage.
8.2 Cas de la régression
In [ ]: library(MASS)
library(nnet)
# apprentissage
# attention au paramètre linout dans le cas de la régression
nnet.reg=nnet(O3obs~.,data=datappr,size=5,decay=1,linout=TRUE,maxit=500)
summary(nnet.reg)
La commande donne la "trace" de l'exécution avec le comportement de la convergence mais le détail des poids de chaque entrée de chaque
neurone ne constituent pas des résultats très explicites ! Contrôler le nombre de poids estimés.
L'optimisation des paramètres nécessite encore le passage par la validation croisée. Il n'y a pas de fonction dans la librairie nnet permettant de
le faire mais la fonction tune.nnet de la librairie e1071 est adaptée à cette démarche.
In [ ]: library(e1071)
plot(tune.nnet(O3obs~.,data=datappr,size=c(2,3,4),decay=c(1,2,3),maxit=200,linout=TRUE))
plot(tune.nnet(O3obs~.,data=datappr,size=4:5,decay=1:10))
Faire éventuellement varier la grille des paramètres (zoom), noter la taille et le decay optimaux. Il faudrait aussi faire varier le nombre total
d'itérations. Cela risque de prendre un peu de temps ! Noter également que chaque exécution donne des résultats différents... il n'est donc pas
très utile d'y passer beaucoup de temps !
Ré-estimer le modèle supposé optimal avant de tracer le graphe des résidus.
In [ ]: nnet.reg=nnet(O3obs~.,data=datappr,size=3,decay=2,linout=TRUE,maxit=200)
# calcul et graphe des résidus
fit.nnetr=predict(nnet.reg,data=datappr)
res.nnetr=fit.nnetr-datappr[,"O3obs"]
plot.res(fit.nnetr,res.nnetr,titre="")
8.3 Cas de la discrimination
In [ ]: # apprentissage
nnet.dis=nnet(DepSeuil~.,data=datappq,size=5,decay=0)
summary(nnet.reg)
La validation croisée est toujours nécessaire afin de tenter d'optimiser les choix en présence : nombre de neurones, decay et éventuellement le
nombre max d'itérations.
L'initialisation de l'apprentissage d'un réseau de neurone comme celle de l'estimation de l'erreur par validation croisée sont aléatoires. Chaque
exécution donne donc des résultats différents. À ce niveau, il serait intéressant de construire un plan d'expérience à deux facteurs (ici, les
paramètres de taille et decay) de chacun trois niveaux. Plusieurs réalisations pour chaque combinaison des niveaux suivies d'un test classique
d'anova permettraient de se faire une idée plus juste de l'influence de ces facteurs sur l'erreur.
Noter la taille et le decay optimaux et ré-estimer le modèle pour ces valeurs.
In [ ]: plot(tune.nnet(DepSeuil~.,data=datappq,size=c(3,4,5),decay=c(0,1,2),maxit=200,linout=FALSE))
In [ ]: nnet.dis=nnet(DepSeuil~.,data=datappq,size=5,decay=1)
8.4 Prévisions de l'échantillon test
Différentes prévisions sont considérées assorties des erreurs estimées sur l'échantillon test. Prévision quantitative de la concentration, prévision
de dépassement à partir de la prévision quantitative et directement la prévision de dépassement à partir de l'arbre de décision.

pred.nnetr=predict(nnet.reg,newdata=datestr)
pred.nnetq=predict(nnet.dis,newdata=datestq)
# Erreur quadratique moyenne de prévision
sum((pred.nnetr-datestr[,"O3obs"])^2)/nrow(datestr)

table(pred.nnetr>150,datestr[,"O3obs"]>150)
In [ ]: # Même chose pour la discrimination

table(pred.nnetq>0.5,datestq[,"DepSeuil"])
8.5 Courbes ROC
In [ ]: rocnnetr=pred.nnetr/300
prednnetr=prediction(rocnnetr,datestq$DepSeuil)
perfnnetr=performance(prednnetr,"tpr","fpr")
rocnnetq=pred.nnetq
prednnetq=prediction(rocnnetq,datestq$DepSeuil)
perfnnetq=performance(prednnetq,"tpr","fpr")
# tracer les courbes ROC en les superposant pour mieux comparer
plot(perfnnetr,col=2,add=TRUE)
plot(perfnnetq,col=3,add=TRUE)
Q32 Une méthode semble-t-elle significativement meilleure?
9. Agrégation de modèles
9.1 Introduction
Les sections précédentes ont permis d'expérimenter les constructions d'un modèle de prévision assorties du problème récurrent lié à
l'optimisation de la complexité d'un modèle. Cette section aborde d'autres stratégies dont l'objectif est de s'affranchir de ce problème de choix,
par des méthodes se montrant pas ou très peu sensibles au sur-apprentissage ; c'est le cas des algorithmes d'agrégation de modèles.
Cette section propose de mettre en évidence la plus ou moins grande influence des paramètres de ces méthodes.
Random forest: nombre d'arbres et mtry et intérêt des critères de Breiman permettant de mesurer l'influence des variables au sein d'une
famille agrégée de modèles.
Le bagging, cas particulier de forêt aléatoire, n'est pas traité;
Boosting: profondeur d'arbre, nombre d'itérations ou d'arbres et coefficient de shrinkage.
Q33 Quel est le paramètre mtry de la fonction randomForest?
Q34 En quoi le bagging est un cas particulier des forêts aléatoires?
9.2 Forêts aléatoires
Le programme est disponible dans la librairie randomForest. Il est écrit en fortran, donc en principe efficace en terme de rapidité d'exécution, et
facile à utiliser grâce à une interface avec R. La comparaison avec Python montre qu'il n'est finalement pas très efficace sans doute à cause de
l'interface avec R. Les paramètres et sorties sont explicités dans l'aide en ligne.
En R et pour des gros fichiers, privilégier la librairie ranger à la place de ranfomForest.
Régression
In [ ]: library(randomForest)
rf.reg=randomForest(O3obs~., data=datappr,xtest=datestr[,-2],ytest=datestr[,"O3obs"],
ntree=500,do.trace=50,importance=TRUE)
Q35 Quelles est la valeur par défaut de mtry?
Relancer en faisant varier les paramètres mtry et ntree pour expérimenter leur peu d'influence sur les erreurs.
Calcul et graphe des résidus.
In [ ]: fit.rfr=rf.reg$predicted
res.rfr=fit.rfr-datappr[,"O3obs"]
plot.res(fit.rfr,res.rfr,titre="")
Discrimination
Q36 Quelle est la valeur par défaut de mtry?
In [ ]: rf.dis=randomForest(DepSeuil~.,data=datappq,xtest=datestq[,-10],ytest=datestq[,
"DepSeuil"],ntree=500,do.trace=50,importance=TRUE)
Commenter les erreurs, tester d'autres exécutions avec d'autres valeurs des paramètres.
Prévision de l'échantillon test
In [ ]: pred.rfr=rf.reg$test$predicted
pred.rfq=rf.dis$test$predicted
sum((pred.rfr-datestr[,"O3obs"])^2)/nrow(datestr)

table(pred.rfr>150,datestr[,"O3obs"]>150)

table(pred.rfq,datestq[,"DepSeuil"])
Importance des variables
Le modèle obtenu est ininterprétable mais des coefficients estiment les contributions des variables dans leur participation à la discrimination.
Comparer avec les variables sélectionnées par les autres modèles. deux critères d'importance sont proposés.
Q37 Quelles sont les deux mesures d'importance des variables?
In [ ]: sort(round(importance(rf.reg), 2)[,1], decreasing=TRUE)

sort(round(importance(rf.dis), 2)[,4], decreasing=TRUE)
9.3 Boosting
Deux librairies proposent des versions relativement sophistiquées des algorithmes de boosting dans R. La librairie boost propose 4 approches :
adaboost, bagboost et deux logitboost. Développées pour une problématique particulière : l'analyse des données d'expression génomique, elle
n'est peut-être pas complètement adaptée aux données étudiées ; elles se limitent à des prédicteurs quantitatifs et peut fournir des résultats
étranges. La librairie gbm lui est préférée ; elle offre aussi plusieurs versions dépendant de la fonction coût choisie. Une librairie plus récente
xgboost intègre des fonctionnalités de parallélisation (pas sous Windows) et fait intervenir plusieurs autres paramètres.
La variable à prévoir doit être codée numériquement (0,1) pour cette implémentation. Le nombre d'itérations, ou nombre d'arbres, est paramétré
ainsi qu'un coefficient de rétrécissement (shrinkage).
Q38 Comment intervient le schrinkage en boosting?
Q39 Pour quel boosting? Ou que signifie gbm?
Attention, par défaut, ce paramètre a une valeur très faible (0.001) et il faut un nombre important d'itérations (d'arbres) pour atteindre une
estimation raisonnable. La qualité est visualisée par un graphe représentant l'évolution de l'erreur d'apprentissage. D'autre part, une procédure de
validation croisée est incorporée afin d'optimiser le nombre d'arbres car la version de boosting considérée est (légèrement) sujette au sur-
apprentissage.
Régression
In [ ]: library(gbm)
boost.reg=gbm(O3obs~., data=datappr,distribution="gaussian",n.trees=500, cv.folds=10,
n.minobsinnode = 5,shrinkage=0.03,verbose=FALSE)
# fixer verbose à FALSE pour éviter trop de sorties
plot(boost.reg$cv.error)
In [ ]: # nombre optimal d'itérations par valiation croisée

best.iter=gbm.perf(boost.reg,method="cv")
On peut s'assurer de l'absence d'un phénomène de sur-apprentissage critique en calculant puis traçant l'évolution de l'erreur sur l'échantillon test
en fonction du nombre d'arbre dans le modèle. L'erreur reste stable autour du nombre d'arbres sélectionné et matérialisé par la ligne verticale.
Tester ces fonctions en faisant varier le coefficient de rétrécissement.
In [ ]: test=numeric()
for (i in 10:500){
pred.test=predict(boost.reg,newdata=datestr,n.trees=i)
err=sum((pred.test-datestr[,"O3obs"])^2)/nrow(datestr)
test=c(test,err)}
plot(10:500,test,type="l")
abline(v=best.iter)
Discrimination
Attention, la variable à modéliser doit être codée et il faut préciser un autre paramètre de distribution pour considérer le bon terme d'erreur.
In [ ]: datappq2=datappq
datappq2[,"DepSeuil"]=as.numeric(datappq[,"DepSeuil"])-1
boost.dis=gbm(DepSeuil~.,data=datappq2,distribution="adaboost",n.trees=500, cv.folds=10,
n.minobsinnode = 5,shrinkage=0.03,verbose=FALSE)
plot(boost.dis$cv.error)
In [ ]: # nombre optimal d'itérations

best.ited=gbm.perf(boost.dis,method="cv")
Comme pour la régression, il est possible de faire varier le coefficient de rétrécissement en l'associant au nombre d'arbres dans le modèle.
Calcul des résidus et graphe.
In [ ]: fit.boostr=boost.reg$fit
res.boostr=fit.boostr-datappr[,"O3obs"]
plot.res(fit.boostr,res.boostr,titre="")
9.4 Echantillon test
In [ ]: pred.boostr=predict(boost.reg,newdata=datestr,n.trees=best.iter)
sum((pred.boostr-datestr[,"O3obs"])^2)/nrow(datestr)
In [ ]: # Matrice de confusion pour la prévision

# du dépassement de seuil (régression)
table(pred.boostr>150,datestr[,"O3obs"]>150)

pred.boostd=predict(boost.dis,newdata=datestq,n.trees=best.ited)
table(as.factor(sign(pred.boostd)),datestq[,"DepSeuil"])
Q40 Quelle stratégie d'agrégation de modèles vous semble fournir le meilleur résultat de prévision?
Q41 Est-elle, sur ce jeu de données, plus efficace que les modèles classiques expérimentés auparavant ?
9.5 Courbes ROC
In [ ]: rocrfr=pred.rfr/300
predrfr=prediction(rocrfr,datestq$DepSeuil)
perfrfr=performance(predrfr,"tpr","fpr")
rocbstr=pred.boostr/300
predbstr=prediction(rocbstr,datestq$DepSeuil)
perfbstr=performance(predbstr,"tpr","fpr")
plot(perfrfr,col=2,add=TRUE)
plot(perfbstr,col=3,add=TRUE)
Q42 Qu'indique la comparaison des coubes ROC?
10 Séparateur à Vaste Marge (SVM)
10.1 Introduction
Malgré les assurances théoriques concernant ce type d'algorithme, les résultats dépendant fortement du choix des paramètres. Nous nous
limiterons d'abord au noyau gaussien (choix par défaut) ; la fonction tune.svm permet de tester facilement plusieurs situations en estimant la
qualité de prévision par validation croisée sur une grille. Le temps d'exécution en R est un peu long...
Q43 Le temps d'exécution pour les SVM est-il plus sensible au nombre d'observations oau nombre de varaibles ? POurquoi ?
10.2 Régression
Bien qu'initialement développés dans le cas d'une variable binaire, les SVM ont été étendus aux problèmes de régression. L'estimation et
l'optimisation du coefficient de pénalisation sont obtenues par les commandes suivantes.
In [ ]: svm.reg=svm(O3obs~.,data=datappr)
plot(tune.svm(O3obs~.,data=datappr,cost=c(1, 1.5,2,2.5,3,3.5)))
Par défaut la pénalisation (cost) vaut 1. Noter la pénalisation optimale pour le noyau considéré (gaussien). Ré-estimer le modèle supposé optimal
avant de tracer le graphe des résidus. Comme précédemment, observer que plusieurs exécutions conduisent à des résultats différents et donc
que l'optimisaiton de ce paramètre est pour le moins délicate.
Q44 Quels autres noyaus sont dispnibles dans cette implémentation des SVM?
In [ ]: svm.reg=svm(O3obs~.,data=datappr,cost=2)
# calcul et graphe des résidus
fit.svmr=predict(svm.reg,data=datappr)
res.svmr=fit.svmr-datappr[,"O3obs"]
plot.res(fit.svmr,res.svmr,titre="")
Observer l'effet ''couloir'' sur les résidus.
Q45 Qu'est-ce qui cause le rapprochement des résidus dans un "couloir"?
10.3 Discrimination
In [ ]: # optimisation
plot(tune.svm(DepSeuil~.,data=datappq,cost=c(1,1.25,1.5,1.75,2)))
In [ ]: # apprentissage
svm.dis=svm(DepSeuil~.,data=datappq,cost=1.25)
10.4 Echantillon test
In [ ]: pred.svmr=predict(svm.reg,newdata=datestr)
pred.svmq=predict(svm.dis,newdata=datestq)
sum((pred.svmr-datestr[,"O3obs"])^2)/nrow(datestr)
In [ ]: # Matrice de confusion pour la prévision du dépassement de seuil (régression)

table(pred.svmr>150,datestr[,"O3obs"]>150)

table(pred.svmq,datestq[,"DepSeuil"])
10.5 Courbes ROC
In [ ]: rocsvmr=pred.svmr/300
predsvmr=prediction(rocsvmr,datestq$DepSeuil)
perfsvmr=performance(predsvmr,"tpr","fpr")
# re-estimer le modèle pour obtenir des
# probabilités de classe plutôt que des classes
svm.dis=svm(DepSeuil~.,data=datappq,cost=1.25,
probability=TRUE)
pred.svmq=predict(svm.dis,newdata=datestq,
probability=TRUE)
rocsvmq=attributes(pred.svmq)$probabilities[,2]
predsvmq=prediction(rocsvmq,datestq$DepSeuil)
perfsvmq=performance(predsvmq,"tpr","fpr")
plot(perfsvmr,col=2,add=TRUE)
plot(perfsvmq,col=3,add=TRUE)
Q46 Les SVM apportent-ils une amélioration?
© 2017 GitHub, Inc. Terms Privacy Security Status Help Contact GitHub API Training Shop Blog About

ApprentissageApprent-R-Ozone - Ipynb at Master Wikistatapprentissage GitHub

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

ApprentissageApprent-R-Ozone - Ipynb at Master Wikistatapprentissage GitHub

Transféré par

Droits d'auteur :

Formats disponibles

Features Explore Pricing This repository Search Sign in or Sign up

wikistat / Apprentissage Watch 0 Star 2 Fork 1

Code Issues 0 Pull requests 0 Projects 0 Pulse Graphs

Branch: master Apprentissage / Pic-ozone / Apprent-R-Ozone.ipynb Find file Copy path

wikistat V1.0 5616f5b 9 hours ago

2421 lines (2420 sloc) 78.1 KB Raw Blame History

Scénarios d'Apprentissage Statistique

Adaptation Statistique d'un Modèle de Prévision du Pic d'Ozone avec

On se propose de tester diﬀérentes méthodes : régression logistique (http://wikistat.fr/pdf/st-m-app-rlogit.pdf), analyse discriminante

1 Prise en charge des données

JOUR Le type de jour ; férié (1) ou pas (0) ;

In [ ]: # Lecture des données

In [ ]: # Changement du type de la variable jour en facteur

Q1 Que sont ces graphiques?

Q2 Que dire du choix de la dimension, des valeurs atypiques?

Q3 Que dire de la structure de corrélation des variables ? Est-elle intuitive ?

Le même graphique en coloriant les jours.

Q4 Une discriminaiton linéaire (hyperplan) semble-t-elle possible?

La recherche d'une meilleure méthode de prévision suit le protocole suivant.

Variables et interactions à prendre en compte dans la régression linéaire ou logistique;

3.2 Extraction des échantillons

In [ ]: set.seed(111) # initialisation du générateur

Construction des échantillons pour la régression: prévision de la concentration en ozone.

In [ ]: # construction de l'échantillon d'apprentissage

Construction des échantillons pour la discrimination: prévision de dépassement.

In [ ]: # construction de l'échantillon d'apprentissage

4. Prévision par modèle gaussien

4.1 Modèle linéaire

In [ ]: # estimation du modèle sans interaction

Q6 Que dire de la distribution de ces résidus?

Apprécier néanmoins sa significativité par la commande suivante.

In [ ]: # Graphe des résidus du modèle déterministe MOCAGE

4.2 Modèle quadratique

Q10 Pourquoi n'est-il pas utilisable ici?

In [ ]: # Estimation du modèle de toute interaction d'ordre 2

In [ ]: # Extraction des valeurs ajustées et des résidus

4.3 Prévision de l'échantillon test

In [ ]: # Calcul des prévisions

In [ ]: # Erreur quadratique par MOCAGE

In [ ]: # Matrice de confusion pour la prévision du

In [ ]: # Matrice de confusion pour la prévision du

5. Prévision par modèle binomial

5.1 Régression logistique sans interaction

In [ ]: # estimation du modèle complet

In [ ]: # Recherche d'un modèle optimal au sens d'Akaïke

In [ ]: # matrice de confusion de l'échantillon

5.2 Régression logistique avec interactions

In [ ]: # régression avec le modèle minimum

5.3 Courbe ROC

Q11 Que sont sensibilité et spécificité d'une courbe ROC?

Q13 Quel critère d'aﬀectation est utilisé en lda?

Q14 Que signifient les hypothèses d'homo ou d'hétéroscédasticité?

6.2 Estimation des modèles

In [ ]: library(MASS) # chargement des librairies

In [ ]: # analyse discriminante linéaire

6.3 Estimation de l'erreur de prévision par validation croisée

In [ ]: # analyse discriminante quadratique

In [ ]: # k plus proches voisins: optimisaiton de k

Lancer plusieurs exécutions successives de cette "optimisation".

Q17 Pourquoi la valeur de optimale diﬀère à chaque exécution? Comment choisir k ?

Q18 Quelle analyse discriminante retenir ? Pourquoi?

6.4 Erreur sur l'échantillon test

6.5 Courbes ROC