Vous êtes sur la page 1sur 4

YOUSSEF

BOUYADDOU

Les types de régressions en R

I- La régression polynomiale :
Une variante de la régression multiple peut quelquefois être appliquée pour ajuster une
variable explicative x (ou plusieurs variables explicatives xj) à une variable dépendante y de
manière non-linéaire. Cette méthode consiste à ajouter à la variable explicative x de nouvelles
variables construites en mettant x au carré, au cube, etc. L'équation devient donc, pour un
polynôme du k-i ème ordre :
Ŷ = ax1+a2x2+…+akxk
Une façon simple de se représenter l'effet de l'ajout d'un ordre est la suivante : chaque nouvel
ordre permet d'ajouter un pli à la courbe. Une équation du premier ordre est celle d'une
droite, du deuxième ordre une parabole ; le troisième ordre donne un S couché, etc.
Sur R :

set.seed(16)
x <- 0:50
y <- 2.3 - 15.1*x + 1.2*x^2 + rnorm(length(x), 20, 50)
plot(x, y)
fit <- lm(y ~ 1 + x + I(x^2))
points(x, predict(fit), type="l")

> summary(fit)
Call:
lm(formula = y ~ 1 + x + I(x^2))
Residuals:
Min 1Q Median 3Q Max
-92.173 -28.968 3.673 24.953 97.269
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 33.84216 18.36178 1.843 0.0715 .
x -15.28705 1.69836 -9.001 7.07e-12 ***
I(x^2) 1.20126 0.03285 36.569 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 45.44 on 48 degrees of freedom
Multiple R-squared: 0.996, Adjusted R-squared: 0.9959
F-statistic: 6034 on 2 and 48 DF, p-value: < 2.2e-16

II- La régression quantile :


Les régressions quantiles sont des outils statistiques dont l’objet est de décrire l’impact de
variables explicatives sur une variable d’intérêt. Elles permettent une description plus riche
que les régressions linéaires classiques, puisqu’elles s’intéressent à l’ensemble de la
distribution conditionnelle de la variable d’intérêt et non seulement à la moyenne de celle-ci.
En outre, elles peuvent être plus adaptées pour certains types de données. 1

Les avantages de la régression quantile :


 C’est mieux d’utilisée cette méthode lorsque hétéroscédasticité existe
 La distribution de la variable a expliqué peut-être décrit en utilisant des quantiles
différents
 Lorsque la distribution des données est asymétrique, la régression quantile est plus
utile.

1
La régression quantile en pratique, Pauline Givord - Xavier D’Haultfoeuille
Sur R :
library(quantreg)
rq(y ~ x1 + x2, tau = (vecteur de quantiles), data=(table),
method=("br" ou "fn"))
fit1 <- rq(y ~ x1 + x2, tau = (vecteur de quantiles), data=(table),
method=("br" ou "fn"))
summary(fit1, se="iid" ou "nid" ou "ker" ou "boot")

III- La régression logistique :


La régression logistique est l’un des modèles d’analyse multivariée les plus couramment
utilisés en épidémiologie. Elle permet de mesurer l’association entre la survenue d’un
évènement (variable expliquée qualitative) et les facteurs susceptibles de l’influencer
(variables explicatives). Le choix des variables explicatives intégrées au modèle de régression
logistique est basé sur une connaissance préalable de la physiopathologie de la maladie et sur
l’association statistique entre la variable et l’évènement, mesurée par l’odds ratio. Les
principales étapes de sa réalisation, les conditions d’applications à vérifier, ainsi que les outils
essentiels à son interprétation sont exposés de manière concise. Nous discutons aussi de
l’importance du choix des variables à inclure et à conserver dans le modèle de régression afin
de ne pas omettre des facteurs de confusion importants. Enfin, un exemple tiré de la
littérature permet d’illustrer le propos et de vérifier les acquis du lecteur.
Exemple sur R :
model <- glm(Lung.Cancer..Y.~Smoking..X.,data = data, family = "binomial")
#Predicted Probablities
model$fitted.values
data$prediction <- model$fitted.values>0.5

IV- La régression ordinale :


Les régressions quantiles sont des outils statistiques dont l’objet est de décrire l’impact de
variables explicatives sur une variable d’intérêt. Elles permettent une description plus riche
que les régressions linéaires classiques, puisqu’elles s’intéressent à l’ensemble de la
distribution conditionnelle de la variable d’intérêt et non seulement à la moyenne de celle-ci.
En outre, elles peuvent être plus adaptées pour certains types de données (variables
censurées ou tronquées, présence de valeurs extrêmes, modèles non linéaires...).
Exemple sur R :
#Read data file from working directory
setwd("C:/Users/You/Desktop")
data <- read.table("data.txt")
#Ordering the dependent variable
data$rpurchase = factor(data$rpurchase, levels = c("low probability", "medium probability",
"high probability"), ordered = TRUE)
data$peers = factor(data$peers, levels = c("0", "1"), ordered = TRUE)
data$coupon = factor(data$coupon, levels = c("0", "1"), ordered = TRUE)
#Exploratory data analysis
#Summarizing the data
summary(data)
#Making frequency table
table(data$rpurchase, data$coupon)
#Dividing data into training and test set
#Random sampling
samplesize = 0.60*nrow(data)
set.seed(100)
index = sample(seq_len(nrow(data)), size = samplesize)
#Creating training and test set
datatrain = data[index,]
datatest = data[-index,]

#Build ordinal logistic regression model


model= polr(rpurchase ~ coupon + peers + quality , data = datatrain, Hess = TRUE)
summary(model)

Vous aimerez peut-être aussi