Vous êtes sur la page 1sur 13

REGRESSION LOGISTIQUE

Quoi? Pourquoi?

 Pour modéliser les modèles avec variable à expliquer qualitative


 Pour rendre calculable la probabilité de Y par rapport à X
 3 types de Régression Logistique:
 Régression Logistique Binaire
 Régression Logistique polychotomique nominale
 Régression polychotomique ordinale
Régression Logistique Binaire
 Spécification du modèle
Y est une variable binaire, 1 si l’évènement arrive, et 0 dans le cas contraire.
Y est aléatoire, Xi ne le sont pas
On cherche à expliquer la survenue d’un évènement, la probabilité de succès, en terme d’espérance.

 Notation 
(Y, X1, X2, …, Xk) sont des variables de la population dont on extrait un échantillon de n individus i.
(yi, xi) est le vecteur des réalisations de (Yi, Xi)
K variables explicatives
 Loi de Y
 Y suit une loi de Bernoulli de paramètre p
Application de la transformation logit permet de travailler sur des valeurs entre [-∞;+∞]:
𝑙𝑜𝑔𝑖𝑡 𝑝 =ln (𝑝/ (1−𝑝)) = 𝛽0+ 𝛽1𝑥𝑖1+ 𝛽2𝑥𝑖2+⋯+𝛽𝑝𝑥𝑖𝑘

 Estimation du modèle
Par la méthode de maximum de vraisemblance
La vraisemblance d’un n-échantillon y est définie comme la probabilité d’observer cet échantillon.

Déterminer la relation entre X et Y par intervalle de confiance


 Interprétation des coefficients

 Odds, ou « cote » pour une variable exogène


Soit P une probabilité. Son odds est défini par :

𝑂𝑑𝑑𝑠𝑃=𝑃/1−𝑃
 Odds ratio, ou rapport de cote pour une variable exogène binaire
C’est le rapport des cotes de probabilité pour que l’événement arrive, pour un X vrai, et pour un X faux
 OR=1 : Y est indépendant de X
 OR<1 : Y = 1 est moins fréquent quand X augmente
 OR>1 : Y= 1 est plus fréquent quand X augmente

 Avec l’estimateur de 𝛽1, on obtient l’odds-ratio quand X1 augmente d’une unité.

OR=exp (𝛽1)

 Une valeur de OR supérieure à 1, soit un coefficient positif signifie que la probabilité pour que Y=1 soit
« OR » plus importante
 Une valeur inférieure à 1, soit un coefficient négatif, réduit la probabilité pour qu’Y=1 soit « OR » plus
faible.
 Test de significativité statistique du modèle de régression
On utilise un test de ratio de vraisemblance.
Les hypothèses
Soit M1 un modèle sans variables, et M2 le modèle avec tous les variables, on cherche à déterminer si M1 et
meilleur que M2.
 H0 : Tous les coefficients sont nuls
 H1 : Au moins un des coefficients est non nul
La statistique du test est
RV= (-2.ln (vraisemblance au maximum de M1)] - (-2.ln (vraisemblance au maximum deM2)]
On compare RV à la valeur χ²(p), Si RV est supérieur, on rejette H0, donc le modèle 2 est meilleur que 1, les
variables explicatives ont une influence sur Y.
 Test de significativité de la variable
Comme avec la significativité globale, on considère deux modèles : M1 sans la variable testée Bj et M2 avec la
variable.
Les hypothèses sont H0 : Bj = 0 ; H1 : Bj diffèrent de 0
La statistique du test s’écrit

 Si U>N (0, 1), la variable j a une influence sur l’évènement


Régression logistique polychotomique nominale
(polytomous nominal logistic regression)
 prend en compte un nombre de catégories supérieur à deux. y = j
 Pour une variable à expliquer à k modalités et en prenant arbitrairement la keme modalité
comme référence
 Probabilité conditionnelle:
wj = P(y = j⎟y = j ou y = k) = πj / (πj + πk), (j = 1,..., k - 1).
 logits pour une catégorie de référence (baseline-category logits) :
gj = loge [wj / (1 - wj)] = loge (πj / πk)
 modélisés en fonction de x par: gj = aj + βjx.
 odds : πj / πk = exp(gj)
 Probabilités d’appartenance à chacune des classes :

 Odds Ratio:

 un coefficient de régression positif signifie que l’odds est plus grand en xi + δ qu’en xi ou encore que la
probabilité d’appartenance à la catégorie j augmente plus vite ou diminue moins vite que la probabilité
d’appartenance à la catégorie de référence quand x augmente.
Régression polychotomique ordinale

 Modélisation d’une variable latente

 Valeurs prises par Y


 Probabilité d’apparition des évènements
 L’estimation des paramètres, les coefficients de régression ai et les valeurs des seuils ci des modèles
ordonnées est effectuées a l’aide des algorithme de maximation d’une fonction log-vraisemblance
 Décision:

Vous aimerez peut-être aussi