Regression Logistique

Modèles Linéaires Généralisés
Régression Logistique
Lucien D. GNING
lucien.gning@univ-thies.sn
January 16, 2022
Lucien D. GNING lucien.gning@univ-thies.sn Modèles Linéaires Généralisés January 16, 2022 1 / 33

Plan
1 Introduction
2 Formalisation mathématique
3 Estimation
4 Comportement asymptotique
5 Significativité des paramètres
6 Interprétation des paramètres
7 Intervalle de confiance
8 Pertinence du modèle
9 Détection de valeurs influentes
10 Qualité du modèle
11 Régression Polytomique
1 Introduction
3 Estimation

Introduction
1 Les modèles de régression linéaires classiques ne sont pas les mieux

adaptés pour modéliser des données qualitatives
2 L’objectif de la régression logistique est de modéliser, de classifier,
une variable binaire prenant ses valeurs dans {0, 1} en fonction de
variables explicatives quantitatives (et potentiellement qualitatives).
3 La régression logistique est une méthode de classification supervisée.
4 Tout comme la régression de Poisson, la régression logistique
appartient aux modèles linéaires généralisés. Pour rappel, il s’agit de
modèles de régression qui sont des extensions du modèle linéaire, et
qui reposent sur trois éléments :
un prédicteur linéaire
une fonction de lien
une structure des erreurs
Applications
1 variable binaire : la prévision de présence/absence d’une maladie ;

2 la prévision de l’état de fonctionnement d’une machine-outil en
fonction de ses caractéristiques (ancienneté, modèle, etc.), à des fins
de maintenance prédictive ;
3 le credit scoring (attribution ou non d’un crédit).
4 La rechute d’un cancer est-elle liée au taux d’expression d’un gène ?
5 Salaire net mensuel en fonction du sexe.
6 Chômage en fonction du niveau de diplôme
une variable qualitative Y : rechute oui / non
une variable quantitative X : dosage
n−échantillon
Prédire Y connaissant X
Introduction
1 Modèle statistique permettant d’étudier les relations entre

Un ensemble de variables explicatives Xi
Une variable qualitative Y
Modèle linéaire généralisé utilisant une fonction logistique comme
fonction de lien.
2 Extensions : Variable Y multinomiale (régression polytomique
ordonnée ou non)
3 Outil majeur en épidémiologie

1 Introduction
3 Estimation

Formalisation mathématique (contexte)
1 Problématique
On considère une population divisée en deux groupes d’individu G1 et
G2 distinguables.
Soit Y la variable réponse (qualitative) définie par :
(
1 si l’individu i appartient à G1
Y =
0 si l’individu i appartient à G2
On souhaite expliquer Y à partir des variables explicatives X1 , . . . , Xp

(qualitatives ou quantitatives)
On dispose d’une réalisation (yi , xi1 , . . . , xip )1≤i≤n du vecteur
(Y , X1 , . . . , Xp ) définit sur l’espace de probabilité (Ω, A, P)
Formalisation mathématique (Contexte)
1 Modélisation
0
Posons xi = (xi1 , . . . , xip ) et p(xi ) = P(Yi = 1|xi ). On obtient :
Yi ∼ B(p(xi ))
On souhaite estimer pour chaque individu i la valeur de p(xi ) pour

discriminer la population en utilisant la fonction de lien logit
p(xi )
logit(p(xi )) = = β0 + β1 xi1 + . . . + βp xip
1 − p(xi )
0
e β0 +β1 xi1 +...+βp xip e xi β
p(xi ) = = 0
1 + e β0 +β1 xi1 +...+βp xip 1 + e xi β
où β = (β0 , β1 , . . . , β) ∈ Rp+1 est le vecteur des paramètres inconnus
du modèle (à estimer)
1 Introduction
3 Estimation

Estimation par maximum de vraisemblance
Comme Yi ∼ B(p(xi )), la fonction de vraisemblance associée au modèle
est donnée par :
n
Y
L(β) = [p(xi )]yi [1 − p(xi )]1−yi
i=1
En passant au log, l’expression de la log-vraisemblance du modèle est

donnée par :
n
X
`(β) = [yi log(p(xi )) + (1 − yi ) log(1 − p(xi ))]
i=1
n 0
0
X
= [yi xi β − log(1 − e xi β )]
i=1
Pour j = 0, . . . , p nous obtenons les dérivées suivantes :

0
n n
e xi β
X
∂` X
= yi xij − 0 xij = [xij (yi − p(xi ))]
∂βj 1 + e xi β
i=1 i=1
Estimation par maximum de vraisemblance
En notation matricielle on obtient le vecteur gradient au point β :

n
0
X
∇`(β) = [xi (yi − p(xi ))] = X (y − π)
i=1
0 0
où y = (y1 , . . . , yn ) et π = (p1 , . . . , pn ) .
L’estimateur du maximum de vraisemblance (si il existe) est solution de
l’équation (appelée équation du score) :
0
S(β) = ∇`(β) = X (y − π) = 0
Ce système non linéaire en β n’admet pas de solution analytique. On a

donc recours à des méthodes numériques pour la résolution (Méthode de
Newton Raphson).
1 Introduction
3 Estimation

Comportement asymptotique
1 rang(X ) = p + 1 ;
2 Le nuage est en situation de recouvrement (ni complètement
séparable ni quasi-complétement séparable) ;
0
3 La matrice E(X X ) existe et est définie positive.
Les hypothèses (1-2) assurent la concativité stricte de la log-vraisemblance
: l’EMV β̂ existe et est unique.
Sous l’hypothèse 3 on a :
β̂ −→ β en probabilité quand n → +∞
√
n(β̂ − β) −→ N (0, [I(β)]−1 )
où 2
∂ `(β)
[I(β)]jk = −E , 0 ≤ j, k ≤ p
∂βj ∂βk
1 Introduction
3 Estimation

significativité des paramètres
1 Test de Student
On considère les hypothèses :
H0 : βj = 0 contre H1 : βj 6= 0
Sous H0 et quand n −→ +∞ on a :
β̂j
T = −→ Tn−p−1
σ̂(β̂j )
La p-value du test est
p-value = P(|Tn−p−1 | > |Tobs |/H0 )
On rejette H0 (donc l’influence de Xj sur Y est significative) au seuil

de risque α si p-value < α ou si Tobs > tn−p−1 (1 − α/2).
tn−p−1 (1 − α/2) est le quantile d’ordre 1 − α/2 de la loi de Student à
n − p − 1 degrés de liberté
Tobs est une observation de T .
1 Introduction
3 Estimation

rapport des côtes ou odds ratio
1 Définition : on appelle rapport des côtes ou odds ratio de deux

valeurs x1 et x2 du vecteur des covariables le réel suivant :
p(x1 )
1−p(x1 )
OR(x1 , x2 ) = p(x2 )
1−p(x2 )
2 Interprétation : Si Xj augmente d’une unité, alors l’odds ratio devient
ORj = OR(x + ej , x) = e βj x ∈ Rp , ej = (0, . . . , 0, 1, 0, . . . , 0)
1 si ORj > 1, l’augmentation d’une unité de Xj entraı̂ne une

augmentation des chances que {Y = 1} se réalise,
2 si ORj = 1, l’augmentation d’une unité de Xj n’a pas d’impact sur Y ,
3 si ORj < 1, l’augmentation d’une unité de Xj entraı̂ne une
augmentation des chances que {Y = 0} se réalise.
1 Introduction
3 Estimation

Intervalle de confiance
1 Intervalle de confiance pour βj : Un intervalle de confiance pour βj au

niveau 1 − α, α ∈ (0, 1) est donné par :
IC (βj ) = [β̂j − σ̂(β̂j )tn−p−1 (1 − α/2); β̂j + σ̂(β̂j )tn−p−1 (1 − α/2)]
2 Intervalle de confiance pour ORj : Un intervalle de confiance pour βj

au niveau 1 − α, α ∈ (0, 1) est donné par :
IC (ORj ) = [exp{β̂j ± σ̂(β̂j )tn−p−1 (1 − α/2)}]
L’influence de la variable Xj sur Y est significative si 1 ∈

/ IC (ORj )
1 Introduction
3 Estimation

Pertinence du modèle
1 La règle du pouce : Si le modèle de régression logistique est
pertinent, alors la déviance du modèle D ne doit pas être trop
éloignée de E(D) qui est proche de ν = n − p − 1 ie (D/ν ≈ 1).
2 Test de Hosmer-Lemeshow : si p − value > α, on admet que le
modèle est bien adapté aux données.
3 Résidus de Pearson : on appelle résidus de Pearson
n
Yi − p̂(xi ) X
ε̂i = p ⇒χ= ε̂2i −→ χ2n−p−1
p̂(xi )(1 − p̂(xi )) i=1
On considère les hypothèses suivantes

(
H0 : logit(p(x)) = β0 + β1 x1 + . . . βp xp
H1 : logit(p(x)) 6= β0 + β1 x1 + . . . βp xp
p-value = P(χ2n−p−1 > χobs |H0 )

Si p-value > α, alors on admet que le modèle est bien adapté aux données.
Pertinence du modèle
1 Test des résidus de la déviance : Le test des résidus de la déviance est
similaire à celui des résidus de Pearson, mais avec les déviances
résiduelles définies par :
s
Yi 1−Yi
DRi = Sign(Yi − p̂(xi )) 2 Yi log +(1−Yi ) log
p̂(xi ) 1− p̂(xi )
n
X
DR = DRi2 −→ χ2n−p−1
i=1
p-value = P(χ2n−p−1 > χobs |H0 )

Si p-value > α, alors on admet que le modèle est bien adapté aux
données.
2 Pseudo R 2 Pseudo R 2 de McFadden, de Nagelkerke . . . Plus ils sont
proches de 1, meilleur est le modèle. Cependant, ces ”Pseudo R 2 ”
sont souvent petits et difficiles à interpréter ; ils sont généralement
considérés comme corrects si Pseudo R 2 > 20%.
1 Introduction
3 Estimation

Détection de valeurs influentes
1 Dans ce qui suit :
∂µi 2

1/2 0 −1 0 1/2 1
H=W [X (X WX ) X ]W et W = diag
V(Yi ) ∂ηi
2 Résidus standardisés de Pearson : on appelle résidu standardisé de
Pearson la valeur :
ε̂i
rspi = √
1 − Hii
Si |rspi | > 2, on dit que l’observation i est une valeur influente.
3 Distance de Cook : on défini la distance de Cook par :
Hii
di = (rspi )2
(p + 1)(1 − Hii )
Si di > 1, on dit que l’observation i est une valeur influente.

1 Introduction
3 Estimation

Qualité du modèle
1 Matrice de confusion : elle est définie par
Pn Pn
VN FP i=1 1[yi =ŷi =0] i=1 1[yi =0]∩[ŷi =1]
MC = = P n P n
FN VP i=1 1[yi =1]∩[ŷi =0] i=1 1[yi =ŷi =1]
où VN=”vrais négatifs”, FP=”faux positifs”, FN=”faux négatifs”,

VP=”vrais positifs” et
(
1 si p̂(xi ) ≥ 12
ŷi =
0 sinon
On appelle taux d’erreur la quantité

n
X n
FP + FN 1 X
te = = 1[yi =0]∩[ŷi =1] + 1[yi =1]∩[ŷi =0]
n n
i=1 i=1
Plus ”te ” est proche de 0, meilleur est la qualité prédictive modèle.

On convient que la qualité prédictive du modèle est mauvaise lorsque
te > 50%.
Qualité du modèle
1 Courbe ROC (Receiver Operating Characteristic curve) : Soit
θ ∈ {0, 1}. On appelle i-ème prédiction du groupe au niveau θ la
variable (
1 si p̂(xi ) ≥ θ
ỹi (θ) =
0 sinon
On définit les éléments suivants :
1 la fréquence de fausse alarme (”1-specificity”) :
Pn
1[y =0]∩[ỹi (θ)=1]
ffa(θ) = i=1 Pn i
i=1 1[yi =0]
2 la fréquence de bonne détection (”sensitivity”) :

Pn
1[y =1]∩[ỹi (θ)=1]
ffd(θ) = i=1 Pn i
i=1 1[yi =1]
On appelle courbe ROC la courbe {(ffa(θ), fbd(θ)); θ ∈ [0, 1]}. Plus

l’aire sous la courbe ROC est proche de 1, meilleur est le modèle.
1 Introduction
3 Estimation

Régression Polytomique
1 Variable réponse Y admet m modalités notées g1 , . . . , gm

0
2 X = (X0 , X1 , . . . , Xp ) vecteur de variables explicatives (X0 = 1)
3 Pour tout k ∈ {1, . . . , m}, on veut estimer la probabilité inconnue
(pour i = 1, . . . , n) :
0
pk (xi ) = P(Yi = gk /Xi = xi ), xi = (xi0 , . . . , xip )
4 Exemples : tension artérielle (hypo, modérée, hyper), intensité

douleur (pas, faible, modérée, intense), degré de satisfaction (pas,
moyennement, satisfait, très), . . .
Régression multinomiale
1 Les modalités de Y (g1 , . . . , gm ) sont sans lien hiérarchique/ordre.
2 On appelle modèle de régression multinomiale, le modèle suivant pour
k ∈ {2, . . . , m},

pk (x (k) (k) (k)
log = β0 + β1 x1 + . . . + βp xp
p1 (x)
soit
(k) (k) (k)
exp(β0 + β1 x1 + . . . + βp xp )
pk (x) = Pm (k) (k) (k)
1 + k=2 exp(β0 + β1 x1 + . . . + βp xp )
(k) (k) 0
où β = (β0 , . . . , βp ) ∈ Rp+1 vecteur des coefficients inconnus.
Notons que pour k = 1 on a :
m
X
p1 (x) = 1 − pk (x).
k=2
Estimation
1 Estimation La vraisemblance du modèle est donnée par :

n Y
m
0
Y
L(β) = [p(xi )]1yi =gk , β = (β (1) , . . . , β (m) ) ∈ R(p+1)m
i=1 i=k
β̂ = argmax L(β)
β∈R(p+1)m
(k) (k) (k)

exp(β̂0 + β̂1 x1 + . . . + β̂p xp )
p̂k (x) = Pm (k) (k) (k)
1 + k=2 exp(β̂0 + β̂1 x1 + . . . + β̂p xp )
m
X
p̂1 (x) = 1 − p̂k (x).
k=2
Régression polytomique ordinale
Les m modalités g1 , . . . , gm des variables Yi sont ordonnées
1 Logits adjacents : modéliser l’odds du passage d’une catégorie à
l’autre avec une combinaison linéaire des variables explicatives

P(Y = gk+1 )
log = β0k + β1k x1 + . . . + βpk xp , k = 1, . . . , m − 1
P(Y = gk )
2 Logits cumulatifs, odds proportionnels : plus populaires auprès des
praticiens. Ils permettent de comparer une catégorie avec toutes les
catégories qui lui sont inférieures (ou supérieures selon l’écriture
adoptée).

P(Y ≤ gk+1 )
log = β0k + β1k x1 + . . . + βpk xp , k = 1, . . . , m − 1
P(Y > gk )
La combinaison linéaire des variables indépendantes quantifie le
surcroı̂t de probabilité d’être en dessous, plutôt qu’au-dessus, du
niveau gk .
3 Odds proportionnels : les coefficients des variables sont les mêmes
pour tous les logits.

Regression Logistique

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Regression Logistique

Transféré par

Droits d'auteur :

Formats disponibles

Modèles Linéaires Généralisés

January 16, 2022

Lucien D. GNING lucien.gning@univ-thies.sn Modèles Linéaires Généralisés January 16, 2022 1 / 33

Lucien D. GNING lucien.gning@univ-thies.sn Modèles Linéaires Généralisés January 16, 2022 3 / 33

1 Les modèles de régression linéaires classiques ne sont pas les mieux

1 variable binaire : la prévision de présence/absence d’une maladie ;

1 Modèle statistique permettant d’étudier les relations entre

Lucien D. GNING lucien.gning@univ-thies.sn Modèles Linéaires Généralisés January 16, 2022 6 / 33

Lucien D. GNING lucien.gning@univ-thies.sn Modèles Linéaires Généralisés January 16, 2022 7 / 33

On souhaite expliquer Y à partir des variables explicatives X1 , . . . , Xp

On souhaite estimer pour chaque individu i la valeur de p(xi ) pour

Lucien D. GNING lucien.gning@univ-thies.sn Modèles Linéaires Généralisés January 16, 2022 10 / 33

En passant au log, l’expression de la log-vraisemblance du modèle est

Pour j = 0, . . . , p nous obtenons les dérivées suivantes :

En notation matricielle on obtient le vecteur gradient au point β :

Ce système non linéaire en β n’admet pas de solution analytique. On a

Lucien D. GNING lucien.gning@univ-thies.sn Modèles Linéaires Généralisés January 16, 2022 13 / 33

Lucien D. GNING lucien.gning@univ-thies.sn Modèles Linéaires Généralisés January 16, 2022 15 / 33

La p-value du test est

p-value = P(|Tn−p−1 | > |Tobs |/H0 )

On rejette H0 (donc l’influence de Xj sur Y est significative) au seuil

Lucien D. GNING lucien.gning@univ-thies.sn Modèles Linéaires Généralisés January 16, 2022 17 / 33

1 Définition : on appelle rapport des côtes ou odds ratio de deux

2 Interprétation : Si Xj augmente d’une unité, alors l’odds ratio devient

ORj = OR(x + ej , x) = e βj x ∈ Rp , ej = (0, . . . , 0, 1, 0, . . . , 0)

1 si ORj > 1, l’augmentation d’une unité de Xj entraı̂ne une

Lucien D. GNING lucien.gning@univ-thies.sn Modèles Linéaires Généralisés January 16, 2022 19 / 33

1 Intervalle de confiance pour βj : Un intervalle de confiance pour βj au

IC (βj ) = [β̂j − σ̂(β̂j )tn−p−1 (1 − α/2); β̂j + σ̂(β̂j )tn−p−1 (1 − α/2)]

2 Intervalle de confiance pour ORj : Un intervalle de confiance pour βj

IC (ORj ) = [exp{β̂j ± σ̂(β̂j )tn−p−1 (1 − α/2)}]

L’influence de la variable Xj sur Y est significative si 1 ∈

Lucien D. GNING lucien.gning@univ-thies.sn Modèles Linéaires Généralisés January 16, 2022 21 / 33

On considère les hypothèses suivantes

p-value = P(χ2n−p−1 > χobs |H0 )

p-value = P(χ2n−p−1 > χobs |H0 )

Lucien D. GNING lucien.gning@univ-thies.sn Modèles Linéaires Généralisés January 16, 2022 24 / 33

1 Dans ce qui suit :

Si di > 1, on dit que l’observation i est une valeur influente.

Lucien D. GNING lucien.gning@univ-thies.sn Modèles Linéaires Généralisés January 16, 2022 26 / 33

où VN=”vrais négatifs”, FP=”faux positifs”, FN=”faux négatifs”,

On appelle taux d’erreur la quantité

Plus ”te ” est proche de 0, meilleur est la qualité prédictive modèle.

2 la fréquence de bonne détection (”sensitivity”) :

On appelle courbe ROC la courbe {(ffa(θ), fbd(θ)); θ ∈ [0, 1]}. Plus

Lucien D. GNING lucien.gning@univ-thies.sn Modèles Linéaires Généralisés January 16, 2022 29 / 33

1 Variable réponse Y admet m modalités notées g1 , . . . , gm

4 Exemples : tension artérielle (hypo, modérée, hyper), intensité

1 Estimation La vraisemblance du modèle est donnée par :

(k) (k) (k)

l’autre avec une combinaison linéaire des variables explicatives

Vous aimerez peut-être aussi