Vous êtes sur la page 1sur 33

Modèles Linéaires Généralisés

Régression Logistique

Lucien D. GNING
lucien.gning@univ-thies.sn

January 16, 2022

Lucien D. GNING lucien.gning@univ-thies.sn Modèles Linéaires Généralisés January 16, 2022 1 / 33


Plan
1 Introduction
2 Formalisation mathématique
3 Estimation
4 Comportement asymptotique
5 Significativité des paramètres
6 Interprétation des paramètres
7 Intervalle de confiance
8 Pertinence du modèle
9 Détection de valeurs influentes
10 Qualité du modèle
11 Régression Polytomique
1 Introduction
2 Formalisation mathématique
3 Estimation
4 Comportement asymptotique
5 Significativité des paramètres
6 Interprétation des paramètres
7 Intervalle de confiance
8 Pertinence du modèle
9 Détection de valeurs influentes
10 Qualité du modèle
11 Régression Polytomique

Lucien D. GNING lucien.gning@univ-thies.sn Modèles Linéaires Généralisés January 16, 2022 3 / 33


Introduction

1 Les modèles de régression linéaires classiques ne sont pas les mieux


adaptés pour modéliser des données qualitatives
2 L’objectif de la régression logistique est de modéliser, de classifier,
une variable binaire prenant ses valeurs dans {0, 1} en fonction de
variables explicatives quantitatives (et potentiellement qualitatives).
3 La régression logistique est une méthode de classification supervisée.
4 Tout comme la régression de Poisson, la régression logistique
appartient aux modèles linéaires généralisés. Pour rappel, il s’agit de
modèles de régression qui sont des extensions du modèle linéaire, et
qui reposent sur trois éléments :
un prédicteur linéaire
une fonction de lien
une structure des erreurs
Applications

1 variable binaire : la prévision de présence/absence d’une maladie ;


2 la prévision de l’état de fonctionnement d’une machine-outil en
fonction de ses caractéristiques (ancienneté, modèle, etc.), à des fins
de maintenance prédictive ;
3 le credit scoring (attribution ou non d’un crédit).
4 La rechute d’un cancer est-elle liée au taux d’expression d’un gène ?
5 Salaire net mensuel en fonction du sexe.
6 Chômage en fonction du niveau de diplôme
une variable qualitative Y : rechute oui / non
une variable quantitative X : dosage
n−échantillon
Prédire Y connaissant X
Introduction

1 Modèle statistique permettant d’étudier les relations entre


Un ensemble de variables explicatives Xi
Une variable qualitative Y
Modèle linéaire généralisé utilisant une fonction logistique comme
fonction de lien.
2 Extensions : Variable Y multinomiale (régression polytomique
ordonnée ou non)
3 Outil majeur en épidémiologie

Lucien D. GNING lucien.gning@univ-thies.sn Modèles Linéaires Généralisés January 16, 2022 6 / 33


1 Introduction
2 Formalisation mathématique
3 Estimation
4 Comportement asymptotique
5 Significativité des paramètres
6 Interprétation des paramètres
7 Intervalle de confiance
8 Pertinence du modèle
9 Détection de valeurs influentes
10 Qualité du modèle
11 Régression Polytomique

Lucien D. GNING lucien.gning@univ-thies.sn Modèles Linéaires Généralisés January 16, 2022 7 / 33


Formalisation mathématique (contexte)

1 Problématique
On considère une population divisée en deux groupes d’individu G1 et
G2 distinguables.
Soit Y la variable réponse (qualitative) définie par :
(
1 si l’individu i appartient à G1
Y =
0 si l’individu i appartient à G2

On souhaite expliquer Y à partir des variables explicatives X1 , . . . , Xp


(qualitatives ou quantitatives)
On dispose d’une réalisation (yi , xi1 , . . . , xip )1≤i≤n du vecteur
(Y , X1 , . . . , Xp ) définit sur l’espace de probabilité (Ω, A, P)
Formalisation mathématique (Contexte)

1 Modélisation
0
Posons xi = (xi1 , . . . , xip ) et p(xi ) = P(Yi = 1|xi ). On obtient :

Yi ∼ B(p(xi ))

On souhaite estimer pour chaque individu i la valeur de p(xi ) pour


discriminer la population en utilisant la fonction de lien logit

p(xi )
logit(p(xi )) = = β0 + β1 xi1 + . . . + βp xip
1 − p(xi )
0
e β0 +β1 xi1 +...+βp xip e xi β
p(xi ) = = 0
1 + e β0 +β1 xi1 +...+βp xip 1 + e xi β
où β = (β0 , β1 , . . . , β) ∈ Rp+1 est le vecteur des paramètres inconnus
du modèle (à estimer)
1 Introduction
2 Formalisation mathématique
3 Estimation
4 Comportement asymptotique
5 Significativité des paramètres
6 Interprétation des paramètres
7 Intervalle de confiance
8 Pertinence du modèle
9 Détection de valeurs influentes
10 Qualité du modèle
11 Régression Polytomique

Lucien D. GNING lucien.gning@univ-thies.sn Modèles Linéaires Généralisés January 16, 2022 10 / 33


Estimation par maximum de vraisemblance
Comme Yi ∼ B(p(xi )), la fonction de vraisemblance associée au modèle
est donnée par :
n
Y
L(β) = [p(xi )]yi [1 − p(xi )]1−yi
i=1

En passant au log, l’expression de la log-vraisemblance du modèle est


donnée par :
n
X
`(β) = [yi log(p(xi )) + (1 − yi ) log(1 − p(xi ))]
i=1
n 0
0
X
= [yi xi β − log(1 − e xi β )]
i=1

Pour j = 0, . . . , p nous obtenons les dérivées suivantes :


0
n  n
e xi β
 X
∂` X
= yi xij − 0 xij = [xij (yi − p(xi ))]
∂βj 1 + e xi β
i=1 i=1
Estimation par maximum de vraisemblance

En notation matricielle on obtient le vecteur gradient au point β :


n
0
X
∇`(β) = [xi (yi − p(xi ))] = X (y − π)
i=1

0 0
où y = (y1 , . . . , yn ) et π = (p1 , . . . , pn ) .
L’estimateur du maximum de vraisemblance (si il existe) est solution de
l’équation (appelée équation du score) :
0
S(β) = ∇`(β) = X (y − π) = 0

Ce système non linéaire en β n’admet pas de solution analytique. On a


donc recours à des méthodes numériques pour la résolution (Méthode de
Newton Raphson).
1 Introduction
2 Formalisation mathématique
3 Estimation
4 Comportement asymptotique
5 Significativité des paramètres
6 Interprétation des paramètres
7 Intervalle de confiance
8 Pertinence du modèle
9 Détection de valeurs influentes
10 Qualité du modèle
11 Régression Polytomique

Lucien D. GNING lucien.gning@univ-thies.sn Modèles Linéaires Généralisés January 16, 2022 13 / 33


Comportement asymptotique

1 rang(X ) = p + 1 ;
2 Le nuage est en situation de recouvrement (ni complètement
séparable ni quasi-complétement séparable) ;
0
3 La matrice E(X X ) existe et est définie positive.
Les hypothèses (1-2) assurent la concativité stricte de la log-vraisemblance
: l’EMV β̂ existe et est unique.
Sous l’hypothèse 3 on a :

β̂ −→ β en probabilité quand n → +∞

n(β̂ − β) −→ N (0, [I(β)]−1 )

où  2 
∂ `(β)
[I(β)]jk = −E , 0 ≤ j, k ≤ p
∂βj ∂βk
1 Introduction
2 Formalisation mathématique
3 Estimation
4 Comportement asymptotique
5 Significativité des paramètres
6 Interprétation des paramètres
7 Intervalle de confiance
8 Pertinence du modèle
9 Détection de valeurs influentes
10 Qualité du modèle
11 Régression Polytomique

Lucien D. GNING lucien.gning@univ-thies.sn Modèles Linéaires Généralisés January 16, 2022 15 / 33


significativité des paramètres
1 Test de Student
On considère les hypothèses :

H0 : βj = 0 contre H1 : βj 6= 0

Sous H0 et quand n −→ +∞ on a :

β̂j
T = −→ Tn−p−1
σ̂(β̂j )

La p-value du test est

p-value = P(|Tn−p−1 | > |Tobs |/H0 )

On rejette H0 (donc l’influence de Xj sur Y est significative) au seuil


de risque α si p-value < α ou si Tobs > tn−p−1 (1 − α/2).
tn−p−1 (1 − α/2) est le quantile d’ordre 1 − α/2 de la loi de Student à
n − p − 1 degrés de liberté
Tobs est une observation de T .
1 Introduction
2 Formalisation mathématique
3 Estimation
4 Comportement asymptotique
5 Significativité des paramètres
6 Interprétation des paramètres
7 Intervalle de confiance
8 Pertinence du modèle
9 Détection de valeurs influentes
10 Qualité du modèle
11 Régression Polytomique

Lucien D. GNING lucien.gning@univ-thies.sn Modèles Linéaires Généralisés January 16, 2022 17 / 33


rapport des côtes ou odds ratio

1 Définition : on appelle rapport des côtes ou odds ratio de deux


valeurs x1 et x2 du vecteur des covariables le réel suivant :
p(x1 )
1−p(x1 )
OR(x1 , x2 ) = p(x2 )
1−p(x2 )

2 Interprétation : Si Xj augmente d’une unité, alors l’odds ratio devient

ORj = OR(x + ej , x) = e βj x ∈ Rp , ej = (0, . . . , 0, 1, 0, . . . , 0)

1 si ORj > 1, l’augmentation d’une unité de Xj entraı̂ne une


augmentation des chances que {Y = 1} se réalise,
2 si ORj = 1, l’augmentation d’une unité de Xj n’a pas d’impact sur Y ,
3 si ORj < 1, l’augmentation d’une unité de Xj entraı̂ne une
augmentation des chances que {Y = 0} se réalise.
1 Introduction
2 Formalisation mathématique
3 Estimation
4 Comportement asymptotique
5 Significativité des paramètres
6 Interprétation des paramètres
7 Intervalle de confiance
8 Pertinence du modèle
9 Détection de valeurs influentes
10 Qualité du modèle
11 Régression Polytomique

Lucien D. GNING lucien.gning@univ-thies.sn Modèles Linéaires Généralisés January 16, 2022 19 / 33


Intervalle de confiance

1 Intervalle de confiance pour βj : Un intervalle de confiance pour βj au


niveau 1 − α, α ∈ (0, 1) est donné par :

IC (βj ) = [β̂j − σ̂(β̂j )tn−p−1 (1 − α/2); β̂j + σ̂(β̂j )tn−p−1 (1 − α/2)]

2 Intervalle de confiance pour ORj : Un intervalle de confiance pour βj


au niveau 1 − α, α ∈ (0, 1) est donné par :

IC (ORj ) = [exp{β̂j ± σ̂(β̂j )tn−p−1 (1 − α/2)}]

L’influence de la variable Xj sur Y est significative si 1 ∈


/ IC (ORj )
1 Introduction
2 Formalisation mathématique
3 Estimation
4 Comportement asymptotique
5 Significativité des paramètres
6 Interprétation des paramètres
7 Intervalle de confiance
8 Pertinence du modèle
9 Détection de valeurs influentes
10 Qualité du modèle
11 Régression Polytomique

Lucien D. GNING lucien.gning@univ-thies.sn Modèles Linéaires Généralisés January 16, 2022 21 / 33


Pertinence du modèle
1 La règle du pouce : Si le modèle de régression logistique est
pertinent, alors la déviance du modèle D ne doit pas être trop
éloignée de E(D) qui est proche de ν = n − p − 1 ie (D/ν ≈ 1).
2 Test de Hosmer-Lemeshow : si p − value > α, on admet que le
modèle est bien adapté aux données.
3 Résidus de Pearson : on appelle résidus de Pearson
n
Yi − p̂(xi ) X
ε̂i = p ⇒χ= ε̂2i −→ χ2n−p−1
p̂(xi )(1 − p̂(xi )) i=1

On considère les hypothèses suivantes


(
H0 : logit(p(x)) = β0 + β1 x1 + . . . βp xp
H1 : logit(p(x)) 6= β0 + β1 x1 + . . . βp xp

p-value = P(χ2n−p−1 > χobs |H0 )


Si p-value > α, alors on admet que le modèle est bien adapté aux données.
Pertinence du modèle
1 Test des résidus de la déviance : Le test des résidus de la déviance est
similaire à celui des résidus de Pearson, mais avec les déviances
résiduelles définies par :
s     
Yi 1−Yi
DRi = Sign(Yi − p̂(xi )) 2 Yi log +(1−Yi ) log
p̂(xi ) 1− p̂(xi )
n
X
DR = DRi2 −→ χ2n−p−1
i=1

p-value = P(χ2n−p−1 > χobs |H0 )


Si p-value > α, alors on admet que le modèle est bien adapté aux
données.
2 Pseudo R 2 Pseudo R 2 de McFadden, de Nagelkerke . . . Plus ils sont
proches de 1, meilleur est le modèle. Cependant, ces ”Pseudo R 2 ”
sont souvent petits et difficiles à interpréter ; ils sont généralement
considérés comme corrects si Pseudo R 2 > 20%.
1 Introduction
2 Formalisation mathématique
3 Estimation
4 Comportement asymptotique
5 Significativité des paramètres
6 Interprétation des paramètres
7 Intervalle de confiance
8 Pertinence du modèle
9 Détection de valeurs influentes
10 Qualité du modèle
11 Régression Polytomique

Lucien D. GNING lucien.gning@univ-thies.sn Modèles Linéaires Généralisés January 16, 2022 24 / 33


Détection de valeurs influentes

1 Dans ce qui suit :

∂µi 2
   
1/2 0 −1 0 1/2 1
H=W [X (X WX ) X ]W et W = diag
V(Yi ) ∂ηi
2 Résidus standardisés de Pearson : on appelle résidu standardisé de
Pearson la valeur :
ε̂i
rspi = √
1 − Hii
Si |rspi | > 2, on dit que l’observation i est une valeur influente.
3 Distance de Cook : on défini la distance de Cook par :
Hii
di = (rspi )2
(p + 1)(1 − Hii )

Si di > 1, on dit que l’observation i est une valeur influente.


1 Introduction
2 Formalisation mathématique
3 Estimation
4 Comportement asymptotique
5 Significativité des paramètres
6 Interprétation des paramètres
7 Intervalle de confiance
8 Pertinence du modèle
9 Détection de valeurs influentes
10 Qualité du modèle
11 Régression Polytomique

Lucien D. GNING lucien.gning@univ-thies.sn Modèles Linéaires Généralisés January 16, 2022 26 / 33


Qualité du modèle
1 Matrice de confusion : elle est définie par
   Pn Pn 
VN FP i=1 1[yi =ŷi =0] i=1 1[yi =0]∩[ŷi =1]
MC = = P n P n
FN VP i=1 1[yi =1]∩[ŷi =0] i=1 1[yi =ŷi =1]

où VN=”vrais négatifs”, FP=”faux positifs”, FN=”faux négatifs”,


VP=”vrais positifs” et
(
1 si p̂(xi ) ≥ 12
ŷi =
0 sinon

On appelle taux d’erreur la quantité


n
X n 
FP + FN 1 X
te = = 1[yi =0]∩[ŷi =1] + 1[yi =1]∩[ŷi =0]
n n
i=1 i=1

Plus ”te ” est proche de 0, meilleur est la qualité prédictive modèle.


On convient que la qualité prédictive du modèle est mauvaise lorsque
te > 50%.
Qualité du modèle
1 Courbe ROC (Receiver Operating Characteristic curve) : Soit
θ ∈ {0, 1}. On appelle i-ème prédiction du groupe au niveau θ la
variable (
1 si p̂(xi ) ≥ θ
ỹi (θ) =
0 sinon
On définit les éléments suivants :
1 la fréquence de fausse alarme (”1-specificity”) :
Pn
1[y =0]∩[ỹi (θ)=1]
ffa(θ) = i=1 Pn i
i=1 1[yi =0]

2 la fréquence de bonne détection (”sensitivity”) :


Pn
1[y =1]∩[ỹi (θ)=1]
ffd(θ) = i=1 Pn i
i=1 1[yi =1]

On appelle courbe ROC la courbe {(ffa(θ), fbd(θ)); θ ∈ [0, 1]}. Plus


l’aire sous la courbe ROC est proche de 1, meilleur est le modèle.
1 Introduction
2 Formalisation mathématique
3 Estimation
4 Comportement asymptotique
5 Significativité des paramètres
6 Interprétation des paramètres
7 Intervalle de confiance
8 Pertinence du modèle
9 Détection de valeurs influentes
10 Qualité du modèle
11 Régression Polytomique

Lucien D. GNING lucien.gning@univ-thies.sn Modèles Linéaires Généralisés January 16, 2022 29 / 33


Régression Polytomique

1 Variable réponse Y admet m modalités notées g1 , . . . , gm


0
2 X = (X0 , X1 , . . . , Xp ) vecteur de variables explicatives (X0 = 1)
3 Pour tout k ∈ {1, . . . , m}, on veut estimer la probabilité inconnue
(pour i = 1, . . . , n) :
0
pk (xi ) = P(Yi = gk /Xi = xi ), xi = (xi0 , . . . , xip )

4 Exemples : tension artérielle (hypo, modérée, hyper), intensité


douleur (pas, faible, modérée, intense), degré de satisfaction (pas,
moyennement, satisfait, très), . . .
Régression multinomiale
1 Les modalités de Y (g1 , . . . , gm ) sont sans lien hiérarchique/ordre.
2 On appelle modèle de régression multinomiale, le modèle suivant pour
k ∈ {2, . . . , m},
 
pk (x (k) (k) (k)
log = β0 + β1 x1 + . . . + βp xp
p1 (x)

soit
(k) (k) (k)
exp(β0 + β1 x1 + . . . + βp xp )
pk (x) = Pm (k) (k) (k)
1 + k=2 exp(β0 + β1 x1 + . . . + βp xp )
(k) (k) 0
où β = (β0 , . . . , βp ) ∈ Rp+1 vecteur des coefficients inconnus.
Notons que pour k = 1 on a :
m
X
p1 (x) = 1 − pk (x).
k=2
Estimation

1 Estimation La vraisemblance du modèle est donnée par :


n Y
m
0
Y
L(β) = [p(xi )]1yi =gk , β = (β (1) , . . . , β (m) ) ∈ R(p+1)m
i=1 i=k

β̂ = argmax L(β)
β∈R(p+1)m

(k) (k) (k)


exp(β̂0 + β̂1 x1 + . . . + β̂p xp )
p̂k (x) = Pm (k) (k) (k)
1 + k=2 exp(β̂0 + β̂1 x1 + . . . + β̂p xp )
m
X
p̂1 (x) = 1 − p̂k (x).
k=2
Régression polytomique ordinale
Les m modalités g1 , . . . , gm des variables Yi sont ordonnées
1 Logits adjacents : modéliser l’odds du passage d’une catégorie à

l’autre avec une combinaison linéaire des variables explicatives


 
P(Y = gk+1 )
log = β0k + β1k x1 + . . . + βpk xp , k = 1, . . . , m − 1
P(Y = gk )
2 Logits cumulatifs, odds proportionnels : plus populaires auprès des
praticiens. Ils permettent de comparer une catégorie avec toutes les
catégories qui lui sont inférieures (ou supérieures selon l’écriture
adoptée).
 
P(Y ≤ gk+1 )
log = β0k + β1k x1 + . . . + βpk xp , k = 1, . . . , m − 1
P(Y > gk )
La combinaison linéaire des variables indépendantes quantifie le
surcroı̂t de probabilité d’être en dessous, plutôt qu’au-dessus, du
niveau gk .
3 Odds proportionnels : les coefficients des variables sont les mêmes
pour tous les logits.

Vous aimerez peut-être aussi