Vous êtes sur la page 1sur 51

Analyse de données II

• Régression logistique

Y désigne une variable à expliquer binaire (qui prend 2 valeurs 0 ou 1 pour


simplifier) ou un label qui dénote l’appartenance à un groupe et X1, . . . ,Xp
désignent p variables explicatives. On souhaite :
- expliquer la variable Y à l’aide des p variables explicatives X = (X1, . . . ,Xp)
- étant donnée une nouvelle mesure x des p variables explicatives, prédire
le label y associé à cette nouvelle observation.

La discrimination logistique propose pour résoudre le problème précédent


un modèle statistique appelé modèle de régression logistique.
Ce modèle appartient à la classe des modèles linéaires généralisés.
Régression logistique

• Les données
On cherche à expliquer une variable Y binaire par p variables explicatives
X1,…,Xp.
On dispose de n observations (x1,y1),…, (xn,yn)

On note X la matrice n p contenant les observations des variables explicatives

Cas p=1 -> Régression logistique simple


Cas p> 1 -> Régression logistique multiple
Régression logistique

Régression logistique simple


• Le modèle logistique - interprétation
• Estimation du modèle (Maximum de vraisemblance)
• Odds ratios - interprétation
• Tests sur le modèle (test de Wald – test RV)
• Adéquation du modèle
• Analyse des résidus
• Procédure de classement – Courbe Roc
• Régression logistique sur R
- Exemple chd – Variable explicative continue
- Exemple logistic2 – Variable explicative binaire (nominale)
Régression logistique
Régression logistique -Exemple

Exemple : Age and Coronary Heart Disease Status (CHD)


Les données proviennent d’une étude réalisée sur 100 individus pour
évaluer l’effet de l’âge ( variable AGE ) sur la présence d’un problème
coronarien (variable CHD, CHD= 1 si présence , CHD=0 si absence ).

L’objectif est d’analyser la liaison CHD – AGE.


Régression logistique -Exemple
Régression logistique - Exemple
Régression logistique

L’interprétation de ce second graphique est plus simple que la précédente.


On peut observer :
- la relation positive entre proportion de malades et classe d’âges
- une relation non linéaire – courbe de liaison de forme sigmoide
(courbe en S)
• Fonction logistique
La liaison entre proportion de malades et classes d’âge peut être
modélisée par une fonction de la forme :
Y= exp(b.X) / (1+exp(b.X))
appelé modèle de régression logistique
Régression logistique
Régression logistique - Estimation
Régression logistique - Estimation
Régression logistique - Estimation
Régression logistique – Estimation

Estimation des paramètres

• Les estimations du modèle concernent les paramètres du modèle logit:

• Les équations d’estimation (méthode du max de vraisemblance) d’un modèle


logistique (modèle linéaire généralisé) sont non linéaires;
• Les estimations sont obtenues via un algoritme itératif d’optimisation numérique
et n’ont pas d’expression analytique.
Régression logistique – odd ratio

• Odds ratios
Régression logistique– odd ratio

Cas d’une variable explicative binaire


(supposons que Y indique la présence (Y=1) ou l’absence (Y=0) d’une certaine
maladie et X la présence/absence un certain symptôme)

•Odds ratio (ou « rapport des cotes »)


C’est le rapport des cotes des probabilités d’avoir Y=1 pour ceux qui ont un
symptôme X d’une part et de ceux qui ne l’ont pas d’autre part.
•OR=1, la maladie est indépendante du symptôme
•OR>1, la maladie est plus fréquente pour les individus qui ont le symptôme.
•OR<1, la maladie est plus fréquente pour les individus qui n’ont pas le
symptôme.
Régression logistique – odd ratio

Cas d’une variable explicative binaire

OR
Régression logistique – odd ratio

L’estimateur de β1: RC=exp(β1), permet de comparer les individus qui possèdent


le symptôme X avec ceux qui ne le possède pas. Pour cela, on compare l’OR à 1.

L’estimateur de β0 permet de calculer la proportion observée de malades n’ayant


pas le symptôme.
Régression logistique – odd ratio

• Cas d’une variable explicative continue

L’estimateur de β1 permet d’avoir le l’odds ratio quand X augmente d’une


unité: OR
L’estimateur de β0 permet de connaitre la proportion de malades dont la valeur
de X est 0 (Attention toutefois à l’interprétation de β0 -> exemple Age)
Régression logistique

Intervalle de confiance de au niveau 95%


Régression logistique - Estimation
Régression logistique – Tests d’hypothèses

• Test de Wald
Régression logistique – Tests d’hypothèses

• Test du rapport de Vraisemblance


Régression logistique – Test d’hypothèses

• Test de Hosmer & Lemeshow


Comparaison entre les proportions observées et théoriques
• Le test du khi-deux est utilisé pour comparer les effectifs observés aux effectifs
théoriques (Nb de degrés de liberté = Nb de groupes - 2 )
Proportion observée :

Proportion théorique
Régression logistique – Test

• Comparaison entre les proportions observées et théoriques


Régression logistique

Mesure de la qualité de la modélisation


Régression logistique

Analyse des résidus

Résidu de Pearson (Standardized Residual)

à comparer à 2 en valeur absolue

(résidus plus facile à analyser ,leur distribution étant “presque” centrée réduite).

Résidu de déviance

à comparer à 2 en valeur absolue

Déviance
Régression logistique

• Remarque – Structure des données


On distingue deux structures de données pour le traitement du modèle en
particulier pour écrire la vraisemblance:
- Données individuelles : tous les xi sont différents; les Yi suivent bien une loi de
Bernoulli.
- Données agrégées: il y a des répétitions sur les xi ; en ce cas si on indique par:
x1,…, xT les différentes valeurs des variables explicatives observées.
n1,…, nT tel que nt = nombre de fois où xt a été observé
y1,…, yT les nombres de succès observés au point xt
en supposant que Yt est une réalisation d’une variable aléatoire de Bernoulli ,
la loi de Yt est en ce cas une binomiale de paramètre (nt ; p(xt ))

Note: le cas données individuelles est un cas particulier de données répétées


(il suffit de poser T = n).
Procédure de classement

Une observation i est affectée à la classe [Y=1] si

On peut construire un tableau de classification:


Matrice de confusion -> % de bien – mal classés (c=0.5)
•Sensibilité = capacité à diagnostiquer les malades parmi les malades
•Spécificité = capacité à reconnaître les non-malades parmi les non-malades
(1 - Spécificité = risque de diagnostiquer un malade chez les non-malades).

Objectif : Trouver un compromis acceptable entre forte sensibilité et forte


spécificité.
Régression logistique- Courbe ROC
Régression logistique sur R

Exemple – chd
Régression logistique – fonction glm( )
> chd.glm <- glm(CHD ~ AGE, family=binomial(link=logit))
Régression logistique sur R

Estimations

Le modèle estimé ou logit g(.) s’écrit :

g(x) = −5.30945 + 0.11092 * AGE

Note:

La probabilité d’être atteint de la maladie augmente avec l’âge.


Régression logistique sur R

Matrice de variance - covariance des estimations


> V <- vcov(chd.glm)
> V
(Intercept) AGE
(Intercept) 1.28517059 -0.0266769747
AGE -0.02667697 0.0005788748

Odd ratio
> exp(chd.glm$coef[2])
AGE
1.117307
Régression logistique – Exemple

Prévision
Régression logistique – Exemple
Régression logistique sur R

Test du rapport de vraisemblance (test de déviance)


H0 modèle sans la variable explicative (modèle constant)
H1 modèle avec la variable explicative (modèle testé)

Λ = 136,663 − 107,353 = 29,30 ⇒ âge très significatif


Régression logistique sur R

Analyse des résidus


> res.dev <- residuals(chd.glm,type="deviance")
Régression logistique sur R

Exemple – logistic 2
On envisage le cas d’une régression logistique pour une variable réponse
Y binaire ( présence ou absence ) en fonction d’une variable explicative
X de type dichotomique ou binaire (X=0, X=1).
Régression logistique sur R
Régression logistique sur R

• Cas de variable explicative nominale (ou binaire)


-> Le modèle de régression logistique est construit sur la ou les variables dummy
ou indicatrices des modalités de la variable nominale.
-> Dans le cas d’une variable nominale possédant k modalités on créera k-1
variables indicatrices.
Les odd ratios correspondent au changement d’état entre modalité considérée
et modalité de référence ( par défaut on choisit la 1er modalité X=0 comme
modalité de référence).
Régression logistique

Régression logistique multiple


• Le modèle logistique multiple
• Estimation du modèle – effets principaux - interactions
• Détermination des odds ratios
• Test de comparaison de modèles
• Procédures de sélection – critère AIC
• Analyse des résidus
Régression logistique
Régression logistique

Le modèle de régression logistique multiple

Estimation des paramètres


-> Estimation par maximum de vraisemblance

Tests sur le modèle


-> Test de Wald
-> Test du rapport de Vraisemblance
Régression logistique

• Odds ratios
-> Interprétation identique (Régression logistique simple)

• Cas d’une variable explicative binaire ou nominale


OR=exp(β1), permet de comparer les individus qui possèdent
le symptôme (variable X) avec ceux qui ne le possède pas.
Interprétation identique pour une variable explicative nominale
(nécessité de définir une modalité de référence).

• Cas d’une variable explicative continue


OR=exp(β1) permet d’avoir le l’odds ratio quand la variable X augmente
d’une unité
Régression logistique

Test de Wald - Test du rapport de Vraisemblance

Les deux tests peuvent être employées dans plusieurs situations:

• Test de significativité pour une variable


(cas identique à la régression logistique simple )

• Test de significativité globale du modèle

• Test de comparaison de modèles emboités


Régression logistique

• Test de significativité pour une variable - Test de Wald


Régression logistique

• La statistique de test (loi Normale):

• La statistique de test (loi du Khi-deux):

->

• On rejette HO, le modèle M2 est meilleur que le M1, le paramètre βj est


significatif, la variable Xj a une influence sur la probabilité d’ apparition
de l’évènement (condt aux autres variables du modèle).
Régression logistique

• Test de significativité globale du modèle – Test RV

• Les variables explicatives influencent-elles simultanément le risque de


survenue de l’événement? (cas de p variables)

• La statistique de test est: RV= (-2.ln(L(M1))] - (-2.ln(L(M2))] ~ χ²(p)

Si RV > χ²(p) On rejette H0, le modèle M2 est meilleur que le M1


Régression logistique

• Test de comparaison de modèles emboités – Test RV


• Une stratégie intuitive consiste a comparer deux modèles emboites sur la
base d'une mesure de la qualité de leur ajustement aux données.

On compare les 2 modèles emboités M1 (w) et M2(W);


Les hypothèses de tests sont :
M1: k paramètres (modèle restreint)
M2: p paramètres (p>k)

La statistique de test est:


S = (-2.ln(L(M1))] - (-2.ln(L(M2))]
qui suit une loi du Khi-deux à p-k degrés de libertés.
Régression logistique

• Notion d’interaction
Lorsque l’examen des tableaux de contingence entre Y et X1 , X2 révèle
l’existence possible d’une interaction , on peut tester cette interaction.

On considère le modèle avec interaction entre X1 et X2

• Si β3 est significative, alors X2 modifie l’effet de X1. En effet, dans ce cas:


Si X2=0 -> l’effet de X1 est β1
Si X2=1 -> l’effet de X1 est β1+β3
Régression logistique

• Notion d’interaction (suite)


Régression logistique

• Sélection de variables
Méthodes permettant de sélectionner un meilleur modèle
Méthode ascendante
- on choisit un modèle de départ (par exemple le modèle constant);
- la procédure ajoute à chaque étape le terme le plus significatif;
- le critère de choix est le critère d’Akaiké.

Méthode descendante
- la procédure part du modèle initial (modèle complet) et élimine
à chaque étape le terme du modèle le moins significatif.

Vous aimerez peut-être aussi