Reglog A

Analyse de données II
• Régression logistique
Y désigne une variable à expliquer binaire (qui prend 2 valeurs 0 ou 1 pour

simplifier) ou un label qui dénote l’appartenance à un groupe et X1, . . . ,Xp
désignent p variables explicatives. On souhaite :
- expliquer la variable Y à l’aide des p variables explicatives X = (X1, . . . ,Xp)
- étant donnée une nouvelle mesure x des p variables explicatives, prédire
le label y associé à cette nouvelle observation.
La discrimination logistique propose pour résoudre le problème précédent

un modèle statistique appelé modèle de régression logistique.
Ce modèle appartient à la classe des modèles linéaires généralisés.
Régression logistique
• Les données
On cherche à expliquer une variable Y binaire par p variables explicatives
X1,…,Xp.
On dispose de n observations (x1,y1),…, (xn,yn)
On note X la matrice n p contenant les observations des variables explicatives
Cas p=1 -> Régression logistique simple

Cas p> 1 -> Régression logistique multiple
Régression logistique simple

• Le modèle logistique - interprétation
• Estimation du modèle (Maximum de vraisemblance)
• Odds ratios - interprétation
• Tests sur le modèle (test de Wald – test RV)
• Adéquation du modèle
• Analyse des résidus
• Procédure de classement – Courbe Roc
• Régression logistique sur R
- Exemple chd – Variable explicative continue
- Exemple logistic2 – Variable explicative binaire (nominale)
Régression logistique -Exemple
Exemple : Age and Coronary Heart Disease Status (CHD)

Les données proviennent d’une étude réalisée sur 100 individus pour
évaluer l’effet de l’âge ( variable AGE ) sur la présence d’un problème
coronarien (variable CHD, CHD= 1 si présence , CHD=0 si absence ).
L’objectif est d’analyser la liaison CHD – AGE.

Régression logistique -Exemple
Régression logistique - Exemple
L’interprétation de ce second graphique est plus simple que la précédente.

On peut observer :
- la relation positive entre proportion de malades et classe d’âges
- une relation non linéaire – courbe de liaison de forme sigmoide
(courbe en S)
• Fonction logistique
La liaison entre proportion de malades et classes d’âge peut être
modélisée par une fonction de la forme :
Y= exp(b.X) / (1+exp(b.X))
appelé modèle de régression logistique
Régression logistique - Estimation
Régression logistique – Estimation
Estimation des paramètres
• Les estimations du modèle concernent les paramètres du modèle logit:
• Les équations d’estimation (méthode du max de vraisemblance) d’un modèle

logistique (modèle linéaire généralisé) sont non linéaires;
• Les estimations sont obtenues via un algoritme itératif d’optimisation numérique
et n’ont pas d’expression analytique.
Régression logistique – odd ratio
• Odds ratios
Régression logistique– odd ratio
Cas d’une variable explicative binaire

(supposons que Y indique la présence (Y=1) ou l’absence (Y=0) d’une certaine
maladie et X la présence/absence un certain symptôme)
•Odds ratio (ou « rapport des cotes »)

C’est le rapport des cotes des probabilités d’avoir Y=1 pour ceux qui ont un
symptôme X d’une part et de ceux qui ne l’ont pas d’autre part.
•OR=1, la maladie est indépendante du symptôme
•OR>1, la maladie est plus fréquente pour les individus qui ont le symptôme.
•OR<1, la maladie est plus fréquente pour les individus qui n’ont pas le
symptôme.
Cas d’une variable explicative binaire
OR
L’estimateur de β1: RC=exp(β1), permet de comparer les individus qui possèdent

le symptôme X avec ceux qui ne le possède pas. Pour cela, on compare l’OR à 1.
L’estimateur de β0 permet de calculer la proportion observée de malades n’ayant

pas le symptôme.
• Cas d’une variable explicative continue
L’estimateur de β1 permet d’avoir le l’odds ratio quand X augmente d’une

unité: OR
L’estimateur de β0 permet de connaitre la proportion de malades dont la valeur
de X est 0 (Attention toutefois à l’interprétation de β0 -> exemple Age)
Intervalle de confiance de au niveau 95%

Régression logistique – Tests d’hypothèses
• Test de Wald
Régression logistique – Tests d’hypothèses
• Test du rapport de Vraisemblance

Régression logistique – Test d’hypothèses
• Test de Hosmer & Lemeshow

Comparaison entre les proportions observées et théoriques
• Le test du khi-deux est utilisé pour comparer les effectifs observés aux effectifs
théoriques (Nb de degrés de liberté = Nb de groupes - 2 )
Proportion observée :
Proportion théorique
Régression logistique – Test
• Comparaison entre les proportions observées et théoriques

Mesure de la qualité de la modélisation

Analyse des résidus
Résidu de Pearson (Standardized Residual)
à comparer à 2 en valeur absolue
(résidus plus facile à analyser ,leur distribution étant “presque” centrée réduite).
Résidu de déviance
à comparer à 2 en valeur absolue
Déviance
• Remarque – Structure des données

On distingue deux structures de données pour le traitement du modèle en
particulier pour écrire la vraisemblance:
- Données individuelles : tous les xi sont différents; les Yi suivent bien une loi de
Bernoulli.
- Données agrégées: il y a des répétitions sur les xi ; en ce cas si on indique par:
x1,…, xT les différentes valeurs des variables explicatives observées.
n1,…, nT tel que nt = nombre de fois où xt a été observé
y1,…, yT les nombres de succès observés au point xt
en supposant que Yt est une réalisation d’une variable aléatoire de Bernoulli ,
la loi de Yt est en ce cas une binomiale de paramètre (nt ; p(xt ))
Note: le cas données individuelles est un cas particulier de données répétées

(il suffit de poser T = n).
Procédure de classement
Une observation i est affectée à la classe [Y=1] si
On peut construire un tableau de classification:

Matrice de confusion -> % de bien – mal classés (c=0.5)
•Sensibilité = capacité à diagnostiquer les malades parmi les malades
•Spécificité = capacité à reconnaître les non-malades parmi les non-malades
(1 - Spécificité = risque de diagnostiquer un malade chez les non-malades).
Objectif : Trouver un compromis acceptable entre forte sensibilité et forte

spécificité.
Régression logistique- Courbe ROC
Régression logistique sur R
Exemple – chd
Régression logistique – fonction glm( )
> chd.glm <- glm(CHD ~ AGE, family=binomial(link=logit))
Estimations
Le modèle estimé ou logit g(.) s’écrit :
g(x) = −5.30945 + 0.11092 * AGE
Note:
La probabilité d’être atteint de la maladie augmente avec l’âge.

Matrice de variance - covariance des estimations

> V <- vcov(chd.glm)
> V
(Intercept) AGE
(Intercept) 1.28517059 -0.0266769747
AGE -0.02667697 0.0005788748
Odd ratio
> exp(chd.glm$coef[2])
AGE
1.117307
Régression logistique – Exemple
Prévision
Régression logistique – Exemple
Test du rapport de vraisemblance (test de déviance)

H0 modèle sans la variable explicative (modèle constant)
H1 modèle avec la variable explicative (modèle testé)
Λ = 136,663 − 107,353 = 29,30 ⇒ âge très significatif

Analyse des résidus

> res.dev <- residuals(chd.glm,type="deviance")
Exemple – logistic 2
On envisage le cas d’une régression logistique pour une variable réponse
Y binaire ( présence ou absence ) en fonction d’une variable explicative
X de type dichotomique ou binaire (X=0, X=1).
• Cas de variable explicative nominale (ou binaire)

-> Le modèle de régression logistique est construit sur la ou les variables dummy
ou indicatrices des modalités de la variable nominale.
-> Dans le cas d’une variable nominale possédant k modalités on créera k-1
variables indicatrices.
Les odd ratios correspondent au changement d’état entre modalité considérée
et modalité de référence ( par défaut on choisit la 1er modalité X=0 comme
modalité de référence).
Régression logistique multiple

• Le modèle logistique multiple
• Estimation du modèle – effets principaux - interactions
• Détermination des odds ratios
• Test de comparaison de modèles
• Procédures de sélection – critère AIC
• Analyse des résidus
Le modèle de régression logistique multiple
Estimation des paramètres

-> Estimation par maximum de vraisemblance
Tests sur le modèle

-> Test de Wald
-> Test du rapport de Vraisemblance
• Odds ratios
-> Interprétation identique (Régression logistique simple)
• Cas d’une variable explicative binaire ou nominale

OR=exp(β1), permet de comparer les individus qui possèdent
le symptôme (variable X) avec ceux qui ne le possède pas.
Interprétation identique pour une variable explicative nominale
(nécessité de définir une modalité de référence).
• Cas d’une variable explicative continue

OR=exp(β1) permet d’avoir le l’odds ratio quand la variable X augmente
d’une unité
Test de Wald - Test du rapport de Vraisemblance
Les deux tests peuvent être employées dans plusieurs situations:
• Test de significativité pour une variable

(cas identique à la régression logistique simple )
• Test de significativité globale du modèle
• Test de comparaison de modèles emboités

• Test de significativité pour une variable - Test de Wald

• La statistique de test (loi Normale):
• La statistique de test (loi du Khi-deux):
->
• On rejette HO, le modèle M2 est meilleur que le M1, le paramètre βj est

significatif, la variable Xj a une influence sur la probabilité d’ apparition
de l’évènement (condt aux autres variables du modèle).
• Test de significativité globale du modèle – Test RV
• Les variables explicatives influencent-elles simultanément le risque de

survenue de l’événement? (cas de p variables)
• La statistique de test est: RV= (-2.ln(L(M1))] - (-2.ln(L(M2))] ~ χ²(p)
Si RV > χ²(p) On rejette H0, le modèle M2 est meilleur que le M1

• Test de comparaison de modèles emboités – Test RV

• Une stratégie intuitive consiste a comparer deux modèles emboites sur la
base d'une mesure de la qualité de leur ajustement aux données.
On compare les 2 modèles emboités M1 (w) et M2(W);

Les hypothèses de tests sont :
M1: k paramètres (modèle restreint)
M2: p paramètres (p>k)
La statistique de test est:

S = (-2.ln(L(M1))] - (-2.ln(L(M2))]
qui suit une loi du Khi-deux à p-k degrés de libertés.
• Notion d’interaction
Lorsque l’examen des tableaux de contingence entre Y et X1 , X2 révèle
l’existence possible d’une interaction , on peut tester cette interaction.
On considère le modèle avec interaction entre X1 et X2
• Si β3 est significative, alors X2 modifie l’effet de X1. En effet, dans ce cas:

Si X2=0 -> l’effet de X1 est β1
Si X2=1 -> l’effet de X1 est β1+β3
• Notion d’interaction (suite)

• Sélection de variables
Méthodes permettant de sélectionner un meilleur modèle
Méthode ascendante
- on choisit un modèle de départ (par exemple le modèle constant);
- la procédure ajoute à chaque étape le terme le plus significatif;
- le critère de choix est le critère d’Akaiké.
Méthode descendante
- la procédure part du modèle initial (modèle complet) et élimine
à chaque étape le terme du modèle le moins significatif.

Reglog A

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Reglog A

Transféré par

Droits d'auteur :

Formats disponibles

Analyse de données II

Y désigne une variable à expliquer binaire (qui prend 2 valeurs 0 ou 1 pour

La discrimination logistique propose pour résoudre le problème précédent

On note X la matrice n p contenant les observations des variables explicatives

Cas p=1 -> Régression logistique simple

Régression logistique simple

Exemple : Age and Coronary Heart Disease Status (CHD)

L’objectif est d’analyser la liaison CHD – AGE.

L’interprétation de ce second graphique est plus simple que la précédente.

Estimation des paramètres

• Les estimations du modèle concernent les paramètres du modèle logit:

• Les équations d’estimation (méthode du max de vraisemblance) d’un modèle

Cas d’une variable explicative binaire

•Odds ratio (ou « rapport des cotes »)

Cas d’une variable explicative binaire

L’estimateur de β1: RC=exp(β1), permet de comparer les individus qui possèdent

L’estimateur de β0 permet de calculer la proportion observée de malades n’ayant

• Cas d’une variable explicative continue

L’estimateur de β1 permet d’avoir le l’odds ratio quand X augmente d’une

Intervalle de confiance de au niveau 95%

• Test du rapport de Vraisemblance

• Test de Hosmer & Lemeshow

• Comparaison entre les proportions observées et théoriques

Mesure de la qualité de la modélisation

Analyse des résidus

Résidu de Pearson (Standardized Residual)

à comparer à 2 en valeur absolue

à comparer à 2 en valeur absolue

• Remarque – Structure des données

Note: le cas données individuelles est un cas particulier de données répétées

Une observation i est affectée à la classe [Y=1] si

On peut construire un tableau de classification:

Objectif : Trouver un compromis acceptable entre forte sensibilité et forte

Le modèle estimé ou logit g(.) s’écrit :

g(x) = −5.30945 + 0.11092 * AGE

La probabilité d’être atteint de la maladie augmente avec l’âge.

Matrice de variance - covariance des estimations

Test du rapport de vraisemblance (test de déviance)

Λ = 136,663 − 107,353 = 29,30 ⇒ âge très significatif

Analyse des résidus

• Cas de variable explicative nominale (ou binaire)

Régression logistique multiple

Le modèle de régression logistique multiple

Estimation des paramètres

Tests sur le modèle

• Cas d’une variable explicative binaire ou nominale

• Cas d’une variable explicative continue

Test de Wald - Test du rapport de Vraisemblance

Les deux tests peuvent être employées dans plusieurs situations:

• Test de significativité pour une variable

• Test de significativité globale du modèle

• Test de comparaison de modèles emboités

• Test de significativité pour une variable - Test de Wald

• La statistique de test (loi Normale):

• La statistique de test (loi du Khi-deux):

• On rejette HO, le modèle M2 est meilleur que le M1, le paramètre βj est

• Test de significativité globale du modèle – Test RV

• Les variables explicatives influencent-elles simultanément le risque de

• La statistique de test est: RV= (-2.ln(L(M1))] - (-2.ln(L(M2))] ~ χ²(p)

Si RV > χ²(p) On rejette H0, le modèle M2 est meilleur que le M1

• Test de comparaison de modèles emboités – Test RV

On compare les 2 modèles emboités M1 (w) et M2(W);

La statistique de test est: