Académique Documents
Professionnel Documents
Culture Documents
Description
logistic ajuste un modèle de régression logistique de depvar sur indepvars, où depvar est une
variable 0/1 (ou, plus précisément, une variable 0/non-0). Sans arguments, logistic réaffiche les
dernières estimations logistiques. logistic affiche les estimations sous forme de rapports de cotes
; pour afficher les coefficients, tapez logit après avoir exécuté logistic. Pour obtenir les rapports
de cotes pour n'importe quel modèle de covariable par rapport à un autre, voir [R] lincom.
Démarrage rapide
Rapporter les rapports de cotes de la régression logistique de y sur x1 et
x2 logistique y x1 x2
Ajouter des indicateurs pour les valeurs de la variable
catégorielle a logistic y x1 x2 i.a
Même chose que ci-dessus, et application des poids de fréquence
définis par wvar logistic y x1 x2 i.a [fweight=wvar]
Montrer le niveau de base d'un
logistic y x1 x2 i.a, baselevels
Menu
Statistiques > Résultats binaires > Régression logistique
1
2 logistic - Régression logistique, rapport de cotes
Syntaxe
logistic depvar indepvars if in weight , options options
Description
Modèle
noconstant supprimer le terme constant
offset(varname) inclure varname dans le modèle avec un coefficient contraint
à 1 asis conserver les variables prédictives parfaites
constraints(constraints) appliquer les contraintes linéaires spécifiées
SE/Robust
vce(vcetype) vcetype peut être oim, opg, robust, cluster clustvar, bootstrap,
ou le jackknife
Rapports
niveau(#) définit le niveau de confiance ; la valeur par défaut est level(95)
coef indique les coefficients estimés
nocnsreport ne pas afficher les contraintes
afficher les options de contrôler les colonnes et les formats de colonnes, l'espacement des lignes, la
largeur des lignes,
affichage des variables omises, des cellules de base et des
cellules vides, et étiquetage des variables factorielles
Maximisation
maximiser les options contrôler le processus de maximisation ; rarement utilisé
colinéaire maintenir des variables colinéaires
coeflegend affiche la légende au lieu des statistiques
indepvars peut contenir des variables factorielles ; voir [U] 11.4.3 Variables factorielles.
depvar et indepvars peuvent contenir des opérateurs de séries temporelles ; voir [U] 11.4.4 Varlists de séries temporelles.
bayes, bootstrap, by, collect, fp, jackknife, mfp, mi estimate, nestreg, rolling, statsby, stepwise et svy
sont autorisés ; voir [U] 11.1.10 Commandes de préfixe. Pour plus de détails, voir [BAYES] bayes : logistic.
vce(bootstrap) et vce(jackknife) ne sont pas autorisés avec le préfixe mi estimate ; voir [MI] mi estimate. Les
poids ne sont pas autorisés avec le préfixe bootstrap ; voir [R] bootstrap.
vce() et les poids ne sont pas autorisés avec le préfixe svy ; voir [SVY]
svy. fweights, iweights et pweights sont autorisés ; voir [U] 11.1.6
weight. collinear et coeflegend n'apparaissent pas dans la boîte de
dialogue.
Voir [U] 20 Commandes d'estimation et de post-estimation pour plus d'informations sur les commandes d'estimation.
Options
, ,
, Modèle ,
noconstant, offset(varname), constraints(constraints) ; voir [R] Options d'estimation.
asis oblige à conserver des variables prédictives parfaites et les observations parfaitement prédites qui
leur sont associées et peut produire des instabilités dans la maximisation ; voir [R] probit.
logistic - Régression logistique, r a p p o r t d e cotes 3
, ,
, SE/Robust ,
vce(vcetype) spécifie le type d'erreur standard rapportée, qui comprend des types dérivés de la théorie
asymptotique (oim, opg), qui sont robustes à certains types de mauvaise spécification (robust), qui
permettent la corrélation intragroupe (cluster clustvar), et qui utilisent des méthodes bootstrap ou
jackknife (bootstrap, jackknife) ; voir l'option [R] vce .
, ,
, Rapport ,
niveau(#) ; voir [R] Options d'estimation.
coef permet à logistic de présenter les coefficients estimés plutôt que les rapports de cotes
(coefficients exponentiels). coef peut être spécifié lors de l'ajustement du modèle ou peut être
utilisé ultérieurement pour réafficher les résultats. coef n'affecte que la manière dont les résultats
sont affichés et non la manière dont ils sont estimés.
nocnsreport ; voir [R] Options d'estimation.
afficher options : noci, nopvalues, noomitted, vsquish, noemptycells, baselevels,
allbaselevels, nofvlabel, fvwrap(#), fvwrapon(style), cformat(% fmt), pformat(% fmt),
sformat(% fmt), et nolstretch ; voir [R] Options d'estimation.
, ,
, Maximisation ,
maximize options : difficult, technique(algorithme spec), iterate(#), no log, trace,
gradient, showtep, hessian, showtolerance, tolerance(#), ltolerance(#),
nrtolerance(#), nonrtolerance, et from(init specs) ; voir [R] Maximize. Ces options sont
rarement utilisées.
Les options suivantes sont disponibles avec la logistique mais ne sont pas affichées dans la boîte de
dialogue :
colinéaire, coeflegend ; voir [R] Options d'estimation.
logistique et logit
logistic offre une alternative et un moyen privilégié d'ajuster les modèles logit à vraisemblance
maximale, l'autre choix étant logit ([R] logit).
Tout d'abord, éliminons une certaine confusion terminologique. Nous utilisons les mots logit et
logistique pour désigner la même chose : l'estimation du maximum de vraisemblance. Pour certains, l'un
ou l'autre de ces mots évoque la transformation de la variable dépendante et l'utilisation des moindres
carrés pondérés pour ajuster le modèle, mais ce n'est pas la façon dont nous utilisons ces mots ici. Ainsi,
les commandes logit et logistic produisent les mêmes résultats.
La commande logistic est généralement préférée à la commande logit car logistic présente
les estimations en termes de rapports de cotes plutôt que de coefficients. Pour certaines personnes, cela
peut sembler désavantageux, mais vous pouvez taper logit sans arguments après logistic pour
voir les coefficients sous-jacents. Il convient d'être prudent lors de l'interprétation du rapport de cotes du
terme constant. En général, ce rapport de cotes représente les cotes de base du modèle lorsque toutes les
variables prédictives sont fixées à zéro. Cependant, vous devez vérifier qu'une valeur nulle pour toutes
4 logistic - Régression logistique, rapport de cotes
les variables prédictives du modèle a réellement un sens avant de poursuivre cette interprétation.
logistic - Régression logistique, r a p p o r t d e cotes 5
Néanmoins, [R] logit vaut la peine d'être lu car logistic partage les mêmes caractéristiques que
logit, y compris l'omission de variables en raison de la colinéarité ou de la causalité à sens unique.
Pour une introduction à la régression logistique, voir Lemeshow et Hosmer (2005), Pagano et Gau-
vreau (2022, 455-478), ou Pampel (2021) ; pour un traitement complet mais non mathématique, voir
Kleinbaum et Klein (2010) ; et pour une discussion approfondie, voir Hosmer, Lemeshow, et Sturdivant
(2013). Voir Gould (2000) pour une discussion sur l'interprétation de la régression logistique. Voir
Dupont (2009) ou Hilbe (2009) pour une discussion sur la régression logistique avec des exemples
utilisant Stata. Pour une discussion utilisant Stata et mettant l'accent sur la spécification des modèles,
voir Vittinghoff et al. (2012).
Stata dispose d'une variété de commandes pour effectuer des estimations lorsque la variable
dépendante est dichotomique ou polytomique. Voir Long et Freese (2014) pour un livre consacré à
l'ajustement de ces modèles avec Stata. Voir help estimation commands pour une liste complète
de toutes les commandes d'estimation de Stata.
Exemple 1
Considérons l'ensemble de données suivant, issu d'une étude sur les facteurs de risque associés à
l'insuffisance pondérale à la naissance décrite dans Hosmer, Lemeshow et Sturdivant (2013, 24).
. utiliser https://www.stata-
press.com/data/r18/lbw (données Hosmer &
Lemeshow)
. décrire
Contient des données provenant de https://www.stata-press.com/data/r18/lbw.dta
Observations : 189 Données Hosmer & Lemeshow
Variables : 11 15 janvier 2022 05:01
Classé par :
Nous voulons étudier les causes de l'insuffisance pondérale à la naissance. La race est une
variable catégorielle indiquant si une personne est blanche (race = 1), noire (race = 2) ou d'une
autre race (race = 3). Nous voulons que des variables indicatrices (factices) de la race soient
incluses dans la régression, et nous utiliserons donc des variables factorielles.
6 logistic - Régression logistique, rapport de cotes
course
Noir 3.534767 1.860737 2.40 0.016 1.259736 9.918406
Autres 2.368079 1.039949 1.96 0.050 1.001356 5.600207
Les rapports de cotes correspondent à une variation d'une unité de la variable. Si nous voulions que le
rapport de cotes pour l'âge s o i t exprimé en termes d'intervalles de 4 ans, nous taperions
. générer age4 = age/4
. logistique faible âge4 lwt i.race fumée ptl ht ui
(résultat omis)
Après logistic, on peut taper logit pour voir le modèle en termes de coefficients et d'erreurs standard :
. logit
Régression logistiqueNombre d'obs = 189
LR chi2(8) = 33.22
Prob > chi2= 0.0001
Log vraisemblance = -100, 724Pseudo R2= 0,1416
course
Noir 1.262647 .5264101 2.40 0.016 .2309024 2.294392
Autres .8620792 .4391532 1.96 0.050 .0013548 1.722804
Si nous voulions voir à nouveau le résultat de la logistique, nous taperions logistic sans arguments.
logistic - Régression logistique, r a p p o r t d e cotes 7
Exemple 2
Nous pouvons spécifier l'intervalle de confiance pour les rapports de cotes avec l'option level(), et
nous pouvons le faire soit au moment de l'estimation, soit lorsque nous rejouons le modèle. Par
exemple, pour voir notre premier modèle dans l'exemple 1 avec des intervalles de confiance plus étroits,
à 90 %, nous pourrions taper
. logistique, niveau(90)
Régression logistiqueNombre d'obs = 189
LR chi2(8) = 33.22
Prob > chi2= 0.0001
Log vraisemblance = -100, 724Pseudo R2= 0,1416
course
Noir 3.534767 1.860737 2.40 0.016 1.487028 8.402379
Autres 2.368079 1.039949 1.96 0.050 1.149971 4.876471
Erreur
faible Rapport de std. z P>|z| [95% conf. intervall
cotes robuste e]
âge .9732636 .0329376 -0.80 0.423 .9108015 1.040009
lwt .9849634 .0070209 -2.13 0.034 .9712984 .9988206
course
Noir 3.534767 1.793616 2.49 0.013 1.307504 9.556051
Autres 2.368079 1.026563 1.99 0.047 1.012512 5.538501
Vous pouvez également spécifier vce(cluster clustvar) puis, au sein du cluster, relâcher
l'hypothèse d'indépendance. Pour illustrer cela, nous avons fait quelques ajouts fictifs aux données de
faible poids de naissance.
Disons que ces données ne constituent pas un échantillon aléatoire de mères, mais plutôt un
échantillon aléatoire de mères provenant d'un échantillon aléatoire d'hôpitaux. En fait, cela peut être
vrai - nous ne connaissons pas l'historique de ces données.
Les hôpitaux se spécialisent, et il ne serait pas trop faux de dire que certains hôpitaux se spécialisent
dans les cas plus difficiles. Nous allons montrer deux extrêmes. Dans l'un, tous les hôpitaux sont
semblables, mais nous allons estimer la possibilité qu'ils diffèrent. Dans l'autre, les hôpitaux sont
étonnamment différents. Dans les deux c a s , nous supposons que les patients proviennent de 20
hôpitaux.
Dans les deux exemples, nous ajusterons le même modèle et nous taperons la même commande pour
l'ajuster. Les données ci-dessous sont les mêmes que celles que nous avons utilisées, mais avec une
nouvelle variable, hospid, qui identifie de quel hôpital parmi les 20 hôpitaux chaque patient a été tiré
(et que nous avons i n v e n t é ) :
. utiliser https://www.stata-press.com/data/r18/hospid1, clair
. logistic low age lwt i.race smoke ptl ht ui, vce(cluster hospid)
Régression logistiqueNombre d'obs = 189
Wald chi2(8) = 49.67
Prob > chi2= 0.0000
Log pseudo-vraisemblance = -100, 724Pseudo R2= 0,1416
(Erreur-type ajustée pour 20 grappes dans l'hospid)
Erreur
faible Rapport de std. z P>|z| [95% conf. intervall
cotes robuste e]
âge .9732636 .0397476 -0.66 0.507 .898396 1.05437
lwt .9849634 .0057101 -2.61 0.009 .9738352 .9962187
course
Noir 3.534767 2.013285 2.22 0.027 1.157563 10.79386
Autres 2.368079 .8451325 2.42 0.016 1.176562 4.766257
Les erreurs standard sont similaires aux erreurs standard que nous avons obtenues précédemment, que
nous ayons utilisé les estimateurs robustes ou conventionnels. Dans cet exemple, nous avons inventé les
identifiants des hôpitaux de manière aléatoire.
10 logistic - Régression logistique, rapport de cotes
Voici les résultats de l'estimation avec les mêmes données, mais avec un ensemble différent d'identifiants
d'hôpitaux :
. utiliser https://www.stata-press.com/data/r18/hospid2
. logistic low age lwt i.race smoke ptl ht ui, vce(cluster hospid)
Régression logistiqueNombre d'obs = 189
Wald chi2(8) = 7.19
Prob > chi2= 0,5167
Log pseudo-vraisemblance = -100, 724Pseudo R2= 0,1416
(Erreur-type ajustée pour 20 grappes dans l'hospid)
Erreur
faible Rapport de std. z P>|z| [95% conf. intervall
cotes robuste e]
âge .9732636 .0293064 -0.90 0.368 .9174862 1.032432
lwt .9849634 .0106123 -1.41 0.160 .9643817 1.005984
course
Noir 3.534767 3.120338 1.43 0.153 .6265521 19.9418
Autres 2.368079 1.297738 1.57 0.116 .8089594 6.932114
Notez que les erreurs standard sont étonnamment plus importantes. Que s'est-il passé ? Dans ces
données, les femmes les plus susceptibles d'avoir des bébés de faible poids à la naissance sont envoyées
dans certains hôpitaux, et la décision sur la probabilité est basée non s e u l e m e n t sur l'âge, les
antécédents de tabagisme, etc., mais aussi sur d'autres éléments que les médecins peuvent voir mais qui
ne sont pas enregistrés dans nos données. Ainsi, le simple fait qu'une femme se trouve dans l'un des
centres l'identifie comme étant plus susceptible d' a v o i r u n bébé de faible poids à la naissance.
Exemples vidéo
Régression logistique, partie 1 : Prédicteurs binaires
Régression logistique, partie 2 : Prédicteurs continus
Régression logistique, partie 3 : Variables
factorielles
logistic - Régression logistique, r a p p o r t d e cotes 11
Résultats enregistrés
logistic stocke ce qui suit dans e() :
Cicatrices
e(N) nombre d'observations
e(N cds) nombre de succès complètement déterminés
e(N cdf) nombre de défaillances complètement déterminées
e(k) nombre de paramètres
e(k eq) nombre d'équations dans e(b)
e(k eq modèle) nombre d'équations dans le test du modèle global
e(k dv) nombre de variables dépendantes
e(df m) degrés de liberté du modèle
e(r2 p) pseudo-R2
e(ll) logarithme de la vraisemblance
e(ll 0) log-vraisemblance, modèle à valeurs constantes
e(N clust) nombre de grappes
e(chi2) χ2
e(p) Valeur p pour le test du modèle
e(rang) rang de e(V)
e(ic) nombre d'itérations
e(rc) code de retour
e(convergé) 1 si convergé, 0 sinon
Macros
e(cmd) logistique
e(cmdline) commande telle qu'elle est tapée
e(depvar) nom de la variable dépendante
e(wtype) type de poids
e(wexp) expression de poids
e(titre) titre dans le résultat de l'estimation
e(clustvar) nom de la variable de la grappe
e(offset) Variable de décalage linéaire
e(chi2type) Wald ou LR ; type de modèle χ2 test
e(vce) vcetype spécifié dans vce()
e(vcetype) titre utilisé pour étiqueter Std. err.
e(opt) type d'optimisation
e(which) max ou min ; si l'optimiseur doit effectuer une maximisation ou une minimisation
e(méthode ml) type de méthode ml
e(utilisateur) nom du programme de l'évaluateur de vraisemblance
e(technique) technique de maximisation
e(propriétés) b V
e(estat cmd) programme utilisé pour mettre en
œuvre estat e(predict) programme utilisé pour la mise en
œuvre de predict
e(marginsok) prédictions autorisées par les marges
e(marginsnotok) prédictions interdites par les marges
e(asbalanced) variables factorielles fvset
asbalanced e(asobserved) variables factorielles fvset
as asobserved
Matrices
e(b) vecteur de coefficient
e(Cns) matrice des contraintes
e(ilog) journal des itérations (jusqu'à 20 itérations)
e(gradient) vecteur de gradient
e(mns) vecteur des moyennes des variables indépendantes
e(règles) informations sur les prédicteurs parfaits
e(V) matrice de variance-covariance des estimateurs
e(V basé sur le modèle) variance basée sur le modèle
Fonctions
e(échantillon) marque l'estimation de l'échantillon
12 logistic - Régression logistique, rapport de cotes
En plus de ce qui précède, les éléments suivants sont stockés dans r() :
Matrices
r(tableau) matrice contenant les coefficients avec leurs erreurs standard, les statistiques de test,
les valeurs p et les intervalles de confiance.
Notez que les résultats stockés dans r() sont mis à jour lorsque la commande est rejouée et seront
remplacés lorsqu'u n e commande de la classe r est exécutée après la commande d'estimation.
Méthodes et formules
Définissez xj comme le vecteur (ligne) des variables indépendantes, augmenté de 1, et b comme le
vecteur (colonne) du paramètre estimé correspondant. Le modèle de régression logistique est ajusté par
logit ; voir [R] logit pour les détails de l'estimation.
Le rapport de cotes correspondant au ième coefficient est ψi = exp(bi ). L'erreur standard du rapport
de cotes iest sψ = ψ sii , où si est l'erreur standard de bi estimée par logit.
Définissez Ij = xj b comme l'indice prédit de la jème observation. La probabilité prédite d'un
résultat positif est
exp(I )j
pj =
1 + exp(Ij )
Références
Archer, K. J., et S. A. Lemeshow. 2006. Goodness-of-fit test for a logistic regression model fitted using survey sample data.
Stata Journal 6 : 97-105.
Buis, M. L. 2010a. Effets directs et indirects dans un modèle logit. Stata Journal 10 : 11-29.
. 2010b. Astuce Stata 87 : Interprétation des interactions dans les modèles non linéaires. Stata Journal 10 : 305-308.
Dupont, W. D. 2009. Modélisation statistique pour les chercheurs biomédicaux : Une introduction simple à l'analyse de
données complexes. 2e éd. Cambridge : Cambridge University Press.
Fernandez-Felix, B. M., E. Garc'ıa-Esquinas, A. Muriel, A. Royuela, et J. Zamora. 2021. Commande de validation interne
Bootstrap pour les modèles de régression logistique prédictive. Stata Journal 21 : 498-509.
Freese, J. 2002. Least likely observations in regression models for categorical outcomes (Observations les moins probables
dans les modèles de régression pour les résultats catégoriels). Stata Journal 2 : 296-300. Gould, W. W. 2000. sg124 :
Interprétation de la régression logistique sous toutes ses formes. Stata Technical Bulletin 53 : 19-29.
Réimprimé dans Stata Technical Bulletin Reprints, vol. 9, pp. 257-270. College Station, TX : Stata Press.
Hilbe, J. M. 2009. Logistic Regression Models. Boca Raton, FL : Chapman & Hall/CRC.
Hosmer, D. W., Jr, S. A. Lemeshow, et R. X. Sturdivant. 2013. Applied Logistic Regression. 3e éd. Hoboken, NJ : Wiley.
Kleinbaum, D. G., et M. Klein. 2010. Régression logistique : A Self-Learning Text. 3e éd. New York : Springer. Lalanne, C. et
M. Mesbah. 2016. Biostatistique et analyse informatisée des données de santé à l'aide de Stata. Londres :
ISTE Press.
Lemeshow, S. A., et J.-R. L. Gall. 1994. Modeling the severity of illness of ICU patients : A systems update. Journal of
the American Medical Association 272 : 1049-1055. https://doi.org/10.1001/jama.1994.03520130087038.
logistic - Régression logistique, r a p p o r t d e cotes 13
Lemeshow, S. A., et D. W. Hosmer, Jr. 2005. Logistic regression. In Vol. 2 of Encyclopedia of Biostatistics, ed.
P. Armitage et T. Colton, 2870-2880. Chichester, Royaume-Uni : Wiley.
Long, J. S., et J. Freese. 2014. Modèles de régression pour les variables dépendantes catégorielles à l'aide de Stata. 3rd ed.
College Station, TX : Stata Press.
Mehmetoglu, M., et T. G. Jakobsen. 2022. Applied Statistics Using Stata : A Guide for the Social Sciences. 2e éd. Thousand
Oaks, CA : SAGE.
Miranda, A., et S. Rabe-Hesketh. 2006. Estimation du maximum de vraisemblance des modèles de sélection d'échantillon et
de commutation endogène pour les variables binaires, ordinales et de comptage. Stata Journal 6 : 285-308.
Mitchell, M. N., et X. Chen. 2005. Visualisation des effets principaux et des interactions pour les modèles logit binaires. Stata
Journal
5 : 64-82.
Pagano, M., et K. Gauvreau. 2022. Principles of Biostatistics. 3e éd. Boca Raton, FL : CRC Press. Pampel,
F. C. 2021. Logistic Regression : A Primer. 2e éd. Thousand Oaks, CA : SAGE.
Pregibon, D. 1981. Logistic regression diagnostics. Annals of Statistics 9 : 705-724. https://doi.org/10.1214/aos/1176345513.
Schonlau, M. 2005. Régression boostée (boosting) : Un tutoriel d'introduction et un plugin Stata. Stata Journal 5 : 330-354.
Uberti, L. J. 2022. Interpreting logit models. Stata Journal 22 : 60-76.
Vittinghoff, E., D. V. Glidden, S. C. Shiboski, et C. E. McCulloch. 2012. Méthodes de régression en biostatistique : Linear,
Logistic, Survival, and Repeated Measures Models. 2e éd. New York : Springer.
Xu, J., et J. S. Long. 2005. Intervalles de confiance pour les résultats prédits dans les modèles de régression pour les résultats
catégoriels. Stata Journal 5 : 537-559.
Voir aussi
[R] Postestimation logistique - Outils de post-estimation pour la logistique
[R] brier - Décomposition du score de Brier
[R] cloglog - Régression log-log complémentaire
[R] exlogistic - Régression logistique exacte
[R] logit - Régression logistique, déclaration des coefficients
[R] npregress kernel - Régression non paramétrique par noyau
[R] npregress series - Régression non paramétrique de séries
[R] roc - Analyse de la caractéristique d'exploitation du récepteur (ROC)
[BAYES] bayes : logistic - Régression logistique bayésienne, rapport de cotes
[FMM] fmm : logit - Mélanges finis de modèles de régression logistique
[LASSO] Lasso intro - Introduction à lasso
[MI] Estimation - Commandes d'estimation à utiliser avec mi estimate
[SVY] svy estimation - Commandes d'estimation pour les données
d'enquête
[XT] xtlogit - Modèles logit à effets fixes, à effets aléatoires et à moyenne de population
[U] 20 Commandes d'estimation et de post-estimation