Vous êtes sur la page 1sur 6

FICHE MÉTHODOLOGIQUE

Série de Fiches Méthodologiques en Recherche et en Rédaction Scientifique


Fiche Méthodologique n°6:
Conduire une analyse multi variée par régression logistique
Conduct a multivariate analysis by logistic regression
‫�إجراء حتليل متعدد املتغريات عن طريق االنحدار اللوج�ستي‬
Kamel Ben Salem , Ahmed Ben Abdelaziz , Réseau Maghrébin : Pédagogie-Recherche-Publication (PRP2S)
1 1,2

1. Réseau Maghrébin Pédagogie-Recherche-Publication (PRP2S)


2. Laboratoire de Recherche LR19SP01. Université de Sousse. Tunisie

Cette série…
Le Réseau Maghrébin PRP2S et la Rédaction de la revue « La Tunisie Médicale » ont l’honneur de vous présenter, régulièrement à partir du
numéro de janvier 2020, une série des fiches techniques en épidémiologie et en bio statistique. Ces fiches méthodologiques décrivent, d’une
manière standardisée, les modes d’usage des concepts, des outils et des méthodes utilisés lors des différentes phases de la rédaction médicale
scientifique depuis la phase de la recherche documentaire jusqu’à la phase de la communication médicale scientifique.
Cette série est rédigée par des experts de méthodologie de recherche dans les universités du Grand Maghreb et les facultés sœurs au Nord de
la Méditerranée. Chaque fiche répond à trois questions essentielles (Quoi ? Pourquoi ? Comment) du concept étudié, en se basant sur un article
publié dans la revue Tunis Med.
Le coordinateur de la série « Fiches Méthodologiques »
Professeur Ahmed Ben Abdelaziz (Président du Réseau Maghrébin PRP2S)
ahmedbenabdelaziz.prp2s@gmail.com

Série des Fiches méthodologiques


Sommaire
Fiche n°1 (janvier 2020):
Comment calculer la taille d’un échantillon pour une étude observationnelle
Serhier Z et al. (Faculté de Médecine et de Pharmacie de Casablanca. Maroc)

Fiche n°2 (février 2020):


La recherche qualitative: méthodes, outils, analyse
Soulimane A. (Faculté de Médecine, Université Djillali Liabes, Sidi Bel Abbes, Algérie)

Fiche n°3 (mars 2020)


Et Allah …créa la variabilité
Barhoumi T. et al (Réseau Maghrébin PRP2S)

Fiche n°4 (mai 2020)


Réussir votre recherche bibliographique sur PubMed
Ben Abdelaziz A et al (Réseau Maghrébin PRP2S)

Fiche n°5 (juin 2020)


Réussir la rédaction de votre « Protocole de Recherche » en sciences de la santé
Ben Abdelaziz A et al (Réseau Maghrébin PRP2S)

Fiche n°6 (juillet 2020)


Analyse multi variée par régression logistique
Ben Salem K et al (Réseau Maghrébin PRP2S)

Correspondance
Kamel Ben Salem
Email : kbsalem@gmail.com

LA TUNISIE MEDICALE - 2020 ; Vol 98 (07) : 456-465

456
LA TUNISIE MEDICALE - 2020 ; Vol 98 (n°07)

ETUDE DE CAS consommation rare/consommation fréquente (ORa: 7,07 ;


IC 95% [1,4-35,6]). Les auteurs ont conclu que le jeune
En 2010, l’équipe du Professeur Dziri a conduit une
âge et la consommation fréquente de charcuterie ont été
étude épidémiologique sur les facteurs alimentaires
des facteurs de risque de CCR alors que la consommation
prédisposant au risque de cancers colorectaux (CCR).
fréquente de lait a été un facteur de protection.
Les chercheurs ont comparé un groupe de 32 patients
ayant un CCR à un groupe témoin de 61 malades. Ils Tableau 1. Analyse multi variée des facteurs de risque des
ont procédé dans un premier temps à une analyse uni cancers colorectaux (Tunisie, 2010) [1]
variée ayant dégagé 12 facteurs (p< 0,05) influençant
le risque de CCR (âge, sexe, origine géographique,
anémie, tabagisme, sport, marche, charcuterie, lait, fruits,
huile crue et fritures). Tous ces facteurs associés ont été
introduits dans un modèle de régression logistique afin
d’identifier les facteurs indépendants influençant le risque
de CCP. Selon le tableau I, cette analyse multi variée n’a
retenu que trois facteurs: l’âge 40/60 ans (ORa: 5,15 ; IC
95% [2,3–11,4]), la charcuterie consommation fréquente/
consommation rare (ORa: 5,1 ; IC 95% [1,4-18,5]), le lait

Quizz

1. Dans une étude multi variée par régression logistique binaire, la variable d’intérêt (à expliquer ou à prédire) est une
variable qualificative dichotomique

1. Vrai

2. Faux

2. La régression logistique permet le contrôle des facteurs de confusion

1. Vrai

2. Faux

3. Dans une étude multi variée par régression logistique, le risque est calculé par un Odds Ratio ajusté (ORa)

1. Vrai

2. Faux

457
santé [2]. codant la présence de l’évènement étudié égal à «1», la fréquence de cette
peut être interprétée comme une probabilité. Cette approche nous permet de
La Régression Logistique: Pourquoi  Prédire,
? à l’aide des variables indépendantes «Xi» (qualitativ
quantitatives) caractérisant l’évènement de santé, la probabilité de l’obs
ne pas l’observer). Le modèle final retenu sera ainsi un modèle prédicti
K. Ben Salem &La
al. -majorité desvariée
Analyse multi phénomènes
par régressionde santé se présentent sous forme dichotomique
logistique
binaire, être malade ou ne pas l’être, avoir une Déterminerouquelles
 complication sont les
ne pas l’avoir … en variables indépendantes «Xi» (qualitativ
codant la présence de l’évènement étudié égal à «1», quantitatives),
la fréquencequi deexpliquent
cette modalité de façon indépendante, la probabilité d’obs
peut être interprétée comme une probabilité. Cettene pas observer)
approche nous permetl’évènement
de: étudié. Le modèle final retenu sera desc
 Prédire, à l’aide des variables indépendantes caractéristiques propres à cet
«Xi» (qualitatives et/ou évènement, en les pondérant.
INTRODUCTION LA RÉGRESSION LOGISTIQUE: C’EST QUOI ?
quantitatives) caractérisant l’évènement de santé, la probabilité de l’observer (ou
L’exercice médical impose, au quotidien du médecin, laLa Régression Logistique:
permet de c’est Quoi ?
ne pas l’observer). Le modèle final retenu sera ainsi un modèle prédictif.
La fonction logistique modéliser les réponses
 Déterminer quelles sont les variables indépendantes «Xi» (qualitatives et/ou
recherche de facteurs associés
quantitatives), quiàexpliquent
un évènement de santé
de façon indépendante, binaires non linéaires dont(ou
la probabilité l’intervalle des solutions est
La fonction logistique d’observer
permet de modéliser les réponses binaires non linéa
pour justifier unne pas observer)
diagnostic, faire l’évènement
un pronosticétudié. Le modèle compris
et implanter final retenu sera descriptif des
l’intervalle des solutions est compriss’écrit
entre [0-1]. Cette fonction
entre sous forme :
[0-1]. Cette fonction s’é
caractéristiques propres
des mesures préventives. L’épidémiologie analytique à cet évènement, en les pondérant. � +∑
forme :��� � ��� � � oùoù : :
et la statistique, sciences qui permettent de pondérer et �� � +∑
La Régression Logistique: c’est Quoi
de tester la relation entre des variables explicatives et
?
 Y représente la variable dépendante à décrire ou à pronostiquer,
 βi les · Ycoefficients
représenteassociés
la variable aux dépendante
variables explicativesà décrire Xou. à
i
un évènement de santé, sont des outils fondamentaux pronostiquer,
La fonction logistique permet de modéliser les réponses binaires non linéaires dont
comme aidel’intervalle
à la prise de desdécision
solutionsdesest professionnels
compris entre deCes coefficients,
[0-1]. une fois
Cette fonction calculés,
s’écrit sous se présentent sous forme «eβ », sont d
· β les coefficients associés aux variables explicatives Xi .
santé. Par ailleurs, un � état
���de� santé donné est où :rarementratio (OR)i quand la variable est qualitative. L’odds est le rapport de la prob
� +∑
forme :��� �
�� � +∑
expliqué par unYseul facteur. La nécessité d’expliquer cetsurvenue d’un évènement divisée par l’évènement contraire, soit ���� �
représente la variable dépendante à décrire ou àCes pronostiquer,
coefficients, une fois calculés, se présentent sous
état dans ses  multiples dimensions,
βi les coefficients associés prenant en compte
aux variables les variables
explicatives Xi . «eβ quantitatives, ces coefficients dépendent de leur u
forme », sont des odds-ratio (OR) quand la variable
plusieurs facteurs, pose le problème de sa modélisation transformation logarithmique (logarithme naturel) de l’odds, appelée «Logit»
Ces coefficients, une fois calculés, se présentent est forme
sous qualitative.
«e β
», L’odds
sont des est
odds-le rapport de la probabilité
(représentation simplifiée d’une réalité complexe). Cette
ratio (OR) quand la variable est qualitative. L’odds est dele survenue
rapport ded’un évènement
la probabilité de divisée par l’évènement
modélisation est possible en se basant sur des approches
survenue d’un évènement divisée par l’évènement contraire, soit
contraire, soit ���� � ��
. Pour
. Pour les variables quantitatives,
mathématiques probabilistes. La régression logistique
les variables quantitatives, ces coefficients dépendent ces coefficients
de leurdépendent
unité. de Laleur unité. La transformation
répond à cet impératif d’analyse
transformation gérant
logarithmique simultanément
(logarithme naturel) de l’odds, appelée «Logit», simplifie
logarithmique (logarithme naturel) de l’odds, appelée
plusieurs variables pour expliquer un évènement
«Logit», simplifie son écriture son écriture soussousforme
forme :: ������ � = � +. ∑ � . Cette tran
dichotomique. L’objectif de cette fiche méthodologique permettra de calculer la vraisemblance
Cette transformation logarithmique permettra de calculer (V) du modèle
est de décrire la méthode épidémiologique d’analyse d’observer
son écriturecetsous échantillon. On appellera
forme : ������ �= �+ par∑ ailleurs
�. C
la vraisemblance (V) du modèle Les
qui eststatistiques
logiciels
la probabilité
permettent d’estimer
multi variée par régression logistique, des conditions de �����
permettra �. de calculer la vraisemblance (V) duce
d’observer cet échantillon. d’observer On appellera
par la méthode cetduéchantillon.
maximumpar deailleurs
vraisemblance
On appelleraet de parca
son application et l’interprétation de ses extrants dans les
son écriture sous forme : ������ � = � +déviance, ∑ � . Cette transformation
la quantité �����
Confiancelogarithmique
�. àLes95%.logiciels
logiciels statistiques
statistiques
Par ailleurs permettent
la quantité ���� �
d’es
� suit une lo
situations les plus fréquentes de la de
permettra recherche
calculerenlasciences
vraisemblance (V) du modèle qui par est lalaméthode
probabilité du maximum de vraisemblance

e
permettent d’estimer ces libertédifférents
(ddl) : coefficients par la
de la santé [2]. d’observer cet échantillon. On appellera par ailleurs déviance, Confiance la avec
quantité
à 95%. Par ailleurs la quantité ���� �
� su
����� �. Les logiciels statistiques permettent méthode du maximum
d’estimer ces différents : Vraisemblance
coefficients duetmodèle
 deV1vraisemblance à k modalités
de calculer �

par la méthode du maximum de vraisemblance leur Intervalle


et dedecalculer liberté
Confiance leur (ddl)
95%.avec
V2à: Intervalle
Vraisemblance
Parde :ailleurs
du modèle à k-1 modalités.
la quantité
 V : Vraisemblance du modèle à k modalités
Confiance à 95%. Par ailleurs la quantité ���� � � suit suit une
une loi
loide Chi2à1àun
deChi2 undegré
degréde deliberté (ddl) avec :
� Ce V rapport peut également
2 : Vraisemblance dus’écrire
modèle sous forme
à k-1 d’une différ
modalités.
LA RÉGRESSION LOGISTIQUE: liberté (ddl) avecPOURQUOI
: ? l’effet sur le modèle de l’ajout ou le retrait d’une variable.
 V1 : Vraisemblance du modèle à k modalités · V1 : VraisemblanceCe durapport
deux modèle
modèles, àdits
peut modalités
k également
emboités, diffèrent
s’écrire statistiquement,
sous forme la va
d’un
La majorité des phénomènes  V2 de santé se présentent
: Vraisemblance du modèlesousà k-1 modalités. elle peut
l’effet sur êtreleexclue
modèle du modèle.
de l’ajout ou le retrait d’une v
forme dichotomique binaire, être malade ou ne pas l’être, · V2 : Vraisemblancedeux du modèle
modèles, à k-1
dits modalités.
emboités, diffèrent statistiqueme
Ce ne
avoir une complication ou rapport peut également
pas l’avoir … en codants’écrire
la sous forme d’une différence, elleil permet
La Régression
peut de exclue
être testerLogistique
du modèle. : Comment ?
l’effet sur le modèle de l’ajout ou le retrait Ce d’une
rapport peut également
variable. Les vraisemblancess’écrire de sous forme d’une
présence de l’évènement étudié
deux égal àdits
modèles, «1», la fréquence
emboités, diffèrent statistiquement,
différence, il la variable
permet de
La a tester
son poids sinon
l’effet sur Logistique
le modèle de : Commen
de cette modalité peut elleêtre
peut interprétée
être exclue du comme
modèle.une 1.Régression
Champs d’application
l’ajout ou le retrait d’uneLavariable.
régressionLes vraisemblances
logistique peut s’appliquer de aux études épidé
probabilité. Cette approche nous permet de:
deux modèles, dits emboités, 1. Champs
transversales
diffèrent d’application
et casstatistiquement,
témoins; cependant la pour ces dernièr
La Régression Logistique : Comment ? peutrégression
La êtrepeut
que être
descriptif.
logistique Lesdu études
peut Cas/Témoins
s’appliquer auxneétude
perm
· Prédire, à l’aide des variables indépendantes variable a son poids sinon elle exclue modèle.
Elle n’a aucune et
transversales exigence sur la distribution
cas témoins; cependantde lapour
variable;
cesl
«Xi» (qualitatives et/ou 1. quantitatives) caractérisant
Champs d’application n’est pas
peut êtreune quecondition nécessaire.
descriptif. La seuleCas/Témoins
Les études contrainte, est
La régression
l’évènement de santé, logistique
la probabilité peut s’appliquer
de l’observer (ou minimum
aux études épidémiologiques
Elle n’a de une
aucune dizaine
cohorte,exigencede réponses pour toutes
sur la distribution de les v
la va
cinquantaine unepour certainsnécessaire.
auteurs) afinLa de seule
garantir une p
ne pas l’observer). transversales
Le modèle final et cas témoins;
retenu cependant pour ces dernières, len’est
sera ainsi LA RÉGRESSION tests
modèlepas retenu
LOGISTIQUE
ne
condition
: COMMENT ? contrai
peut être que descriptif. Les études Cas/Témoins ne permettentminimum passtatistiques.
la prédiction.
une dizaine de réponses pour toutes
un modèle prédictif.Elle n’a aucune exigence sur la distribution de la variable; la normalité par exemple
cinquantaine pour certains auteurs) afin de garant
1. Champs d’application
n’est pas une condition nécessaire. La seule contrainte, est d’avoir 2. statistiques.
Le codageau
simultanément
tests des variables
· Déterminer quellesminimum
sont les variables
une dizaineindépendantes
de réponses pour toutes les variables Il estretenues
impératif de (une coder la variable dépendante (évène
cinquantaine
«Xi» (qualitatives et/ou pour certains
quantitatives), auteurs) afin La
qui expliquent de régression
garantir une logistique
puissance 2.peut s’appliquer
suffisante
Le codage
l’évènement est aux
absent,des 1aux études présent. Les v
variables
si évènement
tests statistiques.
de façon indépendante, la probabilité d’observer (ou épidémiologiques de cohorte,
Il(explicatives)
est impératif transversales
qualitatives
de coder doivent et
la être cas
dichotomisées
variable autant
dépendante
témoins; cependant pourvariable
l’évènement
ces dépendante
dernières,est (0/1).
absent,
le Les
modèle 1 variables
si qualitatives
évènement
retenu à plus
présen
ne pas observer) l’évènement étudié. Le
2. Le codage desmodèle final
variables doivent être signalées au logiciel d’analyse. Il se chargera
(explicatives) qualitatives
ne peut être que descriptif. Les études Cas/Témoins ne doivent être dichotomisée
retenu sera descriptif desimpératif
Il est caractéristiques
de coder propres à
la variable modalités
dépendante (évènement variableà expliquer):indicatrices
dépendante 0 si dont seraLes
(0/1). prisevariables
comme référence.
qualitativeLe
l’évènement
cet évènement, en les pondérant. est absent, 1 si évènement permettent
présent. pas
Les lavariables
prédiction.
peuvent
doivent Elleincluses
être
indépendantes
être n’a aucune
signalées dans exigence
aulelogiciel
modèle d’analyse.
en leur qualité
Il seouch
d
sur la distribution
(explicatives) qualitatives doivent être dichotomisées autantde
que valeur
lamodalités
variable;
possible seuilcomme
laayant une
la signification
normalité
indicatrices seraclinique.
par exemple
dont Elles seront
prise comme a
référe
variable dépendante (0/1). Les variables qualitatives à plus de deux variables
peuvent qualitatives.
modalités (m)
être incluses dans le modèle en leur qua
doivent être signalées au logiciel d’analyse. Il se chargera de lesvaleur stratifier
seuilenayant
(m-1)une signification clinique. Elles
458
modalités indicatrices dont sera prise comme référence. Les variables 3. Construction
variables qualitatives.et choix du modèle
quantitatives
peuvent être incluses dans le modèle en leur qualité ou dichotomisées selon du
La construction unemodèle est la dernière étape de l
valeur seuil ayant une signification clinique. Elles seront ainsi traitées commesignificatives
3. Construction
statistiquement des et(généralement
choix du modèle au seuil de 0,05
variables qualitatives. à expliquer lors de l’analyse uni variée, sont théoriquement «
LA TUNISIE MEDICALE - 2020 ; Vol 98 (n°07)

n’est pas une condition nécessaire. La seule contrainte, La méthode descendante (pas à pas). Elle consiste,
est d’avoir simultanément au minimum une dizaine dans une première étape à prendre toutes les variables
de réponses pour toutes les variables retenues (une retenues et à réaliser l’analyse sur un modèle dit saturé à
cinquantaine pour certains auteurs) afin de garantir une k variables. Puis, dans une deuxième étape, à soustraire
puissance suffisante aux tests statistiques. une à une du modèle, la variable la moins significative
(le p le plus élevé) et tester le nouveau modèle à k-1
variable au modèle saturé à k variables par le rapport
2. Le codage des variables de vraisemblance qui suit une loi de Chi2 à 1 ddl. Si la
Il est impératif de coder la variable dépendante différence entre les deux variances est significative, la
(évènement à expliquer): 0 si l’évènement est absent, variable a son poids, si non elle peut être définitivement
1 si évènement présent. Les variables indépendantes retirée. Nous pouvons également tester la variable par
(explicatives) qualitatives doivent être dichotomisées le test de Wald. Il nous calcule un chi2 à un ddl; cette
autant que possible comme la variable dépendante (0/1). quantité est le carré du coefficient estimé par le modèle
Les variables qualitatives à plus de deux modalités (m) divisé par sa variance. Cette opération sera répétée de la
doivent être signalées au logiciel d’analyse. Il se chargera même façon jusqu’à obtenir un modèle ayant des variables
de les stratifier en (m-1) modalités indicatrices dont statistiquement significatives et indépendamment
sera prise comme référence. Les variables quantitatives associées à l’évènement étudié. Les OR ainsi obtenus
peuvent être incluses dans le modèle en leur qualité sont des OR ajustés.
ou dichotomisées selon une valeur seuil ayant une La méthode ascendante (pas à pas). La deuxième façon
signification clinique. Elles seront ainsi traitées comme d’opérer et de commencer par un modèle à une seule
des variables qualitatives. variable et d’ajouter une à une les variables sélectionnées
et de tester au fur et à mesure les modèles emboités selon
les mêmes principes.
3. Construction et choix du modèle

La construction du modèle est la dernière étape de l’analyse.


Les variables statistiquement significatives (généralement 4. Qualité du modèle
au seuil de 0,05), associées à la variable à expliquer lors Ouf, vous n’êtes pas au bout de vos peines !. Le
de l’analyse uni variée, sont théoriquement «candidates» modèle construit doit avoir des qualités métrologiques
au modèle. Nous rappelons que l’analyse uni variée nous acceptables. Sa validité dot être appréciée au moins par
calcule également la force d’association entre la variable le test de Hosmer Lemshow au seuil de 0,1, que le logiciel
dépendante et la variable explicative par l’OR brut. Le se charge de son calcul. Ce test évalue son adéquation
seuil de signification des variables candidates peut aller à décrire, le plus fidèlement possible, l’évènement étudié
jusqu’à un seuil de signification de 0,25 afin de rechercher en fonction des variables retenues. Dans un modèle
d’éventuels facteurs de confusion ou des interactions adéquat, les valeurs prédites seront proches des valeurs
entre deux variables. Cependant toutes les variables observées, reflet d’un ajustement correct.
répondant à ces conditions ne sont pas automatiquement
retenues. Deux règles fondamentales sont à respecter,
la parcimonie et la non redondance. La parcimonie 5. Application sous «SPSS»
consiste à ne retenir que les variables cliniquement
Les données de l’exemple suivant sont tirées d’une
pertinentes, une revue de la littérature du problème
étude africaine non publiée sur les facteurs associés au
étudiée est ainsi primordiale. La redondance s’applique
HIV. Pour des raisons pédagogiques, nous choisirons la
pour les variables fortement corrélées (exemple ne pas
régression logistique ascendante pas à pas afin d’expliquer
retenir dans un même modèle le poids, la taille et l’indice
les étapes de la régression logistique en général. La
de masse corporelle qui n’est que le rapport entre eux).
variable à expliquer est la présence ou non de cas de HIV.
L’analyse uni variée a tenu compte de variables comme
les « antécédents de transfusion », les « scarifications »
La modélisation peut se faire de deux façons.
et l’usage de « préservatifs » entre autre. Dans un premier

459
K. Ben Salem & al. - Analyse multi variée par régression logistique

temps nous allons inclure dans le modèle la notion de HIV. En plus, le logiciel pondère cette association par l’OR
transfusion. Le logiciel nous donne les résultats suivants: (Exp B) avec son Intervalle de Confiance à 95% soit 2,212
Tableau 2. Historiques des itérations dans les sorties d’un (1,094 - 4,471).
exemple de régression logistique, sur le logiciel SPSS Tableau 4. Test de Wald dans un modèle de régression logistique,
sur le logiciel SPSS
Historique des itérations
Itération -2log-vraisemblance Coefficients
Constante A E.S. Wald d.d.l Sig Exp(B) IC 95%
Etape 0 1 855,169 -1,008
Transfusion 0,794 0,359 4,888 1 0,027 2,212 1,094
2 853,688 -1,107 constante -1,151 0,087 175,978 1 0,000 0,316 4,471
3 853,687 -1,109 A : Constante du modèle
4 853,687 -1,109 ES : Erreur Standard,
ddl : degré de liberté,
Ce premier tableau nous donne la déviance de départ Sig: degré de signification statistique,
Exp(B): Exponentiel : Odds Ratioa ,
d’un modèle ne contenant aucune variable. Il est basé
IC: Intervalle de Confiance à 95% autour de l’ORa
uniquement sur la constante soit -2Log_vraisemblance=
853,687. Nous rappelons que cette valeur indique la
quantité d’informations non retenues par le modèle ; Par Ajoutons maintenant la variable «scarification»; les
conséquent l’ajout de variables fait baisser cette valeur. nouveaux résultats montrent que celle-ci n’apportent pas
d’amélioration au modèle. La différence entre les deux
L’ajout de la variable transfusion donne une déviance
déviances est non significative (p=0,076) et le test de Wald
plus faible soit :
confirme ce résultat ; le p (0,508) associé à la variable
Tableau 3a. Récapitulatif des modèles dans les sorties d’un scarification est non significatif. Ainsi en introduisant une à
exemple de régression logistique, sur le logiciel SPSS une les variables et avec la même procédure on retiendra
le modèle le plus approprié. Sa qualité sera testée par le
Récapitulatif des modèles test de Hosmer Lemshow au seuil de 0,1.
Etape -2log- R-deux de Cox & R-deux de
vraisemblance Snell Nagelkerke Tableau 5. Sorties SPSS du modèle de régression logistique, sur
le logiciel SPSS
1 849,087a ,006 ,009

Récapitulatif des modèles


Le tableau suivant est un Chi2 à un ddl; sa valeur est Etape -2log-vraisemblance R-deux de Cox & Snell R-deux de Nagelkerke
la différence des deux déviances (853,687 - 849,087 = 1 842,946a ,007 ,010
4,6). L’ajout de la variable transfusion change de façon
significative, le modèle (p=0,032) Tests de spécification du modèle
Khi-Chi-deux ddl Sig.
Tableau 3b. Tests de spécification du modèle dans les sorties
d’un exemple de régression logistique, sur le logiciel SPSS Etape 1 Etape 5,148 2 ,076
Bloc 5,148 2 ,076
Tests de spécification du modèle Modèle 5,148 2 ,076
Khi-Chi-deux ddl Sig.
Etape 1 Etape 4,600 1 ,032 Variables dans l’équation
Bloc 4,600 1 ,032 A E.S. Wald ddl Sig. Exp(B)
Modèle 4,600 1 ,032 Etape Transfusion ,806 ,359 5,034 1 ,025 2,239
ddl : degré de liberté Scarifcation -,306 ,463 ,438 1 ,508 ,736
Sig : degré de signification
Constante -,866 ,455 3,619 1 ,057 ,421

Le test de Wald s’applique à la variable, ici p=0,027.


La variable «transfusion» est associée de façon
CONCLUSION
statistiquement significative et indépendante à la maladie

460
LA TUNISIE MEDICALE - 2020 ; Vol 98 (n°07)

La régression logistique est une technique d’analyse 1. Guesmi F, Zoghlami A, Sghaiier D, Nouira R, Dziri
statistique multi variée permettant d’identifier les facteurs C. Les facteurs alimentaires prédisposant au risque
de cancers colorectaux: étude épidémiologique
explicatifs ou prédictifs d’un phénomène de santé, en
prospective. Tunis Med 2010; 88(3):184-9.
contrôlant les variables de confusion associes à ce
phénomène. Elle est spécifique aux variables dépendantes, 2. Bouyer J. La régression logistique en épidémiologie.
qualificatives et dichotomiques, sans interférence avec le Partie II. Rev Epidemiol Sante Publique 1991;
39(2):183-96.
temps. D’autres techniques d’analyse multi variées sont
indiquées pour les variables dépendantes, quantitatives
(régression multiple) ou liées au temps (modèle de Cox).
Des nouvelles fiches méthodologiques présenteront le
mode d’emploi de ces deux approches épidémiologiques
et statistiques.

Réponses aux quizz

1. Vrai

2. Vrai

3. Vrai

L’essentiel à retenir

· La régression logistique est une technique


d’analyse multi variée permettant le contrôle des
variables de confusion et l’identification des facteurs
indépendamment associés à la variable à expliquer
ou à prédire

· Dans une régression logistique, la variable dépendante


(évènement à expliquer ou à prédire) doit être codé
en 0/1 (0 si l’évènement est absent, 1 si évènement
présent), de même pour les variables qualificatives
indépendantes (explicatives) de préférence.

· La régression logistique par la méthode descendante


(pas à pas) consiste à intégrer toutes les variables
retenues puis à soustraire une à une du modèle, la
variable la moins significative.

· Dans une étude multi variée par régression logistique,


les Odds Ratio calculés sont des OR ajustés en
fonction des autres variables incluses dans le modèle
(facteurs de confusion)

· La validité du modèle construit par régression


logistique est appréciée par le test de Hosmer
Lemshow. Plus les valeurs prédites seront proches
des valeurs observées, plus ce modèle est adéquat

Pour en savoir plus

461

Vous aimerez peut-être aussi