Académique Documents
Professionnel Documents
Culture Documents
Cette série…
Le Réseau Maghrébin PRP2S et la Rédaction de la revue « La Tunisie Médicale » ont l’honneur de vous présenter, régulièrement à partir du
numéro de janvier 2020, une série des fiches techniques en épidémiologie et en bio statistique. Ces fiches méthodologiques décrivent, d’une
manière standardisée, les modes d’usage des concepts, des outils et des méthodes utilisés lors des différentes phases de la rédaction médicale
scientifique depuis la phase de la recherche documentaire jusqu’à la phase de la communication médicale scientifique.
Cette série est rédigée par des experts de méthodologie de recherche dans les universités du Grand Maghreb et les facultés sœurs au Nord de
la Méditerranée. Chaque fiche répond à trois questions essentielles (Quoi ? Pourquoi ? Comment) du concept étudié, en se basant sur un article
publié dans la revue Tunis Med.
Le coordinateur de la série « Fiches Méthodologiques »
Professeur Ahmed Ben Abdelaziz (Président du Réseau Maghrébin PRP2S)
ahmedbenabdelaziz.prp2s@gmail.com
Correspondance
Kamel Ben Salem
Email : kbsalem@gmail.com
456
LA TUNISIE MEDICALE - 2020 ; Vol 98 (n°07)
Quizz
1. Dans une étude multi variée par régression logistique binaire, la variable d’intérêt (à expliquer ou à prédire) est une
variable qualificative dichotomique
1. Vrai
2. Faux
1. Vrai
2. Faux
3. Dans une étude multi variée par régression logistique, le risque est calculé par un Odds Ratio ajusté (ORa)
1. Vrai
2. Faux
457
santé [2]. codant la présence de l’évènement étudié égal à «1», la fréquence de cette
peut être interprétée comme une probabilité. Cette approche nous permet de
La Régression Logistique: Pourquoi Prédire,
? à l’aide des variables indépendantes «Xi» (qualitativ
quantitatives) caractérisant l’évènement de santé, la probabilité de l’obs
ne pas l’observer). Le modèle final retenu sera ainsi un modèle prédicti
K. Ben Salem &La
al. -majorité desvariée
Analyse multi phénomènes
par régressionde santé se présentent sous forme dichotomique
logistique
binaire, être malade ou ne pas l’être, avoir une Déterminerouquelles
complication sont les
ne pas l’avoir … en variables indépendantes «Xi» (qualitativ
codant la présence de l’évènement étudié égal à «1», quantitatives),
la fréquencequi deexpliquent
cette modalité de façon indépendante, la probabilité d’obs
peut être interprétée comme une probabilité. Cettene pas observer)
approche nous permetl’évènement
de: étudié. Le modèle final retenu sera desc
Prédire, à l’aide des variables indépendantes caractéristiques propres à cet
«Xi» (qualitatives et/ou évènement, en les pondérant.
INTRODUCTION LA RÉGRESSION LOGISTIQUE: C’EST QUOI ?
quantitatives) caractérisant l’évènement de santé, la probabilité de l’observer (ou
L’exercice médical impose, au quotidien du médecin, laLa Régression Logistique:
permet de c’est Quoi ?
ne pas l’observer). Le modèle final retenu sera ainsi un modèle prédictif.
La fonction logistique modéliser les réponses
Déterminer quelles sont les variables indépendantes «Xi» (qualitatives et/ou
recherche de facteurs associés
quantitatives), quiàexpliquent
un évènement de santé
de façon indépendante, binaires non linéaires dont(ou
la probabilité l’intervalle des solutions est
La fonction logistique d’observer
permet de modéliser les réponses binaires non linéa
pour justifier unne pas observer)
diagnostic, faire l’évènement
un pronosticétudié. Le modèle compris
et implanter final retenu sera descriptif des
l’intervalle des solutions est compriss’écrit
entre [0-1]. Cette fonction
entre sous forme :
[0-1]. Cette fonction s’é
caractéristiques propres
des mesures préventives. L’épidémiologie analytique à cet évènement, en les pondérant. � +∑
forme :��� � ��� � � oùoù : :
et la statistique, sciences qui permettent de pondérer et �� � +∑
La Régression Logistique: c’est Quoi
de tester la relation entre des variables explicatives et
?
Y représente la variable dépendante à décrire ou à pronostiquer,
βi les · Ycoefficients
représenteassociés
la variable aux dépendante
variables explicativesà décrire Xou. à
i
un évènement de santé, sont des outils fondamentaux pronostiquer,
La fonction logistique permet de modéliser les réponses binaires non linéaires dont
comme aidel’intervalle
à la prise de desdécision
solutionsdesest professionnels
compris entre deCes coefficients,
[0-1]. une fois
Cette fonction calculés,
s’écrit sous se présentent sous forme «eβ », sont d
· β les coefficients associés aux variables explicatives Xi .
santé. Par ailleurs, un � état
���de� santé donné est où :rarementratio (OR)i quand la variable est qualitative. L’odds est le rapport de la prob
� +∑
forme :��� �
�� � +∑
expliqué par unYseul facteur. La nécessité d’expliquer cetsurvenue d’un évènement divisée par l’évènement contraire, soit ���� �
représente la variable dépendante à décrire ou àCes pronostiquer,
coefficients, une fois calculés, se présentent sous
état dans ses multiples dimensions,
βi les coefficients associés prenant en compte
aux variables les variables
explicatives Xi . «eβ quantitatives, ces coefficients dépendent de leur u
forme », sont des odds-ratio (OR) quand la variable
plusieurs facteurs, pose le problème de sa modélisation transformation logarithmique (logarithme naturel) de l’odds, appelée «Logit»
Ces coefficients, une fois calculés, se présentent est forme
sous qualitative.
«e β
», L’odds
sont des est
odds-le rapport de la probabilité
(représentation simplifiée d’une réalité complexe). Cette
ratio (OR) quand la variable est qualitative. L’odds est dele survenue
rapport ded’un évènement
la probabilité de divisée par l’évènement
modélisation est possible en se basant sur des approches
survenue d’un évènement divisée par l’évènement contraire, soit
contraire, soit ���� � ��
. Pour
. Pour les variables quantitatives,
mathématiques probabilistes. La régression logistique
les variables quantitatives, ces coefficients dépendent ces coefficients
de leurdépendent
unité. de Laleur unité. La transformation
répond à cet impératif d’analyse
transformation gérant
logarithmique simultanément
(logarithme naturel) de l’odds, appelée «Logit», simplifie
logarithmique (logarithme naturel) de l’odds, appelée
plusieurs variables pour expliquer un évènement
«Logit», simplifie son écriture son écriture soussousforme
forme :: ������ � = � +. ∑ � . Cette tran
dichotomique. L’objectif de cette fiche méthodologique permettra de calculer la vraisemblance
Cette transformation logarithmique permettra de calculer (V) du modèle
est de décrire la méthode épidémiologique d’analyse d’observer
son écriturecetsous échantillon. On appellera
forme : ������ �= �+ par∑ ailleurs
�. C
la vraisemblance (V) du modèle Les
qui eststatistiques
logiciels
la probabilité
permettent d’estimer
multi variée par régression logistique, des conditions de �����
permettra �. de calculer la vraisemblance (V) duce
d’observer cet échantillon. d’observer On appellera
par la méthode cetduéchantillon.
maximumpar deailleurs
vraisemblance
On appelleraet de parca
son application et l’interprétation de ses extrants dans les
son écriture sous forme : ������ � = � +déviance, ∑ � . Cette transformation
la quantité �����
Confiancelogarithmique
�. àLes95%.logiciels
logiciels statistiques
statistiques
Par ailleurs permettent
la quantité ���� �
d’es
� suit une lo
situations les plus fréquentes de la de
permettra recherche
calculerenlasciences
vraisemblance (V) du modèle qui par est lalaméthode
probabilité du maximum de vraisemblance
�
e
permettent d’estimer ces libertédifférents
(ddl) : coefficients par la
de la santé [2]. d’observer cet échantillon. On appellera par ailleurs déviance, Confiance la avec
quantité
à 95%. Par ailleurs la quantité ���� �
� su
����� �. Les logiciels statistiques permettent méthode du maximum
d’estimer ces différents : Vraisemblance
coefficients duetmodèle
deV1vraisemblance à k modalités
de calculer �
n’est pas une condition nécessaire. La seule contrainte, La méthode descendante (pas à pas). Elle consiste,
est d’avoir simultanément au minimum une dizaine dans une première étape à prendre toutes les variables
de réponses pour toutes les variables retenues (une retenues et à réaliser l’analyse sur un modèle dit saturé à
cinquantaine pour certains auteurs) afin de garantir une k variables. Puis, dans une deuxième étape, à soustraire
puissance suffisante aux tests statistiques. une à une du modèle, la variable la moins significative
(le p le plus élevé) et tester le nouveau modèle à k-1
variable au modèle saturé à k variables par le rapport
2. Le codage des variables de vraisemblance qui suit une loi de Chi2 à 1 ddl. Si la
Il est impératif de coder la variable dépendante différence entre les deux variances est significative, la
(évènement à expliquer): 0 si l’évènement est absent, variable a son poids, si non elle peut être définitivement
1 si évènement présent. Les variables indépendantes retirée. Nous pouvons également tester la variable par
(explicatives) qualitatives doivent être dichotomisées le test de Wald. Il nous calcule un chi2 à un ddl; cette
autant que possible comme la variable dépendante (0/1). quantité est le carré du coefficient estimé par le modèle
Les variables qualitatives à plus de deux modalités (m) divisé par sa variance. Cette opération sera répétée de la
doivent être signalées au logiciel d’analyse. Il se chargera même façon jusqu’à obtenir un modèle ayant des variables
de les stratifier en (m-1) modalités indicatrices dont statistiquement significatives et indépendamment
sera prise comme référence. Les variables quantitatives associées à l’évènement étudié. Les OR ainsi obtenus
peuvent être incluses dans le modèle en leur qualité sont des OR ajustés.
ou dichotomisées selon une valeur seuil ayant une La méthode ascendante (pas à pas). La deuxième façon
signification clinique. Elles seront ainsi traitées comme d’opérer et de commencer par un modèle à une seule
des variables qualitatives. variable et d’ajouter une à une les variables sélectionnées
et de tester au fur et à mesure les modèles emboités selon
les mêmes principes.
3. Construction et choix du modèle
459
K. Ben Salem & al. - Analyse multi variée par régression logistique
temps nous allons inclure dans le modèle la notion de HIV. En plus, le logiciel pondère cette association par l’OR
transfusion. Le logiciel nous donne les résultats suivants: (Exp B) avec son Intervalle de Confiance à 95% soit 2,212
Tableau 2. Historiques des itérations dans les sorties d’un (1,094 - 4,471).
exemple de régression logistique, sur le logiciel SPSS Tableau 4. Test de Wald dans un modèle de régression logistique,
sur le logiciel SPSS
Historique des itérations
Itération -2log-vraisemblance Coefficients
Constante A E.S. Wald d.d.l Sig Exp(B) IC 95%
Etape 0 1 855,169 -1,008
Transfusion 0,794 0,359 4,888 1 0,027 2,212 1,094
2 853,688 -1,107 constante -1,151 0,087 175,978 1 0,000 0,316 4,471
3 853,687 -1,109 A : Constante du modèle
4 853,687 -1,109 ES : Erreur Standard,
ddl : degré de liberté,
Ce premier tableau nous donne la déviance de départ Sig: degré de signification statistique,
Exp(B): Exponentiel : Odds Ratioa ,
d’un modèle ne contenant aucune variable. Il est basé
IC: Intervalle de Confiance à 95% autour de l’ORa
uniquement sur la constante soit -2Log_vraisemblance=
853,687. Nous rappelons que cette valeur indique la
quantité d’informations non retenues par le modèle ; Par Ajoutons maintenant la variable «scarification»; les
conséquent l’ajout de variables fait baisser cette valeur. nouveaux résultats montrent que celle-ci n’apportent pas
d’amélioration au modèle. La différence entre les deux
L’ajout de la variable transfusion donne une déviance
déviances est non significative (p=0,076) et le test de Wald
plus faible soit :
confirme ce résultat ; le p (0,508) associé à la variable
Tableau 3a. Récapitulatif des modèles dans les sorties d’un scarification est non significatif. Ainsi en introduisant une à
exemple de régression logistique, sur le logiciel SPSS une les variables et avec la même procédure on retiendra
le modèle le plus approprié. Sa qualité sera testée par le
Récapitulatif des modèles test de Hosmer Lemshow au seuil de 0,1.
Etape -2log- R-deux de Cox & R-deux de
vraisemblance Snell Nagelkerke Tableau 5. Sorties SPSS du modèle de régression logistique, sur
le logiciel SPSS
1 849,087a ,006 ,009
460
LA TUNISIE MEDICALE - 2020 ; Vol 98 (n°07)
La régression logistique est une technique d’analyse 1. Guesmi F, Zoghlami A, Sghaiier D, Nouira R, Dziri
statistique multi variée permettant d’identifier les facteurs C. Les facteurs alimentaires prédisposant au risque
de cancers colorectaux: étude épidémiologique
explicatifs ou prédictifs d’un phénomène de santé, en
prospective. Tunis Med 2010; 88(3):184-9.
contrôlant les variables de confusion associes à ce
phénomène. Elle est spécifique aux variables dépendantes, 2. Bouyer J. La régression logistique en épidémiologie.
qualificatives et dichotomiques, sans interférence avec le Partie II. Rev Epidemiol Sante Publique 1991;
39(2):183-96.
temps. D’autres techniques d’analyse multi variées sont
indiquées pour les variables dépendantes, quantitatives
(régression multiple) ou liées au temps (modèle de Cox).
Des nouvelles fiches méthodologiques présenteront le
mode d’emploi de ces deux approches épidémiologiques
et statistiques.
1. Vrai
2. Vrai
3. Vrai
L’essentiel à retenir
461