Vous êtes sur la page 1sur 20

PRATIQUE DE LA

REGRESSION LOGISTIQUE

Pierre-Louis GONZALEZ
1

Quelques recommandations concernant la


mise en uvre dune rgression logistique
On peut distinguer deux usages de tels modles : expliquer la
variance du phnomne afin de le prvoir au mieux,
ou de faon plus ambitieuse souhaiter utiliser le modle pour dgager
des processus explicatifs, des relations causales.

Les difficults lies la colinarit ou la non exognit prennent


beaucoup plus dimportance dans cette optique.

1 Variables explicatives , colonnes explicatives


Variables explicatives:

Les variables quantitatives sont reprsentes chacune par une colonne


de donnes.

Les variables qualitatives sont elles reprsentes par plusieurs colonnes:


Ainsi la CSP dun individu est caractrise par plusieurs colonnes
explicatives : tre cadre suprieur , tre agriculteur

Le fait de retenir ou non une variable explicative doit tre rgl laide
de tests prenant en compte lensemble des colonnes explicatives la
dfinissant. Il sera en particulier dlicat dutiliser les procdures pas
pas proposes par les logiciels si lon a dfini soi mme les indicatrices
des modalits dune variable qualitative. En revanche lutilisation de
linstruction Class dans la procdure LOGISTIC de SAS permet de
rsoudre correctement ce problme.
3

2 Reprsentation dune variable explicative

Dans le cas dune variable quantitative, diverses reprsentations sont


possibles suivant que lon souhaite ou non la faire intervenir de faon
linaire dans le modle. Sil est clair quune relation non linaire existe
avec la variable de rponse ( lge dun automobiliste nexplique pas
de faon linaire ses capacits de bon conducteur pour un assureur) on
procde un dcoupage en classes

Dans le cas dune variable qualitative, on introduit autant de colonnes


indicatrices quil y a de modalits. Il est toujours possible en fonction
danalyses pralables ou en fonction des rsultats dune premire
modlisation de regrouper certaines modalits. Les colonnes
introduites pour reprsenter une variable qualitative, ne sont pas
indpendantes puisque leur somme vaut 1 quel que soit lindividu i.

Le remde consiste imposer une contrainte sur les coefficients


associs aux modalits, par exemple la somme des coefficients est
gale 0. (Cest loption par dfaut de la procdure LOGISTIC)
On peut aussi contraindre une des modalits avoir un coefficient gal
0. On considre alors quelle reprsente une situation de rfrence,
par rapport laquelle on mesure des dviations, des diffrences.
(Option PARAM=GLM dans la procdure LOGISTIC)

Mathmatiquement, le choix de cette situation de rfrence na


gnralement que peu dimportance. Un changement a pour effets une
translation des coefficients ( le profil quils dessinent reste inchang) et
une modification des carts-types des estimateurs. Bien videmment
le nombre de coefficients significativement diffrents de zro peut
changer. Ceci montre clairement que pour juger de lapport dune
variable explicative qualitative on ne peut pas utiliser le nombre de
coefficients significativement diffrents de zro.
5

Comme en analyse de la variance, on ne peut se contenter de


modles purement additifs.

Considrons par exemple une tude concernant le fait de faire de la


couture ( variable de rponse Y ). Les variables explicatives dont on
dispose sont au nombre de deux : le sexe et lge dcoup en 3
classes : moins de 40 ans, 40 60 ans et plus de 60 ans.
Si lon crit le modle sous la forme :

Y = 0 + 1 Ifemme + 2 Ige<40 + 3 Ige>60 +


Cela revient supposer que lon a des effets additifs.

Or on sait que les hommes font trs rarement de la couture, quel que
soit leur ge.
Ltude est donc ralisable en modlisant linteraction entre lge
et le sexe laide du modle dfini par :

Y = 0 + 1 Ige<40 Ihomme + 2 Ige>60 Ihomme


+ 3 Ige<40 Ifemme + 4 Ige40-60 Ifemme + 5 Ige>60 Ifemme +

3 Problmes de pondration

Quelle que soit ltude considre, se pose un problme concernant la


pondration des observations. Deux questions sont envisager :

1. Que doit-on faire si une des modalits de la variable de rponse


est sur ou sous-reprsente dans lchantillon dont on dispose ?

2. Que doit on faire si certaines modalits des variables explicatives


sont sur ou sous-reprsentes dans lchantillon dont on dispose ?

Une proprit mathmatique du modle logit permet de rpondre la


premire question :

Le modle logit ( mais pas le modle probit ) possde la proprit


que les estimateurs des paramtres de pente (cest dire, des
paramtres relatifs aux variables explicatives) sont invariants
une sur-reprsentation des individus ayant la caractristique
dfinie par la variable de rponse. Seule la constante du modle est
affecte par la sur-reprsentation .

On rencontre souvent ce phnomne dans les tudes mdicales.


Lorsque lon sintresse une maladie rare, on travaille en gnral
avec un fort sur-chantillonnage des sujets malades.

La proprit cite indique donc que si le modle logistique est vrai


dans la population, peu importe que lon sur-reprsente dans
lchantillon lune des modalits de la variable de rponse.
9

Il est par contre beaucoup plus difficile de rpondre la deuxime


question. En effet les estimateurs du maximum de vraisemblance
pondrs et non pondrs sont diffrents car la vraisemblance
dpend des effectifs des cases.

Rappelons enfin quil est toujours prfrable dutiliser des


pondrations normalises. Ainsi les rsultats obtenus concernant les
tests sont utilisables.

10

4 Le problme de la non convergence

Ceci se produit chaque fois que pour une strate aucun individu, ou tous
les individus sont concerns par la pratique tudie. Une analyse
pralable consistant croiser les deux modalits de la variable de
rponse avec toutes les modalits des variables explicatives permet
de dtecter une telle situation.

On dispose alors de deux possibilits pour remdier ce problme :


- soit exclure la sous-population concerne. On travaille sur un souschantillon.
- soit regrouper cette sous-population avec une strate voisine, de sorte
que la frquence de la pratique cesse dtre nulle ou gale 100%. On
conserve alors lchantillon complet.

11

On peut nanmoins aprs avoir rsolu les problmes de non


convergence disposer destimations fragiles.

Cest le cas lorsque lune des modalits de la variable de rponse est


trs peu reprsente dans certaines des modalits des variables
explicatives.

Ceci se dtecte pralablement selon la mthode dj expose et au


niveau du modle par la prsence dcarts-types des estimateurs trs
levs.

12

Autres cas de non convergence

sparation complte des deux groupes : lestimateur au sens du


maximum de vraisemblance nexiste pas. Il existe un vecteur de
pseudo-estimations qui affecte correctement tous les individus leur
groupe. La configuration des donnes conduit des estimations
infinies, sans unicit de lestimateur. Lors des itrations, la probabilit
prvue pour chaque individu dappartenir son groupe rel tend

rapidement vers 1 et le log de la vraisemblance tend vers 0.

13

Sparation quasi-complte des deux groupes :


Comme prcdemment, lestimateur au sens du maximum de
vraisemblance nexiste pas. Il existe un vecteur de pseudo-estimations
qui affecte correctement la plupart des individus leur groupe. La
configuration des donnes conduit aussi des estimations infinies sans
unicit de lestimateur. Par contre, lors des itrations le log de la
vraisemblance ne diminue pas et ne tend pas vers 0 comme dans le cas
de la sparation complte.

Notons que des cas de sparation complte ou quasi-complte risquent


de se rencontrer dans le cas de petits chantillons.

Remarquons que dans les deux cas particuliers voqus, lanalyse


discriminante est performante.
14

Plot of glufast*patient.

F
a
s
t
i
n
g
P
l
a
s
m
a
G
l
u
c
o
s
e

Symbol is value of grp.

350
0

0
0

300
0
0

0
0

0
250

0
0
0

200
0

0
0

150
0
00

0
0

0
0

000

1
11 1
1
11

1
1
1
1
111 1
11
100
1
11
1
111 1111
1 1
1
1
1 111
1

11
11 11111
1
1111 1 1
11 11 111 1
111 11

11 1 1 11
1
1
111 111 1 1 1 1
1
1

1
11
1 1
1
1
1
1

1
1

50

0
20
40
60
80
100
120
140
160

patient

15

Sparation complte des donnes

The LOGISTIC Procedure


Model Information
Data Set
Response Variable
Number of Response Levels
Number of Observations
Link Function
Optimization Technique

WORK.DIABET3
grp
2
145
Logit
Fisher's scoring

Response Profile
Ordered
Value

grp

Total
Frequency

1
2

0
1

33
112

Model Convergence Status


Complete separation of data points detected.
WARNING: The maximum likelihood estimate does not exist.
WARNING: The LOGISTIC procedure continues in spite of the above warning. Results shown are
based on the last maximum likelihood iteration. Validity of the model fit is
questionable.

16

Rfrences bibliographiques

Agresti, A., An Introduction to Categorical Data Analysis, Wiley,


New York, 1996.

Agresti, A.,Categorical Data Analysis, Wiley, New York, 1990.

Andersen E.B., The Statistical Analysis of Categorical Data, Springer


verlag, Berlin, 1991.

Chap, T.L., Applied Categorical Data Analysis, Wiley, New York,


1998.

Droesbeke J.-J., Lejeune M., Saporta G., diteurs, Modles


statistiques pour donnes qualitatives, Technip, Paris 2005

17

Fahrmeir, L., & Tutz, G., Multivariate Statistical Modeling Based on


Generalized Linear Models, Springer verlag, New York, 1994

Gourieroux, C., Economtrie des Variables Qualitatives, Economica,


Paris 1989

Hosmer, D., Lemeshow, S., Applied logistic regression, second


edition, Wiley, New York 2000

Jobson, J.D., Applied Multivariate Data Analysis ; Volume II :


Categorical and Multivariate Methods, Springer verlag, New York,
1992

Leblanc, D., Lollivier, S., Marpsat, M. ,& Verger, D., LEconomtrie


et ltude des comportements, Srie des documents de travail
Mthodologie statistique N 0001, INSEE, Paris, 2000.

Kleinbaum, D.G., Logistic Regression : A Self-Learning text,


Springer Verlag, New York, 1994.
18

Kleinbaum, D.G., Kupper L.L., Keith, E.M., & Nizam, A., Applied
Regression Analysis and Other Multivariable Methods, Duxbury
Press, Pacific Grove, CA, 1998

Lebart, L., Morineau A., & Piron M., Statistique exploratoire


multidimensionnelle, Dunod, Paris, 1995

Lloyd, C.J., Statistical Analysis of Categorical Data, Wiley, New


York, 1999.

Nakache J.P., Confais J., Statistique explicative applique, Dunod


Paris 2003

Santner, T.J., & Duffy, D.E., The Statistical Analysis of Discrete


Data, Springer verlag, New York, 1989

SAS, Logistic Regression Examples Using the SAS System, SAS


Institute Inc, Cary, N.C., 1995
19

Stokes, M.E., Davis, C.S., & Koch, G.G., Categorical Data Analysis
using the SAS System, SAS Institute Inc, Cary, NC, 2000.

Tenenhaus, M., La rgression logistique, MAD numro3 ,p.21 39,


1992

Thomas A., conomtrie des variables qualitatives, Dunod Paris 2000

Tuffery, S., Data mining et statistique dcisionnelle Technip Paris


2010

20