Académique Documents
Professionnel Documents
Culture Documents
Ricco RAKOTOMALALA
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1
PLAN
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2
La variable dépendante est nominale à K modalités
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 3
Modèle probabiliste et vraisemblance
La distribution multinomiale
π k (ω ) = P[Y (ω ) = yk / X (ω )]
Avec toujours la
contrainte
∑π
k
k (ω ) = 1
L = ∏ [π 1 (ω )] 1 × L × [π K (ω )] K
y (ω ) y (ω ) avec
ω yk (ω ) = 1ssi Y (ω ) = yk
C’est bien une généralisation du modèle binomial
Stratégie de modélisation
On va modéliser (K-1) rapports de probabilités c.-à-d. Prendre une modalité comme référence
(ex. la dernière), et exprimer (K-1) LOGIT par rapport à cette référence (ex. les « non-malades » à
opposer à différentes catégories de maladies)
K −1
La dernière probabilité, appartenance à la K-ème
π K (ω ) = 1 − ∑ π k (ω )
catégorie, est déduite des autres k =1
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 4
Ré-écriture du LOGIT
Et obtention des probabilités d’appartenance
π (ω )
On écrit (K-1) équation LOGITk (ω ) = ln k = a0,k + a1,k X 1 (ω ) + L + a J ,k X J (ω )
LOGIT : π
K (ω )
e LOGITk (ω )
On en déduit les (K-1) π k (ω ) = K −1
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 5
Estimation des paramètres
Estimateur du maximum de vraisemblance
La log-vraisemblance à maximiser
LL = ∑ y1 (ω ) ln π 1 (ω ) + L + y K (ω ) ln π K (ω )
ω
[g ] = ∑ x (ω ) × [y (ω ) − π
Vecteur gradient
(K-1)*(J+1) x 1
G = M
G k, j j k k (ω )]
K −1 ω
Matrice hessienne
H11
H1, K −1
[ ]
H ij = ∑ π i (ω ) × δ ij (ω ) − π j (ω ) × x(ω ) x' (ω )
H = O ω
(K-1)*(J+1) x (K-1)*(J+1)
H K −1, K −1
avec x(ω ) = (1, X 1 (ω ),K , X J (ω ) )
1, si i = j
et
δ ij (ω ) =
Ricco Rakotomalala 0, si i ≠ j
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 6
Un exemple
Choix Marque = f (sexe : femme, age) – 735 observations
Marque = {Petit prix [1], Enseigne [2], Référence du marché [3]}
Les femmes ont moins tendance à faire confiance à la Plus l’âge augmente, moins la personne fait le choix de la
marque petit prix (par rapport à la référence) marque petit prix (par rapport à la référence)
e −1.75
Probabilités d’appartenance π1 = = 0.08
1 + [e −1.75 + e −0.11 ]
π 3 = 1 − (0.08 + 0.43) = 0.49
−0.11
e
π2 = = 0.43
1 + [e −1.75 + e −0.11 ]
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7
Calculer les LOGIT
Autres que par rapport à la référence
πi
πi πK
LOGIT i , j = ln = ln
πj πj
Comparer un groupe à un autre
πK
c.-à-d. calculer
π πj
= ln i − ln = LOGIT i − LOGIT j
πK πK
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8
Évaluation globale de la régression
Au delà des pseudo-R² et Matrice de confusion - Test du rapport de vraisemblance
Principe, toujours le même, comparer le modèle avec le modèle trivial composé de la seule
constante (dans chaque équation LOGIT) nk
aˆ 0 ,k = ln
nK
= − 2 × LL ( 0 ) − [− 2 LL ( M ) ]
L (0)
Statistique du test LR = − 2 ln
L(M )
Cr iter ion
Model Fit Statis tics
Inter cept Model
p − value < 0 .0001
AIC 1595.792 1417.941
SC 1604.991 1445.541 Les variables prédictives emmènent significativement de
-2LL 1591.792 1405.941 l’information dans l’explication des valeurs prises par la variable
Model Chi² tes t (LR)
dépendante.
Chi-2 185.8502
d.f. 4
P(> Chi-2) 0.0000
R²-like
McFadden's R² 0.1168 Pseudo-R² :
Cox and Snell's R² 0.2234 =0 modèle inutile
Nagelker ke's R² 0.2524
=1 modèle parfait
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9
Évaluation individuelle des coefficients (dans chaque LOGIT)
Test de Wald
Tester dans une équation LOGIT : le coefficient est H 0 : a j , k = 0
significativement différent de 0 ? H 1 : a j , k ≠ 0
2
aˆ j , k La matrice de Variance-covariance, inverse
=
Statistique du test de Wald
W j ,k de la matrice Hessienne, fournit les
Elle suit une loi du KHI-2 à 1 d.d.l σˆ aˆ
j ,k estimations des écarts type.
Σˆ = H −1 AIntgee rc.1 e pt .2
femme ,1 -0.1284 0.0008 0.0039 -0.0485 0.0005 0.0014
1.6579 -0.0265 -0.0485 2.2295 -0.0396 -0.0653
− 0.466
2
F e m m e .2 -0.0347 0.0260 0.0005 -0.0396 0.0386 0.0004
W femme ,1 = = 4.247 A ge .2 -0.0480 0.0003 0.0014 -0.0653 0.0004 0.0019
Tester : la variable joue un rôle dans H 0 : ∀ k , a j , k = 0 Le coefficient de la variable j est-il égal à zéro
le problème traité ?
H 1 : ∃k , a j , k ≠ 0 dans toutes les équations ?
−1
Statistique du test de Wald, elle suit une
loi du KHI-2 à (K-1) d.d.l
W j = aˆ ' j Σˆ j aˆ j ≅ χ 2 ( K − 1)
aˆ j ,1
Σ̂ j
avec
aˆ j , 2 et Est la partie de la matrice de variance co-variance
aˆ j =
M relative au coefficient de la variable Xj
aˆ
j , K −1 ( K −1)×1
− 0.466
INV- - Va r.Co va r In t e rce p t .1 F e m m e .1 Ag e .1 In t e rce p t .2 F e m m e .2 Ag e .2
In t e rce p t .1 4.2355 -0.0572 -0.1284 1.6579 -0.0347 -0.0480
aˆ femme =
F e m m e .1
Ag e .1
-0.0572
-0.1284
0.0511
0.0008
0.0008
0.0039
-0.0265
-0.0485
0.0260
0.0005
0.0003
0.0014 + 0 . 058
In t e rce p t .2 1.6579 -0.0265 -0.0485 2.2295 -0.0396 -0.0653
F e m m e .2 -0.0347 0.0260 0.0005 -0.0396 0.0386 0.0004
Ag e .2 -0.0480 0.0003 0.0014 -0.0653 0.0004 0.0019
0.0511 0.0260
Σˆ femme = 29.75 − 20.03
Σˆ −1 femme = W femme = 7.6704
0.0260 0.0386 − 20.03 39.41
Avec un χ²(2) p-value = 0.0216
À 5%, la variable est globalement
significative, on doit la conserver.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 11
Interprétation des coefficients
Odds-ratio – Marque = f(femme)
Odds(Référence)
M__PetitPrix 0.804196 1.179487
M_Enseigne 1.454545 1.269231
Odds-Ratio Femme
OR j = e
aˆ j
Odds-Ratio (Référence) M_PetitPrix 0.68182
M__PetitPrix 0.681818 M_Enseigne 1.14601
M_Enseigne 1.146006
Pour les autres types de variables (nominale à + de 2 catégories, ordinale, continue), les interprétations vues pour la
rég.logistique binaire restent valables, mais toujours par rapport à la modalité de référence.
Remarque : L’exponentielle des constantes des régression de la régression s’interprètent comme des ODDS (ex. Pour
la modalité « Petit prix » EXP(0.16508) = 1.179487 c.-à-d. chez les hommes [femme = 0], on a 1.17 fois plus de
chances de choisir la marque petit prix que la marque de référence).
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 12
La variable dépendante est ordinale à K modalités
Plus que la prédiction, c’est l’interprétation des coefficients qui importe
LOGITS adjacents
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 13
Définition des LOGITS adjacents
Principe :
Calculer le LOGIT du passage d’une catégorie à l’autre
(K-1) équations LOGIT sont calculés (K-1) x (J+1) paramètres à estimer
Cette écriture peut être vue comme une ré-interprétation du modèle multinomial !!!
π 2 (ω )
ln = − LOGIT1 (ω ) On peut utiliser les résultats du modèle
1 π ( ω ) multinomial pour estimer les paramètres.
π (ω )
ln 3 = − LOGIT2 (ω ) − LOGIT1 (ω ) Les évaluations et les tests de significativité
1π ( ω ) sont les mêmes.
L
π (ω ) Voyons ce qu’il en est pour
ln K = − LOGITK −1 (ω ) − L − LOGIT2 (ω ) − LOGIT1 (ω ) l’interprétation des coefficients.
π 1 (ω )
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 14
Un exemple - 2 LL( 0 ) 74.647
Qualité du vin = f (soleil,pluie) – Données centrées réduites - 2 LL( M ) 33.635 Modèle
LR 41.012 globalement
d .f . 4 significatif
p - va lu e 0.0000
Coefficients des LOGITS
Sa n s co n t ra in t e s
b a d = > m e d iu m m e d iu m = > g o o d
Coef. Std.Er r Wald p-value Coef. Std.Er r Wald p-value
Inter cept 1.655 - - - -1.706 - - -
s oleil 4.051 1.982 4.178 0.0409 2.478 1.128 4.827 0.0280
pluie -1.702 1.038 2.689 0.1010 -1.561 1.024 2.327 0.1272
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 15
LOGITS adjacents à coefficients constants
Réduire l’espace des solutions pour une autre (meilleure ?) interprétation des résultats
Modèle globalement
significatif Coefficients des LOGITS
- 2 LL( 0 ) 74.647 Ave c co n t ra in t e
- 2 LL( M ) 34.252 Coef. Std.Er r Wald p-value
Inter cept (bad = > m edium ) 1.287 - - -
LR 40.396 Inter cept (m edium = > good) -2.042 - - -
d.f . 2 s oleil 3.035 0.981 9.568 0.0020
p- va lu e 0.0000 pluie -1.452 0.695 4.362 0.0368
Les coefficients des variables (ex. Soleil) : Lorsqu’on augmente de 1 écart type l’ensoleillement, on EXP(3.035) = 20.8 fois plus de
chances de passer dans la catégorie supérieure (que l’on soit présentement bad ou medium !!!).
Plus de contraintes Plus de stabilité : On réduit les écarts type des estimateurs, certaines variables peuvent devenir significatives (ex.
pluie : significative à 5% maintenant)
ODDS-RATIO cumulatifs
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 17
Définition des LOGITS cumulatifs
Principe : Calculer le LOGIT d’être au delà ou en deçà du niveau yk de la variable Y
LOGITk (ω ) = a0,k + a1 X 1 (ω ) + L + a J X J (ω )
• Modèle à Odds ratio cumulatifs proportionnels : très utilisé car d’excellente interprétation
• Lien sous-jacent entre les Xj et une variable latente Z (version continue de Y)
• Constantes = log-odds d’être inf. ou égal à la catégorie k lorsque X1=…=XJ=0 sorte de paliers
• Les droites LOGIT vs. Explicatives sont donc parallèles, décalées selon les constantes
• (K + J – 1) paramètres à estimer
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 18
Probabilités et vraisemblance
Calculer la probabilité de se situer en deçà d’une valeur de Y (pour un individu)
a + a X +L+ a X Vision globale c.-à-d. situer le positionnement
e 0 ,k 1 1 J J
P(Y ≤ K / X ) = 1
K −1
( ) ( )
L = ∏ ∏ P Y (ω ) ≤ k / X (ω ) ∏ P Y (ω ) = K / X (ω )
k =1 ω:Y (ω )= k ω:Y (ω )= K
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 19
Exemple des Vins
Coefficients des LOGIT
- 2 LL( 0 ) 74.647 LO GIT cu m u la t if s p ro p o rt io n n e ls
- 2 LL( M ) 34.441 Modèle Coef. Std.Er r Wald p-value
Inter cept (< = bad) -1.427 - - -
globalement
LR 40.207 Inter cept (< = m edium ) 2.322 - - -
d .f . 2 significatif s oleil -3.226 0.943 11.716 0.0006
p - va lu e 0.0000 pluie 1.567 0.730 4.603 0.0319
Les constantes : Lorsque l’on observe la valeur moyenne des explicatives (soleil = 0, pluie = 0, !!! Les variables sont centrées), on a
EXP(-1.427) = 0.24 fois plus de chances d’avoir un vin bad que meilleur que bad {medium ou good} ; et EXP(2.322) = 10.2 fois plus
de chances d’avoir un vin inf. ou égal à medium que good.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 20
Exemple des vins (suite) Coefficients des LOGIT
LO GIT cu m u la t if s p ro p o rt io n n e ls
Coef. Std.Er r Wald p-value
Inter cept (< = bad) -1.427 - - -
Comment lire ces résultats ? Inter cept (< = m edium ) 2.322 - - -
s oleil -3.226 0.943 11.716 0.0006
pluie 1.567 0.730 4.603 0.0319
Pourquoi « proportionnel » ? L’odds-ratio cumulatif, suite à une variation ∆ d’une des variables explicatives Xj, est
proportionnel à ∆ et ne dépend pas du niveau de Y. Le paramètre aj de la variable est le coefficient de proportionnalité.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 21
Exemple 2 – Hypertension
Comprendre les LOGITS cumulatifs proportionnels LOGITS cumulatifs observés
Nom br e de bpr
over
esweight
s
2.5
bpr es s 0 1 2 Total
3 11 13 37 61 2.0
2 63 28 76 167
1.5
1 88 37 46 171
Total 162 78 159 399
1.0 bpre ss < = 1
P(Y ≤ 2 / 0) 63 + 88 bpre ss < = 2
ln = ln = 2.6194 0.5
Hypothèses pour la modélisation : (1) ces courbes sont des droites ; (2) elles sont parallèles.
3.0
LR 27.520
d .f . 1
2.5
p - va lu e 0.0000
2.0
LO GIT cu m u la t if s p ro p o rt io n n e ls
Coef. Std.Er r Wald p-value 1.5
b p re ss< = 1
Inter cept (< = 1) 0.805 - - -
1.0
b p re ss< = 2
Inter cept (< = 2) 2.912 - - -
over weight -0.561 0.109 26.328 0.0000
0.5
En ligne
A. SLAVKOVIC – « STAT 504 – Analysis of discrete data »
http://www.stat.psu.edu/~jglenn/stat504/08_multilog/01_multilog_intro.htm
Très riche avec des exemples sous SAS et R (redirection sur les sites web)
Ouvrages
J.P. NAKACHE et J. CONFAIS – « Statistique Explicative Appliquée », TECHNIP,
2003.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 23