Académique Documents
Professionnel Documents
Culture Documents
Ricco RAKOTOMALALA
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1
PLAN
1. Fondements probabilistes, MMV et Estimateurs
2. Évaluation « empirique »
3. Évaluation « statistique »
4. Interprétation des coefficients
5. Sélection automatique de variables
6. Quelques commentaires et curiosités
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 2
Principe de la maximisation de la vraisemblance
Estimation des paramètres
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 3
Théorème de Bayes
Probabilités conditionnelles – On se place dans le cadre binaire Y {+, -}
𝑃(𝑌 = 𝑦𝑘 ) × 𝑃(𝑋/𝑌 = 𝑦𝑘 )
𝑃 𝑌 = 𝑦𝑘 /𝑋 =
𝑃(𝑋)
Estimer la probabilité
conditionnelle P(Y/X) 𝑃(𝑌 = 𝑦𝑘 ) × 𝑃(𝑋/𝑌 = 𝑦𝑘)
=
σ𝐾
𝑙=1 𝑃(𝑌 = 𝑦𝑙 ) × 𝑃(𝑋/𝑌 = 𝑦𝑙 )
P( X / Y )
ln b0 b1 X 1 bJ X J
P ( X / Y )
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 5
Le modèle LOGIT
Une autre écriture du rapport de probabilité
1 - (X) = P(Y= - / X)
(X ) Puisqu’on est dans un cadre binaire
ln a0 a1 X 1 aJ X J
1 ( X )
e a0 a1 X1 aJ X J
(X ) a0 a1 X 1 a J X J
C’est la fonction de répartition de la loi
1 e
Logistique
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 6
La fonction logistique
Quelques éléments de lecture
0.7
• C(X) = a0+a1.X1+…+aJ.XJ varie de –oo à +oo
0.6 • 0 (X) 1, c’est une probabilité !!!
Pi(X)
0.5
0.4
0.3
A propos de la règle d’affectation
0.2
Remarques :
• C(X) et (X) permettent de classer les individus selon leur propension à être +
• Sauf que (X) est une « vraie » probabilité
• D’autres fonctions cumulatives pour transformer C(X). Ex. la loi normale : modèle PROBIT
• Fonction de transformation non-linéaire : on parle de régression non-linéaire dans la littérature
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 7
Équivalence entre les approches
(X )
ln a0 a1 X 1 ... a J X J
1 ( X )
P() P( X / )
ln
P ( ) P ( X / )
P() P( X / )
ln ln P ( X / )
P ( )
P()
ln b0 b1 X 1 ... bJ X J
P ( )
Les cas où la régression logistique est inopérante sont mieux circonscrites : ce sont les cas où les
hypothèses de distribution ne sont absolument crédibles au regard des données (ex. distribution
multimodales)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 8
Données exemples pour ce support
Détection d’une maladie cardiaque
a ge t a u x_m a x a n g in e co e u r
50 126 1 pr es ence
49 126 0 pr es ence
46 144 0 pr es ence
49 139 0 pr es ence
62 154 1 pr es ence
35 156 1 pr es ence
67 160 0 abs ence
65 140 0 abs ence
47 143 0 abs ence
58 165 0 abs ence
57 163 1 abs ence
59 145 0 abs ence
44 175 0 abs ence
41 153 0 abs ence
54 152 0 abs ence
52 169 0 abs ence
57 168 1 abs ence
50 158 0 abs ence
44 170 0 abs ence
49 171 0 abs ence
Y : (+ = présence, - = absence)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 9
Estimation des paramètres est notre échantillon
Pourquoi pas les MCO ? est une observation
Card()=n
1, si y( )
z ( )
Dans un cas Y binaire (Positifs vs.
0, si y( )
Négatifs), nous pouvons coder
endogène exogènes
On devrait donc pouvoir mettre en place une régression qui permet d’estimer directement la
probabilité d’appartenance P(Y=+) ???
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 10
Remarques sur la notation
Quelques précisions sur les notations et les expressions
( X ( ))
ln a0 a1 X 1 ( ) ... aJ X J ( ) est le LOGIT d’un individu
1 ( X ( ))
X 0 ( ) 1
On veut estimer à partir des n
observations
aˆ ' (aˆ0 , aˆ1 ,, aˆ J )
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 11
Estimation des paramètres
Définir la vraisemblance
Le modèle binomial
(1) Parce que Y est binaire {+, -} ou Y {1, 0} pour simplifier
(2) Si Y était d’une autre nature, on utiliserait d’autres modèles (ex. Poisson, Multinomial, …)
()Y ( ) (1 ())1Y ( )
Pour un individu , on modélise la probabilité
P(Y/X) avec le modèle binomial
Y() = 1 P(Y=1/X) =
Y() = 0 P(Y=0/X) = 1-
L Y (1 )1Y
La vraisemblance (LIKELIHOOD) pour un Interprétation ?
échantillon (les observations sont i.i.d.) Valeur max. ?
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 12
Estimation des paramètres
Méthode du maximum de vraisemblance
LL Y ln( ) 1 Y ln(1 )
Principe de la maximisation de la vraisemblance :
produire les paramètres de manière à maximiser la
quantité
Remarque : On manipule souvent la quantité [–2LL] que l’on appelle DEVIANCE (cf.
analogie avec la SCR de la régression)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 13
Un exemple sous EXCEL
a0 a1 a2 a3
14.494 -0.126 -0.064 1.779 â
a ge t a u x_m a x a n g in e co e u r cœ u r C( X) π LL
50 126 1 pr es ence 1 1.982 0.879 -0.129
49 126 0 pr es ence 1 0.329 0.582 -0.542
46 144 0 pr es ence 1 -0.438 0.392 -0.936
49 139 0 pr es ence 1 -0.497 0.378 -0.972
62 154 1 pr es ence 1 -1.305 0.213 -1.545
35 156 1 pr es ence 1 1.960 0.877 -0.132
67 160 0 abs ence 0 -4.093 0.016 -0.017
65 140 0 abs ence 0 -2.571 0.071 -0.074 LL Y ln( ) 1 Y ln(1 )
47 143 0 abs ence 0 -0.500 0.378 -0.474
58 165 0 abs ence 0 -3.280 0.036 -0.037
57 115 1 abs ence 0 1.802 0.858 -1.955
59 145 0 abs ence 0 -2.135 0.106 -0.112
44 175 0 abs ence 0 -2.157 0.104 -0.109
41 153 0 abs ence 0 -0.382 0.406 -0.520
54 152 0 abs ence 0 -1.952 0.124 -0.133
52 169 0 abs ence 0 -2.781 0.058 -0.060
57 168 1 abs ence 0 -1.566 0.173 -0.190
50 158 0 abs ence 0 -1.830 0.138 -0.149 Valeur de –2LL obtenue par
44 170 0 abs ence 0 -1.839 0.137 -0.147
49 171 0 abs ence 0 -2.531 0.074 -0.077
minimisation avec le
- 2 LL 16.618 SOLVEUR
eC
C a0 a1 X 1 a2 X 2 a3 X 3
1 eC
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 14
Estimation en pratique – Méthode de Newton Raphson
Il n’y a pas de méthode directe pour optimiser L
Passer par des méthodes numériques : la méthode de Newton-Raphson est la plus utilisée
1
L 2
L
Solutions à l’étape i et (i+1) a i 1
a
i
a.a' a
Vecteur des dérivées partielles
premières
Matrice des dérivées partielles secondes Vecteur gradient – dim = J+1
Matrice hessienne – dim = (J+1)x(J+1))
L
y( ) ( ) x j ( )
Son inverse est la matrice de variance covariance des coefficients
a j
H ( j1 , j2 ) x j1 ( ) x j2 ( ) ( ) [1 ( )] Dont toutes les composantes sont égales à 0
lorsqu’on a trouvé la solution.
• Règle d’arrêt : nombre d’itérations max., ou décroissante « trop faible » de L, ou écart faible entre les deux
estimations successives â
• D’un logiciel à l’autre, les résultats peuvent être différents (précision des calculs, choix de l’algorithme
d’optimisation, règle d’arrêt, etc.)
• Beaucoup de calculs complexes, donc risque d’erreur !!!
• Lorsque la discrimination est parfaite, la matrice hessienne n’est plus inversible : le logiciel « plante » !!!
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 15
Bilan global de la régression basé sur les prédictions et la déviance
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 16
Première évaluation – La matrice de Commune à toutes les techniques supervisées,
permet les comparaisons entre méthodes (ex.
confusion + Mesures d’évaluation
Reg. Logistique vs. Arbre de décision, etc.)
a0 a1 a2 a3
14.494 -0.126 -0.064 1.779
a g e t a u x_m a x a n g in e co e u r cœ u r C( X) ? LL Pré d ict io n
50 126 1 pr es ence 1 1.98 0.88 -0.13 p re se n ce
49 126 0 pr es ence 1 0.33 0.58 -0.54 p re se n ce
46 144 0 pr es ence 1 -0.44 0.39 -0.94 a b se n ce Nombre dePrédiction
coeur
49 139 0 pr es ence 1 -0.50 0.38 -0.97 a b se n ce coeur presence absence Total
62 154 1 pr es ence 1 -1.30 0.21 -1.54 a b se n ce presence 3 3 6
35 156 1 pr es ence 1 1.96 0.88 -0.13 p re se n ce absence 1 13 14
67 160 0 abs ence 0 -4.09 0.02 -0.02 a b se n ce Total 4 16 20
65 140 0 abs ence 0 -2.57 0.07 -0.07 a b se n ce
47 143 0 abs ence 0 -0.50 0.38 -0.47 a b se n ce Taux d'er r eur 0.20
58 165 0 abs ence 0 -3.28 0.04 -0.04 a b se n ce Sens ibilité 0.50
57 115 1 abs ence 0 1.80 0.86 -1.95 p re se n ce Spécificité 0.93
59 145 0 abs ence 0 -2.13 0.11 -0.11 a b se n ce Pr écis ion 0.75
44 175 0 abs ence 0 -2.16 0.10 -0.11 a b se n ce
41 153 0 abs ence 0 -0.38 0.41 -0.52 a b se n ce
54 152 0 abs ence 0 -1.95 0.12 -0.13 a b se n ce
52 169 0 abs ence 0 -2.78 0.06 -0.06 a b se n ce
57 168 1 abs ence 0 -1.57 0.17 -0.19 a b se n ce
50 158 0 abs ence 0 -1.83 0.14 -0.15 a b se n ce
44 170 0 abs ence 0 -1.84 0.14 -0.15 a b se n ce
49 171 0 abs ence 0 -2.53 0.07 -0.08 a b se n ce
Mieux vaut réaliser cette évaluation sur un fichier test, n’ayant pas participé à la construction du
modèle : les indicateurs sont non-biaisés
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 17
Deuxième évaluation – Les pseudo-R²
Modèle de référence : le modèle initial
Objectif : Produire des indicateurs similaires au R², coefficient de détermination de la régression linéaire.
Comment ? Comparer le modèle avec le modèle initial (trivial) constitué de la seule constante.
Estimation
Modèle trivial : on n’utilise pas les pˆ n
X pour prédire Y aˆ0 ln ln
1 pˆ n
P(Y / X ) P(Y ) Log-vraisemblance
LOGIT ( ) ln a0 LL(0) Y ( ) ln( pˆ ) 1 Y ( ) ln(1 pˆ )
1
pˆ
n ln(1 pˆ ) n ln
1 pˆ
Estimation « classique »
a0 a1 a2 a3
-0.847 0.000 0.000 0.000
a ge t a u x_m a x a n g in e co e u r cœ u r C( X) π LL
50 126 1 pr es ence 1 -0.847 0.300 -1.204
49
46
126
144
0
0
pr es ence
pr es ence
1
1
-0.847
-0.847
0.300
0.300
-1.204
-1.204
Estimation « directe »
49 139 0 pr es ence 1 -0.847 0.300 -1.204
62 154 1 pr es ence 1 -0.847 0.300 -1.204
6
35 156 1 pr es ence 1 -0.847 0.300 -1.204 aˆ0 ln 0.847
67 160 0 abs ence 0 -0.847 0.300 -0.357 14
65 140 0 abs ence 0 -0.847 0.300 -0.357
47 143 0 abs ence 0 -0.847 0.300 -0.357 0.3
2 LL(0) 2 20 ln(1 0.3) 6 ln( ) 24.435
1 0.3
58 165 0 abs ence 0 -0.847 0.300 -0.357
57 115 1 abs ence 0 -0.847 0.300 -0.357
59 145 0 abs ence 0 -0.847 0.300 -0.357
44 175 0 abs ence 0 -0.847 0.300 -0.357
41 153 0 abs ence 0 -0.847 0.300 -0.357
54 152 0 abs ence 0 -0.847 0.300 -0.357
52 169 0 abs ence 0 -0.847 0.300 -0.357
57 168 1 abs ence 0 -0.847 0.300 -0.357
50 158 0 abs ence 0 -0.847 0.300 -0.357
44 170 0 abs ence 0 -0.847 0.300 -0.357
49 171 0 abs ence 0 -0.847 0.300 -0.357
- 2 LL 24.435
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 18
Deuxième évaluation – Les pseudo-R²
Quelques indicateurs
2
Min = 0
L ( 0) n
2
2
R Min = 0
Nagelkerke’s R² RN2 CS
2 Max = 1
max[ RCS ]
LL(0) -12.21729
L(0) 4.94E-06
LL(a) -8.308844
Prédiction de maladie L(a) 0.000246
cardiaque
Plus on s’écarte de 0, mieux c’est. Mais on ne sait
R²m f 0.319911 pas trop quoi conclure, c’est « suffisamment »
R²cs 0.323514 bien ou pas ?
R²n 0.458704
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 19
Bilan basé sur la qualité des scores fournis par la régression
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 20
Evaluation des scores
Adéquation entre « scores » fournis par le modèle et « scores » observés dans l’échantillon
Objectif du test de
conformité
Comment ?
Organiser les données par paquets selon les scores,
comparer dans chaque groupe les scores estimés (modèle)
et observés (proportion de positifs)
Note : Il est d’usage de travailler directement sur l’échantillon d’apprentissage pour ces calculs,
mais on pourrait tout aussi bien fonctionner avec un échantillon test.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 21
Diagramme de fiabilité (Reliability diagram)
Extrait de l’ouvrage « Pratique de la régression logistique » (section 2.2)
N = 100 observations
Pour chaque individu , on connait sa classe Y() (1 ou 0)
Et on a calculé son score () à partir du modèle
Diagramme de fiabilité
1.0
0.9
0.8
Proportion des "+"
0.7
0.6
Si les points sont
0.5
alignés sur la diagonale
0.4 principale, les scores
0.3 sont de bonne qualité.
0.2
0.1
0.0
0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 22
Test de Hosmer & Lemeshow
Extrait de l’ouvrage « Pratique de la régression logistique » (section 2.3)
Exemple : Groupe 1
n1 = 10, n1(+) = 2, n1(-) = 8 = 10 – 2 Statistique (HL) = (2 – 1.1985)²/1.1985 + … +
(9-9.3864)²/9.3864 + (8 – 8.8015)²/8.8015 +
Scores1(+) = Somme(scores1) = 1.1985
… + (1 – 0.6136)²/0.6136 = 7.8291
Scores1(-) = 10 – Scores1(+) = 8.8015
Positifs Négatifs
Groupe Décile Effectif Observés Théoriques Observés Théoriques
1 0.2871 10 2 1.1985 8 8.8015
2 0.6249 10 4 5.0945 6 4.9055 Observations subdivisées en G = 10 blocs via
3 0.7344 10 6 6.7886 4 3.2114
4 0.7874 10 7 7.5886 3 2.4114
les scores (intervalles de fréquences égales :
5 0.8146 10 7 8.0422 3 1.9578 seuils = déciles), on compare par calcul la
6 0.8485 10 10 8.3373 0 1.6627 somme des scores (resp. effectifs – somme
7 0.8775 10 10 8.6720 0 1.3280
8 0.8917 10 8 8.8564 2 1.1436 des scores) et le nombre de positifs (resp.
9 0.9101 10 10 9.0357 0 0.9643 négatifs)
10 1.0000 10 9 9.3864 1 0.6136
Pour notre exemple à 5%, ²0.95(8) = 15.51 ; le modèle est cohérent avec les données.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 23
Le modèle est-il statistiquement significatif ?
Telle ou telles variables sont elles pertinentes ?
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 24
Évaluation « statistique »
S’appuyer sur le modèle probabiliste issu de la maximisation de la vraisemblance
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 25
Principe du rapport de vraisemblance
Comparer la vraisemblance des modèles emboîtés
L(modèle réduit)
LR 2 ln LR est forcément
L ( modèle complet) positif. Pourquoi ?
LR 2 ( J p)
LR suit asymptotiquement une loi du KHI-2 à (J-p) degrés de liberté.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 26
Test du rapport de vraisemblance
Évaluation globale du modèle
a0 a1 a2 a3
-0.847 0.000 0.000 0.000
a g e t a u x_m a x a n g in e co e u r cœ u r C( X) π LL
50 126 1 pr es ence 1 -0.847 0.300 -1.204
49 126 0 pr es ence 1 -0.847 0.300 -1.204
46 144 0 pr es ence 1 -0.847 0.300 -1.204
49 139 0 pr es ence 1 -0.847 0.300 -1.204
62 154 1 pr es ence 1 -0.847 0.300 -1.204 (A) : -2 LL(0) 24.4346
35 156 1 pr es ence 1 -0.847 0.300 -1.204 (B) : -2LL(age,taux,angine) 16.6177
67 160 0 abs ence 0 -0.847 0.300 -0.357 LR : (A) - (B) 7.8169
65 140 0 abs ence 0 -0.847 0.300 -0.357 d.d.l 3
47 143 0 abs ence 0 -0.847 0.300 -0.357 p-value 0.049952
58 165 0 abs ence 0 -0.847 0.300 -0.357
57 115 1 abs ence 0 -0.847 0.300 -0.357
59 145 0 abs ence 0 -0.847 0.300 -0.357
44 175 0 abs ence 0 -0.847 0.300 -0.357
41 153 0 abs ence 0 -0.847 0.300 -0.357
54 152 0 abs ence 0 -0.847 0.300 -0.357
52 169 0 abs ence 0 -0.847 0.300 -0.357
57 168 1 abs ence 0 -0.847 0.300 -0.357
50 158 0 abs ence 0 -0.847 0.300 -0.357
44 170 0 abs ence 0 -0.847 0.300 -0.357
49 171 0 abs ence 0 -0.847 0.300 -0.357
- 2 LL 24.435
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 27
Test du rapport de vraisemblance
Évaluer individuellement les variables
a0 a1 a2 a3
7.450 0.000 -0.059 1.551
age taux_m ax angine coeur cœur C(X) π LL
50 126 1 presence 1 1.618 0.834 -0.181
49 126 0 presence 1 0.066 0.517 -0.661
46 144 0 presence 1 -0.989 0.271 -1.305
49 139 0 presence 1 -0.696 0.333 -1.100
62 154 1 presence 1 -0.023 0.494 -0.705 (A) : -2 LL(taux,angine) 19.0938
35 156 1 presence 1 -0.141 0.465 -0.766 (B) : -2LL(age,taux,angine) 16.6177
67 160 0 absence 0 -1.926 0.127 -0.136 LR : (A) - (B) 2.4761
65 140 0 absence 0 -0.754 0.320 -0.385 d.d.l 1
47 143 0 absence 0 -0.930 0.283 -0.333 p-value 0.115585
58 165 0 absence 0 -2.219 0.098 -0.103
57 115 1 absence 0 2.262 0.906 -2.361
59 145 0 absence 0 -1.047 0.260 -0.301
44 175 0 absence 0 -2.805 0.057 -0.059
41 153 0 absence 0 -1.516 0.180 -0.198
54 152 0 absence 0 -1.458 0.189 -0.209
52 169 0 absence 0 -2.454 0.079 -0.082
57 168 1 absence 0 -0.844 0.301 -0.358
50 158 0 absence 0 -1.809 0.141 -0.152
44 170 0 absence 0 -2.512 0.075 -0.078
49 171 0 absence 0 -2.571 0.071 -0.074
-2LL 19.094
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 28
Test du rapport de vraisemblance
Évaluer un groupe de variables
a0 a1 a2 a3
-1.386 0.000 0.000 1.792
a g e t a u x_m a x a n g in e co e u r cœ u r C( X) π LL
50 126 1 pr es ence 1 0.405 0.600 -0.511
49 126 0 pr es ence 1 -1.386 0.200 -1.609
46 144 0 pr es ence 1 -1.386 0.200 -1.609
49 139 0 pr es ence 1 -1.386 0.200 -1.609
62 154 1 pr es ence 1 0.405 0.600 -0.511 (A) : -2 LL(angine) 21.7422
35 156 1 pr es ence 1 0.405 0.600 -0.511 (B) : -2LL(age,taux,angine) 16.6177
67 160 0 abs ence 0 -1.386 0.200 -0.223 LR : (A) - (B) 5.1245
65 140 0 abs ence 0 -1.386 0.200 -0.223 d.d.l 2
47 143 0 abs ence 0 -1.386 0.200 -0.223 p-value 0.077131
58 165 0 abs ence 0 -1.386 0.200 -0.223
57 115 1 abs ence 0 0.405 0.600 -0.916
59 145 0 abs ence 0 -1.386 0.200 -0.223
44 175 0 abs ence 0 -1.386 0.200 -0.223
41 153 0 abs ence 0 -1.386 0.200 -0.223
54 152 0 abs ence 0 -1.386 0.200 -0.223
52 169 0 abs ence 0 -1.386 0.200 -0.223
57 168 1 abs ence 0 0.405 0.600 -0.916
50 158 0 abs ence 0 -1.386 0.200 -0.223
44 170 0 abs ence 0 -1.386 0.200 -0.223
49 171 0 abs ence 0 -1.386 0.200 -0.223
- 2 LL 21.742
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 29
Tests fondés sur la normalité asymptotique des coefficients
Principe – Test de Wald
H X 'VX 2.61
130.24
386.29
130.24
6615.32
19210.78
386.29
19210.78
57708.88
0.65
34.59
94.12
(J+1)x(J+1) Matrice diagonale de taille (n x n), 0.65 34.59 94.12 0.65
in v( X'VX) Eca rt t yp e co e f .
ˆ H 1 63.2765
-0.4882
-0.2627
-0.4882
0.0088
0.0004
-0.2627
0.0004
0.0016
1.0563
-0.0413
0.0030
cons t.
age
taux_m ax
7.9547
0.0938
0.0404
1.0563 -0.0413 0.0030 2.2635 angine 1.5045
(J+1) x (J+1)
C’est la matrice de variance co-variance des
coefficients estimés. En particulier, sur la diagonale
principale, nous observons la variance des 2.2635 1.5045
coefficients
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 30
Test de Wald
Évaluer la significativité d’un groupe de « q » variables
H0 : aj = aj+1 = … = aj+q = 0
La statistique du test (Wald) suit une loi du KHI-2 à q degrés de liberté.
1
W( q ) a'( q ) ( q ) aˆ( q ) 2 (q)
ˆ
Pour rappel, dans notre exemple
Sous-vecteur des q Cœur = f(age,taux max, angine)
coefficients à évaluer
(q ) Sous-matrice des var-covar des q
coefficients à évaluer
14 .494
0.126
â
Ex. Tester a1 = a2 = 0 0.064
1.779
a 0
H 0 : 1
a2 0
SIGM A
63.2765 -0.4882 -0.2627 1.0563
0.0088 0.0004 1 114 .97 28.58
-0.4882 0.0088 0.0004 -0.0413 ( 2) ( 2)
-0.2627 0.0004 0.0016 0.0030
0.0004 0.0016 28.58 618 .40
1.0563 -0.0413 0.0030 2.2635
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 31
Test de Wald
Significativité d’une variable
H0 : aj = 0
aˆ j
2
Wj 2 (1)
ˆ j 2
Ex. Tester a1 = 0
SIGM A
63.2765 -0.4882 -0.2627 1.0563
-0.4882 0.0088 0.0004 -0.0413 (0.126 ) 2
-0.2627 0.0004 0.0016 0.0030 W1 1.7938
1.0563 -0.0413 0.0030 2.2635
0.0088
wald 1.793823
ddl 1
p-value 0.180461
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 32
Test de Wald
Significativité globale du modèle
1
W( J ) aˆ '( J ) ( J ) aˆ( J ) 2 ( J ) Généralisation du test de q variables
Inversion de la sous-matrice
Ex. Tester a1 = a2 = a3 = 0
SIGM A
126 .37 35.73 2.36
63.2765 -0.4882 -0.2627 1.0563
1
-0.4882 0.0088 0.0004 -0.0413 (J ) 35.73 622 .89 1.48
-0.2627 0.0004 0.0016 0.0030
2.36 1.48 0.49
1.0563 -0.0413 0.0030 2.2635
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 33
Bilan – Évaluation statistique
Test de Wald
-- Moins puissant c.-à-d. plus conservateur, favorise H0
-- Quand la valeur du coef. est élevée, l’estimation de l’écart-type gonfle exagérément , on élimine à tort la variable
-- Pas très bon lorsque les effectifs sont petits (comme c’est le cas ici)
+ Moins gourmand en ressources (inversion de matrice quand même)
Signif. « âge et taux max » Accep. H0 p-value = 0.0771 Accep. H0 p-value = 0.1454
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 34
Lire les résultats des logiciels - Tanagra et R
TANAGRA
Déviance du modèle
R
KHI-2 du rapport de
vraisemblance
Pseudo-R²
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 35
Ce qui fait le succès de la régression logistique
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 36
Risque relatif, odds, odds-ratio
Quelques définitions
Risque relatif
Nombre de coeur angine
Indique le surcroît de « chances »
cœur2 1 0 Total P( / 1) a /(a c)
1 3 3 6 RR d’être positif du groupe « exposé »
0 2 12 14 P( / 0) b /(b d ) par rapport au groupe « témoin »: les
personnes qui ont une angine de
Total 5 15 20
poitrine lors des efforts ont 3 fois
3/ 5
Y/X 1 0 3 plus de chances (que les autres)
1 a b a+b 3 / 15 d’avoir une maladie cardiaque.
0 c d c+d
a+c b+d n
Odds Odds-Ratio
P( / 1) a /(a c) Odds( / 1) a d
Odds( / 1) OR(1 / 0)
P( / 1) c /(a c) Odds( / 0) b c
3/ 5 3 12
1.5 6
2/5 23
Dans le groupe de personnes ayant une angine de Indique à peu près la même chose que le risque
poitrine lors des efforts, on a 1.5 fois plus de relatif : par rapport au groupe exposé, on a 6 fois plus
chances d’avoir une maladie cardiaque que de ne de chances d’être positif (que d’être négatif) dans le
pas en avoir. De la même manière, on peut définir groupe témoin.
Odds(+/0) = 3/12= 0.25
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 37
Risque relatif, Odds, Odds-Ratio
Pourquoi choisir l’Odds-ratio ?
Tirage aléatoire RR 3
cœur2 x angine 1 0 Total Souvent un vœu pieux : tirage aléatoire à
1 3 3 6 Odds(+/1) 1.5 probabilités égales dans la population.
0 2 12 14 Odds(+/0) 0.25
Échantillon aléatoire.
Total 5 15 20
OR(+) 6
Tirage retrospectif (presque) équilibré RR 1.8 Souvent pratiqué : on choisit l’effectif des
cœur2 x angine 1 0 Total positifs et des négatifs, et on échantillonne
1 3 3 6 Odds(+/1) 3 au hasard dans chaque groupe
0 1 6 7 Odds(+/0) 0.5 l’OR reste de marbre !!!
Total 5 9 13
OR(+) 6
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 38
Odds-ratio
Quel rapport avec la régression logistique ?
Tirage aléatoire
cœur2 x angine 1 0 Total
3 12
Calcul sur un tableau de 1 3 3 6
OR(1 / 0) 6
23
contingence 0 2 12 14
Total 5 15 20
Intervalle de confiance de bb(a) 1.791759 1.96 1.118 0.399 bb(OR) e 0.399 0.67
bh(a) 1.791759 1.96 1.118 3.983
l’odds-ratio (ex. à 5%)
bh(OR) e3.983 53.68
Si l’intervalle contient la valeur « 1 », cela indique que l’influence du
u0.975 facteur sur la variable dépendante n’est pas significative au niveau de
risque choisi.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 39
Odds-Ratio
OR partiel et OR des variables continues
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 40
Odds-Ratio
Aller plus loin que les Odds-ratio – Lecture en termes de différentiel de probabilités
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 41
Traitement des variables explicatives nominales On utilise un autre fichier avec
209 obs. ici.
A plus de 2 modalités
Remarque : On peut tester la significativité « Odds ratios and 95% confidence intervals
globale » de la variable en évaluant : « les 3 Attribute Coef. Low High
coefficients sont simultanément nuls ». typ_angina 8.2857 1.255 54.7047
atyp_angina 0.4213 0.1298 1.3677
asympt 11.508 4.5166 29.3213
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 43
Tenir compte des interactions
Dans le LOGIT, les effets sont initialement additifs, comment le dépasser ?
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 44
Comparer le poids relatif des variables
Coefficients non-standardisés vs. Coefficients standardisés
ˆ y
Toyota Pr evia s alon 97 1800 12.8
Volvo 960 Kom bi aut 125 1570 12.7
Moyenne 77.7143 1196.9643 9.0750 Coeff. Standar dis és à par tir de la for m ule de
Ecar t-type 32.2569 308.9928 2.2329 cor r ection (cf. Ménar d)
Poids Puis s ance Cons tante
co e f . 0.615016 0.369136 pas de cons tante !
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 45
Comparer le poids relatif des variables Cœur = f (age,taux_max)
Coefficients standardisés pour la régression logistique (1)
Attributes in the equation
Attribute Coef. Std-dev Wald Signif é.t. (attr ib.)
constant 16.254441 - - - -
age -0.12011 0.0843 2.0305 0.1542 8.1620
Cas de la régression logistique taux_max -0.074383 0.0387 3.6886 0.0548 16.6559
On veut obtenir une interprétation du type : une
augmentation de 1 é.t. de la variable X entraîne une Écart-type du LOGIT estimé
variation de m é.t. du LOGIT. (prédiction du modèle) e.t. logit 1.4851
Ecart(Logit) -0.9803 ?
Ecart ramené à l'écart-type -0.6601
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 46
Comparer le poids relatif des variables Test age
Coef. standardisés pour la rég. logistique (2)
age 40
taux-max 150
Mais constante non
Logit 0.2926 +1 é.t.
interprétable
Solution 1 : Standardisation sur les
age 48.16
explicatives seulement Sol. 1 -- Standar dis ation s ur les
taux-max 150
explicatives s eulem ent
At t rib u t e Co e f . Logit -0.6877
aˆ xstdj aˆ x j ̂ x j cons tant const. non nulle
Ecart(Logit) -0.9803
age -0.980339123
Ecart ramené à l'écart-type -0.6601
taux_m ax -1.238914506
ˆ LOGIT
1.4851
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 48
Sélection de variables dans la pratique
Beaucoup de candidats, peu d’élus (souhaitables)
Dans les études réelles, beaucoup de variables disponibles, plus ou moins pertinentes, concurrentes… Trop de variables
tue l’interprétation, il y a le danger du sur-apprentissage aussi.
Problème :
• Sélection « experte » manuelle basé sur Wald ou LR fastidieuse voire impossible
• On s’interdit de découvrir des relations auxquelles on n’a pas pensé
Solution :
• Utiliser des techniques numériques pour choisir les « meilleures » variables
• Principe du Rasoir d’Occam : à performances égales, plus un modèle sera simple, plus il sera robuste ; plus aisée sera
son interprétation également.
• Attention : Ne pas prendre pour argent comptant la solution, plutôt se servir de l’outil pour bâtir des scénarios (qu’on
présentera/discutera avec l’expert )
Travail exploratoire : combinaison de variables, construction de nouvelles variables, etc.
2 approches
1. Sélection de variables = Optimisation d’un critère
2. S’appuyer sur les outils inférentiels = Significativité des variables
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 49
Sélection par optimisation
Critère AIC (Akaïke) et BIC (Schwartz)
Constat
Plus le nombre de variables augmente, plus la déviance diminue (ou la vraisemblance augmente), même si la
variable ajoutée n’est pas pertinente
Cf. par analogie la SCR ou le R² dans la régression linéaire, le degré de liberté diminue
Solution
Contrebalancer la réduction de la déviance avec une quantité traduisant la complexité du modèle Le problème de
sélection devient un problème d’optimisation (minimisation)
Procédure
On va évaluer des successions de modèles emboîtés :
• En les ajoutant au fur et à mesure FORWARD
• En les retirant au fur et à mesure BACKWARD
• STEPWISE : En alternant FORWARD / BACKWARD c.-à-d. vérifier que chaque ajout de variable ne provoque pas
la sortie d’une autre variable
Règle d’arrêt : l’adjonction ou le retrait d’une variable n’améliore plus le critère
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 50
Sélection par optimisation heart <- read.table(file="heart_for_var_selection.txt",sep="\t",header=TRUE,dec=".")
#description des modèles
Détail sélection FORWARD sous R str_constant <- "~1"
str_full <- "~age+restbpress+max_hrate+chest_pain_asympt_1+chest_pain_atyp_angina_1+…"
#départ modele avec la seule constante + sélection forward
modele <- glm(coeur ~1, data = heart, family = binomial)
modele.forward <- stepAIC(modele,scope = list(lower = str_constant, upper = str_full),
trace = TRUE, data = heart, direction = "forward")
summary(modele.forward)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 51
Sélection par optimisation
Comparaison des solutions : FORWARD, BACKWARD, BOTH (#STEPWISE)
FORWARD BACKWARD
Bilan
La solution diffère selon le sens de la recherche (normal)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 52
Sélection basée sur des critères statistiques
Test du score et Test de Wald
Objectif
(1) Effectuer une sélection de variables s’appuyant sur des critères statistiques sans avoir à réaliser J² régressions : ce
serait le cas si on utilisait à tort et à travers le rapport de vraisemblance (LR) critique surtout sur les grandes bases
(2) Produire un résultat cohérent avec les tests classiques de significativité
(3) Avec toujours les mêmes stratégies FORWARD, BACKWARD, STEPWISE
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 53
Principe du Test du Score
L’idée de(s) la variable(s) supplémentaire(s) L
Uj y ( ) ( ) x j ( )
a j
Et on l’intègre dans le modèle si elle est significative au risque que l’on a choisi
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 54
Test du Score – Un exemple
Évaluer l’ajout de « âge » dans un modèle où il y a déjà la constante et taux max
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 56
Exemple de référence
Cœur = f (age ; taux_max)
Confusion matrix
Coeur = 1 presence absence Sum
Cœur = 0
presence 5 1 6
180
absence 1 13 14
Sum 6 14 20
170
130
120
110
34 39 44 49 54 59 64 69
Age
Nu m é ro co n st a ge t a u x_m a x
1 1 50 126
2 1 49 126
3 1 46 144
4 1 49 139
5 1 62 154 QUESTIONS
6 1 35 156
7 1 67 160
8 1 65 140 1. Quels sont les points mal modélisés ? Résidus
9 1 47 143
10 1 58 165 2. Quels sont les points qui « clochent » ? Atypiques
11 1 57 115
12
13
1
1
59
44
145
175
3. Quels sont les points qui pèsent fortement sur le résultat de la
14 1 41 153
15 1 54 152 modélisation ? Leviers
16 1 52 169
17 1 57 168 4. Quels sont les points qui, si on les enlevait, nous ferait aboutir
18 1 50 158
19 1 44 170
20 1 49 171
à un modèle totalement différent ? Influents
Moyenne glob. 52 151
Moyenne cœur = 1 49 141
Moyenne cœur = 0 53 156
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 57
Résidus de Pearson
La modélisation de Y {1 ; 0} peut s’écrire
Y ( ) ( ) ( )
E ( ) [1 ] (1 ) [ ] 0
( ) 1 ( ), avec la probabilité ( )
où V ( ) (1 )
( ) ( ), avec la probabilité 1 - ( )
2 rP 2 ()
Plus petite elle est, meilleure est l’ajustement
Statistique KHI-2 de Pearson : On verra sa distribution plus loin (cf. les covariate pattern)
4.0000
2.0000
Coeur = 1
Cœur = 0 L’écart est exagéré par la
180
Res.Pears 0.0000
probabilité prédite (5)=0.06
30 35 40 45 50 55 60 65 70
170
160 -2.0000
Taux_Max
150
-4.0000 4.0000
140 Age
130
2.0000
120
Res.Pears
110 0.0000
34 39 44 49 54 59 64 69 110 120 130 140 150 160 170 180
Age
-2.0000
-4.0000
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/
TAUX_MAX
58
Résidus Déviance
La déviance = -2 LL D 2 LL 2 y ln ˆ (1 y ) ln(1 ˆ )
2 ln(1 ˆ ) , si y 0
4.0000
2.0000
Res.Pears
0.0000
L’écart est moins exagéré, par rapport
Coeur = 1 30 35 40 45 50 55 60 65 70 au résidu de Pearson, mais reste
Cœur = 0 significatif
180
-2.0000
170
160 -4.0000
Age
Taux_Max
150
4.0000
140
130 2.0000
120
Res.Pears
110 0.0000
34 39 44 49 54 59 64 69 110 120 130 140 150 160 170 180
Age
-2.0000
-4.0000
Ricco Rakotomalala TAUX_MAX
1 J 1
On peut vérifier que h
n
h( )
n
Une règle de détection simple serait h 2 h
Détecter les points qui « décrochent », c’est mieux
Seuil 0 .3
Nu m é ro a g e t a u x_m a x co e u r PI h 0.4500
1 50 126 1 0.706 0.1914
Coeur = 1
2 49 126 1 0.730 0.1885 0.4000
Cœur = 0 3 46 144 1 0.505 0.1073
180 4 49 139 1 0.507 0.1048 0.3500
5 62 154 1 0.066 0.1121
6 35 156 1 0.610 0.3848 0.3000
170 7 67 160 0 0.024 0.0804
8 65 140 0 0.123 0.2149 0.2500
9 47 143 0 0.493 0.1000
10 58 165 0 0.048 0.0809 0.2000
160
11 57 115 0 0.701 0.3663
0.1500
12 59 145 0 0.166 0.1401
150 13 44 175 0 0.114 0.1489
0.1000
14 41 153 0 0.487 0.1908
15 54 152 0 0.177 0.0899 0.0500
140 16 52 169 0 0.072 0.0871
17 57 168 0 0.044 0.0768 0.0000
18 50 158 0 0.182 0.0855
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
130 19 44 170 0 0.158 0.1498
20 49 171 0 0.087 0.0997
120
Attention :
110
34 44 54 64 h est surestimé lorsque 0.5
A ge
h est sous-estimé lorsque 1 ou 0 (ex. =7)
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 60
Levier (2) – Mesure de l’influence globale d’une observation
hi=J+1, le point n°i détermine totalement la prédiction de tous les autres points
hi=0, le point n°i n’a aucune influence sur la prédiction des autres points
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 61
Résidus de Pearson et Déviance standardisés – Effet sur chaque observation
Principe :
Pour chaque observation
• Calculer le résidu, écart Y et Probabilité Prédite
• Sans que le point n’intervienne dans la régression c.-à-d. en donnée supplémentaire
• Sans pour autant avoir à réaliser « n » (taille de la base) régressions
• Les distributions et les seuils (+/- 2 pour un test ~5%) sont les mêmes
4.0
Coeur = 1
Cœur = 0
180
170
Résidu de Pearson Standardisé 2.0
Res.Pears.Stand
160
150
0.0
rP 30 35 40 45 50 55 60 65 70
rP.S 140
(1 h) -2.0
130
120
-4.0
110
34 44 54 64
Age
A ge
4.0 Coeur = 1
Cœur = 0
180
Résidu Déviance Standardisé 170
(à privilégier)
2.0
Res.Dev.Stand
160
rD 0.0
150
rD.S 30 35 40 45 50 55 60 65 70
(1 h)
140
-2.0 130
120
rstandard() dans R
RSTUDENT dans SPSS -4.0 110
Age 34 44 54 64
A ge
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 62
Distance de Cook – Effet global sur tous les coefficients estimés
Principe :
Comparer les coefficients estimés, avec et sans le point à évaluer
Test H0 : les coefficients sont tous identiques vs. H1 : 1 au moins est différent
Sans pour autant avoir à réaliser « n » (taille de la base) régressions
Coeur = 1
Cœur = 0 0.940
180
170 0.705
Distance de Cook
160
4 0.470
150
0.235
140
20 2 1
0.235
130
120 0.000
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
110
34 44 54 64
Num éro
A ge
Le point n°6 est correctement modélisé (cf. résidu) mais influe beaucoup sur les résultats (cf. Levier + D.Cook)
Le point n°11 est mal modélisé (résidu standardisé « limite ») et influe fortement sur les résultats (cf. Levier + D.Cook)
Le point n°5 est très mal modélisé, mais il pèse moins sur les résultats que les points 6 et 11.
Remarques :
• D peut être défini sur le résidu de Pearson (attention aux petites/grandes valeurs de )
• Certains ne normalisent pas par le nombre de paramètres (J+1) [ex. SPSS] la règle de détection est alors D 1
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 63
DFBETAS – Effet sur chaque coefficient estimé
DFBETAS
Formule utilisée dans SAS La règle de détection usuelle est
( X 'VX ) x' y ˆ
1
dfbetas() de R semble basée sur le DFBETAS j DFBETAS j
2
résidu déviance standardisé ?
( X 'VX ) j1 1 h n
Coeur = 1
Cœur = 0 Nu m é ro a ge t a u x_m a x d f b e t a s( co n st ) d f b e t a s( a g e ) d f b e t a s( t a u x)
180 1 50 126 0.242 -0.060 -0.276
2 49 126 0.242 -0.083 -0.261
170 3 46 144 0.172 -0.160 -0.093
4 49 139 0.160 -0.052 -0.155
160 5 62 154 -1.072 1.241 0.670
6 35 156 0.373 -0.680 0.007
150
7 67 160 0.040 -0.044 -0.026
8 65 140 0.115 -0.198 -0.027
140
9 47 143 -0.154 0.118 0.098
10 58 165 0.060 -0.051 -0.050
130
11 57 115 -0.666 -0.324 1.111
12 59 145 0.102 -0.158 -0.040
120
13 44 175 0.082 0.012 -0.132
14 41 153 -0.191 0.362 -0.031
110
34 44 54 64
15 54 152 0.089 -0.094 -0.068
A ge
16 52 169 0.071 -0.041 -0.075
17 57 168 0.056 -0.044 -0.050
18 50 158 0.081 -0.043 -0.095
On comprend mieux : 19 44 170 0.082 0.027 -0.146
n°6 pèse surtout sur l’âge 20 49 171 0.076 -0.028 -0.092
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 64
Mesures d’évaluation basées sur les résidus
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 65
Notion de « covariate pattern »
Quel intérêt ?
• Développer de nouvelles statistiques d’évaluation basées sur les résidus
• Détecter les groupes (covariates) présentant des caractéristiques (influences) particulières
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 66
Estimation et tableau de calcul
Pour l’exemple « Hypertension »
Pr edicted attr ibute hyper tens ion
Pos itive value high
Num ber of exam ples 399
Model Fit Statis tics
Cr iter ion Inter cept Model
AIC 546.961 519.871
SC 550.95 531.838
-2LL 544.961 513.871
Model Chi² tes t (LR)
Chi-2 31.0897
d.f. 2
P(> Chi-2) 0
R²-like
McFadden's R² 0.057 Les éléments de diagnostic qui viennent seront
Cox and Snell's R² 0.075
Nagelker ke's R² 0.1006 l’expression de la confrontation de ces deux quantités
At t rib u t e s in t h e e q u a t io n
At t rib u t e Co e f . St d - d e v W a ld Sig n if
cons tant -1.673659 - - -
s ur poids 0.583889 0.1204 23.5307 0.0000 Proportion des positifs prédits (par
alcool 0.410675 0.1332 9.5009 0.0021 Proportion des positifs
le modèle) pour chaque covariate
observés pour chaque
O d d s ra t io s a n d 9 5 % co n f id e n ce in t e rva ls pattern
covariate pattern
At t rib u t e Co e f . Lo w Hig h
s ur poids 1.793 1.4162 2.2701
alcool 1.5078 1.1613 1.9578
0.700
Le covariate n°7 détermine pour beaucoup les résultats. Dans une moindre 0.600
0.400
Cela ne veut pas dire pour autant que ces covariates soient 0.300
0.100
0.000
Ricco Rakotomalala 1 2 3 4 5 6 7 8 9
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 68
Résidus de Pearson yˆ m nm̂ m
Et covariates pattern D’autant plus grand que :
(1) La prédiction est mauvaise
ym yˆ m (2) Les effectifs sont faibles
Résidu de Pearson rm (3) La probabilité est proche de 0 ou 1
(pour les covariates) nmˆ m (1 ˆ m )
M
Si nm est assez grand, qq soit m, alors la statistique suit une loi
Statistique de Pearson
(CHI-SQUARE) 2 rm2 du KHI-2 à (M-J-1) degrés de liberté.
Attention : si prédictives continues (M#n) l’approximation par la loi du
m 1
KHI-2 n’est pas valable !!!
Contribution à la statistique
rm2 Indique la variation du KHI-2 de Pearson si on supprime la
de Pearson (carré du résidu 2
covariate « m » de la régression
1 hm
m
standardisé)
N° covar
alcool
iate s ur poids n(m ) y(m ) pp.obs (m )p p.pr ed(m ).pi y^ (m ) pi x (1 - pi) h(m ) r .pear s chi.pear s delta(chi.pear s )
1 1 1 47 16 0.340 0.336 15.8 0.223 0.481 0.057 0.003 0.006
2 1 2 27 11 0.407 0.476 12.9 0.249 0.186 -0.716 0.513 0.630
3 1 3 55 39 0.709 0.620 34.1 0.236 0.499 1.364 1.861 3.716
4 2 1 52 20 0.385 0.433 22.5 0.246 0.301 -0.708 0.502 0.718
5 2 2 25 15 0.600 0.578 14.5 0.244 0.068 0.221 0.049 0.052 Mal modélisés, encore que
6 2 3 64 41 0.641 0.711 45.5 0.206 0.365 -1.239 1.534 2.416
7 3 1 63 38 0.603 0.536 33.7 0.249 0.576 1.077 1.160 2.735
|r.pears| nettement
8 3 2 26 15 0.577 0.674 17.5 0.220 0.172 -1.056 1.114 1.346 inférieur à 2, si on les
9 3 3 40 33 0.825 0.788 31.5 0.167 0.351 0.580 0.336 0.518 enlevait, l’ajustement serait
So m m e 7 .0 7 1 1 meilleur encore
d .f 6 (diminution du KHI-2 de
p - va lu e 0 .3 1 4 3
3.716)
Une valeur de comparaison
Le KHI-2 (7.0711) n’est pas significatif (p-value = 0.3143) c.-à-d. les probas prédites ne possible serait ²(1) à 5% #
sont pas significativement différentes des probas observées le modèle prédit bien 3.84
globalement.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 69
Résidus déviance
Et covariate pattern
Résidu Déviance y n ym
d m signe( ym yˆ m ) 2 ym ln m (nm ym ) ln m
(pour les covariates)
yˆ m nm yˆ m
N° covar iate alcool s ur poids n(m ) y(m ) y^ (m ) h(m ) r .pear s r .dev dev. delta(dev)
1 1 1 47 16 15.8 0.481 0.057 0.057 0.003 0.003
2 1 2 27 11 12.9 0.186 -0.716 -0.719 0.516 0.384
3 1 3 55 39 34.1 0.499 1.364 1.390 1.932 5.587
4 2 1 52 20 22.5 0.301 -0.708 -0.712 0.507 0.473
5 2 2 25 15 14.5 0.068 0.221 0.221 0.049 0.006
6 2 3 64 41 45.5 0.365 -1.239 -1.213 1.471 3.044 Il faut vraiment se pencher
7 3 1 63 38 33.7 0.576 1.077 1.082 1.171 2.947 sur ce covariate : si on
8 3 2 26 15 17.5 0.172 -1.056 -1.033 1.068 1.372
9 3 3 40 33 31.5 0.351 0.580 0.593 0.352 0.306 l’enlevait, l’ajustement
So m m e 7 .0 6 9 0 serait nettement meilleur
d .f . 6
(diminution de la déviance
p - va lu e 0 .3 1 4 5
de 5.587)
Une valeur de comparaison
Le KHI-2 (7.0690) n’est pas significatif (p-value = 0.3145) c.-à-d. les probas prédites ne possible serait ²(1) à 5% #
sont pas significativement différentes des probas observées le modèle prédit bien 3.84
globalement.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 70
C et CBAR
Indiquer l’effet de la suppression d’une variable sur les coefficients
Principe : Indiquer l’effet de la suppression d’un covariate sur les coefficients (écart entre les vecteurs de coefficients)
• Véhicule la même idée que la distance de Cook (c’est une alternative possible)
• Disponible dans SAS (Distance de Cook est disponible dans R)
hm
Cm rm2
La statistique CBAR
1 hm
2.000
Les covariates n°3 et n°7 ont une influence importante sur les coefficients
1.500
calculés. Déjà repérés avec le levier. Le covariate n°3 se distingue d’autant
1.000
plus qu’il est (relativement) mal modélisé (cf. résidus).
0.500
On peut affiner l’analyse avec les DFBETAS : effet du covariate sur tel 0.000
1 2 3 4 5 6 7 8 9
ou tel coefficient…
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 71
DFBETAS et DFBETA
Et covariate pattern
ym yˆ m Écart absolu du coefficient estimé avec ou sans le
DFBETA
DFBETAj ,m ( X 'VX ) 1 x'm
(pour les covariates)
1 hm covariate
( X 'VX ) 1 x'm ym yˆ m
DFBETAS DFBETAS j ,m Écart normalisé par l’écart type du coefficient estimé
(pour les covariates)
( X 'VX ) 1
j
1 hm
Remarque : Lorsque les données sont (1) sur la même échelle (ex. même unités) ou (2) directement des échelles de valeurs (cf.
notre exemple) ou (3) des indicatrices, on a intérêt à utiliser directement le DFBETA on manipule souvent les covariates pattern
dans les deux dernières configurations
Comment lire ces valeurs ? Si on supprime le covariate n°7, le coefficient Estimation de aj sans le covariate « m »
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 72
DFBETA
L’exemple du covariate n°7
Sans le covariate n° 7 (les alcolos maigrichons), l’effet de l’alcool sur l’hypertension ne serait plus
significative (à 5%). On constate le rôle très important que joue ce covariate !!!
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 73
Mieux comprendre, anticiper et améliorer les performances de la
Régression Logistique
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 74
logit(Y ) a0 a1 X 1 aJ X J
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 75
Identification graphique univariée Ex. Diabète vs. BMI (Fichier PIMA)
Le graphique LOGIT vs. Variable indépendante (continue) 1
0.5
Graphique LOGIT
0
• Découper X en déciles (ou autres) 20 25 30 35 40 45
• Dans chaque intervalle, calculer la proportion de positifs -0.5
log-odds
• Construire le graphique : -1
• en abscisse, centre des intervalles
-1.5
• en ordonnée, LOGIT observé c.-à-d. LN [/(1- )]
-2
-2.5
On note une évolution par paliers, absolument pas linéaire.
Elle est néanmoins monotone. -3
bodymass
Passage aux variables discrétisées diminue le biais (bien) mais augmente la variance (pas bien)
Si évolution non linéaire + non monotone, adopter un codage disjonctif non contraint (0/1)
Le mieux est quand même de ne pas discrétiser mais d’utiliser une fonction de transformation
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 76
Test de Box-Tidwell - Identification numérique multivariée
Nombre de variables élevé Détection graphique (individuelle) impossible
S’appuyer sur une procédure statistique pour identifier, et par la suite étudier en détail, les variables
susceptibles d’intervenir de manière non-linéaire.
Principe : Pour une variable X à tester, ajouter dans la régression, en plus des autres variables, et en plus de X,
le terme d’interaction Z = X * LN(X). Si le coefficient de Z est significatif, la variable X intervient sous une forme
non linéaire (qui reste à identifier).
Remarque : Ce test détecte mal les petits écarts à la linéarité.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 77
Identification multivariée - Résidus partiels (1) Relation polynom iale
Identifier la forme appropriée d’une variable dans la régression 10 0
90
80
70
Y
50
30
20
20. 000
Dans la régression linéaire multiple : le graphique individuel (Xj,Y) n’est 15. 000
plus valable parce qu’il ne tient pas compte des autres variables On
10. 000
Rés.Partiels
5. 000
-5. 000
-10. 000
Rés.Partiels
(inspirée de la forme du nuage de points, ex. X²), recalculer l’équation de 0
0 2 4 6 8 10 12
-2
-3
ˆ j ( y yˆ ) aˆ j x j aˆ j 1 x 2j 1
-4
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 78
Identification multivariée - Résidus partiels (2)
Le cas de la régression logistique
8. 000 4. 000
6. 000 2. 000
4. 000 0. 000
30 35 40 45 50 55 60 65 70
30 35 40 45 50 55 60 65 70
-2. 000 -6. 000
-12. 000
-16. 000
Age T aux M ax
OK pour « âge », mis à part le point atypique OK pour « taux max », mis à part le point atypique
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 79
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 80
Interactions entre variables continues
Améliorer les performances en prédiction
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 81
Pour estimer les paramètres de la régression logistique
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 82
Régression pondérée (1) E[Y ] Moyenne de Y Probabilité de Y
La méthode des moindres carrés généralisés
E[ ] 0 Par hypothèse
Y a0 a1 X 1 a2 X 2 2 (1 ) Hétéroscédasticité
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 83
Régression pondérée (2)
Rappel Résultats Régression logistique
M a ximu m d e Vra ise mb la n ce
Calculs angine (a3) taux_m ax(a2) age (a1) cons t (a0)
1
( ) co e f . 1.779 -0.064 -0.126 14.494
Obtenus par rég. ( ) [1 ( )] xj e .t . 1.504 0.040 0.094 7.955
logistique
ẑ
π par la MMV π( 1- π) Po id s co n st . a ge t a u x_m a x a n g in e cœ u r s
0.879 0.106 3.066 0.33 16.31 41.10 0.33 1.02 0.138
0.582 0.243 2.027 0.49 24.17 62.16 0.00 1.01 0.720
0.392 0.238 2.048 0.49 22.46 70.31 0.00 1.03 1.550
0.378 0.235 2.062 0.48 23.76 67.41 0.00 1.04 1.644
0.213 0.168 2.441 0.41 25.40 63.09 0.41 1.39 3.687
0.877 0.108 3.040 0.33 11.51 51.32 0.33 1.02 0.141
0.016 0.016 7.871 0.13 8.51 20.33 0.00 -0.65 0.017
0.071 0.066 3.893 0.26 16.70 35.97 0.00 -0.94 0.076
0.378 0.235 2.063 0.48 22.78 69.32 0.00 -1.02 0.606
0.036 0.035 5.350 0.19 10.84 30.84 0.00 -0.81 0.038
0.858 0.122 2.868 0.35 19.87 40.09 0.35 -1.83 6.063
0.106 0.095 3.252 0.31 18.14 44.59 0.00 -1.00 0.118
0.104 0.093 3.281 0.30 13.41 53.34 0.00 -1.00 0.116
0.406 0.241 2.037 0.49 20.13 75.13 0.00 -1.01 0.683
0.124 0.109 3.030 0.33 17.82 50.16 0.00 -1.02 0.142
0.058 0.055 4.266 0.23 12.19 39.62 0.00 -0.90 0.062
0.173 0.143 2.645 0.38 21.55 63.51 0.38 -1.05 0.209
0.138 0.119 2.898 0.35 17.25 54.53 0.00 -1.03 0.160
0.137 0.118 2.907 0.34 15.14 58.48 0.00 -1.03 0.159
0.074 0.068 3.827 0.26 12.80 44.68 0.00 -0.94 0.080
Total 16.407
s 1 .0 1 3
2 ( ) y( ) ( )
1
0.16 1.01 # N/A # N/A 2
s2
n J 1
0.76 16 # N/A # N/A
3.12 16.41 # N/A # N/A
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 84
Lien avec l’apprentissage par partitionnement
Régression Logistique = classifieur linéaire
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 85
Régression non-linéaire…
Mais séparateur linéaire
Fonction logistique Régression Non-Linéaire : Transformer la combinaison linéaire [C(X) = a0
1
+ a1.X1 + …] à l’aide d’une fonction de transfert non linéaire (Fonc.
0.9
0.8
Répartition Logistique LOGIT, Fonc. Répart. Normale PROBIT, etc.)
0.7
0.6
Pi(X)
0.5
0.4
0.3
0.2
0.1
Presence
Reprenons le fichier « Maladie cardiaque » Frontière de séparation
Absence
Y = f (age, taux_max) Frontiere
180
170
MMV c( X ) 16.254 0.120 age 0.074 taux 160
Taux_max
150
Décision : Si c(X)>0 Alors Y = + 140
130
120
c.-à-d. C(X)=0 définit une « frontière » entre
110
les Y=+ et Y= -
100
30 35 40 45 50 55 60 65 70
Matrice de confusion
Nombre de coeur Pred.
coeur absence presence Total
absence 13 1 14
Ricco Rakotomalala presence 1 5 6
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ Total 14 6 8620
Bibliographie
En ligne
Ouvrages
S. MENARD, « Applied Logistic Regression Analysis », 2nd Ed., Sage Publications, 1997.
Ricco Rakotomalala
Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 87