Vous êtes sur la page 1sur 4

Régression selon les données: La rgrression prend plusieurs dfinitions selon

les donnes qu’elle modlise:

Si Y et Xi quantitatives: régression linéaire.


Si Y est qualitative et Xi quantitatives : régression logistique.
- régression logistique binaire: y peut prendre 2 valeurs.
- règression multinomiale, polytomique, ordinale, nominale, . . . .
Si Y est quantitative et Xi sont qualitatives: analyse de la variance (ANOVA).
Si Y est qualitative en fonction de Xi qualitatives: régression par l’analyse
de tri croisé.
D’un point de vue historique la régression logistique fut l’une des premières
méthodes à être utilisée pour le scoring en marketing, en épidémiologie. Il s’agit
de modéliser une variable binaire:
• Possession ou non d’un produit
• Bon ou mauvais client
• Décès ou survie d’un patient.
• Champ d’application plus large que l’analyse discriminante.

Odds et odds ratio Soit Y une variable qualitative à p modalités, la chance


de voir la jème modalité se raliser plutôt que la kème est représentée par le
rapport:
πj
Ωjk =
πk
- Y variable binaire qui suit une loi de Bernouilli de paramètre π, une cote
ou une chance de gain est dfinie par le rapport:
π
1−π
Exemple 1 π représente la probabilité de succès (= 0.4).
1 − π représente la probabilité d’échec (= 0.6).
L’odds du succès est 0.4
0.6 = 0.67 tandis que l’odds de l’échec est
0.6
0.4 = 1.5.
Soient une table de contingence 2 × 2 de deux variables qualitatives binaires X 1
et X 2 . Les paramètres de la loi conjointe se mettent dans une matrice:

a b
c π 11 π 12
d π 21 π 22

En considérant la première ligne, l’odds (la côte) que la colonne 1 soit prise
plutôt que la colonne 2: π 1 = π 11 /π 12 .
Odds ratio (rapport de cote):
π1 π 11 π 22
θ= =
π2 π 12 π 21
θ = 1: indique que les variables sont indépendantes.

1
θ > 1: Les sujets de la première ligne ont plus de chance de prendre la
première colonne que les sujets de la deuxième ligne.
θ < 1 sinon

Exemple 2 Un entretien de recrutement dans une entreprise : 6 garçons sur


10 sont accepté tandis que seulement 3 filles sur 10
accepté refusé
Garçons 0.6 0.4
filles 0.3 0.7
π 1 : L’odds des garçons = 1.5
π 2 : L’odds des filles = 0.43
π1
θ= = 3.5
π2
La chance d’être reçu est 3.5 plus grande pour les garçons.

1 La règression logistique
La régression logistique est une technique prédictive qui appartient à la famille
des méthodes d’apprentissage supervisé. Elle vise à construire un modèle perme-
ttant de prédire ou expliquer les valeurs prises par une variable cible qualitative
Y à partir d’un ensemble de variables explicatives Xj , j = 1, ..., p. Elle cherche
à trouver une modélisation du rapport des probabilités a postériori.
Il s’agit donc de modéliser une fonction de π i , g(π i ) tel que g est une fonction
monotone de[0, 1] dans R, appelé logit, définie par:
π
g(π) = logit(π)= ln
1−π
Il s’agit de modéliser une variable qualitative binaire Y à 2 modalités : 1 ou 0.
On considère, n observations de p variables explicatives X 1 , ..., X p
π
p [y/X] = ln = a0 + a1 X 1 + ... + ap X p = Xβ.
1−π
tel que β est le vecteur des paramètres (a0 , a1 , ..., ap ) qui sont inconnus. Ce
dernier est estimé par maximisation de la fontion log-vraisemblance. celle-ci est
obtenue par des méthodes numériques itératives ( NewtonRaphson).
Il est alors facile d’en déduire les estimations ou prévisions des probabilités
πi :
Estimation des paramètres: Y est binaire , elle suit une loi de Bernouilli

p [y/X] = π y(w) (1 − π)1−y(w)

tels que y(w) = 1 ou 0.


Pour n observations des variables, la fonction de vraisemblance est donnée
par Y
L(π, β) = π y(w) (1 − π)1−y(w)
i=1

2
et le log de la vraisemblance:
X
LL = y ln π + (1 − y) ln(1 − π)

Pour obtenir les paramètres, on dtermine βb qui maximise LL. β b est appelé
estimateur du maximum de vraisemblance. Il est sans biais de variance minimale
(BLUE). L’intervalle de confiance d’un paramètre b
a est donnée par:

a ± uα sba ]
IC = exp[b

tel que uα est la valeur tabulée de la loi normale au seuil α. Si 1 ∈


/ IC alors pas
de relation.
Comparer des modèles emboités: On teste les hypothèses suivantes:
l’hypothse nulle H01 : a1 = a2 = ... = ak = 0 contre l’alternative H01 :
a1 = a2 = ... = ap = 0 La statistique utilisée est:

−2ln(M V sousH01) − (−2M V sousH01)

qui suit une loi de χ2 à p − k ddl.


Test global de la régression:

(H01 : a1 = a2 = ... = ap = 0) =⇒ M1 : log itP [y = 1] = a0 (H11 : ∃j/aj 6= 0) =⇒ M2 : log itP [y = 1] = Xβ

La statistique utilisée est le rapport de vraisemblance suivant:

RV = −2ln(M V sousM1 ) − (−2M V sousM2 )

qui suit une loi de χ2 à p ddl.


Si sous H0, RV χ2 (p) au seuil α, alors, on rejette H0.
a
Influence d’une variable: Considérons la statistique U = s(b a) et l’hypothèse
b

H01 : aj = 0) contre H11 : aj 6= 0


sous H0, la statistique U suit une loi N (0, 1)
Si |U | > uα alors on rejette H0.
Régression logistique pour la classification:
Supposons un seuil τ = 0.5,, la règle de décision dans la régression logistique
est comme suite:

yb(x) = 1 si π
b(x) > τ
= 0 si π
b(x) > τ

Ce qui donne le résultat suivant:


True=0 True=1
Predicted=0 a b
Predicted=1 c d
On rappelle que:
d
Sensibilité=Proportion de vrai positif= b+d
a
Spécif icité: Vrai négatif= a+c

3
Figure 1: Courbe ROC.

Tracer la courbe ROC


Interprétation:
Si τ = 1, ne classifie pas une observation comme positive sen=0, spe=1
Si τ = 0, Tout est positif
Si τ < 1, compromis entre sensibilité et spécificité.
- Plus proche est la courbe de la bissectrice moins bon est le modèle.

Vous aimerez peut-être aussi