Vous êtes sur la page 1sur 8

Master 

: économie appliquée.
Semestre 1
Matière : Analyse de données.

Réalisé par : Encadré par :


Ben ouazar Abderrahim. DR. JAMAA ANOUALIGH

La régression logistique.

Plan :
Introduction.
I. Définitions.
II. Spécification du modèle.
III. estimation du modèle : des coefficients et tests.
IIII. Adéquation du modèle.
Conclusion.
Introduction :
 La régression logistique : modèle linéaire utilisant la fonction
logistique comme fonction de lien, il est pour rôle de prédire
l’appartenance à une classe y=f(x)+ε
 Souvent utilisée dans le domaine de la santé :
 Identification des motifs d’une maladie.
 Recherche des causes de survie ou de décès de patients.
 Se caractérise aux autres modèles linéaires, par sa précision dans
l’explication des données qualitatives, quantitatives.

I. Définitions.
 C’est un modèle statistique permet d’étudier les relations entre, un
ensemble de variables qualitatives Xi et une variable qualitative Yi.
 La régression logistique comme la régression linéaire faire partie de la
famille des modèles GLM (Generalized Linear Models), dans les deux
modèles on relie un évènement à une combinaison linéaire de variable
explicative, cette dernière se distingue de la régression logistique par sa
variable dépendante qui ne suit pas une loi normale N(µ, s) où µ est une
fonction linéaire des variables explicatives. Pour la régression logistique,
la variable dépendante, suit une loi de Bernoulli de paramètre p, qui est
une fonction d’une combinaison linéaire des variables explicatives.
 Elle est utilisée quand :
 La variable dépendante est nominale ou ordinale.
 Les variables indépendantes peuvent être de plusieurs types, soient,
nominales, ordinales, métriques, …
 Il appartient aux modèles, qui utilisent la transformation logarithmique :
 Modèles loglinéaires, utilisent seulement des variables nominales
ou ordinales.
 Modèles probit ou logit : variables indépendantes continus.
 Modèles de régression de survie.

II. spécification du modèle.


 On note : (Y,X1,X2,…,Xk) les variables de la population dont on extrait
un échantillon de n individus i.
K : variables explicatives.
 On propose : Y= f (x1 ,x2,…,xk), dont f ne peut être une fonction linéaire
car Y ne peut prendre que deux valeurs comme constate sur la courbe ci
dessous:
 Afin de rendre la fonction comme linéaire et l’espérance ne prend pas que
deux valeurs, on utilise la fonction logistique :
ainsi : 0<f(x)<1 et E(Y) =0 ou 1

Loi de y :
Y suit une loi de Bernoulli de paramètre p :

L’application de cette transformation logit permet de travailler sur des valeurs


entre [-∞;+∞]

III. estimation de modèle : des coefficients et tests.


En régression logistique, par contre à la régression linéaire, la méthode des
moindres carrés ordinaire ne permet pas d’obtenir une estimation des
coefficients, ce que laisse l’utilisation de la méthode du maximum de
vraisemblance (Méthode classique permet d’estimer les paramètres d’une loi,
d’un modèle.), indispensable.
α
 Logit(Pr(Y=1/X)= i
+¿ ∑1 β i x i

 Les Y et X sont observés.


 On cherche les valeurs de chaque βi.
On donne l’exemple de cas d’une seule variable exogène binaire, pour faciliter
la démonstration.
Y binaire (0/1) et une seule variable explicative X quantitative
Pour une observation i et une population Y(0/1) X → (yi, xi)i:1…n
Avec :

On cherche à trouver B1 et qui maximisent la probabilité d’observer

l’échantillon :

Pour simplifier le calcul, on entre généralement le log sur les termes.


max (L) =max log(L)
Pour trouver les valeurs que maximisent L, on restitue aux dérivées partielles.
Une fois les deux paramètres sont estimés, on peut calculer, pour tout i, π(xi) :

Ou par la fonction logit :


IIII. Adéquation du modèle.
 Il est pour principe de déterminer la qualité d’ajustement du modèle aux
données.
 Test de hosmer et lemeshow es le test le plus employé pour mesurer la
qualité d’ajustement :
 Il regroupe des probabilités prédites y i par le modèle en dix
groupes.
 Dans chaque groupe, on constate l’écart entre les valeurs
prédites et les valeurs observées. L’importance de la distance
entre ces valeurs est évaluée par la statistique du khi deux à
8 ddl qui teste :

 Ce tableau de contingence permet de connaitre le nombre de bonnes et de


mauvaises prédictions par rapport è un seuil s (fixé généralement è 50%).
NBb= a±d NBm= c+ b
n n
 Cette courbe indique l’augmentation de Se en fonction de 1-Sp

 Ce tableau montre les écarts de mesure de la qualité d’ajustement.

Conclusion :
 La présence d’information sur la classification peut être un avantage de
l’analyse dans certains cas (par contre à la régression linéaire).
 Un autre avantage sur la régression linéaire est la possibilité d’entrer des
variables de plusieurs types et de modéliser facilement les interactions.
 Les tests sont presque tous basés sur le test du rapport de vraisemblance.
 Dans l’adéquation du modèle, on dépend souvent à la qualité
d’ajustement : Si l’ajustement est correct, les valeurs prédites seront
proches des valeurs observées.

Vous aimerez peut-être aussi