Académique Documents
Professionnel Documents
Culture Documents
: économie appliquée.
Semestre 1
Matière : Analyse de données.
La régression logistique.
Plan :
Introduction.
I. Définitions.
II. Spécification du modèle.
III. estimation du modèle : des coefficients et tests.
IIII. Adéquation du modèle.
Conclusion.
Introduction :
La régression logistique : modèle linéaire utilisant la fonction
logistique comme fonction de lien, il est pour rôle de prédire
l’appartenance à une classe y=f(x)+ε
Souvent utilisée dans le domaine de la santé :
Identification des motifs d’une maladie.
Recherche des causes de survie ou de décès de patients.
Se caractérise aux autres modèles linéaires, par sa précision dans
l’explication des données qualitatives, quantitatives.
I. Définitions.
C’est un modèle statistique permet d’étudier les relations entre, un
ensemble de variables qualitatives Xi et une variable qualitative Yi.
La régression logistique comme la régression linéaire faire partie de la
famille des modèles GLM (Generalized Linear Models), dans les deux
modèles on relie un évènement à une combinaison linéaire de variable
explicative, cette dernière se distingue de la régression logistique par sa
variable dépendante qui ne suit pas une loi normale N(µ, s) où µ est une
fonction linéaire des variables explicatives. Pour la régression logistique,
la variable dépendante, suit une loi de Bernoulli de paramètre p, qui est
une fonction d’une combinaison linéaire des variables explicatives.
Elle est utilisée quand :
La variable dépendante est nominale ou ordinale.
Les variables indépendantes peuvent être de plusieurs types, soient,
nominales, ordinales, métriques, …
Il appartient aux modèles, qui utilisent la transformation logarithmique :
Modèles loglinéaires, utilisent seulement des variables nominales
ou ordinales.
Modèles probit ou logit : variables indépendantes continus.
Modèles de régression de survie.
Loi de y :
Y suit une loi de Bernoulli de paramètre p :
l’échantillon :
Conclusion :
La présence d’information sur la classification peut être un avantage de
l’analyse dans certains cas (par contre à la régression linéaire).
Un autre avantage sur la régression linéaire est la possibilité d’entrer des
variables de plusieurs types et de modéliser facilement les interactions.
Les tests sont presque tous basés sur le test du rapport de vraisemblance.
Dans l’adéquation du modèle, on dépend souvent à la qualité
d’ajustement : Si l’ajustement est correct, les valeurs prédites seront
proches des valeurs observées.