Vous êtes sur la page 1sur 31

Data Mining

III. Régression linéaire


Plan
• Introduction
• Régression linéaire simple
• Régression linéaire multiple
• Evaluation de la qualité du modèle de
régression
Régression linéaire
simple
Introduction
La régression linéaire fait partie des méthodes
d’apprentissage automatique supervisé

Elle vise à établir un modèle permettant de trouver une


relation entre un ensemble de variables dites
explicatives ou indépendantes et une autre variable à
expliquer ou bien dépendante.

La variable à expliquer et les variables explicatives


sont numériques et continues
Elle vise à établir un modèle permettant de prédire ou bien
d’expliquer une variable dépendante Y à partir d’une autre
variable X (régression linéaire simple) ou bien d’une combinaison
de plusieurs variables (régression linéaire multiple).
Régression linéaire simple
Soit un ensemble de couples (xi,yi), Le modèle
de régression linéaire simple peut être formulé
de la manière suivante:
La valeur prédite par le
modèle lorsque x =0
(xi,yi) est un exemple
appartenant à l’ensemble
C’est le changement
d’apprentissage.
prédit de la variable à
xi et yi sont des scalaires.
expliquer lorsque la
pente variable explicative
change d’une unité.

L’erreur entre la valeur


prédite par le modèle
et la vraie valeur.

Erreurs de mesures
Autres variables non
prises en considération

L’objectif de la régression linéaire simple est d’estimer
les valeurs de w0 et w1 en essayant de trouver la
meilleure droite qui minimise les erreurs commises par
le modèle. Ce qui servira par la suite pour la prédiction
de nouveaux exemples.

Apprentissage et estimation

Nouvel exemple xN+1

Valeur prédite
xi
Hypothèses
• X est une variable explicative (exogène) non aléatoire .
Y est aléatoire.
• l’espérance de l’erreur est nulle.
• la variance de l'erreur est constante et ne
dépend pas de l'observation. (hypothèse
d'homoscédasticité)
• l'erreur de la variable explicative est
indépendante.
• Les erreurs relatives à deux observations
sont indépendantes.
• Les erreurs suivent une loi normale
Quel critère doit on adopter pour
choisir la meilleure ligne?

Critère de Moindres carrées


Critère des moindres carrées
Il consiste à minimiser la somme des carrées
des écarts entres les vraies valeurs et les
valeurs prédites par le modèle.
Les paramètres du modèle de régression
linéaire simple sont donc la solution du
problème de minimisation suivant:
Approche I
Approche II
Descente du gradient
Répéter jusqu’à convergence

K représente l’itération
est le pas d’apprentissage qui peut être soit une constante ou bien une
valeur calculée en fonction de nombre des itérations ( )
L’algorithme converge (s’arrête) lorsque le module
du gradient de l’erreur est proche de 0.
Régression linéaire
multiple
Régression linéaire multiple
La régression linéaire multiple est une
généralisation de la régression linéaire simple. Elle
consiste à expliquer une variable dépendante Y en
utilisant P variables explicatives indépendantes.

avec xi,0=1
Régression linéaire multiple
La régression linéaire multiple peut être
formulée sous la forme matricielle suivante:

= +
L’objectif de la régression linéaire multiple est
d’estimer le vecteur des paramètres W en
minimisant la somme des carrées des résidus.
Somme des carrées des erreurs
Le critère des moindres carrées consiste à
trouver la solution du problème
d’optimisation suivant :
Première approche

À condition que soit inversible


Pour chaque exemple xi ,yi et
Deuxième approche
Est une approche itérative qui peut être basée sur
l’algorithme de descente du gradient
Evaluation de la qualité
de régression
• SCT est la somme des carrés totaux. Elle indique la
variabilité d’information disponible dans les
données.
• SCE est la somme des carrés expliqués. Elle indique
la variabilité expliquée par le modèle .
• SCR est la somme des carrés résiduels. Elle indique
la variabilité non-expliquée par le modèle
Evaluation de la qualité du modèle de
régression

SCR SCE =0
le coefficient de détermination

Il permet d’indiquer la proportion de la


variance de Y expliquée par le modèle.

R2 proche de 1 Bon modèle

R2 proche de 0 X n'apporte pas d'informations utiles


le coefficient de détermination ajusté

Inconvénient
Si on ajoute des variables à notre modèle la
valeur de R2 augmente même si les variables
qu’on a ajoutées ne sont pas significatives.

R2 ajusté
le coefficient de détermination ajusté

Vous aimerez peut-être aussi