Vous êtes sur la page 1sur 7

COURS DE DATA MINING

10 : MODELISATION SUPERVISEE
REGRESSION LINEAIRE
7 sances de 3 heures
mai-juin 2007
me
EPF - 4 anne - Option Ingnierie dAffaires et de Projets
Bertrand LIAUDET

10 : Modlisation supervise - 2 : Regression linaire 2


Prsentation .....................................................................................................................2
La rgression linaire simple 2
La rgression linaire multiple 3
Qualit de la rgression : la question du rsidu 3
Lecture des sorties de Clementine ..................................................................................6
Rcapitulatif 6
Statistiques descriptives 6
Corrlations 6
Rcapitulatif 6
Mesures de lANOVA 6
Statistiques des rsidus 6
Conclusion : principales mthodes de modlisation qui nont pas t abordes...........7
Classification 7
Prdiction 7

EPF - 4me anne - IAP - Cours de Data mining 10 : Rgressions linaires - page 1/7- Bertrand LIAUDET
10 : MODELISATION SUPERVISEE
- 2 : REGRESSION LINEAIRE

Prsentation

La rgression linaire simple

La rgression linaire simple permet de mettre en relation deux variables continues : la


variable cible Y et la variable explicative X.

Quelles que soient les variables continues X et Y, on a :

yi = a*xi + b + Ri
avec:
yi : valeur de Y pour lindividu i
xi : valeur de X pour lindividu i
a et b : coefficients de lquation de rgression linaire
Ri : rsidu pour lindividu i

La partie axi +b est la composante dterministe du modle.


La partie Ri est la composante stochastique appele erreur ou rsidu .

a*xi + b
yi Ri <0

Ri >0

xi
Remarque : des individus ayant la mme valeur de X peuvent avoir des valeurs de Y
diffrentes.

La droite Y = aX +b est la droite de corrlation linaire. On dit quelle ajuste le nuage de


points.

EPF - 4me anne - IAP - Cours de Data mining 10 : Rgressions linaires - page 2/7- Bertrand LIAUDET
La rgression linaire multiple

La rgression linaire multiple suit le mme principe que celui de la rgression linaire
simple. Elle permet de mettre en relation une variable continue cible Y et plusieurs variables
continues explicatives Xk.

Quelles que soient les variables Xk et Y, on a :


yi = a1*x1i + a2*x2i + a3*x3i+ + ak*xki + b + Ri
avec:
yi : valeur de Y pour lindividu i
xki : valeur de Xk pour lindividu i
ak et b : coefficients de lquation de rgression linaire
Ri : rsidu pour lindividu i

La partie a1*x1i + a2*x2i + a3*x3i+ + ak*xki + b est la composante dterministe du


modle.
La partie Ei est la composante stochastique appele erreur ou rsidu .

Remarque : des individus ayant les mmes valeurs de Xk peuvent avoir des valeurs de Y
diffrentes.

Qualit de la rgression : la question du rsidu

Technique

SRes : somme des Ri (somme des rsidus au carr).


SReg : somme des carrs des dcalages entre le y estim et la moyenne de Y
SDOM : somme des carrs des dcalages entre yi dorigine et la moyenne de Y
Avec SDOM = SRes + SReg

yi
a*xi + b Ri
dcalage dorigine dcalage estim par
moyenne de Y rapport la moy.

xi

EPF - 4me anne - IAP - Cours de Data mining 10 : Rgressions linaires - page 3/7- Bertrand LIAUDET
Mthode des moindres carrs

Elle consiste chercher les coefficients a et b qui minimisent la somme des Ri.

RMSE

RMSE : root mean square error, cest la moyenne des carrs des rsidus.

RMSE = SRes / (n p 1)

Avec :
n : nombre dindividus
p : nombre de variables explicatives
(n-p-1) : nombre de degrs de libert

La rgression est dautant meilleure que le RMSE est petit

Le F-ratio

F = n * SReg / SRes

Cas des rgressions multiples

F = (n-p-1) * SReg / (p * SRes)

Le R

R= SReg / (SReg + SRes)

Dans le cas de la rgression linaire simple :

R = coefficient de corrlation de Pearson

La rgression est dautant meilleure que le R est proche de 1

Le R ajust

Dans le cas des rgressions multiples, on utilise le R ajust plutt que le R qui croit avec
le nombre de variables, ce qui rend son interprtation biaise.

R ajust = 1 (1-R) * (n-1) / (n-p-1)

La rgression est dautant meilleure que le R ajust est proche de 1

EPF - 4me anne - IAP - Cours de Data mining 10 : Rgressions linaires - page 4/7- Bertrand LIAUDET
Analyse de la variation des rsidus

On analyse le nuage de points avec Y en axe horizontal et les rsidus en axe vertical.
Une rpartition rgulire des rsidus doit donner une bande horizontale rgulirement
rpartie autour de 0.
Autocorrlation des rsidus. Si on tend avoir une courbe et non plus une bande, cela veut
dire que certaines valeurs seront sur-estimes tandis que dautres seront sous-estimes.
Lautocorrlation se repre grce au test de Durbin-Watson. Ce test calcule la somme des
(Ri Ri-1) / somme(Ri). Cette valeur est comprise entre 0 et 4, < 2 pour des corrlations
positives, > 2 pour des corrlations ngatives.
Il faut un test de Durbin-Watson compris entre 1,5 et 2,5 pour que lautocorrlation soit
acceptable.
Autocorrlation des valeurs absolues des rsidus. Si on tend avoir un cne et non
plus une bande horizontale, autrement dit, une augmentation ou une diminution rgulire
des rsidus, il est recommand de remplacer les moindres carrs ordinaires par les
moindres carrs pondrs.
Ce cne se traduirait par une droite en faisant un nuage de points entre Y et la valeur
absolue des rsidus.

EPF - 4me anne - IAP - Cours de Data mining 10 : Rgressions linaires - page 5/7- Bertrand LIAUDET
Lecture des sorties de Clementine

Rcapitulatif

Il donne lquation de rgression linaire

Statistiques descriptives

Moyenne et cart-type avec le nombre dindividus pris en compte (N).

Corrlations

Coefficient de Person = R

Rcapitulatif

R, R, R ajust, avec R = SReg / (SRes + SReg)


Erreur standard de lestimation = Racine (SRes / dll(Res) ) = Racine(RMSE)(cf. ANOVA).
Critre de Durbin-Watson.

Mesures de lANOVA

LANOVA, cest lanalyse de la variance.


Somme des carrs des rgressions : somme des carrs des dcalages estim par rapport la
moyenne de Y : SReg
Somme des carrs des rsidus (on peut vrifier le rsultat en faisant le calcul la main
avec Clementine) : SRes
Carr moyen des rsidus : SRes / ddl(res) = RMSE
Carr moyen des rgressions : SReg / ddl(reg)
F : SReg * dll(Res) / (SRes * dll(Reg) )
ddl : degrs de libert

Statistiques des rsidus

Prvision et rsidu.
Rsidu min : pour voir de combien la prvision peut tre dcale vers le bas.
Rsidu max : pour voir de combien la prvision peut tre dcale vers le haut.
Ecart-type du rsidu : pour voir une sorte de rsidu moyen (puisque la moyenne vaut 0). A
comparer avec lcart-type et lamplitude de la prvision de la prvision.

EPF - 4me anne - IAP - Cours de Data mining 10 : Rgressions linaires - page 6/7- Bertrand LIAUDET
Conclusion : principales mthodes de modlisation qui nont pas t abordes

Classification

Les rseaux de neurones

Prdiction

Analyse discriminante
Rgression logistique
Rseaux de neurones

EPF - 4me anne - IAP - Cours de Data mining 10 : Rgressions linaires - page 7/7- Bertrand LIAUDET