Académique Documents
Professionnel Documents
Culture Documents
10 : MODELISATION SUPERVISEE
REGRESSION LINEAIRE
7 sances de 3 heures
mai-juin 2007
me
EPF - 4 anne - Option Ingnierie dAffaires et de Projets
Bertrand LIAUDET
EPF - 4me anne - IAP - Cours de Data mining 10 : Rgressions linaires - page 1/7- Bertrand LIAUDET
10 : MODELISATION SUPERVISEE
- 2 : REGRESSION LINEAIRE
Prsentation
yi = a*xi + b + Ri
avec:
yi : valeur de Y pour lindividu i
xi : valeur de X pour lindividu i
a et b : coefficients de lquation de rgression linaire
Ri : rsidu pour lindividu i
a*xi + b
yi Ri <0
Ri >0
xi
Remarque : des individus ayant la mme valeur de X peuvent avoir des valeurs de Y
diffrentes.
EPF - 4me anne - IAP - Cours de Data mining 10 : Rgressions linaires - page 2/7- Bertrand LIAUDET
La rgression linaire multiple
La rgression linaire multiple suit le mme principe que celui de la rgression linaire
simple. Elle permet de mettre en relation une variable continue cible Y et plusieurs variables
continues explicatives Xk.
Remarque : des individus ayant les mmes valeurs de Xk peuvent avoir des valeurs de Y
diffrentes.
Technique
yi
a*xi + b Ri
dcalage dorigine dcalage estim par
moyenne de Y rapport la moy.
xi
EPF - 4me anne - IAP - Cours de Data mining 10 : Rgressions linaires - page 3/7- Bertrand LIAUDET
Mthode des moindres carrs
Elle consiste chercher les coefficients a et b qui minimisent la somme des Ri.
RMSE
RMSE : root mean square error, cest la moyenne des carrs des rsidus.
RMSE = SRes / (n p 1)
Avec :
n : nombre dindividus
p : nombre de variables explicatives
(n-p-1) : nombre de degrs de libert
Le F-ratio
F = n * SReg / SRes
Le R
Le R ajust
Dans le cas des rgressions multiples, on utilise le R ajust plutt que le R qui croit avec
le nombre de variables, ce qui rend son interprtation biaise.
EPF - 4me anne - IAP - Cours de Data mining 10 : Rgressions linaires - page 4/7- Bertrand LIAUDET
Analyse de la variation des rsidus
On analyse le nuage de points avec Y en axe horizontal et les rsidus en axe vertical.
Une rpartition rgulire des rsidus doit donner une bande horizontale rgulirement
rpartie autour de 0.
Autocorrlation des rsidus. Si on tend avoir une courbe et non plus une bande, cela veut
dire que certaines valeurs seront sur-estimes tandis que dautres seront sous-estimes.
Lautocorrlation se repre grce au test de Durbin-Watson. Ce test calcule la somme des
(Ri Ri-1) / somme(Ri). Cette valeur est comprise entre 0 et 4, < 2 pour des corrlations
positives, > 2 pour des corrlations ngatives.
Il faut un test de Durbin-Watson compris entre 1,5 et 2,5 pour que lautocorrlation soit
acceptable.
Autocorrlation des valeurs absolues des rsidus. Si on tend avoir un cne et non
plus une bande horizontale, autrement dit, une augmentation ou une diminution rgulire
des rsidus, il est recommand de remplacer les moindres carrs ordinaires par les
moindres carrs pondrs.
Ce cne se traduirait par une droite en faisant un nuage de points entre Y et la valeur
absolue des rsidus.
EPF - 4me anne - IAP - Cours de Data mining 10 : Rgressions linaires - page 5/7- Bertrand LIAUDET
Lecture des sorties de Clementine
Rcapitulatif
Statistiques descriptives
Corrlations
Coefficient de Person = R
Rcapitulatif
Mesures de lANOVA
Prvision et rsidu.
Rsidu min : pour voir de combien la prvision peut tre dcale vers le bas.
Rsidu max : pour voir de combien la prvision peut tre dcale vers le haut.
Ecart-type du rsidu : pour voir une sorte de rsidu moyen (puisque la moyenne vaut 0). A
comparer avec lcart-type et lamplitude de la prvision de la prvision.
EPF - 4me anne - IAP - Cours de Data mining 10 : Rgressions linaires - page 6/7- Bertrand LIAUDET
Conclusion : principales mthodes de modlisation qui nont pas t abordes
Classification
Prdiction
Analyse discriminante
Rgression logistique
Rseaux de neurones
EPF - 4me anne - IAP - Cours de Data mining 10 : Rgressions linaires - page 7/7- Bertrand LIAUDET