Cours de Data Mining 9-Inferences Statistiques-EPF

COURS DE DATA MINING
10 : MODELISATION SUPERVISEE
REGRESSION LINEAIRE
7 sances de 3 heures
mai-juin 2007
me
EPF - 4 anne - Option Ingnierie dAffaires et de Projets
Bertrand LIAUDET
10 : Modlisation supervise - 2 : Regression linaire 2

Prsentation .....................................................................................................................2
La rgression linaire simple 2
La rgression linaire multiple 3
Qualit de la rgression : la question du rsidu 3
Lecture des sorties de Clementine ..................................................................................6
Rcapitulatif 6
Statistiques descriptives 6
Corrlations 6
Rcapitulatif 6
Mesures de lANOVA 6
Statistiques des rsidus 6
Conclusion : principales mthodes de modlisation qui nont pas t abordes...........7
Classification 7
Prdiction 7
EPF - 4me anne - IAP - Cours de Data mining 10 : Rgressions linaires - page 1/7- Bertrand LIAUDET
10 : MODELISATION SUPERVISEE
- 2 : REGRESSION LINEAIRE
Prsentation
La rgression linaire simple
La rgression linaire simple permet de mettre en relation deux variables continues : la

variable cible Y et la variable explicative X.
Quelles que soient les variables continues X et Y, on a :
yi = a*xi + b + Ri
avec:
yi : valeur de Y pour lindividu i
xi : valeur de X pour lindividu i
a et b : coefficients de lquation de rgression linaire
Ri : rsidu pour lindividu i
La partie axi +b est la composante dterministe du modle.

La partie Ri est la composante stochastique appele erreur ou rsidu .
a*xi + b
yi Ri <0
Ri >0
xi
Remarque : des individus ayant la mme valeur de X peuvent avoir des valeurs de Y
diffrentes.
La droite Y = aX +b est la droite de corrlation linaire. On dit quelle ajuste le nuage de

points.
La rgression linaire multiple
La rgression linaire multiple suit le mme principe que celui de la rgression linaire
simple. Elle permet de mettre en relation une variable continue cible Y et plusieurs variables
continues explicatives Xk.
Quelles que soient les variables Xk et Y, on a :

yi = a1*x1i + a2*x2i + a3*x3i+ + ak*xki + b + Ri
avec:
yi : valeur de Y pour lindividu i
xki : valeur de Xk pour lindividu i
ak et b : coefficients de lquation de rgression linaire
Ri : rsidu pour lindividu i
La partie a1*x1i + a2*x2i + a3*x3i+ + ak*xki + b est la composante dterministe du

modle.
La partie Ei est la composante stochastique appele erreur ou rsidu .
Remarque : des individus ayant les mmes valeurs de Xk peuvent avoir des valeurs de Y
diffrentes.
Qualit de la rgression : la question du rsidu
Technique
SRes : somme des Ri (somme des rsidus au carr).

SReg : somme des carrs des dcalages entre le y estim et la moyenne de Y
SDOM : somme des carrs des dcalages entre yi dorigine et la moyenne de Y
Avec SDOM = SRes + SReg
yi
a*xi + b Ri
dcalage dorigine dcalage estim par
moyenne de Y rapport la moy.
xi
Mthode des moindres carrs
Elle consiste chercher les coefficients a et b qui minimisent la somme des Ri.
RMSE
RMSE : root mean square error, cest la moyenne des carrs des rsidus.
RMSE = SRes / (n p 1)
Avec :
n : nombre dindividus
p : nombre de variables explicatives
(n-p-1) : nombre de degrs de libert
La rgression est dautant meilleure que le RMSE est petit
Le F-ratio
F = n * SReg / SRes
Cas des rgressions multiples
F = (n-p-1) * SReg / (p * SRes)
Le R
R= SReg / (SReg + SRes)
Dans le cas de la rgression linaire simple :
R = coefficient de corrlation de Pearson
La rgression est dautant meilleure que le R est proche de 1
Le R ajust
Dans le cas des rgressions multiples, on utilise le R ajust plutt que le R qui croit avec
le nombre de variables, ce qui rend son interprtation biaise.
R ajust = 1 (1-R) * (n-1) / (n-p-1)
La rgression est dautant meilleure que le R ajust est proche de 1
Analyse de la variation des rsidus
On analyse le nuage de points avec Y en axe horizontal et les rsidus en axe vertical.
Une rpartition rgulire des rsidus doit donner une bande horizontale rgulirement
rpartie autour de 0.
Autocorrlation des rsidus. Si on tend avoir une courbe et non plus une bande, cela veut
dire que certaines valeurs seront sur-estimes tandis que dautres seront sous-estimes.
Lautocorrlation se repre grce au test de Durbin-Watson. Ce test calcule la somme des
(Ri Ri-1) / somme(Ri). Cette valeur est comprise entre 0 et 4, < 2 pour des corrlations
positives, > 2 pour des corrlations ngatives.
Il faut un test de Durbin-Watson compris entre 1,5 et 2,5 pour que lautocorrlation soit
acceptable.
Autocorrlation des valeurs absolues des rsidus. Si on tend avoir un cne et non
plus une bande horizontale, autrement dit, une augmentation ou une diminution rgulire
des rsidus, il est recommand de remplacer les moindres carrs ordinaires par les
moindres carrs pondrs.
Ce cne se traduirait par une droite en faisant un nuage de points entre Y et la valeur
absolue des rsidus.
Lecture des sorties de Clementine
Rcapitulatif
Il donne lquation de rgression linaire
Statistiques descriptives
Moyenne et cart-type avec le nombre dindividus pris en compte (N).
Corrlations
Coefficient de Person = R
Rcapitulatif
R, R, R ajust, avec R = SReg / (SRes + SReg)

Erreur standard de lestimation = Racine (SRes / dll(Res) ) = Racine(RMSE)(cf. ANOVA).
Critre de Durbin-Watson.
Mesures de lANOVA
LANOVA, cest lanalyse de la variance.

Somme des carrs des rgressions : somme des carrs des dcalages estim par rapport la
moyenne de Y : SReg
Somme des carrs des rsidus (on peut vrifier le rsultat en faisant le calcul la main
avec Clementine) : SRes
Carr moyen des rsidus : SRes / ddl(res) = RMSE
Carr moyen des rgressions : SReg / ddl(reg)
F : SReg * dll(Res) / (SRes * dll(Reg) )
ddl : degrs de libert
Statistiques des rsidus
Prvision et rsidu.
Rsidu min : pour voir de combien la prvision peut tre dcale vers le bas.
Rsidu max : pour voir de combien la prvision peut tre dcale vers le haut.
Ecart-type du rsidu : pour voir une sorte de rsidu moyen (puisque la moyenne vaut 0). A
comparer avec lcart-type et lamplitude de la prvision de la prvision.
Conclusion : principales mthodes de modlisation qui nont pas t abordes
Classification
Les rseaux de neurones
Prdiction
Analyse discriminante
Rgression logistique
Rseaux de neurones

Cours de Data Mining 9-Inferences Statistiques-EPF

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Cours de Data Mining 9-Inferences Statistiques-EPF

Transféré par

Droits d'auteur :

Formats disponibles

COURS DE DATA MINING

10 : Modlisation supervise - 2 : Regression linaire 2

La rgression linaire simple

La rgression linaire simple permet de mettre en relation deux variables continues : la

Quelles que soient les variables continues X et Y, on a :

La partie axi +b est la composante dterministe du modle.

La droite Y = aX +b est la droite de corrlation linaire. On dit quelle ajuste le nuage de

Quelles que soient les variables Xk et Y, on a :

La partie a1*x1i + a2*x2i + a3*x3i+ + ak*xki + b est la composante dterministe du

Qualit de la rgression : la question du rsidu

SRes : somme des Ri (somme des rsidus au carr).

La rgression est dautant meilleure que le RMSE est petit

Cas des rgressions multiples

F = (n-p-1) * SReg / (p * SRes)

R= SReg / (SReg + SRes)

Dans le cas de la rgression linaire simple :

R = coefficient de corrlation de Pearson

La rgression est dautant meilleure que le R est proche de 1

R ajust = 1 (1-R) * (n-1) / (n-p-1)

La rgression est dautant meilleure que le R ajust est proche de 1

Il donne lquation de rgression linaire

Moyenne et cart-type avec le nombre dindividus pris en compte (N).

R, R, R ajust, avec R = SReg / (SRes + SReg)

LANOVA, cest lanalyse de la variance.

Statistiques des rsidus

Les rseaux de neurones

Vous aimerez peut-être aussi

La partie a1x1i + a2x2i + a3x3i+ + akxki + b est la composante dterministe du