Vous êtes sur la page 1sur 61

Regresso Linear

Disciplina: Planejamento e Anlise de Experimentos


PAE PPGEB
Professores
Miguel Antonio Sovierzoski, Dr.
miguelaso@utfpr.edu.br;

Vicente Machado Neto, Dr.


vmachado@utfpr.edu.br;

Regresso Linear
A regresso linear usada para estabelecer ou confirmar a relao entre
duas variveis.

Na qumica analtica normalmente utilizada para expressar a relao


entre a resposta analtica e por exemplo a concentrao de um analito.
A equao geral que descreve a curva ajustada pode ser escrita como:
= +
Onde a inclinao da reta e onde a reta intercepta o eixo y.
O mtodo dos mnimos quadrados para regresso linear usado para
achar-se os valores de e . O melhor ajuste obtido pela reta que
minimiza a soma quadrtica das diferenas entre os valores obtidos para
y e a reta ajustada, os chamados resduos.

Regresso Linear
As diferenas observadas entre os valores de y e os valores da reta ,
so conhecidos como resduos. A forma mais comum de regresso de
y dado x, onde assume-se que os valores de x so conhecidos
exatamente e o nico erro ocorre na medida de y.
Pressuposto da Regresso Linear:
- Os erros em x podem ser desconsiderados;
- Para o clculo dos intervalos de confiana os erros associados com
os valores de y devem ser normalmente distribudos. A mdia de 3 ou
mais valores j garante a normalidade;
- A varincia dos erros de y devem ser constantes ao longo da faixa de
interesse;
- Os valores de x e y devem ser contnuos.
A inspeo visual dos dados e resduos so os meios mais eficientes
para verificar as suposies acima.

Regresso Linear
Exame visual dos dados
Antes de efetuar a regresso linear uma boa prtica examinar os
dados tentando identificar possveis outliers.

Altas mdias
causadas por
uma desigual
distribuio
dos pontos.

Regresso Linear
Exame visual dos dados
Antes de efetuar a regresso linear uma boa prtica examinar os
dados tentando identificar possveis outliers.

Outlier alterando a
inclinao da reta
ajustada.

Regresso Linear
Exame visual dos dados
Antes de efetuar a regresso linear uma boa prtica examinar os
dados tentando identificar possveis outliers.

Outlier alterando a
interseco
do
eixo y pela reta
ajustada.

Regresso Linear
Clculo da inclinao e interseco
Para clculo de e as seguintes equaes so utilizadas:
=1
=
=1 2
=
so as mdias de x e y.
Uma vez que a e b tenham sidos calculados podemos calcular os
resduos e o desvio padro dos resduos.
= um valor medido (proveniente dos meus dados);
= um valor obtido pela reta ajustada;
= um resduo;
= nmero de pares medidos (dados).
=1 2
=
2
2 = o nmero de graus de liberdade do desvio padro dos
resduos.

Regresso Linear
Clculo da inclinao e interseco
O desvio padro da inclinao calculado usando-se a equao:

=
=1 2
O desvio padro da interseco estimada usando-se a equao:
=

=1 2
=1

Os intervalos de confiana para as estimativas da inclinao e


interseco da reta so:
.
.
= = 0,05 = 2.

Regresso Linear
Inspeo dos resduos
A plotagem dos resduos pode identificar problemas da curva ajustada
incorretamente ou sem qualidade. Caso haja um bom ajuste entre os
dados e a curva os resduos devem ser distribudos aleatoriamente em
relao ao zero.
Distribuio
ideal
dos
resduos. Os resduos esto
distribudos aleatoriamente
em torno do zero e no h
uma tendncia definida de
variao do desvio padro
com a concentrao.

Regresso Linear
Inspeo dos resduos
Mostra uma tendncia de
aumento do desvio padro
de y com a concentrao.

Mostra os resduos do ajuste


quando os dados no seguem
uma reta, mas uma reta foi
ajustada. Provavelmente o
melhor modelo de ajuste no
seja linear.

Regresso Linear
Inspeo dos resduos
Mostra um padro de
resduos quando a reta foi
incorretamente forada a
passar por zero

Mostra evidncias de uma


aproximao dos resduos,
em relao ao zero, a cada
valor de x, isto pode indicar
uma correlao entre os
resduos. Pode-se aplicar
ANOVA para verificar este
efeito.

Regresso
Linear
Inspeo dos
resduos
Parmetros de
verificao indicados
pelo MiniTab

Regresso Linear
Coeficiente de correlao r
O coeficiente de correlao determinado pela equao:
=1
=
=1 2 =1 2
O coeficiente de correlao mede o grau de associao linear entre
as variveis x e y. O valor de r est na faixa de 1.
O coeficiente de correlao no pode ser tomado como uma
medida de linearidade.
O coeficiente r s pode ser interpretado como um indicativo de boa
linearidade, quando os resduos so distribudos, razoavelmente,
em simetria ao longo do eixo x.

Regresso Linear
Coeficiente de correlao r
Para que predies feitas com uma curva de calibrao, tenham
incertezas pequenas, r necessita ser bem prximo de 1.
Tendncias no lineares so observadas mesmo para r0,999.
Baixos valores de r no necessariamente significam que no existe
relao.
Uma relao no linear no necessariamente conduz a um
coeficiente de correlao linear alto.

Regresso Linear
Incertezas na determinao dos valores de x
Uma vez que a regresso linear tenha sido detectada e a melhor
reta ajustada, a equao pode ser usada para determinar valores
de x, a partir de valores determinados experimentalmente para y.

= 0
onde 0 a mdia de N medies repetidas para .

H uma incerteza associada com que pode ser calculada pela

equao: =

+ +

0 2
2
2
=1

Onde chamado de erro padro na determinao de .

A incerteza na determinao de tem um mnimo na ponto central


da reta , , aumentando para os pontos extremos.
O intervalo de confiana para dado por: .

Regresso Linear
Exerccio
A resposta de um instrumento determinada por uma soluo padro
com seis diferentes concentraes.
Concentrao (x)

10

Mdia (x)

Resposta (y)

24

41

60

82

103

Mdia (y)

51,67

Clculo de b e a.

=1
708,0
=
=
= 10,114
=1 2
70
= = 51,67 10,114 5 = 1,100

Regresso Linear
Exerccio
Utilizando-se o software Minitab, obtemos os seguintes valores:
Concentrao (x)

10

Mdia (x)

Resposta (y)

24

41

60

82

103 Mdia (y)

5
51,67

Regresso Linear
Exerccio
Utilizandose o
software
Minitab,
obtemos os
seguintes
valores:

Regresso Linear
Exerccio
Utilizandose o
software
Minitab,
obtemos os
seguintes
valores:

Regresso Linear
Exerccio

nonconstant variance
One of the assumptions of regression and
ANOVA is that the variance of the error
term is constant. In the residual versus
the fitted values plot, the errors have
constant variance when the residuals are
scattered randomly around zero. If the
residuals increase or decrease with the
fitted values in a pattern that looks like a
funnel, the errors may not have constant
variance.

higher-order term
The order of a term in a regression model corresponds to that term's exponential degree: a linear term
(x) is a first-order term; a quadratic term (x ) is a second-order term; and a two-way interaction (x1x2) is
also a second-order term.
Higher-order terms can be used to model curvature in data. A curvilinear pattern in the residual versus
fitted values plot can indicate that you need to add a higher-order term to your model. Plotting individual
variables in your model versus the residuals can help you determine which variables have a curvilinear
relationship with the response.

Regresso Linear
Exerccio

outlier
An observation with a large residual value. Outliers
can be the result of data collection or data entry
errors, and should be checked.
influential observation
An observation with greater influence on the model compared to other observations. By including and then
excluding an influential observation in a regression model you can determine how much of an impact the
observation has on the coefficients. You should examine this observation to determine why it is influential.

Regresso Linear
Exerccio
Utilizando-se o software Minitab, obtemos os seguintes valores:
The prediction
bands
(or
prediction
intervals,
PI)
illustrate the
range of likely
values for new
observations.
They represent
a series of
prediction
intervals that
span the range
of
observed
density values.

Regresso Linear
Exerccio
Utilizando-se o software Minitab, obtemos os seguintes valores:
Concentrao (x)

10

Mdia (x)

Resposta (y)

24

41

60

82

103 Mdia (y)

5
51,67

Regresso Linear
Exerccio
Utilizando-se o software Minitab, obtemos os seguintes valores:
Concentrao (x)

10

Mdia (x)

Resposta (y)

24

41

60

82

103 Mdia (y)

5
51,67

Regresso Linear
Exerccio
Utilizando-se o software Minitab, obtemos os seguintes valores:
Concentrao (x)

10

Mdia (x)

Resposta (y)

24

41

60

82

103 Mdia (y)

5
51,67

Regresso Linear
Exerccio

0 : = 0;
: 0;
0 : = 0;
: 0;
Portanto y e x
so fortemente
correlacionados

Desvio padro dos resduos

a - interseco

No se pode
afirmar que a
interseco seja
diferente de zero

Pode-se afirmar que a


inclinao diferente
de zero. Portanto y e x
so fortemente
correlacionados

0 : = 0;
: 0;

Regresso Linear

0 : = 0;
: 0;

Exerccio

Portanto y e x
so fortemente
correlacionados

Desvio padro dos resduos

a - interseco

Parmetro usado
para indicar a
interao entre
os
preditores
utilizados.
No
veremos
sua
aplicao, j que
temos apenas um
preditor.

Assess the VIF values. If the VIF values are all close to 1, this
indicates that the predictors are not correlated. VIF values
greater than 5 suggest that the regression coefficients are
poorly estimated.

Regresso Linear
Exerccio
Interpretao dos valores de r indicados pelo software Minitab.
S, R 2 and adjusted R2 are measures of how well the model fits the data.
These values can help you select the model with the best fit.

S is measured in the units of the response variable and represents the


standard distance that data values fall from the regression line. For a given
study, the better the equation predicts the response, the lower S is.

R 2 (R-Sq) describes the amount of variation in the observed response


values that is explained by the predictor(s) . R2
always increases with
additional predictors. For example, the best five-predictor model will always
have a higher R2 than the best four-predictor model. Therefore, R2 is most
useful when comparing models of the same size.
Adjusted R2 is a modified R2 that has been adjusted for the number of
terms in the model. If you include unnecessary terms, R2 can be artificially
high. Unlike R2 , adjusted R2 may get smaller when you add terms to the
model. Use adjusted R2
to compare models with different numbers of
predictors.

Regresso Linear
Exerccio
Interpretao dos valores de r indicados pelo software Minitab.
Press and R2 (pred) are measures of how well the model predicts the
response.
PRESS is the sum of squares of the prediction error. In general, the
smaller the PRESS value, the better the model's predictive ability.
PRESS is used to calculate the predicted R.
R2 (pred) indicates how well the model predicts responses for new
observations. Predicted R2 can prevent overfitting the model. This
statistic is more useful than adjusted R for comparing models because
it is calculated with observations not included in model calculation.
Larger values of predicted R2 suggest models of greater predictive
ability.

Regresso Linear
Exerccio
Interpretao dos valores de r indicados pelo software Minitab.
Example Output:
Summary of Model
S = 3.99399
R-Sq = 92.95%
R-Sq(adj) = 91.12%
PRESS = 880.182 R-Sq(pred) = 85.59%

Interpretation
The model explains 92.95% of the variation in the Salary data. The
adjusted R is 91.12%. R (pred) is 85.59%, indicating that the model
explains 85.59% of the variation in Salary when the model is used for
prediction.

Regresso Linear
Exerccio
Interpretao dos valores de r indicados pelo software Minitab.
Prediction sum of squares (PRESS)
Assesses your model's predictive ability. In general, the smaller the PRESS value, the
better the model's predictive ability. PRESS is used to calculate the predicted R2 which
is generally more intuitive to interpret. Together, these statistics can help prevent
overfitting the model because it is calculated using observations not included in model
estimation. Overfitting refers to models that appear to explain the relationship between
the predictor and response variables for the data set used for model calculation but fail
to provide valid predictions for new observations.
PRESS, similar to the error sum of squares (SSE), is the sum of squares of the prediction
error. PRESS differs from SSE in that each fitted value, i, for PRESS is obtained by
excluding the ith observation from the data set, estimating the regression equation
from the remaining n - 1 observations, then using the fitted regression function to
obtain the predicted value for the ith observation.

Regresso Linear
Exerccio sobre incerteza de x
A equao de melhor ajuste do exerccio anterior era
y=1,100+10,114 x. A resposta para uma concentrao 80.
Determine o valor da concentrao e sua incerteza.
0 80 1,100
=
=
= 7,80 /

10,114
A incerteza associada com pode ser calculada pela equao:

+ +

0 2
2
2
=1

1,762
10,114

1
1

1
6

+ +

8051,67 2
10,114 2 .70

= 0,197

O intervalo de confiana para 95% do valor de concentrao.


. = 7,80 2,776 0,197 = 7,80 0,55mg/l
Onde 2,776 o valor t student para distribuio bicaudal 95%; =
2=62=4

Regresso Linear
Exerccio sobre incerteza de x

Regresso Linear
ANOVA para regresso linear

Variao relacionada com a


prpria regresso, indica a
correlao entre x e y. Tem que
ser significativamente maior
que a variao dos resduos.

Um software para regresso linear pode fornecer uma tabela de


anlise de varincia, como apresentada abaixo:

Variao relacionada com


os erros residuais

Como no teste de significncia da inclinao da reta, o


teste de significncia ANOVA indica uma relao
significativa entre as variveis.

Regresso Linear
ANOVA para regresso linear - Exerccio
Abaixo a tabela de anlise de varincia do exerccio anterior. Podese observar e concluir que as varincias so significativamente
diferentes, j que P value deu praticamente zero. O valor crtico
para F 7,709 1 = 1 2 = 4 para 95% de significncia, portanto
bem inferior aos 2306 obtido. Portanto a correlao entre x e y
significativa.
Analysis of Variance
Source
DF
Regression
Concentrao (x)
Error
Total

1
1
4
5

Seq SS
7160,91
7160,91
12,42
7173,33

Adj SS
7160,91
7160,91
12,42

Adj MS
7160,91
7160,91
3,10

F
2306,43
2306,43

P
0,0000011
0,0000011

Regresso Linear
Exerccio
Verifique a equao que relaciona as concentraes de OE e as
respostas de um cromatgrafo.
Conc ug/ml (x) Cal 08/11/11
Resp rea Cromat
0,226

1,47742

0,566

2,63776

1,131

4,27442

2,263

9,3586

11,313

34,04582

22,626

66,92342

56,566

168,18115

Regresso Linear
Exerccio
Verifique a equao que relaciona as concentraes de OE e as
respostas de um cromatgrafo.
Conc ug/ml (x) Cal 08/11/11
Resp rea Cromat
0,226

1,47742

0,566

2,63776

1,131

4,27442

2,263

9,3586

11,313

34,04582

22,626

66,92342

56,566

168,18115

Regresso Linear
Exerccio
Verifique a equao que relaciona as concentraes de OE e as
respostas de um cromatgrafo.
Conc ug/ml (x) Cal 08/11/11
Resp rea Cromat
0,226

1,47742

0,566

2,63776

1,131

4,27442

2,263

9,3586

11,313

34,04582

22,626

66,92342

56,566

168,18115

Regresso Linear
Exerccio
Verifique a equao que relaciona as concentraes de OE e as
respostas de um cromatgrafo.
Conc ug/ml (x) Cal 08/11/11
Resp rea Cromat
0,226

1,47742

0,566

2,63776

1,131

4,27442

2,263

9,3586

11,313

34,04582

22,626

66,92342

56,566

168,18115

Regresso Linear
Exerccio
Verifique a equao que relaciona as concentraes de OE e as
respostas de um cromatgrafo.
Conc ug/ml (x) Cal 08/11/11
Resp rea Cromat
0,226

1,47742

0,566

2,63776

1,131

4,27442

2,263

9,3586

11,313

34,04582

22,626

66,92342

56,566

168,18115

Regresso Linear
Exerccio
Verifique a equao que relaciona as concentraes de OE e as
respostas de um cromatgrafo.
Conc ug/ml (x) Cal 08/11/11
Resp rea Cromat
0,226

1,47742

0,566

2,63776

1,131

4,27442

2,263

9,3586

11,313

34,04582

22,626

66,92342

56,566

168,18115

Regresso Linear
Exerccio
Verifique a equao que relaciona as concentraes de OE e as
respostas de um cromatgrafo.
Conc ug/ml (x) Cal 08/11/11
Resp rea Cromat
0,226

1,47742

0,566

2,63776

1,131

4,27442

2,263

9,3586

11,313

34,04582

22,626

66,92342

56,566

168,18115

Regresso Linear
Exerccio
Verifique
a
equao que
relaciona as
concentraes
de OE e as
respostas de
um
cromatgrafo.
Conc ug/ml (x) Cal 08/11/11
Resp rea Cromat
0,226

1,47742

0,566

2,63776

1,131

4,27442

2,263

9,3586

11,313

34,04582

22,626

66,92342

56,566

168,18115

Regresso Linear
Exerccio
Verifique
a
equao que
relaciona as
concentraes
de OE e as
respostas de
um
cromatgrafo.
Conc ug/ml (x) Cal 08/11/11
Resp rea Cromat
0,226

1,47742

0,566

2,63776

1,131

4,27442

2,263

9,3586

11,313

34,04582

22,626

66,92342

56,566

168,18115

Regresso Linear
Exerccio
Verifique a equao que relaciona as concentraes de OE e as
respostas de um cromatgrafo.

Regresso Linear
Exerccio
Verifique a equao que relaciona as
doses de radiao com as reas
sensibilizadas.
Doses (cGy) 10/11
4000
59,06
3500
61,253
3000
65,281
2500
69,333
2000
73,389
1500
79,666
1000
97,697
500
104,354
100
138,894
10
150,155
4000
58,046
3500
61,252
3000
65,284
2500
69,325
2000
73,389
1500
79,713
1000
97,713
500
104,354
100
138,861
10
150,143

Pixels

4000
3500
3000
2500
2000
1500
1000
500
100
10
4000
3500
3000
2500
2000
1500
1000
500
100
10
4000
3500
3000
2500
2000
1500
1000
500
100
10

58,042
61,251
65,29
69,333
73,389
79,696
97,697
104,354
138,826
150,155
58,049
61,251
65,279
69,322
73,363
79,654
87,652
104,277
138,906
150,067
58,012
61,223
65,238
69,385
73,304
79,613
87,614
104,242
138,86
150,048

Regresso Linear
Exerccio
Verifique a equao que relaciona as
doses de radiao com as reas
sensibilizadas.

Regresso Linear

Regresso Linear

Regresso Linear
Exerccio

Regresso Linear
Exerccio
Verifique a equao que relaciona as
doses de radiao com as reas
sensibilizadas.

Regresso Linear

Regresso Linear

Regresso Linear

Comparao das regresses


linear e quadrtica para 1 g.l.

Regresso Linear
Exerccio
Verifique a equao que relaciona as
doses de radiao com as reas
sensibilizadas.

Regresso Linear

Regresso Linear

Comparao das regresses


linear, quadrtica e cbica para
1 g.l.

Regresso Linear
Calibrao, recomendaes de projeto
Se as incertezas de calibrao so pequenas comparada com
outros efeitos na anlise de rotina, o projeto de calibrao no
crtico. Contudo se as incertezas de calibrao so significativas, as
seguintes orientaes so importantes:
-

Use pelo menos 5 observaes independentes;


Espace as concentraes o mais igualmente possvel;
Assegure que as mdias das concentrao dos materiais de
calibrao sejam prximas concentrao de interesse.
Inclua replicaes independentes para aumentar a preciso;
Aumente o nmero de replicatas para no mnimo 3;
Teste as observaes extremas quanto a significncia;

Regresso Linear
Calibrao, recomendaes de projeto
Se as incertezas de calibrao so pequenas comparada com
outros efeitos na anlise de rotina, o projeto de calibrao no
crtico. Contudo se as incertezas de calibrao so significativas, as
seguintes orientaes so importantes:
-

Verifique a normalidade dos resduos;


Aumente o nmero de concentraes independentes (mnimo 7);
No force a passagem da reta pelo ponto (0;0);
No inclua o ponto (0;0) quando este no foi medido.

Regresso Linear
Intervalo de predio
Um modelo de regresso pode ser usado para prever a varivel resposta,
correspondente a valores da varivel explicativa no considerada no
experimento. Chamamos de predio a obteno de um valor de Y para
um x que no pertence aos dados, porm pertence ao intervalo de
variao estudado. Em situaes em que o valor de x no pertence ao
intervalo estudado, denominamos de extrapolao.
Seja xh dado valor da varivel explicativa x que no pertence a amostra.
Ento, um estimador no viciado para
pois .
Chamamos de erro na previso a diferena cuja varincia dada por
De maneira semelhante realizada em Intervalo de confiana para a
resposta mdia, podemos demonstrar que
Assim, o intervalo de predio para ,

Referncias Bibliogrficas
- A Bench Guide. ELLISON, S.L.R.; BARWICK, V.J.;
FARRANT, T.J.D. Practical Statistics for the Analytical
Scientist. RSC Publishing. 2 Edio. 2009.

Vous aimerez peut-être aussi