Analise de Regressao Linear Simples

Regresso Linear Simples
Introduo
Anlise de regresso uma metodologia estatstica que utiliza a relao entre duas ou
mais variveis quantitativas (ou qualitativas) de tal forma que uma varivel pode ser
predita a partir da outra ou outras. Exemplos:
A populao de bactrias pode ser predita a partir da relao entre
populao e o tempo de armazenamento.
Concentraes de solues de protena de arroz integral e absorbncias
mdias corrigidas.
Relao entre textura e aparncia.
Temperatura usada num processo de desodorizao de um produto e cor do
produto final.
A porcentagem de acerto ou, ento, bytes transferidos, podem estar
relacionados com o tamanho da cache (bytes), para um determinado tipo de
pr-carregamento.
Nmero de acessos ao disco (disk I/O) e o tempo de processamento para

vrios programas.
A performance de um procedimento remoto foi comparado em dois
sistemas operacionais: UNIX e ARGUS. A mtrica utilizada foi o tempo
total transcorrido, o qual foi avaliado para vrios tamanhos de arquivos de
dados.
A anlise de regresso, assim como a anova, tambm representa os dados
atravs de um modelo linear aditivo, onde o modelo inclui um componente
sistemtico e um aleatrio.
Y f (X )
(1)
f descreve a relao entre X e Y. so os erros aleatrios. Y = varivel resposta ou dependente; X

= varivel independente, concomitante, covarivel ou varivel preditora.
O caso mais simples de regresso quando temos duas variveis e a relao

entre elas pode ser representada por uma linha reta Regresso linear
simples.
Cenrio
Estamos interessados na relao entre duas variveis, as quais chamaremos de X e Y.
Observamos pares de valores X e Y em cada amostra ou unidade experimental, e vamos usa-los
para dizer alguma coisa sobre a relao.
Como sabemos os dados podem ser obtidos a partir de duas situaes:

1) dados experimentais: as observaes X e Y so planejadas como o resultado de um
experimento, exemplo:
X = tamanhos de cache e Y = porcentagem de acerto
X= doses de starter (microorganismos [bactrias lcticas]) , Y= tempo de maturao do salame
tipo italiano.
Nesse exemplo, os valores de X esto sob controle do pesquisador, ou seja, ele escolheu as doses
e observou o resultado, Y.
2) dados observacionais: observa-se os valores de X e Y, nenhuma delas sob controle, exemplo:
populao de coliformes e populao de staphilococus;
mdia das alturas de plantas numa rea e produo.
O tempo para criptografar um registro com k-byte usando uma tcnica para este fim foi
avaliado. X = tamanhos de registros tomados aleatoriamente e Y = tempo.
Problema prtico: os valores observados de Y (e algumas vezes

de X) no so exatos. Devido a variaes biolgicas, de
amostragem e de preciso das medidas e outros fatores, s
podemos observar valores de Y (e possivelmente de X) com algum
erro. Assim, com base numa amostra de valores (X,Y) a exata
relao entre X e Y mascarada pelos erros aleatrios.
X Fixo vs Aleatrio:
Dados experimentais: Geralmente X (doses, tempo, tamanho
da cache) determinado pelo pesquisador X fixo. Y est
sujeito variaes fsicas, biolgicas, tipos de objetos numa
pgina da Web, usurios, de amostragem, de medidas Y
uma varivel aleatria.
Dados observacionais: geralmente X e Y so variveis
aleatrias.
5
A distribuio normal bivariada

Com dados observacionais, geralmente X e Y so v. a. e, de
alguma forma, relacionadas.
Lembrete: uma distribuio de probabilidades d uma descrio
formal (matemtica) dos valores possveis da populao que
podem ser observados para a varivel. Quando temos duas
variveis a distribuio denominada bivariada. A fXY(x,y)
descreve como os valores de X e Y se comportam conjuntamente.
A distribuio normal freqentemente uma descrio razovel
de uma populao com medidas contnuas. Quando X e Y so v.
a. contnuas, uma suposio razovel que ambas sejam
normalmente distribudas. Entretanto, espera-se que elas se
distribuam conjuntamente.
6
A distribuio normal bivariada uma distribuio de probabilidades com uma funo densidade
de probabilidade f(x,y) para X e Y, tal que:
X e Y apresentam, cada uma, distribuio normal com mdias X e Y, e varincias 2X e 2Y,
respectivamente;
o relacionamento entre X e Y medido pela quantidade XY tal que -1 XY 1.
XY o coeficiente de correlao entre as variveis aleatrias X e Y e mede a associao linear
entre elas.
XY 1 correlao positiva perfeita

XY 1 correlao negativa perfeita
XY 0 correlao nula
Objetivo: com os dados observados (Xi,Yi), desejamos quantificar o grau de associao. Para
isso estimamos XY.
Comparao entre os modelos de regresso e correlao

Dois modelos:
X fixo: ajusta-se um modelo para a mdia da v. aleatria Y como uma funo de X fixo (linha reta).
Estima-se os parmetros do modelo para caracterizar o relacionamento.
X aleatrio: caracteriza-se o relacionamento (linear) entre X e Y atravs da correlao entre elas e
estima-se o parmetro de correlao.
Sutileza: em situaes onde X uma varivel aleatria, muitos investigadores desejam

ajustar um modelo de regresso tratando X como fixo. Isto porque, embora o coef. de
correlao descreve o grau de associao entre X e Y, ele no caracteriza o
relacionamento atravs de um modelo de regresso.
Exemplo: um pesquisador pode desejar estimar a produo com base na mdia de
alturas de plantas da unidade experimental. O coef. de correlao no permite isso.
Ele, ento, prefere ajustar um modelo de regresso, mesmo X sendo aleatrio.
Isso legtimo? Se tomarmos cuidado na

interpretao, sim.
Se X e Y so variveis aleatrias, e ns ajustarmos um modelo de regresso
para caracterizar o relacionamento, tecnicamente, todas as anlises posteriores
so consideradas como sendo condicionais aos valores de X presentes no
estudo. Isto significa que ns consideramos X fixo, embora ele no seja.
Entretanto, vlido fazer-se previses. Dado (condicional) que se observa um
particular valor de altura de planta, ele quer obter o melhor valor para
produo. O pesquisador no est dizendo que ele pode controlar as alturas e,
assim, influenciar as produes.
Vale para os dados da amostra.
Causalidade versos correlao

Pesquisadores freqentemente so tentados a inferir uma relao de causa e efeito entre X e Y
quando eles ajustam um modelo de regresso ou realizam uma anlise de correlao. Uma
associao significativa entre X e Y em ambas as situaes no necessariamente implica numa
relao de causa e efeito.
Exemplo: (Box, Hunter & Hunter, Statistics for Experimenters, p.8) O grfico mostra a populao
de Oldemberg, Alemanha, no fim de cada um dos 7 anos (Y) contra o nmero de cegonhas
(pssaros) naquele ano (X).
Interpretao: existe associao
entre X e Y.
Freqentemente, quando duas v. X e
Y parecem estar fortemente
associadas, pode ser porque X e Y
esto, de fato, associadas com uma
terceira varivel, W. No exemplo, X
e Y aumentam com W = tempo.
Correlao no necessariamente implica em causalidade
Construo de Modelos de Regresso

I.
Seleo das variveis preditoras
II.
Escolha do modelo de regresso
III.
Abrangncia do modelo
i.
O problema, em estudos observacionais, escolher um conjunto de

variveis que podem ou devem ser includas no modelo;
ii.
Pode-se usar um modelo terico; Usar aproximaes por modelos

polinomiais;
iii. Geralmente necessrio restringir a abrangncia do modelo para

alguns valores ou regio da(s) varivel(is) preditora(s).
10
Modelo de regresso linear simples

(Sem especificao da distribuio de
probabilidades para o erro)
Considere o modelo com uma varivel preditora e que a funo de regresso linear. O modelo
dado por:
Yi 0 1 X i i
i 1,2,..., n
(2)
11
Onde:
Yi o i-simo valor da varivel resposta;

0 e 1 so os parmetros (coeficientes de regresso);
Xi o i-simo valor da varivel preditora ( uma constante conhecida, fixo).
i o termo do erro aleatrio com E(i)=0 e 2(i)= 2;
i e j no so correlacionados (i, j)=0 para todo i,j; i j; (covarincia nula).
Covarincia (o resultado em qualquer experimento no tem
i=1,2,...,n.
efeito no termo do erro de qualquer outro experimento)
Os dados so usados para estimar 0 e 1, isto , ajustar o modelo aos dados, para:
quantificar a relao entre Y e X;
usar a relao para predizer uma nova resposta Y0 para um dado valor de X0 (no includo no
estudo);
calibrao ou capacidade de predio de novas observaes, pode ser feita usando uma nova
amostra e comparando os valores estimados com os observados.
- dado um valor de Y0, para o qual o correspondente valor de X0 desconhecido,
estimar o valor de X0.
12
Caractersticas do modelo:
constante
aleatrio
1. Yi uma v.a.(Y i 0 1 X i i )
2. E(Yi ) E ( 0 1 X i i ) i 0 1 X i
3. 2 (Yi ) 2 ( 0 1 X i i ) 2 ( i ) 2 ( varincia constante)
4. Yi e Y j no so correlacio nados
O modelo de regresso (2) mostra que as respostas Yi so oriundas de uma

distribuio de probabilidades com mdia E(Yi) = 0 +1Xi e cujas varincias so 2, a
mesma para todos os valores de X. Alm disso, quaisquer duas respostas Yi e Yj no
so correlacionadas.
13
A figura mostra a distribuio de Y para vrios valores de X. Mostra onde cai a observao Y1.
Mostra que o erro a diferena entre Y1 e E(Y1). Observe que as distribuies de
probabilidade apresentam a mesma variabilidade.
14
Resumo da situao: para qualquer valor Xi, a mdia de Yi i = 0 + 1Xi. As mdias esto
sobre a linha reta para todos os valores de X. Devido aos erros aleatrios, os valores de Yi se
distribuem ao redor da reta.
15
Outro exemplo.
Porcentagem de acerto
44,45
42,10
44,68
46,99
46,26
48,82
50,66
47,68
52,44
53,21
51,85
55,38
16
Mdia:
E(Y)=27,836+0,00006423X
Para Xi=300.000 bytes observou-se Yi=46,26. O valor estimado

dado por: 27,836+0,00006423(300.000)=47,11, portanto, o valor do
termo do erro i=46,26-47,11=-0,845.
17
Significado dos parmetros do modelo de regresso linear simples
yi = 0 + 1xi
x=1
y
x
0
x
x+1
0 (intercepto); quando a regio experimental inclui X=0, 0 o valor da mdia da distribuio

de Y em X=0, cc, no tem significado prtico como um termo separado (isolado) no modelo; 1
(inclinao) expressa a taxa de mudana em Y, isto , a mudana em Y quando ocorre a
mudana de uma unidade em X. Ele indica a mudana na mdia da distribuio de probabilidade
de Y por unidade de acrscimo em X.
18
Exemplo: os dados abaixo indicam o nmero de bytes transferidos (Y) e o

tamanho da cache (X).
Equao de regresso:
y 4 ,763.107 27 ,649 x
Faa o grfico dos pontos e da reta
ajustada. Voc acha que o modelo
adotado razovel?
19
y=4,763e7-27,649*x+eps
4,6e7
BYTES TRANSFERIDOS
4,4e7
4,2e7
4e7
3,8e7
3,6e7
3,4e7
3,2e7
3e7
2,2e5
2,6e5
3e5
3,4e5
3,8e5
4,2e5
TAMANHO DA CACHE
O que significa o coeficiente angular neste caso? E o coeficiente

linear?
Faa uma predio para o nmero de bytes transferidos para tamanho
de cache igual a 270.000 bytes.
20
Exemplo: os dados abaixo indicam o valor y do aluguel e a idade x de 5 casas.

x
10
13
5
7
20
y
4
3
6
5
2
Equao de regresso:
y 6,87 0,261x
Faa o grfico dos pontos e da reta ajustada. Voc acha que o modelo adotado razovel?
O que significa o coeficiente

angular neste caso? E o coeficiente
linear?
Faa uma previso para o valor do
aluguel para idade de 13 anos.
21
Observaes:
um modelo de regresso pode conter duas ou mais variveis preditoras (X1, X2,...,Xp-1);
o modelo de regresso no precisa ser uma linha reta:
Y 0 1 X 2 X 2
Chama-se modelo quadrtico ou de 20 grau, cuja figura uma parbola. Esse modelo, embora no
seja uma linha reta, continua sendo um modelo linear nos parmetros. O mtodo que ser discutido
para o modelo de regresso linear simples aplica-se diretamente aos demais modelos lineares nos
parmetros.
22
Outro exemplo: o tempo de coleta de lixo (garbage collection time) para um

particular algoritmo foi mensurado para diversos valores de heap size.
Scatterplot (GARBAGE.STA 10v*10c)

y=1321,483-2,208*x+0,001*x^2+eps
GARBAGE COLLECTION TIME
600
500
400
300
200
100
0
400
600
800
1000
1200
1400
1600
HEAP SIZES
23
Modelo no linear nos parmetros. Exemplo: modelo de crescimento logstico, onde X o

tempo.
Y 1 e 3X
2
necessrio estudar mtodos para modelos no lineares.
Exemplo computao: modelo potncia, y=bxa, onde X a velocidade do processador e Y

a taxa I/O.
24
Modelos de regresso alternativos

As vezes torna-se conveniente (p.e. facilidade de clculos) escrever o modelo
de regresso linear (2) de forma diferente, embora equivalentes. Seja X0 uma
varivel dummy identicamente igual a 1. Ento, temos o modelo que associa
uma varivel X a cada parmetro do modelo:
Yi 0 X 0 1 X 1 i onde X 0 1
Uma outra alternativa usar para a v. preditora os desvios (Xi-Mdia(X)) ao invs
de Xi. Para no modificarmos o modelo (2), escrevemos:
Yi 0 1 ( X i X ) 1 X i
Yi 1 ( X i X ) i
*
0
0 1 X
*
0
25
Estimao da funo de regresso

Denotamos as observaes (Xi,Yi) para a primeira repetio como (X1,Y1), para a segunda como
(X2,Y2), e para a i-sima como (Xi,Yi), com i=1,2,..,n.
Exemplo: uma pesquisadora est estudando o comportamento de Staphilococcus aureus (Y) em
frango, mantido sob condies de congelamento domstico (-18 oC) ao longo do tempo (X) (dias).
Tempo
Populao
0
3,114
7
3,568
14
2,845
21
3,079
28
2,699
35
2,663
Notao: temos n=6 observaes. O tamanho da populao (ufc/cm2) dado em log10.
Mtodo dos mnimos quadrados

Para observaes (Xi,Yi) i=1,..,n, temos o modelo
Yi 0 1 X i i
i 1,.., n
Desejamos ajustar o modelo, estimando os parmetros 0 e 1.

O mtodo de mnimos quadrados considera os desvios de Yi em relao ao seu valor esperado
(E(Yi)):
Yi ( 0 1 X i )
26
Elevando-se ao quadrado esses desvios e aplicando-se o somatrio, temos o critrio Q

n
Q Yi 0 1 X i
(10)
i 1
De acordo com o mtodo de mnimos quadrados, os estimadores de 0 e 1 so os valores b0 e

b1, respectivamente, que minimizam o critrio Q para a amostra (X1,Y1),..,(Xn,Yn).
6,5
e3
5,5
VALOR
4,5
e1
3,5
e2
2,5
1,5
e5
2
10
14
18
22
IDADE
27
Estimadores de mnimos quadrados

Os valores de 0 e 1 que minimizam o critrio Q podem ser obtidos diferenciando-se (10) em
relao a 0 e 1 , portanto, obtemos:
Q
0
Q
1
2 (Yi 0 1 X i )
i 1
n
2 X i (Yi 0 1 X i )
i 1
Iguala-se a zero as derivadas parciais, usando b0 e b1 para denotar valores particulares de 0

e 1que minimizam Q.
28
2 (Yi b0 b1 X i ) 0
i 1
n
2 X i (Yi b0 b1 X i ) 0
i 1
simplificando e expandindo, obtemos :

n
(Y b
i
i 1
b1 X i ) 0
X (Y b
i
i 1
Y nb
i 1
b1 X i ) 0
n
b1 X i 0
i 1
X Y b X
i i
i 1
i 1
b
X
i
1
i 0
i 1
Fazendo-se as derivadas
parciais de segunda ordem,
indicar que um mnimo foi
encontrado com os estimadores
b0 e b1.
Da, obtemos o sistema de equaes normais, dado por:

n
Y
i 1
nb0 b1 X i
i 1
XY
i 1
i 1
i 1
b0 X i b1 X i2
29
As equaes normais podem ser resolvidas simultaneamente para b 0 e b1(estimadores pontuais):

( X X )(Y Y )
b1 (i X X i) 2
i
b0 1n Yi b1 X i Y b1 X
Outra forma de escrevermos:

X Y
XY n
b1
X 2
2
X
30
Exemplo: a pesquisadora deseja encontrar o modelo de regresso da

porcentagem de acertos sobre o tamanho da cache.
Tamanho da
cache (X)
Porcentagem
de acertos (Y)
Total = 3900000
584,52
Mdia = 325000
48,71
(Xi X )
(Yi Y )
( X i X )(Yi Y )
2408500
(X i X )2
(Yi Y ) 2
37500000000
181,438
31
( X i X )( Yi Y )
b1
2
(
X
X
)
i
2408500
37500000000
0 ,0000642
b0 Y b1 X 48 ,71 ( 0 ,0000642 )( 325000 ) 27 ,845

Assim, estimamos que a porcentagem de acerto da cache
aumenta cerca de 0,00006 % para cada byte do tamanho da
cache.
32
33
Sada do Statistica:
34
Exemplo: a pesquisadora deseja encontrar o modelo de regresso do tempo

sobre a populao de bactrias.
Tempo (X)
Populao (Y)
(X i X )
(Yi Y )
0
7
14
21
28
35
Total = 105
3,114
3,568
2,845
3,079
2,699
2,663
17,968
-17,5
-10,5
-3,5
3,5
10,5
17,5
0
0,119
0,573
-0,150
0,084
-0,296
-0,332
0
Mdia = 17,5
2,9947
( X i X )(Yi Y ) ( X i X ) 2
-2,088
-6,020
0,524
0,295
-3,105
-5,805
-16,199
306,250
110,250
12,250
12,250
110,250
306,250
857,5
(Yi Y ) 2
,014
,329
,022
,007
,087
,110
0,569
( X i X )(Yi Y )
16 ,199
b1
-0,018890
2
857
,
5
(
X
X
)
i
b 0 Y b1 X 2,9947 (0,0189)(17,5) 3,32545
Assim, estimamos que o tamanho da populao de bactrias diminui cerca

de 0,0189 ufc/cm2 para cada dia.
35
Sada do STATISTICA:
Regression Summary for Dependent Variable: POP
R= ,73274116 R= ,53690961 Adjusted R= ,42113702
F(1,4)=4,6376 p<,09760 Std.Error of estimate: ,25686
St. Err.
St. Err.
BETA of BETA
B
of B
t(4)
p-level
Intercpt
3,325238 ,185902 17,88708 ,000057
TEMPO -,732741 ,340254 -,018890 ,008772 -2,15351 ,097596
36
Propriedades dos estimadores de mnimos quadrados

Teorema de Gauss-Markov: Se as pressuposies do modelo de regresso linear (2) forem
atendidas, os estimadores de mnimos quadrados b0 e b1 so no tendenciosos (unbised) e com
varincia mnima, entre todos os estimadores lineares no tendenciosos. Primeiro, o teorema
diz que:
E(b0)=0 e E(b1)=1. (Demonstrao adiante)
Segundo, o teorema diz que os estimadores b0 e b1 so mais precisos (isto , as suas distribuies
amostrais tem menor variabilidade) do que quaisquer outros estimadores pertencentes a classe dos
estimadores no tendenciosos que so funes lineares das observaes Y1, Y2,...,Yn. Os
estimadores b0 e b1 so tais funes lineares das observaes. Considere, por exemplo, b1,
( X i X )(Yi Y )
( X i X )Yi
b1
( X X ) 2 kiYi
2
(
X
X
)
i
i
ki
( Xi X )
( X i X )2
Como ki so constantes (pois Xi so constantes conhecidas), b1 uma combinao linear de

Yi e, assim, um estimador linear. Da mesma forma, b0 tambm um estimador linear.
Entre todos os estimadores lineares no tendenciosos, b0 e b1 tem menor variabilidade
(demonstrao adiante) em repetidas amostras nas quais os nveis de X so constante.
37
Estimao pontual da resposta mdia

Estimao da funo de regresso
A mdia do modelo de regresso linear dada por:
E (Y ) 0 1 X
Estima-se a funo de regresso por:
Y b0 b1 X
Onde Y (chapu) o valor estimado da funo no nvel X da varivel preditora.
A resposta mdia (E(Y)), corresponde a mdia da distribuio de probabilidade de Y no nvel X
da varivel preditora. Pode-se demonstrar, como uma extenso do teorema de Gauss-Markov
que Y (chapu) um estimador no tendencioso de E(Y), com varincia mnima dentro da classe
dos estimadores lineares no tendenciosos. Temos:
Yi b0 b1 X i
i 1,2,..., n
como sendo o valor ajustado para o i-simo caso.
38
Exemplo: para os dados de porcentagem de acerto na cache, os

valores estimados da funo de regresso so dados por:
Y 27 ,83633 0 ,0000642 X
Suponha que estejamos interessados na porcentagem mdia
de acerto na cache para X=300.000 bytes (muitas amostras
com 300.000 bytes sob as mesmas condies que a equao
foi estimada); a estimativa pontual vale:
y 27 ,83633 0 ,0000642( 300000 ) 47 ,10

Valores ajustados dos dados da amostra so obtidos
substituindo-se os correspondentes valores da varivel preditora
X na funo de regresso.
39
Sada do Statistica:
40
Exemplo: para os dados de staphilococcus aureus em frango, os valores estimados da funo de

regresso so dados por:
Y 3,325 0,019 X
Suponha que estejamos interessados na populao mdia (muitas amostras com 21 dias de
armazenamento sob as mesmas condies que a equao foi estimada) de bactrias para
X=21 dias de armazenamento; a estimativa pontual vale:c
y 3 ,325 0 ,019( 21 ) 2 ,926

Valores ajustados dos dados da amostra so obtidos substituindo-se os correspondentes valores
da varivel preditora X na funo de regresso.
Sada do STATISTICA:
Predicted & Residual Values (staphilo.sta)
Dependent variable: POP
Observed Predictd
Value
Value
Residual
1
3,114000 3,325238 -,211238
2
3,568000 3,193010 ,374990
3
2,845000 3,060781 -,215781
4
3,079000 2,928552 ,150448
5
2,699000 2,796324 -,097324
6
2,663000 2,664095 -,001095
Minimum 2,663000 2,664095 -,215781
Maximum 3,568000 3,325238 ,374990
Mean
2,994667 2,994667 ,000000
Median
2,962000 2,994667 -,049209
Standard
Pred. v.
1,33631
,80178
,26726
-,26726
-,80178
-1,33631
-1,33631
1,33631
-,00000
0,00000
Standard
Residual
-,822385
1,459902
-,840072
,585718
-,378898
-,004263
-,840072
1,459902
,000000
-,191581
Std.Err.
Pred.Val
,185902
,139567
,109264
,109264
,139567
,185902
,109264
,185902
,144911
,139567
Mahalns.
Distance
1,785714
,642857
,071429
,071429
,642857
1,785714
,071429
1,785714
,833333
,642857
Cook's
Distance
,781146
,633439
,095181
,046269
,042668
,000021
,000021
,781146
,266454
,070725
41
Modelo alternativo
Quando o modelo utilizado :
Yi 0* 1 ( X X ) i
O estimador b1 de 1 permanece o mesmo. O estimador de
0* 0 1 X dado por :
b0* b0 b1 X (Y b1 X ) b1 X Y
Temos:
Y Y b1 ( X X )
Exemplo: obter o valor ajustado para X=300.000 bytes de

cache..
Exemplo: para os dados de staphilococcus aureus em frango
obter o valor ajustado para X1=0 dia de armazenamento..
42
Resduos
O i-simo resduo a diferena entre o valor Yi e o
correspondente valor ajustado Y (chapu)i.
ei Yi Yi
Vemos que o resduo para o primeiro caso, exemplo de
pop. de Staphilococcus, sada do statistica, dado por:
e1 Y1 Y1 3,114000 - 3,325238 -,211238

Exemplo: para os dados de porcentagem de acerto na cache, o resduo para o
primeiro caso vale:
e1 Y1 Y1 44 ,45 - 43,886 0,564
43
Distino:
i Yi E(Yi ) o desvio de Y da verdadeira equao de regresso (desconhecida)

i
e assim desconhecido.
ei Yi Yi
o desvio de Yi do valor ajustado Yi (chapu) na equao de regresso

estimada, portanto, conhecido.
Os resduos so extremamente teis para verificar se um determinado modelo de regresso

apropriado para os dados. Este assunto ser tratado mais adiante neste curso.
0,45
para os dados de
staphilococcus aureus em
frango
R e s d u o s
0,30
0,15
0,00
-0,15
-0,30
-5
10
15
TEMPO
20
25
30
35
40
Regression
95% confid.
44
Raw residuals vs. TAMANHOC

Raw residuals = -,0000 + 0,0000 * TAMANHOC
Correlation: r = ,00000
3
2
RESDUOS
1
0
-1
-2
-3
2,2e5
2,6e5
3e5
3,4e5
3,8e5
4,2e5
Regression
95% confid.
TAMANHO DA CACHE
45
Propriedades do modelo ajustado: Y b0 b1 X

1.
e ( Y b
i
i 1
b1 X i ) Yi nb0 b1 X i 0
( devido a primeira equao normal ) (Veja said a do STATISTIC A)

2.
e
i 1
2
i
mnima (condio do mtodo de MQO)

n
3.
Y Y
i 1
4.
i 1
X e
i 1
5.
i i
Y e
i 1
i i
(Veja sad a do STATISTIC A)
0 (ponderados)
0 (ponderados)
6. Y Y b1( X X ) Y b1 ( X X ) Y (para X X)
( a linha de regresso sempre passa pelo ponto (X;Y ) )
46
Estimao da varincia ( 2)
A varincia, 2, dos erros, i, no modelo de regresso (2) precisa ser estimado para obter uma
indicao da variabilidade da distribuio de probabilidade de Y. Necessrio para inferncias.
Lembrete: a varincia de cada observao Yi para o nosso modelo de regresso 2, a mesma de
cada i.
Precisamos calcular a soma de quadrados de desvios, considerando que cada Yi vem de diferentes
distribuies de probabilidade com diferentes mdias que dependem do nvel de Xi; as mdias so
estimadas por Yi(chapu). Assim os desvios so os resduos:
ei Yi Yi
A soma de quadrados do erro (resduo), SQE, dada por:

n
i 1
i 1
SQE (Yi Yi ) 2 ei2

Dois graus de liberdade so perdidos para estimar os parmetros 0 e 1. O quadrado mdio do
erro dado por (QME):
SQE
QME
n2
Temos que o QME um estimador no tendencioso de 2
(prova adiante) pois
E (QME ) 2
47
Exemplo: para os dados de Staphilococcus aureus em frango, temos:
SQE 0 ,2639
com 6 - 2 4 graus de liberdade, assim
QME 0 ,2639 / 4 0 ,0659 (Estimativa da varincia)
Estimativa de 0 ,0659 0 ,2567 ufc (desvio padro)
(Desvio padro da distribuio de Y para qualquer X)
Exemplo: para os dados de tamanho de cache, temos:

SQE 25,7385
com 12 - 2 10 graus de liberdade, assim
QME 25,7385 / 10 2,57385
Estimativa de 2,57385 1,6043% (desvio padro)
(Desvio padro da distribuio de Y para qualquer X)
48
Modelo de regresso com erros normais

Para construir intervalos de confiana e fazer testes de hipteses ns devemos
considerar alguma distribuio de probabilidade para os i. Uma distribuio
que tem um apelo prtico e terico bastante grande a distribuio normal e
que ser utilizada neste curso.
O modelo de regresso dado por:
Yi 0 1 X i i
i 1,.., n
Yi o i-simo valor observado da varivel resposta;

0 e 1 so os parmetros;
Xi o i-simo valor da varivel preditora ( uma constante
conhecida, fixo).
i o termo do erro aleatrio, independentes com distribuio
49
N(0, 2).
Independentes: no sentido que eles no so relacionados de qualquer modo, por exemplo, so

provenientes de diferentes cpus, diferentes indivduos, diferentes animais, etc. Os registros
num banco de dados so independentes.
Como assumimos para o modelo de regresso que os erros so normalmente distribudos, a

suposio que os erros i no so correlacionados, feita no modelo inicial, transforma-se na
suposio de independncia no modelo com distribuio normal.
O modelo implica que Yi so variveis aleatrias independentemente distribudas segundo uma

normal com mdia E(Yi)=0+ 1Xi e varincia 2. Para cada valor Xi, podemos pensar em todos
os valores possveis de Yi e sobre a sua variabilidade. Esta suposio diz que, seja qual for o
valor de Xi, a variabilidade nos possveis valores de Y a mesma.
Para cada valor Xi, podemos pensar que todos os valores assumidos por Y podem ser bem
representados por uma distribuio normal.
50
Estimao dos parmetros pelo mtodo da mxima

verossimilhana
Como foi especificado uma distribuio de probabilidades para os erros podemos obter
estimadores para 0, 1 e 2 pelo MMV.
O mtodo de mxima verossimilhana determina como estimativas de mxima verossimilhana,
os valores de 0, 1 e 2 os quais produzem o maior valor para a verossimilhana.
Em geral, a densidade de uma observao Yi para o modelo de regresso com erros normais,
utilizando o fato de que E(Yi)=0+ 1Xi e varincia 2 dada por :
fi
1
2
exp
2
1 Yi 0 1 X i
2
A funo de verossimilhana para n observaes Y1, Y2,...,Yn, o produto das densidades

individuais ( a conjunta). Como a varincia 2 dos erros desconhecida, a conjunta uma funo
de trs parmetros, 0, 1 e 2 :
51
L( 0 , 1 , ) ( 212 )1 / 2 exp 21 2 (Yi 0 1 X i ) 2

2
i 1
1
( 2 2 )n/ 2
exp 2 1 2 (Yi 0 1 X i )2
i 1
Devemos encontrar valores de 0, 1 e 2 que maximizam a funo de verossimilhana L,

calculando-se as derivadas parciais de L com respeito a 0, 1 e 2 e igualando cada derivada parcial
a zero e resolvendo o sistema de equaes obtido. Podemos trabalhar com logeL ao invs de L, pois
ambos so maximizadas para os mesmos valores de 0, 1 e 2 :
log e L n2 log e 2 n2 log e 2 21 2 (Yi 0 1 X i ) 2
As derivadas parciais do logaritmo da funo de verossimilhana, so dadas por:
(log e L) 1
2
0
(Y
(log e L) 1
2
1
X (Y
(log e L)
n
1
2
2 2 2 4
1 X i )
0
1 X i )
(Y
i
1 X i ) 2
52
Agora, fazemos as derivadas parciais iguais a zero, substituindo 0, 1 e 2 pelos estimadores
0 , 1 e 2
Obtemos:
(Y X ) 0
X (Y X ) 0
i
(Yi 0 1 X i )
n
As duas primeiras equaes so idnticas as equaes normais encontradas pelo mtodo de

mnimos quadrados. O MMV produz um estimador viesado para 2.
Parmetro
Estimador de mxima verossimilhana
0 b0
b
(Y Y ) 2
2 ni i
Os estimadores de 0, e 1 so os mesmos do mtodo de mnimos quadrados. O estimador de

mxima verossimilhana de 2 viesado,ou seja,.
( n 1 ) 2
E( )
n
2
53
Comentrios:
1) como os estimadores de mxima verossimilhana de 0,e 1 so os mesmos do mtodo
de mnimos quadrados, eles tem as mesmas propriedades de todos os estimadores de
mnimos quadrados:
a) so no viesados;
b) tem varincia mnima entre todos os estimadores lineares no tendenciosos;
alm disso, os estimadores de mxima verossimilhana b0 e b1 para o modelo de regresso
com erros normais tem outras propriedades desejveis:
c) so consistentes;
lim P (| | ) 0 0
n
d) so suficientes;
fY| ( y | ) no depende de .
***
Fazer lista de exerccios nmero 1.
54
Inferncia na anlise de regresso

Intervalos de confiana
Testes de hipteses:
Assumimos o modelo:
Yi 0 1 X i i
i 1,.., n
(3)
0 e 1 so os parmetros;
Xi so constantes conhecidas, fixas.
i so independentes com distribuio N(0, 2).
55
Inferncias para 1
encontrar intervalos de confiana para 1
fazer testes de hipteses com relao a 1, por exemplo:
H 0 : 1 0
H a : 1 0
No h associao
entre X e Y.
Para realizar inferncias sobre 1, precisamos conhecer a distribuio amostral de b1, o estimador
pontual de 1.
Distribuio amostral de b1
O estimador pontual dado por:
( X i X )(Yi Y )
b1
( X i X )2
A distribuio amostral de b1 refere-se aos diferentes valores de b1 que seriam obtidos com
muitas amostras para um mesmo nvel da varivel preditora X (constante).
56
Normalidade: a normalidade da distribuio amostral de b1 segue do fato de que b1 uma

combinao linear dos Yi.Os Yi so independentes, com distribuio normal. Uma combinao linear
de variveis aleatrias independentes, com distribuio normal, tambm tem distribuio normal.
b1 como combinao linear de Yi.
( X X )(Y Y )
b1 i( X X i)2
i
( X X )Y ( X X )Y
b1 i ( Xi X )2 i
i
( X X )Y Y
( X X )
b1 i ( Xi X)2 i
i
( X X )Y
b1 ( Xi X )2i
i
b1 kiYi
ki
( Xi X )
( X i X )
Mdia:
E (b1 ) E kiYi ki E (Yi )

E (b1 ) ki ( 0 1 X i )
E (b1 ) ki 0 ki 1 X i
E (b1 ) 0 ki 1 ki X i
E (b1 ) 1 (no viesado)
Pois,
k 0
k X 1
i
(Demonstre )
Portanto, ki so funes de Xi que so valores

fixos.
57
Varincia:
(b1 )
2
k Y k
i i
(b1 ) k
2
(b1 )
2
2
i
2
i
2 (b1 ) 2
(Yi )
Xi X
ki2
2
k
i
2
i
X
2
X X
2 2
i X
1
Xi X 2
ki2
i X
Podemos estimar a varincia da distribuio amostral de b1 substituindo 2 pelo quadrado mdio

residual (QME). O estimador s2(b1) um estimador no tendencioso de 2 (b1).
s (b1 )
2
QME
X
i
58
Nota:
Na seo propriedades dos estimadores de mnimos quadrados dissemos que b1 tem a
menor varincia entre todos os estimadores lineares no tendenciosos da forma
1 ciYi
ci so constantes arbitrrias
1 b1
1 no tendencioso :
E ( 1 ) E ( ciYi ) ci E (Yi ) ci ( 0 1 X i ) 0 ci 1 ci X i 1
Restries:
0 e
c X
i
Varincia de 1 : 2 ( 1 ) ci2 2 (Yi ) ci2 2 2 ci2

Seja ci=ki + di, onde ki so como anteriormente e os di so constantes arbitrrias.
Ento:
2
2
2
2
2
(k
di )
2 (b1 )
d i 2 k i d i
Zero (Verifique)
59
Finalmente, temos:
2 ( 1 ) 2 (b1 ) 2 d i2
2
Observamos que a menor varincia do estimador ( 1) obtida quando d i 0 .Isto
ocorre quando todos os di=0, isto implica que ci ki. Assim, o estimador de mnimos
quadrados b1 tem varincia mnima entre todos os estimadores lineares no tendenciosos.
Distribuio amostral de (b1- 1)/s(b1)

Como b1 tem distribuio normal, sabemos que a estatstica padronizada (b1-1)/(b1) uma
varivel aleatria com distribuio normal padro. Para estimar (b1) usamos s(b1) e, assim
precisamos conhecer a distribuio da estatstica (b1-1)/s(b1) [estatstica studentizada].
Teorema:
b1 1
s ( b1 )
~ t(n - 2)
para o modelo (3)
Demonstrao:
Podemos escrever a estatstica como:
b1 1
( b1 )
s ( b1 )
( b1 )
O numerador uma varivel normal padro z. Para o denominador, temos:
60
QME
s 2 ( b1 )
2
( b1 )
Portanto,
2
( X i X )2
( X i X )2
b1 1
s ( b1 )
QME
SQE
n 2
2
2 ( n2) ~
SQE
(2n2 )
( n2)
Teorema: para o modelo (3),

SQE/2 distribudo como
2 com n-2 gl e
independente de b0 e b1.
z
2 ( n2 )
( n2 )
Como z e 2 so independentes pois z uma funo de b1 e b1 independente de SQE/2 ~ 2.

Assim (A definio est no apndice):
b1 1
s ( b1 )
~ t ( n 2).
Agora podemos fazer inferncias sobre 1.
61
Intervalo de confiana para 1

Desde que (b1-1)/s(b1) tem distribuio t,podemos fazer a seguinte afirmao probabilstica:
P{t ( / 2; n 2) (b1 1 ) / s(b1 ) t (1 / 2; n 2)} 1
/2=0,25
t=-1
1=0,50
/2=0,25
t=1
62
t(/2;n-2) representa o (/2)100 percentil da distribuio t com n-2 g.l.

t(/2;n-2) = - t(1-/2;n-2) (devido a simetria da distribuio t)
Rearranjando as desigualdades obtemos:
P (b1 t (1 / 2; n 2) s(b1 ) 1 b1 t (1 / 2; n 2) s(b1 )) 1 .

O intervalo de confiana dado por:
b1 t (1 / 2; n 2) s (b1 )
Exemplo: considere os dados de populao de Staphilococcus aureus, a pesquisadora deseja
encontrar o intervalo para 1 com confiana de 95%.
s 2 (b1 )
QMR
0 , 0659
857 , 5
0,0000769
s (b1 ) 0,008772
(X X )
t (0,975;4) 2,776
Usar software
0,019 2,776(0,008772) 1 0,019 2,776(0,008772)

0,0434 1 0,0623
Muito importante
Interpretao: estimamos que a populao de Staphilococcus cresce entre -0,0434 e

0,0623 unidade/dia.
63
Exemplo: considere os dados de porcentagem de acerto na

cache, a pesquisadora deseja encontrar o intervalo para 1 com
confiana de 95%.
s 2 ( b1 )
QMR
( X X )2
2 ,5738
37500000000
0 ,000000000068635
s( b1 ) 0 ,0000083
t ( 0 ,975 ;10 ) 2 ,228
Usar software
0 ,0000642 2 ,228( 0 ,0000083 ) 1 0 ,0000642 2 ,228( 0 ,0000083 )

0 ,0000457 1 0 ,0000827
Muito importante
Interpretao: estimamos que a porcentagem de acertos

aumenta entre 0,0000457 e 0,0000827 % por byte do
tamanho da cache.
64
Teste de hipteses para 1

Vimos que (b1-1)/s(b1) tem distribuio t(n-2).O teste de hiptese
sobre 1 pode ser feito de maneira padro usando a distribuio de
Student.
Teste bilateral
Hipteses:
H 0 : 1 0
H a : 1 0
65
Exemplo: a pesquisadora deseja saber se existe regresso linear

entre a porcentagem de acertos na cache e o tamanho da cache,
ou seja, se 10 ou no.
[Como o intervalo de confiana construdo anteriormente no
inclui o valor 0 (o valor da hiptese nula), devemos rejeitar a
hiptese nula (H0). Isto vlido quando o teste bilateral].
66
Exemplo: a pesquisadora deseja saber se existe regresso linear

entre populao de bactrias e o tempo de armazenamento, ou
seja, se 10 ou no.
[Como o intervalo de confiana construdo anteriormente inclui o
valor 0 (o valor da hiptese nula), devemos aceitar a hiptese nula
(H0)].
Teste estatstico formal:
t*
b1 1
s ( b1 )
Critrio do teste: estamos controlando a probabilidade de erro

tipo I ().
Se | t * | t (1 / 2; n 2), no rejeita - se H 0
Se | t * | t (1 / 2; n 2), rejeita - se H 0
67
Exemplo: para os dados de porcentagem de acerto na cache,

com =0,05, b1=0,0000642 e s(b1)=0,0000083, temos:
t
*
0 ,0000642 0
0 ,0000083
7 ,735
O valor de t de tabela vale: t(0,975;10)=2,228, como |7,735| maior

do que 2,228 rejeita-se a hiptese nula e conclumos que existe uma
associao linear entre a porcentagem de acertos na cache e o
tamanho da cache.
68
Exemplo: para os dados de populao de Staphilococcus

aureus, com =0,05, b1=-0,019 e s(b1)=0,008772, temos:
t
*
0 , 019 0
0 , 008772
2,166
O valor de t de tabela vale: t(0,975;4)=2,776, como |-2,166|

menor do que 2,776 aceita-se a hiptese nula e conclumos que no
existe uma associao linear entre a populao de Staphilococcus
aureus e o tempo de armazenamento.
Valor p: o menor valor de para o qual rejeitamos a hiptese
nula. Se o pesquisador fixar =0,05, ento, para um valor p 0,05
no rejeita-se H0, caso contrrio, rejeita-se H0. Formalmente fica:
P ( t t * ) valor p
Valor p tambm denominado de nvel descritivo ou nvel de

significncia observado.
69
Sada do Statistica: dados de porcentagem de acertos na cache. As

diferenas verificadas so devidas s aproximaes nos clculos.
70
* * Com o uso do Statistica, para os dados de porcentagem de

acerto na cache, encontrar a probabilidade de se rejeitar a
hiptese nula, quando ela verdadeira.
P(| t | 7,7525) 0,000015
P(t 7,7525) p (t 7,7525) 0,000008 0,000008 0,000016
Ateno: verificar se o software d o valor p para o teste uni

ou bilateral
71
Sada do Statistica: dados de populaes de Staphilococcus a diferena verificada entre -2,166 e

-2,15351 devido aproximaes nos clculos.
* * Com o uso do Statistica, encontrar a probabilidade de se rejeitar a hiptese nula, quando ela
verdadeira.
P (| t | 2,166) 0,0962
P (t 2,166) p (t 2,166) 0,04812 0,04812 0,09624
Ateno: verificar se o
software d o valor p para
o teste uni ou bilateral
72
Teste unilateral:
O pesquisador deseja, por exemplo, testar se 1 negativo,
controlando o nvel de significncia =0,05.
H 0 : 1 0
H a : 1 0
Regra de deciso:
Se t* t ( ; n 2 ), no rejeita - se H 0
Se t* t ( ; n 2 ), rejeita - se H 0
Exemplo: para os dados de Staphilococcus temos, para =0,05,
t(0.05;4)=-2,132. Como t*=-2,166, rejeita-se a hiptese de
nulidade, portanto 1 negativo.
Valor p P t t*
73
Nas publicaes, indicar o nvel descritivo juntamente com o valor

da estatstica teste. Podemos realizar o teste estatstico para
qualquer nvel de significncia , comparando o nvel descritivo
com o valor desejado de .
Comentrio: pode-se testar as seguintes hipteses:
H 0 : 1 10
H a : 1 10
Onde 10 um valor diferente de zero.
74
A estatstica teste dada por:
b1 10
t
s b1
Critrio do teste:
Se |t*| t(1- /2;n-2) no se rejeita H0
Se |t*| > t(1- /2;n-2) rejeita-se H0
75
Inferncias para 0
S tem interesse quando os nveis de X incluem X=0 (o que raro).
Distribuio amostral de b0
O estimador pontual b0 dado por:
b0 Y b1 X
A distribuio amostral de b0 refere-se aos valores diferentes de b0 que seriam obtidos com
diferentes amostras para o mesmo valor de X (constante).
A distribuio amostral de b0 normal
Mdia:
E (b0 ) 0
Varincia:
(b0 )
2
(Demonstrao prxima pgina)
1
n
X2
( X i X )2
A normalidade verificada pois b0 uma combinao linear das observaes Yi.

Um estimador para 2(b0) obtido substituindo-se 2 pelo seu estimador pontual, QME.
Distribuio amostral de (b0- 0)/s(b0)

Teorema:
b0 0
s ( b0 )
~ t ( n 2)
podemos usar a distribuio t para construir

os IC e fazer os testes de hipteses.
76
Demonstrao:
E( b0 ) E( Y b1 X ) E( Y ) E( b1 X )
Y XE( b1 ) 0 1 X X1
0 (cqd).
77
Intervalo de confiana para 0

b0 t (1 / 2; n 2) s (b0 )
Exemplo: para os dados de Staphilococcus, como temos tempo=0 (X=0), podemos estar
interessados em encontrar o IC para 0.
s 2 (b0 ) QME
X
1 17,52
1
0
,
0659
857,5 0,0345
n
2
( X i X )
s(b0 ) 0,1858
t (0,975;4) 2,776
3,3252 2,776(0,1858) 0 3,3252 2,776(0,1858)
2,8094 0 3,8410
Como o intervalo de confiana no inclui o valor zero (0), rejeitamos a hiptese:
H0 : 0 0
Ha : 0 0
78
Estimao intervalar para E(Yh)

Freqentemente, numa anlise de regresso, deseja-se estimar a
mdia de uma ou mais distribuies de probabilidade de Y.
Exemplo: No estudo da relao entre o tamanho da cache (X) e
porcentagem de acerto (Y), a porcentagem mdia de acerto para
tamanhos maiores de cache pode ser de interesse. Outro exemplo,
um agrnomo pode estar interessado na produo mdia para
diversas doses de um nutriente, com o objetivo de encontrar a dose
tima.
Xh representa o nvel da varivel preditora para a qual se deseja
estimar a resposta mdia.
A resposta mdia para X=Xh representada por: E(Yh)
Sabemos que o estimador pontual Yh de E(Yh) dado por:
Yh b0 b1 X h
79
Distribuio amostral de Y(chapu)h

Diferentes valores de Y(chapu)h que seriam obtidos se repetidas amostras
fossem selecionadas, para X constante, e calculando Y(chapu)h para cada
amostra.
Distribuio normal: para o modelo de regresso com erros normais, a
distribuio amostral de Y(chapu)h normal. A normalidade segue
diretamente do fato que Y(chapu)h , assim como b0 e b1, uma combinao
linear das observaes Yi.
Mdia
E (Yh ) E (b0 b1 X h ) E (b0 ) X h E (b1 ) 0 1 X h E (Yh )
80
Varincia
Para obter 2(Y(chapu)h), primeiro mostraremos que b1 e
modelo de regresso com erros normais, independentes:
Y no so
correlacionados e sob o
(b1 ; Y ) 0
Definimos:
1
n
Yi
b1 kiYi
ki
Xi X
( X i X )
Atravs do teorema A.32 (Neter et al., pgina 668, 1996) com ai=1/n e ci=ki e lembrando que
Yi so variveis aleatrias independentes:
(Y ; b1 ) ( )ki (Yi )
1
n
2
n
Para a demonstrao da varincia de Y(chapu)h vamos utilizar o modelo:
Yi 0* 1 ( X i X ) i
81
2 (Yh ) 2 (Y b1 ( X h X ))
2 (Yh ) 2 (Y ) ( X h X ) 2 2 (b1 )
(Y e b1 so independentes; X n e X constantes)
(b1 )
2
(Y )
2
( X h X )2
2
2 (Yh ) n ( X h X ) 2
(Yh ) 2
2
1
n
2 (Yi )
n
( X h X )2
2
( X i X )2
( X i X )
2
Distribuio amostral de (Yh E (Yh )) / s(Yh )

Yh E (Yh )
s (Y )
h
~ t (n 2)
Intervalo de confiana para E(Yh)
Yh t (1 / 2; n 2) s (Yh )
82
Exemplo: vamos encontrar um intervalo com confiana de 95% para E(Yh) para tamanho de
cache X=300.000 bytes. Temos:
27 ,83633 0 ,0000642( 300000 ) 47 ,10

0 ,25738
s ( Y ) 2 ,5738
300000
( 300000 325000 )2
37500000000
1
12
s( Y ) 0 ,5073263
h
t ( 0 ,975 ;10 ) 2 ,228

47 ,10 2 ,228( 0 ,5073263 ) E( Y
) 47 ,10 2 ,228( 0 ,5073263 )
300000
45 ,9697 E( Y
300000
) 48 ,2303
Interpretao: temos 95% de confiana que a porcentagem mdia de acertos, com 300.000 bytes
de tamanho de cache, est entre 45,9697 e 48,2003%. Um intervalo com boa preciso.
Exerccio: encontrar o intervalo com confiana de 95% para E(Yh) para tamanho de cache
X=200.000. Compare as amplitudes dos intervalos.
83
Exemplo: para os dados de populao de bactrias, vamos encontrar um intervalo com confiana
de 95% para E(Yh) para tempo X=14 dias. Temos:
Y14 3,325 0,019(14) 3,059
(14 17 , 5 ) 2
1
s (Yh ) 0,0659 6 857,5 0,0119

2
s(Yh ) 0,1091
t (0,975;4) 2,776
3,059 2,776(0,1091) E (Y14 ) 3,059 2,776(0,1091)
2,7561 E (Y14 ) 3,3619
Interpretao: temos 95% de confiana que a populao mdia de bactrias, com 14 dias de
armazenamento, est entre 2,7561 e 3,3619 ufc (em log base e).
Exerccio: encontrar o intervalo com confiana de 95% para E(Yh) para tempo X=0. Compare
as amplitudes dos intervalos.
84
Predio de uma nova observao

Exemplo: 1) a pesquisadora deseja predizer a porcentagem de acertos
na cache para um tamanho de cache igual a 375.000 bytes; 2) a
pesquisadora deseja predizer a populao de bactrias para um tempo
especfico igual a 15 dias.
Portanto, desejamos predizer uma nova observao, Y, vista como
resultado de um novo ensaio, independente dos ensaios nos quais
anlise de regresso foi feita.
Notao: denotamos o nvel de X para o novo ensaio como Xh e a
nova observao em Y como Yh(novo). Assumimos que o modelo de
regresso continua vlido para a nova observao.
A diferena entre estimar uma resposta mdia, E(Yh) e fazer a
predio de uma nova observao, Yh(novo), que no primeiro caso
estimamos a mdia da distribuio de Y. Agora, vamos predizer uma
85
resposta individual da distribuio de Y.
Intervalo de predio para Yh(novo)

Os limites de predio para uma nova observao Yh(nova) para um dado Xh so obtidos atravs do do
seguinte teorema :
Yh ( novo ) Yh
s ( pred )
~ t (n 2)
Isto para o modelo de regresso com erros normais.

Note que a estatstica usa Y(chapu)h no numerador ao invs de E(Yh). O desvio padro estimado,
s(pred), obtido como segue:
A diferena no numerador, Yh(novo) - Y(chapu)h, pode ser visto como um erro de predio, com
Y(chapu)h sendo a melhor estimativa pontual do valor da nova observao, Yh(novo) . A varincia
desse erro pode ser obtida considerando que a nova observao e as n observaes, sobre as quais
Y(chapu)h est baseada, so independentes. Considerando o teorema A.31b (Neter et. Al., pgina
668, 1996),
temos:
2
2
2
2
2
2
( pred ) (Yh ( novo ) Yh ) (Yh ( novo ) ) (Yh ) (Yh )

s 2 ( pred )) QME s 2 (Yh ) (estimador no tendencioso)
( X h X )2
1
s ( pred ) QME 1 n ( X X ) 2
i
2
O intervalo fica:
Yh t (1 / 2; n 2) s ( pred )
86
Exemplo: suponha que um novo tamanho de cache seja Xh=375000 bytes,e que a pesquisadora
deseja construir um intervalo de predio com 95% de confiana para Y375000(novo).
Y375000 27 ,83633 0 ,0000642( 375000 ) 51,91133

2
( 375000 325000 )2
1
s (Y
) 2 ,5738
0 ,3861
375000
12
37500000000
QME 2 ,5738
t ( 0 ,975 ;10 ) 2 ,228

s 2 ( pred ) 2 ,5738 0 ,3861 2 ,9599
s( pred ) 1,720436
51,91133 2 ,228( 1,720436 ) Y375000( novo ) 51,91133 2 ,228( 1,720436 )
48 ,0782 Y375000( novo ) 55 ,7445
Interpretao: podemos afirmar com 95% de confiana que o valor predito de porcentagem de
acertos, para tamanho de cache igual a 375000 bytes, est entre 48,0782 e 55,7445%.
O intervalo de predio similar ao intervalo de estimao, a diferena conceitual. Um intervalo
de estimao uma inferncia sobre um parmetro e um intervalo que procura conter o valor do
parmetro. O intervalo de predio, por outro lado, um conhecimento formal sobre um valor de
uma varivel aleatria, a nova observao Yh(novo).
87
Exemplo: suponha que um novo tempo de armazenamento seja Xh=15 dias,e que a pesquisadora
deseja construir um intervalo de predio com 95% de confiana para Y15(novo).
Y15 3,325 0,019(15) 3,040
(15 17 , 5 ) 2
1
s (Y15 ) 0,0659 6 857 ,5 0,0115

2
QME 0,0659
t (0,975;4) 2,776
s 2 ( pred ) 0,0659 0,0115 0,0774
s ( pred ) 0,2782
3,040 2,776(0,2782) Y15( novo ) 3,040 2,776(0,2782)
2,2677 Y15( novo ) 3,8123
Interpretao: podemos afirmar com 95% de confiana que o valor predito de populao de
bactrias, para tempo igual a 15 dias, est entre 2,2677 e 3,8123 ufc/cm2.
88
Faixa de confiana para a equao de regresso

til para verificar o ajuste da equao de regresso.
A faixa de confiana (1-) para a equao da reta correspondente ao modelo de regresso com erros
normais tem dois limites para qualquer nvel de Xh, cujos valores so dados por:
Yh Ws(Yh )
W 2 2 F (1 ;2, n 2)
Y b b X
h
s (Yh ) QME
2
1
n
( X h X )2
( X i X ) 2
Distribuio de F,
com 2 gl no
numerador e n-2 no
denominador, com
grau de confiana
1-
Calcula-se os valores dos limites para diversos nveis de Xh e aps faz-se o grfico.
89
Scatterplot (CACHE.STA 9v*12c)

y=27,836+6,423e-5*x+eps
58
PORCENTAGEM DE ACERTO
56
54
52
50
48
46
44
42
40
2,2e5
2,6e5
3e5
3,4e5
3,8e5
4,2e5
TAMANHO DA CACHE
Percebe-se que os valores da linha de regresso so estimados com boa

preciso.
90
Anlise de varincia da regresso

importante para anlise de regresso linear mltipla e outros modelos lineares. Para anlise de
regresso linear simples no traz nenhuma novidade.
91
Partio da soma de quadrados total
Yi Y ( Yi Y ) ( Yi Yi )
Desvio
total
Desvio da
equao
ajustada em
torno da mdia
Desvio em
torno da
equao
ajustada
Yi
E
T
R
Y
Xi
92
(
Y
Y
)
(
Y
Y
)
(
Y
Y
)
Demonstrao:
i
i
i
2
i 1
i 1
(Y Y )
n
i 1
(Yi Yi ) 2 2(Yi Y )(Yi Yi )

n
(Y Y ) (Y Y )
i 1
i 1
2 (Yi Y )(Yi Yi )
i 1
i 1
i 1
i 1
2 (Yi Y )(Yi Yi ) 2 Yi (Yi Yi ) 2Y (Yi Yi ) 0
(
Y
Y
)
(
Y
Y
)
(
Y
Y
)
i
i i
2
i 1
i 1
i 1
Soma de quadrados total:
SQT (Yi Y ) 2
i 1
Soma de quadrados do erro (ou resduo):
SQE (Yi Yi ) 2
i 1
Soma de quadrados da regresso:
SQR (Yi Y ) 2
i 1
(Parte da variabilidade de Yi que est associada com a regresso)
93
Graus de liberdade
A SQT tem n-1 graus de liberdade; um grau de liberdade perdido devido a restrio de que a soma
dos desvios em torno da mdia zero. De outra forma: um grau de liberdade perdido porque a
mdia da amostra usada para estimar a mdia populacional.
A SQE tem n-2 graus de liberdade. Dois graus de liberdade so perdidos pois dois parmetros so
estimados para obter Y(chapu)i.
A SQR tem 1 grau de liberdade. Dois g.l. esto associados com a regresso (2 parmetros); um deles
perdido devido a restrio: (Yi Y ) 0.
Os graus de liberdade so aditivos: (n-1)=1+(n-2)
Quadrados mdios
A soma de quadrados dividida pelos graus de liberdade chamada de quadrado mdio.
QMR
SQR
1
QME
SQE
( n2)
QMT
SQT
( n 1)
94
Tabela da anlise de varincia

Tabela da anlise de varincia para regresso linear simples
Causas de variao Soma de quadrados Graus de liberdade
Regresso
SQR
1
Erro
SQE
n-2
Total
SQT
n-1
Quadrado mdio
SQR/1
SQE/(n-2)
Tabela modificada (soma de quadrados total no corrigida)

Baseado no fato de que:
SQT (Yi Y ) Yi 2 nY 2
2
SQTNC Yi 2
Tabela da anlise de varincia para regresso linear simples

Causas de variao
Soma de quadrados
Graus de liberdade Quadrado mdio
Regresso
SQR
1
SQR/1
Erro
SQE
n-2
SQE/(n-2)
Total
SQT
n-1
Correo para a mdia SQ(devido a mdia)= nY
1
Total no corrigido
n
SQTNC= Y
2
95
Exerccio: obtenha para os dados de porcentagem de acertos na cache a SQR e o QMR.

Exerccio: obtenha para os dados de pop. de Staphilococcus a SQR e o QMR.
Esperanas dos quadrados mdios

Para realizar inferncias na anlise de varincia, precisamos conhecer as esperanas dos
quadrados mdios. Os valores esperados dos quadrados mdios a mdia de suas distribuies
amostrais e nos mostram o que est sendo estimado pelo quadrado mdio.
Teorema 2.11 (pgina 49, Neter et al., 1996) diz que:
SQE / 2 ~ 2 (n 2)
(para o modelo com erros com distribuio normal).

Das propriedades da distribuio de 2 (apndice) temos:
E ( SQE
)n2
2
E(
SQE
n2
) E (QME ) (O QME estimador imparcial)
Para encontrar a E(QMR), partimos de:
SQR b12 ( X i X )
Sabemos que a varincia de uma varivel aleatria dada por:
96
( b ) E( b ) ( E( b ))
E( b )
( b )
2
2
Xi X
E( b )
2
2
Xi X
2
1
E( SQR ) E( b ) ( X X )
2
E( SQR )
2
Xi X
( X X )
2
E( SQR ) ( X X )
2
E(
SQR
1
Teste F para 1
) E( QMR ) ( X X )
2
Na anlise de varincia testa-se as seguintes hipteses:
H 0 : 1 0
H a : 1 0
A estatstica utilizada para testar essas hipteses dada por:
F*
QMR
QME
Valores altos de F* favorecem Ha; F*=1 favorece H0; um teste unilateral.

Para estabelecer uma regra de deciso do teste de hipteses devemos conhecer a
distribuio amostral de F*.
97
Distribuio amostral de F*
Vamos considerar a distribuio amostral de F* quando a hiptese nula for verdadeira, isto , sob
H0.
Teorema de Cochran: se as n observaes Yi so identicamente distribudas de acordo com
uma distribuio normal com mdia e varincia 2 e a soma de quadrados total
decomposta em k somas de quadrados SQr , cada uma com glr graus de liberdade, ento, os
termos SQr/ 2 , so variveis independentemente distribudas como 2 com glr graus de
liberdade se:
k
gl
i 1
n 1
Na tabela da ANOVA a SQT foi decomposta em duas somas de quadrados (SQR e SQE) e os
seus graus de liberdade so aditivos.
Sob H0, de modo que os Yi tem distribuio normal com a mesma mdia =0 e mesma
varincia 2 , SQE/2 e SQR/2 so variveis independentemente distribudas como 2.
Podemos escrever F* como:
F
*
QMR
QME
SQR
1
SQE /( n 2 )
SQR
2
SQE
2
( n2 )
2 (1)
1
2 ( n2 )
( n2 )
98
Assim, sob H0, F* o quociente entre duas variveis independentes com distribuio de 2,
portanto, a estatstica F* uma varivel aleatria com distribuio F(1,n-2) (apndicedistribuio F).
Quando rejeita-se H0,pode-se mostrar que F* segue uma distribuio de F no central.
Regra de deciso do teste de hipteses:
F * F ( 1 ;1, n 2 ) no reje ita se H 0

F * F ( 1 ;1, n 2 ) rejeita se H 0
Sada do STATISTICA: dados de porcentagem de acerto na cache.
F(95%;1,10)=4,96, portanto, F*> F e, assim, rejeita-se a hiptese nula.

Concluso: existe uma associao linear entre porcentagem de acerto e o tamanho da cache.
Mesmo resultado do teste t.
99
Sada do STATISTICA: dados de populao de Staphilococcus.
F(95%;1,4)=7,71, portanto, F*< F e, assim, no

rejeita-se a hiptese nula.
Concluso: no existe uma associao linear entre pop. e o
tempo de armazenamento. Mesmo resultado do teste t.
100
Teste geral para o modelo linear

Trs etapas:
1) Modelo completo
Este modelo considerado adequado para os dados e chama-se modelo completo ou sem restrio
(superparametrizado). No caso de regresso linear simples temos:
Yi 0 1 X i i
Modelo completo
A soma de quadrados do erro do modelo completo (SQE(C)), dada por:
SQE (C ) Yi (b0 b1 X i ) (Yi Yi ) 2 SQE

2
2) Modelo reduzido
Vamos considerar as hipteses:
H 0 : 1 0
H a : 1 0
Sob H0
Modelo reduzido:
Yi 0 i
101
A soma de quadrados do erro do modelo reduzido (SQE(R)), dada por:
SQE ( R ) Yi b0 (Yi Y ) 2 SQTotal

2
Exerccio: encontre o estimador de 0 pelo mtodo de mnimos quadrados.
3) Teste estatstico
Devemos comparar as duas somas de quadrados dos erros.
SQE (C ) SQE ( R )
Sempre
Mais parmetros
Concluso: se a SQE(C) no muito menor do que a SQE(R), indica que o modelo reduzido
adequado, isto , no rejeita-se H0.
102
O teste estatstico dado por:
F*
SQE ( R ) SQE ( C )
gl r glc
SQEglc(C ) ~ F (1 ; glr glc , glc )
Deciso:
F * F (1 ; glr glc , glc ) aceita se H 0

F * F (1 ; glr glc , glc ) rejeita se H 0
Exerccio: para os dados de porcentagem de acertos na cache, verifique a as hipteses:
H 0 : 1 0
H a : 1 0
F
*
180 ,4284 25 ,7385

11 10
25 ,7385
10
154 ,6899
2 ,57385
60 ,10 .
**
103
Exerccio: para os dados de pop. de staphilococcus,

verifique se as hipteses:
H 0 : 1 0
H a : 1 0
F*
0 ,569885 0 ,263908
5 4
0 ,263908
0 ,305977
0 ,065977
4 ,64 NS .
104
Medidas descritivas do grau de associao linear

entre X e Y.
Coeficiente de determinao (r2)
r2
SQR
SQT
SQE
1 SQT
0 r2 1
Interpretao: o quanto da variabilidade total dos dados explicada pelo modelo de regresso.
Quanto maior o r2 mais a variao total de Y reduzida pela introduo da v. preditora X no modelo.
Y
Y
r2=0
r2=1
Y b0 b1 X
Y Y
X
X
A varivel preditora X responsvel por toda
a variao nas observaes Yi.
A v. X no ajuda na reduo da
variao de Yi com a Reg. Linear
105
Coeficiente de correlao (r)

r r2
1 r 1
Exemplo: para os dados de porcentagem de acertos na cache, temos:
Exemplo: para os dados de populao de Staphilococcus, temos:
106
Interpretaes errneas dos coeficientes de determinao e

correlao:
1) Um alto coeficiente de correlao indica que predies teis
podem ser feitas. Isto no necessariamente correto. Observe
se as amplitudes dos intervalos de confiana so grandes, isto
, no so muito precisos.
2) Um alto coeficiente de correlao indica que a equao de
regresso estimada est bem ajustada aos dados. Isto tambm
no necessariamente correto (veja figura a seguir).
3) Um coeficiente de correlao prximo de zero indica que X
e Y no so correlacionadas. Idem (veja figura a seguir).
107
Tem um alto valor de r; o ajuste

de uma equao de regresso
linear no adequada
Tem um baixo valor de r;

porm existe uma forte relao
entre X e Y.
*** Fazer lista de exerccios nmero 2.
108

Analise de Regressao Linear Simples

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Analise de Regressao Linear Simples

Transféré par

Droits d'auteur :

Formats disponibles

Regresso Linear Simples

Nmero de acessos ao disco (disk I/O) e o tempo de processamento para

f descreve a relao entre X e Y. so os erros aleatrios. Y = varivel resposta ou dependente; X

O caso mais simples de regresso quando temos duas variveis e a relao

Como sabemos os dados podem ser obtidos a partir de duas situaes:

Problema prtico: os valores observados de Y (e algumas vezes

A distribuio normal bivariada

XY 1 correlao positiva perfeita

Comparao entre os modelos de regresso e correlao

Sutileza: em situaes onde X uma varivel aleatria, muitos investigadores desejam

Isso legtimo? Se tomarmos cuidado na

Causalidade versos correlao

Correlao no necessariamente implica em causalidade

Construo de Modelos de Regresso

Seleo das variveis preditoras

Escolha do modelo de regresso

O problema, em estudos observacionais, escolher um conjunto de

Pode-se usar um modelo terico; Usar aproximaes por modelos

iii. Geralmente necessrio restringir a abrangncia do modelo para

Modelo de regresso linear simples

Yi o i-simo valor da varivel resposta;

O modelo de regresso (2) mostra que as respostas Yi so oriundas de uma

Para Xi=300.000 bytes observou-se Yi=46,26. O valor estimado

Significado dos parmetros do modelo de regresso linear simples

0 (intercepto); quando a regio experimental inclui X=0, 0 o valor da mdia da distribuio

Exemplo: os dados abaixo indicam o nmero de bytes transferidos (Y) e o

O que significa o coeficiente angular neste caso? E o coeficiente

Exemplo: os dados abaixo indicam o valor y do aluguel e a idade x de 5 casas.

O que significa o coeficiente

Outro exemplo: o tempo de coleta de lixo (garbage collection time) para um

Scatterplot (GARBAGE.STA 10v*10c)

GARBAGE COLLECTION TIME

Modelo no linear nos parmetros. Exemplo: modelo de crescimento logstico, onde X o

necessrio estudar mtodos para modelos no lineares.

Exemplo computao: modelo potncia, y=bxa, onde X a velocidade do processador e Y

Modelos de regresso alternativos

Estimao da funo de regresso

Notao: temos n=6 observaes. O tamanho da populao (ufc/cm2) dado em log10.

Mtodo dos mnimos quadrados

Desejamos ajustar o modelo, estimando os parmetros 0 e 1.

Elevando-se ao quadrado esses desvios e aplicando-se o somatrio, temos o critrio Q

De acordo com o mtodo de mnimos quadrados, os estimadores de 0 e 1 so os valores b0 e

Estimadores de mnimos quadrados

Iguala-se a zero as derivadas parciais, usando b0 e b1 para denotar valores particulares de 0

simplificando e expandindo, obtemos :

Da, obtemos o sistema de equaes normais, dado por:

As equaes normais podem ser resolvidas simultaneamente para b 0 e b1(estimadores pontuais):

Outra forma de escrevermos:

Exemplo: a pesquisadora deseja encontrar o modelo de regresso da

b0 Y b1 X 48 ,71 ( 0 ,0000642 )( 325000 ) 27 ,845

Exemplo: a pesquisadora deseja encontrar o modelo de regresso do tempo

Assim, estimamos que o tamanho da populao de bactrias diminui cerca

Propriedades dos estimadores de mnimos quadrados

Como ki so constantes (pois Xi so constantes conhecidas), b1 uma combinao linear de

Estimao pontual da resposta mdia

como sendo o valor ajustado para o i-simo caso.

Exemplo: para os dados de porcentagem de acerto na cache, os

y 27 ,83633 0 ,0000642( 300000 ) 47 ,10

Exemplo: para os dados de staphilococcus aureus em frango, os valores estimados da funo de

y 3 ,325 0 ,019( 21 ) 2 ,926

O estimador b1 de 1 permanece o mesmo. O estimador de

Exemplo: obter o valor ajustado para X=300.000 bytes de

e1 Y1 Y1 3,114000 - 3,325238 -,211238

e1 Y1 Y1 44 ,45 - 43,886 0,564