Académique Documents
Professionnel Documents
Culture Documents
Introduo
Anlise de regresso uma metodologia estatstica que utiliza a relao entre duas ou
mais variveis quantitativas (ou qualitativas) de tal forma que uma varivel pode ser
predita a partir da outra ou outras. Exemplos:
A populao de bactrias pode ser predita a partir da relao entre
populao e o tempo de armazenamento.
Concentraes de solues de protena de arroz integral e absorbncias
mdias corrigidas.
Relao entre textura e aparncia.
Temperatura usada num processo de desodorizao de um produto e cor do
produto final.
A porcentagem de acerto ou, ento, bytes transferidos, podem estar
relacionados com o tamanho da cache (bytes), para um determinado tipo de
pr-carregamento.
Y f (X )
(1)
Cenrio
Estamos interessados na relao entre duas variveis, as quais chamaremos de X e Y.
Observamos pares de valores X e Y em cada amostra ou unidade experimental, e vamos usa-los
para dizer alguma coisa sobre a relao.
A distribuio normal bivariada uma distribuio de probabilidades com uma funo densidade
de probabilidade f(x,y) para X e Y, tal que:
X e Y apresentam, cada uma, distribuio normal com mdias X e Y, e varincias 2X e 2Y,
respectivamente;
o relacionamento entre X e Y medido pela quantidade XY tal que -1 XY 1.
XY o coeficiente de correlao entre as variveis aleatrias X e Y e mede a associao linear
entre elas.
Objetivo: com os dados observados (Xi,Yi), desejamos quantificar o grau de associao. Para
isso estimamos XY.
II.
III.
Abrangncia do modelo
i.
ii.
10
Considere o modelo com uma varivel preditora e que a funo de regresso linear. O modelo
dado por:
Yi 0 1 X i i
i 1,2,..., n
(2)
11
Onde:
12
Caractersticas do modelo:
constante
aleatrio
1. Yi uma v.a.(Y i 0 1 X i i )
2. E(Yi ) E ( 0 1 X i i ) i 0 1 X i
3. 2 (Yi ) 2 ( 0 1 X i i ) 2 ( i ) 2 ( varincia constante)
4. Yi e Y j no so correlacio nados
13
A figura mostra a distribuio de Y para vrios valores de X. Mostra onde cai a observao Y1.
Mostra que o erro a diferena entre Y1 e E(Y1). Observe que as distribuies de
probabilidade apresentam a mesma variabilidade.
14
Resumo da situao: para qualquer valor Xi, a mdia de Yi i = 0 + 1Xi. As mdias esto
sobre a linha reta para todos os valores de X. Devido aos erros aleatrios, os valores de Yi se
distribuem ao redor da reta.
15
Outro exemplo.
Porcentagem de acerto
44,45
42,10
44,68
46,99
46,26
48,82
50,66
47,68
52,44
53,21
51,85
55,38
16
Mdia:
E(Y)=27,836+0,00006423X
17
yi = 0 + 1xi
x=1
y
x
0
x
x+1
18
y 4 ,763.107 27 ,649 x
Faa o grfico dos pontos e da reta
ajustada. Voc acha que o modelo
adotado razovel?
19
y=4,763e7-27,649*x+eps
4,6e7
BYTES TRANSFERIDOS
4,4e7
4,2e7
4e7
3,8e7
3,6e7
3,4e7
3,2e7
3e7
2,2e5
2,6e5
3e5
3,4e5
3,8e5
4,2e5
TAMANHO DA CACHE
20
y 6,87 0,261x
Faa o grfico dos pontos e da reta ajustada. Voc acha que o modelo adotado razovel?
21
Observaes:
um modelo de regresso pode conter duas ou mais variveis preditoras (X1, X2,...,Xp-1);
o modelo de regresso no precisa ser uma linha reta:
Y 0 1 X 2 X 2
Chama-se modelo quadrtico ou de 20 grau, cuja figura uma parbola. Esse modelo, embora no
seja uma linha reta, continua sendo um modelo linear nos parmetros. O mtodo que ser discutido
para o modelo de regresso linear simples aplica-se diretamente aos demais modelos lineares nos
parmetros.
22
600
500
400
300
200
100
0
400
600
800
1000
1200
1400
1600
HEAP SIZES
23
Y 1 e 3X
2
24
Yi 0 X 0 1 X 1 i onde X 0 1
Uma outra alternativa usar para a v. preditora os desvios (Xi-Mdia(X)) ao invs
de Xi. Para no modificarmos o modelo (2), escrevemos:
Yi 0 1 ( X i X ) 1 X i
Yi 1 ( X i X ) i
*
0
0 1 X
*
0
25
0
3,114
7
3,568
14
2,845
21
3,079
28
2,699
35
2,663
Yi 0 1 X i i
i 1,.., n
Yi ( 0 1 X i )
26
Q Yi 0 1 X i
(10)
i 1
e3
5,5
VALOR
4,5
e1
3,5
e2
2,5
1,5
e5
2
10
14
18
22
IDADE
27
Q
0
Q
1
2 (Yi 0 1 X i )
i 1
n
2 X i (Yi 0 1 X i )
i 1
28
2 (Yi b0 b1 X i ) 0
i 1
n
2 X i (Yi b0 b1 X i ) 0
i 1
(Y b
i
i 1
b1 X i ) 0
X (Y b
i
i 1
Y nb
i 1
b1 X i ) 0
n
b1 X i 0
i 1
X Y b X
i i
i 1
i 1
b
X
i
1
i 0
i 1
Fazendo-se as derivadas
parciais de segunda ordem,
indicar que um mnimo foi
encontrado com os estimadores
b0 e b1.
Y
i 1
nb0 b1 X i
i 1
XY
i 1
i 1
i 1
b0 X i b1 X i2
29
XY n
b1
X 2
2
X
30
Porcentagem
de acertos (Y)
Total = 3900000
584,52
Mdia = 325000
48,71
(Xi X )
(Yi Y )
( X i X )(Yi Y )
2408500
(X i X )2
(Yi Y ) 2
37500000000
181,438
31
( X i X )( Yi Y )
b1
2
(
X
X
)
i
2408500
37500000000
0 ,0000642
32
33
Sada do Statistica:
34
Populao (Y)
(X i X )
(Yi Y )
0
7
14
21
28
35
Total = 105
3,114
3,568
2,845
3,079
2,699
2,663
17,968
-17,5
-10,5
-3,5
3,5
10,5
17,5
0
0,119
0,573
-0,150
0,084
-0,296
-0,332
0
Mdia = 17,5
2,9947
( X i X )(Yi Y ) ( X i X ) 2
-2,088
-6,020
0,524
0,295
-3,105
-5,805
-16,199
306,250
110,250
12,250
12,250
110,250
306,250
857,5
(Yi Y ) 2
,014
,329
,022
,007
,087
,110
0,569
( X i X )(Yi Y )
16 ,199
b1
-0,018890
2
857
,
5
(
X
X
)
i
b 0 Y b1 X 2,9947 (0,0189)(17,5) 3,32545
35
Sada do STATISTICA:
Regression Summary for Dependent Variable: POP
R= ,73274116 R= ,53690961 Adjusted R= ,42113702
F(1,4)=4,6376 p<,09760 Std.Error of estimate: ,25686
St. Err.
St. Err.
BETA of BETA
B
of B
t(4)
p-level
Intercpt
3,325238 ,185902 17,88708 ,000057
TEMPO -,732741 ,340254 -,018890 ,008772 -2,15351 ,097596
36
b1
( X X ) 2 kiYi
2
(
X
X
)
i
i
ki
( Xi X )
( X i X )2
37
E (Y ) 0 1 X
Estima-se a funo de regresso por:
Y b0 b1 X
Onde Y (chapu) o valor estimado da funo no nvel X da varivel preditora.
A resposta mdia (E(Y)), corresponde a mdia da distribuio de probabilidade de Y no nvel X
da varivel preditora. Pode-se demonstrar, como uma extenso do teorema de Gauss-Markov
que Y (chapu) um estimador no tendencioso de E(Y), com varincia mnima dentro da classe
dos estimadores lineares no tendenciosos. Temos:
Yi b0 b1 X i
i 1,2,..., n
38
Y 27 ,83633 0 ,0000642 X
Suponha que estejamos interessados na porcentagem mdia
de acerto na cache para X=300.000 bytes (muitas amostras
com 300.000 bytes sob as mesmas condies que a equao
foi estimada); a estimativa pontual vale:
Sada do Statistica:
40
Y 3,325 0,019 X
Suponha que estejamos interessados na populao mdia (muitas amostras com 21 dias de
armazenamento sob as mesmas condies que a equao foi estimada) de bactrias para
X=21 dias de armazenamento; a estimativa pontual vale:c
Standard
Pred. v.
1,33631
,80178
,26726
-,26726
-,80178
-1,33631
-1,33631
1,33631
-,00000
0,00000
Standard
Residual
-,822385
1,459902
-,840072
,585718
-,378898
-,004263
-,840072
1,459902
,000000
-,191581
Std.Err.
Pred.Val
,185902
,139567
,109264
,109264
,139567
,185902
,109264
,185902
,144911
,139567
Mahalns.
Distance
1,785714
,642857
,071429
,071429
,642857
1,785714
,071429
1,785714
,833333
,642857
Cook's
Distance
,781146
,633439
,095181
,046269
,042668
,000021
,000021
,781146
,266454
,070725
41
Modelo alternativo
Quando o modelo utilizado :
Yi 0* 1 ( X X ) i
0* 0 1 X dado por :
b0* b0 b1 X (Y b1 X ) b1 X Y
Temos:
Y Y b1 ( X X )
Resduos
O i-simo resduo a diferena entre o valor Yi e o
correspondente valor ajustado Y (chapu)i.
ei Yi Yi
Vemos que o resduo para o primeiro caso, exemplo de
pop. de Staphilococcus, sada do statistica, dado por:
43
Distino:
e assim desconhecido.
ei Yi Yi
para os dados de
staphilococcus aureus em
frango
R e s d u o s
0,30
0,15
0,00
-0,15
-0,30
-5
10
15
TEMPO
20
25
30
35
40
Regression
95% confid.
44
RESDUOS
1
0
-1
-2
-3
2,2e5
2,6e5
3e5
3,4e5
3,8e5
4,2e5
Regression
95% confid.
TAMANHO DA CACHE
45
e ( Y b
i
i 1
b1 X i ) Yi nb0 b1 X i 0
e
i 1
2
i
3.
Y Y
i 1
4.
i 1
X e
i 1
5.
i i
Y e
i 1
i i
0 (ponderados)
0 (ponderados)
6. Y Y b1( X X ) Y b1 ( X X ) Y (para X X)
( a linha de regresso sempre passa pelo ponto (X;Y ) )
46
Estimao da varincia ( 2)
A varincia, 2, dos erros, i, no modelo de regresso (2) precisa ser estimado para obter uma
indicao da variabilidade da distribuio de probabilidade de Y. Necessrio para inferncias.
Lembrete: a varincia de cada observao Yi para o nosso modelo de regresso 2, a mesma de
cada i.
Precisamos calcular a soma de quadrados de desvios, considerando que cada Yi vem de diferentes
distribuies de probabilidade com diferentes mdias que dependem do nvel de Xi; as mdias so
estimadas por Yi(chapu). Assim os desvios so os resduos:
ei Yi Yi
i 1
i 1
QME
n2
E (QME ) 2
47
SQE 0 ,2639
com 6 - 2 4 graus de liberdade, assim
QME 0 ,2639 / 4 0 ,0659 (Estimativa da varincia)
Estimativa de 0 ,0659 0 ,2567 ufc (desvio padro)
(Desvio padro da distribuio de Y para qualquer X)
48
Yi 0 1 X i i
i 1,.., n
Para cada valor Xi, podemos pensar que todos os valores assumidos por Y podem ser bem
representados por uma distribuio normal.
50
fi
1
2
exp
2
1 Yi 0 1 X i
2
51
i 1
1
( 2 2 )n/ 2
exp 2 1 2 (Yi 0 1 X i )2
i 1
(log e L) 1
2
0
(Y
(log e L) 1
2
1
X (Y
(log e L)
n
1
2
2 2 2 4
1 X i )
0
1 X i )
(Y
i
1 X i ) 2
52
0 , 1 e 2
Obtemos:
(Y X ) 0
X (Y X ) 0
i
(Yi 0 1 X i )
n
0 b0
b
(Y Y ) 2
2 ni i
( n 1 ) 2
E( )
n
2
53
Comentrios:
1) como os estimadores de mxima verossimilhana de 0,e 1 so os mesmos do mtodo
de mnimos quadrados, eles tem as mesmas propriedades de todos os estimadores de
mnimos quadrados:
a) so no viesados;
b) tem varincia mnima entre todos os estimadores lineares no tendenciosos;
alm disso, os estimadores de mxima verossimilhana b0 e b1 para o modelo de regresso
com erros normais tem outras propriedades desejveis:
c) so consistentes;
lim P (| | ) 0 0
n
d) so suficientes;
fY| ( y | ) no depende de .
***
54
Assumimos o modelo:
Yi 0 1 X i i
i 1,.., n
(3)
0 e 1 so os parmetros;
Xi so constantes conhecidas, fixas.
i so independentes com distribuio N(0, 2).
55
Inferncias para 1
encontrar intervalos de confiana para 1
fazer testes de hipteses com relao a 1, por exemplo:
H 0 : 1 0
H a : 1 0
No h associao
entre X e Y.
Para realizar inferncias sobre 1, precisamos conhecer a distribuio amostral de b1, o estimador
pontual de 1.
Distribuio amostral de b1
O estimador pontual dado por:
( X i X )(Yi Y )
b1
( X i X )2
A distribuio amostral de b1 refere-se aos diferentes valores de b1 que seriam obtidos com
muitas amostras para um mesmo nvel da varivel preditora X (constante).
56
ki
( Xi X )
( X i X )
Mdia:
E (b1 ) ki 0 ki 1 X i
E (b1 ) 0 ki 1 ki X i
E (b1 ) 1 (no viesado)
Pois,
k 0
k X 1
i
(Demonstre )
57
Varincia:
(b1 )
2
k Y k
i i
(b1 ) k
2
(b1 )
2
2
i
2
i
2 (b1 ) 2
(Yi )
Xi X
ki2
2
k
i
2
i
X
2
X X
2 2
i X
1
Xi X 2
ki2
i X
s (b1 )
2
QME
X
i
58
Nota:
Na seo propriedades dos estimadores de mnimos quadrados dissemos que b1 tem a
menor varincia entre todos os estimadores lineares no tendenciosos da forma
1 ciYi
ci so constantes arbitrrias
1 b1
1 no tendencioso :
E ( 1 ) E ( ciYi ) ci E (Yi ) ci ( 0 1 X i ) 0 ci 1 ci X i 1
Restries:
0 e
c X
i
(k
di )
2 (b1 )
d i 2 k i d i
Zero (Verifique)
59
Finalmente, temos:
2 ( 1 ) 2 (b1 ) 2 d i2
2
Observamos que a menor varincia do estimador ( 1) obtida quando d i 0 .Isto
ocorre quando todos os di=0, isto implica que ci ki. Assim, o estimador de mnimos
quadrados b1 tem varincia mnima entre todos os estimadores lineares no tendenciosos.
b1 1
s ( b1 )
~ t(n - 2)
Demonstrao:
Podemos escrever a estatstica como:
b1 1
( b1 )
s ( b1 )
( b1 )
60
QME
s 2 ( b1 )
2
( b1 )
Portanto,
2
( X i X )2
( X i X )2
b1 1
s ( b1 )
QME
SQE
n 2
2
2 ( n2) ~
SQE
(2n2 )
( n2)
z
2 ( n2 )
( n2 )
~ t ( n 2).
61
/2=0,25
t=-1
1=0,50
/2=0,25
t=1
62
b1 t (1 / 2; n 2) s (b1 )
Exemplo: considere os dados de populao de Staphilococcus aureus, a pesquisadora deseja
encontrar o intervalo para 1 com confiana de 95%.
s 2 (b1 )
QMR
0 , 0659
857 , 5
0,0000769
s (b1 ) 0,008772
(X X )
t (0,975;4) 2,776
Usar software
Muito importante
63
s 2 ( b1 )
QMR
( X X )2
2 ,5738
37500000000
0 ,000000000068635
s( b1 ) 0 ,0000083
t ( 0 ,975 ;10 ) 2 ,228
Usar software
Muito importante
H 0 : 1 0
H a : 1 0
65
66
t*
b1 1
s ( b1 )
67
t
*
0 ,0000642 0
0 ,0000083
7 ,735
68
t
*
0 , 019 0
0 , 008772
2,166
70
71
* * Com o uso do Statistica, encontrar a probabilidade de se rejeitar a hiptese nula, quando ela
verdadeira.
P (| t | 2,166) 0,0962
Ateno: verificar se o
software d o valor p para
o teste uni ou bilateral
72
Teste unilateral:
O pesquisador deseja, por exemplo, testar se 1 negativo,
controlando o nvel de significncia =0,05.
H 0 : 1 0
H a : 1 0
Regra de deciso:
Se t* t ( ; n 2 ), no rejeita - se H 0
Se t* t ( ; n 2 ), rejeita - se H 0
Exemplo: para os dados de Staphilococcus temos, para =0,05,
t(0.05;4)=-2,132. Como t*=-2,166, rejeita-se a hiptese de
nulidade, portanto 1 negativo.
Valor p P t t*
73
H 0 : 1 10
H a : 1 10
Onde 10 um valor diferente de zero.
74
b1 10
t
s b1
Critrio do teste:
Se |t*| t(1- /2;n-2) no se rejeita H0
Se |t*| > t(1- /2;n-2) rejeita-se H0
75
Inferncias para 0
S tem interesse quando os nveis de X incluem X=0 (o que raro).
Distribuio amostral de b0
O estimador pontual b0 dado por:
b0 Y b1 X
A distribuio amostral de b0 refere-se aos valores diferentes de b0 que seriam obtidos com
diferentes amostras para o mesmo valor de X (constante).
A distribuio amostral de b0 normal
Mdia:
E (b0 ) 0
Varincia:
(b0 )
2
1
n
X2
( X i X )2
b0 0
s ( b0 )
~ t ( n 2)
76
Demonstrao:
E( b0 ) E( Y b1 X ) E( Y ) E( b1 X )
Y XE( b1 ) 0 1 X X1
0 (cqd).
77
s 2 (b0 ) QME
X
1 17,52
1
0
,
0659
857,5 0,0345
n
2
( X i X )
s(b0 ) 0,1858
t (0,975;4) 2,776
3,3252 2,776(0,1858) 0 3,3252 2,776(0,1858)
2,8094 0 3,8410
Como o intervalo de confiana no inclui o valor zero (0), rejeitamos a hiptese:
H0 : 0 0
Ha : 0 0
78
Yh b0 b1 X h
79
80
Varincia
Para obter 2(Y(chapu)h), primeiro mostraremos que b1 e
modelo de regresso com erros normais, independentes:
Y no so
correlacionados e sob o
(b1 ; Y ) 0
Definimos:
1
n
Yi
b1 kiYi
ki
Xi X
( X i X )
Atravs do teorema A.32 (Neter et al., pgina 668, 1996) com ai=1/n e ci=ki e lembrando que
Yi so variveis aleatrias independentes:
(Y ; b1 ) ( )ki (Yi )
1
n
2
n
Yi 0* 1 ( X i X ) i
81
2 (Yh ) 2 (Y b1 ( X h X ))
2 (Yh ) 2 (Y ) ( X h X ) 2 2 (b1 )
(Y e b1 so independentes; X n e X constantes)
(b1 )
2
(Y )
2
( X h X )2
2
2 (Yh ) n ( X h X ) 2
(Yh ) 2
2
1
n
2 (Yi )
n
( X h X )2
2
( X i X )2
( X i X )
2
~ t (n 2)
Yh t (1 / 2; n 2) s (Yh )
82
Exemplo: vamos encontrar um intervalo com confiana de 95% para E(Yh) para tamanho de
cache X=300.000 bytes. Temos:
300000
( 300000 325000 )2
37500000000
1
12
s( Y ) 0 ,5073263
h
45 ,9697 E( Y
300000
) 48 ,2303
Interpretao: temos 95% de confiana que a porcentagem mdia de acertos, com 300.000 bytes
de tamanho de cache, est entre 45,9697 e 48,2003%. Um intervalo com boa preciso.
Exerccio: encontrar o intervalo com confiana de 95% para E(Yh) para tamanho de cache
X=200.000. Compare as amplitudes dos intervalos.
83
Exemplo: para os dados de populao de bactrias, vamos encontrar um intervalo com confiana
de 95% para E(Yh) para tempo X=14 dias. Temos:
(14 17 , 5 ) 2
1
s(Yh ) 0,1091
t (0,975;4) 2,776
3,059 2,776(0,1091) E (Y14 ) 3,059 2,776(0,1091)
2,7561 E (Y14 ) 3,3619
Interpretao: temos 95% de confiana que a populao mdia de bactrias, com 14 dias de
armazenamento, est entre 2,7561 e 3,3619 ufc (em log base e).
Exerccio: encontrar o intervalo com confiana de 95% para E(Yh) para tempo X=0. Compare
as amplitudes dos intervalos.
84
Yh ( novo ) Yh
s ( pred )
~ t (n 2)
1
s ( pred ) QME 1 n ( X X ) 2
i
2
O intervalo fica:
Yh t (1 / 2; n 2) s ( pred )
86
Exemplo: suponha que um novo tamanho de cache seja Xh=375000 bytes,e que a pesquisadora
deseja construir um intervalo de predio com 95% de confiana para Y375000(novo).
12
37500000000
QME 2 ,5738
87
Exemplo: suponha que um novo tempo de armazenamento seja Xh=15 dias,e que a pesquisadora
deseja construir um intervalo de predio com 95% de confiana para Y15(novo).
(15 17 , 5 ) 2
1
QME 0,0659
t (0,975;4) 2,776
s 2 ( pred ) 0,0659 0,0115 0,0774
s ( pred ) 0,2782
3,040 2,776(0,2782) Y15( novo ) 3,040 2,776(0,2782)
2,2677 Y15( novo ) 3,8123
Interpretao: podemos afirmar com 95% de confiana que o valor predito de populao de
bactrias, para tempo igual a 15 dias, est entre 2,2677 e 3,8123 ufc/cm2.
88
Yh Ws(Yh )
W 2 2 F (1 ;2, n 2)
Y b b X
h
s (Yh ) QME
2
1
n
( X h X )2
( X i X ) 2
Distribuio de F,
com 2 gl no
numerador e n-2 no
denominador, com
grau de confiana
1-
Calcula-se os valores dos limites para diversos nveis de Xh e aps faz-se o grfico.
89
PORCENTAGEM DE ACERTO
56
54
52
50
48
46
44
42
40
2,2e5
2,6e5
3e5
3,4e5
3,8e5
4,2e5
TAMANHO DA CACHE
90
91
Yi Y ( Yi Y ) ( Yi Yi )
Desvio
total
Desvio da
equao
ajustada em
torno da mdia
Desvio em
torno da
equao
ajustada
Yi
E
T
R
Y
Xi
92
(
Y
Y
)
(
Y
Y
)
(
Y
Y
)
Demonstrao:
i
i
i
2
i 1
i 1
(Y Y )
n
i 1
(Y Y ) (Y Y )
i 1
i 1
2 (Yi Y )(Yi Yi )
i 1
i 1
i 1
i 1
(
Y
Y
)
(
Y
Y
)
(
Y
Y
)
i
i i
2
i 1
i 1
i 1
SQT (Yi Y ) 2
i 1
SQE (Yi Yi ) 2
i 1
SQR (Yi Y ) 2
i 1
93
Graus de liberdade
A SQT tem n-1 graus de liberdade; um grau de liberdade perdido devido a restrio de que a soma
dos desvios em torno da mdia zero. De outra forma: um grau de liberdade perdido porque a
mdia da amostra usada para estimar a mdia populacional.
A SQE tem n-2 graus de liberdade. Dois graus de liberdade so perdidos pois dois parmetros so
estimados para obter Y(chapu)i.
A SQR tem 1 grau de liberdade. Dois g.l. esto associados com a regresso (2 parmetros); um deles
perdido devido a restrio: (Yi Y ) 0.
Os graus de liberdade so aditivos: (n-1)=1+(n-2)
Quadrados mdios
A soma de quadrados dividida pelos graus de liberdade chamada de quadrado mdio.
QMR
SQR
1
QME
SQE
( n2)
QMT
SQT
( n 1)
94
Quadrado mdio
SQR/1
SQE/(n-2)
SQT (Yi Y ) Yi 2 nY 2
2
SQTNC Yi 2
95
SQE / 2 ~ 2 (n 2)
E ( SQE
)n2
2
E(
SQE
n2
SQR b12 ( X i X )
96
( b ) E( b ) ( E( b ))
E( b )
( b )
2
2
Xi X
E( b )
2
2
Xi X
2
1
E( SQR ) E( b ) ( X X )
2
E( SQR )
2
Xi X
( X X )
2
E( SQR ) ( X X )
2
E(
SQR
1
Teste F para 1
) E( QMR ) ( X X )
2
H 0 : 1 0
H a : 1 0
F*
QMR
QME
97
Distribuio amostral de F*
Vamos considerar a distribuio amostral de F* quando a hiptese nula for verdadeira, isto , sob
H0.
Teorema de Cochran: se as n observaes Yi so identicamente distribudas de acordo com
uma distribuio normal com mdia e varincia 2 e a soma de quadrados total
decomposta em k somas de quadrados SQr , cada uma com glr graus de liberdade, ento, os
termos SQr/ 2 , so variveis independentemente distribudas como 2 com glr graus de
liberdade se:
k
gl
i 1
n 1
Na tabela da ANOVA a SQT foi decomposta em duas somas de quadrados (SQR e SQE) e os
seus graus de liberdade so aditivos.
Sob H0, de modo que os Yi tem distribuio normal com a mesma mdia =0 e mesma
varincia 2 , SQE/2 e SQR/2 so variveis independentemente distribudas como 2.
Podemos escrever F* como:
F
*
QMR
QME
SQR
1
SQE /( n 2 )
SQR
2
SQE
2
( n2 )
2 (1)
1
2 ( n2 )
( n2 )
98
Assim, sob H0, F* o quociente entre duas variveis independentes com distribuio de 2,
portanto, a estatstica F* uma varivel aleatria com distribuio F(1,n-2) (apndicedistribuio F).
Quando rejeita-se H0,pode-se mostrar que F* segue uma distribuio de F no central.
99
1) Modelo completo
Este modelo considerado adequado para os dados e chama-se modelo completo ou sem restrio
(superparametrizado). No caso de regresso linear simples temos:
Yi 0 1 X i i
Modelo completo
2) Modelo reduzido
Vamos considerar as hipteses:
H 0 : 1 0
H a : 1 0
Sob H0
Modelo reduzido:
Yi 0 i
101
3) Teste estatstico
Devemos comparar as duas somas de quadrados dos erros.
SQE (C ) SQE ( R )
Sempre
Mais parmetros
Concluso: se a SQE(C) no muito menor do que a SQE(R), indica que o modelo reduzido
adequado, isto , no rejeita-se H0.
102
F*
SQE ( R ) SQE ( C )
gl r glc
Deciso:
H 0 : 1 0
H a : 1 0
F
*
25 ,7385
10
154 ,6899
2 ,57385
60 ,10 .
**
103
H 0 : 1 0
H a : 1 0
F*
0 ,569885 0 ,263908
5 4
0 ,263908
0 ,305977
0 ,065977
4 ,64 NS .
104
r2
SQR
SQT
SQE
1 SQT
0 r2 1
Interpretao: o quanto da variabilidade total dos dados explicada pelo modelo de regresso.
Quanto maior o r2 mais a variao total de Y reduzida pela introduo da v. preditora X no modelo.
Y
Y
r2=0
r2=1
Y b0 b1 X
Y Y
X
X
A varivel preditora X responsvel por toda
a variao nas observaes Yi.
A v. X no ajuda na reduo da
variao de Yi com a Reg. Linear
105
106
108