Académique Documents
Professionnel Documents
Culture Documents
INSTITUTO DE MATEMTICA
DEPARTAMENTO DE ESTATSTICA
APOSTILA:
MAT02207 -
ESTATSTICA ECONMICA
Prof. Vanessa Leotti
(vleotti@yahoo.com.br)
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
2
NDICE
1 MODELO DE REGRESSO LINEAR SIMPLES (MRLS) ................................................................ 4
1.1 INTRODUO REGRESSO.................................................................................................................. 4
1.1.1 RELAES ESTATSTICAS VERSUS DETERMINSTICAS........................................................................... 4
1.2 MODELO DE REGRESSO LINEAR SIMPLES (MRLS)........................................................................... 4
1.2.1 FUNO LINEAR DE REGRESSO POPULACIONAL ................................................................................. 4
1.2.2 FUNO LINEAR DE REGRESSO AMOSTRAL ........................................................................................ 5
1.2.3 PREMISSAS CLSSICAS .......................................................................................................................... 6
1.3 ESTIMAO DOS PARMETROS DO MODELO: MTODO DE MNIMOS QUADRADOS ORDINRIOS
(MQO) .............................................................................................................................................................. 7
1.3.1 SIGNIFICADO DE
1
E
2
..................................................................................................................... 8
1.3.2 PRECISO OU ERRO-PADRO DAS ESTIMATIVAS DE MQO.................................................................... 9
1.3.3 PROPRIEDADES DOS ESTIMADORES DE MQO........................................................................................ 9
1.4 COEFICIENTE DE CORRELAO LINEAR DE PEARSON - R.................................................................. 12
1.5 COEFICIENTE DE DETERMINAO - R
2
................................................................................................ 13
1.6 A PREMISSA DE NORMALIDADE DOS RESDUOS................................................................................... 15
1.7 ESTIMAO POR INTERVALO............................................................................................................... 15
1.7.1 INTERVALOS DE CONFIANA PARA OS COEFICIENTES DE REGRESSO................................................ 15
1.7.2 INTERVALO DE CONFIANA PARA A VARINCIA RESIDUAL................................................................ 17
1.8 TESTES DE HIPTESES .......................................................................................................................... 18
1.8.1 ABORDAGEM DO INTERVALO DE CONFIANA..................................................................................... 18
1.8.2 ABORDAGEM DO TESTE DE SIGNIFICNCIA......................................................................................... 19
1.9 PREVISO .............................................................................................................................................. 21
1.9.1 INTERVALO DE CONFIANA PARA A ESTIMATIVA MDIA DE Y, DADO X = X
0
.................................... 21
1.9.2 INTERVALO DE CONFIANA PARA A ESTIMATIVA INDIVIDUAL DE Y, DADO X = X
0
........................... 22
1.10 ANLISE DE VARINCIA ANOVA................................................................................................... 23
1.10.1 TESTE DE SIGNIFICNCIA PARA O COEFICIENTE DE DETERMINAO................................................ 24
1.11 REGRESSO PELA ORIGEM................................................................................................................. 25
1.12 FORMAS FUNCIONAIS DOS MODELOS DE REGRESSO ...................................................................... 26
1.12.1 MODELO LOG-LINEAR OU LOG-LOG ................................................................................................ 26
1.12.2 MODELOS SEMILOGARTMICOS LOG-LIN E LIN-LOG........................................................................ 26
1.12.3 MODELOS RECPROCOS (INVERSOS) ................................................................................................. 27
2 MODELO DE REGRESSO LINEAR MLTIPLA (MRLM)......................................................... 29
2.1 SIGNIFICADO DOS PARMETROS DO MODELO.................................................................................... 29
2.2 NOTAO MATRICIAL DO MRLM....................................................................................................... 29
2.3 PREMISSAS DO MRLM......................................................................................................................... 30
2.4 MTODO DOS MNIMOS QUADRADOS ORDINRIOS (MQO) ............................................................... 30
2.4.1 VARINCIAS DOS ESTIMADORES DE MQO.......................................................................................... 31
2.5 COEFICIENTE MLTIPLO DE DETERMINAO: R
2
.............................................................................. 33
2.6 COEFICIENTE MLTIPLO DE DETERMINAO AJUSTADO:
2
R
......................................................... 33
2.7 COEFICIENTE DE CORRELAO PARCIAL........................................................................................... 34
2.8 COEFICIENTE DE DETERMINAO PARCIAL....................................................................................... 35
2.9 INTERVALO DE CONFIANA E TESTE DE SIGNIFICNCIA INDIVIDUAL PARA OS COEFICIENTES DE
REGRESSO..................................................................................................................................................... 35
2.10 INTERVALO DE CONFIANA PARA A VARINCIA RESIDUAL............................................................. 36
2.11 TESTE DA SIGNIFICNCIA GERAL DA REGRESSO (ANOVA).......................................................... 37
2.12 CONTRIBUIO MARGINAL OU INCREMENTAL DE UMA VARIVEL EXPLICATIVA......................... 39
2.13 PREVISO NO MRLM......................................................................................................................... 41
2.14 MODELO DE REGRESSO POLINOMIAL ............................................................................................. 42
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
3
2.15 VARIVEIS DUMMIES ......................................................................................................................... 43
2.15.1 REGRESSO SOMENTE COM VARIVEIS DUMMIES (MODELOS ANOVA) ......................................... 43
2.15.2 REGRESSO COM VARIVEIS QUANTITATIVAS E DUMMIES (MODELOS ANCOVA) ........................ 45
2.15.3 EFEITOS DE INTERAO COM O USO DE VARIVEIS BINRIAS.......................................................... 46
2.15.4 O EMPREGO DE VARIVEIS BINRIAS EM ANLISES SAZONAIS ........................................................ 48
2.15.5 MODELOS LOG-LIN E VARIVEIS DUMMIES..................................................................................... 48
3 VIOLAES DAS PREMISSAS DO MODELO DE REGRESSO................................................ 50
3.1 NO-NORMALIDADE DOS RESDUOS .................................................................................................... 50
3.1.1 DETECO........................................................................................................................................... 50
3.1.2 CONSEQNCIAS................................................................................................................................. 52
3.1.3 MEDIDAS CORRETIVAS........................................................................................................................ 52
3.2 MULTICOLINEARIDADE........................................................................................................................ 54
3.2.1 CONSEQNCIAS................................................................................................................................. 55
3.2.2 DETECO........................................................................................................................................... 57
3.2.3 MEDIDAS CORRETIVAS........................................................................................................................ 60
3.3 HETEROCEDASTICIDADE...................................................................................................................... 63
3.3.1 MTODO DOS MNIMOS QUADRADOS GENERALIZADOS (MQG)........................................................ 64
3.3.2 CONSEQNCIAS................................................................................................................................. 64
3.3.3 DETECO........................................................................................................................................... 65
3.3.4 MEDIDAS CORRETIVAS........................................................................................................................ 68
3.4 AUTOCORRELAO.............................................................................................................................. 71
3.4.1 CONSEQNCIAS................................................................................................................................. 73
3.4.2 DETECO........................................................................................................................................... 73
3.4.3 MEDIDAS CORRETIVAS........................................................................................................................ 76
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
4
1 MODELO DE REGRESSO LINEAR SIMPLES (MRLS)
1.1 Introduo Regresso
A anlise de regresso estuda a dependncia de uma varivel, a varivel dependente, em
relao a uma ou mais variveis, as variveis explanatrias ou independentes, com o objetivo de
estimar e/ou prever o valor mdio da primeira em termos de valores conhecidos ou fixados das
segundas.
Pressupe-se implicitamente que as relaes causais, se as houver, entre a varivel
dependente e as explanatrias s se do em uma direo: das variveis explanatrias para a
dependente.
Exemplo: Poderia-se estudar a relao de dependncia do rendimento das lavouras em
relao temperatura, pluviosidade, luz solar ou fertilizante, por exemplo.
1.1.1 Relaes estatsticas versus determinsticas
Na anlise de regresso, estamos preocupados com o que conhecido como dependncia
estatstica, e no funcional ou determinstica, entre as variveis. Nas relaes estatsticas entre
variveis, lidamos essencialmente com variveis aleatrias ou estocsticas, isto , variveis que tm
distribuies probabilsticas. Na dependncia funcional ou determinstica, por outro lado, tambm
lidamos com variveis, mas estas no so aleatrias ou estocsticas.
O exemplo anterior uma dependncia estatstica. J um exemplo de dependncia
determinstica a frmula: lucro bruto = preo x unidades vendidas.
1.2 Modelo de Regresso Linear Simples (MRLS)
Mtodo de ajustamento de uma reta para anlise da relao entre uma varivel independente
(explicativa ou regressora) e uma varivel dependente (explicada ou resposta). Ambas as variveis
so quantitativas. Este modelo tambm conhecido como modelo de duas variveis.
1.2.1 Funo linear de regresso populacional
Denotaremos por
i
Y o valor da varivel dependente para a i-sima observao e
i
X o valor
da varivel independente para a i-sima observao.
Como dito anteriormente, o objetivo da regresso estimar um valor mdio da varivel
dependente com base nos valores conhecidos da varivel explanatria.
Desenho (fertilizante x produtividade):
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
5
Podemos expressar isso matematicamente escrevendo:
( )
i i
X X Y E
2 1
| + =
onde
1
e
2
so chamados de coeficientes de regresso, ou respectivamente, intercepto e
coeficiente angular, e o subscrito i indica os pares de observaes, i = 1, 2, ..., n.
A expresso acima conhecida como funo linear de regresso populacional.
Nem todos os valores de Y caem sobre a reta, existe um desvio em torno de seu valor
esperado, que pode ser denotado por:
( )
i i i
X Y E Y e | =
Ou
( )
i i i
e X Y E Y + = |
O que implica que
i e X Y
i i i
+ + = ,
2 1
O desvio e, tambm conhecido como perturbao aleatria, resduo aleatrio, ou distrbio
aleatrio, um substituto ou representante de todas as variveis que podem afetar Y, mas no
foram includas no modelo de regresso; dos elementos no-previsveis de aleatoriedade e dos erros
de mensurao em Y.
1.2.2 Funo linear de regresso amostral
1
e
2
so parmetros conhecidos apenas se toda a populao fosse pesquisada, ou seja, se
um censo fosse realizado. Entretanto, na prtica, amostras so utilizadas para estimar a funo de
regresso. Assim, temos a funo linear de regresso amostral:
i i
X Y
2 1
+ =
i
Y
um estimador de ( )
i
X Y E | , assim como a distncia
i i i
Y Y e
= estima o resduo e.
Assim, pode-se escrever a funo de regresso amostral como:
i i i i i
e Y e X Y
2 1
+ = + + =
A figura abaixo ilustra as diferenas entre a FRP e FRA:
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
6
Assim, temos duas questes para responder:
- Como obter
1
e
2
?
- Aps
1
e
2
= . Ou seja, os
resduos so simplesmente as diferenas entre os valores observados de Y e os estimados.
Queremos determinar a FRA de tal modo que seja to prxima quanto possvel do Y
observado. Para tanto, podemos adotar o seguinte critrio: escolher a FRA para que a soma dos
resduos,
( )
=
i i i
Y Y e
,
seja a menor possvel. Contudo, esse mtodo pode conduzir a resultados incuos e dessa forma,
prefervel adotar o critrio da minimizao dos quadrados dos resduos, isto : ( )
2
2
=
i i i
Y Y e .
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
8
Grfico: Critrio dos mnimos quadrados
Assim, atravs do clculo diferencial (ver demonstrao em Gujarati) o mtodo de MQO nos
fornece as estimativas nicas de
1
e
2
que resultam no menor valor possvel de
i
e . O
processo de diferenciao resulta na resoluo do seguinte sistema de equaes normais:
+ =
+ =
2
2 1
2 1
i i i i
i i
X X Y X
X n Y
onde, n o tamanho da amostra. Resolvendo as equaes normais simultaneamente, obtemos:
( )( )
( )
=
2 2 2
x
xy
X X
Y Y X X
i
i i
e,
X Y
2 1
= ,
onde X e Y so as mdias amostrais de X e Y, ou seja,
n
X
X
= e
n
Y
Y
= ;
e x e y so as variveis em formato desvio, ou seja, X X x
i i
= e Y Y y
i i
= .
1.3.1 Significado de
1
e
2
: acrscimo (ou decrscimo) em Y quando X aumenta 1 unidade. Seu sinal indica se a relao
entre X e Y positiva ou negativa.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
9
1.3.2 Preciso ou erro-padro das estimativas de MQO
As estimativas de MQO so uma funo dos dados amostrais. Mas, como os dados tendem a
mudar de amostra para amostra, as estimativas tambm mudaro. Portanto, necessria alguma
medida da confiabilidade ou preciso dos estimadores
1
e
2
\
|
+ = =
2
2
1
2
2
2
1
2
1 1
x
X
n
Ep
x
X
n
Var
( ) ( )
= = = =
2
2
2
2
2
2
2 2
x
Ep
x
Var
onde
2
a varincia de e
i
, segundo a premissa 4, que pode ser estimada atravs da frmula:
2
2
2
=
n
e
, onde
( )
= =
2
2
2 2 2
2
2 2
x
xy
y x y e .
Assim, a partir de uma amostra, podemos estimar as varincias e erros-padro dos
estimadores de MQO apenas substituindo
2
por
2
nas expresses acima:
( ) ( )
+ = =
|
|
\
|
+ = =
2
2
1
2
2
2
1
2
1 1
x
X
n
ep
x
X
n
var
( ) ( )
= = = =
2
2
2
2
2
2
2 2
x
ep
x
var
1.3.3 Propriedades dos estimadores de MQO
1. A reta de regresso sempre passa pelas mdias amostrais de Y e X:
X Y X Y
2 1 2 1
+ = =
2. A soma dos resduos estimados igual a zero: ( ) 0
= =
i i i
Y Y e .
3. Dadas as premissas do MRLS, os estimadores de MQO so os melhores estimadores lineares
no-tendenciosos de seus respectivos parmetros. Isto significa que:
a. Linear: funo linear de Y
b. No-tendencioso: esperana do estimador igual ao verdadeiro valor do parmetro.
c. Tm varincia mnima dentre todos os estimadores lineares no-tendenciosos.
4. So consistentes, pois quanto maior o n, menor sua varincia, ou seja, maior sua preciso.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
10
Exemplo 1. Utilize o mtodo dos mnimos quadrados para estimar a reta de regresso entre
consumo (Y) de pizzas e renda (X) per capita, baseado numa amostra observada de cinco cidades.
Interprete os valores do intercepto e coeficiente angular. Estime tambm as varincias e erros-
padro dos estimadores.
i X Y x y x y xy
1 8 40
2 4 30
3 6 28
4 12 46
5 15 59
Total
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
11
y = 0,8977x + 12,447
R
2
= 0,764
10
12
14
16
18
20
22
24
0 2 4 6 8 10 12 14
N semanas trabalhadas
N
a
u
t
o
m
v
e
i
s
i
n
s
p
e
c
i
o
n
a
d
o
s
Exerccio 1. A tabela a seguir informa quantas semanas (X) seis pessoas trabalharam em um posto
de inspeo de automveis e quantos automveis (Y) cada pessoa inspecionou entre 12hs e 14hs, em
determinado dia.
a) Ajuste o modelo de regresso linear para esses dados, interpretando as estimativas obtidas;
b) Estime as varincias e erros-padro dos estimadores.
X Y
2 13
7 21
9 23
1 14
5 15
12 21
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
12
1.4 Coeficiente de correlao linear de Pearson - r
Supondo que exista algum tipo de relao linear entre as variveis X e Y, uma medida
utilizada para verificar o grau de correlao entre elas o coeficiente de correlao linear de
Pearson, cujo valor amostral dado por:
=
2 2
y x
xy
r
Este coeficiente tem a propriedade de que: 1 1 + r .
Grfico: Tipos de correlao
Obs: o verdadeiro valor da correlao linear (desconhecido) representado pela letra (r).
Exemplo 2. Calcular e interpretar o coeficiente de correlao linear de Pearson para os dados do
Exemplo 1.
Exerccio 2. Calcular e interpretar o coeficiente de correlao linear de Pearson para os dados do
Exerccio 1.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
13
1.5 Coeficiente de determinao - r
2
Apesar de ser diretamente ligado ao coeficiente de correlao, o coeficiente de determinao
possui uma interpretao bastante distinta. uma medida para verificar a qualidade do ajuste de
uma regresso, ou seja, o quo bem a reta de regresso se ajusta aos dados. Quando ajustamos
uma reta, esperamos que os resduos em torno da linha sejam os menores possveis. Ento, quanto
mais prximos da reta os resduos estiverem, melhor ser o grau de ajuste e essa a informao que
o coeficiente de determinao sintetiza.
Lembrando da FRA
i i i
e Y Y
=
|
|
\
|
=
2 2
2
2
2
2
2
2
y x
xy
y
x
r
A relao entre o coeficiente de correlao e o de determinao dada por:
2
r r = .
Exemplo 3. Calcule e interprete o coeficiente de determinao para os dados do Exemplo 1.
Exerccio 3. Calcule e interprete o coeficiente de determinao para os dados do Exerccio 1.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
15
1.6 A premissa de normalidade dos resduos
Para poder fazer inferncias sobre os parmetros do modelo de regresso, devemos fazer
alguma pressuposio sobre a distribuio de probabilidades dos resduos e
i
. Geralmente se supe
que:
[11]: ) , 0 ( ~
2
NID e
i
Isso implica que:
( )
2
1 1
1
, ~
N ;
( )
2
2 2
2
, ~
N ;
( )
( )
2
2 2
2
~
n
n
e
( )
2
2 1
, ~
i i
X N Y + .
1.7 Estimao por intervalo
Vimos anteriormente a estimao pontual dos coeficientes de regresso por MQO. Podemos
nos perguntar: at que ponto essas estimativas so confiveis? Em decorrncia de variaes
amostrais, uma nica estimativa possivelmente ser diferente do verdadeiro valor, embora se espere
que, em amostras repetidas, seu valor mdio seja igual ao verdadeiro valor. Agora, na estatstica, a
confiabilidade de um estimador medida por seu erro-padro. Portanto, em vez de nos embasar
apenas na estimativa pontual, podemos construir um intervalo em torno do estimador pontual,
digamos, de dois ou trs erros-padro de cada lado, de tal modo que esse intervalo tenha, digamos,
95% de probabilidade de incluir o verdadeiro valor do parmetro. Essa a idia que est por trs
dos intervalos de confiana.
No podemos dizer que o verdadeiro valor do parmetro possui tal probabilidade de estar
contido no intervalo. Ele um nmero fixo, ento ou est ou no est no intervalo (probabilidade 0
ou 1).
Depois de observarmos a amostra e calcularmos o intervalo para ela, ele deixa de ser aleatrio
e passa a ser fixo, e ento no podemos mais falar em probabilidade. Trocamos ento a palavra
probabilidade por confiana. Assim, dizemos que tal intervalo possui x de confiana de conter o
verdadeiro valor do parmetro.
1.7.1 Intervalos de confiana para os coeficientes de regresso
Pode-se demonstrar que, se
2
conhecida, os coeficientes do modelo distribuem-se
normalmente. E assim, tem-se:
( ) 1 , 0 ~
N Z
i
i i
=
Contudo, sabemos que a varincia raramente conhecida e devemos estim-la a partir da
amostra. Assim devemos usar a aproximao da normal pela distribuio t de Student com n-2
graus de liberdade, ento:
( ) 2
=
n
i i
t t
i
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
16
Podemos estabelecer um intervalo de confiana tal que:
=
|
|
\
|
1
2
; 2
2
; 2 n n
t t t P
Substituindo-se em t, temos
=
|
|
\
|
2
; 2
2
; 2 n
i i
n
t t P
i
e, com algumas manipulaes, chega-se a
=
|
|
\
|
+
1
2
; 2
2
; 2
i i
n
i i
n
i
t t P
o qual o intervalo de confiana para
i
, e pode ser escrito mais concisamente como:
( )
(
i
n
i i
t para IC
2
; 2
: % 1 100 .
Exemplo 4. Intervalos de 95% de confiana para os coeficientes da regresso do Exemplo 1.
Exerccio 4. Calcule e interprete os IC com 90% e 99% para os coeficientes de regresso para os
dados do Exerccio 1.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
17
1.7.2 Intervalo de confiana para a varincia residual
Vimos que a varivel
( )
( ) 2
2
2
2
2
~
2
= n
n
q
.
Podemos usar essa varivel para estabelecer um intervalo de confiana para a varincia
residual da seguinte forma:
=
|
|
\
|
1
2
2
; 2
2 2
2
1 ; 2 n n
q P
Substituindo-se em q
2
e fazendo-se algumas manipulaes, temos:
( ) ( )
=
|
|
|
\
|
1
2
2
2
1 ; 2
2
2
2
2
; 2
2
n n
n n P
Ou ( ) ( ) ( )
(
(
(
2
2
1 ; 2
2
2
2
; 2
2
2
2 ;
2 : % 1 100
n n
n n para IC .
Exemplo 5. Supondo que temos uma amostra de 10 observaes de duas variveis X e Y, a
varincia estimada de Y foi igual a 42,1591. O IC de 95% para a varincia da estimativa :
Exerccio 5. Calcule e interprete os IC com 90% e 99% para a varincia residual do Exerccio 1.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
18
1.8 Testes de hipteses
O problema do teste estatstico de hipteses pode ser resumido assim: uma dada observao
ou resultado compatvel com alguma hiptese feita ou no? Assim temos a hiptese nula (H
0
) que
testada contra a hiptese alternativa (H
1
), e decidimos sobre a veracidade ou a falsidade da
hiptese nula atravs dos resultados amostrais. Ou seja, a teoria do teste de hipteses cuida da
formulao de regras ou procedimentos a serem adotados para decidir se a hiptese nula deve ser
rejeitada ou no rejeitada. H duas abordagens complementares para a elaborao dessas regras: o
intervalo de confiana e o teste de significncia.
1.8.1 Abordagem do intervalo de confiana
- Teste bilateral ou bicaudal
As hipteses deste teste so:
=
*
1
*
0
:
:
i i
i i
H
H
Por exemplo, poderamos estar interessados em testar as seguintes hipteses:
1. O intercepto do modelo (coeficiente linear) nulo? Ou, a regresso passa pela origem do sistema
coordenado?
=
0 :
0 :
1 1
1 0
H
H
2. A inclinao do modelo (coeficiente angular) nula? Ou, no existe relao linear entre X e Y?
=
0 :
0 :
2 1
2 0
H
H
Em ambos os casos acima, 0
*
=
i
.
Regra de deciso: para um nvel de significncia , estabelea um intervalo de confiana de
( )% 1 100 para
i
. Se
*
i
cair dentro do intervalo de confiana, no rejeite H
0
, caso contrrio,
rejeite.
Em estatstica, quando rejeitamos a hiptese nula, dizemos que nossos resultados foram
estatisticamente significativos.
- Teste unilateral ou unicaudal
s vezes, temos uma forte expectativa a priori ou terica de que a hiptese alternativa seja
unilateral. Um exemplo de teste unilateral :
>
0 :
0 :
2 1
2 0
H
H
.
Por questes de facilidade, veremos testes unilaterais apenas atravs da abordagem dos
testes de significncia.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
19
Exemplo 6: Usando um nvel de significncia de 5%, teste, atravs dos intervalos de confiana, as
hipteses de que o intercepto e o coeficiente angular so significativamente diferentes de zero para
os dados do Exemplo 1.
Exerccio 6: Usando um nvel de significncia de 10%, teste, atravs dos intervalos de confiana, as
hipteses de que o intercepto e o coeficiente angular so significativamente diferentes de zero para
os dados do Exerccio 1.
1.8.2 Abordagem do teste de significncia
A rotina de procedimentos para os testes de significncia pode ser resumida da seguinte
maneira:
a) Escolhe-se o nvel de significncia , em geral 1%, 5% ou 10%;
b) Estabelecer as hipteses e verificar a forma do teste, isto , unilateral ou bilateral;
c) Verificar o valor crtico (valor tabelado), que ser
2
; 2
n
t para um teste bilateral e
; 2 n
t
para um teste unilateral;
d) Calcular o valor amostral da estatstica de teste:
i
i i
t
=
e) Decidir conforme a tabela abaixo:
Tipo de hiptese H
0
H
1
Deciso: rejeitar H
0
se
Bicaudal
*
0
:
i i
H =
*
1
:
i i
H
2
; 2
>
n
t t
Cauda direita
*
0
:
i i
H
*
1
:
i i
H >
; 2
>
n
t t
Cauda esquerda
*
0
:
i i
H
*
1
:
i i
H <
; 2
<
n
t t
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
20
Exemplo 7: Usando um nvel de significncia de 5%, teste, atravs dos testes de significncia, as
hipteses de que o intercepto e o coeficiente angular so significativamente diferentes de zero para
os dados do Exemplo 1.
Exemplo 8: Para os dados do exemplo 1, usando um nvel de significncia de 5%, teste a hiptese
de que o coeficiente angular maior que 1.
Exerccio 7: Considere os dados do Exemplo 1. Em uma pesquisa anterior, um economista havia
estimado o modelo X Y 34 , 2 5 , 15
X X X Y E de estimador Y + = = =
2. Previso para a estimativa individual de Y dado X=X
0
: Exemplo: Estimar o consumo de pizza
para uma cidade com renda igual a 7.
( )
0 2 1 0 0
|
X X X Y de estimador Y + = = =
1.9.1 Intervalo de confiana para a estimativa mdia de Y, dado X = X
0
( ) ( )
(
m
n
t Y X X Y E IC
: | para % 1 100
2
; 2
0 0
e
|
|
\
|
+ =
2
2
0 2 2
) ( 1
x
X X
n
m
Exemplo 9. Calcular um intervalo com 95% de confiana para o valor mdio de Y, quando X = 100,
para a regresso X Y 5091 , 0 4525 , 24
x e 159 , 42
2
= .
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
22
1.9.2 Intervalo de confiana para a estimativa individual de Y, dado X = X
0
( ) ( )
(
i
n
t Y X X Y IC
: | para % 1 100
2
; 2
0 0
e
|
|
\
|
+ + =
2
2
0 2 2
) ( 1
1
x
X X
n
i
Exemplo 10. Calcular um intervalo com 95% de confiana para o valor individual de Y, quando X =
100, para a regresso do Exemplo 9.
Alguns cuidados em relao previso:
1. Quanto mais afastados da mdia dos valores observados na amostra for a estimativa,
menos preciso haver.
2. Ao extrapolar as estimativas para valores fora do intervalo dos dados amostrais, no
existem garantias de que a relao entre as variveis manter o mesmo padro
observado na amostra.
Exerccio 9. Calcular os intervalos com 90% de confiana para a estimativa mdia e individual de Y
dado que X = 10 para os dados do Exerccio 1.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
23
1.10 Anlise de Varincia ANOVA
Um mtodo complementar para o estudo da anlise de regresso a anlise de varincia. A
ANOVA verifica se o modelo estimado possui algum grau de explicao sobre a varivel resposta.
No caso de apenas duas variveis (ou seja, MRLS), esse mtodo equivalente ao teste t para testar
se o coeficiente angular do modelo nulo, isto :
=
0 :
0 :
2 1
2 0
H
H
Como j mencionado, possvel particionar as somas de quadrados da seguinte forma:
( ) ( ) ( )
+ =
2 2
2
i i i i
Y Y Y Y Y Y
SQT = SQE + SQR
Ou seja:
SQT: soma de quadrados total, com (n-1) g.l.;
SQE: soma de quadrados explicada pela regresso, com 1 g.l.;
SQR: soma de quadrados dos resduos, com (n-2) g.l..
As somas de quadrados tambm podem ser calculadas atravs das seguintes expresses:
( )
= =
2
2
i i
y Y Y SQT
( )
= =
2 2
2
2
i i
x Y Y SQE
( )
( )
= = = =
2
2
2 2 2
2
2 2
2
x
xy
y x y e Y Y SQR
i i i
A ANOVA utiliza essa relao entre as somas de quadrados geralmente resumida e
analisada atravs da seguinte tabela:
ANOVA
Causas de Variao GL SQ QM F
Devida regresso 1
2 2
2
i
x
1
2 2
2
=
i
x
QME
QMR
QME
Devido aos resduos n-2
i
e
2
2
=
n
e
QMR
i
Total n-1
2
i
y
O valor da estatstica F tem 1 g.l. no numerador e n-2 g.l. no denominador, ou seja:
F ~ F
(1;n-2)
Regra de deciso: Se
( ) 2 ; 1 ;
>
n
F F
, rejeita-se H
0
, caso contrrio no se rejeita.
No caso de apenas duas variveis, deve-se observar que a relao entre as estatsticas t e f
f t =
2
.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
24
Exemplo 11. Utilizando os dados do Exemplo 1, construa a tabela da anlise de varincia e analise
os resultados, considerando um nvel de significncia de 5%.
1.10.1 Teste de significncia para o coeficiente de determinao
Alternativamente, pode-se observar que o teste F para testar a significncia global do
modelo tambm pode ser visto como um teste de significncia para o coeficiente de determinao
r
2
, isto , se o coeficiente de determinao nulo ou no:
2
0
2
1
: 0
: 0
H
H
Atravs de manipulaes algbricas, a tabela ANOVA pode ser re-escrita em termos desse
coeficiente da seguinte forma:
ANOVA
CV GL SQ QM F
Regresso 1
( )
2 2
i
y r
( ) 1
2 2
i
y r
( )
( )
2
2
1
2
r
r n
Resduos n-2
( )( )
2 2
1
i
y r
( )( ) ( ) 2 1
2 2
n y r
i
Total n-1
2
i
y
Exemplo 12. Refazer a tabela de anlise de varincia do exemplo 11 em termos do coeficiente de
determinao.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
25
Exerccio 10.
a) Faa a ANOVA para os dados do Exerccio 1 e analise os resultados.
b) Refaa a ANOVA em termos do coeficiente de determinao e compare os resultados com o item
a).
1.11 Regresso pela origem
Em algumas situaes, a FRP de duas variveis assume a seguinte forma:
i i i
e X Y + =
2
Nesse modelo, o termo do intercepto est ausente ou nulo. Aplicando ento o mtodo de
MQO, obtemos as seguintes frmulas para
2
e sua varincia:
=
2 2
X
XY
,
=
2
2
2
2
X
,
1
2
2
=
n
e
,
( )
=
2
2
2 2
X
XY
Y e
A primeira diferena entre o modelo de regresso pela origem e o modelo com intercepto
que as frmulas para o primeiro envolvem somas brutas das variveis, e no no formato desvio.
A segunda diferena so os graus de liberdade, que passam a ser n 1.
Outra diferena que, no modelo com intercepto 0 =
i
e , j na regresso pela origem, isto
nem sempre acontece.
Alm disso, o r
2
conforme definido anteriormente pode ser negativo nos modelos com
intercepto ausente. Portanto, ele no pode ser usado diretamente nesse caso e tambm necessrio
ajustar os clculos, obtendo o que se chama de r
2
bruto, definido como:
( )
=
2 2
2
2
Y X
XY
r
bruto
.
O r
2
bruto est sempre entre 0 e 1, mas no pode ser comparado diretamente ao valor do r
2
convencional.
Em decorrncia das caractersticas especiais deste modelo, preciso ter grande cautela ao
empreg-lo. A menos que exista uma expectativa a priori muito forte, seria prefervel ater-se ao
modelo com intercepto.
Exemplo 13. Ajustar o modelo de regresso pela origem aos dados do Exemplo 1, calcular o r
2
bruto e testar a hiptese de que existe influncia linear de X em Y, para uma significncia de 5%.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
26
Exerccio 11. Ajustar o modelo de regresso pela origem aos dados do Exerccio 1, calcular o r
2
bruto e testar a hiptese de que existe influncia linear de X em Y, para uma significncia de 5%.
1.12 Formas funcionais dos modelos de regresso
Trabalhamos at agora com um modelo linear nos parmetros e nas variveis. Entretanto,
alguns modelos de regresso bastante usados no so lineares nas variveis, mas o so nos
parmetros. Esses modelos podem ser tornados lineares por meio de transformaes nas variveis.
1.12.1 Modelo Log-Linear ou Log-Log
Modelo de Regresso Exponencial:
( )
i i i
e X Y exp
2
1
=
Este modelo pode ser expresso como:
( ) ( ) ( )
i i i
e X Y + + = ln ln ln
2 1
Se escrevermos ( )
1
ln = , temos o modelo log-linear, que linear nos parmetros mas no
nas variveis:
( ) ( )
i i i
e X Y + + = ln ln
2
Se fizermos, ( )
i i
Y Y ln
*
= e ( )
i i
X X ln
*
= , teremos o MRLS
i i i
e X Y + + =
*
2
*
, que pode ser
estimado por MQO.
A utilidade desse modelo que
2
mede a elasticidade de Y em relao a X, isto , a
variao percentual de Y correspondente a variao de 1% em X. Assim, se Y representa a
quantidade demandada de um bem e X seu preo unitrio,
2
mede a elasticidade preo da
demanda.
Desenhos:
No modelo de 2 variveis, para verificar se o modelo log-linear se ajusta aos dados, traa-se
o diagrama de disperso de ( )
i
Y ln contra ( )
i
X ln e verifica-se se os pontos se aproximam de uma
reta.
1.12.2 Modelos semilogartmicos Log-Lin e Lin-Log
- Modelo Log-Lin
Muitas vezes interessante conhecer a taxa de crescimento de algumas variveis como
populao, PNB, etc. Imagine que desejamos conhecer a taxa de crescimento de uma populao no
perodo t. Denotemos por
t
Y a populao no final do perodo e
0
Y no incio do perodo.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
27
Recordando a frmula de juros compostos, temos que:
( )
t
t
r Y Y + = 1
0
Onde r a taxa de crescimento de Y. Aplicando-se o logaritmo natural nos 2 lados da equao
temos que:
( ) ( ) ( ) r t Y Y
t
+ + = 1 ln ln ln
0
Agora, fazendo ( )
0 1
ln Y = e ( ) r + = 1 ln
2
, temos:
( ) t Y
t 2 1
ln + =
.
Incluindo o termo de erro temos o modelo log-lin:
( )
t t
e t Y + + =
2 1
ln
que pode ser analisado por MQO fazendo-se ( )
t t
Y Y ln
*
= .
Se multiplicarmos
2
por 100 temos a taxa de crescimento de Y.
- Modelo Lin-Log:
No modelo anterior (Log-lin) queremos conhecer o crescimento percentual de Y para uma
variao absoluta em X. O modelo Lin-log serve para conhecermos a variao absoluta em Y para
uma variao percentual em X. Assim,
( )
i i i
e X Y + + = ln
2 1
que pode ser analisado por MQO fazendo-se ( )
i i
X X ln
*
= .
Dividindo-se
2
por 100 tem-se a variao absoluta de Y dada uma variao de 1% em X.
Uma das aplicaes deste modelo so os modelos de despesas de Engel, que verificou que
o total de despesas com alimentao tende a aumentar em PA enquanto as despesas totais
aumentam em PG.
1.12.3 Modelos Recprocos (Inversos)
So do tipo:
i
i
i
e
X
Y +
|
|
\
|
+ =
1
2 1
Se fizermos
|
|
\
|
=
i
i
X
X
1
*
, podemos utilizar MQO.
Este modelo pode assumir formas como (desenhos):
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
28
Como ilustrao pode-se pensar em ajustar um modelo onde a varivel dependente
mortalidade infantil de vrios pases, e a varivel independente o PNB per capita de cada um.
Espera-se que, quanto maior o PNB per capita, menor a mortalidade, mas esta relao no uma
linha reta. Quando PNB aumenta, no incio h uma reduo substancial da mortalidade, mas depois
a queda ameniza.
Uma das aplicaes deste modelo a curva de Phillips, da macroeconomia.
Exemplo 14: Na tabela a seguir, tem-se parte de um conjunto de dados que mostra as despesas com
servios por trimestre, no perodo de 1993 at o 3 trimestre de 1998.
Ano-trimestre t Desp. Serv. (Y) Y*=ln(Y)
1993-I 1 2445,3 7,802
1993-II 2 2455,9 7,806
1993-III 3 2480,0 7,816
1993-IV 4 2494,4 7,822
... ... ... ...
1998-I 21 2829,3 7,948
1998-II 22 2866,8 7,961
1998-III 23 2904,8 7,974
Ajustar um modelo log-lin onde a varivel independente t, e a varivel dependente Y o
mesmo que ajustar um MRLS onde a varivel independente t e a varivel dependente Y*.
Fazendo isso se obtm a equao t Y
t
00743 , 0 7890 , 7
*
+ = , isso indica que em um perodo
que vai do 1 trimestre de 1993 at o 3 trimestre de 1998, as despesas com servios aumentaram a
uma taxa trimestral de 0,743%.
Exerccio 15. Os dados a seguir mostram as despesas com propaganda (X), expressas em
percentagem das despesas totais, e o lucro operacional lquido (Y), expresso em percentagem do
total de vendas, em uma amostra de seis drogarias.
X Y
1,5 3,6
1,0 2,8
2,8 5,4
0,4 1,9
1,3 2,9
2,0 4,3
a) Ajuste a reta de mnimos quadrados que permita predizer o lucro operacional lquido em termos
das despesas com propaganda.
b) Calcule o coeficiente de correlao e interprete.
c) Qual o grau de ajuste do modelo? Interprete.
d) Teste a hiptese nula
2
1,6 contra a hiptese
2
< 1,6, ao nvel de 0,01 de significncia.
e) Construa um intervalo de 99% de confiana para
2
.
f) Construa um intervalo de 90% de confiana para a varincia residual.
g) Construa um intervalo de 95% de confiana para o lucro operacional lquido mdio quando as
despesas com propaganda so de 2,5% da despesa total.
h) possvel utilizar o modelo ajustado para prever o lucro quando as despesas so da ordem de
5%? Nesse caso, o que se deve observar?
i) Ajuste um modelo de regresso que passe pela origem do sistema coordenado e compare os
resultados com o primeiro modelo estimado.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
29
2 MODELO DE REGRESSO LINEAR MLTIPLA (MRLM)
A teoria econmica raramente simples a ponto de explicar o comportamento da varivel de
interesse com base na informao de apenas uma outra varivel explicativa. Dessa forma,
ampliaremos o que j foi discutido para o caso de mais de uma varivel independente. O mais
simples caso de regresso mltipla possui trs variveis, sendo duas explicativas e uma resposta, de
forma que a FRP do modelo de trs variveis dada por:
1 2 2 3 3 i i i i
Y X X e = + + +
Generalizando quando temos k variveis:
i ki k i i i
e X X X Y + + + + + =
3 3 2 2 1
, com i = 1, 2, ..., n.
Nesse modelo:
- As k-1 variveis explicativas so X
2
, X
3
, ..., X
k
, e Y a varivel dependente ou explicada;
- Os e
i
so os erros aleatrios (resduos) que seguem as hipteses clssicas;
-
1
o intercepto;
- Os coeficientes parciais de regresso, desconhecidos, so
2
,
3
, ...,
k
.
2.1 Significado dos parmetros do modelo
-
1
o valor mdio de Y quando X
2
= X
3
= ... = X
k
= 0
-
2
,
3
, ...,
k
:
i
mede a variao de Y, por uma unidade de variao em X
i
, mantendo-se as demais
variveis constantes (ceteris paribus).
2.2 Notao matricial do MRLM
A grande vantagem da lgebra matricial sobre a lgebra escalar que ela oferece um mtodo
compacto para lidar com modelos de regresso envolvendo qualquer nmero de variveis; uma vez
formulado o modelo, a soluo se aplica a uma, duas ou qualquer nmero de variveis.
Seja a FRP para o modelo de k variveis. Essa equao uma expresso abreviada do
seguinte conjunto de n equaes:
1 1 31 3 21 2 1 1
e X X X Y
k k
+ + + + + =
2 2 32 3 22 2 1 2
e X X X Y
k k
+ + + + + =
...
n kn k n n n
e X X X Y + + + + + =
3 3 2 2 1
Em notao matricial, esse conjunto pode ser escrito como:
e
X
Y
(
(
(
(
+
(
(
(
(
(
(
(
(
=
(
(
(
(
n k kn n
k
k
n
e
e
e
X X
X X
X X
Y
Y
Y
2
1
2
1
2
2 22
1 21
2
1
1
1
1
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
30
Assim, a FRP sob a forma matricial ento representada por:
e X Y + =
onde:
Y: o vetor coluna de dimenso (n x 1) de valores observados;
X: a matriz (n x k) de valores observados para as variveis explicativas;
: o vetor (k x 1) de parmetros desconhecidos;
e : representa o vetor (n x 1) de perturbaes (erros) aleatrias.
Obs: as notaes negrito representam formas matriciais.
2.3 Premissas do MRLM
[1]: e X Y + = ;
[2]: 0 ) ( = e E ;
[3]:
n
I ee
2
) ' ( = E , sendo I
n
a matriz identidade de ordem n (hiptese de ausncia de
heteroscedasticidade ou autocorrelao serial);
) ' (ee E a chamada matriz de varincias e covarincias dos resduos aleatrios. Os
elementos na diagonal principal dessa matriz so as varincias, e os elementos fora da diagonal
principal so as covarincias.
[4]: a matriz X no aleatria, isto , consiste em um conjunto de nmeros fixos;
[5]: a raiz caracterstica, ou posto de X k < n (hiptese de ausncia de multicolinearidade);
Isto significa que as colunas da matriz X so linearmente independentes, ou seja, no h uma
relao linear exata entre as variveis X.
[6]: para realizarmos inferncias, necessrio supor que ( )
n
I e
2
; 0 ~ N .
2.4 Mtodo dos mnimos quadrados ordinrios (MQO)
Seja a FRA de k variveis:
i i i ki k i i i
e Y e X X X Y
3 3 2 2 1
+ = + + + + + = ,
que pode ser escrita em notao matricial como:
e Y e X Y
+ = + = .
Da mesma forma que no modelo de duas variveis, os estimadores de MQO podem ser
obtidos atravs da minimizao da soma dos quadrados dos resduos, isto :
( )
=
2
3 3 2 2 1
2
ki k i i i i
X X X Y e .
Em notao matricial, isto equivale a minimizar e ' e , pois:
[ ]
= + + + =
(
(
(
(
=
2 2 2 2
i n 2 1
n
2
1
n 2 1
e e e e
e
e
e
e e e
e ' e
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
31
A aplicao desse mtodo conduz ao vetor de estimadores de mnimos quadrados dos
coeficientes de regresso:
( ) Y X X X ' '
1
=
As matrizes
X X'
e
Y X'
so dadas por:
(
(
(
(
(
(
=
2
3 2
3
2
3 3 2 3
2 3 2
2
2 2
3 2
ki ki i ki i ki
ki i i i i i
ki i i i i i
ki i i
X X X X X X
X X X X X X
X X X X X X
X X X n
X X' e
(
(
(
(
(
(
i ki
i i
i i
i
Y X
Y X
Y X
Y
3
2
' Y X .
Obs: Mtodos para inverter uma matriz
1) Cofatores
Queremos determinar a inversa da matriz A, ou seja, A
-1
. Para isso devemos fazer:
1. Achar o det(A);
2. Obter a matriz de cofatores C, lembrando que: ( )
ij
j i
ij
M c
+
= 1 , onde M
ij
o menor do
elemento da linha i e coluna j, obtido suprimindo-se a linha i e coluna j.
3. Fazer a transposta da matriz de cofatores, C;
4. Dividir cada elemento de C por det(A).
Em resumo: ' C
det(A)
1
A
1
=
.
2) Escalonamento
Escreve-se a matriz identidade do lado da matriz que se quer inverter. Fazem-se operaes
lineares nas linhas at que a primeira matriz se torne a identidade.
2.4.1 Varincias dos estimadores de MQO
Demonstra-se que
( ) ( )
1 2
= X X' Var ,
que a matriz de varincias e covarincias dos estimadores de MQO, que s e conhecida se
2
for
conhecido.
Entretanto, a varincia residual pode ser estimada por:
k n k n
=
Y X' Y Y' e ' e
2
,
onde
=
2
i
Y Y Y' .
Assim, as varincias estimadas dos estimadores de MQO so:
ii
a
i
2 2
= ,
onde
ii
a o elemento da linha i, coluna i, da matriz ( )
1
X X' .
Demonstra-se que o vetor
= =
= 1
'
1
'
' '
2 2
2
^
2
Y Y Y
e e'
Y Y Y
Y Y X
Obs.: No modelo de duas variveis definimos o coeficiente de correlao (r) como uma medida do
grau da relao entre as variveis. No caso de trs ou mais variveis, h um coeficiente anlogo, o
coeficiente de correlao mltipla (
2
R R = ), que mede a associao entre Y e todas as variveis
explanatrias em conjunto. Embora r possa ser positivo ou negativo, R sempre ser positivo (pois
nem todas as variveis explicativas podem ter relao no mesmo sentido com a varivel resposta).
Na prtica, porm, R tem pouca importncia. A quantidade mais significativa R
2
.
2.6 Coeficiente mltiplo de determinao ajustado:
2
R
Uma propriedade importante do R
2
que ele uma funo no-decrescente do nmero de
variveis explicativas. O R
2
quase invariavelmente aumenta e nunca diminui quando o nmero de
regressores aumenta.
Em vista disto, ao comparar dois modelos de regresso com a mesma varivel dependente,
mas com nmero diferente de variveis X, deveramos escolher o modelo com o R mais alto. Para
comparar dois termos R, preciso levar em conta o nmero de variveis X presentes no modelo.
Isto pode ser feito se considerarmos o coeficiente mltiplo de determinao ajustado, que dado
por:
( )
k n
n
R
n
SQT
k n
SQR
R
=
1
1 1
1
1
2 2
O
2
R pode ser negativo, e neste caso, na prtica, seu valor ser tomado como zero.
Obs.: o
2
R , no a nica forma de correo do R
2
e nem a nica medida para julgar a adequao
de um modelo de regresso, outras medidas conhecidas so o R
2
Modificado, o critrio de
Informao de Akaike e os critrios de Predio de Amemiya.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
34
Exemplo 2. Clculo do R
2
,
2
R para os dados do Exemplo 1.
Exerccio 2. Clculo do R
2
,
2
R para os dados do Exerccio 1.
2.7 Coeficiente de correlao parcial
Na regresso linear mltipla, podemos ter um coeficiente de correlao para cada par de
variveis do modelo. Por exemplo, no modelo de trs variveis, tm-se r
12,
r
13
e r
23.
Esses
coeficientes so denominados de coeficientes de correlao simples, ou de ordem zero. Eles podem
ser calculados conforme a frmula:
( )( )
( ) ( ) ] ][ [
2
2
2
2
2 2
= =
Y Y n X X n
Y X XY n
y x
xy
r
Seja o coeficiente r
12
. Ele no refletir o verdadeiro grau de associao entre Y e X
2
na
presena de X
3
, pelo fato que X
3
provavelmente influencia em Y e X
2
. Para obter um coeficiente de
correlao que reflita o verdadeiro grau da relao entre duas variveis na presena das demais,
necessrio manter a influncia das demais variveis constante. Assim, no modelo com trs
variveis, denota-se:
r
12.3
: coeficiente de correlao parcial entre Y e X
2
, mantendo X
3
constante;
r
13.2
: coeficiente de correlao parcial entre Y e X
3
, mantendo X
2
constante;
r
23.1
: coeficiente de correlao parcial entre X
2
e X
3
mantendo Y constante.
As frmulas de clculo so:
( )( )
2
23
2
13
23 13 12
3 . 12
1 1 r r
r r r
r
= ;
( )( )
13 12 23
13.2
2 2
12 23
1 1
r r r
r
r r
=
e
( )( )
2
13
2
12
13 12 23
1 . 23
1 1 r r
r r r
r
=
r
12.3
, r
12.3
e r
12.3
so os coeficientes de primeira ordem. Se houvessem mais variveis no
modelo, ocorreriam tambm coeficientes de correlao de segunda ordem (r
12.34
), terceira ordem
(r
12.345
) e assim por diante.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
35
2.8 Coeficiente de determinao parcial
Os coeficientes de determinao parciais expressam o grau de explicao que cada varivel
exerce sobre as demais, mantendo constante todos os outros fatores, ou seja:
2
3 . 12
r : o coeficiente de determinao parcial entre Y e X
2
a proporo da variao em Y no
explicada pela varivel X
3
que foi explicada pela incluso de X
2
no modelo.
Os coeficientes de determinao parciais so obtidos simplesmente tomando-se o quadrado
dos coeficientes de correlao parciais correspondentes.
Existe as seguintes relaes entre esses coeficientes e R:
2
23
23 13 12
2
13
2
12 2
1
2
r
r r r r r
R
+
=
( )
2
2 . 13
2
12
2
12
2
1 r r r R + =
( )
2
3 . 12
2
13
2
13
2
1 r r r R + =
Ento,
2
12
2
r R > desde que 0
2
2 . 13
> r . Ou seja, R
2
sempre cresce com a incluso de uma nova
varivel, a menos que 0
2
2 . 13
= r , onde teramos
2
12
2
r R = .
Exemplo 3. Dados r
12
= 0,8822
,
r
13 =
0,8089 e r
23
= 0,4564 para o Exemplo 1, calcular e interpretar
os coeficientes de determinao parciais.
Exerccio 3. Ao se ajustar um modelo de trs variveis, encontrou-se r
12
= 0,3048
,
r
13 =
0,1391 e
r
23
=-0,7043. Calcule e interprete os coeficientes de determinao parciais.
2.9 Intervalo de confiana e teste de significncia individual para os coeficientes
de regresso
Para podermos realizar inferncias, supomos que ( )
n
I e
2
; 0 ~ N . Isso implica que, sob as
hipteses clssicas,
X X' N
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
36
E cada
i
com a
ii
sendo o elemento da i-sima linha e i-sima coluna de (XX)
-1
.
Sendo
2
desconhecido, tem-se que:
( ) k n
i i
t t
i
= ~
com
ii
a
i
2 2
e
ii
a
i
2
.
Assim, o intervalo de confiana para cada coeficiente de regresso dado por:
( )
(
i
k n
i i
t para IC
2
;
: % 1 100
Alm disso, utilizamos o procedimento idntico do teste de hipteses para o modelo de duas
variveis para testar a significncia individual dos coeficientes.
Por exemplo, seja o modelo de 3 variveis. Poderia ser interessante testar as hipteses
=
0 :
0 :
2 1
2 0
H
H
.
Neste caso, estaramos avaliando se X
2
tem alguma influncia linear sobre Y, mantendo-se
X
3
constante.
A tabela abaixo nos d a rea de rejeio de cada teste:
Tipo de hiptese H
0
H
1
Deciso: rejeitar H
0
se
Bicaudal
*
0
:
i i
H =
*
1
:
i i
H
2
;
k n
t t
>
Cauda direita
*
0
:
i i
H
*
1
:
i i
H >
; k n
t t
>
Cauda esquerda
*
0
:
i i
H
*
1
:
i i
H <
; k n
t t
<
2.10 Intervalo de confiana para a varincia residual
Na regresso mltipla, sabe-se que
( )
( ) k n
k n
2
2
2
~
.
Assim, o intervalo de confiana para a varincia residual :
( ) ( ) ( )
(
(
(
2
2
1 ;
2
2
2
;
2
2
: % 1 100
k n k n
k n k n para IC .
Exemplo 4. Teste se os coeficientes do modelo de regresso estimado no Exemplo 1 so
significativamente diferentes de zero, para um nvel de significncia de 5%. Alm disso, construa os
intervalos de 95% de confiana para os coeficientes de regresso e para a varincia residual.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
37
Exerccio 4.
a) Teste se os coeficientes do modelo de regresso estimado no Exerccio 1 so significativamente
diferentes de zero, para um nvel de significncia de 5%.
b) Construa um IC de 90% para o coeficiente de X
2
e teste se ele diferente de 1.
c) Teste, a 5% de significncia, se o intercepto maior que 2.
2.11 Teste da significncia geral da regresso (ANOVA)
No teste individual, trabalhamos separadamente com a hiptese de que cada verdadeiro
coeficiente parcial de regresso era zero. Mas vejamos agora a seguinte hiptese:
0 :
3 2 0
= = = =
k
H
Esta hiptese no pode ser testada fazendo-se um teste de significncia para cada coeficiente
parcial. Isto porque, se para cada teste adotamos um nvel de significncia (probabilidade de erro
tipo I), a probabilidade de erro tipo I de todos os testes simultaneamente maior que .
Entretanto, atravs da ANOVA, podemos testar as hipteses abaixo de uma nica vez:
= = = =
. :
0 :
1
3 2 0
zero de diferente dos um menos ao H
H
i
k
A tabela de ANOVA para o modelo de k variveis :
CV GL SQ QM F
Regresso k-1
2
^
' ' Y n Y X
1 k
SQE
QMR
QME
Resduos n-k
Y X Y Y ' ' '
^
k n
SQR
Total n-1
2
' Y n Y Y
Demonstra-se que a estatstica F segue distribuio F de Snedecor com k-1 g.l. no
numerador e n-k g.l. no denominador, ou seja:
F ~ F
(k-1;n-k)
Regra de deciso: Se
( ) k n k
F F
>
; 1 ;
, rejeita-se H
0
, caso contrrio no se rejeita.
Pode-se reescrever a tabela de ANOVA em termos do coeficiente mltiplo de determinao,
R:
CV GL SQ QM F
Regresso k-1
( )
2
2
' Y n R Y Y
1 k
SQE
( )
( )( )
2
2
1 1 R k
R k n
Resduos n-k
( )( )
2
2
' 1 Y n R Y Y
k n
SQR
Total n-1
2
' Y n Y Y
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
38
Novamente, a ANOVA serve para testar tambm as hipteses:
2
0
2
1
: 0
: 0
H
H
onde
2
o coeficiente mltiplo de determinao populacional.
Exemplo 5. Construir a ANOVA, estabelecer as hipteses e proceder ao teste F, a 5% de
significncia, para os dados do Exemplo 1.
Exerccio 5. Construir a ANOVA, estabelecer as hipteses e proceder ao teste F, a 5% de
significncia, para os dados do Exerccio 1.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
39
2.12 Contribuio marginal ou incremental de uma varivel explicativa
Seja um modelo de trs variveis. Imagine que faamos a incluso seqencial de X
2
e X
3
,
isto , primeiro fazemos a regresso entre Y e X
2
e avaliamos sua significncia e ento
acrescentamos X
3
ao modelo para verificar se este contribui com algo (obviamente, a ordem de
entrada pode ser invertida). Com contribuio, queremos dizer que desejamos saber se a incluso da
varivel no modelo aumenta a SQE (e, por conseqncia, R) significativamente em relao
SQR. Essa a contribuio marginal ou incremental de uma varivel explicativa.
A questo da contribuio marginal importante na prtica. Na maioria das pesquisas, o
pesquisador pode no estar totalmente convencido de que valha a pena acrescentar uma varivel X
ao modelo sabendo que vrias outras variveis X j esto presentes no modelo. No se quer incluir
variveis que contribuam muito pouco para a SQE. Contudo, tambm no se quer excluir variveis
que aumentem substancialmente a SQE. Mas como decidir se uma varivel X reduz
significativamente a SQR? A tcnica da ANOVA pode ser empregada para responder essa pergunta.
Primeiramente, fazemos a regresso entre Y e X
2
, produzindo a tabela de ANOVA abaixo:
CV GL SQ QM
Regresso (devido a X
2
) 1 Q
1
=SQE QME
Resduos n-2 SQR QMR
Total n-1 SQT
Aps, acrescentamos X
3
, e produzimos outra tabela de ANOVA:
CV GL SQ QM
Regresso (devido a X
2
e X
3
) 2 Q
3
=SQE QME
Resduos n-3 Q
4
=SQR QMR
Total n-1 Q
5
=SQT
Combinando estas duas tabelas, obtemos:
CV GL SQ QM F
Regresso (devido a X
2
) 1 Q
1
Q
1
/1
Regresso (devido a X
3
) 1 Q
2
= Q
3
Q
1
Q
2
/1 (n-3)Q
2
/Q
4
Regresso (devido a X
2
e X
3
) 2 Q
3
Q
3
/2
Resduos n-3 Q
4
= Q
5
Q
3
Q
4
/(n-3)
Total n-1 Q
5
A estatstica F segue distribuio F com 1 e n-3 graus de liberdade. Se seu valor for
maior que
( ) 3 ; 1 ; n
F
2
= =
=
+ =
R R
t
X Y
i i
CV GL SQ QM F
Regresso 1 65898,2353 65898,2353 5947,494
Resduos 13 144,0340 11,0800
Total 14 66042,2693
Ao se incluir X
3
no modelo, obteve-se:
( ) ( ) ( )
9986 , 0 9988 , 0
2246 , 3 9060 , 14 0811 , 4
7363 , 2 7266 , 0 1603 , 53
3 2
= =
=
+ + =
R R
t
X X Y
i i i
CV GL SQ QM F
Regresso 2 65965,1000 32982,5500 5129,319
Resduos 12 77,1693 6,4302
Total 14 66042,2693
Testar se vale a pena acrescentar X
3
ao modelo, para 5% de nvel de significncia.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
41
Exemplo 7. Seja um conjunto de dados com 20 observaes e 3 variveis independentes (X
2
, X
3
e
X
4
). Em um primeiro momento, ajustou-se a regresso entre Y e X
2
, obtendo-se R = 0,7111. Aps,
ajustou-se o modelo com todas as variveis independentes, obtendo-se R = 0,8013. Testar se o
acrscimo de X
3
e X
4
aumentou significativamente a SQE, a 5%.
Exerccio 6. Com os dados do Exemplo 1, construa a tabela ANOVA para analisar se a incluso de
varivel X
3
na regresso que j possui X
2
significativa a 5% e interprete o resultado.
2.13 Previso no MRLM
No contexto de previso de valores da varivel dependente, temos novamente 2 tipos de
previso: mdia e individual.
Dado o vetor de valores das variveis X para os quais queremos prever Y:
[ ]
k
X X X
0 03 02
'
0
1 = X ,
desejamos prever
k k
X X X Y
0 03 3 02 2 1 0
+ + + + =
que, na forma matricial, o mesmo que
X
'
0
0
= Y .
Este o valor estimado para Y tanto na previso mdia como individual. A diferena est
nas varincias para os dois tipos de previso:
Previso da mdia: ( )
0 0
X X X X
1 ' 2 2
'
=
m
Previso individual: ( ) [ ]
0 0
X X X X
1 ' 2 2
' 1
+ =
i
Conseqentemente, os intervalos de confiana para essas previses, so:
IC para previso mdia: ( ) ( )
(
m
k n
t Y X X Y E para IC
: | % 1 100
2
;
0 0
IC para previso individual: ( )
(
i
k n
t Y X X Y para IC
: | % 1 100
2
;
0 0
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
42
Exemplo 8. No Exemplo 1, a empresa quer saber quanto tempo deveria esperar em mdia para que
um moto-boy retorne de uma tarefa com 3 entregas e 80km a percorrer. Calcule o IC 99% para
E(Y|X=X
0
).
Exerccio 7. Para o Exemplo 1, construa um intervalo com 95% de confiana para o tempo mdio
que a empresa deve esperar no caso de um moto-boy sair com 4 entregas e 70km a percorrer.
2.14 Modelo de regresso polinomial
Suponha que desejamos relacionar custo marginal de produo (Y) com quantidade
produzida (X). Poderamos ajustar uma parbola a esta relao, como abaixo:
O modelo que expressa essa relao dado por:
i i i i
e X X Y + + + =
2
2 1 0
,
que a regresso polinomial de 2 grau, e pode ser ajustada normalmente por MQO.
A forma geral da regresso polinomial de k-simo grau :
i
k
i k i i i
e X X X Y + + + + + =
2
2 1 0
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
43
2.15 Variveis Dummies
Na anlise de regresso, a varivel dependente, que de natureza quantitativa,
influenciada por variveis independentes quantitativas, mas tambm por outras que so de natureza
qualitativa, ou nominal, como sexo, raa, cor, religio, nacionalidade, regio geogrfica, etc. Uma
maneira de inserir essas variveis no modelo de regresso atravs das variveis dummies.
As variveis dummies so tambm chamadas de variveis indicadoras, binrias, categricas,
qualitativas ou dicotmicas, e seus valores so geralmente codificados como 0 e 1.
2.15.1 Regresso somente com variveis dummies (Modelos ANOVA)
Um modelo de regresso pode conter regressores que sejam de natureza exclusivamente
binria.
Como um exemplo, considere o seguinte modelo:
i i i
e D Y + + =
2 2 1
Onde: Y: salrio anual de um professor universitrio;
=
feminino sexo do se
masculino sexo do se
D
i
, 0
, 1
2
Este modelo nos permite saber se o sexo faz alguma diferena no salrio dos professores
universitrios, obviamente desconsiderando a influncia de variveis como idade, cursos de ps-
graduao e anos de experincia. Fazendo as suposies clssicas sobre os resduos, obtm-se que:
Salrio mdio professora: ( )
1 2
0 | = =
i i
D Y E
Salrio mdio professor: ( )
2 1 2
1 | + = =
i i
D Y E
O coeficiente
2
ser a diferena de salrio dos homens em relao s mulheres, por isso
chamado de coeficiente diferencial de intercepto, e o teste para verificar se h diferena nos salrios
mdios para homens e mulheres :
=
0 :
0 :
2 1
2 0
H
H
que pode ser verificado pelo teste t usual.
Exemplo 9. Sejam os dados hipotticos dos salrios de 10 professores universitrios, e o sexo de
cada um.
Y D Y D YD
22 1 484 1 22
19 0 361 0 0
18 0 324 0 0
21,7 1 470,89 1 21,7
18,5 0 342,25 0 0
21 1 441 1 21
20,5 1 420,25 1 20,5
17 0 289 0 0
17,5 0 306,25 0 0
21,2 1 449,44 1 21,2
196,4 5 3888,08 5 106,4
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
44
Estimar o modelo, e testar se existe diferena nos salrios mdios entre os sexos, a 5%.
Para se inserir uma varivel qualitativa com mais de duas categorias, deve-se criar mais de
uma varivel dummy. Por exemplo, suponha que se queira verificar se existe diferena entre os
salrios dos professores segundo o nvel de ps-graduao (mestrado, doutorado e ps-doutorado).
O modelo seria:
i i i i
e D D Y + + + =
3 3 2 2 1
Onde: Y: salrio anual de um professor universitrio;
=
. . , 0
, 1
2
c c
doutorado se
D
i
e
=
. . , 0
, 1
3
c c
doutorado ps se
D
i
Observe que assim, a categoria mestrado j est expressa nas duas variveis dummies,
sendo que o valor correspondente a essa categoria o par (0,0), por isso ela chamada de categoria
de referncia.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
45
Observaes no uso de variveis dummies:
- Se uma varivel qualitativa tem m categorias, devemos introduzir no modelo m 1 variveis
dummies;
- A categoria para o qual no se designa uma varivel binria a categoria de referncia e todas as
comparaes so feitas em relao a ela;
- O valor do intercepto o valor mdio da categoria de referncia;
- Os coeficientes angulares, chamados de coeficientes diferencias de intercepto, do a diferena da
categoria que recebe valor 1 em relao a varivel binria;
- A categoria de referncia arbitrria ao pesquisador, deve-se estar atento na hora das
interpretaes.
Tambm se pode ter mais de uma varivel qualitativa no mesmo modelo.
Exemplo 10. A partir de uma amostra de 528 americanos, foi calculada uma regresso com os
seguintes resultados.
0006 , 0 0182 , 0 0000 , 0
4462 , 3 3688 , 2 9528 , 21
4854 , 0 4642 , 0 4015 , 0
6729 , 1 0997 , 1 8148 , 8
3 2
=
=
=
+ =
p
t
ep
D D Y
i i i
Onde Y=salrio-hora em $;
=
. . , 0
, 1
2
c c
casado se
D
i
e
=
. . , 0
, 1
3
c c
Sul no mora se
D
i
. Interpretar os resultados.
2.15.2 Regresso com variveis quantitativas e dummies (Modelos ANCOVA)
De modo geral, na maioria dos estudos econmicos, um modelo de regresso contm
algumas variveis explanatrias quantitativas e outras qualitativas.
Ainda considerando o exemplo dos salrios dos professores universitrios, suponha que
temos tambm uma varivel quantitativa. Assim:
Y: salrio anual de um professor universitrio;
X: anos de experincia;
=
feminino sexo do se
masculino sexo do se
D
i
, 0
, 1
.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
46
2
1,
0,
i
mulher
D
homem
3
1,
0, .
i
ensino superior
D
c c
3 2 3 2
< > < < > =
+ + =
p
X D D D D Y
i i i i i i
Fazer o grfico e interpretar os resultados.
Observao: Neste exemplo, estamos supondo que a taxa de aumento dos salrios-hora em relao
escolaridade (de cerca de 80 centavos de dlar por ano adicional de escolaridade) no varia com o
gnero e raa. Mas pode ser que no seja este o caso. Para testar isso, pode-se incluir coeficientes
diferenciais angulares:
i i i i i i i i i i i
e X D X D X D D D D Y + + + + + + + =
3 3 2 2 1 3 2 4 3 3 2 2 1
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
48
2.15.4 O emprego de variveis binrias em anlises sazonais
Muitos dados econmicos so formados a partir de dados mensais ou trimestrais que
apresentam padres sazonais (movimentos oscilatrios regulares). Exemplos disso so as vendas
das lojas no Natal e em outras pocas, a demanda por passagem areas, etc. Atravs das variveis
binrias, podemos inserir essa informao no modelo.
Exemplo 13. Estudaram-se as vendas trimestrais de geladeiras (Y), em milhares de unidades, no
perodo de 1978 a 1995 nos EUA. Tambm se observou, em cada trimestre, os gastos com bens
durveis (X), em bilhes de dlares. Ajustou-se o seguinte modelo:
05 , 0 05 , 0 05 , 0 05 , 0 05 , 0
7734 , 2 0804 , 86 2643 , 325 4976 , 242 2440 , 456
4 3 2
< > < < < =
+ + + =
p
X D D D Y
i i i i i
onde
=
contrrio caso
j trimestre se
D
j
, 0
, 1
. Interpretar os resultados.
2.15.5 Modelos Log-Lin e Variveis Dummies
J estudamos o modelo log-lin, que so aqueles em que a varivel dependente o logaritmo
natural de Y, e as variveis independentes esto em suas escalas naturais. Nestes modelos, os
coeficientes angulares das variveis independentes, aps serem multiplicados por 100, so
interpretados como variao percentual de Y para uma variao de uma unidade de X.
Pode-se inserir variveis independentes dummies nestes modelos, entretanto, a interpretao
dos coeficientes angulares destas variveis no a mesma. Para se obter a variao percentual de Y
devida a mudana de categorias na varivel dummy, deve-se calcular ( ) 100 exp( ) 1 , onde o
coeficiente angular da varivel dummy.
Exemplo 14. A certo conjunto de dados ajustou-se o modelo de regresso linear mltipla:
ln( ) 2, 9298 0, 0546 0,1341 Y X D = + +
t = (481,524) (48,3356) (27,2250) n = 15
onde Y o salrio inicial de professores universitrios, X so os anos de experincia, e D uma
varivel indicadora do sexo (D = 1 se homem).
Mantendo-se D constante, o salrio dos professores cresce 5,46% a cada ano a mais de
experincia. Mas no se pode dizer que mantendo X constante, o salrio 13,41% maior para
homens em relao a mulheres. Fazendo-se ( ) 100 exp(0,1341) 1 14, 35% = , ou seja, o salrio dos
professores 14,35% maior do que o salrio das professoras.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
49
Exerccio 8: (ANPEC 2003) O mtodo dos mnimos quadrados ordinrios foi empregado para
estimar o modelo de regresso abaixo, cujo objetivo explicar as variaes de renda entre 526
indivduos:
, 526 , 441 , 0
, 00058 , 0 029 , 0 080 , 0 297 , 0 417 , 0 ) log(
2
2
) 00010 , 0 ( ) 005 , 0 ( ) 007 , 0 ( ) 036 , 0 ( ) 099 , 0 (
= =
+ + + =
n R
u exper exper educ sexo renda
em que sexo uma varivel dicotmica (valor 1, se for homem e 0, caso contrrio), educ o
nmero de anos de escolaridade, exper experincia profissional, tambm medida em anos. Os
nmeros entre parnteses so os erros-padro das estimativas ) 4 ., ,.,.. 1 , 0 ( = i s
i
b
. Com base nos
resultados acima, responda V ou F.
a) um ano a mais de escolaridade, mantidos constantes todos os demais fatores, aumenta em 0,08%
a renda de um indivduo;
b) a significncia conjunta das variveis educ e exper no pode ser medida por meio da estatstica t.
Para isto, o teste F deve ser utilizado;
c) o modelo incapaz de captar diferenas nos retornos da educao entre homens e mulheres;
d) a renda dos homens 29,7% menor que a renda das mulheres.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
50
3 VIOLAES DAS PREMISSAS DO MODELO DE REGRESSO
3.1 No-normalidade dos resduos
Vimos que os testes de hipteses e intervalos de confiana que estudamos somente podem
ser aplicados supondo-se normalidade aos resduos. Entretanto, essa suposio deve ser verificada,
para se avaliar se essas tcnicas de inferncia podem ser realmente aplicadas ou no.
3.1.1 Deteco
Para fazer a verificao da normalidade dos resduos, trs tcnicas so mais conhecidas:
histograma dos resduos, grfico de probabilidade normal e testes no-paramtricos.
- Histograma dos resduos: Trata-se de um simples grfico que usado para conhecer algo da
forma da funo de densidade de probabilidade de uma varivel aleatria. No eixo horizontal,
dividimos os valores da varivel (no caso, dos resduos) em intervalos adequados e, em cada um,
traamos retngulos cuja altura dada pelo nmero de observaes (isto , sua freqncia) nesse
intervalo de classe. A partir desse grfico, devemos tentar verificar se a forma de sino na Normal se
aproxima da forma encontrada no histograma.
Exemplos de histogramas gerados pelo SPSS:
6,0000000000 4,0000000000 2,0000000000 0,0000000000
resid1
100
80
60
40
20
0
F
r
e
q
u
e
n
c
y
7,0000000000 6,0000000000 5,0000000000 4,0000000000 3,0000000000 2,0000000000 1,0000000000 0,0000000000
resid2
200
150
100
50
0
F
r
e
q
u
e
n
c
y
- Grfico de probabilidade normal: No eixo horizontal, marcamos os valores da varivel que nos
interessam (no caso, os resduos) e no eixo vertical representamos o valor esperado para essa
varivel caso ela fosse normalmente distribuda (no Excel o contrrio). Se a varivel for, de fato,
normalmente distribuda, o grfico tomar a forma de uma reta.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
51
Exemplos de grficos de probabilidade normal gerados pelo SPSS:
1,0 0,8 0,6 0,4 0,2 0,0
Observed Cum Prob
1,0
0,8
0,6
0,4
0,2
0,0
E
x
p
e
c
t
e
d
C
u
m
P
r
o
b
Normal P-P Plot of resid1
1,0 0,8 0,6 0,4 0,2 0,0
Observed Cum Prob
1,0
0,8
0,6
0,4
0,2
0,0
E
x
p
e
c
t
e
d
C
u
m
P
r
o
b
Normal P-P Plot of resid2
Exemplo de grfico de probabilidade normal gerado pelo Excel:
Plotagem de probabilidade normal
15
17
19
21
23
25
27
29
31
0 20 40 60 80 100
Percentil da amostra
Y
- Testes no-paramtricos: Existem vrios testes utilizados para verificar se um conjunto de dados
normalmente distribudo, e esto disponveis na maioria dos softwares estatsticos. Alguns deles
so: Anderson-Darlin, Qui-quadrado, Jarque-Bera e Kolmogorov-Smirnov. A hiptese nula desses
testes que os dados provm de uma distribuio normal, contra a alternativa de que os dados no
provm de uma distribuio normal.
Ao pedir esses testes no software, devemos observar se o valor-p menor que o nvel de
significncia adotado. Se for, a suposio de normalidade no est satisfeita.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
52
Exemplo do teste Kolmogorov-Smirnov no SPSS:
One-Sample Kolmogorov-Smirnov Test
resid1 resid2
N
103 103
Mean
2,937384659921 1,048518670813
Normal Parameters(a,b)
Std. Deviation
1,0099431827460 ,9817551636487
Absolute
,057 ,189
Positive
,057 ,189
Most Extreme Differences
Negative
-,036 -,146
Kolmogorov-Smirnov Z ,577
1,917
Asymp. Sig. (2-tailed)
,894 ,001
a Test distribution is Normal.
b Calculated from data.
3.1.2 Conseqncias
J vimos que a premissa de normalidade no essencial se o objetivo for apenas estimar o
modelo. Alm disso, demonstra-se que os estimadores de MQO so os melhores estimadores
lineares no tendenciosos quer os resduos sejam normais quer no.
Entretanto, se os resduos no forem normais, os testes e intervalos de confiana baseados
nas distribuies t, F e Qui-quadrado sero invlidos.
3.1.3 Medidas corretivas
Demonstra-se que, mesmo se os resduos no forem normais, mas forem homocedsticos, os
estimadores de MQO seguem distribuio assintoticamente normal. Ou seja, se a amostra for
grande, os habituais procedimentos de inferncia ainda so vlidos.
Infelizmente, no se tem um consenso sobre quo grande uma amostra deve ser para que a
normalidade assinttica seja vlida. Alguns autores consideram n = 30 como sendo um tamanho de
amostra mnimo satisfatrio.
Quando no se pode aumentar o tamanho da amostra, existe o recurso de proceder
transformaes na varivel Y, como tomar o logaritmo ou a raiz quadrada de Y.
Exemplo 1. Procedeu-se um estudo sobre gastos com pesquisa e desenvolvimento (PD) e as vendas
(V) de 18 setores industriais dos EUA. Ajustou-se o modelo e V PD + + =
2 1
no Excel, os
resultados esto abaixo.
Estatstica de regresso
R-Quadrado 0,478303
R-quadrado ajustado 0,445697
Erro padro 2759,153
Observaes 18
ANOVA
gl SQ MQ F F de significao
Regresso 1 1,12E+08 1,12E+08 14,66916 0,001476
Resduo 16 1,22E+08 7612927
Total 17 2,33E+08
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
53
Coeficientes Erro padro Stat t valor-P 95% inferiores 95% superiores
Interseo 192,9931 990,9858 0,194749 0,848041 -1907,8 2293,789
VENDAS 0,0319 0,008329 3,830033 0,001476 0,014244 0,049557
Teste de Kolmogorov-Smirnov:
valor-p = 0,286
Ajustou-se tambm o modelo ( ) e V PD + + =
2 1
ln , obtendo-se os seguintes resultados:
Estatstica de regresso
R-Quadrado 0,540983
R-quadrado ajustado 0,512295
Erro padro 1,121648
Observaes 18
ANOVA
gl SQ MQ F F de significao
Regresso 1 23,72403 23,72403 18,85711 0,000504
Resduo 16 20,12951 1,258094
Total 17 43,85353
Coeficientes Erro padro Stat t valor-P 95% inferiores 95% superiores
Interseo 5,790005 0,402854 14,37245 1,45E-10 4,935991 6,644018
VENDAS 1,47E-05 3,39E-06 4,342478 0,000504 7,53E-06 2,19E-05
Teste de Kolmogorov-Smirnov:
valor-p = 0,898
Plotagem de probabilidade normal
0
2000
4000
6000
8000
10000
12000
14000
0 20 40 60 80 100 120
Percentil da amostra
P
D
Plotagem de probabilidade normal
0
2
4
6
8
10
0 20 40 60 80 100 120
Percentil da amostra
L
N
(
P
D
)
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
54
3.2 Multicolinearidade
Uma das premissas do modelo de regresso que: no existe multicolinearidade perfeita,
ou seja, no h relaes lineares perfeitas entre as variveis explicativas. No caso da regresso com
k variveis envolvendo as variveis explanatrias
k
X X X , , ,
2 1
(onde 1
1
= X para todas as
observaes a fim de levar em conta o intercepto), diz-se que existe uma relao linear exata se a
seguinte condio for atendida:
0
2 2 1 1
= + + +
k k
X X X ,
onde os
i
so constantes tais que nem todas so zero simultaneamente.
Entretanto, a multicolinearidade no ocorre apenas com relaes perfeitas, e tambm ocorre
quando as variveis X so intercorrelacionadas, mas de um modo menos que perfeito, como a
seguir:
0
2 2 1 1
= + + + +
i k k
X X X , onde
i
um erro aleatrio.
Assim, suponha que a varivel X
2
possa ser expressa com um alto grau de explicao por
uma composio linear das demais variveis, nesse caso teramos:
i
ki k i i
i
X X X
X
2 2 2
3 3
2
1 1
2
1
=
O que o mesmo que regredir X
2
sobre as demais variveis na forma:
i ki k i i i
u X X X X + + + + + =
3 3 1 2 1 2
.
Como exemplo numrico, vejamos os seguintes dados hipotticos:
X
2
X
3
X
4
10 50 52
15 75 75
18 90 97
24 120 129
30 150 152
Observe que
i i
X X
2 3
5 = , portanto h colinearidade perfeita entre essas duas variveis, e
neste caso o coeficiente de correlao igual a 1. A varivel X
4
foi criada a partir de X
3
simplesmente somando a ele os seguintes nmeros: 2, 0, 7, 9, 2. Assim, no h colinearidade
perfeita entre X
2
e X
4
, mas essas duas variveis esto estreitamente relacionadas j que o coeficiente
de correlao entre elas 0,9959.
Em modelos de regresso do tipo
i
k
i k i i i
e X X X Y + + + + + =
2
2 1 0
, a relao
existente entre as variveis independentes no linear e rigorosamente falando, no viola a
hiptese de ausncia de multicolinearidade. Entretanto, em geral observada uma alta correlao
entre os regressores.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
55
3.2.1 Conseqncias
1. Se a multicolinearidade perfeita, os coeficientes da regresso so indeterminados e seus
erros-padro so infinitos.
Para exemplificar, seja um modelo de 3 variveis, e as seguintes observaes:
Y X
2
X
3
= X
2
10 2 2
15 3 3
18 4 4
30 4 4
Onde uma constante no nula.
Nesse caso, a matriz
(
(
(
=
45 45 13
45 45 13
13 13 4
'
X X tem determinante:
( ) 0 7605 8100 7605 7605 7605 8100 ' det = + + = X X
e por isso a sua inversa no existe, o que nos impede de estimar o modelo.
H uma razo intuitiva para isto. Lembrando o significado de
2
=
2
23
2
2
2
2
1
2
r x
i
e
( )
=
2
23
2
3
2
2
1
3
r x
i
.
Assim, percebe-se que, quando
23
r tende (em termos absolutos) a 1, ou seja, quando a
colinearidade entre as variveis X aumenta, as varincias dos dois estimadores aumentam at o
limite, que o infinito.
A velocidade com que as varincias aumentam pode ser mensurada atravs do Fator de
Inflao de Varincia (FIV), definido por:
( )
2
23
1
1
FIV
r
=
Se no h colinearidade, ento FIV = 1, e quanto maior a colinearidade maior o FIV.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
56
A figura abaixo mostra o quanto as varincias dos estimadores aumentam medida que a
correlao entre as variveis independentes aumenta.
Para um modelo de k variveis, pode-se escrever as varincias dos coeficientes angulares
parciais como:
( )
=
2 2
2
2
1
j j
R x
j
,
onde
2
j
R o coeficiente mltiplo de determinao da regresso de
j
X como varivel dependente e
os outros k 2 X como variveis independentes.
Nesse caso, FIV ser:
( )
2
1
1
j
j
R
FIV
= .
O inverso do FIV conhecido como Tolerncia (TOL).
j
j
FIV
TOL
1
=
3. Por causa da conseqncia 2, os intervalos de confiana tendem a ser bastante amplos,
levando a aceitao de 0 :
0
=
i
H .
4. Tambm por causa da conseqncia 2, os testes t de um ou mais coeficientes tendem a ser
estatisticamente no significativos.
5. Apesar das conseqncias 3 e 4, o R pode ser bastante alto.
Nessas situaes o R pode ser to alto que, com base no teste F, somos levados a rejeio
da hiptese 0 :
3 2 0
= = = =
k
H . Na verdade, esse um dos indcios de multicolinearidade:
valores t insignificantes, mas um alto R e um valor de F significativo.
6. As estimativas dos coeficientes e dos erros-padro podem ser muito sensveis a pequenas
variaes nos dados.
Considere a pequena variao nos dados das duas tabelas a seguir:
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
57
Y
1
X
2
X
3
Y
2
X
2
X
3
1 2 4 1 2 4
2 0 2 2 0 2
3 4 12 3 4 0
4 6 0 4 6 12
5 8 16 5 8 16
Da primeira tabela, obtemos
) 9747 , 0 ( ) 1371 , 0 ( ) 2628 , 0 ( :
) 0851 , 0 ( ) 1848 , 0 ( ) 7737 , 0 ( :
003 , 0 4463 , 0 1939 , 1
3 2 1
p
ep
X X Y + + =
Nesse caso temos tambm que R
2
= 0,8101, r
23
= 0,5523.
Da segunda tabela, temos
) 8491 , 0 ( ) 2781 , 0 ( ) 2469 , 0 ( :
) 1252 , 0 ( ) 2721 , 0 ( ) 7480 , 0 ( :
0270 , 0 4014 , 0 2101 , 1
3 2 2
p
ep
X X Y + + =
sendo observados que R
2
= 0,8143, r
23
= 0,8285.
3.2.2 Deteco
Primeiramente, deve-se ter em mente que a multicolinearidade uma questo de grau, e no
de tipo. A distino significativa no entre a presena e ausncia de multicolinearidade, mas entre
seus vrios graus. Alm disso, ela uma caracterstica da amostra, e no da populao. Portanto,
medimos seu grau em uma amostra especfica.
No h um mtodo nico para detectar multicolinearidade, e sim algumas regras prticas.
1. R alto, mas poucas razes t significativas.
Consideraremos um R alto se for maior que 0,8. Neste caso, o teste F rejeitar, na maioria
das vezes, a hiptese de que os coeficientes parciais angulares so simultaneamente iguais a zero,
mas os testes t individuais mostraro que nenhum ou muito poucos desses coeficientes so
significativamente diferentes de zero.
Este um critrio sensato, mas exigente demais.
2. Altas correlaes entre pares de regressores.
No modelo de 3 variveis, olharemos para
23
r , j no modelo de 4 variveis, para
34 24 23
, , r r r ,
e analogamente para os demais modelos.
Consideraremos a correlao de ordem zero alta se for em mdulo maior que 0,8.
Para o modelo de 3 variveis, esse um bom critrio. Porm, para mais variveis a
correlao alta uma condio suficiente mas no necessria para a multicolinearidade.
3. Exame das correlaes parciais entre regressores.
Seja um modelo de 4 variveis. Se R alto, mas
2
23 . 14
2
24 . 13
2
34 . 12
, , r r r so baixos, isto pode
sugerir que as variveis independentes so estreitamente intercorrelacionadas. Este exame no
infalvel e criticado por vrios autores.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
58
4. Regresses auxiliares.
Como a multicolinearidade decorre do fato de que um ou mais regressores so combinaes
lineares exatas ou aproximadas de outros regressores, uma forma de verificar qual das variveis X
se relaciona a outras X fazer regresses de cada X
i
contra os demais X e calcular os respectivos R,
que aqui designamos por
2
i
R . Ento, pode-se calcular a estatstica de teste
( )
( ) ( )
( ) 1 ; 2 2
2
~
1 / 1
2 /
+
+
=
k n k
i
i
i
F
k n R
k R
F
Onde k o nmero de variveis do modelo com o Y.
Se o F calculado for maior que o tabelado, considera-se que X
i
colinear em relao aos
outros X. Ento se ter que fazer algo para corrigir a multicolinearidade.
Em lugar de testar formalmente as regresses auxiliares, pode-se adotar a Regra prtica de
Klein: a multicolinearidade s ser problema srio se todos os
2
i
R forem maiores que o R geral,
isto , aquele obtido na regresso entre o Y e todos os X.
5. ndice condicional.
Atravs de lgebra matricial, definiu-se o ndice condicional (IC), que vem sendo muito
utilizado para diagnosticar a multicolinearidade. Ele calculado pela maioria dos softwares
estatsticos, como o SPSS. sempre um nmero positivo, e interpretado da seguinte forma: se for
menor que 10, a multicolinearidade no preocupante; se estiver entre 10 e 30, moderada a forte;
se for maior que 30, ser grave.
6. Tolerncia e fator de inflao de varincia.
J vimos o FIV e a TOL. Quanto maior o FIV, e por conseqncia, menor a TOL, maior a
multicolinearidade. Como regra prtica, se o FIV de uma varivel for maior que 10, o que acontece
se 9 , 0
2
>
i
R , diz-se que essa varivel altamente colinear.
Exemplo 2. Considere uma regresso do consumo (Y) em funo da renda (X
2
) e riqueza (X
3
), com
os dados abaixo:
Y X2 X3
70 80 810
65 100 1009
90 120 1273
95 140 1425
110 160 1633
115 180 1876
120 200 2052
140 220 2201
155 240 2435
150 260 2686
Atravs do Excel, obtemos os seguintes resultados:
Estatstica de regresso
R mltiplo 0,98158
R-Quadrado 0,96350
R-quadrado ajustado 0,95308
Erro padro 6,80804
Observaes 10
Y X2 X3
Y 1
X2 0,98085 1
X3 0,97810 0,99896 1
ANOVA
gl SQ MQ F F de significao
Regresso 2 8565,55407 4282,77704 92,40196 0,00001
Resduo 7 324,44593 46,34942
Total 9 8890,00000
Coeficientes Erro padro Stat t valor-P 95% inferiores 95% superiores
Interseo 24,77473 6,75250 3,66897 0,00798 8,80761 40,74186
X2 0,94154 0,82290 1,14417 0,29016 -1,00431 2,88738
X3 -0,04243 0,08066 -0,52606 0,61509 -0,23318 0,14831
Tambm interessante observamos o resultado das regresses entre Y e cada um dos X
separadamente:
- Regresso entre Y e X
2
Estatstica de regresso
R-Quadrado 0,96206
R-quadrado ajustado 0,95732
Coeficientes Erro padro Stat t valor-P 95% inferiores 95% superiores
Interseo 24,45455 6,41382 3,81279 0,00514 9,66426 39,24483
X2 0,50909 0,03574 14,24317 0,00000 0,42667 0,59151
- Regresso entre Y e X
3
Estatstica de regresso
R-Quadrado 0,95668
R-quadrado ajustado 0,95126
Coeficientes Erro padro Stat t valor-P 95% inferiores 95% superiores
Interseo 24,41104 6,87410 3,55116 0,00750 8,55935 40,26274
X3 0,04976 0,00374 13,29166 0,00000 0,04113 0,05840
Por ltimo, temos a regresso auxiliar entre X
2
e X
3
:
Estatstica de regresso
R-Quadrado 0,99793
R-quadrado ajustado 0,99767
Coeficientes Erro padro Stat t valor-P 95% inferiores 95% superiores
Interseo -0,38627 2,89796 -0,13329 0,89726 -7,06897 6,29643
X3 0,09792 0,00158 62,04047 0,00000 0,09428 0,10156
Fazer o teste F para verificar se as variveis independentes so colineares, a um nvel de 5%
de significncia. Calcular FIV, TOL, e com base em todos os indcios, concluir sobre
multicolinearidade.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
60
Obs: Sada do SPSS para o mesmo Exemplo
Model Summary
,982
a
,964 ,953 6,80804
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Estimate
Predictors: (Constant), X3, X2
a.
ANOVA
b
8565,554 2 4282,777 92,402 ,000
a
324,446 7 46,349
8890,000 9
Regression
Residual
Total
Model
1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), X3, X2
a.
Dependent Variable: Y
b.
Coefficients
a
24,775 6,752 3,669 ,008
,942 ,823 1,814 1,144 ,290 ,002 482,128
-,042 ,081 -,834 -,526 ,615 ,002 482,128
(Constant)
X2
X3
Model
1
B Std. Error
Unstandardized
Coefficients
Beta
Standardized
Coefficients
t Sig. Tolerance VIF
Collinearity Statistics
Dependent Variable: Y
a.
Collinearity Diagnostics
a
2,930 1,000 ,01 ,00 ,00
,070 6,483 ,98 ,00 ,00
,000 166,245 ,00 1,00 1,00
Dimension
1
2
3
Model
1
Eigenvalue
Condition
Index (Constant) X2 X3
Variance Proportions
Dependent Variable: Y
a.
3.2.3 Medidas corretivas
1. Utilizao de informaes a priori.
Seja o exemplo do consumo versus renda e riqueza. Imagine que saibamos a priori que
3
=
0,1
2
, ou seja, que a taxa de variao do consumo em relao riqueza um dcimo da taxa
correspondente em relao renda. Ento podemos calcular a seguinte regresso:
e X e X X Y + + = + + + =
2 1 3 2 2 2 1
1 , 0 , onde
3 2
1 , 0 X X X + =
A informao a priori pode vir de trabalhos anteriores nos quais o problema de colinearidade
menos grave ou da teoria do campo de estudo.
2. Combinao de dados de corte transversal e sries temporais.
Corte transversal = pesquisa feita em um nico momento do tempo.
Sries temporais = dados so coletados em momentos diferentes no tempo.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
61
Imagine que dispomos de uma srie temporal do n de carros vendidos (Y), seus preos
mdios (P) e a renda dos consumidores (R). Sabe-se que preo e renda tendem a registrar alta
colinearidade, nas sries temporais. Seja tambm o modelo: e R P Y + + + =
3 2 1
.
Se em determinado momento, se fizer uma pesquisa relacionando consumo e renda, pode-se
chegar a uma estimativa bastante confivel de
3
, pois os preos estaro praticamente constantes.
Com essa estimativa, reescreve-se o modelo como:
e P Y + + =
2 1
*
,
Onde R Y Y
3
*
\
|
=
A desvantagem dessa transformao que ela pode gerar heteroscedasticidade.
5. Dados novos.
Ou seja, aumentar o tamanho da amostra. Deve-se cuidar se a conjuntura econmica no se
modificou.
6. Regresses polinomiais.
Exemplo:
i i i i
e X X Y + + + =
2
2 1 0
.
Pode-se ajustar o modelo: ( ) ( )
i i i i
e X X X X Y + + + =
2
2 1 0
.
Ao subtrair a mdia, geralmente a multicolinearidade reduz.
7. Outras tcnicas.
H muitas outras tcnicas sugeridas e ainda sendo pesquisadas para resolver
multicolinearidade, como anlise fatorial e regresso de cumeeira.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
62
Exerccio 1. Foi feito um estudo com 20 mulheres saudveis relacionando quantidade de gordura
corporal (Y), com medidas do trceps (X1), circunferncia da coxa (X2) e circunferncia do
antebrao (X3). A regresso resultou nos seguintes resultados:
Estatstica de regresso
R-Quadrado 0,801359
Observaes 20
ANOVA
gl SQ MQ F
F de
significao
Regresso 3 396,9846 132,3282 21,51571 7,34E-06
Resduo 16 98,40489 6,150306
Total 19 495,3895
Coeficientes
Erro
padro Stat t valor-P 95% inferiores
95%
superiores
Interseo 117,0847 99,7824 1,1734 0,257808 -94,4445 328,6139
X1 4,334092 3,015511 1,437266 0,169911 -2,05851 10,72669
X2 -2,85685 2,582015 -1,10644 0,284894 -8,33048 2,61678
X3 -2,18606 1,595499 -1,37014 0,189563 -5,56837 1,196247
Correlaes simples:
X1 X2 X3
X1 1
X2 0,923843 1
X3 0,457777 0,084667 1
Regresses auxiliares:
Varivel dependente R
j
X1 0,9986
X2 0,9982
X3 0,9904
H indcios de que a multicolinearidade afeta esses dados? Se sim, como poderia ser corrigido?
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
63
3.3 Heterocedasticidade
Uma das premissas do modelo de regresso linear clssico a de que os termos de erro
i
e
da FRP sejam homocedsticos; isto , devem ter todos a mesma varincia. Simbolicamente:
Homocedasticidade: ( ) i e Var
i
= ,
2
Heterocedasticidade: ( )
2
i i
e Var =
Graficamente, temos:
Essa caracterstica pode ser observada em diversos tipos de dados, por exemplo: a
variabilidade do nmero de erros de digitao que um operador comete tende a diminuir com o
passar do tempo; a variabilidade dos valores depositados numa conta poupana tende a aumentar
com o aumento da renda dos clientes; presena de outliers (valores discrepantes).
Seja um modelo de regresso simples:
i i i
e X Y + + =
2 1
. Se a heterocedasticidade estiver
presente, o estimador de MQO de
2
continuar sendo:
=
2 2
x
xy
mas agora a sua varincia dada por:
=
2
2 2
2
2
i
i i
x
x
ao invs da expresso na presena da homocedasticidade:
=
2
2
2
2
x
.
Estudamos que, na presena de homocedasticidade, o estimador de MQO o melhor
estimador linear no-tendencioso. Pode-se demonstrar que, na presena e heteroscedasticidade, o
estimador de MQO ainda linear e no-tendencioso. Alm disso, consitente e segue distribuio
normal assinttica. Mas o melhor estimador, isto , possui a varincia mnima dentre todos os
estimadores no-tendenciosos? A resposta no e a justificativa dada a seguir.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
64
3.3.1 Mtodo dos Mnimos Quadrados Generalizados (MQG)
Seja o modelo de duas variveis:
i i i
e X Y + + =
2 1
, que escreveremos como:
i i i i
e X X Y + + =
2 0 1
,
Onde 1
0
=
i
X para todas as observaes.
Supondo que as varincias heterocedsticas
2
i
so conhecidas, divindo a expresso acima
por elas, obtemos:
i
i
i
i
i
i
i
i
e X X Y
+ + =
2
0
1
,
* * *
2
*
0
*
1
*
i i i i
e X X Y + + =
Obs: A notao
*
i
usada apenas para diferenciar os parmetros do modelo transformado
dos parmetros de MQO,
i
.
Neste modelo transformado, tem-se que:
( ) [ ] ( ) [ ] ( ) 1
1 1
2
2
2
2
2
2
* *
= = =
|
|
\
|
(
= =
i
i
i
i i
i
i i
e E
e
E e E e Var
Ou seja, a varincia dos resduos do modelo transformado uma constante, o que implica que o
modelo homocedstico. Assim, se aplicarmos MQO ao modelo transformado, ele gerar
estimadores que so os melhores estimadores lineares no tendenciosos. Por isso os estimadores de
MQO no modelo original no so os melhores, e sim os estimadores de MQO do modelo
transformado.
O MQG so os MQO aplicados a variveis transformadas que satisfazem as premissas do
modelo clssico.
Para obter os estimadores de MQG, minimizamos ( )
2
*
i
e , obtendo-se:
( )( ) ( )( )
( )( ) ( )
2
2
*
2
=
i i i i i
i i i i
i
i i i
X X
Y X Y X
e sua varincia :
( )
( )
( )( ) ( )
2
2
*
2
=
i i i i i
i
X X
Var
onde,
2
1
i i
= . Ou seja, no MQG o peso de cada observao inversamente proporcional sua
varincia.
3.3.2 Conseqncias
- Se determinado problema afetado pela heterocedasticidade, e ignoramos esse fato,
continuando a utilizar o MQO tradicional, ento as varincias dos estimadores vo ser viesadas. Em
conseqncia, todas as concluses ou inferncias que podemos fazer com base nos testes de
hipteses e intervalos de confiana podem ser enganosas.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
65
- Se usarmos as frmulas de MQO que consideram a heterocedasticidade, o estimador no
ser o melhor estimador que poderia ser utilizado, pois o melhor o MQG. Ou seja, a varincia do
MQO que considera a heteroscedasticidade maior que a do MQG. Assim, os testes de hipteses e
intervalos de confiana nos daro resultados inexatos, e o que parece ser estatisticamente
insignificante, pode na verdade ser significante.
3.3.3 Deteco
H mtodos formais e informais para detectar a heterocedasticidade. No h regras firmes e
prontas, e sim, apenas algumas regras prticas.
- Mtodo grfico:
Faz-se um grfico de disperso entre Y
\
|
=
2
2
;
2
2
~
/
/
1
2
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
66
As hipteses desse teste so:
=
) ( :
) ( :
2 1 1
2 1 0
sticidade heteroceda SQR SQR H
icidade homocedast SQR SQR H
Rejeita-se H
0
se F
calc
> F
tab
.
A escolha do valor c muito importante para o bom desempenho do teste. Os autores do
teste sugerem que c=8 se n for em torno de 30, e de 16 se n=60, para modelos de 2 variveis. Mas
outro autor sugere que c=4 se n=30 e c=10 se n=60 so valores satisfatrios na prtica.
No caso de modelos de 3 variveis ou mais, deve-se escolher qualquer uma das variveis X
para fazer a ordenao da primeira etapa.
Exemplo 3. Sejam as despesas de consumo (Y) e a renda (X) de 30 famlias. A anlise desses dados
pelo Excel forneceu os seguintes resultados:
RESUMO DOS RESULTADOS
Estatstica de regresso
R-Quadrado 0,9466
R-quadrado ajustado 0,9447
Erro padro 9,1830
Observaes 30
Coeficientes Erro padro Stat t valor-P 95% inferiores 95% superiores
Interseo 9,2903 5,2314 1,7759 0,0866 -1,4257 20,0063
X 0,6378 0,0286 22,2872 0,0000 0,5792 0,6964
X Plotagem de resduos
-30
-20
-10
0
10
20
30
0 100 200 300
X
R
e
s
d
u
o
s
Aps ordenar as observaes, ajustou-se um modelo para as primeiras 13 observaes,
obtendo-se: SQR = 377,17. J para as 13 ltimas observaes, obteve-se SQR = 1536,8.
Proceda o teste de Goldfeld-Quandt, a 1%, e com base em todos os indcios apresentados,
conclua sobre heterocedasticidade.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
67
Exerccio 2. Voc dispe dos seguintes dados: SQR
1
baseada nas primeiras 30 observaes = 55 e
gl = 25. SQR
2
baseada nas 30 ltimas observaes = 140 e gl = 25. Realize o teste de
heteroscedasticidade de Goldfeldt-Quandt em nvel de significncia de 5%.
- Teste geral de heterocedasticidade de White:
O teste de White pressupe que as varincias dos resduos se relacionam funcionalmente aos
regressores, aos seus quadrados ou a seus produtos cruzados.
Seja o modelo de 3 variveis:
i i i i
e X X Y + + + =
3 3 2 2 1
.
O teste de White conduzido do seguinte modo:
1. Com os dados pertinentes, estimar o modelo acima e obter os resduos estimados,
i
e .
2. Calcular a seguinte regresso (auxiliar):
( )
i i i i i i i i
u X X X X X X e + + + + + + =
3 2 6
2
3 5
2
2 4 3 3 2 2 1
2
Isto , uma regresso dos quadrados dos resduos da regresso original contra os regressores
X originais, seus quadrados e seus produtos cruzados. Para um modelo de k variveis, anlogo.
3. Obter o R da regresso anterior, e calcular a estatstica de teste
2
nR W = , onde n o
tamanho de amostra. Demonstra-se que
2
~
gl
W assintoticamente, onde gl = n de regressores
(excluindo o intercepto) da regresso auxiliar.
4. Se o valor de
2
;
gl
W > , conclui-se que h heterocedasticidade. Caso contrrio, no h
heterocedasticidade.
Exemplo 4. Sejam os dados de consumo e renda para as 30 famlias. Para fazer o teste de White,
ajustou-se o seguinte modelo:
( )
i i i i
u X X e + + + =
2
3 2 1
2
obtendo-se um R de 0,1777. Conduza o teste de White para heterocedasticidade, a 5% de
significncia.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
68
3.3.4 Medidas corretivas
H duas abordagens para a correo: quando os
2
i
so conhecidos e quando no so.
- Quando
2
i
so conhecidos MQG:
J vimos que, quando
2
i
so conhecidos, pode-se aplicar o mtodo dos mnimos quadrados
generalizados, pois os estimadores assim obtidos so os melhores estimadores lineares no
tendenciosos.
Exemplo 5. Imagine que desejamos estudar a relao entre remunerao mdia por empregado (Y)
e o tamanho da empresa (X), medido atravs das classes de n de empregados: 1 (1 a 4
empregados), ..., 9 (1000 a 2499 empregados).
Os dados esto abaixo:
Y X i
i i i
Y Y =
*
i i
X 1
*
0
=
i i i
X X =
*
3396 1 743,7 4,5664 0,0013 0,0013
3787 2 851,4 4,4480 0,0012 0,0023
4013 3 727,8 5,5139 0,0014 0,0041
4104 4 805,06 5,0978 0,0012 0,0050
4146 5 929,9 4,4585 0,0011 0,0054
4241 6 1080,6 3,9247 0,0009 0,0056
4387 7 1243,2 3,5288 0,0008 0,0056
4538 8 1307,7 3,4702 0,0008 0,0061
4834 9 1112,5 4,3452 0,0009 0,0081
Para se ajustar o modelo
i i i
e X Y + + =
2 1
por MQG, deve-se fazer
* * *
2
*
0
*
1
*
i i i i
e X X Y + + = ,
que um modelo de 3 variveis mas sem intercepto. Os resultados do Excel so:
RESUMO DOS RESULTADOS
Estatstica de regresso
R-Quadrado 0,999276
Erro padro 0,134811
Observaes 9
Coeficientes Erro padro Stat t valor-P 95% inferiores 95% superiores
Interseo 0 #N/D #N/D #N/D #N/D #N/D
X0* 3408,259 80,77021 42,19698 1,1E-09 3217,267 3599,25
X* 153,5922 16,91468 9,080406 4,03E-05 113,5953 193,589
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
69
- Quando
2
i
no so conhecidos:
1) Tranformaes: A partir de alguns pressupostos sobre o padro de heterocedasticidade, pode-se
transformar o modelo para corrigir o problema.
Seja o modelo:
i i i
e X Y + + =
2 1
:
a) Quando a varincia do erro proporcional a X (
2 2 2
i i
X = ), divide-se todo o modelo por X:
i
i i
i
i i
i
u
X X
e
X X
Y
+ + = + + =
2 1 2
1
1
Assim, ( ) [ ] ( )
2
2
2
2
1
= =
|
|
\
|
(
=
i
i i
i
i
e E
X X
e
E u Var , ou seja, tem-se homocedasticidade.
Para voltar ao modelo original, basta multiplicar a equao estimada por X.
b) Quando a varincia do erro proporcional a X (
i i
X
2 2
= ), divide-se todo o modelo por X :
i i
i i
i
i
i i
i
u X
X X
e
X
X X
Y
+ + = + + =
2 1 2
1
1
Assim, ( ) [ ] ( )
2
2
2
1
= =
|
|
|
\
|
(
(
=
i
i i
i
i
e E
X X
e
E u Var .
Essa transformao s pode ser utilizada se os valores de X forem positivos. Observe que o
modelo transformado no tem intercepto. Para voltar ao modelo original, deve-se multiplicar por
X .
c) Em geral, ajustar um modelo log-log ( ) ( )
i i i
e X Y + + = ln ln
2 1
ao invs das variveis em suas
escalas originais, reduz a heterocedasticidade.
2) Estimadores robustos: H tambm estimadores modificados disponveis em alguns pacotes
estatsticos que corrigem para a heterocedasticidade, desenvolvidos por White. Entretanto, s pode
ser utilizados para amostras grandes.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
70
Exerccio 3. Sejam os dados de gastos com pesquisa e desenvolvimento e as vendas, trabalhado na
seo de no-normalidade. Alguns resultados adicionais esto produzidos:
Regresso com as 7 primeiras observaes: SQR
1
= 412586
Regresso com as 7 ltimas observaes: SQR
2
= 97356910
Regresso auxiliar para teste de White: R = 0,2896
V Plotagem de resduos
-8000
-6000
-4000
-2000
0
2000
4000
6000
8000
10000
0
5
0
0
0
0
1
0
0
0
0
0
1
5
0
0
0
0
2
0
0
0
0
0
2
5
0
0
0
0
3
0
0
0
0
0
V
R
e
s
d
u
o
s
Verifique se a heterocedasticidade afeta esse problema e, caso afirmativo, indique qual seria o
mtodo de correo mais indicado.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
71
3.4 Autocorrelao
Uma das premissas do modelo clssico de regresso era:
( ) j i e e E
j i
= , 0 .
Dito de forma simples, o modelo clssico pressupe que o termo de erro relacionado a
qualquer das observaes no influenciado pelo termo de erro de qualquer outra observao.
Quando h autocorrelao, ento:
( ) j i e e E
j i
, 0
H dois tipos de autocorrelao: no tempo (em dados de sries temporais) e no espao (em
dados de corte transversal), embora ela seja mais comum no primeiro caso. Exemplos: observando-
se ndices de preos de aes diariamente, no raro verificar que esses ndices sobem ou descem
por vrios dias seguidos (autocorrelao no tempo); ao regredir despesas de consumo com renda das
famlias, o aumento de despesa de consumo de uma famlia pode levar a vizinha a aumentar o
consumo tambm, para no ficar para trs (autocorrelao no espao).
Os grficos abaixo apresentam alguns padres plausveis de presena e de ausncia de
autocorrelao serial:
Alm de ser classificada como no tempo e no espao, a autocorrelao tambm pode ser
positiva ou negativa. A autocorrelao positiva se caracteriza quando os resduos evoluem para
cima ou para baixo durante longos perodos, j na negativa, h oscilaes constantes. Os grficos a
seguir ilustram os dois processos.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
72
Para avaliar os efeitos da autocorrelao no modelo de regresso, voltemos novamente ao
modelo de duas variveis:
t t t
e X Y + + =
2 1
.
O subscrito t est sendo usado para destacar que estamos lidando com sries temporais.
Para avanar, precisamos imaginar o mecanismo que gera
t
e . Como ponto de partida,
podemos supor que o termo de erro seja gerado pelo seguinte mecanismo:
t t t
u e e + =
1
, com 1 1 < < ,
Onde conhecido como coeficiente de autocorrelao, e
t
u o termo de erro que atende as
premissas clssicas de um modelo de regresso (mdia zero, homocedasticidade e independncia).
Na linguagem de sries temporais,
t
u geralmente chamado de rudo branco.
O esquema anterior conhecido como esquema auto-regressivo de primeira ordem de
Markov AR(1). A denominao auto-regressivo usada porque o esquema pode ser interpretado
como uma regresso de
t
e contra ele mesmo com defasagem de um perodo. de primeira ordem
porque apenas o resduo do perodo anterior influencia no resduo atual. Poderia-se ter esquemas
AR(2), AR(3) e assim por diante.
Na presena da autocorrelao de primeira ordem, o estimador de MQO de
2
, como de
hbito, :
=
2
2
t
t t
x
y x
Mas sua varincia :
( )
(
(
+ + + + =
2
1 1
2
2 2
2
1
2
2
1 2
2 2 2 1
t
n n
t
t t
t
t t
t
AR
x
x x
x
x x
x
x x
x
Var
Lembrando que, no modelo tradicional essa varincia era:
( )
=
2
2
2
t
x
Var
Percebe-se que a primeira igual a segunda multiplicada por um termo que depende de .
Obviamente, se 0 = , as duas coincidem.
Imagine que continuamos a empregar o estimador de MQO,
2
? Pode-se
demonstrar que ele ainda linear e no tendencioso. Tambm consistente e com distribuio
normal assinttica. Entretanto, ele no mais o MELNT (no eficiente), assim como na
heterocedasticidade.
Para encontrar o MELNT na presena de autocorrelao, devemos novamente recorrer ao
MQG. Continuando com o modelo de duas variveis, e admitindo o processo AR(1), podemos
mostrar que o MELNT dado pela expresso:
( )( )
( )
1 1
2
2
2
1
2
n
t t t t
MQG
t
n
t t
t
x x y y
C
x x
=
= +
Em que C um fator de correo que, na prtica, pode ser desconsiderado.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
73
Esse estimador possui varincia mnima, a qual dada por:
( )
( )
2
2
2
1
2
MQG
n
t t
t
Var D
x x
=
= +
Em que D tambm um fator de correo que pode ser desconsiderado.
3.4.1 Conseqncias
- Se determinado problema afetado pela autocorrelao, e ignoramos esse fato,
continuando a utilizar o MQO tradicional, ento:
1. A varincia residual provavelmente subestimar o verdadeiro
2
.
2. Em conseqncia, R ser superestimado.
3. Mesmo que
2
no seja subestimado, ( )
2
AR
Var .
4. Portanto, os habituais testes de significncia, no sero mais vlidos e provavelmente nos
levaro a concluses extremamente equivocadas quanto significncia dos coeficientes.
- Se usarmos as frmulas de MQO que consideram a presena de autocorrelao, o
estimador no ser o melhor estimador que poderia ser utilizado, pois o melhor o MQG. Ou seja, a
varincia do MQO que considera a autocorrelao maior que a do MQG. Assim, os testes de
hipteses e intervalos de confiana nos daro resultados inexatos, e o que parece ser
estatisticamente insignificante, pode na verdade ser significante.
3.4.2 Deteco
- Mtodo grfico:
1. Plotagem seqencial no tempo: Faz-se um grfico de disperso com o tempo ou n da
observao do eixo X e os resduos no eixo Y. Se observar que os resduos seguem algum padro
no-aleatrio, h indcios de autocorrelao.
2. Plotar
t
e versus
1 t
e : Ou seja, os resduos no perodo t contra seu valor em t-1. Se houver
autocorrelao, observaremos padres como estes:
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
74
- O teste de Durbin-Watson:
Esse teste muito popular e j est incorporado na maioria dos pacotes estatsticos, como o
SPSS. A estatstica d de Durbin-Watson definida por:
( )
=
=
=
n
t
t
n
t
t t
e
e e
d
1
2
2
2
1
importante estar atento s premissas subjacentes desse teste:
a) O modelo possui intercepto. Se no possuir deve-se refazer a regresso incluindo o mesmo.
b) Os regressores so fixos em amostragem repetida (no-aleatrios);
c) Os termos de erro so gerados pelo esquema AR(1);
d) Os resduos seguem distribuio Normal;
e) O modelo no inclui valores defasados da varivel independente como uma das variveis
explanatrias;
f) No h observaes faltantes.
Seja o estimador do coeficiente de autocorrelao:
=
=
=
n
t
t
n
t
t t
e
e e
1
2
2
1
. Demonstra-se que:
( ) 1 2 d . Logo: 4 0 d , pois 1 1 + .
Os procedimentos para a execuo do teste de Durbin-Watson so:
1.Rodar a regresso por MQO e obter os resduos estimados;
2.Calcular a estatstica d;
3.Anotar os valores crticos d
L
e d
U
(Tabela D) baseado no nmero de observaes (n), no
nmero de regressores (k = k-1) e no nvel de significncia;
4.Decidir conforme a tabela abaixo:
Hiptese nula Deciso Se
Ausncia de autocorrelao positiva Rejeitar
L
d d < < 0
Ausncia de autocorrelao positiva Sem deciso
U L
d d d
Ausncia de autocorrelao negativa Rejeitar
4 4 < < d d
L
Ausncia de autocorrelao negativa Sem deciso
L U
d d d 4 4
Ausncia de autocorrelao positiva ou negativa No rejeitar
U U
d d d < < 4
A figura a seguir ilustra as regies de rejeio, aceitao e indeciso do teste:
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
75
Caso a estatstica do teste seja encontrada em alguma das regies de indeciso, pode-se
recorrer ao teste d modificado. Dado o nvel de significncia :
1. 0 :
0
= H versus 0 :
1
> H . Rejeita-se
0
H ao nvel se
U
d d < . Isto , h autocorrelao
positiva estatisticamente significativa.
2. 0 :
0
= H versus 0 :
1
< H . Rejeita-se
0
H ao nvel se ( )
U
d d < 4 . Isto , h autocorrelao
negativa estatisticamente significativa.
3. 0 :
0
= H versus 0 :
1
H . Rejeita-se
0
H ao nvel 2 se
U
d d < ou se ( )
U
d d < 4 . Isto , h
autocorrelao, seja positiva ou negativa, estatisticamente significativa.
Exemplo 6. Tm-se dados relativos a ndices de remunerao real por hora (Y) e produo por hora
(X), anualmente, no perodo de 1959 a 1998 nos EUA (n=40). A anlise no Excel forneceu:
Resduos x Ano
-6
-4
-2
0
2
4
6
0 10 20 30 40 50
Nda observao (ano)
R
e
s
d
u
o
s
Resduos t x Resduos t-1
-6
-4
-2
0
2
4
6
-6 -4 -2 0 2 4 6
Resduo t-1
R
e
s
d
u
o
t
A estatstica d de Durbin-Watson foi igual a 0,1229. Testar, a 5% de significncia, se existe
autocorrelao e, com base em todos os indcios, concluir se esse problema afeta esses dados.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti
76
Exemplo 7. Seja um problema com n = 50, 4 variveis regressoras e d = 1,43. A 5% de
significncia, teste se existe autocorrelao positiva.
Exerccio 4. Considere um conjunto de dados com 32 observaes, com o qual se ajustou um
MRLS e obteve-se d = 0,1380. Teste a 5% de significncia de a autocorrelao afeta esse problema.
3.4.3 Medidas corretivas
1. Primeiro, deve-se tentar verificar se se trata de uma autocorrelao pura, e no de um
erro de especificao do modelo. s vezes, observamos padres nos resduos porque o modelo foi
especificado de forma equivocada isto , foram excludas algumas variveis importantes ou
porque sua forma funcional incorreta.
2. Se se tratar de autocorrelao pura, e for conhecido, utiliza-se MQG. Seja o modelo de
duas variveis:
t t t
e X Y + + =
2 1
O mesmo modelo, mas no perodo t-1 :
1 1 2 1 1
+ + =
t t t
e X Y . Multiplicando-se por em
ambos os lados obtm-se:
1 1 2 1 1
+ + =
t t t
e X Y , e subtraindo-se do modelo original:
( ) ( ) ( ) ( )
( ) ( )
t t t
t t t t t t
u X X
e e X X Y Y
+ + =
+ + =
1 2 1
1 1 2 1 1
1
1
Fazendo-se ( )
1
*
=
t t t
Y Y Y , ( ) = 1
1
*
1
, ( )
1
*
=
t t t
X X X e
2
*
2
= , pode-se estimar
. MQO por ,
* *
2
*
1
*
t t t
u X Y + + =
Esta regresso conhecida como a equao em diferenas generalizadas. Nesse processo de
obteno das diferenas, sempre perdemos a primeira observao.
3. Se se tratar de autocorrelao pura, e no for conhecido, deve-se usar tcnicas de sries
temporais.