Vous êtes sur la page 1sur 76

UNIVERSIDADE FEDERAL DO RIO GRANDE DO SUL

INSTITUTO DE MATEMTICA
DEPARTAMENTO DE ESTATSTICA









APOSTILA:

MAT02207 -
ESTATSTICA ECONMICA










Prof. Vanessa Leotti
(vleotti@yahoo.com.br)


MAT02207 Estatstica Econmica Prof. Vanessa Leotti

2
NDICE
1 MODELO DE REGRESSO LINEAR SIMPLES (MRLS) ................................................................ 4
1.1 INTRODUO REGRESSO.................................................................................................................. 4
1.1.1 RELAES ESTATSTICAS VERSUS DETERMINSTICAS........................................................................... 4
1.2 MODELO DE REGRESSO LINEAR SIMPLES (MRLS)........................................................................... 4
1.2.1 FUNO LINEAR DE REGRESSO POPULACIONAL ................................................................................. 4
1.2.2 FUNO LINEAR DE REGRESSO AMOSTRAL ........................................................................................ 5
1.2.3 PREMISSAS CLSSICAS .......................................................................................................................... 6
1.3 ESTIMAO DOS PARMETROS DO MODELO: MTODO DE MNIMOS QUADRADOS ORDINRIOS
(MQO) .............................................................................................................................................................. 7
1.3.1 SIGNIFICADO DE
1

E
2

..................................................................................................................... 8
1.3.2 PRECISO OU ERRO-PADRO DAS ESTIMATIVAS DE MQO.................................................................... 9
1.3.3 PROPRIEDADES DOS ESTIMADORES DE MQO........................................................................................ 9
1.4 COEFICIENTE DE CORRELAO LINEAR DE PEARSON - R.................................................................. 12
1.5 COEFICIENTE DE DETERMINAO - R
2
................................................................................................ 13
1.6 A PREMISSA DE NORMALIDADE DOS RESDUOS................................................................................... 15
1.7 ESTIMAO POR INTERVALO............................................................................................................... 15
1.7.1 INTERVALOS DE CONFIANA PARA OS COEFICIENTES DE REGRESSO................................................ 15
1.7.2 INTERVALO DE CONFIANA PARA A VARINCIA RESIDUAL................................................................ 17
1.8 TESTES DE HIPTESES .......................................................................................................................... 18
1.8.1 ABORDAGEM DO INTERVALO DE CONFIANA..................................................................................... 18
1.8.2 ABORDAGEM DO TESTE DE SIGNIFICNCIA......................................................................................... 19
1.9 PREVISO .............................................................................................................................................. 21
1.9.1 INTERVALO DE CONFIANA PARA A ESTIMATIVA MDIA DE Y, DADO X = X
0
.................................... 21
1.9.2 INTERVALO DE CONFIANA PARA A ESTIMATIVA INDIVIDUAL DE Y, DADO X = X
0
........................... 22
1.10 ANLISE DE VARINCIA ANOVA................................................................................................... 23
1.10.1 TESTE DE SIGNIFICNCIA PARA O COEFICIENTE DE DETERMINAO................................................ 24
1.11 REGRESSO PELA ORIGEM................................................................................................................. 25
1.12 FORMAS FUNCIONAIS DOS MODELOS DE REGRESSO ...................................................................... 26
1.12.1 MODELO LOG-LINEAR OU LOG-LOG ................................................................................................ 26
1.12.2 MODELOS SEMILOGARTMICOS LOG-LIN E LIN-LOG........................................................................ 26
1.12.3 MODELOS RECPROCOS (INVERSOS) ................................................................................................. 27
2 MODELO DE REGRESSO LINEAR MLTIPLA (MRLM)......................................................... 29
2.1 SIGNIFICADO DOS PARMETROS DO MODELO.................................................................................... 29
2.2 NOTAO MATRICIAL DO MRLM....................................................................................................... 29
2.3 PREMISSAS DO MRLM......................................................................................................................... 30
2.4 MTODO DOS MNIMOS QUADRADOS ORDINRIOS (MQO) ............................................................... 30
2.4.1 VARINCIAS DOS ESTIMADORES DE MQO.......................................................................................... 31
2.5 COEFICIENTE MLTIPLO DE DETERMINAO: R
2
.............................................................................. 33
2.6 COEFICIENTE MLTIPLO DE DETERMINAO AJUSTADO:
2
R
......................................................... 33
2.7 COEFICIENTE DE CORRELAO PARCIAL........................................................................................... 34
2.8 COEFICIENTE DE DETERMINAO PARCIAL....................................................................................... 35
2.9 INTERVALO DE CONFIANA E TESTE DE SIGNIFICNCIA INDIVIDUAL PARA OS COEFICIENTES DE
REGRESSO..................................................................................................................................................... 35
2.10 INTERVALO DE CONFIANA PARA A VARINCIA RESIDUAL............................................................. 36
2.11 TESTE DA SIGNIFICNCIA GERAL DA REGRESSO (ANOVA).......................................................... 37
2.12 CONTRIBUIO MARGINAL OU INCREMENTAL DE UMA VARIVEL EXPLICATIVA......................... 39
2.13 PREVISO NO MRLM......................................................................................................................... 41
2.14 MODELO DE REGRESSO POLINOMIAL ............................................................................................. 42
MAT02207 Estatstica Econmica Prof. Vanessa Leotti

3
2.15 VARIVEIS DUMMIES ......................................................................................................................... 43
2.15.1 REGRESSO SOMENTE COM VARIVEIS DUMMIES (MODELOS ANOVA) ......................................... 43
2.15.2 REGRESSO COM VARIVEIS QUANTITATIVAS E DUMMIES (MODELOS ANCOVA) ........................ 45
2.15.3 EFEITOS DE INTERAO COM O USO DE VARIVEIS BINRIAS.......................................................... 46
2.15.4 O EMPREGO DE VARIVEIS BINRIAS EM ANLISES SAZONAIS ........................................................ 48
2.15.5 MODELOS LOG-LIN E VARIVEIS DUMMIES..................................................................................... 48
3 VIOLAES DAS PREMISSAS DO MODELO DE REGRESSO................................................ 50
3.1 NO-NORMALIDADE DOS RESDUOS .................................................................................................... 50
3.1.1 DETECO........................................................................................................................................... 50
3.1.2 CONSEQNCIAS................................................................................................................................. 52
3.1.3 MEDIDAS CORRETIVAS........................................................................................................................ 52
3.2 MULTICOLINEARIDADE........................................................................................................................ 54
3.2.1 CONSEQNCIAS................................................................................................................................. 55
3.2.2 DETECO........................................................................................................................................... 57
3.2.3 MEDIDAS CORRETIVAS........................................................................................................................ 60
3.3 HETEROCEDASTICIDADE...................................................................................................................... 63
3.3.1 MTODO DOS MNIMOS QUADRADOS GENERALIZADOS (MQG)........................................................ 64
3.3.2 CONSEQNCIAS................................................................................................................................. 64
3.3.3 DETECO........................................................................................................................................... 65
3.3.4 MEDIDAS CORRETIVAS........................................................................................................................ 68
3.4 AUTOCORRELAO.............................................................................................................................. 71
3.4.1 CONSEQNCIAS................................................................................................................................. 73
3.4.2 DETECO........................................................................................................................................... 73
3.4.3 MEDIDAS CORRETIVAS........................................................................................................................ 76

MAT02207 Estatstica Econmica Prof. Vanessa Leotti

4
1 MODELO DE REGRESSO LINEAR SIMPLES (MRLS)

1.1 Introduo Regresso

A anlise de regresso estuda a dependncia de uma varivel, a varivel dependente, em
relao a uma ou mais variveis, as variveis explanatrias ou independentes, com o objetivo de
estimar e/ou prever o valor mdio da primeira em termos de valores conhecidos ou fixados das
segundas.
Pressupe-se implicitamente que as relaes causais, se as houver, entre a varivel
dependente e as explanatrias s se do em uma direo: das variveis explanatrias para a
dependente.
Exemplo: Poderia-se estudar a relao de dependncia do rendimento das lavouras em
relao temperatura, pluviosidade, luz solar ou fertilizante, por exemplo.
1.1.1 Relaes estatsticas versus determinsticas

Na anlise de regresso, estamos preocupados com o que conhecido como dependncia
estatstica, e no funcional ou determinstica, entre as variveis. Nas relaes estatsticas entre
variveis, lidamos essencialmente com variveis aleatrias ou estocsticas, isto , variveis que tm
distribuies probabilsticas. Na dependncia funcional ou determinstica, por outro lado, tambm
lidamos com variveis, mas estas no so aleatrias ou estocsticas.
O exemplo anterior uma dependncia estatstica. J um exemplo de dependncia
determinstica a frmula: lucro bruto = preo x unidades vendidas.

1.2 Modelo de Regresso Linear Simples (MRLS)

Mtodo de ajustamento de uma reta para anlise da relao entre uma varivel independente
(explicativa ou regressora) e uma varivel dependente (explicada ou resposta). Ambas as variveis
so quantitativas. Este modelo tambm conhecido como modelo de duas variveis.
1.2.1 Funo linear de regresso populacional

Denotaremos por
i
Y o valor da varivel dependente para a i-sima observao e
i
X o valor
da varivel independente para a i-sima observao.
Como dito anteriormente, o objetivo da regresso estimar um valor mdio da varivel
dependente com base nos valores conhecidos da varivel explanatria.

Desenho (fertilizante x produtividade):









MAT02207 Estatstica Econmica Prof. Vanessa Leotti

5
Podemos expressar isso matematicamente escrevendo:

( )
i i
X X Y E
2 1
| + =

onde
1
e
2


so chamados de coeficientes de regresso, ou respectivamente, intercepto e
coeficiente angular, e o subscrito i indica os pares de observaes, i = 1, 2, ..., n.
A expresso acima conhecida como funo linear de regresso populacional.
Nem todos os valores de Y caem sobre a reta, existe um desvio em torno de seu valor
esperado, que pode ser denotado por:
( )
i i i
X Y E Y e | =
Ou
( )
i i i
e X Y E Y + = |
O que implica que
i e X Y
i i i
+ + = ,
2 1


O desvio e, tambm conhecido como perturbao aleatria, resduo aleatrio, ou distrbio
aleatrio, um substituto ou representante de todas as variveis que podem afetar Y, mas no
foram includas no modelo de regresso; dos elementos no-previsveis de aleatoriedade e dos erros
de mensurao em Y.

1.2.2 Funo linear de regresso amostral

1
e
2


so parmetros conhecidos apenas se toda a populao fosse pesquisada, ou seja, se
um censo fosse realizado. Entretanto, na prtica, amostras so utilizadas para estimar a funo de
regresso. Assim, temos a funo linear de regresso amostral:
i i
X Y
2 1

+ =


i
Y

um estimador de ( )
i
X Y E | , assim como a distncia
i i i
Y Y e

= estima o resduo e.
Assim, pode-se escrever a funo de regresso amostral como:
i i i i i
e Y e X Y


2 1
+ = + + =

A figura abaixo ilustra as diferenas entre a FRP e FRA:

MAT02207 Estatstica Econmica Prof. Vanessa Leotti

6
Assim, temos duas questes para responder:
- Como obter
1

e
2

?
- Aps
1

e
2

terem sido obtidos, como podemos fazer inferncias sobre os verdadeiros


parmetros
1
e
2
?

1.2.3 Premissas clssicas

Para realizarmos inferncias sobre
1
e
2
, precisamos fazer algumas suposies sobre a
maneira com que X e e influenciam em Y.

[1]: i e X Y
i i i
+ + = ,
2 1

Estabelece que, para cada observao i, existe uma relao linear de dependncia entre uma
varivel explicada observvel, Y, uma varivel explicativa observvel, X e um termo de perturbao
aleatrio no observvel, e.
Ou seja, o modelo linear nos parmetros e nas variveis.
Um exemplo de modelo no linear nas variveis
i i i
e X Y + + =
2
2 1
, e veremos que alguns
casos desse tipo podem ser resolvidos atravs do modelo acima.
Tipos de no-linearidade nas variveis:







Um exemplo de modelo no linear nos parmetros ( )
i i i
e X Y + + =
2
2 1
e no veremos
esse tipo de modelo.

[2]: Os valores de X so fixados em amostragem repetida;
A idia que os valores de X so fixos e se observa os valores de Y correspondentes. Isso
implica que X no uma varivel aleatria.

[3]: ( ) i X e E
i i
= , 0 |
O valor mdio do termo de erro zero. Isso significa que fatores no includos no modelo e,
portanto, agrupados em e, no afetam sistematicamente o valor mdio de Y.

[4]: ( ) i X e Var
i i
= , |
2

A varincia do resduo aleatrio constante (homoscedasticidade: varincias iguais;
heteroscedasticidade: varincias diferentes).
Desenho da heteroscedasticidade:




MAT02207 Estatstica Econmica Prof. Vanessa Leotti

7
[5]: ( )
j i
e e Cov , = 0, j i j i , ,
nula a covarincia entre os resduos aleatrios (ausncia de autocorrelao).
Intuitivamente, a importncia dessa hiptese pode ser explicada do seguinte modo: seja
nossa FRP
t t t
u X Y + + =
2 1
, onde
t
u e
1 t
u apresentam correlao. Ento,
t
Y no depende
apenas de
t
X mas tambm de
1 t
u , que em alguma medida, influencia em
t
u .

[6]: Cov(X
i
, e
i
) = 0;
A covarincia entre o termo de erro e a varivel explicativa nula. Assim, presumimos que
X e e exercem influncias separadas em Y. Isso ocorre automaticamente se X no aleatrio.
Por isso, mesmo se X no for aleatrio, mas for no correlacionado com e, o modelo
vlido.

[7]: O nmero de observaes (n) deve ser maior que o nmero de parmetros a serem estimados;
Ou seja, so necessrios no mnimo 2 pares de observaes para ajustar o modelo postulado em 1.

[8]: A varivel explicativa X assume, no conjunto das observaes, valores no todos iguais, ou
seja, a varivel X no constante na amostra.

[9]: O modelo est corretamente especificado (no h vis ou erro de especificao);
Exemplo de erro de especificao: ajustar uma reta a dados que tem comportamento quadrtico.

[10]: No existe relao linear exata nos regressores (ausncia de multicolinearidade).

Resulta destas hipteses que Y uma varivel aleatria que tem, para todo i, mdia dada por:
E(Y
i
|X
i
) =
1
+
2
X
i
(Implica de 3)

E varincia:
Var(Y
i
|X
i
) =
2
(Implica de 4)

Assim,
1
,
2
e
2
so os parmetros, geralmente desconhecidos, da distribuio de Y.

1.3 Estimao dos parmetros do modelo: Mtodo de Mnimos Quadrados
Ordinrios (MQO)

Dentre os diversos mtodos existentes para estimar os verdadeiros parmetros de funes
estatsticas, no contexto da anlise de regresso, o mtodo dos mnimos quadrados ordinrios
(MQO) um dos mais populares. Para entender esse mtodo ser visto brevemente o princpio dos
mnimos quadrados.
Primeiro, devemos lembrar da definio do resduo estimado, isto :
i i i
Y Y e

= . Ou seja, os
resduos so simplesmente as diferenas entre os valores observados de Y e os estimados.
Queremos determinar a FRA de tal modo que seja to prxima quanto possvel do Y
observado. Para tanto, podemos adotar o seguinte critrio: escolher a FRA para que a soma dos
resduos,
( )

=
i i i
Y Y e

,

seja a menor possvel. Contudo, esse mtodo pode conduzir a resultados incuos e dessa forma,
prefervel adotar o critrio da minimizao dos quadrados dos resduos, isto : ( )
2
2


=
i i i
Y Y e .
MAT02207 Estatstica Econmica Prof. Vanessa Leotti

8
















Grfico: Critrio dos mnimos quadrados

Assim, atravs do clculo diferencial (ver demonstrao em Gujarati) o mtodo de MQO nos
fornece as estimativas nicas de
1
e
2
que resultam no menor valor possvel de

i
e . O
processo de diferenciao resulta na resoluo do seguinte sistema de equaes normais:

+ =
+ =


2
2 1
2 1


i i i i
i i
X X Y X
X n Y




onde, n o tamanho da amostra. Resolvendo as equaes normais simultaneamente, obtemos:

( )( )
( )


=
2 2 2

x
xy
X X
Y Y X X
i
i i


e,
X Y
2 1

= ,

onde X e Y so as mdias amostrais de X e Y, ou seja,
n
X
X

= e
n
Y
Y

= ;
e x e y so as variveis em formato desvio, ou seja, X X x
i i
= e Y Y y
i i
= .

1.3.1 Significado de
1

e
2

: valor estimado para Y quando X = 0


2

: acrscimo (ou decrscimo) em Y quando X aumenta 1 unidade. Seu sinal indica se a relao
entre X e Y positiva ou negativa.

MAT02207 Estatstica Econmica Prof. Vanessa Leotti

9
1.3.2 Preciso ou erro-padro das estimativas de MQO

As estimativas de MQO so uma funo dos dados amostrais. Mas, como os dados tendem a
mudar de amostra para amostra, as estimativas tambm mudaro. Portanto, necessria alguma
medida da confiabilidade ou preciso dos estimadores
1

e
2

. Em estatstica, a preciso de uma


estimativa medida pelo seu erro-padro, que nada mais do que a raiz quadrada da varincia.
Pode ser mostrado que as varincias e os erros-padro dos estimadores de MQO podem ser
obtidos por:
( ) ( )

+ = =
|
|

\
|
+ = =
2
2
1
2
2
2
1
2

1 1
x
X
n
Ep
x
X
n
Var



( ) ( )

= = = =
2
2
2
2
2
2


2 2
x
Ep
x
Var





onde
2
a varincia de e
i
, segundo a premissa 4, que pode ser estimada atravs da frmula:
2

2
2

=

n
e
, onde
( )


= =
2
2
2 2 2
2
2 2

x
xy
y x y e .

Assim, a partir de uma amostra, podemos estimar as varincias e erros-padro dos
estimadores de MQO apenas substituindo
2
por
2
nas expresses acima:
( ) ( )

+ = =
|
|

\
|
+ = =
2
2
1
2
2
2
1
2

1 1
x
X
n
ep
x
X
n
var



( ) ( )

= = = =
2
2
2
2
2
2

2 2
x
ep
x
var





1.3.3 Propriedades dos estimadores de MQO

1. A reta de regresso sempre passa pelas mdias amostrais de Y e X:
X Y X Y
2 1 2 1

+ = =

2. A soma dos resduos estimados igual a zero: ( ) 0

= =
i i i
Y Y e .

3. Dadas as premissas do MRLS, os estimadores de MQO so os melhores estimadores lineares
no-tendenciosos de seus respectivos parmetros. Isto significa que:
a. Linear: funo linear de Y
b. No-tendencioso: esperana do estimador igual ao verdadeiro valor do parmetro.
c. Tm varincia mnima dentre todos os estimadores lineares no-tendenciosos.

4. So consistentes, pois quanto maior o n, menor sua varincia, ou seja, maior sua preciso.



MAT02207 Estatstica Econmica Prof. Vanessa Leotti

10
Exemplo 1. Utilize o mtodo dos mnimos quadrados para estimar a reta de regresso entre
consumo (Y) de pizzas e renda (X) per capita, baseado numa amostra observada de cinco cidades.
Interprete os valores do intercepto e coeficiente angular. Estime tambm as varincias e erros-
padro dos estimadores.

i X Y x y x y xy
1 8 40
2 4 30
3 6 28
4 12 46
5 15 59
Total



MAT02207 Estatstica Econmica Prof. Vanessa Leotti

11
y = 0,8977x + 12,447
R
2
= 0,764
10
12
14
16
18
20
22
24
0 2 4 6 8 10 12 14
N semanas trabalhadas
N


a
u
t
o
m

v
e
i
s

i
n
s
p
e
c
i
o
n
a
d
o
s
Exerccio 1. A tabela a seguir informa quantas semanas (X) seis pessoas trabalharam em um posto
de inspeo de automveis e quantos automveis (Y) cada pessoa inspecionou entre 12hs e 14hs, em
determinado dia.
a) Ajuste o modelo de regresso linear para esses dados, interpretando as estimativas obtidas;
b) Estime as varincias e erros-padro dos estimadores.






X Y
2 13
7 21
9 23
1 14
5 15
12 21
MAT02207 Estatstica Econmica Prof. Vanessa Leotti

12
1.4 Coeficiente de correlao linear de Pearson - r

Supondo que exista algum tipo de relao linear entre as variveis X e Y, uma medida
utilizada para verificar o grau de correlao entre elas o coeficiente de correlao linear de
Pearson, cujo valor amostral dado por:

=
2 2
y x
xy
r

Este coeficiente tem a propriedade de que: 1 1 + r .












Grfico: Tipos de correlao

Obs: o verdadeiro valor da correlao linear (desconhecido) representado pela letra (r).


Exemplo 2. Calcular e interpretar o coeficiente de correlao linear de Pearson para os dados do
Exemplo 1.











Exerccio 2. Calcular e interpretar o coeficiente de correlao linear de Pearson para os dados do
Exerccio 1.






MAT02207 Estatstica Econmica Prof. Vanessa Leotti

13
1.5 Coeficiente de determinao - r
2


Apesar de ser diretamente ligado ao coeficiente de correlao, o coeficiente de determinao
possui uma interpretao bastante distinta. uma medida para verificar a qualidade do ajuste de
uma regresso, ou seja, o quo bem a reta de regresso se ajusta aos dados. Quando ajustamos
uma reta, esperamos que os resduos em torno da linha sejam os menores possveis. Ento, quanto
mais prximos da reta os resduos estiverem, melhor ser o grau de ajuste e essa a informao que
o coeficiente de determinao sintetiza.
Lembrando da FRA
i i i
e Y Y

+ = , adicionando-se a mdia de Y dos dois lados, tem-se:


( )
i i i i
Y Y Y Y Y Y

+ =

Elevando ao quadrado ambos os lados e somando ao longo da amostra, obtemos:
( ) ( ) ( )

+ =
2 2
2

i i i i
Y Y Y Y Y Y
SQT = SQE + SQR

onde SQT a soma de quadrados total, SQE a soma de quadrados explicados pela regresso e
SQR a soma de quadrados de resduos. Ou seja, a variao total dos valores observados de Y em
torno de sua mdia pode ser divida em duas partes: uma atribuvel linha de regresso e a outra, a
foras aleatrias porque nem todas as observaes de Y se situam sobre a linha.




















Grfico. Decomposio da soma de quadrados total


Definimos agora r
2
como:
SQT
SQE
r =
2
ou alternativamente,
SQT
SQR
r =1
2


Assim, o r
2
determina a proporo (percentual) da variao total de Y explicada pela
variao de X (ou pelo modelo de regresso). Seus limites so: 1 0
2
r .

MAT02207 Estatstica Econmica Prof. Vanessa Leotti

14
Frmulas alternativas:
( )

=
|
|

\
|
=
2 2
2
2
2
2
2
2

y x
xy
y
x
r

A relao entre o coeficiente de correlao e o de determinao dada por:
2
r r = .


Exemplo 3. Calcule e interprete o coeficiente de determinao para os dados do Exemplo 1.









Exerccio 3. Calcule e interprete o coeficiente de determinao para os dados do Exerccio 1.









MAT02207 Estatstica Econmica Prof. Vanessa Leotti

15
1.6 A premissa de normalidade dos resduos

Para poder fazer inferncias sobre os parmetros do modelo de regresso, devemos fazer
alguma pressuposio sobre a distribuio de probabilidades dos resduos e
i
. Geralmente se supe
que:
[11]: ) , 0 ( ~
2
NID e
i

Isso implica que:
( )
2
1 1
1
, ~

N ;
( )
2
2 2
2
, ~

N ;
( )
( )
2
2 2
2
~

n
n

e
( )
2
2 1
, ~
i i
X N Y + .

1.7 Estimao por intervalo

Vimos anteriormente a estimao pontual dos coeficientes de regresso por MQO. Podemos
nos perguntar: at que ponto essas estimativas so confiveis? Em decorrncia de variaes
amostrais, uma nica estimativa possivelmente ser diferente do verdadeiro valor, embora se espere
que, em amostras repetidas, seu valor mdio seja igual ao verdadeiro valor. Agora, na estatstica, a
confiabilidade de um estimador medida por seu erro-padro. Portanto, em vez de nos embasar
apenas na estimativa pontual, podemos construir um intervalo em torno do estimador pontual,
digamos, de dois ou trs erros-padro de cada lado, de tal modo que esse intervalo tenha, digamos,
95% de probabilidade de incluir o verdadeiro valor do parmetro. Essa a idia que est por trs
dos intervalos de confiana.
No podemos dizer que o verdadeiro valor do parmetro possui tal probabilidade de estar
contido no intervalo. Ele um nmero fixo, ento ou est ou no est no intervalo (probabilidade 0
ou 1).
Depois de observarmos a amostra e calcularmos o intervalo para ela, ele deixa de ser aleatrio
e passa a ser fixo, e ento no podemos mais falar em probabilidade. Trocamos ento a palavra
probabilidade por confiana. Assim, dizemos que tal intervalo possui x de confiana de conter o
verdadeiro valor do parmetro.

1.7.1 Intervalos de confiana para os coeficientes de regresso

Pode-se demonstrar que, se
2
conhecida, os coeficientes do modelo distribuem-se
normalmente. E assim, tem-se:
( ) 1 , 0 ~

N Z
i
i i


=
Contudo, sabemos que a varincia raramente conhecida e devemos estim-la a partir da
amostra. Assim devemos usar a aproximao da normal pela distribuio t de Student com n-2
graus de liberdade, ento:
( ) 2

=
n
i i
t t
i



MAT02207 Estatstica Econmica Prof. Vanessa Leotti

16
Podemos estabelecer um intervalo de confiana tal que:


=
|
|

\
|


1
2
; 2
2
; 2 n n
t t t P

Substituindo-se em t, temos

=
|
|

\
|

2
; 2

2
; 2 n
i i
n
t t P
i


e, com algumas manipulaes, chega-se a

=
|
|

\
|
+

1

2
; 2

2
; 2
i i
n
i i
n
i
t t P

o qual o intervalo de confiana para
i
, e pode ser escrito mais concisamente como:
( )
(

i
n
i i
t para IC

2
; 2

: % 1 100 .


Exemplo 4. Intervalos de 95% de confiana para os coeficientes da regresso do Exemplo 1.



























Exerccio 4. Calcule e interprete os IC com 90% e 99% para os coeficientes de regresso para os
dados do Exerccio 1.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti

17
1.7.2 Intervalo de confiana para a varincia residual

Vimos que a varivel
( )
( ) 2
2
2
2
2
~
2

= n
n
q

.

Podemos usar essa varivel para estabelecer um intervalo de confiana para a varincia
residual da seguinte forma:


=
|
|

\
|


1
2
2
; 2
2 2
2
1 ; 2 n n
q P

Substituindo-se em q
2
e fazendo-se algumas manipulaes, temos:
( ) ( )


=
|
|
|

\
|


1

2
2
2
1 ; 2
2
2
2
2
; 2
2
n n
n n P

Ou ( ) ( ) ( )
(
(
(



2
2
1 ; 2
2
2
2
; 2
2
2

2 ;

2 : % 1 100


n n
n n para IC .

Exemplo 5. Supondo que temos uma amostra de 10 observaes de duas variveis X e Y, a
varincia estimada de Y foi igual a 42,1591. O IC de 95% para a varincia da estimativa :













Exerccio 5. Calcule e interprete os IC com 90% e 99% para a varincia residual do Exerccio 1.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti

18
1.8 Testes de hipteses

O problema do teste estatstico de hipteses pode ser resumido assim: uma dada observao
ou resultado compatvel com alguma hiptese feita ou no? Assim temos a hiptese nula (H
0
) que
testada contra a hiptese alternativa (H
1
), e decidimos sobre a veracidade ou a falsidade da
hiptese nula atravs dos resultados amostrais. Ou seja, a teoria do teste de hipteses cuida da
formulao de regras ou procedimentos a serem adotados para decidir se a hiptese nula deve ser
rejeitada ou no rejeitada. H duas abordagens complementares para a elaborao dessas regras: o
intervalo de confiana e o teste de significncia.

1.8.1 Abordagem do intervalo de confiana

- Teste bilateral ou bicaudal
As hipteses deste teste so:

=
*
1
*
0
:
:
i i
i i
H
H




Por exemplo, poderamos estar interessados em testar as seguintes hipteses:
1. O intercepto do modelo (coeficiente linear) nulo? Ou, a regresso passa pela origem do sistema
coordenado?

=
0 :
0 :
1 1
1 0

H
H


2. A inclinao do modelo (coeficiente angular) nula? Ou, no existe relao linear entre X e Y?

=
0 :
0 :
2 1
2 0

H
H

Em ambos os casos acima, 0
*
=
i
.

Regra de deciso: para um nvel de significncia , estabelea um intervalo de confiana de
( )% 1 100 para
i
. Se
*
i
cair dentro do intervalo de confiana, no rejeite H
0
, caso contrrio,
rejeite.

Em estatstica, quando rejeitamos a hiptese nula, dizemos que nossos resultados foram
estatisticamente significativos.


- Teste unilateral ou unicaudal
s vezes, temos uma forte expectativa a priori ou terica de que a hiptese alternativa seja
unilateral. Um exemplo de teste unilateral :

>

0 :
0 :
2 1
2 0

H
H
.

Por questes de facilidade, veremos testes unilaterais apenas atravs da abordagem dos
testes de significncia.

MAT02207 Estatstica Econmica Prof. Vanessa Leotti

19
Exemplo 6: Usando um nvel de significncia de 5%, teste, atravs dos intervalos de confiana, as
hipteses de que o intercepto e o coeficiente angular so significativamente diferentes de zero para
os dados do Exemplo 1.











Exerccio 6: Usando um nvel de significncia de 10%, teste, atravs dos intervalos de confiana, as
hipteses de que o intercepto e o coeficiente angular so significativamente diferentes de zero para
os dados do Exerccio 1.










1.8.2 Abordagem do teste de significncia

A rotina de procedimentos para os testes de significncia pode ser resumida da seguinte
maneira:
a) Escolhe-se o nvel de significncia , em geral 1%, 5% ou 10%;
b) Estabelecer as hipteses e verificar a forma do teste, isto , unilateral ou bilateral;
c) Verificar o valor crtico (valor tabelado), que ser
2
; 2

n
t para um teste bilateral e
; 2 n
t
para um teste unilateral;
d) Calcular o valor amostral da estatstica de teste:
i
i i
t


=

e) Decidir conforme a tabela abaixo:

Tipo de hiptese H
0
H
1
Deciso: rejeitar H
0
se
Bicaudal
*
0
:
i i
H =
*
1
:
i i
H
2
; 2

>
n
t t
Cauda direita
*
0
:
i i
H
*
1
:
i i
H >
; 2
>
n
t t
Cauda esquerda
*
0
:
i i
H
*
1
:
i i
H <
; 2
<
n
t t

MAT02207 Estatstica Econmica Prof. Vanessa Leotti

20
Exemplo 7: Usando um nvel de significncia de 5%, teste, atravs dos testes de significncia, as
hipteses de que o intercepto e o coeficiente angular so significativamente diferentes de zero para
os dados do Exemplo 1.






















Exemplo 8: Para os dados do exemplo 1, usando um nvel de significncia de 5%, teste a hiptese
de que o coeficiente angular maior que 1.












Exerccio 7: Considere os dados do Exemplo 1. Em uma pesquisa anterior, um economista havia
estimado o modelo X Y 34 , 2 5 , 15

+ = . Existe diferena significativa entre as estimativas obtidas na


pesquisa anterior e a atual, a 5% de nvel de significncia?



Exerccio 8: Considere os dados do Exerccio 1. A um nvel de significncia de 1%, teste as
hipteses de que o intercepto e o coeficiente angular so maiores que zero.



MAT02207 Estatstica Econmica Prof. Vanessa Leotti

21
- O valor-p: definido como o menor nvel de significncia ao qual a hiptese nula pode ser
rejeitada. S pode ser calculado exatamente atravs de mtodos computacionais.
A relao entre o valor-p e o nvel de significncia : se valor-p < , rejeita-se H
0
, caso
contrrio no se rejeita.


1.9 Previso

Um dos principais objetivos da anlise de regresso prever valores de Y com base em
valores conhecidos de X. H dois tipos de previso:

1. Previso para a estimativa mdia de Y dado X=X
0
: Exemplo: Estimar o consumo mdio de pizza
para cidades com renda igual a 7.
( )
0 2 1 0 0

|

X X X Y E de estimador Y + = = =

2. Previso para a estimativa individual de Y dado X=X
0
: Exemplo: Estimar o consumo de pizza
para uma cidade com renda igual a 7.
( )
0 2 1 0 0

|

X X X Y de estimador Y + = = =

1.9.1 Intervalo de confiana para a estimativa mdia de Y, dado X = X
0


( ) ( )
(

m
n
t Y X X Y E IC

: | para % 1 100
2
; 2
0 0
e
|
|

\
|

+ =

2
2
0 2 2
) ( 1

x
X X
n
m


Exemplo 9. Calcular um intervalo com 95% de confiana para o valor mdio de Y, quando X = 100,
para a regresso X Y 5091 , 0 4525 , 24

+ = , obtida de uma amostra de 10 observaes, com 170 = X ,


000 . 33
2
=

x e 159 , 42
2
= .













MAT02207 Estatstica Econmica Prof. Vanessa Leotti

22
1.9.2 Intervalo de confiana para a estimativa individual de Y, dado X = X
0


( ) ( )
(

i
n
t Y X X Y IC

: | para % 1 100
2
; 2
0 0
e
|
|

\
|

+ + =

2
2
0 2 2
) ( 1
1
x
X X
n
i


Exemplo 10. Calcular um intervalo com 95% de confiana para o valor individual de Y, quando X =
100, para a regresso do Exemplo 9.












Alguns cuidados em relao previso:
1. Quanto mais afastados da mdia dos valores observados na amostra for a estimativa,
menos preciso haver.













2. Ao extrapolar as estimativas para valores fora do intervalo dos dados amostrais, no
existem garantias de que a relao entre as variveis manter o mesmo padro
observado na amostra.








Exerccio 9. Calcular os intervalos com 90% de confiana para a estimativa mdia e individual de Y
dado que X = 10 para os dados do Exerccio 1.

MAT02207 Estatstica Econmica Prof. Vanessa Leotti

23
1.10 Anlise de Varincia ANOVA

Um mtodo complementar para o estudo da anlise de regresso a anlise de varincia. A
ANOVA verifica se o modelo estimado possui algum grau de explicao sobre a varivel resposta.
No caso de apenas duas variveis (ou seja, MRLS), esse mtodo equivalente ao teste t para testar
se o coeficiente angular do modelo nulo, isto :

=
0 :
0 :
2 1
2 0

H
H


Como j mencionado, possvel particionar as somas de quadrados da seguinte forma:
( ) ( ) ( )

+ =
2 2
2

i i i i
Y Y Y Y Y Y
SQT = SQE + SQR

Ou seja:
SQT: soma de quadrados total, com (n-1) g.l.;
SQE: soma de quadrados explicada pela regresso, com 1 g.l.;
SQR: soma de quadrados dos resduos, com (n-2) g.l..

As somas de quadrados tambm podem ser calculadas atravs das seguintes expresses:
( )

= =
2
2
i i
y Y Y SQT
( )

= =
2 2
2
2

i i
x Y Y SQE
( )
( )


= = = =
2
2
2 2 2
2
2 2
2

x
xy
y x y e Y Y SQR
i i i


A ANOVA utiliza essa relao entre as somas de quadrados geralmente resumida e
analisada atravs da seguinte tabela:

ANOVA
Causas de Variao GL SQ QM F
Devida regresso 1

2 2
2

i
x
1

2 2
2
=
i
x
QME


QMR
QME

Devido aos resduos n-2

i
e
2
2

=

n
e
QMR
i


Total n-1

2
i
y



O valor da estatstica F tem 1 g.l. no numerador e n-2 g.l. no denominador, ou seja:
F ~ F
(1;n-2)


Regra de deciso: Se
( ) 2 ; 1 ;
>
n
F F

, rejeita-se H
0
, caso contrrio no se rejeita.

No caso de apenas duas variveis, deve-se observar que a relao entre as estatsticas t e f
f t =
2
.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti

24
Exemplo 11. Utilizando os dados do Exemplo 1, construa a tabela da anlise de varincia e analise
os resultados, considerando um nvel de significncia de 5%.



















1.10.1 Teste de significncia para o coeficiente de determinao

Alternativamente, pode-se observar que o teste F para testar a significncia global do
modelo tambm pode ser visto como um teste de significncia para o coeficiente de determinao
r
2
, isto , se o coeficiente de determinao nulo ou no:
2
0
2
1
: 0
: 0
H
H



Atravs de manipulaes algbricas, a tabela ANOVA pode ser re-escrita em termos desse
coeficiente da seguinte forma:

ANOVA
CV GL SQ QM F
Regresso 1
( )

2 2
i
y r

( ) 1
2 2
i
y r

( )
( )
2
2
1
2
r
r n


Resduos n-2
( )( )

2 2
1
i
y r

( )( ) ( ) 2 1
2 2


n y r
i


Total n-1

2
i
y



Exemplo 12. Refazer a tabela de anlise de varincia do exemplo 11 em termos do coeficiente de
determinao.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti

25
Exerccio 10.
a) Faa a ANOVA para os dados do Exerccio 1 e analise os resultados.
b) Refaa a ANOVA em termos do coeficiente de determinao e compare os resultados com o item
a).

1.11 Regresso pela origem

Em algumas situaes, a FRP de duas variveis assume a seguinte forma:
i i i
e X Y + =
2


Nesse modelo, o termo do intercepto est ausente ou nulo. Aplicando ento o mtodo de
MQO, obtemos as seguintes frmulas para
2

e sua varincia:

=
2 2

X
XY
,

=
2
2
2

2
X

,
1

2
2

=

n
e
,
( )

=
2
2
2 2

X
XY
Y e

A primeira diferena entre o modelo de regresso pela origem e o modelo com intercepto
que as frmulas para o primeiro envolvem somas brutas das variveis, e no no formato desvio.
A segunda diferena so os graus de liberdade, que passam a ser n 1.
Outra diferena que, no modelo com intercepto 0 =
i
e , j na regresso pela origem, isto
nem sempre acontece.
Alm disso, o r
2
conforme definido anteriormente pode ser negativo nos modelos com
intercepto ausente. Portanto, ele no pode ser usado diretamente nesse caso e tambm necessrio
ajustar os clculos, obtendo o que se chama de r
2
bruto, definido como:
( )

=
2 2
2
2
Y X
XY
r
bruto
.

O r
2
bruto est sempre entre 0 e 1, mas no pode ser comparado diretamente ao valor do r
2

convencional.
Em decorrncia das caractersticas especiais deste modelo, preciso ter grande cautela ao
empreg-lo. A menos que exista uma expectativa a priori muito forte, seria prefervel ater-se ao
modelo com intercepto.

Exemplo 13. Ajustar o modelo de regresso pela origem aos dados do Exemplo 1, calcular o r
2

bruto e testar a hiptese de que existe influncia linear de X em Y, para uma significncia de 5%.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti

26
Exerccio 11. Ajustar o modelo de regresso pela origem aos dados do Exerccio 1, calcular o r
2

bruto e testar a hiptese de que existe influncia linear de X em Y, para uma significncia de 5%.

1.12 Formas funcionais dos modelos de regresso

Trabalhamos at agora com um modelo linear nos parmetros e nas variveis. Entretanto,
alguns modelos de regresso bastante usados no so lineares nas variveis, mas o so nos
parmetros. Esses modelos podem ser tornados lineares por meio de transformaes nas variveis.

1.12.1 Modelo Log-Linear ou Log-Log
Modelo de Regresso Exponencial:
( )
i i i
e X Y exp
2
1

=


Este modelo pode ser expresso como:
( ) ( ) ( )
i i i
e X Y + + = ln ln ln
2 1



Se escrevermos ( )
1
ln = , temos o modelo log-linear, que linear nos parmetros mas no
nas variveis:
( ) ( )
i i i
e X Y + + = ln ln
2



Se fizermos, ( )
i i
Y Y ln
*
= e ( )
i i
X X ln
*
= , teremos o MRLS
i i i
e X Y + + =
*
2
*
, que pode ser
estimado por MQO.
A utilidade desse modelo que
2
mede a elasticidade de Y em relao a X, isto , a
variao percentual de Y correspondente a variao de 1% em X. Assim, se Y representa a
quantidade demandada de um bem e X seu preo unitrio,
2
mede a elasticidade preo da
demanda.
Desenhos:







No modelo de 2 variveis, para verificar se o modelo log-linear se ajusta aos dados, traa-se
o diagrama de disperso de ( )
i
Y ln contra ( )
i
X ln e verifica-se se os pontos se aproximam de uma
reta.

1.12.2 Modelos semilogartmicos Log-Lin e Lin-Log

- Modelo Log-Lin
Muitas vezes interessante conhecer a taxa de crescimento de algumas variveis como
populao, PNB, etc. Imagine que desejamos conhecer a taxa de crescimento de uma populao no
perodo t. Denotemos por
t
Y a populao no final do perodo e
0
Y no incio do perodo.

MAT02207 Estatstica Econmica Prof. Vanessa Leotti

27
Recordando a frmula de juros compostos, temos que:
( )
t
t
r Y Y + = 1
0


Onde r a taxa de crescimento de Y. Aplicando-se o logaritmo natural nos 2 lados da equao
temos que:
( ) ( ) ( ) r t Y Y
t
+ + = 1 ln ln ln
0


Agora, fazendo ( )
0 1
ln Y = e ( ) r + = 1 ln
2
, temos:
( ) t Y
t 2 1
ln + =
.

Incluindo o termo de erro temos o modelo log-lin:
( )
t t
e t Y + + =
2 1
ln


que pode ser analisado por MQO fazendo-se ( )
t t
Y Y ln
*
= .
Se multiplicarmos
2
por 100 temos a taxa de crescimento de Y.

- Modelo Lin-Log:
No modelo anterior (Log-lin) queremos conhecer o crescimento percentual de Y para uma
variao absoluta em X. O modelo Lin-log serve para conhecermos a variao absoluta em Y para
uma variao percentual em X. Assim,
( )
i i i
e X Y + + = ln
2 1



que pode ser analisado por MQO fazendo-se ( )
i i
X X ln
*
= .
Dividindo-se
2
por 100 tem-se a variao absoluta de Y dada uma variao de 1% em X.
Uma das aplicaes deste modelo so os modelos de despesas de Engel, que verificou que
o total de despesas com alimentao tende a aumentar em PA enquanto as despesas totais
aumentam em PG.

1.12.3 Modelos Recprocos (Inversos)
So do tipo:
i
i
i
e
X
Y +
|
|

\
|
+ =
1
2 1


Se fizermos
|
|

\
|
=
i
i
X
X
1
*
, podemos utilizar MQO.
Este modelo pode assumir formas como (desenhos):









MAT02207 Estatstica Econmica Prof. Vanessa Leotti

28
Como ilustrao pode-se pensar em ajustar um modelo onde a varivel dependente
mortalidade infantil de vrios pases, e a varivel independente o PNB per capita de cada um.
Espera-se que, quanto maior o PNB per capita, menor a mortalidade, mas esta relao no uma
linha reta. Quando PNB aumenta, no incio h uma reduo substancial da mortalidade, mas depois
a queda ameniza.
Uma das aplicaes deste modelo a curva de Phillips, da macroeconomia.

Exemplo 14: Na tabela a seguir, tem-se parte de um conjunto de dados que mostra as despesas com
servios por trimestre, no perodo de 1993 at o 3 trimestre de 1998.

Ano-trimestre t Desp. Serv. (Y) Y*=ln(Y)
1993-I 1 2445,3 7,802
1993-II 2 2455,9 7,806
1993-III 3 2480,0 7,816
1993-IV 4 2494,4 7,822
... ... ... ...
1998-I 21 2829,3 7,948
1998-II 22 2866,8 7,961
1998-III 23 2904,8 7,974

Ajustar um modelo log-lin onde a varivel independente t, e a varivel dependente Y o
mesmo que ajustar um MRLS onde a varivel independente t e a varivel dependente Y*.
Fazendo isso se obtm a equao t Y
t
00743 , 0 7890 , 7

*
+ = , isso indica que em um perodo
que vai do 1 trimestre de 1993 at o 3 trimestre de 1998, as despesas com servios aumentaram a
uma taxa trimestral de 0,743%.

Exerccio 15. Os dados a seguir mostram as despesas com propaganda (X), expressas em
percentagem das despesas totais, e o lucro operacional lquido (Y), expresso em percentagem do
total de vendas, em uma amostra de seis drogarias.

X Y
1,5 3,6
1,0 2,8
2,8 5,4
0,4 1,9
1,3 2,9
2,0 4,3

a) Ajuste a reta de mnimos quadrados que permita predizer o lucro operacional lquido em termos
das despesas com propaganda.
b) Calcule o coeficiente de correlao e interprete.
c) Qual o grau de ajuste do modelo? Interprete.
d) Teste a hiptese nula
2
1,6 contra a hiptese
2
< 1,6, ao nvel de 0,01 de significncia.
e) Construa um intervalo de 99% de confiana para
2
.
f) Construa um intervalo de 90% de confiana para a varincia residual.
g) Construa um intervalo de 95% de confiana para o lucro operacional lquido mdio quando as
despesas com propaganda so de 2,5% da despesa total.
h) possvel utilizar o modelo ajustado para prever o lucro quando as despesas so da ordem de
5%? Nesse caso, o que se deve observar?
i) Ajuste um modelo de regresso que passe pela origem do sistema coordenado e compare os
resultados com o primeiro modelo estimado.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti

29
2 MODELO DE REGRESSO LINEAR MLTIPLA (MRLM)

A teoria econmica raramente simples a ponto de explicar o comportamento da varivel de
interesse com base na informao de apenas uma outra varivel explicativa. Dessa forma,
ampliaremos o que j foi discutido para o caso de mais de uma varivel independente. O mais
simples caso de regresso mltipla possui trs variveis, sendo duas explicativas e uma resposta, de
forma que a FRP do modelo de trs variveis dada por:

1 2 2 3 3 i i i i
Y X X e = + + +


Generalizando quando temos k variveis:

i ki k i i i
e X X X Y + + + + + =
3 3 2 2 1
, com i = 1, 2, ..., n.

Nesse modelo:
- As k-1 variveis explicativas so X
2
, X
3
, ..., X
k
, e Y a varivel dependente ou explicada;
- Os e
i
so os erros aleatrios (resduos) que seguem as hipteses clssicas;
-
1
o intercepto;
- Os coeficientes parciais de regresso, desconhecidos, so
2
,
3
, ...,
k
.
2.1 Significado dos parmetros do modelo
-
1
o valor mdio de Y quando X
2
= X
3
= ... = X
k
= 0
-
2
,
3
, ...,
k
:
i
mede a variao de Y, por uma unidade de variao em X
i
, mantendo-se as demais
variveis constantes (ceteris paribus).

2.2 Notao matricial do MRLM
A grande vantagem da lgebra matricial sobre a lgebra escalar que ela oferece um mtodo
compacto para lidar com modelos de regresso envolvendo qualquer nmero de variveis; uma vez
formulado o modelo, a soluo se aplica a uma, duas ou qualquer nmero de variveis.
Seja a FRP para o modelo de k variveis. Essa equao uma expresso abreviada do
seguinte conjunto de n equaes:

1 1 31 3 21 2 1 1
e X X X Y
k k
+ + + + + =
2 2 32 3 22 2 1 2
e X X X Y
k k
+ + + + + =
...
n kn k n n n
e X X X Y + + + + + =
3 3 2 2 1


Em notao matricial, esse conjunto pode ser escrito como:


e
X
Y
(
(
(
(

+
(
(
(
(

(
(
(
(

=
(
(
(
(

n k kn n
k
k
n
e
e
e
X X
X X
X X
Y
Y
Y



2
1
2
1
2
2 22
1 21
2
1
1
1
1



MAT02207 Estatstica Econmica Prof. Vanessa Leotti

30
Assim, a FRP sob a forma matricial ento representada por:
e X Y + =

onde:
Y: o vetor coluna de dimenso (n x 1) de valores observados;
X: a matriz (n x k) de valores observados para as variveis explicativas;
: o vetor (k x 1) de parmetros desconhecidos;
e : representa o vetor (n x 1) de perturbaes (erros) aleatrias.
Obs: as notaes negrito representam formas matriciais.

2.3 Premissas do MRLM
[1]: e X Y + = ;
[2]: 0 ) ( = e E ;
[3]:
n
I ee
2
) ' ( = E , sendo I
n
a matriz identidade de ordem n (hiptese de ausncia de
heteroscedasticidade ou autocorrelao serial);
) ' (ee E a chamada matriz de varincias e covarincias dos resduos aleatrios. Os
elementos na diagonal principal dessa matriz so as varincias, e os elementos fora da diagonal
principal so as covarincias.
[4]: a matriz X no aleatria, isto , consiste em um conjunto de nmeros fixos;
[5]: a raiz caracterstica, ou posto de X k < n (hiptese de ausncia de multicolinearidade);
Isto significa que as colunas da matriz X so linearmente independentes, ou seja, no h uma
relao linear exata entre as variveis X.
[6]: para realizarmos inferncias, necessrio supor que ( )
n
I e
2
; 0 ~ N .

2.4 Mtodo dos mnimos quadrados ordinrios (MQO)
Seja a FRA de k variveis:
i i i ki k i i i
e Y e X X X Y


3 3 2 2 1
+ = + + + + + = ,

que pode ser escrita em notao matricial como:
e Y e X Y

+ = + = .

Da mesma forma que no modelo de duas variveis, os estimadores de MQO podem ser
obtidos atravs da minimizao da soma dos quadrados dos resduos, isto :

( )

=
2
3 3 2 2 1
2

ki k i i i i
X X X Y e .

Em notao matricial, isto equivale a minimizar e ' e , pois:

[ ]

= + + + =
(
(
(
(

=
2 2 2 2


i n 2 1
n
2
1
n 2 1
e e e e
e
e
e
e e e

e ' e


MAT02207 Estatstica Econmica Prof. Vanessa Leotti

31
A aplicao desse mtodo conduz ao vetor de estimadores de mnimos quadrados dos
coeficientes de regresso:

( ) Y X X X ' '

1
=

As matrizes
X X'
e
Y X'
so dadas por:

(
(
(
(
(
(

=




2
3 2
3
2
3 3 2 3
2 3 2
2
2 2
3 2
ki ki i ki i ki
ki i i i i i
ki i i i i i
ki i i
X X X X X X
X X X X X X
X X X X X X
X X X n

X X' e
(
(
(
(
(
(

i ki
i i
i i
i
Y X
Y X
Y X
Y

3
2
' Y X .

Obs: Mtodos para inverter uma matriz
1) Cofatores
Queremos determinar a inversa da matriz A, ou seja, A
-1
. Para isso devemos fazer:
1. Achar o det(A);
2. Obter a matriz de cofatores C, lembrando que: ( )
ij
j i
ij
M c
+
= 1 , onde M
ij
o menor do
elemento da linha i e coluna j, obtido suprimindo-se a linha i e coluna j.
3. Fazer a transposta da matriz de cofatores, C;
4. Dividir cada elemento de C por det(A).
Em resumo: ' C
det(A)
1
A
1
=

.
2) Escalonamento
Escreve-se a matriz identidade do lado da matriz que se quer inverter. Fazem-se operaes
lineares nas linhas at que a primeira matriz se torne a identidade.
2.4.1 Varincias dos estimadores de MQO
Demonstra-se que
( ) ( )
1 2


= X X' Var ,

que a matriz de varincias e covarincias dos estimadores de MQO, que s e conhecida se
2
for
conhecido.
Entretanto, a varincia residual pode ser estimada por:
k n k n

=
Y X' Y Y' e ' e

2
,
onde

=
2
i
Y Y Y' .

Assim, as varincias estimadas dos estimadores de MQO so:
ii
a
i
2 2

= ,
onde
ii
a o elemento da linha i, coluna i, da matriz ( )
1
X X' .

Demonstra-se que o vetor

um estimador linear, no-tendencioso e de varincia mnima.


MAT02207 Estatstica Econmica Prof. Vanessa Leotti

32
Exemplo 1. Uma empresa de tele-entrega quer estimar o tempo que seus funcionrios devem levar
at que retornem com uma lista de tarefas concluda. Assim, coletou o tempo de viagem (Y), a
quantidade de km percorridos (X
2
) e o nmero de entregas (X
3
) de cinco de seus moto-boys. Com
os dados a seguir, estime o modelo de regresso linear mltipla, bem como os erros-padro dos
estimadores.

i Y X
2
X
3
Y X
2
X
3
X
2
Y X
3
Y X
2
X
3

1 9,3 100 4
2 4,8 50 3
3 8,9 100 4
4 6,5 100 2
5 4,2 50 2
Total

MAT02207 Estatstica Econmica Prof. Vanessa Leotti

33
Exerccio 1. Seja a amostra abaixo. Estime o MRLM de trs variveis, bem como as varincias e
erros-padro dos estimadores.

Y X
2
X
3

5 1 1
6 2 1
7 3 2
8 4 2
8 5 2

2.5 Coeficiente mltiplo de determinao: R
2

No modelo de k variveis, o coeficiente de determinao mede a proporo da variao em Y
explicada conjuntamente por todas as variveis X. Assim, no MRLM o coeficiente mltiplo de
determinao R
2
definido como:

SQT
SQR
n
SQT
SQE
n
n
R =

= =

= 1
'
1
'
' '
2 2
2
^
2
Y Y Y
e e'
Y Y Y
Y Y X


Obs.: No modelo de duas variveis definimos o coeficiente de correlao (r) como uma medida do
grau da relao entre as variveis. No caso de trs ou mais variveis, h um coeficiente anlogo, o
coeficiente de correlao mltipla (
2
R R = ), que mede a associao entre Y e todas as variveis
explanatrias em conjunto. Embora r possa ser positivo ou negativo, R sempre ser positivo (pois
nem todas as variveis explicativas podem ter relao no mesmo sentido com a varivel resposta).
Na prtica, porm, R tem pouca importncia. A quantidade mais significativa R
2
.

2.6 Coeficiente mltiplo de determinao ajustado:
2
R

Uma propriedade importante do R
2
que ele uma funo no-decrescente do nmero de
variveis explicativas. O R
2
quase invariavelmente aumenta e nunca diminui quando o nmero de
regressores aumenta.
Em vista disto, ao comparar dois modelos de regresso com a mesma varivel dependente,
mas com nmero diferente de variveis X, deveramos escolher o modelo com o R mais alto. Para
comparar dois termos R, preciso levar em conta o nmero de variveis X presentes no modelo.
Isto pode ser feito se considerarmos o coeficiente mltiplo de determinao ajustado, que dado
por:

( )
k n
n
R
n
SQT
k n
SQR
R

=
1
1 1
1
1
2 2


O
2
R pode ser negativo, e neste caso, na prtica, seu valor ser tomado como zero.

Obs.: o
2
R , no a nica forma de correo do R
2
e nem a nica medida para julgar a adequao
de um modelo de regresso, outras medidas conhecidas so o R
2
Modificado, o critrio de
Informao de Akaike e os critrios de Predio de Amemiya.

MAT02207 Estatstica Econmica Prof. Vanessa Leotti

34
Exemplo 2. Clculo do R
2
,
2
R para os dados do Exemplo 1.



















Exerccio 2. Clculo do R
2
,
2
R para os dados do Exerccio 1.

2.7 Coeficiente de correlao parcial
Na regresso linear mltipla, podemos ter um coeficiente de correlao para cada par de
variveis do modelo. Por exemplo, no modelo de trs variveis, tm-se r
12,
r
13
e r
23.
Esses
coeficientes so denominados de coeficientes de correlao simples, ou de ordem zero. Eles podem
ser calculados conforme a frmula:
( )( )
( ) ( ) ] ][ [
2
2
2
2
2 2


= =
Y Y n X X n
Y X XY n
y x
xy
r

Seja o coeficiente r
12
. Ele no refletir o verdadeiro grau de associao entre Y e X
2
na
presena de X
3
, pelo fato que X
3
provavelmente influencia em Y e X
2
. Para obter um coeficiente de
correlao que reflita o verdadeiro grau da relao entre duas variveis na presena das demais,
necessrio manter a influncia das demais variveis constante. Assim, no modelo com trs
variveis, denota-se:
r
12.3
: coeficiente de correlao parcial entre Y e X
2
, mantendo X
3
constante;
r
13.2
: coeficiente de correlao parcial entre Y e X
3
, mantendo X
2
constante;
r
23.1
: coeficiente de correlao parcial entre X
2
e X
3
mantendo Y constante.

As frmulas de clculo so:
( )( )
2
23
2
13
23 13 12
3 . 12
1 1 r r
r r r
r

= ;
( )( )
13 12 23
13.2
2 2
12 23
1 1
r r r
r
r r

=

e
( )( )
2
13
2
12
13 12 23
1 . 23
1 1 r r
r r r
r

=

r
12.3
, r
12.3
e r
12.3
so os coeficientes de primeira ordem. Se houvessem mais variveis no
modelo, ocorreriam tambm coeficientes de correlao de segunda ordem (r
12.34
), terceira ordem
(r
12.345
) e assim por diante.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti

35
2.8 Coeficiente de determinao parcial

Os coeficientes de determinao parciais expressam o grau de explicao que cada varivel
exerce sobre as demais, mantendo constante todos os outros fatores, ou seja:
2
3 . 12
r : o coeficiente de determinao parcial entre Y e X
2
a proporo da variao em Y no
explicada pela varivel X
3
que foi explicada pela incluso de X
2
no modelo.
Os coeficientes de determinao parciais so obtidos simplesmente tomando-se o quadrado
dos coeficientes de correlao parciais correspondentes.
Existe as seguintes relaes entre esses coeficientes e R:
2
23
23 13 12
2
13
2
12 2
1
2
r
r r r r r
R

+
=
( )
2
2 . 13
2
12
2
12
2
1 r r r R + =
( )
2
3 . 12
2
13
2
13
2
1 r r r R + =
Ento,
2
12
2
r R > desde que 0
2
2 . 13
> r . Ou seja, R
2
sempre cresce com a incluso de uma nova
varivel, a menos que 0
2
2 . 13
= r , onde teramos
2
12
2
r R = .

Exemplo 3. Dados r
12
= 0,8822
,
r
13 =
0,8089 e r
23
= 0,4564 para o Exemplo 1, calcular e interpretar
os coeficientes de determinao parciais.

















Exerccio 3. Ao se ajustar um modelo de trs variveis, encontrou-se r
12
= 0,3048
,
r
13 =
0,1391 e
r
23
=-0,7043. Calcule e interprete os coeficientes de determinao parciais.

2.9 Intervalo de confiana e teste de significncia individual para os coeficientes
de regresso

Para podermos realizar inferncias, supomos que ( )
n
I e
2
; 0 ~ N . Isso implica que, sob as
hipteses clssicas,

tem distribuio normal multivariada, isto :


( ) ( )
1 2
; ~


X X' N
MAT02207 Estatstica Econmica Prof. Vanessa Leotti

36
E cada
i

tem distribuio marginal tambm normal:


( )
ii i i
a ; ~N
2


com a
ii
sendo o elemento da i-sima linha e i-sima coluna de (XX)
-1
.
Sendo
2
desconhecido, tem-se que:
( ) k n
i i
t t
i

= ~



com
ii
a
i
2 2

e
ii
a
i
2

.
Assim, o intervalo de confiana para cada coeficiente de regresso dado por:
( )
(

i
k n
i i
t para IC

2
;

: % 1 100

Alm disso, utilizamos o procedimento idntico do teste de hipteses para o modelo de duas
variveis para testar a significncia individual dos coeficientes.
Por exemplo, seja o modelo de 3 variveis. Poderia ser interessante testar as hipteses

=
0 :
0 :
2 1
2 0

H
H
.
Neste caso, estaramos avaliando se X
2
tem alguma influncia linear sobre Y, mantendo-se
X
3
constante.
A tabela abaixo nos d a rea de rejeio de cada teste:

Tipo de hiptese H
0
H
1
Deciso: rejeitar H
0
se
Bicaudal
*
0
:
i i
H =
*
1
:
i i
H
2
;

k n
t t

>
Cauda direita
*
0
:
i i
H
*
1
:
i i
H >
; k n
t t

>
Cauda esquerda
*
0
:
i i
H
*
1
:
i i
H <
; k n
t t

<

2.10 Intervalo de confiana para a varincia residual

Na regresso mltipla, sabe-se que
( )
( ) k n
k n

2
2
2
~

.
Assim, o intervalo de confiana para a varincia residual :
( ) ( ) ( )
(
(
(



2
2
1 ;
2
2
2
;
2
2

: % 1 100


k n k n
k n k n para IC .

Exemplo 4. Teste se os coeficientes do modelo de regresso estimado no Exemplo 1 so
significativamente diferentes de zero, para um nvel de significncia de 5%. Alm disso, construa os
intervalos de 95% de confiana para os coeficientes de regresso e para a varincia residual.




MAT02207 Estatstica Econmica Prof. Vanessa Leotti

37
Exerccio 4.
a) Teste se os coeficientes do modelo de regresso estimado no Exerccio 1 so significativamente
diferentes de zero, para um nvel de significncia de 5%.
b) Construa um IC de 90% para o coeficiente de X
2
e teste se ele diferente de 1.
c) Teste, a 5% de significncia, se o intercepto maior que 2.

2.11 Teste da significncia geral da regresso (ANOVA)

No teste individual, trabalhamos separadamente com a hiptese de que cada verdadeiro
coeficiente parcial de regresso era zero. Mas vejamos agora a seguinte hiptese:
0 :
3 2 0
= = = =
k
H

Esta hiptese no pode ser testada fazendo-se um teste de significncia para cada coeficiente
parcial. Isto porque, se para cada teste adotamos um nvel de significncia (probabilidade de erro
tipo I), a probabilidade de erro tipo I de todos os testes simultaneamente maior que .
Entretanto, atravs da ANOVA, podemos testar as hipteses abaixo de uma nica vez:

= = = =
. :
0 :
1
3 2 0
zero de diferente dos um menos ao H
H
i
k




A tabela de ANOVA para o modelo de k variveis :

CV GL SQ QM F
Regresso k-1
2
^
' ' Y n Y X
1 k
SQE

QMR
QME

Resduos n-k
Y X Y Y ' ' '
^

k n
SQR


Total n-1
2
' Y n Y Y


Demonstra-se que a estatstica F segue distribuio F de Snedecor com k-1 g.l. no
numerador e n-k g.l. no denominador, ou seja:
F ~ F
(k-1;n-k)


Regra de deciso: Se
( ) k n k
F F

>
; 1 ;
, rejeita-se H
0
, caso contrrio no se rejeita.

Pode-se reescrever a tabela de ANOVA em termos do coeficiente mltiplo de determinao,
R:

CV GL SQ QM F
Regresso k-1
( )
2
2
' Y n R Y Y
1 k
SQE

( )
( )( )
2
2
1 1 R k
R k n


Resduos n-k
( )( )
2
2
' 1 Y n R Y Y
k n
SQR


Total n-1
2
' Y n Y Y


MAT02207 Estatstica Econmica Prof. Vanessa Leotti

38
Novamente, a ANOVA serve para testar tambm as hipteses:
2
0
2
1
: 0
: 0
H
H


onde
2
o coeficiente mltiplo de determinao populacional.

Exemplo 5. Construir a ANOVA, estabelecer as hipteses e proceder ao teste F, a 5% de
significncia, para os dados do Exemplo 1.

































Exerccio 5. Construir a ANOVA, estabelecer as hipteses e proceder ao teste F, a 5% de
significncia, para os dados do Exerccio 1.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti

39
2.12 Contribuio marginal ou incremental de uma varivel explicativa

Seja um modelo de trs variveis. Imagine que faamos a incluso seqencial de X
2
e X
3
,
isto , primeiro fazemos a regresso entre Y e X
2
e avaliamos sua significncia e ento
acrescentamos X
3
ao modelo para verificar se este contribui com algo (obviamente, a ordem de
entrada pode ser invertida). Com contribuio, queremos dizer que desejamos saber se a incluso da
varivel no modelo aumenta a SQE (e, por conseqncia, R) significativamente em relao
SQR. Essa a contribuio marginal ou incremental de uma varivel explicativa.
A questo da contribuio marginal importante na prtica. Na maioria das pesquisas, o
pesquisador pode no estar totalmente convencido de que valha a pena acrescentar uma varivel X
ao modelo sabendo que vrias outras variveis X j esto presentes no modelo. No se quer incluir
variveis que contribuam muito pouco para a SQE. Contudo, tambm no se quer excluir variveis
que aumentem substancialmente a SQE. Mas como decidir se uma varivel X reduz
significativamente a SQR? A tcnica da ANOVA pode ser empregada para responder essa pergunta.
Primeiramente, fazemos a regresso entre Y e X
2
, produzindo a tabela de ANOVA abaixo:

CV GL SQ QM
Regresso (devido a X
2
) 1 Q
1
=SQE QME
Resduos n-2 SQR QMR
Total n-1 SQT

Aps, acrescentamos X
3
, e produzimos outra tabela de ANOVA:

CV GL SQ QM
Regresso (devido a X
2
e X
3
) 2 Q
3
=SQE QME
Resduos n-3 Q
4
=SQR QMR
Total n-1 Q
5
=SQT

Combinando estas duas tabelas, obtemos:

CV GL SQ QM F
Regresso (devido a X
2
) 1 Q
1
Q
1
/1
Regresso (devido a X
3
) 1 Q
2
= Q
3
Q
1
Q
2
/1 (n-3)Q
2
/Q
4

Regresso (devido a X
2
e X
3
) 2 Q
3
Q
3
/2
Resduos n-3 Q
4
= Q
5
Q
3
Q
4
/(n-3)
Total n-1 Q
5


A estatstica F segue distribuio F com 1 e n-3 graus de liberdade. Se seu valor for
maior que
( ) 3 ; 1 ; n
F

, conclumos que o acrscimo de X


3
ao modelo aumenta significativamente a
SQE, e portanto, R. Assim, deve-se acrescentar X
3
ao modelo.

Este teste tambm poderia ser reformulado em termos dos valores R:

( )
( ) ( ) modelo novo do parmetros de n n R
s regressore novos de n R R
F
novo
velho novo


=
2
2 2
1
.

Observao: o mesmo procedimento poderia ser usado para testar a adio de um grupo de
variveis simultaneamente, com as devidas correes dos graus de liberdade.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti

40
Exemplo 6. Para se estudar o comportamento do consumo pessoal nos EUA em certo perodo,
observou-se as variveis despesa de consumo pessoal (Y), renda pessoal disponvel (X
2
) e tempo
medido em anos (X
3
). Observou-se 15 anos (1956 a 1970).
Primeiramente, regrediu-se Y contra X
2
, obtendo-se os seguintes resultados:

( ) ( )
9977 , 0 9978 , 0
2982 , 77 7259 , 2
8812 , 0 762 , 12

2
= =
=
+ =
R R
t
X Y
i i


CV GL SQ QM F
Regresso 1 65898,2353 65898,2353 5947,494
Resduos 13 144,0340 11,0800
Total 14 66042,2693

Ao se incluir X
3
no modelo, obteve-se:

( ) ( ) ( )
9986 , 0 9988 , 0
2246 , 3 9060 , 14 0811 , 4
7363 , 2 7266 , 0 1603 , 53

3 2
= =
=
+ + =
R R
t
X X Y
i i i


CV GL SQ QM F
Regresso 2 65965,1000 32982,5500 5129,319
Resduos 12 77,1693 6,4302
Total 14 66042,2693

Testar se vale a pena acrescentar X
3
ao modelo, para 5% de nvel de significncia.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti

41
Exemplo 7. Seja um conjunto de dados com 20 observaes e 3 variveis independentes (X
2
, X
3
e
X
4
). Em um primeiro momento, ajustou-se a regresso entre Y e X
2
, obtendo-se R = 0,7111. Aps,
ajustou-se o modelo com todas as variveis independentes, obtendo-se R = 0,8013. Testar se o
acrscimo de X
3
e X
4
aumentou significativamente a SQE, a 5%.








Exerccio 6. Com os dados do Exemplo 1, construa a tabela ANOVA para analisar se a incluso de
varivel X
3
na regresso que j possui X
2
significativa a 5% e interprete o resultado.

2.13 Previso no MRLM

No contexto de previso de valores da varivel dependente, temos novamente 2 tipos de
previso: mdia e individual.
Dado o vetor de valores das variveis X para os quais queremos prever Y:
[ ]
k
X X X
0 03 02
'
0
1 = X ,

desejamos prever
k k
X X X Y
0 03 3 02 2 1 0

+ + + + =

que, na forma matricial, o mesmo que
X
'
0

0
= Y .

Este o valor estimado para Y tanto na previso mdia como individual. A diferena est
nas varincias para os dois tipos de previso:

Previso da mdia: ( )
0 0
X X X X
1 ' 2 2
'

=
m

Previso individual: ( ) [ ]
0 0
X X X X
1 ' 2 2
' 1

+ =
i


Conseqentemente, os intervalos de confiana para essas previses, so:
IC para previso mdia: ( ) ( )
(

m
k n
t Y X X Y E para IC

: | % 1 100
2
;
0 0


IC para previso individual: ( )
(

i
k n
t Y X X Y para IC

: | % 1 100
2
;
0 0


MAT02207 Estatstica Econmica Prof. Vanessa Leotti

42
Exemplo 8. No Exemplo 1, a empresa quer saber quanto tempo deveria esperar em mdia para que
um moto-boy retorne de uma tarefa com 3 entregas e 80km a percorrer. Calcule o IC 99% para
E(Y|X=X
0
).



















Exerccio 7. Para o Exemplo 1, construa um intervalo com 95% de confiana para o tempo mdio
que a empresa deve esperar no caso de um moto-boy sair com 4 entregas e 70km a percorrer.

2.14 Modelo de regresso polinomial

Suponha que desejamos relacionar custo marginal de produo (Y) com quantidade
produzida (X). Poderamos ajustar uma parbola a esta relao, como abaixo:


O modelo que expressa essa relao dado por:
i i i i
e X X Y + + + =
2
2 1 0
,

que a regresso polinomial de 2 grau, e pode ser ajustada normalmente por MQO.
A forma geral da regresso polinomial de k-simo grau :
i
k
i k i i i
e X X X Y + + + + + =
2
2 1 0

MAT02207 Estatstica Econmica Prof. Vanessa Leotti

43
2.15 Variveis Dummies

Na anlise de regresso, a varivel dependente, que de natureza quantitativa,
influenciada por variveis independentes quantitativas, mas tambm por outras que so de natureza
qualitativa, ou nominal, como sexo, raa, cor, religio, nacionalidade, regio geogrfica, etc. Uma
maneira de inserir essas variveis no modelo de regresso atravs das variveis dummies.
As variveis dummies so tambm chamadas de variveis indicadoras, binrias, categricas,
qualitativas ou dicotmicas, e seus valores so geralmente codificados como 0 e 1.
2.15.1 Regresso somente com variveis dummies (Modelos ANOVA)
Um modelo de regresso pode conter regressores que sejam de natureza exclusivamente
binria.
Como um exemplo, considere o seguinte modelo:
i i i
e D Y + + =
2 2 1


Onde: Y: salrio anual de um professor universitrio;

=
feminino sexo do se
masculino sexo do se
D
i
, 0
, 1
2


Este modelo nos permite saber se o sexo faz alguma diferena no salrio dos professores
universitrios, obviamente desconsiderando a influncia de variveis como idade, cursos de ps-
graduao e anos de experincia. Fazendo as suposies clssicas sobre os resduos, obtm-se que:

Salrio mdio professora: ( )
1 2
0 | = =
i i
D Y E
Salrio mdio professor: ( )
2 1 2
1 | + = =
i i
D Y E

O coeficiente
2
ser a diferena de salrio dos homens em relao s mulheres, por isso
chamado de coeficiente diferencial de intercepto, e o teste para verificar se h diferena nos salrios
mdios para homens e mulheres :

=
0 :
0 :
2 1
2 0

H
H

que pode ser verificado pelo teste t usual.

Exemplo 9. Sejam os dados hipotticos dos salrios de 10 professores universitrios, e o sexo de
cada um.
Y D Y D YD
22 1 484 1 22
19 0 361 0 0
18 0 324 0 0
21,7 1 470,89 1 21,7
18,5 0 342,25 0 0
21 1 441 1 21
20,5 1 420,25 1 20,5
17 0 289 0 0
17,5 0 306,25 0 0
21,2 1 449,44 1 21,2
196,4 5 3888,08 5 106,4

MAT02207 Estatstica Econmica Prof. Vanessa Leotti

44
Estimar o modelo, e testar se existe diferena nos salrios mdios entre os sexos, a 5%.






























Para se inserir uma varivel qualitativa com mais de duas categorias, deve-se criar mais de
uma varivel dummy. Por exemplo, suponha que se queira verificar se existe diferena entre os
salrios dos professores segundo o nvel de ps-graduao (mestrado, doutorado e ps-doutorado).
O modelo seria:

i i i i
e D D Y + + + =
3 3 2 2 1


Onde: Y: salrio anual de um professor universitrio;

=
. . , 0
, 1
2
c c
doutorado se
D
i
e


=
. . , 0
, 1
3
c c
doutorado ps se
D
i


Observe que assim, a categoria mestrado j est expressa nas duas variveis dummies,
sendo que o valor correspondente a essa categoria o par (0,0), por isso ela chamada de categoria
de referncia.

MAT02207 Estatstica Econmica Prof. Vanessa Leotti

45
Observaes no uso de variveis dummies:
- Se uma varivel qualitativa tem m categorias, devemos introduzir no modelo m 1 variveis
dummies;
- A categoria para o qual no se designa uma varivel binria a categoria de referncia e todas as
comparaes so feitas em relao a ela;
- O valor do intercepto o valor mdio da categoria de referncia;
- Os coeficientes angulares, chamados de coeficientes diferencias de intercepto, do a diferena da
categoria que recebe valor 1 em relao a varivel binria;
- A categoria de referncia arbitrria ao pesquisador, deve-se estar atento na hora das
interpretaes.

Tambm se pode ter mais de uma varivel qualitativa no mesmo modelo.

Exemplo 10. A partir de uma amostra de 528 americanos, foi calculada uma regresso com os
seguintes resultados.

0006 , 0 0182 , 0 0000 , 0
4462 , 3 3688 , 2 9528 , 21
4854 , 0 4642 , 0 4015 , 0
6729 , 1 0997 , 1 8148 , 8

3 2
=
=
=
+ =
p
t
ep
D D Y
i i i


Onde Y=salrio-hora em $;

=
. . , 0
, 1
2
c c
casado se
D
i
e

=
. . , 0
, 1
3
c c
Sul no mora se
D
i
. Interpretar os resultados.
















2.15.2 Regresso com variveis quantitativas e dummies (Modelos ANCOVA)
De modo geral, na maioria dos estudos econmicos, um modelo de regresso contm
algumas variveis explanatrias quantitativas e outras qualitativas.
Ainda considerando o exemplo dos salrios dos professores universitrios, suponha que
temos tambm uma varivel quantitativa. Assim:
Y: salrio anual de um professor universitrio;
X: anos de experincia;

=
feminino sexo do se
masculino sexo do se
D
i
, 0
, 1
.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti

46
2
1,
0,
i
mulher
D
homem

3
1,
0, .
i
ensino superior
D
c c

Queremos investigar um modelo de regresso do tipo:


i i i i
e X D Y + + + =
3 2 1


Nesse caso, temos o salrio mdio de professores de ambos os sexos so:
Salrio mdio professora: ( )
i i i i
X D X Y E
3 1
0 , | + = =
Salrio mdio professor: ( ) ( )
i i i i
X D X Y E
3 2 1
1 , | + + = =

Graficamente:











Exemplo 11. Suponha que voc gostaria de regredir despesas anuais com sade (Y), renda anual
(X) e nvel de escolaridade (fundamental, mdio e superior). Como seria o modelo? Faa o grfico.













2.15.3 Efeitos de interao com o uso de variveis binrias
Considere o problema a seguir, onde possumos uma varivel quantitativa e duas
qualitativas binrias:
i i i i i
e X D D Y + + + + =
3 3 2 2 1

Y: despesa anual com roupas;
X: renda anual;



Neste modelo, est implcita a premissa de que o efeito diferencial da varivel binria sexo
constante nas duas categorias de escolaridade e que o efeito diferencial da varivel binria
escolaridade tambm constante entre os dois sexos. Ou seja, se o gasto anual com roupas maior
para mulheres que para homens, isso ocorre sejam elas graduados ou no. Do mesmo modo, se
pessoas com ensino superior gastam mais com roupas que as que no possuem, isso se verificar
tanto para homens quanto para as mulheres.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti

47
Em muitas aplicaes, premissas desse tipo so insustentveis. Uma mulher graduada pode
gastar mais com roupas que um homem graduado. Em outras palavras, pode haver uma interao
entre as duas variveis qualitativas. Portanto, seu efeito sobre Y pode no ser apenas aditivo, como
no modelo acima, mas tambm multiplicativo, como no modelo a seguir:
Nesse caso, o modelo com a interao das variveis qualitativas representado por:

i i i i i i i
e X D D D D Y + + + + + =
3 2 4 3 3 2 2 1

onde,
2
: efeito diferencial de ser mulher;
3
: efeito diferencial de ter nvel superior;
4
: efeito diferencial de ser mulher com nvel superior.

Exemplo 12. Regrediu-se salrios-hora (Y), contra anos de escolaridade (X), sexo (D
2
, 1 se mulher)
e raa (D
3
, 1 se no branco e no hispnico), para 528 americanos. Os resultados esto abaixo:
05 , 0 ) 08 , 0 ( 05 , 0 05 , 0 05 , 0 05 , 0
8028 , 0 1289 , 2 7327 , 1 3606 , 2 26100 , 0

3 2 3 2
< > < < > =
+ + =
p
X D D D D Y
i i i i i i


Fazer o grfico e interpretar os resultados.

















Observao: Neste exemplo, estamos supondo que a taxa de aumento dos salrios-hora em relao
escolaridade (de cerca de 80 centavos de dlar por ano adicional de escolaridade) no varia com o
gnero e raa. Mas pode ser que no seja este o caso. Para testar isso, pode-se incluir coeficientes
diferenciais angulares:
i i i i i i i i i i i
e X D X D X D D D D Y + + + + + + + =
3 3 2 2 1 3 2 4 3 3 2 2 1

MAT02207 Estatstica Econmica Prof. Vanessa Leotti

48
2.15.4 O emprego de variveis binrias em anlises sazonais
Muitos dados econmicos so formados a partir de dados mensais ou trimestrais que
apresentam padres sazonais (movimentos oscilatrios regulares). Exemplos disso so as vendas
das lojas no Natal e em outras pocas, a demanda por passagem areas, etc. Atravs das variveis
binrias, podemos inserir essa informao no modelo.

Exemplo 13. Estudaram-se as vendas trimestrais de geladeiras (Y), em milhares de unidades, no
perodo de 1978 a 1995 nos EUA. Tambm se observou, em cada trimestre, os gastos com bens
durveis (X), em bilhes de dlares. Ajustou-se o seguinte modelo:
05 , 0 05 , 0 05 , 0 05 , 0 05 , 0
7734 , 2 0804 , 86 2643 , 325 4976 , 242 2440 , 456

4 3 2
< > < < < =
+ + + =
p
X D D D Y
i i i i i

onde

=
contrrio caso
j trimestre se
D
j
, 0
, 1
. Interpretar os resultados.













2.15.5 Modelos Log-Lin e Variveis Dummies
J estudamos o modelo log-lin, que so aqueles em que a varivel dependente o logaritmo
natural de Y, e as variveis independentes esto em suas escalas naturais. Nestes modelos, os
coeficientes angulares das variveis independentes, aps serem multiplicados por 100, so
interpretados como variao percentual de Y para uma variao de uma unidade de X.
Pode-se inserir variveis independentes dummies nestes modelos, entretanto, a interpretao
dos coeficientes angulares destas variveis no a mesma. Para se obter a variao percentual de Y
devida a mudana de categorias na varivel dummy, deve-se calcular ( ) 100 exp( ) 1 , onde o
coeficiente angular da varivel dummy.

Exemplo 14. A certo conjunto de dados ajustou-se o modelo de regresso linear mltipla:
ln( ) 2, 9298 0, 0546 0,1341 Y X D = + +
t = (481,524) (48,3356) (27,2250) n = 15

onde Y o salrio inicial de professores universitrios, X so os anos de experincia, e D uma
varivel indicadora do sexo (D = 1 se homem).
Mantendo-se D constante, o salrio dos professores cresce 5,46% a cada ano a mais de
experincia. Mas no se pode dizer que mantendo X constante, o salrio 13,41% maior para
homens em relao a mulheres. Fazendo-se ( ) 100 exp(0,1341) 1 14, 35% = , ou seja, o salrio dos
professores 14,35% maior do que o salrio das professoras.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti

49
Exerccio 8: (ANPEC 2003) O mtodo dos mnimos quadrados ordinrios foi empregado para
estimar o modelo de regresso abaixo, cujo objetivo explicar as variaes de renda entre 526
indivduos:
, 526 , 441 , 0
, 00058 , 0 029 , 0 080 , 0 297 , 0 417 , 0 ) log(
2
2
) 00010 , 0 ( ) 005 , 0 ( ) 007 , 0 ( ) 036 , 0 ( ) 099 , 0 (
= =
+ + + =
n R
u exper exper educ sexo renda

em que sexo uma varivel dicotmica (valor 1, se for homem e 0, caso contrrio), educ o
nmero de anos de escolaridade, exper experincia profissional, tambm medida em anos. Os
nmeros entre parnteses so os erros-padro das estimativas ) 4 ., ,.,.. 1 , 0 ( = i s
i
b
. Com base nos
resultados acima, responda V ou F.
a) um ano a mais de escolaridade, mantidos constantes todos os demais fatores, aumenta em 0,08%
a renda de um indivduo;
b) a significncia conjunta das variveis educ e exper no pode ser medida por meio da estatstica t.
Para isto, o teste F deve ser utilizado;
c) o modelo incapaz de captar diferenas nos retornos da educao entre homens e mulheres;
d) a renda dos homens 29,7% menor que a renda das mulheres.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti

50
3 VIOLAES DAS PREMISSAS DO MODELO DE REGRESSO
3.1 No-normalidade dos resduos

Vimos que os testes de hipteses e intervalos de confiana que estudamos somente podem
ser aplicados supondo-se normalidade aos resduos. Entretanto, essa suposio deve ser verificada,
para se avaliar se essas tcnicas de inferncia podem ser realmente aplicadas ou no.

3.1.1 Deteco

Para fazer a verificao da normalidade dos resduos, trs tcnicas so mais conhecidas:
histograma dos resduos, grfico de probabilidade normal e testes no-paramtricos.

- Histograma dos resduos: Trata-se de um simples grfico que usado para conhecer algo da
forma da funo de densidade de probabilidade de uma varivel aleatria. No eixo horizontal,
dividimos os valores da varivel (no caso, dos resduos) em intervalos adequados e, em cada um,
traamos retngulos cuja altura dada pelo nmero de observaes (isto , sua freqncia) nesse
intervalo de classe. A partir desse grfico, devemos tentar verificar se a forma de sino na Normal se
aproxima da forma encontrada no histograma.

Exemplos de histogramas gerados pelo SPSS:
6,0000000000 4,0000000000 2,0000000000 0,0000000000
resid1
100
80
60
40
20
0
F
r
e
q
u
e
n
c
y

7,0000000000 6,0000000000 5,0000000000 4,0000000000 3,0000000000 2,0000000000 1,0000000000 0,0000000000
resid2
200
150
100
50
0
F
r
e
q
u
e
n
c
y


- Grfico de probabilidade normal: No eixo horizontal, marcamos os valores da varivel que nos
interessam (no caso, os resduos) e no eixo vertical representamos o valor esperado para essa
varivel caso ela fosse normalmente distribuda (no Excel o contrrio). Se a varivel for, de fato,
normalmente distribuda, o grfico tomar a forma de uma reta.

MAT02207 Estatstica Econmica Prof. Vanessa Leotti

51
Exemplos de grficos de probabilidade normal gerados pelo SPSS:

1,0 0,8 0,6 0,4 0,2 0,0
Observed Cum Prob
1,0
0,8
0,6
0,4
0,2
0,0
E
x
p
e
c
t
e
d

C
u
m

P
r
o
b
Normal P-P Plot of resid1

1,0 0,8 0,6 0,4 0,2 0,0
Observed Cum Prob
1,0
0,8
0,6
0,4
0,2
0,0
E
x
p
e
c
t
e
d

C
u
m

P
r
o
b
Normal P-P Plot of resid2



Exemplo de grfico de probabilidade normal gerado pelo Excel:

Plotagem de probabilidade normal
15
17
19
21
23
25
27
29
31
0 20 40 60 80 100
Percentil da amostra
Y


- Testes no-paramtricos: Existem vrios testes utilizados para verificar se um conjunto de dados
normalmente distribudo, e esto disponveis na maioria dos softwares estatsticos. Alguns deles
so: Anderson-Darlin, Qui-quadrado, Jarque-Bera e Kolmogorov-Smirnov. A hiptese nula desses
testes que os dados provm de uma distribuio normal, contra a alternativa de que os dados no
provm de uma distribuio normal.
Ao pedir esses testes no software, devemos observar se o valor-p menor que o nvel de
significncia adotado. Se for, a suposio de normalidade no est satisfeita.

MAT02207 Estatstica Econmica Prof. Vanessa Leotti

52
Exemplo do teste Kolmogorov-Smirnov no SPSS:

One-Sample Kolmogorov-Smirnov Test

resid1 resid2
N
103 103
Mean
2,937384659921 1,048518670813
Normal Parameters(a,b)
Std. Deviation
1,0099431827460 ,9817551636487
Absolute
,057 ,189
Positive
,057 ,189
Most Extreme Differences
Negative
-,036 -,146
Kolmogorov-Smirnov Z ,577
1,917
Asymp. Sig. (2-tailed)
,894 ,001
a Test distribution is Normal.
b Calculated from data.


3.1.2 Conseqncias

J vimos que a premissa de normalidade no essencial se o objetivo for apenas estimar o
modelo. Alm disso, demonstra-se que os estimadores de MQO so os melhores estimadores
lineares no tendenciosos quer os resduos sejam normais quer no.
Entretanto, se os resduos no forem normais, os testes e intervalos de confiana baseados
nas distribuies t, F e Qui-quadrado sero invlidos.
3.1.3 Medidas corretivas

Demonstra-se que, mesmo se os resduos no forem normais, mas forem homocedsticos, os
estimadores de MQO seguem distribuio assintoticamente normal. Ou seja, se a amostra for
grande, os habituais procedimentos de inferncia ainda so vlidos.
Infelizmente, no se tem um consenso sobre quo grande uma amostra deve ser para que a
normalidade assinttica seja vlida. Alguns autores consideram n = 30 como sendo um tamanho de
amostra mnimo satisfatrio.
Quando no se pode aumentar o tamanho da amostra, existe o recurso de proceder
transformaes na varivel Y, como tomar o logaritmo ou a raiz quadrada de Y.

Exemplo 1. Procedeu-se um estudo sobre gastos com pesquisa e desenvolvimento (PD) e as vendas
(V) de 18 setores industriais dos EUA. Ajustou-se o modelo e V PD + + =
2 1
no Excel, os
resultados esto abaixo.

Estatstica de regresso
R-Quadrado 0,478303
R-quadrado ajustado 0,445697
Erro padro 2759,153
Observaes 18

ANOVA
gl SQ MQ F F de significao
Regresso 1 1,12E+08 1,12E+08 14,66916 0,001476
Resduo 16 1,22E+08 7612927
Total 17 2,33E+08
MAT02207 Estatstica Econmica Prof. Vanessa Leotti

53

Coeficientes Erro padro Stat t valor-P 95% inferiores 95% superiores
Interseo 192,9931 990,9858 0,194749 0,848041 -1907,8 2293,789
VENDAS 0,0319 0,008329 3,830033 0,001476 0,014244 0,049557

Teste de Kolmogorov-Smirnov:
valor-p = 0,286

















Ajustou-se tambm o modelo ( ) e V PD + + =
2 1
ln , obtendo-se os seguintes resultados:

Estatstica de regresso
R-Quadrado 0,540983
R-quadrado ajustado 0,512295
Erro padro 1,121648
Observaes 18

ANOVA
gl SQ MQ F F de significao
Regresso 1 23,72403 23,72403 18,85711 0,000504
Resduo 16 20,12951 1,258094
Total 17 43,85353

Coeficientes Erro padro Stat t valor-P 95% inferiores 95% superiores
Interseo 5,790005 0,402854 14,37245 1,45E-10 4,935991 6,644018
VENDAS 1,47E-05 3,39E-06 4,342478 0,000504 7,53E-06 2,19E-05


Teste de Kolmogorov-Smirnov:
valor-p = 0,898
Plotagem de probabilidade normal
0
2000
4000
6000
8000
10000
12000
14000
0 20 40 60 80 100 120
Percentil da amostra
P
D
Plotagem de probabilidade normal
0
2
4
6
8
10
0 20 40 60 80 100 120
Percentil da amostra
L
N
(
P
D
)
MAT02207 Estatstica Econmica Prof. Vanessa Leotti

54
3.2 Multicolinearidade

Uma das premissas do modelo de regresso que: no existe multicolinearidade perfeita,
ou seja, no h relaes lineares perfeitas entre as variveis explicativas. No caso da regresso com
k variveis envolvendo as variveis explanatrias
k
X X X , , ,
2 1
(onde 1
1
= X para todas as
observaes a fim de levar em conta o intercepto), diz-se que existe uma relao linear exata se a
seguinte condio for atendida:

0
2 2 1 1
= + + +
k k
X X X ,

onde os
i
so constantes tais que nem todas so zero simultaneamente.
Entretanto, a multicolinearidade no ocorre apenas com relaes perfeitas, e tambm ocorre
quando as variveis X so intercorrelacionadas, mas de um modo menos que perfeito, como a
seguir:

0
2 2 1 1
= + + + +
i k k
X X X , onde
i
um erro aleatrio.
Assim, suponha que a varivel X
2
possa ser expressa com um alto grau de explicao por
uma composio linear das demais variveis, nesse caso teramos:

i
ki k i i
i
X X X
X

2 2 2
3 3
2
1 1
2
1
=


O que o mesmo que regredir X
2
sobre as demais variveis na forma:

i ki k i i i
u X X X X + + + + + =
3 3 1 2 1 2
.

Como exemplo numrico, vejamos os seguintes dados hipotticos:

X
2
X
3
X
4

10 50 52
15 75 75
18 90 97
24 120 129
30 150 152

Observe que
i i
X X
2 3
5 = , portanto h colinearidade perfeita entre essas duas variveis, e
neste caso o coeficiente de correlao igual a 1. A varivel X
4
foi criada a partir de X
3

simplesmente somando a ele os seguintes nmeros: 2, 0, 7, 9, 2. Assim, no h colinearidade
perfeita entre X
2
e X
4
, mas essas duas variveis esto estreitamente relacionadas j que o coeficiente
de correlao entre elas 0,9959.
Em modelos de regresso do tipo
i
k
i k i i i
e X X X Y + + + + + =
2
2 1 0
, a relao
existente entre as variveis independentes no linear e rigorosamente falando, no viola a
hiptese de ausncia de multicolinearidade. Entretanto, em geral observada uma alta correlao
entre os regressores.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti

55
3.2.1 Conseqncias

1. Se a multicolinearidade perfeita, os coeficientes da regresso so indeterminados e seus
erros-padro so infinitos.

Para exemplificar, seja um modelo de 3 variveis, e as seguintes observaes:

Y X
2
X
3
= X
2

10 2 2
15 3 3
18 4 4
30 4 4
Onde uma constante no nula.
Nesse caso, a matriz
(
(
(

=
45 45 13
45 45 13
13 13 4
'

X X tem determinante:
( ) 0 7605 8100 7605 7605 7605 8100 ' det = + + = X X

e por isso a sua inversa no existe, o que nos impede de estimar o modelo.
H uma razo intuitiva para isto. Lembrando o significado de
2

: ele nos d a taxa de


variao de Y quando X
2
varia uma unidade, mantendo-se X
3
constante. Mas se as duas variveis
independentes foram perfeitamente colineares, no h modo de manter X
3
constante: quando X
2

variar, X
3
tambm o far, a uma taxa de . O que quer dizer, ento, que no h forma de isolar as
influncias das duas variveis na amostra dada.

2. Se a multicolinearidade imperfeita mas alta, os coeficientes podem ser
determinados, e os estimadores MQO ainda possuem a propriedade de melhores
estimadores lineares no-viesados. Entretanto, os estimadores MQO tm grandes
varincias, o que diminui a preciso na estimao.

Seja um modelo de regresso mltipla de 3 variveis. Alm da forma matricial de clculo
das varincias dos estimadores, tambm pode-se ter as seguintes expresses:
( )


=
2
23
2
2
2
2

1
2
r x
i

e
( )


=
2
23
2
3
2
2

1
3
r x
i

.

Assim, percebe-se que, quando
23
r tende (em termos absolutos) a 1, ou seja, quando a
colinearidade entre as variveis X aumenta, as varincias dos dois estimadores aumentam at o
limite, que o infinito.
A velocidade com que as varincias aumentam pode ser mensurada atravs do Fator de
Inflao de Varincia (FIV), definido por:
( )
2
23
1
1
FIV
r
=



Se no h colinearidade, ento FIV = 1, e quanto maior a colinearidade maior o FIV.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti

56
A figura abaixo mostra o quanto as varincias dos estimadores aumentam medida que a
correlao entre as variveis independentes aumenta.




Para um modelo de k variveis, pode-se escrever as varincias dos coeficientes angulares
parciais como:
( )


=
2 2
2
2

1
j j
R x
j

,

onde
2
j
R o coeficiente mltiplo de determinao da regresso de
j
X como varivel dependente e
os outros k 2 X como variveis independentes.
Nesse caso, FIV ser:
( )
2
1
1
j
j
R
FIV

= .

O inverso do FIV conhecido como Tolerncia (TOL).
j
j
FIV
TOL
1
=

3. Por causa da conseqncia 2, os intervalos de confiana tendem a ser bastante amplos,
levando a aceitao de 0 :
0
=
i
H .

4. Tambm por causa da conseqncia 2, os testes t de um ou mais coeficientes tendem a ser
estatisticamente no significativos.

5. Apesar das conseqncias 3 e 4, o R pode ser bastante alto.
Nessas situaes o R pode ser to alto que, com base no teste F, somos levados a rejeio
da hiptese 0 :
3 2 0
= = = =
k
H . Na verdade, esse um dos indcios de multicolinearidade:
valores t insignificantes, mas um alto R e um valor de F significativo.

6. As estimativas dos coeficientes e dos erros-padro podem ser muito sensveis a pequenas
variaes nos dados.

Considere a pequena variao nos dados das duas tabelas a seguir:

MAT02207 Estatstica Econmica Prof. Vanessa Leotti

57
Y
1
X
2
X
3
Y
2
X
2
X
3

1 2 4 1 2 4
2 0 2 2 0 2
3 4 12 3 4 0
4 6 0 4 6 12
5 8 16 5 8 16

Da primeira tabela, obtemos
) 9747 , 0 ( ) 1371 , 0 ( ) 2628 , 0 ( :
) 0851 , 0 ( ) 1848 , 0 ( ) 7737 , 0 ( :
003 , 0 4463 , 0 1939 , 1
3 2 1
p
ep
X X Y + + =


Nesse caso temos tambm que R
2
= 0,8101, r
23
= 0,5523.
Da segunda tabela, temos

) 8491 , 0 ( ) 2781 , 0 ( ) 2469 , 0 ( :
) 1252 , 0 ( ) 2721 , 0 ( ) 7480 , 0 ( :
0270 , 0 4014 , 0 2101 , 1
3 2 2
p
ep
X X Y + + =


sendo observados que R
2
= 0,8143, r
23
= 0,8285.

3.2.2 Deteco

Primeiramente, deve-se ter em mente que a multicolinearidade uma questo de grau, e no
de tipo. A distino significativa no entre a presena e ausncia de multicolinearidade, mas entre
seus vrios graus. Alm disso, ela uma caracterstica da amostra, e no da populao. Portanto,
medimos seu grau em uma amostra especfica.
No h um mtodo nico para detectar multicolinearidade, e sim algumas regras prticas.

1. R alto, mas poucas razes t significativas.
Consideraremos um R alto se for maior que 0,8. Neste caso, o teste F rejeitar, na maioria
das vezes, a hiptese de que os coeficientes parciais angulares so simultaneamente iguais a zero,
mas os testes t individuais mostraro que nenhum ou muito poucos desses coeficientes so
significativamente diferentes de zero.
Este um critrio sensato, mas exigente demais.

2. Altas correlaes entre pares de regressores.
No modelo de 3 variveis, olharemos para
23
r , j no modelo de 4 variveis, para
34 24 23
, , r r r ,
e analogamente para os demais modelos.
Consideraremos a correlao de ordem zero alta se for em mdulo maior que 0,8.
Para o modelo de 3 variveis, esse um bom critrio. Porm, para mais variveis a
correlao alta uma condio suficiente mas no necessria para a multicolinearidade.

3. Exame das correlaes parciais entre regressores.
Seja um modelo de 4 variveis. Se R alto, mas
2
23 . 14
2
24 . 13
2
34 . 12
, , r r r so baixos, isto pode
sugerir que as variveis independentes so estreitamente intercorrelacionadas. Este exame no
infalvel e criticado por vrios autores.

MAT02207 Estatstica Econmica Prof. Vanessa Leotti

58
4. Regresses auxiliares.
Como a multicolinearidade decorre do fato de que um ou mais regressores so combinaes
lineares exatas ou aproximadas de outros regressores, uma forma de verificar qual das variveis X
se relaciona a outras X fazer regresses de cada X
i
contra os demais X e calcular os respectivos R,
que aqui designamos por
2
i
R . Ento, pode-se calcular a estatstica de teste

( )
( ) ( )
( ) 1 ; 2 2
2
~
1 / 1
2 /
+
+

=
k n k
i
i
i
F
k n R
k R
F

Onde k o nmero de variveis do modelo com o Y.
Se o F calculado for maior que o tabelado, considera-se que X
i
colinear em relao aos
outros X. Ento se ter que fazer algo para corrigir a multicolinearidade.
Em lugar de testar formalmente as regresses auxiliares, pode-se adotar a Regra prtica de
Klein: a multicolinearidade s ser problema srio se todos os
2
i
R forem maiores que o R geral,
isto , aquele obtido na regresso entre o Y e todos os X.

5. ndice condicional.
Atravs de lgebra matricial, definiu-se o ndice condicional (IC), que vem sendo muito
utilizado para diagnosticar a multicolinearidade. Ele calculado pela maioria dos softwares
estatsticos, como o SPSS. sempre um nmero positivo, e interpretado da seguinte forma: se for
menor que 10, a multicolinearidade no preocupante; se estiver entre 10 e 30, moderada a forte;
se for maior que 30, ser grave.

6. Tolerncia e fator de inflao de varincia.
J vimos o FIV e a TOL. Quanto maior o FIV, e por conseqncia, menor a TOL, maior a
multicolinearidade. Como regra prtica, se o FIV de uma varivel for maior que 10, o que acontece
se 9 , 0
2
>
i
R , diz-se que essa varivel altamente colinear.

Exemplo 2. Considere uma regresso do consumo (Y) em funo da renda (X
2
) e riqueza (X
3
), com
os dados abaixo:

Y X2 X3
70 80 810
65 100 1009
90 120 1273
95 140 1425
110 160 1633
115 180 1876
120 200 2052
140 220 2201
155 240 2435
150 260 2686

Atravs do Excel, obtemos os seguintes resultados:

Estatstica de regresso
R mltiplo 0,98158
R-Quadrado 0,96350
R-quadrado ajustado 0,95308
Erro padro 6,80804
Observaes 10
Y X2 X3
Y 1
X2 0,98085 1
X3 0,97810 0,99896 1

ANOVA
gl SQ MQ F F de significao
Regresso 2 8565,55407 4282,77704 92,40196 0,00001
Resduo 7 324,44593 46,34942
Total 9 8890,00000

Coeficientes Erro padro Stat t valor-P 95% inferiores 95% superiores
Interseo 24,77473 6,75250 3,66897 0,00798 8,80761 40,74186
X2 0,94154 0,82290 1,14417 0,29016 -1,00431 2,88738
X3 -0,04243 0,08066 -0,52606 0,61509 -0,23318 0,14831

Tambm interessante observamos o resultado das regresses entre Y e cada um dos X
separadamente:

- Regresso entre Y e X
2


Estatstica de regresso
R-Quadrado 0,96206
R-quadrado ajustado 0,95732

Coeficientes Erro padro Stat t valor-P 95% inferiores 95% superiores
Interseo 24,45455 6,41382 3,81279 0,00514 9,66426 39,24483
X2 0,50909 0,03574 14,24317 0,00000 0,42667 0,59151

- Regresso entre Y e X
3


Estatstica de regresso
R-Quadrado 0,95668
R-quadrado ajustado 0,95126

Coeficientes Erro padro Stat t valor-P 95% inferiores 95% superiores
Interseo 24,41104 6,87410 3,55116 0,00750 8,55935 40,26274
X3 0,04976 0,00374 13,29166 0,00000 0,04113 0,05840

Por ltimo, temos a regresso auxiliar entre X
2
e X
3
:

Estatstica de regresso
R-Quadrado 0,99793
R-quadrado ajustado 0,99767

Coeficientes Erro padro Stat t valor-P 95% inferiores 95% superiores
Interseo -0,38627 2,89796 -0,13329 0,89726 -7,06897 6,29643
X3 0,09792 0,00158 62,04047 0,00000 0,09428 0,10156

Fazer o teste F para verificar se as variveis independentes so colineares, a um nvel de 5%
de significncia. Calcular FIV, TOL, e com base em todos os indcios, concluir sobre
multicolinearidade.





MAT02207 Estatstica Econmica Prof. Vanessa Leotti

60
Obs: Sada do SPSS para o mesmo Exemplo
Model Summary
,982
a
,964 ,953 6,80804
Model
1
R R Square
Adjusted
R Square
Std. Error of
the Estimate
Predictors: (Constant), X3, X2
a.

ANOVA
b
8565,554 2 4282,777 92,402 ,000
a
324,446 7 46,349
8890,000 9
Regression
Residual
Total
Model
1
Sum of
Squares df Mean Square F Sig.
Predictors: (Constant), X3, X2
a.
Dependent Variable: Y
b.

Coefficients
a
24,775 6,752 3,669 ,008
,942 ,823 1,814 1,144 ,290 ,002 482,128
-,042 ,081 -,834 -,526 ,615 ,002 482,128
(Constant)
X2
X3
Model
1
B Std. Error
Unstandardized
Coefficients
Beta
Standardized
Coefficients
t Sig. Tolerance VIF
Collinearity Statistics
Dependent Variable: Y
a.

Collinearity Diagnostics
a
2,930 1,000 ,01 ,00 ,00
,070 6,483 ,98 ,00 ,00
,000 166,245 ,00 1,00 1,00
Dimension
1
2
3
Model
1
Eigenvalue
Condition
Index (Constant) X2 X3
Variance Proportions
Dependent Variable: Y
a.


3.2.3 Medidas corretivas

1. Utilizao de informaes a priori.
Seja o exemplo do consumo versus renda e riqueza. Imagine que saibamos a priori que

3
=

0,1
2
, ou seja, que a taxa de variao do consumo em relao riqueza um dcimo da taxa
correspondente em relao renda. Ento podemos calcular a seguinte regresso:
e X e X X Y + + = + + + =
2 1 3 2 2 2 1
1 , 0 , onde
3 2
1 , 0 X X X + =

A informao a priori pode vir de trabalhos anteriores nos quais o problema de colinearidade
menos grave ou da teoria do campo de estudo.

2. Combinao de dados de corte transversal e sries temporais.
Corte transversal = pesquisa feita em um nico momento do tempo.
Sries temporais = dados so coletados em momentos diferentes no tempo.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti

61
Imagine que dispomos de uma srie temporal do n de carros vendidos (Y), seus preos
mdios (P) e a renda dos consumidores (R). Sabe-se que preo e renda tendem a registrar alta
colinearidade, nas sries temporais. Seja tambm o modelo: e R P Y + + + =
3 2 1
.
Se em determinado momento, se fizer uma pesquisa relacionando consumo e renda, pode-se
chegar a uma estimativa bastante confivel de
3
, pois os preos estaro praticamente constantes.
Com essa estimativa, reescreve-se o modelo como:
e P Y + + =
2 1
*
,
Onde R Y Y
3
*

= , isto , Y* Y sem o efeito da renda.



3. Excluir variveis.
Deve-se tomar o cuidado para no cair em um vis de especificao, que decorre da
especificao incorreta do modelo empregado. As conseqncias do vis de especificao so que
as estimativas de MQO se tornam viesadas.

4. Transformao de variveis.
Seja uma srie temporal do consumo versus renda e riqueza:
t t t t
e X X Y + + + =
3 3 2 2 1


Ao longo do tempo, renda e riqueza tendem a evoluir na mesma direo, ocasionando
multicolinearidade. Pode-se ento tomar a primeira diferena:
( ) ( )
t t t t t t t
u X X X X Y Y + + + =
1 , 3 3 3 1 , 2 2 2 1 1


Essa transformao normalmente resolve a multicolinearidade, mas pode gerar
autocorrelao dos resduos. Alm disso, perde-se uma observao.
Outra transformao usada na prtica a transformao proporcional. Seja uma srie
temporal entre consumo (Y), PNB (X
2
) e populao (X
3
):
t t t t
e X X Y + + + =
3 3 2 2 1


Em geral PNB e populao crescem ao longo do tempo, gerando multicolinearidade. Pode-
se expressar esse modelo em termos per capita:
t
t
t
t
t t
t
X
e
X
X
X X
Y
3
3
3
2
2
3
1
3
1
+ + +
|
|

\
|
=

A desvantagem dessa transformao que ela pode gerar heteroscedasticidade.

5. Dados novos.
Ou seja, aumentar o tamanho da amostra. Deve-se cuidar se a conjuntura econmica no se
modificou.

6. Regresses polinomiais.
Exemplo:
i i i i
e X X Y + + + =
2
2 1 0
.
Pode-se ajustar o modelo: ( ) ( )
i i i i
e X X X X Y + + + =
2
2 1 0
.
Ao subtrair a mdia, geralmente a multicolinearidade reduz.

7. Outras tcnicas.
H muitas outras tcnicas sugeridas e ainda sendo pesquisadas para resolver
multicolinearidade, como anlise fatorial e regresso de cumeeira.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti

62
Exerccio 1. Foi feito um estudo com 20 mulheres saudveis relacionando quantidade de gordura
corporal (Y), com medidas do trceps (X1), circunferncia da coxa (X2) e circunferncia do
antebrao (X3). A regresso resultou nos seguintes resultados:

Estatstica de regresso
R-Quadrado 0,801359
Observaes 20

ANOVA
gl SQ MQ F
F de
significao
Regresso 3 396,9846 132,3282 21,51571 7,34E-06
Resduo 16 98,40489 6,150306
Total 19 495,3895

Coeficientes
Erro
padro Stat t valor-P 95% inferiores
95%
superiores
Interseo 117,0847 99,7824 1,1734 0,257808 -94,4445 328,6139
X1 4,334092 3,015511 1,437266 0,169911 -2,05851 10,72669
X2 -2,85685 2,582015 -1,10644 0,284894 -8,33048 2,61678
X3 -2,18606 1,595499 -1,37014 0,189563 -5,56837 1,196247

Correlaes simples:
X1 X2 X3
X1 1
X2 0,923843 1
X3 0,457777 0,084667 1

Regresses auxiliares:
Varivel dependente R
j

X1 0,9986
X2 0,9982
X3 0,9904

H indcios de que a multicolinearidade afeta esses dados? Se sim, como poderia ser corrigido?
MAT02207 Estatstica Econmica Prof. Vanessa Leotti

63
3.3 Heterocedasticidade

Uma das premissas do modelo de regresso linear clssico a de que os termos de erro
i
e
da FRP sejam homocedsticos; isto , devem ter todos a mesma varincia. Simbolicamente:
Homocedasticidade: ( ) i e Var
i
= ,
2

Heterocedasticidade: ( )
2
i i
e Var =

Graficamente, temos:










Essa caracterstica pode ser observada em diversos tipos de dados, por exemplo: a
variabilidade do nmero de erros de digitao que um operador comete tende a diminuir com o
passar do tempo; a variabilidade dos valores depositados numa conta poupana tende a aumentar
com o aumento da renda dos clientes; presena de outliers (valores discrepantes).






Seja um modelo de regresso simples:
i i i
e X Y + + =
2 1
. Se a heterocedasticidade estiver
presente, o estimador de MQO de
2
continuar sendo:

=
2 2

x
xy


mas agora a sua varincia dada por:

=
2
2 2
2

2
i
i i
x
x



ao invs da expresso na presena da homocedasticidade:

=
2
2
2

2
x

.

Estudamos que, na presena de homocedasticidade, o estimador de MQO o melhor
estimador linear no-tendencioso. Pode-se demonstrar que, na presena e heteroscedasticidade, o
estimador de MQO ainda linear e no-tendencioso. Alm disso, consitente e segue distribuio
normal assinttica. Mas o melhor estimador, isto , possui a varincia mnima dentre todos os
estimadores no-tendenciosos? A resposta no e a justificativa dada a seguir.

MAT02207 Estatstica Econmica Prof. Vanessa Leotti

64
3.3.1 Mtodo dos Mnimos Quadrados Generalizados (MQG)

Seja o modelo de duas variveis:
i i i
e X Y + + =
2 1
, que escreveremos como:
i i i i
e X X Y + + =
2 0 1
,

Onde 1
0
=
i
X para todas as observaes.
Supondo que as varincias heterocedsticas
2
i
so conhecidas, divindo a expresso acima
por elas, obtemos:
i
i
i
i
i
i
i
i
e X X Y

+ + =
2
0
1
,
* * *
2
*
0
*
1
*
i i i i
e X X Y + + =

Obs: A notao
*
i
usada apenas para diferenciar os parmetros do modelo transformado
dos parmetros de MQO,
i
.

Neste modelo transformado, tem-se que:
( ) [ ] ( ) [ ] ( ) 1
1 1
2
2
2
2
2
2
* *
= = =
|
|

\
|
(

= =
i
i
i
i i
i
i i
e E
e
E e E e Var



Ou seja, a varincia dos resduos do modelo transformado uma constante, o que implica que o
modelo homocedstico. Assim, se aplicarmos MQO ao modelo transformado, ele gerar
estimadores que so os melhores estimadores lineares no tendenciosos. Por isso os estimadores de
MQO no modelo original no so os melhores, e sim os estimadores de MQO do modelo
transformado.
O MQG so os MQO aplicados a variveis transformadas que satisfazem as premissas do
modelo clssico.
Para obter os estimadores de MQG, minimizamos ( )

2
*
i
e , obtendo-se:
( )( ) ( )( )
( )( ) ( )
2
2
*
2

=
i i i i i
i i i i
i
i i i
X X
Y X Y X




e sua varincia :
( )
( )
( )( ) ( )
2
2
*
2

=
i i i i i
i
X X
Var



onde,
2
1
i i
= . Ou seja, no MQG o peso de cada observao inversamente proporcional sua
varincia.
3.3.2 Conseqncias

- Se determinado problema afetado pela heterocedasticidade, e ignoramos esse fato,
continuando a utilizar o MQO tradicional, ento as varincias dos estimadores vo ser viesadas. Em
conseqncia, todas as concluses ou inferncias que podemos fazer com base nos testes de
hipteses e intervalos de confiana podem ser enganosas.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti

65
- Se usarmos as frmulas de MQO que consideram a heterocedasticidade, o estimador no
ser o melhor estimador que poderia ser utilizado, pois o melhor o MQG. Ou seja, a varincia do
MQO que considera a heteroscedasticidade maior que a do MQG. Assim, os testes de hipteses e
intervalos de confiana nos daro resultados inexatos, e o que parece ser estatisticamente
insignificante, pode na verdade ser significante.

3.3.3 Deteco

H mtodos formais e informais para detectar a heterocedasticidade. No h regras firmes e
prontas, e sim, apenas algumas regras prticas.

- Mtodo grfico:
Faz-se um grfico de disperso entre Y

e e . Se no for observado algum padro


sistemtico, ento se pode assumir que no h heterocedasticidade:








Caso contrrio, h indcios de heterocedasticidade:







Pode-se fazer tambm grficos entre cada varivel X e os resduos. A maneira de concluir
sobre a heterocedasticidade a mesma.

- Teste de Goldfeld-Quandt:
Esse mtodo formal aplicvel quando se pressupe que
2
i
se relaciona positivamente
com uma das variveis explicativas. Seja o modelo
i i i
e X Y + + =
2 1
, e imagine que:
2 2 2
i i
X = ,
onde
2
uma constante. Ou seja,
2
i
porporcional ao quadrado da varivel X.
Esse mtodo consiste nas seguintes etapas:
1. Ordenar as observaes de forma crescente de acordo com os valores X
i
;
2. Omitir as c observaes centrais e dividir as (n-c) observaes em dois grupos;
3. Ajustar duas regresses, uma para cada grupo de (n-c)/2 observaes, e obter SQR
1
e
SQR
2
. A primeira dessas somas corresponde ao grupo de valores menores X
i
, e a
segunda de valores maiores. Cada uma dessas somas tem (n-c-2k)/2 gl;
4. Calcular a estatstica de teste:

( ) ( )
gl
k c n k c n
F
gl SQR
gl SQR
F
calc
|

\
|
=
2
2
;
2
2
~
/
/
1
2


MAT02207 Estatstica Econmica Prof. Vanessa Leotti

66
As hipteses desse teste so:

=
) ( :
) ( :
2 1 1
2 1 0
sticidade heteroceda SQR SQR H
icidade homocedast SQR SQR H

Rejeita-se H
0
se F
calc
> F
tab
.

A escolha do valor c muito importante para o bom desempenho do teste. Os autores do
teste sugerem que c=8 se n for em torno de 30, e de 16 se n=60, para modelos de 2 variveis. Mas
outro autor sugere que c=4 se n=30 e c=10 se n=60 so valores satisfatrios na prtica.
No caso de modelos de 3 variveis ou mais, deve-se escolher qualquer uma das variveis X
para fazer a ordenao da primeira etapa.

Exemplo 3. Sejam as despesas de consumo (Y) e a renda (X) de 30 famlias. A anlise desses dados
pelo Excel forneceu os seguintes resultados:

RESUMO DOS RESULTADOS

Estatstica de regresso
R-Quadrado 0,9466
R-quadrado ajustado 0,9447
Erro padro 9,1830
Observaes 30

Coeficientes Erro padro Stat t valor-P 95% inferiores 95% superiores
Interseo 9,2903 5,2314 1,7759 0,0866 -1,4257 20,0063
X 0,6378 0,0286 22,2872 0,0000 0,5792 0,6964

X Plotagem de resduos
-30
-20
-10
0
10
20
30
0 100 200 300
X
R
e
s

d
u
o
s


Aps ordenar as observaes, ajustou-se um modelo para as primeiras 13 observaes,
obtendo-se: SQR = 377,17. J para as 13 ltimas observaes, obteve-se SQR = 1536,8.

Proceda o teste de Goldfeld-Quandt, a 1%, e com base em todos os indcios apresentados,
conclua sobre heterocedasticidade.

MAT02207 Estatstica Econmica Prof. Vanessa Leotti

67
Exerccio 2. Voc dispe dos seguintes dados: SQR
1
baseada nas primeiras 30 observaes = 55 e
gl = 25. SQR
2
baseada nas 30 ltimas observaes = 140 e gl = 25. Realize o teste de
heteroscedasticidade de Goldfeldt-Quandt em nvel de significncia de 5%.

















- Teste geral de heterocedasticidade de White:
O teste de White pressupe que as varincias dos resduos se relacionam funcionalmente aos
regressores, aos seus quadrados ou a seus produtos cruzados.
Seja o modelo de 3 variveis:
i i i i
e X X Y + + + =
3 3 2 2 1
.
O teste de White conduzido do seguinte modo:
1. Com os dados pertinentes, estimar o modelo acima e obter os resduos estimados,
i
e .
2. Calcular a seguinte regresso (auxiliar):
( )
i i i i i i i i
u X X X X X X e + + + + + + =
3 2 6
2
3 5
2
2 4 3 3 2 2 1
2

Isto , uma regresso dos quadrados dos resduos da regresso original contra os regressores
X originais, seus quadrados e seus produtos cruzados. Para um modelo de k variveis, anlogo.
3. Obter o R da regresso anterior, e calcular a estatstica de teste
2
nR W = , onde n o
tamanho de amostra. Demonstra-se que
2
~
gl
W assintoticamente, onde gl = n de regressores
(excluindo o intercepto) da regresso auxiliar.
4. Se o valor de
2
;

gl
W > , conclui-se que h heterocedasticidade. Caso contrrio, no h
heterocedasticidade.

Exemplo 4. Sejam os dados de consumo e renda para as 30 famlias. Para fazer o teste de White,
ajustou-se o seguinte modelo:
( )
i i i i
u X X e + + + =
2
3 2 1
2

obtendo-se um R de 0,1777. Conduza o teste de White para heterocedasticidade, a 5% de
significncia.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti

68
3.3.4 Medidas corretivas

H duas abordagens para a correo: quando os
2
i
so conhecidos e quando no so.

- Quando
2
i
so conhecidos MQG:
J vimos que, quando
2
i
so conhecidos, pode-se aplicar o mtodo dos mnimos quadrados
generalizados, pois os estimadores assim obtidos so os melhores estimadores lineares no
tendenciosos.

Exemplo 5. Imagine que desejamos estudar a relao entre remunerao mdia por empregado (Y)
e o tamanho da empresa (X), medido atravs das classes de n de empregados: 1 (1 a 4
empregados), ..., 9 (1000 a 2499 empregados).
Os dados esto abaixo:

Y X i

i i i
Y Y =
*

i i
X 1
*
0
=
i i i
X X =
*

3396 1 743,7 4,5664 0,0013 0,0013
3787 2 851,4 4,4480 0,0012 0,0023
4013 3 727,8 5,5139 0,0014 0,0041
4104 4 805,06 5,0978 0,0012 0,0050
4146 5 929,9 4,4585 0,0011 0,0054
4241 6 1080,6 3,9247 0,0009 0,0056
4387 7 1243,2 3,5288 0,0008 0,0056
4538 8 1307,7 3,4702 0,0008 0,0061
4834 9 1112,5 4,3452 0,0009 0,0081

Para se ajustar o modelo
i i i
e X Y + + =
2 1
por MQG, deve-se fazer
* * *
2
*
0
*
1
*
i i i i
e X X Y + + = ,

que um modelo de 3 variveis mas sem intercepto. Os resultados do Excel so:

RESUMO DOS RESULTADOS

Estatstica de regresso
R-Quadrado 0,999276
Erro padro 0,134811
Observaes 9

Coeficientes Erro padro Stat t valor-P 95% inferiores 95% superiores
Interseo 0 #N/D #N/D #N/D #N/D #N/D
X0* 3408,259 80,77021 42,19698 1,1E-09 3217,267 3599,25
X* 153,5922 16,91468 9,080406 4,03E-05 113,5953 193,589

MAT02207 Estatstica Econmica Prof. Vanessa Leotti

69
- Quando
2
i
no so conhecidos:

1) Tranformaes: A partir de alguns pressupostos sobre o padro de heterocedasticidade, pode-se
transformar o modelo para corrigir o problema.

Seja o modelo:
i i i
e X Y + + =
2 1
:

a) Quando a varincia do erro proporcional a X (
2 2 2
i i
X = ), divide-se todo o modelo por X:

i
i i
i
i i
i
u
X X
e
X X
Y
+ + = + + =
2 1 2
1
1



Assim, ( ) [ ] ( )
2
2
2
2
1
= =
|
|

\
|
(

=
i
i i
i
i
e E
X X
e
E u Var , ou seja, tem-se homocedasticidade.

Para voltar ao modelo original, basta multiplicar a equao estimada por X.

b) Quando a varincia do erro proporcional a X (
i i
X
2 2
= ), divide-se todo o modelo por X :

i i
i i
i
i
i i
i
u X
X X
e
X
X X
Y
+ + = + + =
2 1 2
1
1



Assim, ( ) [ ] ( )
2
2
2
1
= =
|
|
|

\
|
(
(

=
i
i i
i
i
e E
X X
e
E u Var .

Essa transformao s pode ser utilizada se os valores de X forem positivos. Observe que o
modelo transformado no tem intercepto. Para voltar ao modelo original, deve-se multiplicar por
X .

c) Em geral, ajustar um modelo log-log ( ) ( )
i i i
e X Y + + = ln ln
2 1
ao invs das variveis em suas
escalas originais, reduz a heterocedasticidade.


2) Estimadores robustos: H tambm estimadores modificados disponveis em alguns pacotes
estatsticos que corrigem para a heterocedasticidade, desenvolvidos por White. Entretanto, s pode
ser utilizados para amostras grandes.



MAT02207 Estatstica Econmica Prof. Vanessa Leotti

70
Exerccio 3. Sejam os dados de gastos com pesquisa e desenvolvimento e as vendas, trabalhado na
seo de no-normalidade. Alguns resultados adicionais esto produzidos:

Regresso com as 7 primeiras observaes: SQR
1
= 412586
Regresso com as 7 ltimas observaes: SQR
2
= 97356910

Regresso auxiliar para teste de White: R = 0,2896

V Plotagem de resduos
-8000
-6000
-4000
-2000
0
2000
4000
6000
8000
10000
0
5
0
0
0
0
1
0
0
0
0
0
1
5
0
0
0
0
2
0
0
0
0
0
2
5
0
0
0
0
3
0
0
0
0
0
V
R
e
s

d
u
o
s


Verifique se a heterocedasticidade afeta esse problema e, caso afirmativo, indique qual seria o
mtodo de correo mais indicado.

MAT02207 Estatstica Econmica Prof. Vanessa Leotti

71
3.4 Autocorrelao

Uma das premissas do modelo clssico de regresso era:
( ) j i e e E
j i
= , 0 .

Dito de forma simples, o modelo clssico pressupe que o termo de erro relacionado a
qualquer das observaes no influenciado pelo termo de erro de qualquer outra observao.
Quando h autocorrelao, ento:
( ) j i e e E
j i
, 0

H dois tipos de autocorrelao: no tempo (em dados de sries temporais) e no espao (em
dados de corte transversal), embora ela seja mais comum no primeiro caso. Exemplos: observando-
se ndices de preos de aes diariamente, no raro verificar que esses ndices sobem ou descem
por vrios dias seguidos (autocorrelao no tempo); ao regredir despesas de consumo com renda das
famlias, o aumento de despesa de consumo de uma famlia pode levar a vizinha a aumentar o
consumo tambm, para no ficar para trs (autocorrelao no espao).
Os grficos abaixo apresentam alguns padres plausveis de presena e de ausncia de
autocorrelao serial:

















Alm de ser classificada como no tempo e no espao, a autocorrelao tambm pode ser
positiva ou negativa. A autocorrelao positiva se caracteriza quando os resduos evoluem para
cima ou para baixo durante longos perodos, j na negativa, h oscilaes constantes. Os grficos a
seguir ilustram os dois processos.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti

72
Para avaliar os efeitos da autocorrelao no modelo de regresso, voltemos novamente ao
modelo de duas variveis:
t t t
e X Y + + =
2 1
.

O subscrito t est sendo usado para destacar que estamos lidando com sries temporais.
Para avanar, precisamos imaginar o mecanismo que gera
t
e . Como ponto de partida,
podemos supor que o termo de erro seja gerado pelo seguinte mecanismo:
t t t
u e e + =
1
, com 1 1 < < ,

Onde conhecido como coeficiente de autocorrelao, e
t
u o termo de erro que atende as
premissas clssicas de um modelo de regresso (mdia zero, homocedasticidade e independncia).
Na linguagem de sries temporais,
t
u geralmente chamado de rudo branco.
O esquema anterior conhecido como esquema auto-regressivo de primeira ordem de
Markov AR(1). A denominao auto-regressivo usada porque o esquema pode ser interpretado
como uma regresso de
t
e contra ele mesmo com defasagem de um perodo. de primeira ordem
porque apenas o resduo do perodo anterior influencia no resduo atual. Poderia-se ter esquemas
AR(2), AR(3) e assim por diante.
Na presena da autocorrelao de primeira ordem, o estimador de MQO de
2
, como de
hbito, :

=
2
2

t
t t
x
y x


Mas sua varincia :
( )
(
(

+ + + + =


2
1 1
2
2 2
2
1
2
2
1 2
2 2 2 1

t
n n
t
t t
t
t t
t
AR
x
x x
x
x x
x
x x
x
Var



Lembrando que, no modelo tradicional essa varincia era:
( )

=
2
2
2

t
x
Var



Percebe-se que a primeira igual a segunda multiplicada por um termo que depende de .
Obviamente, se 0 = , as duas coincidem.
Imagine que continuamos a empregar o estimador de MQO,
2

, e que ajustamos a varincia


habitual levando em conta o esquema AR(1). Quais so, agora, as propriedades de
2

? Pode-se
demonstrar que ele ainda linear e no tendencioso. Tambm consistente e com distribuio
normal assinttica. Entretanto, ele no mais o MELNT (no eficiente), assim como na
heterocedasticidade.
Para encontrar o MELNT na presena de autocorrelao, devemos novamente recorrer ao
MQG. Continuando com o modelo de duas variveis, e admitindo o processo AR(1), podemos
mostrar que o MELNT dado pela expresso:
( )( )
( )
1 1
2
2
2
1
2

n
t t t t
MQG
t
n
t t
t
x x y y
C
x x

=

= +


Em que C um fator de correo que, na prtica, pode ser desconsiderado.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti

73
Esse estimador possui varincia mnima, a qual dada por:
( )
( )
2
2
2
1
2

MQG
n
t t
t
Var D
x x

=
= +



Em que D tambm um fator de correo que pode ser desconsiderado.

3.4.1 Conseqncias

- Se determinado problema afetado pela autocorrelao, e ignoramos esse fato,
continuando a utilizar o MQO tradicional, ento:
1. A varincia residual provavelmente subestimar o verdadeiro
2
.
2. Em conseqncia, R ser superestimado.
3. Mesmo que
2
no seja subestimado, ( )
2

Var pode subestimar ( )


1 2

AR
Var .
4. Portanto, os habituais testes de significncia, no sero mais vlidos e provavelmente nos
levaro a concluses extremamente equivocadas quanto significncia dos coeficientes.

- Se usarmos as frmulas de MQO que consideram a presena de autocorrelao, o
estimador no ser o melhor estimador que poderia ser utilizado, pois o melhor o MQG. Ou seja, a
varincia do MQO que considera a autocorrelao maior que a do MQG. Assim, os testes de
hipteses e intervalos de confiana nos daro resultados inexatos, e o que parece ser
estatisticamente insignificante, pode na verdade ser significante.

3.4.2 Deteco

- Mtodo grfico:
1. Plotagem seqencial no tempo: Faz-se um grfico de disperso com o tempo ou n da
observao do eixo X e os resduos no eixo Y. Se observar que os resduos seguem algum padro
no-aleatrio, h indcios de autocorrelao.










2. Plotar
t
e versus
1 t
e : Ou seja, os resduos no perodo t contra seu valor em t-1. Se houver
autocorrelao, observaremos padres como estes:






MAT02207 Estatstica Econmica Prof. Vanessa Leotti

74
- O teste de Durbin-Watson:
Esse teste muito popular e j est incorporado na maioria dos pacotes estatsticos, como o
SPSS. A estatstica d de Durbin-Watson definida por:
( )

=
=

=
n
t
t
n
t
t t
e
e e
d
1
2
2
2
1




importante estar atento s premissas subjacentes desse teste:
a) O modelo possui intercepto. Se no possuir deve-se refazer a regresso incluindo o mesmo.
b) Os regressores so fixos em amostragem repetida (no-aleatrios);
c) Os termos de erro so gerados pelo esquema AR(1);
d) Os resduos seguem distribuio Normal;
e) O modelo no inclui valores defasados da varivel independente como uma das variveis
explanatrias;
f) No h observaes faltantes.
Seja o estimador do coeficiente de autocorrelao:

=
=

=
n
t
t
n
t
t t
e
e e
1
2
2
1


. Demonstra-se que:
( ) 1 2 d . Logo: 4 0 d , pois 1 1 + .

Os procedimentos para a execuo do teste de Durbin-Watson so:
1.Rodar a regresso por MQO e obter os resduos estimados;
2.Calcular a estatstica d;
3.Anotar os valores crticos d
L
e d
U
(Tabela D) baseado no nmero de observaes (n), no
nmero de regressores (k = k-1) e no nvel de significncia;
4.Decidir conforme a tabela abaixo:
Hiptese nula Deciso Se
Ausncia de autocorrelao positiva Rejeitar
L
d d < < 0
Ausncia de autocorrelao positiva Sem deciso
U L
d d d
Ausncia de autocorrelao negativa Rejeitar
4 4 < < d d
L

Ausncia de autocorrelao negativa Sem deciso
L U
d d d 4 4
Ausncia de autocorrelao positiva ou negativa No rejeitar
U U
d d d < < 4

A figura a seguir ilustra as regies de rejeio, aceitao e indeciso do teste:

MAT02207 Estatstica Econmica Prof. Vanessa Leotti

75
Caso a estatstica do teste seja encontrada em alguma das regies de indeciso, pode-se
recorrer ao teste d modificado. Dado o nvel de significncia :

1. 0 :
0
= H versus 0 :
1
> H . Rejeita-se
0
H ao nvel se
U
d d < . Isto , h autocorrelao
positiva estatisticamente significativa.
2. 0 :
0
= H versus 0 :
1
< H . Rejeita-se
0
H ao nvel se ( )
U
d d < 4 . Isto , h autocorrelao
negativa estatisticamente significativa.
3. 0 :
0
= H versus 0 :
1
H . Rejeita-se
0
H ao nvel 2 se
U
d d < ou se ( )
U
d d < 4 . Isto , h
autocorrelao, seja positiva ou negativa, estatisticamente significativa.

Exemplo 6. Tm-se dados relativos a ndices de remunerao real por hora (Y) e produo por hora
(X), anualmente, no perodo de 1959 a 1998 nos EUA (n=40). A anlise no Excel forneceu:

Resduos x Ano
-6
-4
-2
0
2
4
6
0 10 20 30 40 50
Nda observao (ano)
R
e
s

d
u
o
s


Resduos t x Resduos t-1
-6
-4
-2
0
2
4
6
-6 -4 -2 0 2 4 6
Resduo t-1
R
e
s

d
u
o

t


A estatstica d de Durbin-Watson foi igual a 0,1229. Testar, a 5% de significncia, se existe
autocorrelao e, com base em todos os indcios, concluir se esse problema afeta esses dados.
MAT02207 Estatstica Econmica Prof. Vanessa Leotti

76
Exemplo 7. Seja um problema com n = 50, 4 variveis regressoras e d = 1,43. A 5% de
significncia, teste se existe autocorrelao positiva.









Exerccio 4. Considere um conjunto de dados com 32 observaes, com o qual se ajustou um
MRLS e obteve-se d = 0,1380. Teste a 5% de significncia de a autocorrelao afeta esse problema.











3.4.3 Medidas corretivas

1. Primeiro, deve-se tentar verificar se se trata de uma autocorrelao pura, e no de um
erro de especificao do modelo. s vezes, observamos padres nos resduos porque o modelo foi
especificado de forma equivocada isto , foram excludas algumas variveis importantes ou
porque sua forma funcional incorreta.

2. Se se tratar de autocorrelao pura, e for conhecido, utiliza-se MQG. Seja o modelo de
duas variveis:
t t t
e X Y + + =
2 1


O mesmo modelo, mas no perodo t-1 :
1 1 2 1 1
+ + =
t t t
e X Y . Multiplicando-se por em
ambos os lados obtm-se:
1 1 2 1 1
+ + =
t t t
e X Y , e subtraindo-se do modelo original:
( ) ( ) ( ) ( )
( ) ( )
t t t
t t t t t t
u X X
e e X X Y Y
+ + =
+ + =


1 2 1
1 1 2 1 1
1
1




Fazendo-se ( )
1
*

=
t t t
Y Y Y , ( ) = 1
1
*
1
, ( )
1
*

=
t t t
X X X e
2
*
2
= , pode-se estimar
. MQO por ,
* *
2
*
1
*
t t t
u X Y + + =

Esta regresso conhecida como a equao em diferenas generalizadas. Nesse processo de
obteno das diferenas, sempre perdemos a primeira observao.

3. Se se tratar de autocorrelao pura, e no for conhecido, deve-se usar tcnicas de sries
temporais.

Vous aimerez peut-être aussi