Vous êtes sur la page 1sur 9

Aulas 3 e 4- Interpretação sobre a Retirada da Tendência de Regressões com a Inclusão de

uma Tendência Temporal

A inclusão de uma tendência temporal em um modelo de regressão cria uma interpretação


interessante em termos da retirada da tendência da série de dados originais antes de usá-los na
análise de regressão. Quando regredimos yt sobre xt1, xt2 e t obtemos a equação estimada:

yˆ t   0  1 xt1   2 xt 2   3t

Uma interpretação do MQO pode ser obtida da seguinte maneira:

(i) computamos a regressão de yt, xt1 e xt2 sobre uma constante e a tendência temporal t e
guardamos os resíduos, digamos yt , xt1 , xt 2 . Por exemplo:

yt  yt   0  1t

Assim podemos pensar em yt como uma variável cuja tendência foi excluída linearmente. Para
retirarmos a tendência de yt, estimamos o modelo pelo MQO:

yt   0  1t  et

Os resíduos dessa regressão, et  yt tiveram removida a tendência temporal. Uma


interpretação semelhante é possível para xt1 e xt 2 .

(ii) computamos a regressão de yt sobre xt1 e xt 2 . Esta regressão produzirá com exatidão β1
e β2. Isso significa que as estimativas de interesse principal, β1 e β2, podem ser interpretadas
como provenientes de uma regressão sem tendência temporal, mas em que primeiro lugar
removemos a tendência da variável dependente e de todas as outras variáveis independentes.
A mesma conclusão permanece com qualquer número de variáveis independentes e mesmo se
a tendência for quadrática ou de algum outro grau polinomial.

Se t for omitida da regressão, não ocorrerá a remoção da tendência e yt poderá parecer


relacionada com uma ou mais das variáveis xtj simplesmente porque cada uma contém uma
tendência.

Se o termo de tendência for estatisticamente significante e os resultados mudarem de maneira


importante quando uma tendência temporal for adicionada a uma regressão, os resultados
iniciais sem uma tendência devem ser tratados com desconfiança.

A interpretação de β1 e β2 mostra que é uma boa ideia incluir uma tendência na regressão se
qualquer variável independente tiver uma tendência, mesmo se a variável yt não tiver. Se yt não
tem tendência observável, mas, digamos, xt1 está crescendo ao longo do tempo, então a
exclusão de uma tendência da regressão pode fazer parecer que xt1 não tem efeito sobre yt,
mesmo que movimentos em xt1 possam afetar yt. Isso será captado se t for incluído na regressão.

Exemplo: Na regressão: log(prepop)t = – 1,05 – 0,154.log(mincov)t – 0,012.log(uspnb)t + ut

10
Vimos que a variável uspnb não é estatisticamente significante. Quando adicionamos uma
tendência linear obtemos:

log(prepop)t = – 8,70 – 0,169.log(mincov)t + 1,06.log(uspnb)t – 0,032.t + ut


(0,044) (0,18) (0,005)
n = 38 ; R² = 0,847 , R²aj = 0,834

O coeficiente de log(uspnb) mudou dramaticamente e passou a ser estatisticamente


significante. O coeficiente do salário mínimo mudou apenas levemente, mas passou a ser mais
significante que antes (o erro padrão ficou menor).

A variável prepop não exibe nenhuma tendência clara crescente ou decrescente, mas log(uspnb)
tem uma tendência crescente linear: uma regressão de log(uspnb) sobre t produz uma
estimativa de cerca de 0,03 indicando que uspnb está crescendo cerca de 3% por ano ao longo
do período. Podemos pensar na estimativa 1,06 como: quando uspnb cresce 1% acima de sua
tendência de longo prazo, prepop aumenta cerca de 1,06%.

Exercício 1: Considere os dados do arquivo FERTIL.

a) Obtenha a equação de regressão de tgf em função de ip, ww2 e pill. Analise o resultado.

b) Adicione uma tendência temporal linear na equação de fertilidade e analise o resultado.

c) Faça a regressão de tgf em função de t e obtenha os resíduos ( y ). Faça o mesmo para as
demais variáveis. Faça a regressão dos resíduos de y em função dos resíduos das demais
variáveis. Compare os coeficientes β1, β2 e β3 dessa regressão com os coeficientes da regressão
do item (b).

d) Adicione um termo quadrático de tendência temporal e analise o resultado.

Solução: (arquivos fertil3(Excel), tgf e fertil 4(e-views))

b) tgft = 111,769 + 0,27895.ipt – 35,5923.ww2t + 0,9974.pillt – 1,1499.t + ut

(3,358) (0,040) (6,297) (3,261) (0,188)

n = 72 ; R² = 0,662, R²aj = 0,642

O coeficiente de ip é mais que o triplo do anterior e é muito mais significante estatisticamente.


De maneira curiosa, pill aparece com sinal positivo e não é significante. Pela estimação, tgf está
diminuindo ao longo do tempo. Observa-se significativo aumento de R².

14
c) y  1,63.10  0,2789.x1  35,5923.x2  0,9974.x3

Os coeficientes β1, β2 e β3 foram estimados com precisão, conforme previu a teoria.

d) tgft = 124,092+ 0,3478.ipt – 35,8803.ww2t – 10,1197.pillt – 2,5314.t + 0,01961.t² + ut

(4,361) (0,040) (5,708) (6,336) (0,389) (0,020)

n = 72 ; R² = 0,727, R²aj = 0,706

11
O coeficiente de ip é ainda maior e mais estatisticamente significante. Agora pill tem o efeito
negativo esperado (bem maior que o anterior) e é marginalmente significante. Ambos os termos
de tendência são significantes. Observa-se novamente significativo aumento em R². A tendência
quadrática é um método flexível para explicar o comportamento incomum de tgf.

Exercício 2: Ainda com os dados de FERTIL, faça uma regressão de tgf em função das demais
variáveis, considerando um efeito defasado da variável ip de ordem 2. Analise o resultado.

Solução:

tgft = 95,870 + 0,073.ipt – 22,126.ww2t – 31,305.pillt – 0,0058.ipt-1 + 0,034.ipt-2

(3,282) (0,125) (10,732) (3,982) (0,156) (0,126)

n = 70 ; R² = 0,499, R²aj = 0,459

Os coeficientes de ip são estimados de forma bastante imprecisa e cada um deles é


individualmente não significante. Ademais, pode-se constatar forte correlação entre ipt, ipt-1 e
ipt-2 e essa multicolinearidade torna difícil estimar o efeito em cada defasagem. Contudo, F tem
um p-valor de 0,012 indicando forte efeito conjunto das variáveis explicativas. Assim, ip tem
efeito sobre tgf, mas essa estimativa não é boa para dizer se esse efeito é contemporâneo ou
tem defasagens.

 Sazonalidade

Se uma série temporal é observada em intervalos mensais ou trimestrais (ou mesmo semanais
ou diários), ela pode exibir sazonalidade. Por exemplo, a construção de novas casas no centro-
oeste norte-americano é fortemente influenciada pelo clima. Embora as características do clima
sejam aleatórias, todo ano temos frio no inverno e calor no verão. No caso do exemplo das
construções de casas, constata-se que o início de novas construções é bem mais frequente nos
meses de verão (junho-setembro no hemisfério norte). Uma forma de modelar esse fenômeno
é permitir que o valor esperado da série yt seja diferente em cada mês. Como outro exemplo, as
vendas no varejo no quarto trimestre são tipicamente mais elevadas do que nos 3 trimestres
anteriores devido ao Natal. Isso também pode ser captado pelo mesmo processo, em adição à
possibilidade de se permitir uma média tendência.
Embora muitas séries de dados mensais e trimestrais exibam padrões sazonais, nem todas o
fazem. Por exemplo, não existem padrões sazonais em taxas de juros ou de inflação. Além disso,
séries que exibem padrões sazonais são frequentemente ajustadas sazonalmente antes de
serem informadas ao público. Esse ajuste visa remover os fatores sazonais e isso pode ser feito
de várias maneiras. O apêndice desse texto traz um exemplo de remoção dessa sazonalidade.
Os ajustes sazonais se tornaram tão comuns que, em muitos casos, não é possível obter os dados
não ajustados. O PIB dos EUA é um exemplo disso. No Economic Report of the President, anual,
muitos dados macroeconômicos descritos tem periodicidade mensal e todos os que exibem
padrões sazonais são ajustados. As principais fontes de dados macroeconômicos ajustam suas
séries quanto à sazonalidade, deixando o escopo para usarmos o nosso próprio procedimento
muito limitado.

12
Apesar disso, algumas vezes podemos ter pela frente dados não ajustados sazonalmente e é
bom sabermos que existem métodos simples para fazer o ajustamento direto nas regressões.
Geralmente, podemos incluir um conjunto de variáveis dummy sazonais para explicar a
sazonalidade na variável dependente e nas variáveis explicativas.
A abordagem é simples. Suponha que temos dados mensais e que entendemos padrões sazonais
dentro de um ano como, em linhas gerais, constantes ao longo do tempo. Por exemplo, já que
o Natal ocorre sempre na mesma época do ano, podemos esperar que as vendas do varejo
sejam, em média, mais altas nos meses do final do ano do que no início do ano. Ou, como os
padrões climáticos são amplamente similares ao longo dos anos, o início da construção de novas
casas no centro-oeste norte-americano será sempre maior durante os meses de verão do que
nos meses de inverno. Um modelo geral de dados mensais que capta esse fenômeno é:

yt   0  1 fevt   2 mart   3abrt  ...  11dezt  1 xt1   2 xt 2  ...   k xtk  ut

Nesse modelo, fev, mar, ..., dez, são variáveis dummy indicando se o período de tempo t
corresponde ao mês apropriado. Nessa formulação, janeiro é o mês base e β0 é o intercepto de
janeiro. Se não houver sazonalidade em yt, uma vez que xtj tenha sido controlada, 1 a 11 serão
todas estatisticamente nulas.

Exercício 3: Considere um modelo para investigar efeitos das ações judiciais anti-dumping
impetradas pela indústria química dos EUA contra a importação de produtos químicos. No
modelo, enfatizamos o produto cloreto de bário, usado em processos de limpeza e na produção
de gasolina. Os dados disponíveis, de fev/1978 a dez/1988, estão no arquivo Barium. A variável
dependente é o volume das importações de cloreto de bário da China (chnimp), que deve ser
usada na forma logarítmica. Como variáveis explicativas, todas na forma logarítmica, sugerimos
um índice de produção química (chempi), o volume de produção de gasolina (gas), que são duas
variáveis de demanda, e um índice da taxa cambial (rtwex), que mede a força do dólar frente a
várias outras moedas.

a) Obtenha o modelo de regressão, com 3 variáveis dummy:


Befile6: vale 1 nos 6 meses que antecedem a impetração da ação judicial (out/1983).
Affile6: vale 1 nos 6 meses após a impetração da ação judicial.
Afdec6: vale 1 nos 6 meses após a decisão judicial (out/1984).
Analise os resultados.

b) Sem as variáveis dummy do item anterior, inclua variáveis sazonais mensais, com base em
janeiro, para testar a existência de tendências sazonais nas importações. Analise os resultados.

Solução:

a) log(chnimp) = -17,80 + 3,12 log(chempi) + 0,196 log (gas) + 0,983 log (rtwex) + 0,060 befile6
– 0,032 affile6 – 0,565 afdec6
n = 131 ; R² = 0,305 ; R²aj = 0,271

Dependent Variable: LOG(CHNIMP)

13
Method: Least Squares
Date: 03/01/18 Time: 22:21
Sample: 1978M02 1988M12
Included observations: 131

Variable Coefficient Std. Error t-Statistic Prob.

C -17.83116 21.14745 -0.843182 0.4008


LOG(CHEMPI) 3.117413 0.478919 6.509270 0.0000
LOG(GAS) 0.197543 0.910949 0.216854 0.8287
LOG(RTWEX) 0.982946 0.399957 2.457631 0.0154
AFFILE6 -0.032259 0.264330 -0.122039 0.9031
AFDEC6 -0.565446 0.285767 -1.978694 0.0501
BEFILE6 0.059659 0.260950 0.228623 0.8195

R-squared 0.304863 Mean dependent var 6.174599


Adjusted R-squared 0.271227 S.D. dependent var 0.699738
S.E. of regression 0.597353 Akaike info criterion 1.859338
Sum squared resid 44.24704 Schwarz criterion 2.012975
Log likelihood -114.7867 Hannan-Quinn criter. 1.921768
F-statistic 9.063677 Durbin-Watson stat 1.458307
Prob(F-statistic) 0.000000

As variáveis befile6 e affile6 não são estatisticamente significantes. Já afdec6 é significante e


seu coeficiente é bastante alto, mostrando uma queda substancial nas importações chinesas de
cloreto de bário após a decisão a favor da indústria dos EUA, o que não surpreende.
Os sinais dos coeficientes nas variáveis de controle são os que esperávamos: um aumento na
produção geral de produtos químicos aumenta a demanda por agentes de limpeza. A produção
de gasolina não afeta de maneira significante as importações chinesas. O coeficiente de
log(rtwex) mostra que um aumento no valor do dólar em relação a outras moedas aumenta a
demanda por importações da China, conforme previsto pela teoria econômica.

b) Os parâmetros e seus respectivos p-valores são mostrados na tabela abaixo:

Erro
Coeficientes padrão Stat t valor-P
Interseção 20,57944 32,2501 0,63812 0,524653
chempi 3,2136 0,492979 6,518736 1,92E-09
gas -1,38298 1,38614 -0,99772 0,320491
rtwex 0,401513 0,402221 0,998242 0,32024
fev -0,42689 0,305209 -1,39868 0,164577
mar 0,058546 0,265648 0,22039 0,825955
abr -0,44056 0,268114 -1,64317 0,103055
mai 0,09705 0,265442 0,365619 0,715315
jun -0,1395 0,265089 -0,52622 0,599741
jul 0,075043 0,273876 0,274002 0,78457
ago -0,08465 0,272967 -0,3101 0,757042
set -0,06705 0,263673 -0,2543 0,799718
out 0,103221 0,263652 0,391504 0,696143
nov -0,24159 0,263708 -0,91611 0,36151
dez 0,141273 0,272196 0,519012 0,604741

14
n = 131 ; R² = 0,337 ; R²aj = 0,257

A variável chempi, que é mais importante nesse modelo, não sofre alteração significativa em
relação ao modelo anterior. O mesmo não se pode dizer em relação a gas e rtwex, que se
tornaram estatisticamente não significantes. Todas as dummy mensais são conjuntamente não
significantes, revelando a inexistência de uma tendência sazonal para esses dados.

Apêndice: Como eliminar a sazonalidade

 Avaliação das variações por estações. Índice por estação.

Para determinar o fator por estação, deve-se avaliar de que maneira os dados de uma série
temporal variam de mês a mês, por meio de um ano típico. Um conjunto de números que mostre
os valores relativos de uma variável durante os meses do ano é denominado índice por estação
da variável.

Um dos métodos para o cálculo do índice por estação é o método da porcentagem média. Nesse
método, os dados de cada mês são expressos em porcentagens da média anual. As porcentagens
dos meses correspondentes dos diferentes anos são balanceadas mediante o emprego da
média. As 12 porcentagens médias resultantes são o índice por estação. Se a sua média não for
de 100% (isto é, se a soma não for de 1200%), elas devem ser multiplicadas por fatores
convenientes para se obter esse resultado.

Exemplo: a tabela abaixo apresenta um número índice setorial referente aos anos de 1991 a
1998. Obter um índice por estação para esses dados.

jan fev mar abr mai jun jul ago set out nov dez
1991 318 281 278 250 231 216 223 245 269 302 325 347
1992 342 309 299 268 249 236 242 262 288 321 342 364
1993 367 328 320 287 269 251 259 284 309 345 367 394
1994 392 349 342 311 290 273 282 305 328 364 389 417
1995 420 378 370 334 314 296 305 330 356 396 422 452
1996 453 412 398 362 341 322 335 359 392 427 454 483
1997 487 440 429 393 370 347 357 388 415 457 491 516

15
1998 529 477 463 423 398 380 389 419 448 493 526 560

Resolução: Na tabela abaixo, representamos os totais anuais e as médias mensais anuais,


obtidas pela divisão dos totais anuais por 12.

total anual média mensal


1991 3285 273,75
1992 3522 293,50
1993 3780 315,00
1994 4042 336,83
1995 4373 364,42
1996 4738 394,83
1997 5090 424,17
1998 5505 458,75

Para obter o índice por estação, dividimos cada valor da tabela original pela média mensal
correspondente, multiplicando o resultado por 100. A tabela abaixo apresenta o resultado
dessas operações. O índice por estação é obtido fazendo-se a média de cada mês.

jan fev mar abr mai jun jul ago set out nov dez

1991 116,16 102,65 101,55 91,32 84,38 78,90 81,46 89,50 98,26 110,32 118,72 126,76

1992 116,52 105,28 101,87 91,31 84,84 80,41 82,45 89,27 98,13 109,37 116,52 124,02

1993 116,51 104,13 101,59 91,11 85,40 79,68 82,22 90,16 98,10 109,52 116,51 125,08

1994 116,38 103,61 101,53 92,33 86,10 81,05 83,72 90,55 97,38 108,07 115,49 123,80

1995 115,25 103,73 101,53 91,65 86,17 81,23 83,70 90,56 97,69 108,67 115,80 124,03

1996 114,73 104,35 100,80 91,68 86,37 81,55 84,85 90,92 99,28 108,15 114,99 122,33

1997 114,81 103,73 101,14 92,65 87,23 81,81 84,17 91,47 97,84 107,74 115,76 121,65

1998 115,31 103,98 100,93 92,21 86,76 82,83 84,80 91,34 97,66 107,47 114,66 122,07

total 925,69 831,45 810,95 734,27 687,23 647,46 667,36 723,76 784,33 869,30 928,44 989,74

média 115,71 103,93 101,37 91,78 85,90 80,93 83,42 90,47 98,04 108,66 116,06 123,72

A última linha da tabela acima apresenta o índice por estação. A soma dos índices é 1200,00,
indicando que não é necessário fazer qualquer ajustamento.

 Desestacionalização dos dados

16
Se os dados mensais originais são distribuídos de acordo com os números índices por estações
correspondentes, diz-se que os dados resultantes estão desestacionalizados ou ajustados à
variação por estações. Para obter esse conjunto de dados desestacionalizados, deve-se dividir
cada dado da tabela original pelo índice do mês correspondente, multiplicando o resultado por
100. Esses dados incluem ainda os movimentos de tendência, cíclicos e irregulares.

Exemplo: obter os dados desestacionalizados para os valores do exemplo anterior.

jan fev mar abr mai jun jul ago set out nov dez
1991 274,82 270,37 274,25 272,38 268,90 266,89 267,32 270,81 274,37 277,93 280,04 280,48
1992 295,56 297,31 294,96 291,99 289,86 291,60 290,10 289,60 293,75 295,41 294,69 294,22
1993 317,17 315,59 315,68 312,69 313,14 310,13 310,48 313,92 315,17 317,50 316,23 318,47
1994 338,78 335,80 337,38 338,84 337,59 337,32 338,05 337,13 334,55 334,98 335,18 337,06
1995 362,97 363,70 365,01 363,90 365,52 365,73 365,62 364,76 363,11 364,43 363,62 365,35
1996 391,49 396,41 392,63 394,40 396,95 397,86 401,58 396,82 399,83 392,96 391,19 390,40
1997 420,88 423,35 423,21 428,18 430,71 428,75 427,96 428,87 423,29 420,57 423,07 417,08
1998 457,17 458,95 456,75 460,86 463,31 469,52 466,32 463,14 456,95 453,70 453,23 452,64
318
Obs: 274,82   100
115,71

Nos gráficos abaixo, apresentamos os dados originais e os dados desestacionalizados. Observe


a eliminação dos movimentos por estações.

dados originais
consumo (Mkh)

600

500

400

300

200

100

0
jan/91

jul/91
out/91
jan/92

jul/92
out/92
jan/93

jul/93
out/93
jan/94

jul/94
out/94
jan/95

jul/95
out/95
jan/96

jul/96
out/96
jan/97

jul/97
out/97
jan/98

jul/98
out/98
abr/91

abr/92

abr/93

abr/94

abr/95

abr/96

abr/97

abr/98

17
dados desestacionalizados

500,00

450,00

400,00
consumo (Mkwh)

350,00

300,00

250,00

200,00

150,00

100,00

50,00

0,00
jan/91
abr/91
jul/91
out/91
jan/92
abr/92
jul/92
out/92
jan/93
abr/93
jul/93
out/93
jan/94
abr/94
jul/94
out/94
jan/95
abr/95
jul/95
out/95
jan/96
abr/96
jul/96
out/96
jan/97
abr/97
jul/97
out/97
jan/98
abr/98
jul/98
out/98
O gráfico dos dados desestacionalizados indica a tendência a longo prazo que, desprezadas as
flutuações secundárias, se aproxima de uma linha reta. Foram eliminados os movimentos ou
variações por estação, ou seja, foi excluída a sazonalidade.

18