Vous êtes sur la page 1sur 43

Departamento de Ciências Econômicas

Econometria II

Tópico 2- Modelo de Regressão com


Variáveis Binárias (dummies)

CAP 9 – GUJARATI

Aula 04 e 05
Dias 05 e 11 de abril de 2019
Profª: Graciela Profeta
MR- Dummies TÓP.2
I- Introdução
MR- Dummies TÓP.2
1- A Natureza das Variáveis Binárias

✓ Em modelos de regressão, a variável dependente pode ser


influenciada por:

✓ Variáveis proporcionais: renda, preço, custo, altura, peso, etc.

✓ Variáveis qualitativas: sexo, cor, região geográfica, movimento


político, religião, estado civil, etc.

✓ Exemplo: Salário da mulher negra


MR- Dummies TÓP.2
✓ Como “quantificar” estas variáveis qualitativas de modo a inseri-
las em um modelo de regressão?

✓ Variáveis “artificiais” que assumirão valores zero ou 1, em que 1


indica a presença do atributo (negro) e zero a ausência (qualquer
outra raça);

✓ São essas variáveis (0 ou 1) que chamamos de variáveis binárias


(dummies),

✓ São usadas quando desejamos inserir no modelo, categorias


mutuamente exclusivas (masculino e feminino).
MR- Dummies TÓP.2
2.1- Modelos ANOVA- modelos de Análise de Variância

✓ Podemos especificar modelos econométricos contendo variáveis


explicativas quantitativas e binárias, ou;

✓ Podemos trabalhar modelos de regressão que apresentam


somente variáveis explicativas binárias (ANOVA).

✓ Os modelos ANOVA são usados para avaliar a significância


estatística de regressando quantitativo em função apenas de
regressores qualitativos (binários).
MR- Dummies TÓP.2
2.1- Modelos ANOVA- modelos de Análise de Variância

✓ Suponha que temos dados de salários médios de professores de 51


municípios do RJ, divididos em 3 grandes regiões:

✓ Norte, Sul e Oeste que é a categoria de referência (aquela para a qual


não se define uma dummy);

✓ Logo temos apenas uma variável qualitativa do modelo que é a


localização geográfica.

✓ O objetivo é verificar se o salário médio dos professores diverge


conforme a região que ele leciona.
MR- Dummies TÓP.2
2.1- Modelos ANOVA- modelos de Análise de Variância
✓ O simples cálculo da média aritmética dos salários nos fornece os
seguintes resultados:

✓ Norte= R$24.424; Matematicamente


estes números são
✓ Sul= R$22.894 e diferentes.

✓ Oeste= R$ 26.158

✓ Mas será que também serão diferentes do ponto de vista


estatístico?
MR- Dummies TÓP.2
2.1- Modelos ANOVA- modelos de Análise de Variância

Yi = 1 +  2 D2i + 3 D3i + ui (2.1)

em que: Yi = salário (médio) dos professores Exemplo de


estrutura de
dados (excel)
 = 1 para professores do Norte do estado
D2i 
= 0 para os professores das demais regiões do estado

 = 1 para professores da região Sul


D3i 
= 0 para os professores das demais regiões
MR- Dummies TÓP.2
2.1- Modelos ANOVA- modelos de Análise de Variância

✓ Supondo que o termo de erro de (2.1) satisfaça as premissas do MQO, ao


tomar a esperança matemática de ambos os lados, temos:

Yi = 1 +  2 D2i + 3 D3i + ui (2.1)

Salário médio dos professores do Norte


E (Yi \ D2i = 1, D3i = 0) = 1 +  2 (2.2)
Salário médio dos professores do Sul
E (Yi \ D2i = 0, D3i = 1) = 1 + 3 (2.3)
E o salário médio dos professores do Oeste?
MR- Dummies TÓP.2
2.1- Modelos ANOVA- modelos de Análise de Variância

✓ Observe que o salário médio dos professores que não estão no


Norte e nem no Sul, pode ser dado pelo valor do intercepto da
equação.

✓ Porque?
Yi = 1 +  2 D2i + 3 D3i + ui (2.1)

E (Yi \ D2i = 0, D3i = 0) = 1 (2.4)

✓ O que nos diz 𝛽1 , 𝛽2 e 𝛽3 ?


MR- Dummies TÓP.2
2.1- Modelos ANOVA- modelos de Análise de Variância

✓ O intercepto ( 1 ) nos dá o valor médio do salário da categoria


de referência (salário médio no Oeste);

✓ os coeficientes “angulares” (  2 e  3 ) dizem qual é a diferença


dos salários médios nas regiões Norte e Sul em relação aos
professores do Oeste.

✓ Todavia, será que as diferenças são estatisticamente


significativas?

✓ Para verificar isso, vamos analisar o resultado do modelo


apresentado em (2.1).
MR- Dummies TÓP.2
2.1- Modelos ANOVA- modelos de Análise de Variância
^
Yi = 26.158,62 − 1.734,473D2i − 3.264,615D3i
ep = (1.128,523) (1.435,953) (1.499,615)
R 2 = 0,0901

Interpretação
✓ Os salários médios dos professores do Oeste é cerca de R$26.158;
✓ Os salários médios dos Professores do Norte é cerca de R$1.734 a menos do
que os salários médio dos professores do Oeste;

✓ Os professores do Sul, recebem em média, cerca de R$3.264 a menos do


que a média de salários do Oeste.
MR- Dummies TÓP.2
2.1- Modelos ANOVA- modelos de Análise de Variância

✓ Portanto, os salários para cada região são:

✓ Basta somar
as diferenças salariais
ao valor do intercepto.

^
Yi = 26.158,62 − 1.734,473D2i − 3.264,615D3i

✓ Porém, ainda não sabemos se os valores da região Norte e os valores da região Sul são
estatisticamente diferentes dos valores do Oeste (categoria de referência).

✓ Para verificarmos isso, basta analisar a significância estatística dos coeficientes betas (2
e 3) estimados na regressão múltipla.
MR- Dummies TÓP.2
2.1- Modelos ANOVA- modelos de Análise de Variância
^
Yi = 26.158, 62 − 1.734, 473D2i − 3.264, 615D3i
p-valor=(0,000) (0,2330) (0,0349) R 2 = 0,0901

✓A 5% de significância estatística, os coeficientes estimados para as regiões Norte (D2i)


não são significativos, ou seja; não existe diferença significativa em termos
estatísticos entre os salários médios dessa região e da região de referência (Oeste).
✓No caso, os salários médios estimados para a Região Sul, observou-se que os salários
médios foram estatisticamente diferentes dos da região de referência (Oeste), pois o
coeficiente obtido foi estatisticamente significativo a 5%.
✓Advertência: As variáveis Dummies mostram apenas se existe ou não
diferença, mas não explica as razões para isto!
MR- Dummies TÓP.2
2.3- Cautela quanto ao uso de Dummies

2.3.1- Se uma variável binária tem m categorias, devemos incluir


no modelo apenas (m-1) dummies

✓Qual a razão?
Yi =  + 1 D1i +  2 D2i + 3 D3i + ui (2.5)

✓Observe que temos agora uma dummy para cada uma das 3
regiões (uma dummy para cada m categorias).
MR- Dummies TÓP.2
2.3.1- Se uma variável binária tem m categorias, devemos incluir no modelo apenas (m-1)
dummies

Yi =  + 1 D1i +  2 D2i + 3 D3i + ui (2.5)

✓Além das 3 dummies, temos também o intercepto (alfa) →


✓Isto implica em colinearidade perfeita no modelo (armadilha das
variáveis dummies)
✓Mas de onde vem esta relação linear exata entre os regressores
(Dummies)?
✓Ver no excel!
MR- Dummies TÓP.2
2.3.1- Se uma variável binária tem m categorias, devemos incluir no modelo apenas (m-
1) dummies

✓A D01 é formada da seguinte maneira: 1= para o Oeste e zero para os demais.

✓Se incluirmos a D01, o valor da soma das 3 dummies para cada observação é
exatamente igual a 1 (teremos uma coluna de valores 1)

✓Essa coluna formada pela soma (D01+D02+D03) será exatamente igual à


coluna do intercepto, pois implicitamente o intercepto assume valor 1 para
cada observação.

✓A solução seria suprimir o intercepto da regressão?


MR- Dummies TÓP.2
2.3.2- Usar m variáveis binárias e suprimir o intercepto do modelo

Yi = 1 D1i +  2 D2i + 3 D3i + ui (2.6)

✓Sem o intercepto o modelo (2.6) deixa de sofrer com a multi.


Sem o intercepto,
✓Neste caso, temos: obtemos diretamente os
valores médios para cada
categoria
^
Yi = 26.158,62 D1i + 24.424,14 D2i + 22.894 D3i
ep = (1.128,523) (887,92) (986,87)
t = (23,1759) (27,51) (23,20)
p = (0,000) * (0,000) * (0,000) * R 2 = 0,0901
MR- Dummies TÓP.2
2.3.3- A categoria para a qual não designamos uma variável binária é a
categoria base, aquela de referência e o intercepto (beta 1) da
regressão é o valor médio para esta categoria.

2.3.4- Os Coeficientes das variáveis binárias são conhecidos como


coeficientes diferenciais de intercepto.

2.3.5- Quando temos uma variável binária que apresenta mais de


uma categoria (Norte, Sul e Oeste, por exemplo) cabe ao
pesquisador dizer qual dessas categorias é a de referência.
MR- Dummies TÓP.2
2.3-6- O que é melhor?

i) incluir m binárias e omitir o intercepto ou


ii) incluir m-1 binárias e incluir o intercepto?

✓ A equação com intercepto permite verificar se a categorização faz


diferença e de quanto é essa diferença;

✓ Os salários das mulheres negras são mais baixos do que os das


mulheres brancas. Logo a cor é um diferencial.
MR- Dummies TÓP.2
2.4- Modelos ANOVA com duas variáveis qualitativas

✓ Analisar os salários de 580 entrevistados. Para tanto, usaremos duas variáveis


qualitativas que são:

✓ Estado Civil (D2) e Região de residência (D3);

 = 1, se casado ✓Portanto, temos dois regressores qualitativos,


D 2 sendo que cada um possui duas categorias. Logo
0, caso contrário atribuiu-se uma dummy para cada um deles.

= 1, se reside no Sul ✓Qual é a categoria de referência neste caso?


D3
 0, caso contrário
✓Não casado e não residente no sul
MR- Dummies TÓP.2
2.4- Modelos ANOVA com duas variáveis qualitativas

^
𝑌𝑖 = 8,82 + 1,10𝐷2𝑖 − 1,67𝐷3𝑖
𝑒𝑝 = (0,40) (0,46) (0,48)
t = (21,95) (2,36) (−3,45)
p = (0,000) (0,018) (0,000) Todos significativos

✓ O salário médio para o grupo de referência (não casados e não residentes no sul) é
R$ 8,82/hora.

✓ Os casados recebem cerca de R$1,10/hs a mais do que os solteiros; ou seja, os


casados recebem cerca de R$ 9,91/hs.

✓ Já os residentes no Sul recebem cerca de R$1,67/hs a menos do que aqueles não


residentes no sul, ou seja, R$7,14/hs.
MR- Dummies TÓP.2
2.5- A variável binária como alternativa ao teste de Chow

✓ O que é o teste de Chow?

✓ É um teste para identificar a mudança (estrutural) de comportamento na


relação que existe entre o regressando (Y) e os regressores (X’s) do
modelo, quando trabalhamos com séries temporais.

✓ A mudança estrutural significa que os valores dos parâmetros do modelo


não se mantém iguais (em termos estatísticos) em todo o período.

✓ Na prática: a idéia é regredir um modelo para cada período.


MR- Dummies TÓP.2
2.5- A variável binária como alternativa ao teste de Chow

✓ O teste de Chow é empregado para verificar a estabilidade


estrutural do modelo.

✓ Todavia, em caso de mudança estrutural, o teste não nos diz qual a


razão desta mudança:

✓ i) Se é devido ao termo de intercepto;


✓ ii) Aos coeficientes angulares (beta 2, beta 3, etc.);
✓ iii) Ou ambos.
MR- Dummies TÓP.2
2.5- A variável binária como alternativa ao teste de Chow
✓ Quando desejamos verificar a mudança estrutural em uma regressão, 4 possibilidades
podem ocorrer:

1- Tanto o intercepto quanto o coeficiente angular são os mesmos nas equações. Neste caso,
temos regressões coincidentes (Fig.a)

2- Os interceptos são diferentes, mas os coeficientes angulares são iguais. Neste caso, temos
regressões paralelas (Fig. b)

3- Interceptos iguais, porém coeficientes angulares diferem. Neste caso, temos as regressões
concorrentes (Fig. c)

4- Ambos diferentes. Neste caso temos regressões dessemelhantes (Fig. d)


MR- Dummies TÓP.2

O teste de Chow
tradicional não
nos permite
identificar esses
tipos de
comportamento
da regressão.
MR- Dummies TÓP.2
2.5- A variável binária como alternativa ao teste de Chow

✓ Se desejamos saber as razões de ter ocorrido a mudança estrutural na série


devemos juntar todas as observações do modelo (modelo único) e fazer uma
regressão múltipla (pressupondo homocedasticidade),

✓ Exemplo ilustrativo:
Y t = 1 +  2 Dt + 1 X t +  2 ( Dt X t ) (2.7)

em que : Y = poupança; X = renda; t = anos; e


 = 1, para observações do período 1982-1995
D
= 0, nos demais casos (período de 1970-1981)
MR- Dummies TÓP.2
2.5- A variável binária como alternativa ao teste de Chow

𝑌𝑡 = 𝛼1 + 𝛼2 𝐷𝑡 + 𝛽1 𝑋𝑡 + 𝛽2 (𝐷𝑡 𝑋𝑡 ) (2.7)

𝛼2 é o intercepto diferencial;

𝛽2 é o coeficiente angular diferencial ou deslocador do


coeficiente angular, pois indica de quanto o coeficiente
angular da função poupança (Y) do segundo período
( categoria que recebeu o 1) difere do primeiro.
MR- Dummies TÓP.2
2.5- A variável binária como alternativa ao teste de Chow

Y t = 1 +  2 Dt + 1 X t +  2 ( Dt X t ) (2.7)

✓ Observe que a inclusão da dummy (D) de forma aditiva no modelo ( 2 Dt ),


nos permite diferenciar os interceptos dos dois períodos;

✓ Da mesma forma, a inclusão da variável D na forma multiplicativa


(interativa= D*Xt) permite distinguir os coeficientes angulares dos dois
períodos.
MR- Dummies TÓP.2
2.5- A variável binária como alternativa ao teste de Chow
^
Y t = 1, 016 + 152, 48 Dt + 0, 08 X t − 0, 066( Dt X t )
ep = (20,16) (33,08) (0,014) (0,02)
t = (0,050) (4,60) (5,54) (-4,09)
p = (0,96) (0,000) (0,000) (0,000)

✓ Tanto o intercepto diferencial (alfa 2 = 152,48) quanto os


coeficientes angulares, são todos estatisticamente significativos (a
pelo menos 10%)

✓ Logo→ pode-se dizer que as regressões dos dois períodos são


diferentes.
MR- Dummies TÓP.2
2.5- A variável binária como alternativa ao teste de Chow

Principal vantagem do uso de variável dummy como alternativa ao teste de Chow


tradicional

✓O teste de Chow tradicional não revela, de forma explicita, se são os coeficientes dos
interceptos ou os angulares, ou ambos, que diferem nos dois períodos.

✓Todavia, no teste tradicional podemos obter algum resultado significativos, porque:

✓i) apenas o coeficiente angular é diferente; Verificar se um é diferente e o


outro não, não é possível, pois
✓ii) apenas o intercepto é diferente; não temos o termo de
multiplicação (D*Xt) e nem o
✓Iii) ou ambos são diferentes de adição (D)
MR- Dummies TÓP.2
2.6- O emprego da variável dummy em análise de sazonalidade

✓ Dados trimestrais ou mensais

✓ Às vezes desejamos remover o padrão sazonal da série


(dessazonalização)

✓ Existem vários métodos:

✓ Porém nos concentraremos no uso das dummies.


MR- Dummies TÓP.2
2.6- O emprego da variável dummy em análise de sazonalidade

✓ Suponha dados trimestrais referentes à vendas de geladeira


(Y ou GE), para o período: 1978 a 1995

✓ Será que a série apresenta sazonalidade?

✓ Análise gráfica
MR- Dummies TÓP.2
GE
1,800

1,700

1,600

1,500

1,400

1,300

1,200

1,100
GE by Season
1,000
1,800
900
1978 1979 1980 1981 1982 1983 1984 1985
1,700

1,600

1,500

1,400

1,300

1,200

1,100

1,000

900
Q1 Q2 Q3 Q4

Means by Season
MR- Dummies TÓP.2
2.6- O emprego da variável dummy em análise de sazonalidade

✓ Será que de fato a série apresenta sazonalidade?

✓ Considere o seguinte modelo:


Yt = 1 D1t +  2 D2t +  3 D3t +  4 D4t + ut

em que Yt são as vendas de geladeiras

D são as dummies que assumem


valor 1 para o trimestre relevante
e zero para os demais
MR- Dummies TÓP.2
Representa a venda média de
geladeira em cada trimestre

Modelo 2

Modelo 1
MR- Dummies TÓP.2
✓ Considerar o modelo com intercepto e uma dummy a menos

Observe agora que o valor de Y (ou GE)


no 4º trimestre não é
estatisticamente diferente do valor de
Y no primeiro trimestre.

Porque? 1,800
GE by Season

1,700

1,600

1,500

1,400

1,300

1,200

1,100

1,000

900
Q1 Q2 Q3 Q4

Means by Season
MR- Dummies TÓP.2
2.6- O emprego da variável dummy em análise de sazonalidade

✓ Mas, a série de vendas de geladeira, apresenta ou não padrão sazonal?

✓ Dado que existem interceptos diferenciais significativos, podemos dizer que


para os trimestres significativos (segundo e terceiro) a série apresenta
padrão sazonal.

✓ Como proceder para dessazonalizar a série?

✓ Basta especificar o modelo com as dummies e obter Y (ou GE) estimado (


considerando o modelo com intercepto ou não) e subtraí-lo de cada
observação dos valores efetivos de Y.
MR- Dummies TÓP.2
2.6- O emprego da variável dummy em análise de sazonalidade

^
Ytdesz = Yt − Y t

✓ E se incluíssemos no modelo um regressor quantitativo, será que o


quadro muda?

✓ Exemplo: vamos inserir o gasto em bens duráveis (X).


MR- Dummies TÓP.2
2.6- O emprego da variável dummy em análise de sazonalidade

O coeficiente obtido para X (2,77)


nos diz que, descontando os efeito
sazonais, se aumentarmos os
gastos com bens duráveis (x) em
um real, em média, a venda de
geladeira irá aumentar cerca de
2,77 unidades, TMMC.

Mas se as vendas de geladeiras


apresentam sazonalidade, será que
o gasto com bens duráveis também
não apresentariam?
MR- Dummies TÓP.2
2.6- O emprego da variável dummy em análise de sazonalidade

✓ Segundo o teorema de Frisch-Waugh, as variáveis dummies não apenas


removem a sazonalidade de Y mas também removem a sazonalidade de X, se
esta existir.

✓ Curiosidade→ Para provar este teorema basta:

✓ Regredir Y contra as Dummies e salvar os resíduos (R1) (eles são os Y


dessazonalizado);

✓ Calcular X contra as Dummies e salvar os resíduos (R2); (eles são os X


dessazonalizado);
MR- Dummies: alguns comentários gerais TÓP.2
1. Cuidado ao interpretar os coeficientes da Dummy, quando a variável
dependente está em log.

Devemos considerar o
antilogaritmo.

B1= antilog de 2,17= 8,81

B2= antilog (2.17-0.243) = 6,87


MR- Dummies: alguns comentários gerais TÓP.2

2- Variáveis binárias e a questão da heterocedasticidade

✓ No teste de chow usando dummies pressupõe-se que :

var(u1i ) = var(u2i ) =  2
homocedasticidade

3- Variáveis binárias e a questão da autocorrelação

4- Se variável dependente for binária

✓ Verificar os determinantes da oferta de trabalho feminino → aplicar modelos


de probabilidade linear (Probit, logit, etc.)

Vous aimerez peut-être aussi