Vous êtes sur la page 1sur 40

Análise Multivariada I

Graduação em Ciências Atuariais

Henrique Castro
hcastro@usp.br

Universidade de São Paulo

2017

1 of 40
Lecture 5
Análise de regressão múltipla: pressupostos do
modelo e multicolinearidade

2 of 40
Introdução
Lecture 5: Valor esperado dos estimadores MQO

• Agora iremos estudar as propriedades estatísticas do método MQO


na estimação dos parâmetros de um modelo populacional.
• Estudaremos quatro pressupostos que, se atendidos, garantirão a
ausência de viés dos estimadores (são extensões diretas do modelo
de regressão simples).
• Também iremos calcular o viés do MQO quando variáveis
importantes forem omitidas da regressão.

3 of 40
Pressuposto 1: linear nos parâmetros
Lecture 5: Valor esperado dos estimadores MQO

• O modelo populacional pode ser escrito como:

y = β0 + β1 x1 + β2 x2 + · · · + βk xk + u, (L5.1)

tal que β0 , β1 , . . . , βk são os parâmetros desconhecidos de interesse


e u é um erro aleatório não-observável.
• A equação (L5.1) apresenta o modelo populacional, ou também
chamado de modelo verdadeiro.
• A característica principal é que o modelo é linear nos parâmetros
β0 , β1 , . . . , βk .
• As variáveis independentes ou a dependente podem ser funções
quaisquer das variáveis de interesse (quadrados ou logaritmos).
4 of 40
Pressuposto 2: amostragem aleatória
Lecture 5: Valor esperado dos estimadores MQO

• Temos uma amostra aleatória de n observações,


{(xi1 , xi2 , . . . , xik , yi ) : i = 1, . . . , n}, proveniente do modelo
populacional do Pressuposto 1.

5 of 40
Pressuposto 3: ausência de
colinearidade perfeita
Lecture 5: Valor esperado dos estimadores MQO

• Na amostra (e também na população), nenhuma das variáveis


independentes é constante e não há relações lineares exatas entre as
variáveis independentes.
• Se houver combinação linear exata entre variáveis independentes,
dizemos que o modelo sofre de colinearidade perfeita.
• Nesse caso, ele não poderá ser estimado por MQO.
• Esse pressuposto permite que as variáveis independentes sejam
correlacionadas entre si. Só não podem ser perfeitamente correlacionadas
(±1).
• Relações não lineares perfeitas entre variáveis não violam esse
pressuposto.
6 of 40
Pressuposto 4: média condicional zero
Lecture 5: Valor esperado dos estimadores MQO

• O erro u tem valor esperado igual a zero, dados quaisquer valores das
variáveis independentes:

E(u|x1 , x2 , . . . , xk ) = 0. (L5.2)

• Uma maneira de violar esta hipótese é ter a relação funcional entre a v.d.
e as v.i. mal-especificada. E.g.: esquecer de incluir inc 2 na função de
consumo cons = β0 + β1 inc + β2 inc 2 + u.
• Omitir fatores importantes que são correlacionados com alguma das
variáveis x1 , x2 , . . . , xk também viola o Pressuposto 4.
• Quando esse pressuposto se mantém, dizemos que temos variáveis
explicativas exógenas. Caso contrário, dizemos que temos variáveis
explicativas endógenas.
7 of 40
Atenção!
Lecture 5: Valor esperado dos estimadores MQO

• Alguns estudantes iniciantes de econometria costumam confundir


os Pressupostos 3 e 4.
• O Pressuposto 3 trata da relação entre variáveis independentes e
não tem nenhuma relação com o termo de erro.
• Ao tentar estimar uma regressão que viola o Pressuposto 3 você
imediatamente tomará conhecimento do problema.
• O Pressuposto 4 é muito mais importante, mas infelizmente você
nunca saberá com certeza se ele se mantém válido ou foi violado.

8 of 40
Teorema 1: ausência de viés do MQO
Lecture 5: Valor esperado dos estimadores MQO

• Sob os Pressupostos 1 a 4,

E(β̂j ) = βj , j = 0, 1, . . . , k, (L5.3)

para quaisquer valores do parâmetro populacional βj .


• Em outras palavras, os estimadores MQO são estimadores não enviesados
dos parâmetros populacionais.
• Por não enviesado, queremos dizer que o parâmetro foi estimado usando
um procedimento não enviesado. Não temos como ter certeza se o
número obtido é igual ao verdadeiro valor populacional.
• Mas não temos razão para acreditar que nossa estimativa deve ser muito
maior ou muito menor.

9 of 40
Teorema 1: prova
Lecture 5: Valor esperado dos estimadores MQO

• Sob o Pressuposto 3, os estimadores MQO existem e podemos


escrever β̂1 como
Pn
r̂i1 yi
β̂1 = Pi=1
n 2 , (L5.4)
i=1 r̂i1

tal que r̂i1 é o resíduo da regressão de x1 contra x2 .


• Sob o Pressuposto 1, podemos escrever yi como

yi = β0 + β1 xi1 + β2 xi2 + · · · + βk xik + ui . (L5.5)

10 of 40
Teorema 1: prova
Lecture 5: Valor esperado dos estimadores MQO

• Substituindo (L5.5) em (L5.4) e usando ni=1 r̂i1 = 0, ni=1 xij r̂i1 = 0


P P
Pn Pn 2
para todo j = 2, . . . , k e i=1 xi1 r̂i1 = i=1 r̂i1 , temos
Pn
r̂i1 (β0 + β1 xi1 + β2 xi2 + · · · + βk xik + ui )
β̂1 = i=1 Pn 2
i=1 r̂i1
P 2
0 r̂i1P
P * P  :0 P  :0 P
xi2 + · · · + βk
: 
β0 r̂i1 + β1 r̂i1 xi1 + β2 r̂i1 r̂i1 xik + r̂i1 ui

= P 2
r̂i1
Pn
r̂i1 ui
= β1 + Pi=1 n 2
. (L5.6)
i=1 r̂i1

11 of 40
Teorema 1: prova
Lecture 5: Valor esperado dos estimadores MQO

• Sob os Pressupostos 2 e 4, o valor esperado de cada ui , dados os valores


das v.i., é zero.
• Como os valores de r̂i1 são funções das variáveis independentes, após tirar
a esperança condicional de (L5.6) em função de todas as v.i., X, temos:
Pn :0
r̂ E(u |X)

E(β̂1 |X) = β1 + Pni1 2 i
i=1
i=1 r̂i1
= β1 . (L5.7)

12 of 40
Variáveis irrelevantes na regressão
Lecture 5: Valor esperado dos estimadores MQO

• Incluir variáveis irrelevantes na regressão quer dizer que uma ou


mais v.i. são incluídas no modelo apesar de não terem efeito
parcial sobre a v.d. na população.
• Em outras palavras, o parâmetro populacional daquela variável é
zero.
• Para ilustrar a questão, suponha o seguinte modelo:

y = β0 + β1 x1 + β2 x2 + β3 x3 + u, (L5.8)

tal que esse modelo satisfaz os Pressupostos 1 a 4.


• Contudo, x3 não tem efeito sobre y após controlarmos por x1 e x2 .
Ou seja, β3 = 0.
13 of 40
Variáveis irrelevantes na regressão
Lecture 5: Valor esperado dos estimadores MQO

• A variável x3 pode ou não ser correlacionada com x1 ou x2 . Não


faz diferença.
• Em termos de esperança condicional,

E(y |x1 , x2 , x3 ) = E(y |x1 , x2 ) = β0 + β1 x1 + β2 x2 .

• Como não sabemos que β3 = 0, colocamos x3 no modelo e


estimamos:

ŷ = β̂0 + β̂1 x1 + β̂2 x2 + β̂3 x3 , (L5.9)

incluindo uma variável irrelevante na regressão.

14 of 40
Variáveis irrelevantes na regressão
Lecture 5: Valor esperado dos estimadores MQO

• Qual o efeito disso?


• Em relação ao viés de β̂1 e β̂2 , nenhum.
• De acordo com o Teorema 1, E(β̂j ) = βj para qualquer valor de βj ,
inclusive zero.
• Assim, podemos concluir que E(β̂0 ) = β0 , E(β̂1 ) = β1 , E(β̂2 ) = β2
e E(β̂3 ) = 0.
• Apesar do valor de β̂3 não ser exatamente zero, seu valor médio
dentre todas as amostras aleatórias possíveis será zero.
• Concluindo, incluir uma ou mais variáveis irrelevantes na regressão
não afeta a ausência de viés dos estimadores MQO.
• Isso, contudo, tem efeitos sobre a variância dos estimadores.
15 of 40
Viés de variável omitida
Lecture 5: Valor esperado dos estimadores MQO

• Agora vamos assumir que omitimos uma variável que faz parte do
modelo populacional.
• Já dissemos que isso causa viés nos estimadores MQO.
• Seja o seguinte modelo populacional verdadeiro:

y = β0 + β1 x1 + β2 x2 + u, (L5.10)

em que os Pressupostos 1 a 4 são atendidos.


• Digamos que nosso principal interesse é em β1 , o efeito parcial de
x1 em y .
• Mas para obter um estimador não enviesado de β1 temos que
estimar uma regressão de y contra x1 e x2 .
16 of 40
Viés de variável omitida
Lecture 5: Valor esperado dos estimadores MQO

• Mas devido à nossa ignorância ou indisponibilidade de dados, estimamos


a equação

ỹ = β̃0 + β̃1 x1 , (L5.11)

tal que ∼ é para enfatizar que β̃1 vem de um modelo mal especificado.
• Assumindo x̃2 = δ̃0 + δ̃1 x1 , e substituindo esse resultado em (L5.10),
temos:

ŷ = β̂0 + β̂1 x1 + β̂2 (δ̃0 + δ̃1 x1 )


= (β̂0 + β̂2 δ̃0 ) + (β̂1 + β̂2 δ̃1 )x1 . (L5.12)

• Comparando (L5.11) e (L5.12), temos que β̃1 = β̂1 + β̂2 δ̃1 .

17 of 40
Viés de variável omitida
Lecture 5: Valor esperado dos estimadores MQO

• Como δ̃1 depende apenas das v.i. amostrais, podemos tratá-lo como uma
constante ao calcularmos a esperança de β̃1 .
• Como o modelo satisfaz os Pressupostos 1 a 4, sabemos que β̂1 e β̂2 são
estimadores não enviesados de β1 e β2 . Assim:

E(β̃1 ) = E(β̂1 + β̂2 δ̃1 ) = E(β̂1 ) + E(β̂2 )δ̃1


= β1 + β2 δ̃1 . (L5.13)

• Portanto, o viés em β̃1 é:

Viés(β̃1 ) = E(β̃1 ) − β1 = β2 δ̃1 . (L5.14)

• Esse é o chamado viés de variável omitida.


18 of 40
Direção do viés
Lecture 5: Valor esperado dos estimadores MQO

• Há dois casos em que β̃1 será não enviesado:


1. Quando x2 não fizer parte do modelo populacional (β2 = 0),
2. Quando x1 e x2 forem não correlacionados (δ̃1 = 0).
• Quando x1 e x2 forem correlacionados, δ̃1 terá o mesmo sinal da
correlação entre x1 e x2 .
• O sinal do viés depende dos sinais de β2 e de δ̃1 :

Corr (x1 , x2 ) > 0 Corr (x1 , x2 ) < 0


β2 > 0 Viés positivo Viés negativo
β2 < 0 Viés negativo Viés positivo

19 of 40
Exemplo 1
Lecture 5: Valor esperado dos estimadores MQO

• Suponha que o modelo log(wage) = β0 + β1 educ + β2 abil + u


satisfaz os Pressupostos 1 a 4.
• Os arquivo de dados WAGE1.dta não contém a variável habilidade,
de forma que estimamos β1 com uma regressão simples.
• Qual essa estimativa (β̃1 )?
• Qual a direção esperada do viés?
• Isso quer dizer que β̃1 estimado é maior ou menor que β1 na
população?

20 of 40
Viés de variável omitida: caso geral
Lecture 5: Valor esperado dos estimadores MQO

• Suponha o modelo populacional:


y = β0 + β1 x1 + β2 x2 + β3 x3 + u, (L5.15)
que satisfaz os Pressupostos 1 a 4, mas omitimos a variável x3 e
estimamos
ỹ = β̃0 + β̃1 x1 + β̃2 x2 . (L5.16)

• Suponha que x2 e x3 são não correlacionados, mas que x1 é


correlacionado com x3 .
• É tentador pensar que β̃1 é enviesado e que β̃2 não é.
• Mas isso não é verdade, a não ser que x1 e x2 sejam não correlacionados.
• Com relação à direção do viés, é difícil saber porque as três variáveis
podem todas apresentar correlações entre si.
21 of 40
Introdução
Lecture 5: Variância dos estimadores MQO

• Agora iremos obter a variância dos estimadores MQO para ter,


além da medida de tendência central de β̂j , uma medida da sua
distribuição amostral.
• Adicionaremos um quinto pressuposto, o da homoscedasticidade.
• Com esse pressuposto, (i) as equações ficam mais simples, e (ii) o
MQO ganha uma importante propriedade em relação à sua
eficiência.

22 of 40
Pressuposto 5: homoscedasticidade
Lecture 5: Variância dos estimadores MQO

• O termo de erro u tem a mesma variância para qualquer valor das


variáveis explicativas.
• Em outras palavras,

V(u|x1 , . . . , xk ) = σ 2 . (L5.17)

• Se esse pressuposto é falso, o modelo terá heteroscedasticidade.


• Os Pressupostos 1 a 5 são conhecidos como os Pressupostos de
Gauss-Markov para regressão cross-section.

23 of 40
Teorema 2
Lecture 5: Variância dos estimadores MQO

Variância amostral dos estimadores dos coeficientes de inclinação

• Sob os Pressupostos 1 a 5, condicional aos valores amostrais das variáveis


independentes,

σ2
V(β̂j ) = , (L5.18)
SSTj (1 − Rj2 )
Pn
para j = 1, 2, . . . , k, SSTj = i=1 (xij − x̄j )2 é a variação amostral total
em xj , e Rj2 é o R-quadrado da regressão de xj contra todas as outras
variáveis independentes, incluindo o intercepto.
• O tamanho da variância de β̂j tem muita importância. Uma variância
maior implica um estimador menos preciso, que se traduz em um maior
intervalo de confiança e testes de hipótese menos precisos.
24 of 40
Teorema 2: prova
Lecture 5: Variância dos estimadores MQO

• Seja a equação (L5.6) novamente:


Pn
r̂i1 ui
β̂1 = β1 + Pi=1
n 2
.
i=1 r̂i1

• Sob o Pressuposto 5, V(ui |X) = σ 2 para todo i = 1, . . . , n.


• Sob amostragem aleatória, ui são independentes, mesmo condicional em
X. Assim,
Pn 2 Pn 2 2
i=1 r̂i1 V(ui |X) i=1 r̂i1 σ σ2
V(β̂1 |X) = Pn 2 2 = Pn 2 2 = Pn r̂ 2 .
i=1 r̂i1 i=1 r̂i1 i=1 i1

• Como ni=1 r̂i1 2


P
é aPsoma dos resíduos ao quadrado da regressão de x1
n 2
contra x2 , . . . , xk , i=1 r̂i1 = SST1 (1 − R12 ).
25 of 40
Componentes da variância do
estimador MQO
Lecture 5: Variância dos estimadores MQO

• A equação (L5.18) mostra que a variância dos β̂j dependem de três


fatores: σ 2 , SSTj , e Rj2 .
• Vamos tratar agora de cada uma dessas componentes em separado.

26 of 40
Componentes: variância do erro
Lecture 5: Variância dos estimadores MQO

• Um valor maior de σ 2 implica em uma maior variância do


estimador MQO.
• Em outras palavras, quando mais ruído na equação, mais difícil
estimar o efeito parcial de qualquer v.i. sobre y .
• Isso se reflete em uma maior variância do estimador MQO.
• Como σ 2 é uma característica da população, o tamanho da
amostra não faz diferença.
• É também uma componente que é desconhecida (pois é da
população). Por isso iremos obter mais tarde um estimador não
enviesado pela ela.
• Para uma dada v.d. y , só há uma maneira de diminuir σ 2 :
aumentando a quantidade de variáveis explicativas no modelo.
27 of 40
Componentes: variação amostral total
Lecture 5: Variância dos estimadores MQO

• Quanto maior a variação amostral total em xj , menor o valor de


V(β̂j ). Portanto, preferimos mais variação amostral em xj quanto
possível.
• Uma maneira de aumentar a variação amostral total em xj é
aumentar o tamanho da amostra.
• Quando SSTj é pequena, V(β̂j ) pode ficar muito grande,
aproximando-se de infinito quando SSTj vai para zero.
• O caso extremo de não haver variação amostral em xj , SSTj = 0, é
uma violação do Pressuposto 3.

28 of 40
Componentes: relação linear entre v.i.
Lecture 5: Variância dos estimadores MQO

• Essa é a componente mais difícil de interpretar.


• Rj2 é obtida pela regressão envolvendo apenas as v.i. no modelo
original, em que xj faz o papel de v.d.
• Como Rj2 é uma medida do grau de ajuste de uma regressão, a
medida que seu valor se aproxima de 1, isso indica que as demais
v.i. explicam muito da variável xj .
• Quando Rj2 aumenta, o valor de V(β̂j ) fica cada vez mais elevado.

29 of 40
Componentes: relação linear entre v.i.
Lecture 5: Variância dos estimadores MQO

50

45

40

35
Variance of estimated βj

30

25

20

15

10

0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
R2j
30 of 40
Componentes: relação linear entre v.i.
Lecture 5: Variância dos estimadores MQO

• Para um dado valor de σ 2 e SSTj , o menor valor de V(β̂j ) é obtido


quando Rj2 = 0.
• Isso só ocorre se xj for não correlacionado com todas as outras v.i., algo
extremamente raro.
• O outro extremo é quando Rj2 = 1, que está fora de cogitação porque
viola o pressuposto 3: não pode haver combinação linear entre as
variáveis independentes.
• A situação mais relevante é quando Rj2 está próximo de um. Pela figura
anterior, vemos que V(β̂j ) fica muito grande quando isso ocorre.
• Uma correlação alta (mas não perfeita) entre duas ou mais v.i. é
chamada de multicolinearidade.
• Deve ficar claro que Rj2 próximo de 1 não viola o Pressuposto 3.
31 of 40
Multicolinearidade
Lecture 5: Variância dos estimadores MQO

• O “problema” da multicolinearidade não é muito bem definido.

Exemplo:
• Quando Rj2 = 0.9, isso significa que 90% da variabilidade de xj é
explicada pelas demais variáveis.
• Contudo, o efeito sobre V(β̂j ) depende ainda dos tamanhos de σ 2
e SSTj .
• Um valor pequeno de SSTj (como em amostras pequenas)
também inflaciona V(β̂j ).

32 of 40
Resolvendo o “problema”
Lecture 5: Variância dos estimadores MQO

• Em nossa área, geralmente somos coletores de dados “passivos”.


• Assim, para mitigar o “problema” de multicolinearidade, uma
solução é colocar mais dados.
• Outra saída é retirar alguma das v.i. do modelo a fim de reduzir a
multicolinearidade.
• Infelizmente, esta solução pode enviesar os coeficientes se a
variável pertencer ao modelo populacional.

33 of 40
Multicolinearidade afeta o que?
Lecture 5: Variância dos estimadores MQO

• Considere o modelo com três variáveis independentes:

y = β0 + β1 x1 + β2 x2 + β3 x3 + u,

tal que x2 e x3 são altamente correlacionadas.


• Assim, V(β̂2 ) e V(β̂3 ) podem ser muito grandes.
• Mas a correlação entre x2 e x3 não afeta diretamente V(β̂1 ).
• Se nosso parâmetro de interesse for β1 , não importa a correlação
alta entre x2 e x3 .

34 of 40
Medindo multicolinearidade
Lecture 5: Variância dos estimadores MQO

• É possível calcular algumas estatísticas para determinar a


severidade da multicolinearidade.
• A mais comum é o fator de inflação da variância, (VIF).
• O VIF para o coeficiente j é: VIFj = 1/(1 − Rj2 ).
• Ceteris paribus, gostaríamos que VIF fosse pequeno: alguns
pesquisadores, arbitrariamente, adotam VIF > 10 como indicador
de multicolinearidade.
• Haverá um VIF para cada coeficiente da regressão. Podemos
ignorar VIF > 10 das variáveis que são apenas controle.
• Mas devemos lembrar que apenas VIF não é suficiente para dizer
que V(β̂j ) é muito grande.
35 of 40
Variância em modelos mal especificados
Lecture 5: Variância dos estimadores MQO

• Existe um tradeoff entre viés e variância.


• Seja o modelo populacional verdadeiro e que satisfaz os
pressupostos de Gauss-Markov:

y = β0 + β1 x1 + β2 x2 + u.

• Vamos considerar dois estimadores de β1 . O primeiro, β̂1 , vindo da


regressão múltipla:

ŷ = β̂0 + β̂1 x1 + β̂2 x2 . (L5.19)

• Se omitirmos x2 do modelo de regressão, obtemos o estimador β̃1 :

ỹ = β̃0 + β̃1 x1 . (L5.20)


36 of 40
Variância em modelos mal especificados
Lecture 5: Variância dos estimadores MQO

• Quando β2 6= 0, equação (L5.20) exclui uma variável relevante e


β̃1 é enviesado (a não ser que x1 e x2 sejam não correlacionados).
• Por outro lado, β̂1 não tem viés para qualquer valor de β2 ,
incluindo β2 = 0.
• Se viés for o único critério, iremos preferir estimar β̂1 que β̃1 .
• Mas quando consideramos também a variância, temos:

V(β̂1 ) = σ 2 /[SST1 (1 − R12 )], (L5.21)


2
V(β̃1 ) = σ /SST1 . (L5.22)

• Comparando (L5.21) e (L5.22), temos que V(β̃1 ) é sempre menor


que V(β̂1 ) (exceto quando x1 e x2 são não correlacionados, quando
serão iguais).
37 of 40
Variância em modelos mal especificados
Lecture 5: Variância dos estimadores MQO

• Assumindo que x1 e x2 são correlacionados, podemos concluir:


1. Quando β2 6= 0, β̃1 é enviesado, β̂1 é não enviesado, e V(β̃1 ) < V(β̂1 ).
2. Quando β2 = 0, β̃1 e β̂1 são não enviesados, e V(β̃1 ) < V(β̂1 ).
• Se β2 = 0, é claro perceber que é melhor estimar β̃1 .
• O caso 1 é mais complicado. Contudo, há duas razões para incluir
x2 na regressão:
1. O viés em β̃1 não diminui quando a amostra aumenta de tamanho.
Por outro lado, tanto V(β̃1 ) como V(β̂1 ) vão pra zero quando n
aumenta. Em outras palavras, a multicolinearidade induzida por x2 se
torna menos importante a medida que n cresce. Assim, em amostras
grandes, preferimos β̂1 .
2. Quando β2 6= 0 e x2 é excluída da regressão, a variância do erro (σ 2 )
aumenta porque ela passa a conter a parte de x2 .
38 of 40
Estimando σ 2
Lecture 5: Variância dos estimadores MQO

• Sabemos que σ 2 = E(u 2 ), mas não observamos os valores dos


termos de erro, ui .
• Após obtermos estimativas para os parâmetros βi por MQO,
podemos calcular ûi .
• O estimador não enviesado de σ 2 é
Pn 2
i=1 ûi
σ̂ 2 = , (L5.23)
n − (k + 1)

tal que k + 1 é o número de parâmetros estimados no modelo.

39 of 40
BLUE
Lecture 5: Variância dos estimadores MQO

• Em resumo, sob os Pressupostos 1 a 4, o MQO é não enviesado.


• Porém, não é o único método que produz estimadores não
enviesados quando esses quatro pressupostos são verdadeiros.
• Quando incluímos o Pressuposto 5, é possível mostrar que os
estimadores MQO são BLUE (best linear unbiased estimators):
◦ Best: tem a menor variância dos estimadores.
◦ Linear: pode ser expresso como uma função linear.
◦ Unbiased: produz estimadores não enviesados.

40 of 40