Apostila Econometria

Econometria
I
Fábio Heleno Mourão da Costa

Anderson Litaiff Feitosa da Costa
Universidade do Estado do Amazonas - UEA

Manaus-Amazonas
2013
2
Universidade do Estado do Amazonas - UEA
Econometria I
(102)
Fábio Heleno Mourão da Costa, M. Sc.

Anderson Litaiff Feitosa da Costa, M. Sc.
Manaus
2013
Nota dos autores
Este material foi desenvolvido a partir da seleção de vários textos, na grande maioria das
vezes, utilizando na íntegra o texto original. Com isto, os autores deste material, não possuem
nenhuma pretensão de originalidade acerca do conteúdo que expõem nas próximas páginas
deste trabalho. O objetivo foi, tão somente, disponibilizar aquilo que há de melhor em termos
didáticos sobre o assunto tratado aqui. Esperamos que os alunos possam tirar o máximo
proveito deste material e que possam sugerir o aperfeiçoamento do mesmo. As referencias dos
textos originais encontram-se na parte final.
Abraços,
Fábio Heleno Mourão da Costa

Anderson Litaiff Feitosa da Costa
SUMÁRIO
1 INTRODUÇÃO À ECONOMETRIA 5
2 TEORIA DA CORRELAÇÃO 13
3 REGRESSÃO LINEAR SIMPLES 23
4 REGRESSÃO LINEAR MÚLTIPLA 54
1 INTRODUÇÃO À ECONOMETRIA
[…] A leading model builder asserted in public that the world

is complicated and therefore we need complicated models. Before two
hundred or so in the audience, I asked him, ‘How do you know’? He
mumbled a few words and went on with his religious tract on the
virtues of complexity (ZELLNER, 1996, p. 5).
1.1 O que é econometria?
Econometria é a junção de duas palavras gregas, economia e medida, significando

“medição econômica” (GUJARATI; PORTER, 2011, p. 25)1. Koutsoyiannis afirma que:
Econometria é uma combinação de teoria econômica,

economia matemática e estatística, mas é completamente distinta de
cada um destes três ramos da ciência [...] É um tipo especial de análise
e pesquisa econômica em que a teoria econômica geral, formulada em
termos matemáticos, é combinada com a medição empírica dos
fenômenos econômicos (KOUTSOYIANNIS, 1977, p. 3, tradução
nossa).
Enfim, Intriligator (1978, p. 2, tradução nossa) define econometria como “[...] o ramo
da economia preocupado com a estimação empírica das relações econômicas”. Entretanto,
cabe ressaltar que a econometria não se limita à economia e finanças, sendo “[...] [utilizada
também] por cientistas sociais, em particular, pesquisadores de história, ciência política e
sociologia” (HILL; GRIFFITHS; JUDGE, 2010, p. 1), de modo que “econometria é uma
ciência social. Seu objeto de estudo é a sociedade e o comportamento das instituições e
indivíduos da qual se compõe” (HILL; GRIFFITHS; JUDGE, 1993, p. 1, tradução nossa).
Reformulando Intriligator, pode-se ter o seguinte conceito: econometria é o ramo da economia
preocupado com a estimação empírica de relações sociais, econômicas ou não.
O conceito de Goldberger (1964, p. 1, tradução nossa) é o mais completo:
“econometria pode ser definida como a ciência social em que ferramentas da teoria
econômica, matemática e inferência estatística são aplicadas à análise de fenômenos
econômicos [ou sociais]”.
Segundo Koutsoyiannis (1977, p. 8) e Intriligator (1978, p. 5), os objetivos da
econometria são análise (estrutural) da teoria econômica (por meio de inferência estatística),
formulação e avaliação de políticas e previsão.
1
Outras definições de econometria podem ser encontradas em Tintner (1953).
6
Koutsoyiannis (1977, p. 9-10, tradução nossa) divide a econometria em dois ramos:

teórica (pura), que estuda e desenvolve métodos de análise mais apropriados; e aplicada, que
estuda as aplicações da econometria teórica na ciência econômica, “para análise do fenômeno
econômico e previsão do comportamento econômico”. Ainda existem aplicações
econométricas que exigem uma econometria teórica (praticamente) própria, como seria o caso
da econometria espacial.
1.2 Um pouco mais sobre o método econométrico: sobre dados e modelos
1.2.1 Dados
Os dados são o conjunto de fatos quantitativamente expressos utilizados na análise

econométrica (INTRLIGATOR, 1978, p. 57), e, portanto, tomam a forma de variáveis.
Segundo Wooldridge (2006, p. 5-9), os dados econométricos podem ter as seguintes
estruturas:
a) Dados de corte transversal ou cross-section: conjunto de observações de vários

indivíduos coletadas em um determinado momento;
b) Dados de séries temporais: conjunto de observações de um indivíduo em
intervalos discretos de tempo;
c) Cortes transversais agrupados: é um conjunto de observações de dados de corte
transversal em períodos diferentes, agrupados por indivíduo. Neste caso, a
observação em períodos diferentes não é capaz a constituir uma série temporal,
apenas estendendo a amostra;
d) Dados de painel ou longitudinais: é uma combinação de dados de corte
transversais e série temporal. Algo como uma série temporal de dados de corte
transversal, isto é, um conjunto de indivíduos observados ao longo de
intervalos discretos de tempo.
Cada estrutura de dados possui métodos de análise próprios, não sendo correto, por
exemplo, aplicar métodos de análise de corte transversal a dados em painel. Este curso foca na
análise de estruturas de dados em cross-section.
Intriligator (1978) classifica os dados quanto à origem da seguinte maneira:
a) Dados experimentais: estes dados são obtidos através de experimentos

controlados, onde as influências no sistema são controladas pelo
experimentador. Embora sua utilização em outros ramos da economia seja
difícil em virtude da dificuldade em controlar influências sociais, estes dados
são frequentes em pesquisas de economia comportamental e teoria dos jogos
7
experimental2;
b) Dados não experimentais: também chamados de dados observacionais ou
dados gerados passivamente (passively generated, no original), são aqueles
provenientes de observações onde não há controle experimental. Este tipo de
dados é mais comum em ciências sociais, embora também seja usado em
ciências exatas. De fato, estão relacionados a áreas onde a experimentação é
impossível ou praticamente impossível, como seria o caso da economia e da
astrofísica.
Outras classificações de dados não experimentais são indicadas em Hill, Griffiths e

Judge (1993), como:
1. Quanto ao nível de agregação:

a. Microdados: dados coletados a partir de unidades econômicas
individuais de tomada de decisão. Tendem a tomar a estrutura de dados
em painel, já que avaliam o comportamento de famílias ou firmas
individualmente ao longo do tempo (INTRILIGATOR, 1978; HILL;
GRIFFITHS; JUDGE, 1993);
b. Macrodados: dados resultantes da agregação entre indivíduos.
2. Quanto aos aspectos temporais:
a. Fluxos: dados sobre medidas coletadas ao longo do tempo;
b. Estoque: dados coletados em um determinado momento.
3. Quanto à natureza:
a. Quantitativos: dados numéricos e transformações numéricas (dados per
capita, preços reais etc.);
b. Qualitativos: relacionam-se a características do tipo “sim ou não”, i. e.,
“possui ou não possui tal característica".
Gujarati e Porter (2011, p. 45) classificam os dados quanto a escala de medição dos
dados:
1. Escala de razão: neste caso, “dada uma variável X , que assume dois valores,
X 1 e X 2 , a razão X1 X 2 e a distância X1 − X 2 são quantidades significativas.
Também há um ordenamento natural (ascendente ou descendente) dos valores
ao longo da escala” (GUJARATI, PORTER, 2011, p. 45). Chamaremos as três
premissas, respectivamente de: significância da razão, significância da
distância e ordenamento natural. Exemplos: crescimento econômico (variação
e razão do PIB);
2. Escala de intervalo: as variáveis obedecem às propriedades de significância da
distância e do ordenamento natural. Exemplos: temperatura, altura, períodos de
tempo etc.;
3. Escala ordinal: variáveis que satisfazem apenas à propriedade de ordenamento
natural. Exemplos: conceitos, curvas de indiferença etc.;
4. Escala nominal: variáveis que não obedecem nenhuma das três propriedades.
Exemplos: estado civil, gênero etc.
2
Vide Kalisch, Milnor, Nash e Nering (1954, apud NASH, 1996). Uma leitura introdutória para economia
experimental é encontrada em Roth (1993).
8
1.2.1 Modelos
De acordo com Malinvaud
Um modelo é a representação formal das noções que temos

sobre um fenômeno [...] [de modo que] essas noções, normalmente
chamadas ‘teoria do fenômeno’, são expressas por um conjunto de
suposições sobre os elementos essenciais do fenômeno e as leis que o
regulam (MALINVAUD, 1970, p. 44, tradução nossa).
Barbancho (1970, apud MATOS, 2000, p. 21) diferencia modelos teóricos de modelos
econométricos, tendo em vista que a variante econométrica possui, necessariamente, “[...] [a
especificação da] forma matemática, definição das variáveis e números de equações”
(MATOS, 2000, p. 21).
Também existe diferença entre modelos determinísticos e estatísticos (probabilísticos
ou estocásticos). Modelos determinísticos são exatos, não possuindo erros, ao contrário dos
modelos estatísticos. Segundo Hill, Griffiths e Judge (1993, p. 7, itálico no original, tradução
nossa), ao interpretar o erro como um componente estocástico, “[...] converte[-se] o modelo
econômico em um modelo estatístico-probabilístico e nos dá base para inferência estatística,
isto é, uma base para estimar parâmetros desconhecidos e testar hipóteses sobre eles”.
Ao comentar sobre a natureza estocástica do modelo econométrico, Intriligator
relaciona a desenvolvimentos da física à importância de modelos estocásticos
[...] Modelos iniciais, como aqueles da mecânica

Newtoniana, são determinísticos, enquanto modelos posteriores, como
os da mecânica quântica, são estocásticos. De fato, a revolução
quântica [quantum revolution, no original] na física consistiu na
observação revolucionária de que não se podia identificar, por
exemplo, a exata localização de uma partícula elementar, mas se podia
determinar uma distribuição de probabilidade para a sua localização
(INTRILIGATOR, 1978, p. 25, tradução nossa).
Os modelos são compostos de relações. Estas relações tomam a forma de equações ou

funções, podendo, segundo a classificação de Barbancho (1970, apud MATOS, 2000, p. 22),
ser classificadas em
a. Comportamentais;
b. Institucionais ou legais;
c. Técnicas;
9
d. Contábeis3.
Ainda segundo Barbancho (1970, apud MATOS, 2000, p. 22-23), os modelos podem
ser classificados nas seguintes categorias:
1. Quanto à forma funcional4:

a. Lineares;
b. Não lineares;
2. Quanto ao número de equações:
a. Uniequacional;
b. Multiequacional;
3. Quanto à associação das variáveis em relação ao tempo:
a. Estáticos: a relação entre a variável explicativa e a variável explicada
ocorre ao mesmo tempo, sem defasagem;
b. Dinâmicos: a relação inclui defasagens entre a variável explicada e
explicativa;
4. Quanto à finalidade:
a. Modelos de decisão: sua finalidade é auxiliar a tomada de decisão;
b. Modelos de previsão.
1.3 Uma breve história da econometria
O termo econometria foi usado pela primeira vez por Ragnar Frisch em 1926
(KIRSTEN, 1991, p. 44, apud MATOS, 2000, p. 16; BRUE, 2000, p. 344; LANGE, 1963, p.
15), embora sua história remonte à Quesnay e Charles Davenant, que “[...] definiu ‘aritmética
política’ como a ‘arte de raciocinar por números com relação a coisas relacionadas [sic] ao
governo’”, (BRUE, 2011, p. 344; LANGE, 1963, p.17). Davenant, segundo Stigler (1965,
apud MADDALA, 2003, p. 3), foi o primeiro a realizar um estudo empírico de demanda em
1699.
O próprio termo econometria possui aspectos históricos na sua adoção. De fato, Brue
(2011, p. 344) atribui sua origem ao termo biometria, uma aplicação de matemática e
estatística à biologia, relacionada à Francis Galton e Karl Pearson (SALSBURG, 2004), que
posteriormente tornou-se um ramo independente da biologia (LANGE, 1963, p. 15).
Ainda conforme Lange (1963, p.17), “a Econometria, como método distinto de estudo
da vida econômica, surgiu antes da Primeira Guerra Mundial e se desenvolveu com especial
velocidade após a guerra”. Segundo Tinbergen (1953, p. 9) e Barbancho (1970, p.10-11, apud
3
Vale ressaltar que identidades contábeis devem ser usadas com atenção em modelos econométricos, evitando
realizar relações causais entre identidades.
4
Neste caso, a classificação toma como critério as variáveis. Observe que um modelo linear nas variáveis pode
ser não linear nos parâmetros e vice-versa.
10
MATOS, 2000, p. 16), os trabalhos pioneiro em econometria foram os estudos de 1919 e 1925
de H. L. Moore.
Matos (2000, p. 16-17) também cita estudos importantes de Frisch (1927), Working (1927). O
autor divide a história da econometria em quatro períodos: antes de 1930, 1930-1954, 1955-
1969 e pós-1969. Os pontos principais destes períodos são:
1. Antes de 1930: busca de meios para testar teoria e realidade;

2. 1930-1954: fundação da Econometric Society; início da Comissão Cowles para
Pesquisa Econômica; publicação da revista Econometrica; estudo de Tinbergen sobre
modelos macroeconômicos multiequacionais;
3. 1955-1969: introdução de novos métodos de estimação e avaliação de
modelos;
4. Pós-1969: contribuições em análise de séries temporais e de dados em painel.
A Comissão Cowles tinha como lema “ciência é medida” (ROMBOUTS, 2004, p. 12,
tradução nossa)5 e, conforme Christ (1994, p. 30), “[...] criou uma revolução nos métodos e na
prática econométrica durante seus anos na Universidade de Chicago de 1939 a 1955”,
especialmente em modelos multiequacionais.
Outro estudo interessante que aborda a história da econometria é Heckman (1992),
onde é feita uma análise das contribuições de Haavelmo.
1.4 Referências
CHRIST, Carl F. The Cowles Commission’s Contributions to Econometrics at Chicago,

1939-1955. In: Journal of Economic Literature, v. 32, n. 1, mar. 1994, p. 30-39. Disponível
em: <http://www.jstor.org/stable/2728422>. Acesso em: 07 dez. 2012.
GOLDBERGER, Arthur. Econometric Theory. New York: John Wiley, 1964.
GUJARATI, Damodar N.; PORTER, Dawn C. Econometria Básica. Tradução Denise

Durante, Mônica Rosemberg, Maria Lúcia G. L. Rosa. 5. ed. Porto Alegre: AMGH, 2011.
HECKMAN, James J. Haavelmo and the Birth of Modern Econometrics: A Review of the
History of Econometric Ideas by Mary Morgan. In: Journal of Economic Literature, v. 30,
5
Rombouts (2004) apresenta a história da econometria pós-1930 a partir de suas principais revistas.
Teixeira (1984) faz uma breve análise da histórica da economia quantitativa e da econometria, focando também
no Brasil, especialmente na Revista Brasileira de Econometria.
11
n. 2, jun. 1992, p. 876-886. Disponível em: <http://www.jstor.org/stable/2727705>. Acesso

em: 07 dez. 2012.
HILL, R. Carter; GRIFFITHS, William E.; JUDGE, George G. Econometria. 3. ed. São
Paulo: Saraiva, 2010.
_____. Learning and Practicing Econometrics. Hoboken: John Wiley, 1993.
INTRILIGATOR, Michael D. Econometric models, techniques, and applications.

Englewood Cliffs: Prentice-Hall, 1978.
KALISCH, Gerhard K.; MILNOR, J. W.; NASH, John Forbes; NERING, E. D. Some
experimental n-person games. In: NASH, John Forbes. Essays in game theory. Brookfield,
US: Edward Elgar, 1996.
KOUTSOYIANNIS, A. [Anna]. Theory of Econometrics. 2. ed. London: Macmillan, 1977.
LANGE, Oskar. Introdução à econometria. São Paulo: Fundo de Cultura, 1963.
MADDALA, G. S. Introdução à econometria. Tradução de Leonardo Weller; revisão

técnica de Paulo Tafner. 3. ed. São Paulo: LTC, 2003.
MALINVAUD, E. [Edmund]. Statistical methods of Econometrics. 2. ed. rev. Translated by

Mrs. A. Silvey. New York: Elsevier, 1970.
MATOS, Orlando Carneiro de. Econometria básica: teoria e aplicações. 3. ed. rev. e ampl.
São Paulo: Atlas, 2000.
ROMBOUTS, Jeoren V. K. Econometrics, 1930 to the present. 22 nov. 2004. Disponível

em: <http://zonecours.hec.ca/documents/197342.seance11notes.pdf>. Acesso em: 07 dez.
2012.
ROTH, Alvin E. On the Early History of Experimental Economics. In: Journal of the
History of Economic Thought, n. 15, Fall 1993, p. 184-209.
SALSBURG, David. Uma senhora toma chá...: como a estatística revolucionou a ciência no
século XX. Tradução de José Maurício Gradel; revisão técnica de Suzana Herculano-Houzel.
Rio de Janeiro: Zahar, 2009.
TEIXEIRA, Joanílio Rodolpho. Uma perspectiva histórica da economia quantitativa e do

papel da Sociedade Brasileira de Econometria – uma visão pessoal. In: Revista Brasileira de
Econometria, v. 4, n. 2, nov. 1984. Disponível em:
12
<http://bibliotecadigital.fgv.br/ojs/index.php/bre/article/view/3141>. Acesso em: 09 dez.

2012.
TINTNER, Gerhard. The Definitions of Econometrics. In: Econometrica, v. 21, n. 1, jan.

1953, p. 31-40. Disponível em: <http://www.jstor.org/stable/1906941>. Acesso em: 07 dez.
2012.
WOOLDRIDGE, Jeffrey M. Introdução à econometria: uma abordagem moderna. Tradução

Rogério Cézar de Souza, José Antônio Ferreira; revisão técnica Nelson Carvalheiro. São
Paulo: Pioneira Thomson Learning, 2006.
ZELLNER, Arnold. Past, present and future of econometrics. In: Journal of Statistical
Planning and Inference, n. 49, 1996, p. 3-8. Disponível em: <
http://www.sciencedirect.com/science/article/pii/0378375895000275>. Acesso em: 07 dez.
2012.
3 TEORIA DA CORRELAÇÃO
O presente capítulo busca apresentar o estudo de correlação, como uma introdução ao

estudo da regressão linear simples.
Dividiu-se então em três subseções. A primeira subseção apresenta o conceito de
correlação e algumas ideias a seu respeito. A segunda demonstra os aspectos algébricos
relacionados ao coeficiente de correlação. A terceira é a resolução de um exercício proposto
em Koutsoyiannis (1977, p. 46).
2.1 Conceito
Segundo Wonnacott e Wonnacott (1978, p. 98), correlação e regressão estão “[...]

intimamente ligadas matematicamente, a correlação torna-se muitas vezes um auxílio útil na
análise de regressão”. Conceitualmente, correlação é uma medida do grau de associação entre
variáveis.
Entretanto, cabe fazer algumas ressalvas sobre esta medida.
Embora correlação seja comumente associada à causalidade, isso é um erro:
causalidade e correlação não é a mesma coisa. Correlação pode sugerir causalidade, ao indicar
que as variáveis estão associadas, porém não há identificação de causa e efeito. De fato, até a
regressão se baseia em relações de causalidade hipotéticas.
Diferente da regressão, não pode se falar em variáveis dependentes ou independentes,
apenas em variáveis aleatórias (GUJARATI; PORTER, 2011, p. 43-44). Isto é, a variável X
não tem o efeito quantificável em Y , como no caso da regressão, podendo-se apenas afirmar
que elas variam simultaneamente com determinado grau de associação.
2.2 O coeficiente de correlação
Antes de analisar diretamente o cálculo da correlação linear, é interessante lembrar o

cálculo da covariância. Conceitualmente, covariância e correlação são bastante similares,
mudando apenas quando ao modo de interpretação das estatísticas, já que a correlação é uma
grandeza contida no intervalo [−1,1] , como será visto mais adiante.
14
Define-se covariância populacional como
S XY = E ⎡⎣( X i − µ X )(Yi − µY )⎤⎦ (2.1)
ou, ainda, considerando xi e yi os desvios das observações em relação à média,
∑ ⎡⎣( X i − X )(Yi − Y )⎤⎦

E ( xi yi ) = i =1
n
n
∑ ( X Y − Y X − X Y + XY )
i i i i
= i =1
n
n n n
∑ X iYi − X ∑Yi − Y ∑ X i + nXY

= i =1 i =1 i =1
n
n n
n ∑ X i ∑ Yi
∑X Y − i i
i =1
n
i =1
= i =1
n
n n n
∑ X iYi ∑ X i ∑Yi
= i =1
− i =1
2
i =1
= E ( XY ) − E ( X ) E (Y ) (2.2)
n n
O estimador da covariância é ligeiramente diferente
n n n n
∑ xi yi ∑ X iYi ∑ X i ∑Yi
Sˆ XY = i =1
= i =1
− i =1 i =1
. (2.3)
n −1 n −1 n ( n − 1)
A justificativa1 para esta correção é que “suponha observamos o exatamente o mesmo
1
Pindyck e Rubenfeld (2004, p. 56-57) demonstram matematicamente que
15
tipo de dispersão numa amostra de tamanho dobrado; nosso índice seria também dobrado,
embora o retrato de como estas variáveis variam juntas seja o mesmo” (WONNACOTT;
WONACOTT, 1978, p. 101), ou seja, o valor absoluto do produto dos desvios tenderia a
crescer com a amostra (HOFFMANN, 2006, p. 283-284).
Existem poucas diferenças entre os coeficientes de correlação populacional e o
amostral. Embora o foco deste curso seja a análise do segundo, o primeiro é calculado a partir
da fórmula
S XY
ρ= (2.4)
σ Xσ Y
Por sua vez, o estimador do coeficiente de correlação é dado pela fórmula
⎡ n ( X − X )2 ⎤
⎢∑ i
⎥
⎥ = σ X , pois se exclui a informação utilizada para calcular a média da amostra.
2
E ⎢ i =1
⎢ n −1 ⎥
⎣ ⎦
16
s XY
rˆXY =
s X ⋅ sY
n
∑ ⎡⎣( X i − X )(Yi − Y )⎤⎦

= i =1
n n
∑ ( X i − X ) ⋅ ∑ (Yi − Y )
2 2
i =1 i =1
n
∑x y i i
= i =1
n n
∑ xi2 ⋅ ∑ yi2
i =1 i =1
n n
n ∑ X ⋅ ∑Y i i
∑X Y − i i
i =1
n
i =1
= i =1
⎡ ⎛ n ⎞ ⎤⎡
2
⎛ n ⎞ ⎤
2
⎢ n ⎜ ∑ Xi ⎟ ⎥ ⎢ n ⎜ ∑ Yi ⎟ ⎥
⎢ X − ⎝ i =1 ⎠ ⎥ ⎢ Y − ⎝ i =1 ⎠ ⎥
⎢∑ ⎥ ⎢∑
2 2 (2.5)
n ⎥
i i
i =1 n i =1
⎢ ⎥⎢ ⎥
⎢⎣ ⎥⎦ ⎢⎣ ⎥⎦
n n n
Observando que ∑x y i i ≤ ∑x ⋅∑ y 2
i
2
i
, deduz-se que rXY ∈ [−1,1] . Notando
i =1 i =1 i =1
n
também que o sinal de r depende do valor de ∑x y .
i =1
i i
A interpretação do coeficiente é
1. Quando r > 0, a correlação linear é positiva, isto é, quando elas aumentam ou

diminuem juntas;
2. Quando r < 0 , a correlação linear é negativa, significando que as variáveis
possuem relação oposta;
3. Quando r = 0, não há correlação linear entre as variáveis.
Geometricamente, o coeficiente de correlação é similar à função cosseno, como expõe

17
Hadley (1969, p. 32-33): x , y e θ são, respectivamente, vetores que representam o desvio

em relação à média, e o ângulo entre eles; o coeficiente de correlação entre é igual ao cosseno
deste ângulo, pois
x′y = x y cosθ
n
x′y ∑x y i i
∴ cosθ = = i =1
= rXY
x y n n
∑x ∑ y
i =1
2
i
i =1
2
i
Esta definição coloca o coeficiente entre no intervalo supracitado em decorrência da

desigualdade de Schwarz2. Portanto, dois vetores não-nulos ortogonais implicam que a
correlação entre eles é zero.
Esta interpretação do coeficiente aponta para um fato interessante: se regressões
simples recíprocas entre as variáveis são iguais, a correlação é perfeita; se a correlação é nula,
as retas serão paralelas a um eixo cada e, portanto, perpendiculares entre si; em qualquer caso
intermediário, quanto menor o ângulo entre as retas de regressão, maior é a correlação
(RACTLIFFE, 1967, p. 168).
O teste sobre a nulidade de correlação populacional entre duas variáveis é apresentado
em Hoffmann (2006, p. 286-287): considerando que a distribuição conjunta das duas variáveis
siga a distribuição normal bidimensional, testa-se a hipótese nula de ausência de correlação
populacional através da comparação de
rˆ n − 2
t= (2.6)
1 − rˆ 2
com a distribuição t com n − 2 graus de liberdade.

Entretanto, Kendall (1970, apud RACTLIFFE, 1967, p. 149-150) aponta que o teste
para correlação entre ranks é diferente, mas que, neste caso, o teste converge é o mesmo se
10 < n < 20 e, se n ≥ 20, deve-se utilizar a distribuição normal com média zero e desvio-
2
A desigualdade de Schwarz enuncia que x′y ≤ x y .
18
padrão 1 . De fato, a diferença ocorre quando n ≤ 10 , quando deve ser utilizada uma
n −1
distribuição específica.
2.3 Exercício resolvido
O exemplo a seguir é de Koutsoyiannis (1977, p. 46), onde se pede o cálculo do

coeficiente de correlação das séries. Para efeitos didáticos, optou-se por incluir o teste da
hipótese de ausência de correlação.
Tabela 1: Número de acidentes automobilísticos, consumo de bebidas alcoólicas e salários (1961-1970)
Consumo de
Acidentes
Anos bebidas em Salários
automobilísticos
toneladas
1961 155 70 15.500
1962 150 63 14.500
1963 180 72 19.300
1964 135 60 15.600
1965 156 66 16.400
1966 168 70 19.300
1967 178 74 25.600
1968 160 65 25.000
1969 132 62 26.900
1970 145 67 27.850
Fonte: Koutsoyiannis (1977, p. 46).
19
2.3.1 O cálculo do coeficiente de correlação
Tabela 2: Valores para cálculos dos coeficientes
Acidentes Consumo de bebidas

Valores Salários
automobilísticos em toneladas
Soma das
Observações 1.559,00 669,00 205.950,00
Observações 10 10 10
Média 155,90 66,90 20.595,00
Soma dos Quadrados
das Observações 2,45E+05 4,49E+04 4,49E+09
Soma dos Desvios

-5,68E-14 -5,68E-14 0
Soma dos Quadrados
dos Desvios 2.394,90 186,90 245.852.250,00
Variância 266,10 20,77 27.316.916,67
Fonte: elaboração própria.
20
Tabela 3: Inter-relações entre variáveis.

Produto cruzados das observações
Acidentes Consumo de bebidas em
Salários
automobilísticos toneladas
Acidentes
245.443,00 104.887,00 32.104.150
automobilísticos
Consumo de bebidas
104.887,00 44.943,00 13.810.650,00
em toneladas
Salários 32.104.150,00 13.810.650,00 4487392500
Produto cruzado dos desvios
Salários
Acidentes
2.394,900 589,900 110.610,500
automobilísticos
Consumo de bebidas
589,900 186,900 32.595,000
em toneladas
Salários 110.610,500 32.595,000 245.852.250
Variância-Covariância
Salários
Acidentes
266,100 65,544 -383,889
automobilísticos
Consumo de bebidas
65,544 20,767 3.621,667
em toneladas
Salários -383,889 3.621,667 27.316.916,667
Aplicando a equação (2.5), os coeficientes de correlação obtidos são apresentados na
Tabela 4.
Tabela 4: Coeficientes de correlação estimados.

automobilísticos em toneladas Salários
Acidentes
1,0000 0,8817 -0,0045
automobilísticos
Consumo de bebidas
0,8817 1,0000 -0,0045
em toneladas
-0,0045 -0,0045 1,0000
Salários
21
2.3.2 Teste sobre os coeficientes de correlação populacional
O teste sobre o coeficiente de regressão populacional baseou-se em (2.6), utilizando 8

graus de liberdade e a distribuição t de Student. O resumo dos testes é mostrado na
Tabela 5.
Tabela 5: Testes sobre o hipótese nula de ausência de correlação populacional

Estatísticas de teste
Salários
Acidentes
- 7,25 -0,01
automobilísticos
Consumo de bebidas
7,25 - 0,47
em toneladas
Salários -0,01 0,47 -

Estatísticas Críticas (teste bilateral, 5%)
Salários
Acidentes
- 2,306 2,306
automobilísticos
Consumo de bebidas
2,306 - 2,306
em toneladas
Salários 2,306 2,306 -
Resultado
Salários
Acidentes Não rejeita a
- Rejeita a hipótese nula
automobilísticos hipótese nula
Consumo de bebidas Rejeita a hipótese Não rejeita a
-
em toneladas nula hipótese nula
Não rejeita a Não rejeita a hipótese
Salários -
hipótese nula nula
22
2.4 Referências

Durante, Mônica Rosemberg, Maria Lúcia G. L. Rosa. 5ª ed. Porto Alegre: AMGH, 2011.
HADLEY, G. Linear Algebra. 3. print. Reading: Addison-Wesley, 1969.
HOFFMAN, Rodolfo. Estatística para Economistas. 4. ed. rev. e ampl. São Paulo: Pioneira
Thomson Learning, 2006.
RACTLIFFE, J. F. Elements of Mathematical Statistics. 2. ed. 2 reprint. London: Oxford

University Press, 1967.
WONNACOTT, Ronald J; WONNACOTT, Thomas H. Econometria. Tradução de Maria C.

Silva. 2. ed. Rio de Janeiro: Livros Técnicos e Científicos, 1978.
3 REGRESSÃO LINEAR SIMPLES
O presente capítulo visa introduzir os conceitos de regressão linear simples, seus

métodos e suas hipóteses básicas. Sua finalidade é compor uma base para a compreensão da
análise de regressão múltipla, abordada em outra seção.
3.1 Conceito
De acordo Maddala (2003, p. 32), o termo regressão foi utilizado pela primeira vez por
Francis Galton (1822-1911), no sentido de convergência à média da população. O conceito
moderno, porém,
[...] diz respeito ao estudo da dependência de uma variável, a

variável dependente, em relação a uma ou mais variáveis, as variáveis
explanatórias, visando estimar e/ou prever o valor médio (da
população) da primeira em termos dos valores conhecidos ou fixados
(em amostragens repetidas) das segundas (GUJARATI; PORTER,
2011, p. 39, grifo dos autores).
Os modelos de regressão linear simples envolvem a relação entre duas variáveis, a

independente e a dependente, embora a nomenclatura dessas variáveis adotem alguns
sinônimos, como expõe a
Tabela 6.
Tabela 6: Classificação das variáveis em análise de regressão

Y X
Previsto Previsores
Regredido Regressores
Variável explicada Variáveis explicativas
Variáveis
Variável dependente
independentes
Variável de efeito Variáveis causais
Variável endógena Variáveis exógenas
24
Variável alvo Variáveis de controle

Fonte: Maddala, 2003.
Em síntese, a regressão busca estimar os parâmetros de um modelo a partir de uma

amostra e fazer testes sobre os parâmetros da função populacional.
Sua principal diferença em relação à análise de correlação se dá no aspecto de
previsão. O modelo de regressão tem a finalidade mais voltada para a previsão de valores e,
neste caso, a variável explanatória é não estocástica.
Além disso, na análise de regressão é possível avaliar o efeito de mais de uma variável
explicativa. Quando há apenas uma variável explicativa, chama-se regressão simples; quando
há mais de uma variável explicativa, chama-se regressão múltipla.
Vale ressaltar que o objeto de estudo deste capítulo é a regressão linear simples, i. e., a
regressão baseada em funções lineares nos parâmetros.
3.2 Métodos de estimação dos parâmetros
Como a relação expressa pelo gráfico abaixo é, aparentemente, uma função afim
(“linear”), cada Y pode ser escrito em função de cada X da seguinte forma:
Yi = β0 + β1 X i + ε i (3.1)
Onde β 0 + β1 X i é a equação da reta e ε i é o termo de erro. Este último termo tem
que ser incluído porque, como podemos ver, o valor de Y não será dado exatamente pelo
ponto a ser encontrada, como pode ser visto no gráfico abaixo:
Figura 1: Reta de regressão linear simples

25
Fonte: Wooldridge, 2013. (mantida a notação original do autor)

11
Copyright*©*2009*South1Western/Cengage*Learning**
A pergunta que esta subseção analisa possui a seguinte formulação: dado o modelo
estocástico acima, qual seria o melhor método para estimar seus parâmetros a partir de uma
amostra?
Primeiramente, deve-se discutir dois aspectos: o erro aleatório do modelo e algumas
propriedades desejáveis dos estimadores.
O componente aleatório na equação Error! Reference source not found. se deve a
aspectos diversos. É interessante interpretar o erro como uma consequência de dois aspectos:
i. Da impossibilidade de incluir todas as variáveis que explicam a variável

dependente, em virtude de ausência de dados ou da dificuldade de inseri-las no
modelo;
ii. Da diferença entre o valor estimado do parâmetro a partir da amostra e o valor
do parâmetro populacional.
Com base em Gujarati e Porter (2011, p. 822-823), os estimadores de amostra

pequenas (ou finitas) devem possuir as seguintes propriedades:
i. Ausência de viés: um estimador é não viesado ou não tendencioso quando a

esperança matemática do estimador for igual ao verdadeiro valor do parâmetro;
ii. Variância mínima: propriedade que estabelece que o estimador deve ser pelo
menos tão bom quanto os outros estimadores do valor populacional. Também é
chamado de estimador eficiente;
26
iii. Linearidade: o estimador deve ser uma função linear das observações das
amostras;
iv. Consistência: os estimadores devem convergir ao valor real do parâmetro na
medida em que a amostra tende ao infinito.
A figura 2 auxilia a compreender os dois primeiros conceitos. Supondo que o valor

populacional do parâmetro possui média 0 e variância 1, os estimadores representados nas
curvas vermelha, verde e lilás são estimadores não viesados, enquanto a curva em azul
representa um estimador viesado. A curva em vermelho, por sua vez, representa o estimador
com variância mínima, i. e., o estimador mais eficiente.
Figura 2: Gráficos de funções de distribuição normal

N(0 1)
N(2 4)
0,4 N(0 2.25)
N(0 4)
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
-10 -5 0 5 10 15
Retornando à indagação sobre os métodos de estimação, a resposta segue o raciocínio

de que os estimadores dos parâmetros devem “[...] minimizar o erro total” (WONNACOTT;
WONNACOTT, 1978, p. 5).
Então, o primeiro método consistiria em minimizar o valor do erro. Utilizando a
notação, define-se o erro estimado como a diferença entre o valor observado e o valor
estimado da amostra, ou seja
(
εî = Yi − Yî = Yi − βˆ0 + βˆ1 X i ) (3.2)
Portanto, o primeiro método buscaria minimizar a soma dos erros das observações, i.
e., matematicamente,
27
( )
n n
∑ εî = ∑ Yi − Yî
i =1 i =1
(3.3)
Entretanto, o método baseado em (3.3) possui um defeito: grandes erros de sinal

positivo anulariam grandes erros de sinal negativo, o que poderia dar uma soma zero, sem
distinguir um ajusto bom de um ruim, conforme ressalta Wonnacott e Wonnacott (1978, p. 6).
A próxima solução para contornar o problema dos sinais opostos seria minimizar a
soma do valor absoluto dos erros, ou seja, minimizar a expressão
n n
∑ εî = ∑ Yi − Yî
i =1 i =1
(3.4)
Porém, este método também possui defeitos. Como ressaltam Pindyck e Rubenfeld
(2004, p. 6) e Wonnacott e Wonnacott (1978, p. 6-7), este método exige matemática mais
complexa1 e tende a desconsiderar algumas observações de modo a minimizar a soma do
módulo dos erros.
A terceira solução seria minimizar o quadrado dos erros, ou seja,
( )
n n 2
∑ εî2 = ∑ Yi − Yî
i =1 i =1
(3.5)
De acordo com Wonnacott e Wonnacott (1978), este método não sofre dos problemas
dos dois métodos anteriores e é matematicamente mais simples que o anterior.
3.3 O método dos mínimos quadrados ordinários
O método que minimiza a função (3.5) é chamado método dos mínimos quadrados
1
Lins e Calôba (2006, p. 21-23) apresenta um método de regressão linear através da minimização da
soma dos módulos dos erros utilizando técnicas de programação linear, ressaltando uma vantagem deste método
sobre os mínimos quadrados: este método não superestima a influência de um outliers distante, pois, segundo o
método dos mínimos quadrados, quanto maior o valor absoluto do erro estimado, maior o quadrado do erro
(GUJARATI; PORTER, 2011, p. 79).
28
ordinários (MQO). Passar-se-á a derivação matemática deste método de duas maneiras: (1)
utilizando cálculo diferencial e (2) utilizando álgebra linear e diferenciação matricial.
3.3.1 Obtendo os estimadores dos parâmetros: a abordagem do cálculo
Substituindo (3.2) em (3.5), tem-se:
∑ εˆ = ∑ ( ) = ∑ (Y )
n n 2 n
i
2
Yi − Yî i
2
− 2YY ˆ ˆ2
i i + Yi
i =1 i =1 i =1
( ) ( )
n
= ∑ ⎡Yi 2 − 2Yi βˆ0 + βˆ1 X i + βˆ0 + βˆ1 X i ⎤
2
⎢
i =1 ⎣
⎥⎦
(3.6)
( )
n
= ∑ ⎡Yi 2 − 2 βˆ0Yi − 2 βˆ1 X iYi + βˆ02 + 2 βˆ0 βˆ1 X i + βˆ12 X i2 ⎤
i =1
⎣ ⎦
n n n n n
= ∑ Yi − 2βˆ0 ∑ Yi − 2βˆ1 ∑ X iYi + 2βˆ0 βˆ1 ∑ X i + nβˆ02 + βˆ12 ∑ X i2
2
i =1 i =1 i =1 i =1 i =1
Igualando a derivada da função (3.6) em relação aos parâmetros à zero, têm-se as

equações normais:
n
∂∑ ε i2 n n
i=1
= −2∑ Yi + 2β̂1 ∑ X i + 2nβ̂0 = 0
∂β̂0 i=1 i=1
n n
∴ ∑ Yi = nβ̂0 + β̂1 ∑ X i
i=1 i=1
29
n
∂∑ ε i2 n n n
i=1
= −2∑ X iYi + 2β̂0 ∑ X i + 2β̂1 ∑ X i2 = 0
∂β̂1 i=1 i=1 i=1
n n n
∴ ∑ X iYi = β̂0 ∑ X i + β̂1 ∑ X i2 (3.7)
i=1 i=1 i=1
A hessiana da função (3.6) é:
⎡ n n⎤
⎢ ∂ ∑ ε i2
2
∂ ∑i ⎥
2
ε 2
⎢ i=1 i=1 ⎥
⎛ n 2 ⎞ ⎢ ∂β̂ *2 ∂β̂0 ∂β̂ 2
* * ⎥
H ⎜ ∑ ε i , ⎡⎣ β̂0* , β̂1* ⎤⎦⎟ =⎢ ⎥

0
⎝ ⎠ ⎢ 2 n n
⎥
⎢ ∂ ∑εi ∂ 2 ∑ ε i2 ⎥
i=1 2
⎢ i=1 i=1 ⎥
⎢ ∂β̂1* ∂β̂0* ∂β̂0 *2
⎥
⎣ ⎦
⎡ n ⎤
⎢ 2n 2∑ X i ⎥
⎛ n 2 ⎞
H ⎜ ∑ ε i , ⎡ β̂0* , β̂1* ⎤⎟ = ⎢⎢ n i=1 ⎥
⎥ (3.8)
⎝ ⎣ ⎦⎠ n
i=1
⎢ 2∑ X i 2∑ X i2 ⎥
⎢⎣ i=1 i=1 ⎥⎦
Como
2
n n
⎛ n ⎞
∑(X − X )2 n∑ X − ⎜ ∑ X i ⎟
i
2
i
⎝ ⎠
σ̂ X2 =
i=1 i=1
i=1
= ≥0 (3.9)
n −1 (
n n −1 )
é óbvio que a hessiana é positivamente definida e, consequentemente, trata-se de um
problema de minimização. Esclarecendo: sabendo-se do sinal da variância, a condição (3.10),
30
decorrente dos autovalores, é satisfeita:
2
n
⎛ n ⎞
n∑ X − ⎜ ∑ X i ⎟ > 0
i
2
(3.10)
i =1 ⎝ i =1 ⎠
Resolvendo o sistema de equações normais em (3.7), temos os estimadores dos

parâmetros da função Error! Reference source not found.:
n n
∑ Y − β̂ ∑ X
i
*
1 i
β̂ =
*
0
i=1 i=1
= Y − β̂0* X
n
n n
n ∑ X ⋅ ∑Y i i n
∑XY − i i
i=1
n
i=1
∑x y i i
Ŝ XY
β̂ =
* i=1
= i=1
= (3.11)
1
⎛ n ⎞
2 n
σ̂ 2X
n ⎜⎝ ∑ i ⎟⎠
X ∑x 2
i
i=1
∑ X i2 − i=1
n
i=1
Sugere-se que o leitor faça a demonstração destes resultados para o método dos desvios.
3.3.2 Obtendo os estimadores dos parâmetros: a abordagem matricial2
Apresentar-se-á a abordagem utilizando álgebra matricial, pois esta passará a ser a

linguagem principal das demonstrações seguintes, sendo, neste caso, um pré-requisito
importante para o caso multivariado.
Reescrevendo a equação Error! Reference source not found. em linguagem
matricial, tem-se
Yn×1 = X n×2β 2×1 + ε n×1 (3.12)
2
Esta seção baseou-se em Goldberger (1964).
31
onde:
⎡ Y1 ⎤ ⎡1 X1 ⎤ ⎡ ε1 ⎤
⎢Y ⎥ ⎢1 X2⎥ ⎢ε ⎥
⎢ 2⎥ ⎢ ⎥ ⎡ β0 ⎤ ⎢ 2⎥
Yn×1 = ⎢Y3 ⎥ , Xn×1 = ⎢1 X 3 ⎥ , β 2×1 = ⎢ ⎥ , ε n×1 = ⎢ε 3 ⎥ .
⎢ ⎥ ⎢ ⎥ ⎣ β1 ⎦ ⎢ ⎥
⎢ M⎥ ⎢M M⎥ ⎢ M⎥
⎢⎣Yn ⎥⎦ ⎢⎣1 X n ⎥⎦ ⎢⎣ε n ⎥⎦
A função (3.5) é reescrita matricialmente como
⎡ ε ⎤
⎢ 1 ⎥ n
ε 'ε = ⎡ ε1  ε n ⎤⎢  ⎥ = ∑ ε i2 (3.13)
⎣ ⎦⎢ ⎥ i=1
ε
⎣ n ⎦
Da equação (3.13), procede-se o raciocínio para chegar à uma versão de (3.6):
ε′ε = ( Y − Xβ )′ ( Y − Xβ )
= ( Y′ − β′X′ )( Y − Xβ ) (3.14)
= Y′Y − Y′Xβ − β′X′Y + β′X′Xβ
Igualando a derivada em relação ao vetor dos parâmetros da função (3.14) à zero,

obtêm-se os pontos críticos
∂ε ' ε
= −2 X′Y + 2 X′Xβ = 0
∂β
∴2 X′Xβ = 2 X′Y
^
∴ β = ( X′X ) X′Y
−1
(3.15)
Confirma-se que os pontos críticos acima são mínimos, pois

32
∂2 ε ' ε
= 2 X′X = 0
∂β 2
⎡ n ⎤
⎢ n ∑ i ⎥X
⎢ i=1 ⎥
∴2 ⎢ n n ⎥
⎢
⎢⎣
∑X i ∑ X i ⎥⎥
2
i=1 i=1 ⎦
⎡ ⎤
n
⎢ 2n 2∑ X i ⎥
⎢ i=1 ⎥
∴⎢ n n ⎥
⎢ 2∑ X i 2∑ X i ⎥
2
⎢⎣ i=1 i=1 ⎥⎦
Esta última matriz é a mesma de (3.8) e é positivamente definida.

Então, a última equação de (3.15) pode ser reescrita, obtendo-se os mesmos resultados
para os estimadores derivados a partir da abordagem do cálculo3:
−1
⎛⎡ n ⎤⎞ ⎡ n ⎤
^
⎜⎢ n ∑X i
⎥⎟ ⎢ ∑ Yi ⎥
β = ⎜ ⎢⎢ i=1 ⎥⎟ ⋅ ⎢
⎥⎟ ⎢
i=1 ⎥
⎥
⎜ n n n
⎜⎢
⎜⎝ ⎢ ∑ Xi ∑X i
2
⎥⎟ ⎢
⎥⎦⎟⎠ ⎢⎣
∑ X iYi ⎥
⎥⎦
⎣ i=1 i=1 i=1
⎛ ⎡ n n ⎤⎞ ⎡ n ⎤
⎜ ⎢ ∑ X i2 − ∑ X i ⎥⎟ ⎢ ∑ Yi ⎥
1
∴= ⎜ ⋅ ⎢⎢ i=1n i=1 ⎥⎟ ⋅ ⎢ i=1 ⎥
⎜ det X ′X
⎜
( ) ⎢ −∑ X i n
⎥⎟ ⎢
⎥⎟ ⎢ ∑
n
X Y
⎥
⎥
⎜⎝ ⎢⎣ i=1 ⎥⎦⎟⎠ ⎢⎣ i=1
i i
⎥⎦
3
Observar a similaridade entre Error! Reference source not found. e (3.11).
33
⎡ n n ⎤
⎢
⎢
∑i=1
X i2 −∑ X i
i=1
⎥
⎥
⎢ n
⎛ n ⎞
2
n
⎛ n ⎞
2 ⎥ ⎡ n ⎤
⎢ n∑ X − ∑ X n∑ X − ⎜ ∑ X i ⎟ ⎥ ⎢
∑ Yi
2 2
⎥
⎢ i=1 i ⎜⎝ i=1 i ⎟⎠ i=1⎝ i
⎠ i=1 ⎥ ⎢ ⎥
∴= ⎢ n
⎥⋅⎢ n
i=1
⎥
⎢ −∑ X i ⎥ ⎢
⎢ n ⎥ ⎢ ∑ X iYi ⎥
⎥⎦
⎥ ⎣
i=1 i=1
⎢ 2 2
⎢ n
⎛ n ⎞ n
⎛ n ⎞ ⎥
⎢ n∑ X i − ⎜ ∑ X i ⎟ n∑ X − ⎜ ∑ X i ⎟
2 2
i ⎥
⎢⎣ i=1 ⎝ i=1 ⎠ i=1⎝ ⎠ i=1 ⎥⎦
⎡ n n n n ⎤
⎢
⎢
∑
i=1
X ⋅ ∑ Yi − ∑ X i ⋅ ∑ X iYi ⎥
i
2
i=1 i=1 i=1 ⎥

⎢ ⎛ ⎞
2 ⎥ ⎡ Y − β̂1 X ⎤
⎥ ⎢ n ⎥
n n
⎢ n ∑ X i2 − ⎜ ∑ X i ⎟
⎢ ⎝ i=1 ⎠ ⎥ ⎢ ⎥ ⎡ β̂ ⎤
∴= ⎢
i=1
⎥ = ⎢ ∑ xi yi ⎥ = ⎢ 0 ⎥ (3.16)
⎥ ⎢ ⎥ ⎢ β̂ ⎥
n n n i=1
⎢ n ∑ X iYi − ∑ X i ⋅ ∑ Yi ⎢ n
⎥ ⎣ 1 ⎦
⎢
⎢
i=1 i=1 i=1
⎥
⎥ ⎢ ∑ xi2 ⎥
⎥ ⎣ ⎦
2 i=1
⎢ n
⎛ n
⎞
⎢ n∑ X i − ⎜ ∑ X i ⎟
2
⎥
⎢⎣ i=1 ⎝ i=1 ⎠ ⎥⎦
3.4 Hipóteses básicas do modelo clássico de regressão linear simples e o teorema de

Gauss-Markov
De acordo com Gujarati e Porter (2012, p. 84-90), existem sete hipóteses subjacentes
ao método dos mínimos quadrados:
i. Modelo de regressão linear nos parâmetros;

ii. Regressor fixo em amostras repetidas ou independente dos termos de erro;
iii. Erro médio zero;
iv. Homocedasticidade ou variância constante do erro aleatório;
v. Ausência de autocorrelação entre os termos de erro;
vi. Número de observações maior que o número de parâmetros;
vii. Variabilidade do regressor.
Ainda segundo Gujarati e Porter (2011, p. 93), o teorema de Gauss-Markov afirma

34
que, satisfeitas as hipóteses do modelo clássico de regressão linear, “[...] os estimadores de

mínimos quadrados da classe dos estimadores lineares não viesados tem variância mínima,
isto é, são o melhor estimador linear não viesado”, sendo “[...] condição suficiente (mas não
necessária) para a eficiência dos MQO”.
3.5 Exemplo Resolvido
Dados os valores de Y e X na tabela abaixo, estime a reta que exprime a relação entre
Y e X.
O primeiro passo é calcular a média de Y e X e encontrar as variáveis centradas:

35
Note que, se a variável é centrada na média, sua soma e, por conseguinte, sua média,
será zero.
E, agora, encontramos x 2 , y 2 e xy:
Agora, podemos facilmente estimar a reta de regressão:
^
β1 =
∑x y
i i
=
1.279, 56
≅ 1, 207
∑x 2
i 1.059, 96
^ ^
β 0 = Y − β1 X = 214,2 − (1,207 ⋅154,2) ≅ 28,05
36
Portanto, a reta estimada será dada por:
^
Y = 28,05 + 1,207X
Isso quer dizer que, se X for igual a 300, um valor estimado (médio) para Y será dado
por:
^
Y = 28,05 + 1,207×300 ≅ 390,2
Mas fica uma questão: esta previsão é confiável? Ou, uma questão ainda anterior: esta
regressão é “boa”?
Embora não seja muito rigorosa, uma inspeção gráfica, na base do “olhômetro” é
sempre útil. Se colocarmos, no mesmo plano cartesiano, os pontos dados na tabela e a reta
obtida pela regressão, temos:
Figura 3: Estimação da reta de regressão linear simples
3.6 Teste da validade da regressão
Visualmente, podemos constatar que, de fato, a relação é uma reta e que a reta de
regressão prevê com boa precisão os valores verdadeiros de Y.
Como podemos verificar isso de maneira mais rigorosa? A primeira coisa é calcular a
^
diferença entre os Y dados no exemplo e os calculados pela reta de regressão ( Y ), ou seja,
como os verificados na próxima tabela:
37
De fato, verificamos que as diferenças são bem pequenas quando comparadas com os
valores de Y.
Estas diferenças aliás, podem ser precipitadamente confundidas com os erros. É quase
isso. Os erros são as diferenças entre os valores de Y e a reta “verdadeira”, isto é, a reta dada
pelos valores populacionais de β 0 e β1 (que não são conhecidos). As diferenças que
encontramos são entre os valores de Y e os dados pela reta com os valores estimados
(amostrais) de β 0 e β1 . São portanto, não os erros, mas os estimadores dos erros, ou
simplesmente os resíduos da regressão. Notemos no gráfico a seguir a diferença com relação
ao gráfico da figura 1.
Figura 4: Estimação da reta de regressão linear simples
6
Copyright*©*2009*South1Western/Cengage*Learning**
38
Façamos agora uma análise com os quadrados dos resíduos e, conseqüentemente, com
a variância dos mesmos. Esta análise é conhecida como análise de variância ou pela sua sigla
em língua inglesa, ANOVA.
A análise de variância envolve dividir a variável Y duas partes: a parte explicada pela
regressão e a não explicada (resíduos). Então, o primeiro passo é calcular a soma dos
quadrados da variável Y e de suas partes explicada e não explicada. Como se trata de
variância, estamos tratando aqui da variável menos a média, isto é das variáveis centradas na
média.
Calculemos então, a soma dos quadrados dos totais (SQT) de Y (centrado), a soma dos
quadrados explicados (SQE), isto é, do Y estimado e a soma dos quadrados dos resíduos
(SQR).
Na tabela a seguir, podemos verificar o quadrado dos resíduos, a última coluna da
tabela. Em seguida procedemos no cálculo do SQT e de suas partes.
A soma dos quadrados totais já foi calculada no exemplo, então:
SQT = ∑ yi2 = 31.513,2
Para o cálculo das soma dos quadrados explicados, há duas maneiras: ou calculamos
um a um, tiramos a média e elevamos ao quadrado, ou podemos utilizar a equação da reta:
^ ^
y = β 1 xi
39
2
^2 ^ ^2 ^2
SQE = ∑ yi = ∑ (β1 xi ) = ∑ β 1 x i = β 1 ∑ x i = 30.893,12
2 2
198
E a soma
Para dos quadrados
o cálculo dos resíduos
das soma foi calculada
dos quadrados já neste
explicados, exemplo,
há duas na última
maneiras: tabela: um a
ou calculamos
um, tiramos a média e elevamos ao quadrado, ou podemos utilizar a equação da reta:
SQR = 620,08 ŷ i = ˆ xi
SQE = ŷ i 2 = ( ˆ xi)2 = ˆ 2xi2 = ˆ 2 xi2 = 30893,12
Repare que:
E a soma dos quadrados dos resíduos foi calculada já neste exemplo, na última tabela:
SQT = SQESQR = 620,08

+ SQR
Repare que:
Portanto, não seria
SQT necessário
= SQE + SQR calcular as três, bastariam duas e a terceira sairia pela
relação acima. Começaremos então, a preencher a tabela abaixo, começando pelas somas de
Portanto, não seria necessário calcular as três, bastariam duas e a terceira sairia pela relação
quadrados:
acima.
Começaremos então, a preencher a tabela abaixo, começando pelas somas de quadrados:

Soma de quadrados
SQE = 30893,12
SQR = 620,08
SQT = 31513,2
Com estas informações já é possível tirar uma conclusão a respeito da regressão, já que a
soma dos quadrados
Com estas dos resíduos
informações é uma parcela
já é possível bemconclusão
tirar uma pequena do total ou, da
a respeito o que é equivalente,
regressão, já a
soma dos quadrados explicados é uma parcela importante. Esta proporção é conhecida como poder
que aexplicativo
soma dos, coeficiente
quadrados de
dosdeterminação
resíduos é uma parcela bem Rpequena
, ou simplesmente 2
: do total ou, o que é
equivalente, a soma dos quadrados explicados é uma parcela importante. Esta proporção é
2 SQE 30893,12
R =explicativo,
conhecida como poder = 0,9803
coeficiente = 98,03%
de determinação, ou simplesmente R2:
SQT 31513 ,2
Repare que é impossível que SQE seja maior do que SQT, e como é uma soma de
SQEnão dá
quadrados, 30.893,12
para ser≅negativo. 2
R =
2
= 0,9803 Então, em qualquer regressão, 0 R 1, portanto é válido
expressá-lo
SQTcomo31513,20
um percentual.
Como o R2 encontrado foi 98,03% dizemos que 98,03% da variância de Y é explicada pela
variável
RepareX,que
o que indica que a que
é impossível regressão
SQE de Y por
seja X apresentou
maior um resultado
do que SQT, e como (muito!) bom. de
é uma soma
2
quadrados, não
Masdá para ser
a análise negativo.
continua. Na Então,
próximaem qualquer
coluna regressão,
colocaremos 0≤R
os graus ≤ 1, portanto
de liberdade. Para aé SQT,
os graus de liberdade são os mesmos de uma variância amostral normal, isto é, n–1 (= 20 –1 = 19).
válido expressá-lo como um percentual.
o Ra2 encontrado
ComoPara soma de quadrados dos dizemos
foi 98,03% resíduos, que
temos que lembrar
98,03% que sãoderesíduos
da variância de uma reta.
Y é explicada
Para uma reta, sabemos, são necessários dois pontos. Mas, com apenas dois pontos, não teríamos
pela variável
variação X, o que (e
nenhuma indica quenenhum
portanto a regressão de YOspor
resíduo). X apresentou
graus de liberdadeum
em resultado
relação aos(muito!)
resíduos são,
bom. desta forma, n –2 (= 20 – 2 = 18).
E, quanto à SQE, há dois raciocínios: ou a diferença (19 – 18 = 1) ou o fato de que há

apenas uma variável explicativa (afinal, é uma regressão simples). Portanto:
Soma de quadrados g.l.
SQE = 30893,12 1
40
Mas a análise continua. Na próxima coluna colocaremos os graus de liberdade. Para a

SQT, os graus de liberdade são os mesmos de uma variância amostral normal, isto é, n–1 (=
20 –1 = 19).
Para a soma de quadrados dos resíduos, temos que lembrar que são resíduos de uma
reta. Para uma reta, sabemos, são necessários dois pontos. Mas, com apenas dois pontos, não
teríamos variação nenhuma (e portanto nenhum resíduo). Os graus de liberdade em relação
aos resíduos são, desta forma, n–2 (= 20 – 2 = 18).
SQR = 620,08 18
E, quanto à SQE, há dois raciocínios: ou a diferença (19 – 18 = 1) ou o fato de que há
SQT = 31513,2 19
apenas uma variável explicativa (afinal, é uma regressão simples). Portanto:
Agora, nos resta calcular as variâncias propriamente ditas ou, como pr
quadrados médios, dividindo-se as somas de quadrados pelos respectivos graus de
Soma de quadrados g.l. Quadrados médios
SQE = 30893,12 1 30893,12
SQR = 620,08 18 2,7678
SQT = 31513,2 19 1658,59
Agora, nos resta calcular as variâncias propriamente ditas ou, como preferem alguns, 199
O que iremos testar, agora, é se estatisticamente falando, a variância exp
SQR = 620,08 18 a variância dos resíduos, isto é, um teste de comparação de variâncias. Se reje
que
os quadrados médios, dividindo-se as somas de quadrados pelos respectivos graus de
SQT = 31513,2 19 de que as variâncias são iguais, a regressão “explica mais do que não
nula
liberdade. consideraremos a regressão como válida.
Agora, nos resta calcular as variâncias propriamente ditas ou, como preferem alguns, os
quadrados médios, dividindo-se as
O somas
teste Fde quadrados
é feito pelos respectivos
dividindo-se grauspela
uma variância de liberdade.
outra. Mas, para realizar
Soma de quadrados g.l. Quadrados médios
que as variáveis das quais foram obtidas as variâncias sejam normais. Portanto,
SQE = 30893,12 1 necessitamos
teste 30893,12
que a variável Y seja normalmente distribuída. Como ela é com
SQR = 620,08 18
(fixa), mais um2,7678
erro aleatório, a variância de Y será dada pela variância do er
SQT = 31513,2 hipótese
19 adicional sobre o erro, a de que ele segue uma distribuição normal.
1658,59
O que iremos testar, agora, Façamos então o teste F: falando, a variância explicada é maior do
é se estatisticamente
que a variância dos resíduos, isto é, um teste
O que iremos testar, agora, é se estatisticamente de comparação
falando,deavariâncias.
variância Se rejeitarmos
explicada a hipótese
é maior
nula de que as variâncias Soma sãodeiguais,
quadrados
a regressãog.l. “explica mais
Quadrados
do que médios
não explica”teste F
e então
do queconsideraremos
a variância dos resíduos,
a regressãoSQE isto
como é,válida.
um teste de comparação
= 30893,12 1 de variâncias.
30893,12 Se rejeitarmos a
896,75
hipótese nula de que as variâncias SQR =são 620,08 18 “explica 34,45
iguais, a regressão mais do que não explica” e
O teste F é feito dividindo-se
SQT = 31513,2 uma variância19pela outra. Mas, para realizarmos, é necessário
1658,59
então que
consideraremos
as variáveis dasa regressão
quais foramcomo válida.as variâncias sejam normais. Portanto, para realizar este
obtidas
teste necessitamos que a variávelPela Y seja normalmente
tabela, distribuída.
o valor pela
limite Como ela F
da distribuição é composta
com 1 graude uma reta
deé liberdade no
O teste
(fixa), maisF um
é feito dividindo-se
erro aleatório, a uma
variância variância
de Y será dadaoutra.
pela Mas, paradorealizarmos,
variância erro. Portanto, uma
graus de liberdade no denominador , com 5% de significância é:
hipótese
necessário queadicional sobre odas
as variáveis erro, a de foram
quais que eleobtidas
segue uma as distribuição normal.normais. Portanto,
variâncias sejam
F1,18 = 4,41
para realizar Façamos
este testeentão
necessitamos
o teste F: que a variável Y seja normalmente distribuída. Como ela
é composta de uma reta (fixa), mais Como umOerroF calculado
aleatório,é amaior do quedeo Ytabelado
variância (neste
será dada caso, bem ma
pela
Soma de quadrados g.l.
hipótese nula, Quadrados médiosé válida
isto é, a regressão teste F de significância.
a 5%
variância
SQE do erro. Portanto, uma
= 30893,12 1 hipótese30893,12
adicional sobre o erro,896,75 a de que ele segue uma
SQR = 620,08 Exemplo
18
distribuição normal. Façamos então o teste F: 8.2.334,45
SQT = 31513,2 Teste
19 a significância1658,59 dos parâmetros da regressão obtida no exemplo 8.2.1
Testar
Pela tabela, o valor limite a significância
da distribuição dos 1parâmetros
F com significa no
grau de liberdade testar a hipótese
numerador nula de
e 18
verdade, iguais
graus de liberdade no denominador , coma5% zero.
de Isto é, será que
significância é: ou de fato, não existem, e o valor q
apenas resultado da amostra?
F1,18 = 4,41
Isto equivale a testar as seguintes hipóteses para (e depois também para
Como O F calculado é maior do que o tabelado (neste caso, bem maior) rejeitamos a
hipótese nula, isto é, a regressão é válida a 5% de significância
H 0: = 0 .
que as variáveis das quais foram obtidas as variâncias sejam normais. Portanto, para realizar este
teste necessitamos que a variável Y seja normalmente distribuída. Como ela é composta de uma reta
(fixa), mais um erro aleatório, a variância de Y será dada pela variância do erro. Portanto, uma
hipótese adicional sobre o erro, a de que ele segue uma distribuição normal. 41
Façamos então o teste F:
Soma de quadrados g.l. Quadrados médios teste F

SQE = 30893,12 1 30893,12 896,75
SQR = 620,08 18 34,45
SQT = 31513,2 19 1658,59
Pela tabela, o valor limite da distribuição F com 1 grau de liberdade no numerador e 18

graus de liberdade
Pela tabela, no denominador
o valor , com 5% deF significância
limite da distribuição com 1 grau é:de liberdade no numerador e
18 graus de liberdade no=denominador
F1,18 4,41 , com 5% de significância é:
F1,18 = 4,41
Como O F calculado é maior do que o tabelado (neste caso, bem maior) rejeitamos a
Como onula
hipótese F calculado é maior do
, isto é, a regressão que oatabelado
é válida (neste caso,. bem maior) rejeitamos a
5% de significância
hipótese nula, isto é, a regressão é válida a 5% de significância.
Exemplo 8.2.3
Teste a significância dos parâmetros da regressão obtida no exemplo 8.2.1
3.7 Teste daTestar

significância dos parâmetros
a significância da regressão
dos parâmetros obtida
significa testar a hipótese nula de que e são, na
verdade, iguais a zero. Isto é, será que ou de fato, não existem, e o valor que encontramos é
apenas resultado da amostra?
Testar a significância dos parâmetros significa testar a hipótese nula de que α e β são,
na verdade, Isto equivale
iguais a testar
a zero. Isto asé,seguintes
será quehipóteses
β 0 ou βpara (e depois também para ):
1 de fato, não existem, e o valor que
H0amostra?
encontramos é apenas resultado da : =0
H 1: 0
Isto equivale a testar as seguintes hipóteses para β1 (e depois também para β 0 ):
Como são variáveis normalmente distribuídas (mantendo-se a hipótese do exemplo anterior)
que não conhecemos ao certo a variância, a distribuição a ser utilizada é a t, de Student. Os valores
H0: β1 =com
tabelados 0 18 (= n – 2) graus de liberdade com 1%, 5% e 10% (bicaudais) são:
H1: β1 ≠ 0
Como são variáveis normalmente distribuídas (mantendo-se a hipótese do exemplo

anterior) que não conhecemos ao certo a variância, a distribuição a ser utilizada é a t, de
Student. Os valores tabelados com 18 (= n – 2) graus de liberdade com 1%, 5% e 10%
(bicaudais) são:
t(18,10%) = 1,73
t(18,5%) = 2,10
t(18,1%) = 2,88
E o valor calculado da estatística é dado por:

42
^ ^
β1− 0 β1
=
S^ S^
β1 β1
Isto é, basta dividir o coeficiente encontrado pelo seu desvio padrão. A questão agora
^
encontrar o desvio padrão de β 1 . Sabemos que:
^
β1 =
∑x yi i
∑x 2
i
Então:
^
var(β 1 ) = var(
∑x y )i i
∑x 2
i
var(β ) =
∑x ^
2
i
var(yi )
(∑ x ) 1 2 2
i
O estimador desta variância (valor amostral) será:
S^ 2
=
∑x 2
i
var(resíduos)
β1 (∑ x ) 2 2
i
Já que a variância de Y dado X, isto é, a variância de Y no modelo de regressão é a

própria variância dos resíduos, que já calculamos na tabela ANOVA e é igual a 34,45 e foi
obtida através da expressão SQR/(n-2).
SQR
(n − 2)
S 2^ =
β1 ∑ xi2
43
34, 45
S 2^ = ≅ 0, 0016 ⇒ S ^ ≅ 0, 04
β1 21.199, 2 β1
O cálculo da estatística é então:
^
β 1 1,207
= ≅ 30,2
S^ 0,04
β1
Como o valor calculado é superior aos valores tabelados (inclusive para 1%),
rejeitamos a hipótese nula de que β1 é igual a zero. Dizemos, então que β1 é estatisticamente
diferente de zero a 1% de significância, ou , simplesmente, é significante a 1%.
O procedimento para β0 é quase o mesmo. A diferença está no cálculo do seu desvio
padrão.
Sabemos que:
^ ^
β 0 = Y − β1 X
^ ^
var(β 0 ) = var(Y − β 1 X)
^ ^
var(β 0 ) = var(Y ) + var(β 1 X)
^
var(β 0 ) = var(
∑y )+ X
i 2 ^
var(β 1 )
n
Cujo estimador será dado por:

44
n SQR 2 SQR (n − 2)
S 2^ = ⋅ +X ⋅
β0 n n−2
2
∑ xi2
SQR ⎡ 1 X ⎤
2
S^ =2
⎢ + ⎥
β0 n − 2 ⎢⎣ n ∑ xi2 ⎥⎦
⎛ 1 154,2 2 ⎞
S 2^ = 34, 45 ⋅ ⎜ + ≅ 40, 36 ⇒ S ^ ≅ 6, 4
β0 ⎝ 20 21.199,2 ⎟⎠ β0
O cálculo da estatística será então:
^
β 0 28,05
= ≅ 4, 4
S^ 6, 4
β1
Que é superior aos valores tabelados, portanto α também é significante a 1%.
3.8 A hipótese de normalidade
Até agora, fizemos duas hipóteses sobre o modelo de regressão: a de que os erros tem
média zero e de que eles são normalmente distribuídos, hipótese esta que foi utilizada para a
realização dos testes de hipótese acerca da regressão e de seus parâmetros.
As hipóteses vistas até agora podem ser resumidas assim:
i) E(εi) = 0 (erros têm média zero).

ii) erros são normalmente distribuídos.
É razoável assumir que os erros sejam normalmente distribuídos? Sim, se partirmos do

significado do termo de erro, isto é, uma soma de fatores que não foram incluídos no modelo
(até porque não é possível). Se imaginarmos que são muitos os fatores, a soma deles seguirá
uma distribuição normal, pelo Teorema do Limite Central4.
4
Se a média segue uma distribuição normal, basta multiplicarmos por n e teremos a soma que será,
portanto, normalmente distribuída também.
45
Entretanto, se isto não for considerado satisfatório, é sempre possível testar a hipótese
de que os resíduos sejam normais e que, portanto, são originados de erros também normais e
assim termos maior segurança em relação aos testes de hipóteses5. Um teste muito utilizado
para isso é o de Jarque-Bera.
O teste de Jarque-Bera utiliza os resultados para os momentos da distribuição normal,
em particular os coeficientes de assimetria (que é zero para a distribuição normal) e de curtose
(que vale 3).
O coeficiente de assimetria para os resíduos é dado por:
3
1 ⎛ εi ⎞
^
n
A = ∑⎜ ⎟
n i=1 ⎜⎝ σ ⎟⎠
E o de curtose:
4
1 n ⎛ εi ⎞
^
C = ∑⎜ ⎟
n i=1 ⎜⎝ σ ⎟⎠
O teste de Jarque-Bera é feito através da seguinte estatística:
n⎡ 2 1 2⎤
JB = ⎢ A + ( C − 3) ⎥
6⎣ 4 ⎦
Demonstra-se que, sob a hipótese nula de que os resíduos sejam normalmente

distribuídos, a estatística JB converge assintoticamente para uma distribuição χ2 com 2 graus
de liberdade.
Na tabela abaixo são mostrados os resíduos da regressão do exemplo 1. Teste a
normalidade dos mesmos.
5
Isto para amostras pequenas, já que é possível mostrar que a razão entre o coeficiente e seu desvio
padrão converge para uma distribuição normal padrão sob a hipótese nula de que o coeficiente seja zero.
46
Calculamos a variância deste conjunto de valores (independente de sabermos que se

tratam de resíduos de uma regressão6), e depois o desvio padrão:
σ 2 = 31 ⇒ σ ≅ 5,56
O coeficiente de assimetria é dado por:
3
1 n ⎛ εi ⎞
^
A = ∑ ⎜ ⎟ ≅ −0, 66
n i=1 ⎜⎝ σ ⎟⎠
E o de curtose:
4
1 ⎛ εi ⎞
^
n
C = ∑ ⎜ ⎟ ≅ 3, 5933
n i=1 ⎜⎝ σ ⎟⎠
A estatística de Jarque-Bera será dada então, por:
n⎡ 2 1 2⎤
JB = ⎢ A + ( C − 3) ⎥ ≅ 1, 7323
6⎣ 4 ⎦
Na tabela χ2 verificamos que, para 2 graus de liberdade o valor crítico (para 10% de
significância) é 4,61. Como o valor encontrado para a estatística JB é inferior, aceitamos a
hipótese nula de que os resíduos são normais. Ou, em outras palavras, não é possível,
estatisticamente falando, rejeitar a hipótese que a distribuição destes resíduos seja normal.
3.9 Propriedades dos estimadores de mínimos quadrados
6
Isto é, dividimos por n e não n-2.
47
3.9.1 O estimador de β1 é não viesado?
A resposta a esta pergunta remete a esperança do estimador:
^ ⎛ ∑ xi yi ⎞
E( β 1 ) = E ⎜ 2 ⎟
⎝ ∑ xi ⎠
^ ⎡ ∑ xi ( β1 xi + ε i ) ⎤
E( β 1 ) = E ⎢ ⎥
⎢⎣ ∑ xi2 ⎥⎦
^ ⎡ ∑ ( β1 xi2 + ε i xi ) ⎤
E( β 1 ) = E ⎢ ⎥
⎢⎣ ∑ xi2 ⎥⎦
Como a esperança da soma é a soma das esperanças:
^ ⎡ ∑ β1 xi2 ⎤ ⎡ ∑ ε i xi ⎤
E( β 1 ) = E ⎢ 2 ⎥
+E⎢ 2 ⎥
⎢⎣ ∑ xi ⎥⎦ ⎢⎣ ∑ xi ⎥⎦
E ainda temos que β1 é uma constante, portanto:
^ ⎡ β1 ∑ xi2 ⎤ ⎡ ∑ ε i xi ⎤
E(β 1 ) = E ⎢ 2 ⎥
+E⎢ 2 ⎥
⎢⎣ ∑ xi ⎥⎦ ⎢⎣ ∑ xi ⎥⎦
⎡ ∑ ε i xi ⎤
E( β 1 ) = E [ β1 ] + E ⎢
^
2 ⎥
⎢⎣ ∑ xi ⎥⎦
^ ⎡ ∑ ε i xi ⎤
E(β 1 ) = β1 + E ⎢ 2 ⎥
⎢⎣ ∑ xi ⎥⎦
48
Voltemos a nossa atenção para o termo dentro da esperança: consideremos que os

valores xi são fixos ou, para ser mais preciso, fixos em amostras repetidas. O que significa
que, se nossa amostra é de imóveis, um dado imóvel é sorteado na amostra, ele tem uma certa
área. Se fizermos uma nova amostragem, e este imóvel for sorteado de novo, irá apresentar
exatamente o mesmo valor para área. Este valor é fixo, não depende de probabilidade,
portanto a área de um imóvel se enquadra nesta hipótese.
Isto não se aplicaria, por exemplo, se a variável fosse a nota de um aluno em um teste.
O mesmo aluno, fazendo um mesmo teste (ou tipo de teste) uma segunda vez não
necessariamente tiraria a mesma nota. Isto depende de uma distribuição de probabilidade, x é
neste caso uma variável estocástica.
Se a variável x for fixa em amostras repetidas (como a área de um imóvel), então cada
xi pode ser tratado como uma constante:
^
E(β 1 ) = β1 +
∑ E(ε x )
i i
∑x 2
i
E(ε i xi ) = xi E(ε i ) = 0
Já que E(εi) = 0. Portanto:
^
E( β 1 ) = β1 +
∑ E(ε x ) = β
i i
∑x 2
i
1
^
Desta forma, β 1 é um estimador não viesado do coeficiente β1 .
Adicionamos então uma terceira hipótese:

iii) xi são fixos (não estocásticos).
Isto significa que, se a variável x for estocástica, o coeficiente será necessariamente

viesado? Não, mas para isso teríamos que manter a condição de que E(εixi) = 0, o que
equivale dizer que a correlação (e a covariância) entre εi e xi é nula. Se não, vejamos:
49
cov(ε i , xi ) = E(ε i xi ) − E(ε i )E(xi ) = E(ε i xi )
Já que E(εi) = 0. Assim, podemos garantir que o estimador é não viesado com uma
hipótese mais fraca. O conjunto de hipóteses seria, neste caso:

iii*) E(εixi) = 0 (xi não são correlacionados com os erros).
3.9.2 Eficiência e MELNV
Se, além das hipóteses i e ii, os erros tiverem variância constante e não forem
autocorrelacionados (o erro de uma observação não é correlacionado com o de outra, isto é, os
erros são independentes), o Teorema de Gauss-Markov mostra que o estimador de mínimos
^
quadrados β 1 apresenta a menor variância entre todos os estimadores de β1 que são lineares e
não viesados, sendo portanto um MELNV. Acrescentamos então, mais duas hipóteses:

iv) var(εi) = σ2 (constante).
v) E(εixi) = 0, i ≠ j (erros não são autocorrelacionados).
Se ainda levarmos em conta a hipótese de normalidade, é possível demonstrar7 que o
^
estimador β 1 tem a menor variância entre todos os estimadores não viesados de β, ou seja, é
um estimador eficiente.
3.10 Modelos lineares
Muitos modelos não lineares são facilmente “linearizáveis”. Por exemplo, o modelo
abaixo:
7
Através da desigualdade de Cramer-Rao.
50
Y = β 0 + β1 Xi2 + ε i
Pode se tornar um modelo linear através da seguinte transformação:
Zi ≡ Xi2
E, desta forma:
Y = β 0 + β1Zi + ε i
É um modelo linear e pode ser estimado da mesma maneira que vínhamos fazendo.
Dos muitos modelos que podem ser transformados em lineares, dois se destacam. Um
deles é o modelo multiplicativo:
Y = β 0 Xiβ1 ε i
Aplicando logaritmo dos dois lados da equação:
logY = log(β 0 Xiβ1 ε i )

logY = log β 0 + log Xiβ1 + log ε i
logY = log β 0 + β1 log Xi + log ε i
Fazendo:
Y’ = log Y
β0’ = log β0
X’ = log X
µ = log ε
Chegamos a um modelo linear: Y’ = β0’ + β1Xi’ + µi .

Em que as variáveis estão em logaritmos, por isso mesmo este modelo é também
conhecido como log-log.
É interessante notar o significado do coeficiente β1 neste tipo de modelo. Isto pode ser
51
feito derivando Y em relação a X:
∂Y 1 1
= β 0 β1 X β1 −1ε = β 0 β1 X β1 ε = β1Y
∂X X X
Portanto, β1 será dado por:
∂Y X
β1 = ⋅
∂X Y
Aproximando a derivada pelo taxa de variação discreta:
ΔY
∂Y X variação percentual de Y
β1 ≅ ⋅ = Y =
∂X Y ΔX variação percentual de X
X
Ou seja, quando o modelo é estimado com as variáveis em logaritmo, o coeficiente β1

significa a razão entre as variações relativas (percentuais) das variáveis Y e X, ao invés das
absolutas, quando a regressão é feita com os valores originais das variáveis. Esta razão
também é conhecida como elasticidade de Y em relação a X.
Um outro tipo de modelo importante é o exponencial:
Y = β 0 eβ1Xi ε i
De novo, aplicando logaritmo8 nos dois lados da equação temos:
logY = log(β 0 eβ1Xi ε i )

logY = log β 0 + log eβ1Xi + log ε i
logY = log β 0 + β1 Xi + log ε i
E, novamente, fazendo as transformações:
8
Embora neste caso seja mais prático aplicar o logaritmo natural (base e), é importante ressaltar que
tanto faz qual é a base do logaritmo, pois o valor do coeficiente β1 será o mesmo.
52
Y’ = log Y
β0’ = log β0
µ = log ε
Temos novamente um modelo linear:
Y’= β0’+β1Xi +µi
Onde uma das variáveis foi transformada no seu logaritmo e por isso mesmo este
modelo é conhecido como log-linear.
E, da mesma forma, derivamos Y em relação a X para encontrar o significado do
coeficiente β1:
∂Y
= β 0 β1eβ1X ε = β1Y
∂X
Portanto:
1 ∂Y
β1 = ⋅
Y ∂X
Repetindo a aproximação da derivada pelo taxa de variação discreta:
ΔY
1 ∂Y variação percentual de Y
β1 = = Y =
Y ∂X ΔX variação absoluta de X
Se a variável X representar o tempo, o coeficiente β1 representa a taxa de crescimento

(médio) da variável Y ao longo do tempo.
3.10.1 Aplicação
Y X
Portanto:
Repetindo a 1aproximação,
Y temos:
= Y 53
Y X
1 Y variação percentual de Y
= = Y =
Repetindo aYaproximação,
X X temos:
variação absoluta de X
Y
Se a variável1 XYrepresentar variação
o tempo,percentual de Y
o coeficiente representa a ta
= = Y =
(médio) da variável
A tabela abaixo fornece o volume de vendasY ao longo
Y X em uma do tempo.
X empresa
variaçãoaoabsoluta
longo de
doXtempo.
Determine sua taxa de crescimento anual8.6.1
Exemplo médio.
Se a variável X representar o tempo, o coeficiente representa a t
A tabelada
(médio) abaixo fornece
variável Y ao olongo
volume de vendas em uma empresa ao longo do tem
do tempo.
taxa de crescimento anual médio.
ano
Exemplo vendas
8.6.1 ano vendas
1986 1020 1993 5300
A tabela abaixo fornece o volume de vendas em uma empresa ao longo do tem
1987
taxa de 1200
crescimento1994 6640
anual médio.
1988
ano 1450
vendas ano 1995 7910
vendas
1989
1986 18001020 1996
1993 8405
5300
1990
1987 25501200 1997
1994 9870
6640
1991
1988 14503320 1998
1995 11530
7910
1992
1989 42501800 1999
1996 13320
8405
1990 2550 1997 9870
1991 Para3320 determinar
1998 a taxa11530de crescimento médio, devemos fazer uma reg
linear,
Para determinar a taxa 1992 em que
4250
de crescimento a variável
1999 Y 13320 fazerdas
é o
médio, devemoslogaritmo vendas
uma e X é variável
regressão do tipotempo.
log- linear, em que a variável YXé o logaritmo das
X vendas
Y determinar
Para Ye Xde
a taxa é variável tempo.
crescimento médio, devemos fazer uma reg
6,9276
1linear, em 8
que a variável Y8,5755
é o logaritmo das vendas e X é variável tempo.
2 7,0901 9 8,8009
3X 7,2793
Y 10
X 8,9759
Y
41 7,4955
6,9276 11
8 9,0366
8,5755
52 7,8438
7,0901 12
9 9,1973
8,8009
63 8,1077
7,2793 13
10 9,3527
8,9759
74 8,3547
7,4955 14
11 9,4970
9,0366
5 7,8438 12 9,1973
6 Note
8,1077que a
13mudança na variável tempo (X), que em vez de começar por 1
9,3527
não
7 afeta a taxa
8,3547 de
14crescimento.(Por
9,4970 que?)
O resultado
Note da regressão
que a mudança é:
na variável tempo (X), que em vez de começar por
não afeta a
Note que a mudança na variável tempotaxa de crescimento.(Por que?)
Y =(X),
6,77que em vez de começar por 1986, começa
+ 0,2073X
por 1, não afeta a taxa de crescimento.(Por que?)(0,07)
O resultado (0,008)é:
da regressão
Onde osYnúmeros
= 6,77 +entre parênteses são os desvios padrão dos coeficientes
0,2073X
O resultado da regressão é: (0,07) (0,008)
A taxa média de crescimento anual é, portanto, 0,2073 ou 20,73% ao ano
Onde os números entre parênteses são os desvios padrão dos coeficientes
8.7 Regressão múltipla
Y = 6,77 + 0,2073X
(0,07) (0,008) A taxa média de crescimento anual é, portanto, 0,2073 ou 20,73% ao ano
8.7 Regressão múltipla

Onde os números entre parênteses são os desvios padrão dos coeficientes.
A taxa média de crescimento anual é, portanto, 0,2073 ou 20,73% ao ano.
4 REGRESSÃO LINEAR MÚLTIPLA
E se a variável dependente (Y) depender (com o perdão da redundância) de mais de

uma variável? Temos, então, que colocar mais “X” (variáveis dependentes) na equação. O
modelo então, de um modo geral, seria como o dado abaixo:
Yi = β1 + β 2 X2i + β 3 X 3i + ...+ β k X ki + ε i
Como há mais de uma variável dependente, este modelo é conhecido como de

regressão múltipla. Para estimar os coeficientes β faremos da mesma maneira que fizemos
com a regressão simples, utilizaremos o método dos mínimos quadrados.
Mas se fizermos exatamente como fizemos anteriormente, dá para perceber que será
um pouco complicado e será tão mais complicado quanto mais variáveis dependentes houver.
Faremos um pequeno “truque” que transformará o modelo acima a uma forma similar a da
regressão simples.
Se dispusermos as n observações, teremos:
Y1 = β1 + β 2 X 21 + β3 X31 + ... + β k X k1 + ε1
Y2 = β1 + β 2 X 22 + β3 X32 + ... + β k X k 2 + ε 2
... ... ... ... ... ... ...
Yn = β1 + β 2 X 2n + β3 X3n + ... + β k X kn + ε n
As n equações acima podem ser reescritas em forma de matrizes:
⎡Y1 ⎤ ⎡1 X21 X 31 ... X k1 ⎤ ⎡ β1 ⎤ ⎡ε1 ⎤

⎢Y ⎥ ⎢1 X22 X 32 ... X k 2 ⎥ ⎢ β 2 ⎥ ⎢ε 2 ⎥
⎢ 2⎥ = ⎢ ⎥⋅⎢ ⎥ = ⎢ ⎥
⎢... ⎥ ⎢... ... ... ... ... ⎥ ⎢... ⎥ ⎢... ⎥
⎢ ⎥ ⎢ ⎥ ⎢ ⎥ ⎢ ⎥
⎣Yn ⎦ ⎣1 X2n X 3n ... X kn ⎦ ⎣ β k ⎦ ⎣ε n ⎦
(nx1) (nxk) (kx1) (nx1)
Onde os valores entre parênteses são as dimensões das matrizes. Repare que fazendo
as respectivas operações com as matrizes chegaremos exatamente aos mesmo conjunto de
equações.
55
Reduzimos então a:
Y = Xβ + e
Onde Y é um vetor (matriz linha) contendo as observações da variável dependente Y;

X é uma matriz que inclui as diversas observações das variáveis independentes e inclui uma
coluna de números “1” que correspondem ao intercepto; β é um vetor com os coeficientes a
serem estimados e e é o vetor dos termos de erro.
Exceto por ser uma equação com matrizes, essa equação é muito parecida com a de
regressão simples. Melhor ainda, é parecida com a equação de regressão simples sem
intercepto. O estimador de mínimos quadrados para o vetor β será muito parecido com o da
regressão simples:
^
β = (X ' X)−1 (X 'Y )
Repare que o produto X’Y é análogo a Σxy da regressão simples, enquanto o produto
X’X é análogo a Σx2. Como não existe divisão de matrizes, a multiplicação pela matriz
inversa “faz o papel” da divisão.
^
Uma condição para a existência de β é a de que a matriz X’X seja inversível. Para
que isto ocorra é necessário que nenhuma coluna da matriz X seja combinação linear de
outras. Em outras palavras, não é possível que X2 seja exatamente o dobro de X3 ou que X4
seja igual a 2X2 + 3X3, por exemplo.
Assim, adicionamos ao nosso conjunto de hipóteses mais uma, esta é específica de
regressões múltiplas:

iv) var(εi) = σ2 (constante)
v) E(εiεj) = 0, i ≠ j (erros não são autocorrelacionados).
vi) Cada variável independente Xi não pode ser combinação linear das demais.
Uma condição para a existência de ˆ é a de que a matriz X’X se
ocorra é necessário que nenhuma coluna da matriz X seja combinação
palavras, não é possível que X2 seja exatamente o dobro56
de X3 ou que
por exemplo.
Assim, adicionamos ao nosso conjunto de hipóteses mais uma, e

múltiplas:
Em notação matricial, as hipóteses iv e v podem ser sintetizadas como se segue:
I) E( i) = 0 (erros têm média zero).
II) erros são normalmente distribuídos.
III) xi são fixos (não estocásticos).
var(e) = σ 2 I IV) var( i) = 2 (constante)
V) E( i j) = 0, i j (erros não são autocorrelacionados).
VI) Cada variável independente Xi não pode ser combinação linear das de
A matriz definida por var(e) é também chamada de matriz de variância e covariância
Em notação matricial, as hipóteses IV e V podem ser sintetizadas
dos erros. Nesta matriz a diagonal principal contém as variâncias
2 dos erros e os demais
var(e) = I
elementos da matriz são as covariâncias entre os erros. Assim, o termo σ2I cobre as duas
A matriz definida por var(e) é também chamada de matriz de v
hipóteses, já que é o mesmo σ2 que multiplica os “uns”
erros. Nesta matrizda
a matriz
diagonalidentidade, e as covariâncias
principal contém as variâncias dos erros
2
entre os erros (autocovariâncias) valem zero, pois na matriz identidade os elementosofora
matriz são as covariâncias entre os erros. Assim, termo
da I cobre as
mesmo 2 que multiplica os “uns” da matriz identidade, e as co
diagonal principal são zero. (autocovariâncias) valem zero, pois na matriz identidade os elementos
são zero.
4.1 Exemplo resolvido Exemplo 8.7.1

Com os dados da tabela abaixo, estime a regressão de Y em função de
regressão e de cada um dos parâmetros.
Com os dados da tabela abaixo, estime a regressão de Y em função de X2 e X3 e faça
os testes da regressão e de cada um dos parâmetros.
Y X2 X3
800 2 0,8
1160 4 0,7
1580 6 0,5
2010 8 0,4
1890 7 0,2
2600 12 0,2
2070 11 0,8
1890 10 0,7
1830 9 0,6
1740 8 0,1
1380 6 0,5
1060 4 0,4
O modelo a ser estimado é:

O modelo a ser estimado é: Y = 1 + 2 X2 + 3 X 3 +
A matriz X é dada por:

Yi = β1 + β 2 X 2 + β3 X3 + ε
57
A matriz X é dada por:
1 2 0,8
1 4 0,7
1 6 0,5
1 8 0,4
1 7 0,2
X = 1 12 12 0,8 0,2
1 11 0,8
1 4 0,7
1 10 0,7
1 6 0,5
1 9 0,6
1 8 0,4
1 8 0,1
1 21 17 0,8 6
0,2
0,5
X = 1 41 1120,7 4
0,2
0,4
1 61 110,5 0,8
1 81 100,4 0,7 preenchida por “uns”, como vimos, se refere à variável “
Onde a coluna
não é 1uma71 variável,
9 10,2 20,6é o intercepto.
0,8
X = 1
1 “uns”, 8
12 10,2 0,1
Onde a coluna preenchida por 1matriz
como
4
6 10,8X6’0,5
vimos,
0,7 se refere à variável “X1”, que na
1 A11 X será
0,5 dada por:
1 10 1 4 10,7 80,4 0,4
verdade não é uma variável, é o intercepto. 12 87 5,9
Onde
1 9 a coluna10,6 7 preenchida
0,2 por “uns”, como vimos, se refere à variável “X1”
X ’X = 8 87 731 41
A matriz X’X será dada
não por:
é uma
X1 =variável,
2 0,1é12
10,8 o intercepto.
0,2
1 46 5,9
0,5 11 410,8 3,53
10,7
1 64 0,4 10
0,5
A1 matriz X10,4 0,7 por:
’X será dada
Onde aEcoluna
8 preenchida
a sua inversa:
1 9 0,6 por “uns”, como vimos, se refere à variável “X1”, qu
1 7 12é10,2
não é uma variável, 887 0,15,9
o intercepto.
1,25 -0,09 -1,04
X =X’X =1 -11287 10,2 6731 0,541
(X’1X) 115,9 10,8 -0,09
441 0,43,53 0,01 0,03
A matriz
1 10 X ’ X será dada por:
-1,04 preenchida
0,03 1,67
Onde0,7 a coluna por “uns”, como vimos, se refere à variável
1 129 87
0,6 5,9
nãoE1éa uma
sua variável,
inversa: é o intercepto.
X ’X = 87
A8matriz 731
0,1 41
X’Y será:
E a sua inversa: 1 5,96 1,25 3,53
0,5
41 -0,09 -1,04
20010
(X’X)1-1 4A matriz -0,09X’X será
0,4 0,01dada por:
0,03
X’Ya=coluna160810 12 87
Onde
E a sua inversa:
preenchida
-1,04 0,03por 5,9
“uns”,
1,67 como vimos, se refere à variável “X1”, qu
X’X = é9309
não é uma variável, o 87 731 41
intercepto.
1,25 -0,09
41 -1,04
-1 A matriz X’5,9 Y será: 3,53
(X’XA ) matriz X-0,09
O estimador
’ X será 0,01
ˆ será
dada
20010 0,03 1,67
0,03 então, por:
dado,
por:
-1,04
X’Y = 12E 160810
a sua87inversa: 5,9 789,33
X’X = ˆ = (87X’X -1
9309 731
X’)YXserá:’Y = 41
1,25 -0,09
149,56-1,04
A matriz
X)-1 41 -0,09
(X’5,9 3,53 0,01 0,03
-419,26
A matriz X’Y será: 20010 -1,04 0,03 1,67
ˆ
=aO
X ’Y E estimador será dado, então, por:
sua160810
inversa:
Assim sendo, o valor789,33
9309 de cada um dos parâmetros é:
A 1,25
matriz ˆ X -0,09
’Y será:-1,04
ˆ -1
=1 =0,01 149,56
789,330,03
(X’X)=-1 (X’X) -0,09
X’Y 20010
O estimador ˆ ˆ160810
X’Y =-1,04será 2 = dado,
149,56então,
0,03 1,67 por:
-419,26
ˆ9309
3 = 419,26
789,33
ˆ = (A Assim
matriz
-1 X
X ’X ) X ’Y = sendo,
’ Y será:o valor de cada um dos parâmetros é:
149,56
20010 ˆ 1 = 789,33 ˆ -419,26
E,Oportanto,
estimador será dado,
o modelo estimadoentão,
é: por:
X ’Y = 160810 ˆ 2Ŷ= =149,56
^
789,33
789,33 + 149,56X2 419,26X3
O estimador β será dado, então,
Assim por: o-1 valor
9309
ˆ =sendo,
(X ’ X ˆ )3 =X’Y =de cada um149,56
419,26 dos parâmetros é:
Seˆ 1substituirmos
= 789,33 os valores de X2 e X3 na equação acima, podemos enc
-419,26
O estimador ˆ será dado, então, por:
ˆ 2 = pela
Y explicados
E, portanto, o regressão
149,56 ( Ŷ ), e daí
modelo estimado é: os resíduos que são mostrados na tabela
46,9571 Assim 137,6067 789,33
-53,8093
sendo, o+ valor de cada um dos parâmetros é:
ˆ = (X’X)-1Xˆ’Y =Ŷ =419,26
789,33 149,56X
149,56 2 419,26X 3
65,9128 3 =99,8102 ˆ 1 = 789,33
-203,8783
102,9429 -29,0766
Se substituirmos -419,26
-97,0571
E, portanto, o modeloˆ 2 =os valores
149,56
estimado de X2 e X3 na equação acima, podemos encont
é:
191,8987
Y explicados pela-101,4430
regressão -159,8641
( Ŷ ), e daí419,26X
os resíduos que são mostrados na tabela aba
Ŷ =
Assim sendo, 789,33 ˆ 3+=149,56X
o valor de419,26
cada um 2 dos parâmetros3 é:
46,9571 137,6067
ˆ 1 = 789,33 -53,8093
65,9128 99,8102 os valores
Se substituirmos -203,8783 X2 e X3 na
de estimado
E, =portanto,
149,56 o-97,0571
modelo é: equação acima, podemos encontrar
102,9429 ˆ-29,0766
2
Y explicados pela regressão ( Ŷ ), e +
Ŷ = 789,33 daí149,56X
os resíduos que são 3mostrados na tabela abaixo:
419,26X
191,8987 ˆ-101,4430 -159,8641 2
12 87 5,9
X ’X = 87 731 41
5,9 41 3,53
58
E a sua inversa:
1,25 -0,09 -1,04
(X’X)-1 -0,09 0,01 0,03
Assim sendo, o valor de cada um dos parâmetros
-1,04 é:
0,03 1,67
A matriz X’Y será:

^
β 1 = 789, 33 20010
^
X ’Y = 160810
β 2 = 149,56 9309
^
β 3 = −419,26 O estimador ˆ será dado, então, por:
789,33
ˆ = (X’X)-1X’Y = 149,56
E, portanto, o modelo estimado é: -419,26
Assim sendo, o valor de cada um dos parâmetros é:

^
Y = 789, 33 + 149,56X2 − 419,26X 3 ˆ 1 = 789,33
ˆ 2 = 149,56
ˆ 3 = 419,26
Se substituirmos os valores de X2 e X3 na equação acima, podemos encontrar os
E, portanto,
^ o modelo estimado é:
valores de Y explicados pela regressão ( Y ), e daí os resíduos que são mostrados na tabela
Ŷ = 789,33 + 149,56X2 419,26X3
abaixo:
Se substituirmos os valores de X2 e X3 na equação acima, podemos enco
Y explicados pela regressão ( Ŷ ), e daí os resíduos que são mostrados na tabela ab
46,9571 137,6067 -53,8093
65,9128 99,8102 -203,8783
102,9429 -29,0766 -97,0571
191,8987 -101,4430 -159,8641
Considerando a forma matricial, os valores da tabela acima são os componentes do

^
vetor de resíduos e . A soma dos quadrados dos resíduos será dada por:
^ ^
SQR = e ’ e = 173.444,02
Considerando y o vetor das variáveis Y centradas, a soma dos quadrados totais será
dada por y’y.
E a soma dos quadrados explicados pode ser calculada como:
SQT = y’y = 2.749.025
SQE = SQT – SQR = 2.749.025 – 173.444,02 = 2.575.580,98

resíduos ê . A soma dos quadrados dos resíduos será dada por:
SQR = ê ’ ê = 173444,02
59 por
Considerando y o vetor das variáveis Y centradas, a soma dos quadrados totais será dada
y’y.
SQT = y’y = 2749025
Com Eisso,
a soma dos quadrados
podemos explicados
construir pode ser
uma tabela calculada
ANOVA como:
para esta regressão, da mesma
SQE = SQT – SQR = 2749025 – 173444,02 = 2575580,98
forma que fazíamos para a regressão simples:
Com isso, podemos construir uma tabela ANOVA para esta regressão, da mesma forma que
fazíamos para a regressão simples:
SQE = 2575580,98 2 1287790,49 66,82
SQR = 173444,02 9 19271,56
SQT = 2749025 11 249911,36
Os graus de liberdade dos quadrados explicados são agora 2 (em vez de 1, como na
regressão
Os graussimples), tendo em
de liberdade dosvista que há duas
quadrados variáveis
explicados sãoexplicativas
agora 2 (em(independentes),
vez de 1, comoX2 enaX3. Os
graus de liberdade dos quadrados dos resíduos são, desta forma, 9 (= n–3). Para o modelo geral
regressão simples), tendo em vista que há duas variáveis explicativas (independentes), X2 e
apresentado:
Yi = 1 +dos
X . Os graus de liberdade 2X2i + 3X3i + ...
quadrados dos+ resíduos
kXki + i são, desta forma, 9 (= n–3). Para o
3
modelo geralTemos k–1 variáveis explicativas, portanto os graus de liberdade são, respectivamente100, k–
apresentado:
1 e n–k.
Yi = βO1 +teste
β 2 XF2i +é βfeito
3 X 3i + ...+ β k X ki + ε i
comparando-se o valor calculado com o valor tabelado para 2 graus de
liberdade no numerador e 9 no denominador. Para 5% de significância, este valor é 4,26. Como o
valor calculado (66,82) é maior, a regressão é válida.
Temos k–1
2 variáveis explicativas, portanto os graus de liberdade são, respectivamente,
O R é calculado da mesma forma:
k–1 e n–k. 2575580,98
R2 = = 0,9369
2749025
O teste F é feito comparando-se o valor calculado com o valor tabelado para 2 graus
de liberdade Para
no numerador e 9 nodedenominador.
testar a validade Para 5% detemos
cada um dos parâmetros, significância, este avalor
que encontrar é 4,26.
variância de cada
ˆ
Comoum deles.calculado
o valor A variância do vetor
(66,82) de parâmetros
é maior, será
a regressão dada por:
é válida.
O R2 é calculado
var( ˆ da
) =mesma forma:
var[(X’X )-1X’Y]
O raciocínio é o mesmo que para a variância de um escalar. O termo (X’X)-1X’ é uma

2.575.580,98 que X é uma constante. Se fosse um escalar, extrairíamos da variância
constante,
R 2 = considerando= 0,9369
elevando ao quadrado. Como é uma matriz, usamos a forma quadrática. Além disso, sabemos que a
2.749.025
variância de Y é 2I:
Para testar avar( ˆ ) = de

validade 2 cada-1um dos parâmetros,
(X’X) X’X(X’X)-1 temos que encontrar a variância de
^
cada um deles. A variância do vetor de parâmetros β será dada por:
100
Há autores que chamam o intercepto de 0. Neste caso, o número de variáveis explicativas seria representado por k e
os graus de liberdade seriam k e n-k-1, respectivamente. Há que se tomar cuidado com possíveis confusões: basta
lembrar que
^ o número de graus de liberdade dos quadrados explicados é o número de variáveis explicativas.
var( β ) = var[(X’X)-1X’Y]
O raciocínio é o mesmo que para a variância de um escalar. O termo (X’X)-1X’ é uma

constante, considerando que X é uma constante. Se fosse um escalar, extrairíamos da
variância elevando ao quadrado. Como é uma matriz, usamos a forma quadrática. Além disso,
sabemos que a variância de Y é σ2I:
60
^
var( β ) = σ2 (X’X)-1X’X(X’X)-1
Como (X’X)-1X’X é igual à identidade (matriz multiplicada pela sua inversa), temos:
^
var( β ) = σ2(X’X)-1
S 2^ = S 2 (X 'X)−1
β
Como (X’X)-1X’X é igual à identidade (matriz multiplicada pela sua inversa), temos:
Que, para este exemplo,

var( ˆ)=
será dado
2 por: -1
(X ’X )

S 2^ = 19.271, 56(X'X)−1
β
S 2ˆ = S2(X’X)-1
Ou seja, Que, para este exemplo, será dado por:
S 2ˆ = 19271,56(X’X)-1
24104,99 -1747,65 -19990,34
2
S ˆ -1747,65 202,34 570,85
-19990,34 570,85 32240,76
Os valores da diagonal principal são as variâncias dos parâmetros, enquanto os dem

101
valores representam
Os valores da diagonal as covariâncias
principal .
são as variâncias dos parâmetros, enquanto os demais
valores representam asDeste
covariâncias.
modo, as variâncias (e os desvios padrão) de cada parâmetro são:
2
S ˆ =(e
Deste modo, as variâncias 24104,99
os desvios padrão)S ˆde= cada
155,26
parâmetro são:
1 1
2
S = 202,34
ˆ S ˆ = 14,22
2 2
2
S 2^ = 24.104,99 ⇒ S ^ S= 155,26
= 32240,76
ˆ
3
S ˆ = 179,56
3
β1 β1
S 2^ = 202, 34 ⇒Assim,
S ^ = 14,22
podemos calcular as estatísticas “t” para cada parâmetro:
β2 β2
789,33
= 5,08
S ^ = 32.240, 76 ⇒ S ^ 155
2
= 179,56
, 26
β3 β3
149,56
= 10,51
14,22
Assim, podemos calcular419as
,26estatísticas “t” para cada parâmetro:
= 2,33
179,56
Os valores tabelados para a distribuição t de Student com 9 graus de liberdade são:

t(9,10%) = 1,83
t(9,5%) = 2,26
t(9,1%) = 3,25
61
789,33/155,26 = 5,08
149,56/14,22 = 10,51
419,26/179,56 = 2,33
Os valores tabelados para a distribuição t de Student com 9 graus de liberdade são:
t(9,10%) = 1,83
t(9,5%) = 2,26
216
t(9,1%) = 3,25
Ŷ = 529,38 + 156,98X2 R2 = 0,8987

(130,09)
Como os valores (16,67) para o intercepto ( β1 ) e para β2 são superiores a todos os
calculados
valores, estes são
Ŷ =significantes a 1%. O valor para
2081,09 841,19X R2 =β0,1619
3 é inferior ao valor tabelado para 1%,
2
(328,2)a 5%,
mas é superior ao tabelado (605,12)
portanto ele é significante a 5%.
Como se vê, os coeficientes encontrados são diferentes daqueles que foram calculados na
regressão múltipla. Por que isto acontece? Imagine que queiramos estudar o volume de vendas de
umVariáveis
4.2 determinado bem: logicamente, se o preço cai, as vendas devem aumentar (o coeficiente da
dummy
regressão deve ser negativo). Mas e se estiver ocorrendo uma recessão? Mesmo com o preço
caindo, as vendas podem cair também. Se fizermos uma regressão simples com quantidades e
preços, podemos encontrar resultados estranhos (coeficiente positivo). Isto seria evitado se
Uma variável
incluíssemos dummy
na regressão serve para
uma variável comorepresentar a influência
a renda, assim teríamos a de uma característica
influência ou
da renda incluída
em nossoqualitativo.
atributo modelo. Por exemplo, se queremos saber se o sexo influencia no salário, usamos
este último variável

8.8 Variáveis dummydependente e incluímos uma série de variáveis que explicam o salário
(anos de estudo, tempo de empresa, etc.) e incluímos uma variável D com as seguintes
Uma variável dummy serve para representar a influência de uma característica ou atributo
características:
qualitativo. Por exemplo, se queremos saber se o sexo influencia no salário, usamos este último
variável dependente e incluímos uma série de variáveis que explicam o salário (anos de estudo,
tempo de empresa, etc.) e incluímos uma variável D com as seguintes características:
0, se for homem
D=
1, se for mulher
Desta forma o coeficiente da variável D representa o quanto as mulheres ganham a mais (ou
a menos). Assim, se o coeficiente da variável D for –100, por exemplo, isto significa que as
Desta
mulheres, em forma o coeficiente
média, ganham da avariável
100 reais menos doDque
representa o quanto as mulheres ganham a
os homens.
mais (ou a menos). Assim, se o coeficiente da variável D for –100, por exemplo, isto significa
Isto também pode ser feito com uma variável qualitativa que possua 3 estados possíveis. Por
que as mulheres,
exemplo, em de
o padrão média, ganhamde100
construção umreais a menos
imóvel podedoserque os homens.
alto, médio ou baixo. Neste caso,
precisaríamos de duas variáveis dummy, que poderíamos definir assim:
Isto também pode ser feito com uma variável qualitativa que possua 3 estados
possíveis. Por exemplo, o padrão
0, se for baixo de construção de um imóvel pode ser alto, médio ou baixo.
ou alto
D1 =
Neste caso, precisaríamos de duas variáveis dummy, que poderíamos definir assim:
1, se for médio
0, se for baixo ou médio

D2 =
1, se for alto
Ou, alternativamente, assim:

D=
1, se for mulher
mulheres, em média, ganham 100 reais a menos do que os homens.
62
exemplo, o padrão de construção de um imóvel pode ser alto, médio ou baixo. Neste caso,
mulheres, em média, ganham 100 reais a menos do que os homens.
0, se for baixo ou alto
exemplo, o padrão de construção de um imóvel pode ser alto, médio ou baixo. Neste caso,
D1 =
1, se for médio
0, se for baixo ou alto
D1 =
1, se for médio
D2 =
1, se for alto
D2 =
Ou, alternativamente,
1, se for alto assim:
0, se for baixo
D1 =
1, se for médio ou alto
0, se for baixo
D1 =
217
D2 =
1, se for alto
Exemplo 8.8.1
Do exemplo 8.7.1, adicionamos uma variável qualitativa, que representa a existência ou não de
4.2.1 Aplicação
determinado atributo.
Y X2 X3 atributo D2 =
800 2 0,8 sim 1, se for alto
Do exemplo anterior, adicionamos uma variável qualitativa, que representa a
1160 4 0,7 sim
existência
1580 6 ou0,5 não desim
determinadoExemplo
atributo. 8.8.1
2010 8 0,4 sim Do exemplo 8.7.1, adicionamos uma variável qualitativa, que representa a
1890 7 0,2 sim determinado atributo.
2600 12 0,2 sim Y X2 X3 atributo
2070 11 0,8 não 800 2 0,8 sim
1890 10 0,7 não 1160 4 0,7 sim
1830 9 0,6 não 1580 6 0,5 sim
1740 8 0,1 não 2010 8 0,4 sim
1380 6 0,5 não 1890 7 0,2 sim
1060 4 0,4 não 2600 12 0,2 sim
Estime a regressão de Y em função2070 das três11 0,8 e faça
variáveis não as análises pertinentes.
1890 10 0,7 não
Para incluirmos esta variável qualitativa
1830 9 no
0,6modelo,
não definimos a variável dummy D, definida
por: 1740 8 0,1 não
1380 6 0,5 não
0, se não existir atributo
1060 4 0,4 não
D= Estime a regressão de Y em função das três variáveis e faça as análises pertine
1, se existir o atributo
Estime a regressão deseriam: Para
Y em função incluirmos
das esta variável
três variáveis qualitativa
e faça as análises no modelo, definimos a variá
pertinentes.
Com isto, as variáveis por:
Y X2 X3 D
800 2 0,8 1 0, se não existir atributo
1160 4 0,7 1 D=
1580 6 0,5 1 1, se existir o atributo
2600 12 0,2 sim
1580 6 0,5 sim
2070 11 0,8 não
2010 8 0,4 sim
1890 10 0,7 não 63
1890 7 0,2 sim
1830 9 0,6 não
2600 12 0,2 sim
1740 8 0,1 não
2070 11 0,8 não
1380 6 0,5 não
1890 10 0,7 não
1060 Para
4 0,4 não
incluirmos esta variável1830 qualitativa no
9 0,6 modelo,
não definimos a variável dummy D,
Estime a regressão de Y em função das três variáveis e faça as análises pertinentes.
definida por: 1740 8 0,1 não
Para incluirmos esta variável qualitativa no modelo,não
1380 6 0,5 definimos a variável dummy D, definida
por: 1060 4 0,4 não
Estime a regressão de Y em função das três variáveis e faça as análises pe
0, se não existir atributo
D= Para incluirmos esta variável qualitativa no modelo, definimos a v
1, se existir o atributo por:
Com isto, as variáveis seriam: 0, se não existir atributo

Y X2 X3 D D=
Com isto, as variáveis seriam: 1, se existir o atributo
800 2 0,8 1
1160 4 0,7 1
Com isto, as variáveis seriam:
1580 6 0,5 1
Y X2 X3 D
2010 8 0,4 1
800 2 0,8 1
1890 7 0,2 1
1160 4 0,7 1
2600 12 0,2 1
1580 6 0,5 1
2070 11 0,8 0
2010 8 0,4 1
1890 10 0,7 0
1890 7 0,2 1
1830 9 0,6 0
2600 12 0,2 1
1740 8 0,1 0
2070 11 0,8 0
1380 6 0,5 0
1890 10 0,7 0
1060 4 0,4 0
1830 9 0,6 0
E devemos estimar o modelo: 1740 8 0,1 0
Y = 1 + 2X2 + 3X3 + 1380 4D +
6 0,5 0
1060 4 0,4 0
Cujos resultados são:
Ŷ = 536,09 + 161,87X2 327,78XE devemos estimar o modelo:
3 + 238,08D
E devemos estimar o modelo: Y = 1 + 2X2 + 3X3 + 4D +

Yi = β1 + β 2 X2 + β 3 X 3 + β 4 D + ε Ŷ = 536,09 + 161,87X2 327,78X3 + 238,08D
^
Y = 536, 09 +161,87X 2 − 327, 78X3 + 238, 08D
(64,35) (5,34) (65,48) (30,26)
Onde, como de costume, os desvios padrão estão entre parênteses. Todos os

coeficientes são significantes a 1% (verifique!). O resultado encontrado indica que a presença
do atributo aumenta o valor de Y em 238,08 (na média).
218
64
(64,35) (5,34) (65,48) (30,26)
Onde, como de costume, os desvios padrão estão entre parênteses. Todos os coeficientes são
significantes a 1% (verifique!). O resultado encontrado indica que a presença do atributo aumenta o
A tabela
valor ANOVA
de Y em 238,08será:
(na média).
A tabela ANOVA será:

SQE = 2729170,78 3 909723,59 366,56
SQR = 19854,22 8 2481,78
SQT = 2749025 11 249911,36
A regressão é válida (já que o valor tabelado para a distribuição F a 5% é 4,07) e o R2 é

0,9928.
A regressão é válida (já que o valor tabelado para a distribuição F a 5% é 4,07) e o R2
é 0,9928.
Exemplo 8.8.2
Suponha que, numa regressão para o preço de um imóvel (medido em 1000 reais),levamos em conta
a área do mesmo (X2), um índice que mede a qualidade dos serviços disponíveis no bairro (X3) e
duas variáveis
4.3 Seleção dummy que representam o padrão de construção do imóvel, assim definidas:
de modelos
0, se for baixo
D =2
4.3.1 1R ajustado

Se atentarmos para os exemplos resolvidos anteriormente (quando acrescentamos a
D2 =
1, se for altoque houve um aumento do R2. Isto entretanto, não significa que
variável dummy), verificamos
o modelo estimadoobtidos
Os resultados no último
foram:exemplo seja “melhor”, já que, se acrescentarmos variáveis
1
explicativas, este sempre aumentará
Ŷ = 16,34 + 1,27X. 2 + 0,78X3 + 12,04D1 + 18,21D2
(27,88) (0,44) (0,23) (5,16) (4,77)
O R2 é uma razão entre a soma dos quadrados explicados e a soma dos quadrados
totais.Qual
Estaa última
diferença
será(em média) entre
a mesma, não oimportando
preço de um imóvel(ou
quantas de padrão baixo e deexplicativas
quais) variáveis padrão médio? E
entre um imóvel de padrão médio e de padrão alto?
utilizemos. A soma dos quadrados explicados, justamente por ser uma soma de quadrados,
Para um imóvel de baixo padrão, temos D1 = D2 = 0, enquanto que, para padrão médio, D1 =
quando acrescentamos uma variável explicativa, sempre terá agregada uma parcela positiva
1 e D2 = 0. Portanto, o coeficiente da variável D1 representa a diferença média no preço de imóveis
ao seudetotal.
padrão baixo e médio, que é, portanto, 12.040 reais.
2
Assim,
Se oo R , se nos
padrão dá uma
for alto, entãomedida
D = D interessante doa ajuste
= 1. Portanto, de entre
diferença um certo modelo,
imóveis não alto e
de padrão
1 2
serve médio
como écomparação
representada entre
pelo coeficiente
modelos queda variável D2, quedeé 18.210
têm número reais.
variáveis explicativas diferente.
Para se fazerUm
estacuidado
comparação, há deve
especial que se
serusar uma se
tomado medida diferente.
a variável dependente for qualitativa. Como esta
variável deve ser
O R2 pode ter calculado
o mesmo tipo de distribuição
de duas maneiras: que o erro, se ela for 0 ou 1, ela não poderá ser, por
exemplo, uma variável normal. Quando este for o caso, alguns métodos especiais devem ser
utilizados para sua estimação, métodos estes que são encontrados em textos mais avançados de
econometria.
SQE SQR
R2 = = 1−
SQTde modelos
8.9 Seleção SQT
8.9.1 R2 ajustado
Partindo da segunda forma, se dividirmos o numerador e o denominador pelos
respectivos graus de liberdade, obteremos um “novo” R2, ajustado pelos graus de liberdade,
1
Ou, muito raramente, ficará na mesma, mas jamais cairá.
65
chamado simplesmente de R2 ajustado ou ainda 𝑅2:
2 SQR / (n − k)
R = 1−
SQT / (n − 1)
Ao se fazer este ajuste pelos graus de liberdade, encontramos um valor que pode ser
usado para comparar modelos com número de variáveis diferente. Ele não tem as mesmas
propriedades do R2, entretanto: ele será 1 no máximo (que corresponde ao caso em que não há
resíduos), mas pode ser negativo.
4.3.2 Aplicação
Compare os modelos dos exemplos anteriores pelo critério do R2 ajustado.

Para o modelo do primeiro exemplo temos:
173.444,02
2
R = 1− 9 = 0,9229
2.749.025
11
Enquanto para o modelo do segundo exemplo:
19.854, 22
2
R = 1− 8 = 0, 9901
2.749.025
11
Como o R2 ajustado é maior para o modelo do segundo exemplo (com a variável

dummy), este modelo é melhor por este critério.
66
4.4 Exercícios
1. Dados os valores X e Y na tabela abaixo:

Exercícios
1. Dados os valores de X e Y na tabela abaixo:
X Y
2 6,9
3 8,7
-2 -5,8
1 3,4
3Exercícios
8,2
41. Dados 10,8os valores de X e Y na tabela abaixo:
-1
X Y-1,6
22 6
6,9
a)
3 estime8,7 os parâmetros da reta de regressão.
b)
-2 -5,8 a2 tabela ANOVA.
construa
c)
a) estime os parâmetros da reta de regressão.1 calcule
3,4 R .
d)
3 faça8,2os testes t e F.
b) construa a tabela ANOVA. 4 10,8
2 2.
-1 Dados-1,6os valores de X e Y na tabela abaixo:
c) calcule R . X2 6Y
d) faça os testes t e F. 6a) estime104os parâmetros da reta de regressão.
7b) construa
122 a tabela ANOVA.
8c) calcule
202 R2.
2. Dados os valores X e Y na tabela abaixo: 9d) faça193 os testes t e F.
5 76
42. Dados 32 os valores de X e Y na tabela abaixo:
7X Y67
9 103
6 104
11 189
7 122
a) estime os parâmetros, calcule o R2 e faça os testes t e F.
8 202
b) refaça os cálculos do item a utilizando, em vez dos valores origin
9 193
c) compare os resultados e explique.
5 76
4 32
3. Após uma regressão simples, onde se utilizou uma amostra com
7 67
os seguintes dados:
9 103
Soma
11 189 dos quadrados
SQE =
a) estime 123os parâmetros, calcule o R2 e faça os testes t e F.
b) refaça os cálculos do item a utilizando, em vez dos valores origin
SQT = 189 resultados e explique.
c) compare
a) estime os parâmetros, calcule o R2 e façaa) testes tos
oscomplete ae tabela
F. ANOVA
2
b)
b) refaça os cálculos do item a utilizando, em calcule
vez dos
3. Após o R
umavalores originais,
regressão osonde
simples, logaritmos.
se utilizou uma amostra com
c)
os faça o testedados:
seguintes F.
Soma dos quadrados
4.
SQEPara uma amostra de 10 observações de X e Y foram obtidos:
= 123
2
x = 697440
y2 ==1003620
SQT 189
xy = -828110
a) complete a tabela ANOVA
X=
b) 464 o R2
calcule
c)
Y faça
= 447,2o teste F.
a) estime os parâmetros da reta de regressão.
4. Para
b) umaaamostra
construa de 10 observações de X e Y foram obtidos:
tabela ANOVA.
2
= 697440
c)xcalcule R2.
d)y2faça os testes t e F.
= 1003620
xy = -828110
9 193
5 76
4 32
7 67 67
9 103
11 189
a) estime os parâmetros, calcule o R2 e faça os testes t e F.
3. b) refaça
Após umaosregressão
cálculos do item a utilizando,
simples, em vez dos
onde se utilizou umavalores originais,
amostra com os 20 logaritmos.
elementos, foram
tabulados os seguintes dados:
3. Após uma regressão simples, onde se utilizou uma amostra com 20 elementos, foram tabulados
os seguintes dados:
Soma dos quadrados
SQE = 123
SQT = 189
b) calcule o R2
c) faça ao tabela
a) complete teste F.ANOVA
2
b) calcule o Ruma
4. Para amostra de 10 observações de X e Y foram obtidos:
2
= 697440
c) faça xo2 teste F.
y = 1003620
xy = -828110
X =uma
4. Para 464 amostra de 10 observações de X e Y foram obtidos:
Y = 447,2
2 a) estime os parâmetros da reta de regressão.
Σx = 697440
b) construa a tabela ANOVA.
Σy2 =c) calcule R2.
1003620
d) faça os testes t e F.
Σxy = -828110
𝑋 = 464
𝑌 = 447,2
a) estime os parâmetros da reta de regressão.
b) construa a tabela ANOVA.
c) calcule R2.
d) faça os testes t e F.
5. Os resultados de uma regressão entre preço de imóveis e suas áreas foram os seguintes:
PREÇO = 200 + 1,2 ÁREA
(150) (0,3)
onde os valores entre parênteses são os desvios padrão.
Teste a significância dos parâmetros, sabendo que foi utilizada uma amostra de 20
observações.
6. Os resultados de uma regressão para o PIB de um país são dados abaixo:

PIB = 1,4 + 0,024t
Onde t é o tempo medido em anos e o PIB é anual, medido em logaritmos.. Qual o significado
dos coeficientes encontrados?
9. Em que condições o estimador de mínimos quadrados ordinários é não viesado? Encontre
exemplos em que isto não ocorre.
68
10. Em que condições o estimador de mínimos quadrados ordinários é eficiente ou, pelo menos, é o
MELNV? Encontre exemplos em que isto não ocorre.
7. A tabela
11. Os abaixo mostra
resultados o regressão
de uma número de parahomicídios
o PIB de umregistrados por abaixo:
país são dados diversos distritos
PIB = 1,4 + 0,024t
policiais daOnde
cidade
t éde São Paulo
o tempo e a em
medido renda média
anos dosérespectivos
e o PIB distritos.
anual, medido Faça umaQual
em logaritmos.. regressão
o significado dos
do número coeficientes
de homicídiosencontrados?
em função da renda usando as variáveis em nível e em logaritmos,
fazendo os 12.
testes
A relevantes. Comente
tabela abaixo mostra oosnúmero
resultados.
de homicídios registrados por diversos distritos policiais da
cidade de São Paulo e a renda média dos respectivos distritos. Faça uma regressão do número de
homicídios em função da renda usando as variáveis em nível e em logaritmos, fazendo os testes
relevantes. Comente os resultados.
homicídios Renda homicídios Renda homicídios Renda
1996 (US$) 1996 (US$) 1996 (US$)
32 528,21 19 1652,04 57 496,12
17 571,19 19 884,29 233 376,31
37 726,03 52 721,91 41 501,90
15 1528,22 24 560,79 64 1013,87
38 962,94 27 981,36 74 501,90
29 709,68 21 1390,53 186 421,39
41 556,32 29 655,11 140 398,25
35 534,92 40 505,20 22 1013,87
50 946,43 112 388,09 156 314,33
5 1127,78 23 416,09 155 344,90
34 1107,40 45 491,34 20 837,37
31 696,90 43 326,47 119 262,00
71 544,63 38 326,47 21 431,41
20 2033,36 79 457,98 93 370,62
161 629,53 52 1390,53 133 275,28
11 1390,53 35 431,41 25 262,00
10 736,87 7 876,53 47 376,36
112 544,63 21 496,82 27 342,73
13 1565,26 18 583,14 53 370,62
31 496,12 11 821,50 23 407,23
22 897,59 6 547,40 31 265,23 224
25 1678,60 9 546,63 116 265,23
20 2074,78 2 821,50 34 369,11
22 1430,84 31 546,63 63 453,12
34 500,35 2 876,53 54 306,44
Fonte: Sartoris, A. (2000) Homicídios na Cidade de São Paulo. mimeo. FEA/USP. São Paulo
13. Para cada conjunto de observações abaixo, estime os parâmetros da regressão com e sem
8. Paraintercepto, fazendo
cada conjunto 25deosobservações
testes relevantes.
1678,60 Comente
abaixo, estime
9 ososresultados
parâmetros
546,63 da regressão
116 com 265,23
e
20 2074,78 2 821,50 34 369,11
a) Y os 22 b)
X relevantes.
1430,84 X =3124,24 Y =27,79
546,63 63 453,12
sem intercepto, fazendo testes
34 Comente
500,35 os resultados.
22 876,53 54 306,44
1,9 X = 11340,95
2,0Sartoris, A. (2000) Homicídios
Fonte: na Cidade de São Paulo. mimeo. FEA/USP. São Paulo
2,6 3,5 Y2 = 16614,45
a) 13. Para cada conjunto de observações abaixo, estime os parâmetros da r
3,3 5,0
intercepto, XY = 12226,63
fazendo os testes relevantes. Comente os resultados
4,9 a) 6,0 Y X b) X = 24,24 Y =27,79
1,9 2,0 X2 = 11340,95
2,6 4,4 Y2 = 16614,45
2,6 3,5
4,3 5,6 3,3 5,0 XY = 12226,63
5,8 7,0 4,9 6,0
2,6 4,4
4,1 6,2 4,3 5,6
2,8 4,8 5,8 7,0
4,1 6,2
7,8 9,8 2,8 4,8
6,3 7,0 7,8 9,8
6,3 7,0
5,4 7,7
5,4 7,7
7,3 8,3 7,3 8,3
6,0 6,8 6,0 6,8
4,9 5,9
4,9 5,9
14. . Após uma regressão com 5 variáveis explicativas, onde se utilizou u
14. . Após umaobservações,
regressão comforam tabulados os seguintes dados:
5 variáveis explicativas, onde se utilizou uma amostra com 30
Soma dos quadrados
observações, foram tabulados
SQE = 2309,7 os seguintes dados:
13. Para cada conjunto de observações abaixo, estime os parâmetros da regressão com e sem
intercepto, fazendo os testes relevantes. Comente os resultados
a) b) 69
Y X X = 24,24 Y =27,79
1,9 2,0 X2 = 11340,95
2,6 3,5 Y2 = 16614,45
3,3 5,0 XY = 12226,63
b) 4,9 6,0
2,6 4,4
𝑋 = 24,24
4,3 5,6
ΣX2 = 11340,955,8 7,0
4,1 6,2
ΣY2 = 16614,45
2,8 4,8
ΣXY = 12226,637,8 9,8
6,3 7,0
𝑌 =27,79 5,4 7,7
7,3 8,3
6,0 6,8
9. Após uma
4,9 regressão
5,9 com 5 variáveis explicativas, onde se utilizou uma amostra com
30 observações, foram tabulados os seguintes dados:
14. . Após uma regressão com 5 variáveis explicativas, onde se utilizou uma amostra com 30
observações, foram tabulados os seguintes dados:
Soma dos quadrados
SQE = 2309,7
SQT = 3450,8
b) calcule o R2 e o R2 ajustado.
c) faça ao tabela
a) complete teste F.ANOVA
15. Numa regressão com 4 variáveis explicativas e uma amostra de 26 observações, a soma dos
b) calcule o R2 eexplicados
quadrados o R2 ajustado.
foi 1788,56 e a soma dos quadrados dos resíduos 567,34. Ao acrescentarmos
duas variáveis ao modelo, a soma dos quadrados explicados aumentou para 1895,28. Verifique se
c) faça o teste F.
este modelo é melhor do que o anterior, usando o R2 ajustado, os critérios de informação e o teste F.
16. Dados os gráficos abaixo, qual o resultado esperado para o sinal de ˆ e o valor de R2?
10. Numa regressão com 4 variáveis explicativas e uma amostra de 26 observações, a
soma dos quadrados explicados foi 1788,56 e a soma dos quadrados dos resíduos 567,34. Ao
acrescentarmos duas variáveis ao modelo, a soma dos quadrados explicados aumentou para
1895,28. Verifique se este modelo é melhor do que o anterior, usando o R2 ajustado.
11. Na tabela abaixo são dados, para vários imóveis, a área (em m2), o padrão de
construção (alto, médio ou baixo), o número de dormitórios, de banheiros, de vagas na
garagem, se há ou não piscina e o preço do imóvel (em 1000 reais). Faça uma regressão do
preço em função destas características. A seguir, teste a significância dos parâmetros e, se for
o caso, elimine um ou mais e refaça a estimação. Use o critério do R2 ajustado visto no texto e
compare os dois modelos. Repita o procedimento até encontrar o modelo que melhor explique
o preço dos imóveis. Interprete os resultados obtidos.
2
2
17. Na tabela abaixo são dados, para vários imóveis, a área (em m ), o padrão de construção (al
médio ou baixo), o número de dormitórios, de banheiros, de vagas na garagem, se há ou não pisc
70
e o preço do imóvel (em 1000 reais). Faça uma regressão do preço em função destas característic
A seguir, teste a significância dos parâmetros e, se for o caso, elimine um ou mais e refaça
estimação. Use os critérios vistos no texto e compare os dois modelos. Repita o procedimento
encontrar o modelo que melhor explique o preço dos imóveis. Interprete os resultados obtidos.
área padrão dorm vagas piscina banheiros preço
100 médio 2 1 sim 2 88,9
150 alto 3 1 sim 2 149,1
200 médio 3 2 sim 3 194,4
180 médio 3 1 não 2 153,5
130 médio 2 1 não 1 121,7
89 médio 1 1 não 1 85,9
95 baixo 2 0 não 1 73,5
50 baixo 2 0 não 1 39,9
200 médio 4 3 sim 2 189,7
210 médio 3 2 sim 3 186,3
250 médio 6 3 sim 3 229,7
280 alto 4 2 sim 4 272,0
350 alto 5 2 sim 4 339,5
150 alto 3 1 não 2 155,2
240 alto 3 1 não 2 232,7
70 baixo 2 0 não 2 68,7
135 alto 2 1 sim 2 157,0
140 alto 3 2 sim 2 151,0
18. Teste a normalidade dos resíduos das regressões feitas nos exercícios 12 e 17.
12. Teste a normalidade dos resíduos das regressões feitas nos exercícios 7 e 11.
19. Encontre, em notação matricial, as expressões para a SQE.
20. Assinale verdadeiro ou falso:

13. Encontre, em notação matricial, as expressões para a SQE.
a) se os resíduos não forem normais, os testes de hipóteses não serão válidos para qualquer taman
de amostra.
b) Numa regressão Yi = + Xi + i, o significado de é a elasticidade.
14. Assinale
c) verdadeiro ou falso:serve para encontrar taxas de crescimento.
O modelo log-linear
d) Se a reta verdadeira passa pela origem, a estimação sem o intercepto fornecerá estimadores m
precisos para .
a) se os resíduos
e) Onão
testeforem
F paranormais,
a regressão os múltipla
testes detem
hipóteses não hipóteses
as seguintes serão válidos
nula epara qualquer
alternativa:
tamanho de amostra. H0: 2 = 3 = ... = k = 0
H1: todos os i 0
b) Numa regressão
f) Se Y i = α + βXi +
aumentarmos o εnúmero
i, o significado de βexplicativas,
de variáveis é a elasticidade.
o R2 nunca será menor.
g) Se as variáveis
c) O modelo log-linear independentes
serve para encontrar taxasXi forem estocásticas, o estimador de será viesado.
de crescimento.
h) Numa regressão Yi = + 1X1i + 2X2i + i, se X1i = 2X2i + 3, ainda assim é possível ob
d) Se a reta verdadeira
estimativas passa
parapela origem, a estimação sem o intercepto fornecerá estimadores
1 e 2.
mais precisos para β.

e) O teste F para a regressão múltipla tem as seguintes hipóteses nula e alternativa:
H0: β2 = β3 =...= βk =0
H1: todos os βi ≠ 0
f) Se aumentarmos o número de variáveis explicativas, o R2 nunca será menor.
g) Se as variáveis independentes Xi forem estocásticas, o estimador de β será viesado.
h) Numa regressão Yi = α + β1X1i + β2X2i + εi, se X1i = 2X2i + 3, ainda assim é possível obter
estimativas para β1 e β2.
4.5 Referências1
GOLDBERGER, Arthur. Econometric Theory. New York: John Wiley, 1964.
GREENE, W. Econometric analysis. Prentice Hall, 1997.

Durante, Mônica Rosemberg, Maria Lúcia G. L. Rosa. 5. ed. Porto Alegre: AMGH, 2011.
LINS, Marcos Pereira Estellita; CALÔBA, Guilherme Marques. Programação linear: com
aplicações em teoria dos jogos e avaliação de desempenho (data envelopment analysis). Rio
de Janeiro: Interciência, 2006.
MADDALA, G. S. Introdução à econometria. Tradução de Leonardo Weller; revisão

técnica de Paulo Tafner. 3. ed. São Paulo: LTC, 2003.
MATOS, Orlando Carneiro de. Econometria básica: teoria e aplicações. 3. ed. rev. e ampl.
São Paulo: Atlas, 2000.
PINDYCK, Robert S.; RUBINFELD, Daniel L. Econometria: modelos e previsões. Rio de

Janeiro: Elsevier, 2004.
SARTORIS, Alexandre. Estatística e introdução à econometria. São Paulo: Saraiva, 2003.
WONNACOTT, Ronald J; WONNACOTT, Thomas H. Econometria. Tradução de Maria C.

Silva. 2. ed. Rio de Janeiro: Livros Técnicos e Científicos, 1978.
WOOLDRIDGE, J. M. Introdução à econometria: uma abordagem moderna. São Paulo:

Cengage Learning, 2013.
1
Referências bibliográficas do capítulo 3 e 4. Maior parte destes capítulos estão baseados em Sartoris (2003).

Apostila Econometria

Transféré par

Informations du document

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

Apostila Econometria

Transféré par

Droits d'auteur :

Formats disponibles

Econometria

Fábio Heleno Mourão da Costa

Universidade do Estado do Amazonas - UEA

Universidade do Estado do Amazonas - UEA

Fábio Heleno Mourão da Costa, M. Sc.

Fábio Heleno Mourão da Costa

[…] A leading model builder asserted in public that the world

1.1 O que é econometria?

Econometria é a junção de duas palavras gregas, economia e medida, significando

Econometria é uma combinação de teoria econômica,

Koutsoyiannis (1977, p. 9-10, tradução nossa) divide a econometria em dois ramos:

1.2 Um pouco mais sobre o método econométrico: sobre dados e modelos

Os dados são o conjunto de fatos quantitativamente expressos utilizados na análise

a) Dados de corte transversal ou cross-section: conjunto de observações de vários

a) Dados experimentais: estes dados são obtidos através de experimentos

Outras classificações de dados não experimentais são indicadas em Hill, Griffiths e

1. Quanto ao nível de agregação:

De acordo com Malinvaud

Um modelo é a representação formal das noções que temos

[...] Modelos iniciais, como aqueles da mecânica

Os modelos são compostos de relações. Estas relações tomam a forma de equações ou

1. Quanto à forma funcional4:

1.3 Uma breve história da econometria

1. Antes de 1930: busca de meios para testar teoria e realidade;

CHRIST, Carl F. The Cowles Commission’s Contributions to Econometrics at Chicago,

GOLDBERGER, Arthur. Econometric Theory. New York: John Wiley, 1964.

GUJARATI, Damodar N.; PORTER, Dawn C. Econometria Básica. Tradução Denise

n. 2, jun. 1992, p. 876-886. Disponível em: <http://www.jstor.org/stable/2727705>. Acesso

_____. Learning and Practicing Econometrics. Hoboken: John Wiley, 1993.

INTRILIGATOR, Michael D. Econometric models, techniques, and applications.

KOUTSOYIANNIS, A. [Anna]. Theory of Econometrics. 2. ed. London: Macmillan, 1977.

LANGE, Oskar. Introdução à econometria. São Paulo: Fundo de Cultura, 1963.

MADDALA, G. S. Introdução à econometria. Tradução de Leonardo Weller; revisão

MALINVAUD, E. [Edmund]. Statistical methods of Econometrics. 2. ed. rev. Translated by

ROMBOUTS, Jeoren V. K. Econometrics, 1930 to the present. 22 nov. 2004. Disponível

TEIXEIRA, Joanílio Rodolpho. Uma perspectiva histórica da economia quantitativa e do

<http://bibliotecadigital.fgv.br/ojs/index.php/bre/article/view/3141>. Acesso em: 09 dez.

TINTNER, Gerhard. The Definitions of Econometrics. In: Econometrica, v. 21, n. 1, jan.

WOOLDRIDGE, Jeffrey M. Introdução à econometria: uma abordagem moderna. Tradução

O presente capítulo busca apresentar o estudo de correlação, como uma introdução ao

Segundo Wonnacott e Wonnacott (1978, p. 98), correlação e regressão estão “[...]

2.2 O coeficiente de correlação

Antes de analisar diretamente o cálculo da correlação linear, é interessante lembrar o

Define-se covariância populacional como

S XY = E ⎡⎣( X i − µ X )(Yi − µY )⎤⎦ (2.1)

ou, ainda, considerando xi e yi os desvios das observações em relação à média,

∑ ⎡⎣( X i − X )(Yi − Y )⎤⎦

∑ X iYi − X ∑Yi − Y ∑ X i + nXY

O estimador da covariância é ligeiramente diferente

A justificativa1 para esta correção é que “suponha observamos o exatamente o mesmo

Por sua vez, o estimador do coeficiente de correlação é dado pela fórmula

∑ ⎡⎣( X i − X )(Yi − Y )⎤⎦

1. Quando r > 0, a correlação linear é positiva, isto é, quando elas aumentam ou

Geometricamente, o coeficiente de correlação é similar à função cosseno, como expõe

Hadley (1969, p. 32-33): x , y e θ são, respectivamente, vetores que representam o desvio

Esta definição coloca o coeficiente entre no intervalo supracitado em decorrência da

com a distribuição t com n − 2 graus de liberdade.

2.3 Exercício resolvido

O exemplo a seguir é de Koutsoyiannis (1977, p. 46), onde se pede o cálculo do

Tabela 1: Número de acidentes automobilísticos, consumo de bebidas alcoólicas e salários (1961-1970)

2.3.1 O cálculo do coeficiente de correlação

Tabela 2: Valores para cálculos dos coeficientes

Acidentes Consumo de bebidas

Soma dos Desvios