Académique Documents
Professionnel Documents
Culture Documents
I
Econometria I
(102)
Manaus
2013
Nota dos autores
Este material foi desenvolvido a partir da seleção de vários textos, na grande maioria das
vezes, utilizando na íntegra o texto original. Com isto, os autores deste material, não possuem
nenhuma pretensão de originalidade acerca do conteúdo que expõem nas próximas páginas
deste trabalho. O objetivo foi, tão somente, disponibilizar aquilo que há de melhor em termos
didáticos sobre o assunto tratado aqui. Esperamos que os alunos possam tirar o máximo
proveito deste material e que possam sugerir o aperfeiçoamento do mesmo. As referencias dos
textos originais encontram-se na parte final.
Abraços,
1 INTRODUÇÃO À ECONOMETRIA 5
2 TEORIA DA CORRELAÇÃO 13
3 REGRESSÃO LINEAR SIMPLES 23
4 REGRESSÃO LINEAR MÚLTIPLA 54
1 INTRODUÇÃO À ECONOMETRIA
Enfim, Intriligator (1978, p. 2, tradução nossa) define econometria como “[...] o ramo
da economia preocupado com a estimação empírica das relações econômicas”. Entretanto,
cabe ressaltar que a econometria não se limita à economia e finanças, sendo “[...] [utilizada
também] por cientistas sociais, em particular, pesquisadores de história, ciência política e
sociologia” (HILL; GRIFFITHS; JUDGE, 2010, p. 1), de modo que “econometria é uma
ciência social. Seu objeto de estudo é a sociedade e o comportamento das instituições e
indivíduos da qual se compõe” (HILL; GRIFFITHS; JUDGE, 1993, p. 1, tradução nossa).
Reformulando Intriligator, pode-se ter o seguinte conceito: econometria é o ramo da economia
preocupado com a estimação empírica de relações sociais, econômicas ou não.
O conceito de Goldberger (1964, p. 1, tradução nossa) é o mais completo:
“econometria pode ser definida como a ciência social em que ferramentas da teoria
econômica, matemática e inferência estatística são aplicadas à análise de fenômenos
econômicos [ou sociais]”.
Segundo Koutsoyiannis (1977, p. 8) e Intriligator (1978, p. 5), os objetivos da
econometria são análise (estrutural) da teoria econômica (por meio de inferência estatística),
formulação e avaliação de políticas e previsão.
1
Outras definições de econometria podem ser encontradas em Tintner (1953).
6
1.2.1 Dados
Cada estrutura de dados possui métodos de análise próprios, não sendo correto, por
exemplo, aplicar métodos de análise de corte transversal a dados em painel. Este curso foca na
análise de estruturas de dados em cross-section.
Intriligator (1978) classifica os dados quanto à origem da seguinte maneira:
experimental2;
b) Dados não experimentais: também chamados de dados observacionais ou
dados gerados passivamente (passively generated, no original), são aqueles
provenientes de observações onde não há controle experimental. Este tipo de
dados é mais comum em ciências sociais, embora também seja usado em
ciências exatas. De fato, estão relacionados a áreas onde a experimentação é
impossível ou praticamente impossível, como seria o caso da economia e da
astrofísica.
Gujarati e Porter (2011, p. 45) classificam os dados quanto a escala de medição dos
dados:
1. Escala de razão: neste caso, “dada uma variável X , que assume dois valores,
X 1 e X 2 , a razão X1 X 2 e a distância X1 − X 2 são quantidades significativas.
Também há um ordenamento natural (ascendente ou descendente) dos valores
ao longo da escala” (GUJARATI, PORTER, 2011, p. 45). Chamaremos as três
premissas, respectivamente de: significância da razão, significância da
distância e ordenamento natural. Exemplos: crescimento econômico (variação
e razão do PIB);
2. Escala de intervalo: as variáveis obedecem às propriedades de significância da
distância e do ordenamento natural. Exemplos: temperatura, altura, períodos de
tempo etc.;
3. Escala ordinal: variáveis que satisfazem apenas à propriedade de ordenamento
natural. Exemplos: conceitos, curvas de indiferença etc.;
4. Escala nominal: variáveis que não obedecem nenhuma das três propriedades.
Exemplos: estado civil, gênero etc.
2
Vide Kalisch, Milnor, Nash e Nering (1954, apud NASH, 1996). Uma leitura introdutória para economia
experimental é encontrada em Roth (1993).
8
1.2.1 Modelos
Barbancho (1970, apud MATOS, 2000, p. 21) diferencia modelos teóricos de modelos
econométricos, tendo em vista que a variante econométrica possui, necessariamente, “[...] [a
especificação da] forma matemática, definição das variáveis e números de equações”
(MATOS, 2000, p. 21).
Também existe diferença entre modelos determinísticos e estatísticos (probabilísticos
ou estocásticos). Modelos determinísticos são exatos, não possuindo erros, ao contrário dos
modelos estatísticos. Segundo Hill, Griffiths e Judge (1993, p. 7, itálico no original, tradução
nossa), ao interpretar o erro como um componente estocástico, “[...] converte[-se] o modelo
econômico em um modelo estatístico-probabilístico e nos dá base para inferência estatística,
isto é, uma base para estimar parâmetros desconhecidos e testar hipóteses sobre eles”.
Ao comentar sobre a natureza estocástica do modelo econométrico, Intriligator
relaciona a desenvolvimentos da física à importância de modelos estocásticos
a. Comportamentais;
b. Institucionais ou legais;
c. Técnicas;
9
d. Contábeis3.
Ainda segundo Barbancho (1970, apud MATOS, 2000, p. 22-23), os modelos podem
ser classificados nas seguintes categorias:
O termo econometria foi usado pela primeira vez por Ragnar Frisch em 1926
(KIRSTEN, 1991, p. 44, apud MATOS, 2000, p. 16; BRUE, 2000, p. 344; LANGE, 1963, p.
15), embora sua história remonte à Quesnay e Charles Davenant, que “[...] definiu ‘aritmética
política’ como a ‘arte de raciocinar por números com relação a coisas relacionadas [sic] ao
governo’”, (BRUE, 2011, p. 344; LANGE, 1963, p.17). Davenant, segundo Stigler (1965,
apud MADDALA, 2003, p. 3), foi o primeiro a realizar um estudo empírico de demanda em
1699.
O próprio termo econometria possui aspectos históricos na sua adoção. De fato, Brue
(2011, p. 344) atribui sua origem ao termo biometria, uma aplicação de matemática e
estatística à biologia, relacionada à Francis Galton e Karl Pearson (SALSBURG, 2004), que
posteriormente tornou-se um ramo independente da biologia (LANGE, 1963, p. 15).
Ainda conforme Lange (1963, p.17), “a Econometria, como método distinto de estudo
da vida econômica, surgiu antes da Primeira Guerra Mundial e se desenvolveu com especial
velocidade após a guerra”. Segundo Tinbergen (1953, p. 9) e Barbancho (1970, p.10-11, apud
3
Vale ressaltar que identidades contábeis devem ser usadas com atenção em modelos econométricos, evitando
realizar relações causais entre identidades.
4
Neste caso, a classificação toma como critério as variáveis. Observe que um modelo linear nas variáveis pode
ser não linear nos parâmetros e vice-versa.
10
MATOS, 2000, p. 16), os trabalhos pioneiro em econometria foram os estudos de 1919 e 1925
de H. L. Moore.
Matos (2000, p. 16-17) também cita estudos importantes de Frisch (1927), Working (1927). O
autor divide a história da econometria em quatro períodos: antes de 1930, 1930-1954, 1955-
1969 e pós-1969. Os pontos principais destes períodos são:
A Comissão Cowles tinha como lema “ciência é medida” (ROMBOUTS, 2004, p. 12,
tradução nossa)5 e, conforme Christ (1994, p. 30), “[...] criou uma revolução nos métodos e na
prática econométrica durante seus anos na Universidade de Chicago de 1939 a 1955”,
especialmente em modelos multiequacionais.
Outro estudo interessante que aborda a história da econometria é Heckman (1992),
onde é feita uma análise das contribuições de Haavelmo.
1.4 Referências
HECKMAN, James J. Haavelmo and the Birth of Modern Econometrics: A Review of the
History of Econometric Ideas by Mary Morgan. In: Journal of Economic Literature, v. 30,
5
Rombouts (2004) apresenta a história da econometria pós-1930 a partir de suas principais revistas.
Teixeira (1984) faz uma breve análise da histórica da economia quantitativa e da econometria, focando também
no Brasil, especialmente na Revista Brasileira de Econometria.
11
HILL, R. Carter; GRIFFITHS, William E.; JUDGE, George G. Econometria. 3. ed. São
Paulo: Saraiva, 2010.
KALISCH, Gerhard K.; MILNOR, J. W.; NASH, John Forbes; NERING, E. D. Some
experimental n-person games. In: NASH, John Forbes. Essays in game theory. Brookfield,
US: Edward Elgar, 1996.
MATOS, Orlando Carneiro de. Econometria básica: teoria e aplicações. 3. ed. rev. e ampl.
São Paulo: Atlas, 2000.
ROTH, Alvin E. On the Early History of Experimental Economics. In: Journal of the
History of Economic Thought, n. 15, Fall 1993, p. 184-209.
SALSBURG, David. Uma senhora toma chá...: como a estatística revolucionou a ciência no
século XX. Tradução de José Maurício Gradel; revisão técnica de Suzana Herculano-Houzel.
Rio de Janeiro: Zahar, 2009.
ZELLNER, Arnold. Past, present and future of econometrics. In: Journal of Statistical
Planning and Inference, n. 49, 1996, p. 3-8. Disponível em: <
http://www.sciencedirect.com/science/article/pii/0378375895000275>. Acesso em: 07 dez.
2012.
3 TEORIA DA CORRELAÇÃO
2.1 Conceito
∑ ( X Y − Y X − X Y + XY )
i i i i
= i =1
n
n n n
n ∑ X i ∑ Yi
∑X Y − i i
i =1
n
i =1
= i =1
n
n n n
∑ X iYi ∑ X i ∑Yi
= i =1
− i =1
2
i =1
= E ( XY ) − E ( X ) E (Y ) (2.2)
n n
n n n n
∑ xi yi ∑ X iYi ∑ X i ∑Yi
Sˆ XY = i =1
= i =1
− i =1 i =1
. (2.3)
n −1 n −1 n ( n − 1)
1
Pindyck e Rubenfeld (2004, p. 56-57) demonstram matematicamente que
15
tipo de dispersão numa amostra de tamanho dobrado; nosso índice seria também dobrado,
embora o retrato de como estas variáveis variam juntas seja o mesmo” (WONNACOTT;
WONACOTT, 1978, p. 101), ou seja, o valor absoluto do produto dos desvios tenderia a
crescer com a amostra (HOFFMANN, 2006, p. 283-284).
Existem poucas diferenças entre os coeficientes de correlação populacional e o
amostral. Embora o foco deste curso seja a análise do segundo, o primeiro é calculado a partir
da fórmula
S XY
ρ= (2.4)
σ Xσ Y
⎡ n ( X − X )2 ⎤
⎢∑ i
⎥
⎥ = σ X , pois se exclui a informação utilizada para calcular a média da amostra.
2
E ⎢ i =1
⎢ n −1 ⎥
⎣ ⎦
16
s XY
rˆXY =
s X ⋅ sY
n
∑ ( X i − X ) ⋅ ∑ (Yi − Y )
2 2
i =1 i =1
n
∑x y i i
= i =1
n n
∑ xi2 ⋅ ∑ yi2
i =1 i =1
n n
n ∑ X ⋅ ∑Y i i
∑X Y − i i
i =1
n
i =1
= i =1
⎡ ⎛ n ⎞ ⎤⎡
2
⎛ n ⎞ ⎤
2
⎢ n ⎜ ∑ Xi ⎟ ⎥ ⎢ n ⎜ ∑ Yi ⎟ ⎥
⎢ X − ⎝ i =1 ⎠ ⎥ ⎢ Y − ⎝ i =1 ⎠ ⎥
⎢∑ ⎥ ⎢∑
2 2 (2.5)
n ⎥
i i
i =1 n i =1
⎢ ⎥⎢ ⎥
⎢⎣ ⎥⎦ ⎢⎣ ⎥⎦
n n n
Observando que ∑x y i i ≤ ∑x ⋅∑ y 2
i
2
i
, deduz-se que rXY ∈ [−1,1] . Notando
i =1 i =1 i =1
n
também que o sinal de r depende do valor de ∑x y .
i =1
i i
A interpretação do coeficiente é
x′y = x y cosθ
n
x′y ∑x y i i
∴ cosθ = = i =1
= rXY
x y n n
∑x ∑ y
i =1
2
i
i =1
2
i
rˆ n − 2
t= (2.6)
1 − rˆ 2
2
A desigualdade de Schwarz enuncia que x′y ≤ x y .
18
padrão 1 . De fato, a diferença ocorre quando n ≤ 10 , quando deve ser utilizada uma
n −1
distribuição específica.
Consumo de
Acidentes
Anos bebidas em Salários
automobilísticos
toneladas
1961 155 70 15.500
1962 150 63 14.500
1963 180 72 19.300
1964 135 60 15.600
1965 156 66 16.400
1966 168 70 19.300
1967 178 74 25.600
1968 160 65 25.000
1969 132 62 26.900
1970 145 67 27.850
Fonte: Koutsoyiannis (1977, p. 46).
19
Tabela 4.
Tabela 5.
2.4 Referências
HOFFMAN, Rodolfo. Estatística para Economistas. 4. ed. rev. e ampl. São Paulo: Pioneira
Thomson Learning, 2006.
3.1 Conceito
De acordo Maddala (2003, p. 32), o termo regressão foi utilizado pela primeira vez por
Francis Galton (1822-1911), no sentido de convergência à média da população. O conceito
moderno, porém,
Tabela 6.
Como a relação expressa pelo gráfico abaixo é, aparentemente, uma função afim
(“linear”), cada Y pode ser escrito em função de cada X da seguinte forma:
Yi = β0 + β1 X i + ε i (3.1)
que ser incluído porque, como podemos ver, o valor de Y não será dado exatamente pelo
ponto a ser encontrada, como pode ser visto no gráfico abaixo:
A pergunta que esta subseção analisa possui a seguinte formulação: dado o modelo
estocástico acima, qual seria o melhor método para estimar seus parâmetros a partir de uma
amostra?
Primeiramente, deve-se discutir dois aspectos: o erro aleatório do modelo e algumas
propriedades desejáveis dos estimadores.
O componente aleatório na equação Error! Reference source not found. se deve a
aspectos diversos. É interessante interpretar o erro como uma consequência de dois aspectos:
iii. Linearidade: o estimador deve ser uma função linear das observações das
amostras;
iv. Consistência: os estimadores devem convergir ao valor real do parâmetro na
medida em que a amostra tende ao infinito.
0,35
0,3
0,25
0,2
0,15
0,1
0,05
0
-10 -5 0 5 10 15
(
εˆi = Yi − Yˆi = Yi − βˆ0 + βˆ1 X i ) (3.2)
Portanto, o primeiro método buscaria minimizar a soma dos erros das observações, i.
e., matematicamente,
27
( )
n n
∑ εˆi = ∑ Yi − Yˆi
i =1 i =1
(3.3)
n n
∑ εˆi = ∑ Yi − Yˆi
i =1 i =1
(3.4)
Porém, este método também possui defeitos. Como ressaltam Pindyck e Rubenfeld
(2004, p. 6) e Wonnacott e Wonnacott (1978, p. 6-7), este método exige matemática mais
complexa1 e tende a desconsiderar algumas observações de modo a minimizar a soma do
módulo dos erros.
( )
n n 2
∑ εˆi2 = ∑ Yi − Yˆi
i =1 i =1
(3.5)
De acordo com Wonnacott e Wonnacott (1978), este método não sofre dos problemas
dos dois métodos anteriores e é matematicamente mais simples que o anterior.
O método que minimiza a função (3.5) é chamado método dos mínimos quadrados
1
Lins e Calôba (2006, p. 21-23) apresenta um método de regressão linear através da minimização da
soma dos módulos dos erros utilizando técnicas de programação linear, ressaltando uma vantagem deste método
sobre os mínimos quadrados: este método não superestima a influência de um outliers distante, pois, segundo o
método dos mínimos quadrados, quanto maior o valor absoluto do erro estimado, maior o quadrado do erro
(GUJARATI; PORTER, 2011, p. 79).
28
ordinários (MQO). Passar-se-á a derivação matemática deste método de duas maneiras: (1)
utilizando cálculo diferencial e (2) utilizando álgebra linear e diferenciação matricial.
∑ εˆ = ∑ ( ) = ∑ (Y )
n n 2 n
i
2
Yi − Yˆi i
2
− 2YY ˆ ˆ2
i i + Yi
i =1 i =1 i =1
( ) ( )
n
= ∑ ⎡Yi 2 − 2Yi βˆ0 + βˆ1 X i + βˆ0 + βˆ1 X i ⎤
2
⎢
i =1 ⎣
⎥⎦
(3.6)
( )
n
= ∑ ⎡Yi 2 − 2 βˆ0Yi − 2 βˆ1 X iYi + βˆ02 + 2 βˆ0 βˆ1 X i + βˆ12 X i2 ⎤
i =1
⎣ ⎦
n n n n n
= ∑ Yi − 2βˆ0 ∑ Yi − 2βˆ1 ∑ X iYi + 2βˆ0 βˆ1 ∑ X i + nβˆ02 + βˆ12 ∑ X i2
2
i =1 i =1 i =1 i =1 i =1
n
∂∑ ε i2 n n
i=1
= −2∑ Yi + 2β̂1 ∑ X i + 2nβ̂0 = 0
∂β̂0 i=1 i=1
n n
∴ ∑ Yi = nβ̂0 + β̂1 ∑ X i
i=1 i=1
29
n
∂∑ ε i2 n n n
i=1
= −2∑ X iYi + 2β̂0 ∑ X i + 2β̂1 ∑ X i2 = 0
∂β̂1 i=1 i=1 i=1
n n n
∴ ∑ X iYi = β̂0 ∑ X i + β̂1 ∑ X i2 (3.7)
i=1 i=1 i=1
⎡ n n⎤
⎢ ∂ ∑ ε i2
2
∂ ∑i ⎥
2
ε 2
⎢ i=1 i=1 ⎥
⎛ n 2 ⎞ ⎢ ∂β̂ *2 ∂β̂0 ∂β̂ 2
* * ⎥
⎝ ⎠ ⎢ 2 n n
⎥
⎢ ∂ ∑εi ∂ 2 ∑ ε i2 ⎥
i=1 2
⎢ i=1 i=1 ⎥
⎢ ∂β̂1* ∂β̂0* ∂β̂0 *2
⎥
⎣ ⎦
⎡ n ⎤
⎢ 2n 2∑ X i ⎥
⎛ n 2 ⎞
H ⎜ ∑ ε i , ⎡ β̂0* , β̂1* ⎤⎟ = ⎢⎢ n i=1 ⎥
⎥ (3.8)
⎝ ⎣ ⎦⎠ n
i=1
⎢ 2∑ X i 2∑ X i2 ⎥
⎢⎣ i=1 i=1 ⎥⎦
Como
2
n n
⎛ n ⎞
∑(X − X )2 n∑ X − ⎜ ∑ X i ⎟
i
2
i
⎝ ⎠
σ̂ X2 =
i=1 i=1
i=1
= ≥0 (3.9)
n −1 (
n n −1 )
é óbvio que a hessiana é positivamente definida e, consequentemente, trata-se de um
problema de minimização. Esclarecendo: sabendo-se do sinal da variância, a condição (3.10),
30
2
n
⎛ n ⎞
n∑ X − ⎜ ∑ X i ⎟ > 0
i
2
(3.10)
i =1 ⎝ i =1 ⎠
n n
∑ Y − β̂ ∑ X
i
*
1 i
β̂ =
*
0
i=1 i=1
= Y − β̂0* X
n
n n
n ∑ X ⋅ ∑Y i i n
∑XY − i i
i=1
n
i=1
∑x y i i
Ŝ XY
β̂ =
* i=1
= i=1
= (3.11)
1
⎛ n ⎞
2 n
σ̂ 2X
n ⎜⎝ ∑ i ⎟⎠
X ∑x 2
i
i=1
∑ X i2 − i=1
n
i=1
Sugere-se que o leitor faça a demonstração destes resultados para o método dos desvios.
2
Esta seção baseou-se em Goldberger (1964).
31
onde:
⎡ Y1 ⎤ ⎡1 X1 ⎤ ⎡ ε1 ⎤
⎢Y ⎥ ⎢1 X2⎥ ⎢ε ⎥
⎢ 2⎥ ⎢ ⎥ ⎡ β0 ⎤ ⎢ 2⎥
Yn×1 = ⎢Y3 ⎥ , Xn×1 = ⎢1 X 3 ⎥ , β 2×1 = ⎢ ⎥ , ε n×1 = ⎢ε 3 ⎥ .
⎢ ⎥ ⎢ ⎥ ⎣ β1 ⎦ ⎢ ⎥
⎢ M⎥ ⎢M M⎥ ⎢ M⎥
⎢⎣Yn ⎥⎦ ⎢⎣1 X n ⎥⎦ ⎢⎣ε n ⎥⎦
⎡ ε ⎤
⎢ 1 ⎥ n
ε 'ε = ⎡ ε1 ε n ⎤⎢ ⎥ = ∑ ε i2 (3.13)
⎣ ⎦⎢ ⎥ i=1
ε
⎣ n ⎦
ε′ε = ( Y − Xβ )′ ( Y − Xβ )
= ( Y′ − β′X′ )( Y − Xβ ) (3.14)
= Y′Y − Y′Xβ − β′X′Y + β′X′Xβ
∂ε ' ε
= −2 X′Y + 2 X′Xβ = 0
∂β
∴2 X′Xβ = 2 X′Y
^
∴ β = ( X′X ) X′Y
−1
(3.15)
∂2 ε ' ε
= 2 X′X = 0
∂β 2
⎡ n ⎤
⎢ n ∑ i ⎥X
⎢ i=1 ⎥
∴2 ⎢ n n ⎥
⎢
⎢⎣
∑X i ∑ X i ⎥⎥
2
i=1 i=1 ⎦
⎡ ⎤
n
⎢ 2n 2∑ X i ⎥
⎢ i=1 ⎥
∴⎢ n n ⎥
⎢ 2∑ X i 2∑ X i ⎥
2
⎢⎣ i=1 i=1 ⎥⎦
−1
⎛⎡ n ⎤⎞ ⎡ n ⎤
^
⎜⎢ n ∑X i
⎥⎟ ⎢ ∑ Yi ⎥
β = ⎜ ⎢⎢ i=1 ⎥⎟ ⋅ ⎢
⎥⎟ ⎢
i=1 ⎥
⎥
⎜ n n n
⎜⎢
⎜⎝ ⎢ ∑ Xi ∑X i
2
⎥⎟ ⎢
⎥⎦⎟⎠ ⎢⎣
∑ X iYi ⎥
⎥⎦
⎣ i=1 i=1 i=1
⎛ ⎡ n n ⎤⎞ ⎡ n ⎤
⎜ ⎢ ∑ X i2 − ∑ X i ⎥⎟ ⎢ ∑ Yi ⎥
1
∴= ⎜ ⋅ ⎢⎢ i=1n i=1 ⎥⎟ ⋅ ⎢ i=1 ⎥
⎜ det X ′X
⎜
( ) ⎢ −∑ X i n
⎥⎟ ⎢
⎥⎟ ⎢ ∑
n
X Y
⎥
⎥
⎜⎝ ⎢⎣ i=1 ⎥⎦⎟⎠ ⎢⎣ i=1
i i
⎥⎦
3
Observar a similaridade entre Error! Reference source not found. e (3.11).
33
⎡ n n ⎤
⎢
⎢
∑i=1
X i2 −∑ X i
i=1
⎥
⎥
⎢ n
⎛ n ⎞
2
n
⎛ n ⎞
2 ⎥ ⎡ n ⎤
⎢ n∑ X − ∑ X n∑ X − ⎜ ∑ X i ⎟ ⎥ ⎢
∑ Yi
2 2
⎥
⎢ i=1 i ⎜⎝ i=1 i ⎟⎠ i=1⎝ i
⎠ i=1 ⎥ ⎢ ⎥
∴= ⎢ n
⎥⋅⎢ n
i=1
⎥
⎢ −∑ X i ⎥ ⎢
⎢ n ⎥ ⎢ ∑ X iYi ⎥
⎥⎦
⎥ ⎣
i=1 i=1
⎢ 2 2
⎢ n
⎛ n ⎞ n
⎛ n ⎞ ⎥
⎢ n∑ X i − ⎜ ∑ X i ⎟ n∑ X − ⎜ ∑ X i ⎟
2 2
i ⎥
⎢⎣ i=1 ⎝ i=1 ⎠ i=1⎝ ⎠ i=1 ⎥⎦
⎡ n n n n ⎤
⎢
⎢
∑
i=1
X ⋅ ∑ Yi − ∑ X i ⋅ ∑ X iYi ⎥
i
2
De acordo com Gujarati e Porter (2012, p. 84-90), existem sete hipóteses subjacentes
ao método dos mínimos quadrados:
Dados os valores de Y e X na tabela abaixo, estime a reta que exprime a relação entre
Y e X.
Note que, se a variável é centrada na média, sua soma e, por conseguinte, sua média,
será zero.
^
β1 =
∑x y
i i
=
1.279, 56
≅ 1, 207
∑x 2
i 1.059, 96
^ ^
β 0 = Y − β1 X = 214,2 − (1,207 ⋅154,2) ≅ 28,05
36
^
Y = 28,05 + 1,207X
Isso quer dizer que, se X for igual a 300, um valor estimado (médio) para Y será dado
por:
^
Y = 28,05 + 1,207×300 ≅ 390,2
Mas fica uma questão: esta previsão é confiável? Ou, uma questão ainda anterior: esta
regressão é “boa”?
Embora não seja muito rigorosa, uma inspeção gráfica, na base do “olhômetro” é
sempre útil. Se colocarmos, no mesmo plano cartesiano, os pontos dados na tabela e a reta
obtida pela regressão, temos:
Figura 3: Estimação da reta de regressão linear simples
Visualmente, podemos constatar que, de fato, a relação é uma reta e que a reta de
regressão prevê com boa precisão os valores verdadeiros de Y.
Como podemos verificar isso de maneira mais rigorosa? A primeira coisa é calcular a
^
diferença entre os Y dados no exemplo e os calculados pela reta de regressão ( Y ), ou seja,
como os verificados na próxima tabela:
37
De fato, verificamos que as diferenças são bem pequenas quando comparadas com os
valores de Y.
Estas diferenças aliás, podem ser precipitadamente confundidas com os erros. É quase
isso. Os erros são as diferenças entre os valores de Y e a reta “verdadeira”, isto é, a reta dada
pelos valores populacionais de β 0 e β1 (que não são conhecidos). As diferenças que
encontramos são entre os valores de Y e os dados pela reta com os valores estimados
(amostrais) de β 0 e β1 . São portanto, não os erros, mas os estimadores dos erros, ou
simplesmente os resíduos da regressão. Notemos no gráfico a seguir a diferença com relação
ao gráfico da figura 1.
6
Copyright*©*2009*South1Western/Cengage*Learning**
38
Façamos agora uma análise com os quadrados dos resíduos e, conseqüentemente, com
a variância dos mesmos. Esta análise é conhecida como análise de variância ou pela sua sigla
em língua inglesa, ANOVA.
A análise de variância envolve dividir a variável Y duas partes: a parte explicada pela
regressão e a não explicada (resíduos). Então, o primeiro passo é calcular a soma dos
quadrados da variável Y e de suas partes explicada e não explicada. Como se trata de
variância, estamos tratando aqui da variável menos a média, isto é das variáveis centradas na
média.
Calculemos então, a soma dos quadrados dos totais (SQT) de Y (centrado), a soma dos
quadrados explicados (SQE), isto é, do Y estimado e a soma dos quadrados dos resíduos
(SQR).
Na tabela a seguir, podemos verificar o quadrado dos resíduos, a última coluna da
tabela. Em seguida procedemos no cálculo do SQT e de suas partes.
Para o cálculo das soma dos quadrados explicados, há duas maneiras: ou calculamos
um a um, tiramos a média e elevamos ao quadrado, ou podemos utilizar a equação da reta:
^ ^
y = β 1 xi
39
2
^2 ^ ^2 ^2
SQE = ∑ yi = ∑ (β1 xi ) = ∑ β 1 x i = β 1 ∑ x i = 30.893,12
2 2
198
E a soma
Para dos quadrados
o cálculo dos resíduos
das soma foi calculada
dos quadrados já neste
explicados, exemplo,
há duas na última
maneiras: tabela: um a
ou calculamos
um, tiramos a média e elevamos ao quadrado, ou podemos utilizar a equação da reta:
SQR = 620,08 ŷ i = ˆ xi
SQE = ŷ i 2 = ( ˆ xi)2 = ˆ 2xi2 = ˆ 2 xi2 = 30893,12
Repare que:
E a soma dos quadrados dos resíduos foi calculada já neste exemplo, na última tabela:
Com estas informações já é possível tirar uma conclusão a respeito da regressão, já que a
soma dos quadrados
Com estas dos resíduos
informações é uma parcela
já é possível bemconclusão
tirar uma pequena do total ou, da
a respeito o que é equivalente,
regressão, já a
soma dos quadrados explicados é uma parcela importante. Esta proporção é conhecida como poder
que aexplicativo
soma dos, coeficiente
quadrados de
dosdeterminação
resíduos é uma parcela bem Rpequena
, ou simplesmente 2
: do total ou, o que é
equivalente, a soma dos quadrados explicados é uma parcela importante. Esta proporção é
2 SQE 30893,12
R =explicativo,
conhecida como poder = 0,9803
coeficiente = 98,03%
de determinação, ou simplesmente R2:
SQT 31513 ,2
Repare que é impossível que SQE seja maior do que SQT, e como é uma soma de
SQEnão dá
quadrados, 30.893,12
para ser≅negativo. 2
R =
2
= 0,9803 Então, em qualquer regressão, 0 R 1, portanto é válido
expressá-lo
SQTcomo31513,20
um percentual.
Como o R2 encontrado foi 98,03% dizemos que 98,03% da variância de Y é explicada pela
variável
RepareX,que
o que indica que a que
é impossível regressão
SQE de Y por
seja X apresentou
maior um resultado
do que SQT, e como (muito!) bom. de
é uma soma
2
quadrados, não
Masdá para ser
a análise negativo.
continua. Na Então,
próximaem qualquer
coluna regressão,
colocaremos 0≤R
os graus ≤ 1, portanto
de liberdade. Para aé SQT,
os graus de liberdade são os mesmos de uma variância amostral normal, isto é, n–1 (= 20 –1 = 19).
válido expressá-lo como um percentual.
o Ra2 encontrado
ComoPara soma de quadrados dos dizemos
foi 98,03% resíduos, que
temos que lembrar
98,03% que sãoderesíduos
da variância de uma reta.
Y é explicada
Para uma reta, sabemos, são necessários dois pontos. Mas, com apenas dois pontos, não teríamos
pela variável
variação X, o que (e
nenhuma indica quenenhum
portanto a regressão de YOspor
resíduo). X apresentou
graus de liberdadeum
em resultado
relação aos(muito!)
resíduos são,
bom. desta forma, n –2 (= 20 – 2 = 18).
O que iremos testar, agora, Façamos então o teste F: falando, a variância explicada é maior do
é se estatisticamente
que a variância dos resíduos, isto é, um teste
O que iremos testar, agora, é se estatisticamente de comparação
falando,deavariâncias.
variância Se rejeitarmos
explicada a hipótese
é maior
nula de que as variâncias Soma sãodeiguais,
quadrados
a regressãog.l. “explica mais
Quadrados
do que médios
não explica”teste F
e então
do queconsideraremos
a variância dos resíduos,
a regressãoSQE isto
como é,válida.
um teste de comparação
= 30893,12 1 de variâncias.
30893,12 Se rejeitarmos a
896,75
hipótese nula de que as variâncias SQR =são 620,08 18 “explica 34,45
iguais, a regressão mais do que não explica” e
O teste F é feito dividindo-se
SQT = 31513,2 uma variância19pela outra. Mas, para realizarmos, é necessário
1658,59
então que
consideraremos
as variáveis dasa regressão
quais foramcomo válida.as variâncias sejam normais. Portanto, para realizar este
obtidas
teste necessitamos que a variávelPela Y seja normalmente
tabela, distribuída.
o valor pela
limite Como ela F
da distribuição é composta
com 1 graude uma reta
deé liberdade no
O teste
(fixa), maisF um
é feito dividindo-se
erro aleatório, a uma
variância variância
de Y será dadaoutra.
pela Mas, paradorealizarmos,
variância erro. Portanto, uma
graus de liberdade no denominador , com 5% de significância é:
hipótese
necessário queadicional sobre odas
as variáveis erro, a de foram
quais que eleobtidas
segue uma as distribuição normal.normais. Portanto,
variâncias sejam
F1,18 = 4,41
para realizar Façamos
este testeentão
necessitamos
o teste F: que a variável Y seja normalmente distribuída. Como ela
é composta de uma reta (fixa), mais Como umOerroF calculado
aleatório,é amaior do quedeo Ytabelado
variância (neste
será dada caso, bem ma
pela
Soma de quadrados g.l.
hipótese nula, Quadrados médiosé válida
isto é, a regressão teste F de significância.
a 5%
variância
SQE do erro. Portanto, uma
= 30893,12 1 hipótese30893,12
adicional sobre o erro,896,75 a de que ele segue uma
SQR = 620,08 Exemplo
18
distribuição normal. Façamos então o teste F: 8.2.334,45
SQT = 31513,2 Teste
19 a significância1658,59 dos parâmetros da regressão obtida no exemplo 8.2.1
Testar
Pela tabela, o valor limite a significância
da distribuição dos 1parâmetros
F com significa no
grau de liberdade testar a hipótese
numerador nula de
e 18
verdade, iguais
graus de liberdade no denominador , coma5% zero.
de Isto é, será que
significância é: ou de fato, não existem, e o valor q
apenas resultado da amostra?
F1,18 = 4,41
Isto equivale a testar as seguintes hipóteses para (e depois também para
Como O F calculado é maior do que o tabelado (neste caso, bem maior) rejeitamos a
hipótese nula, isto é, a regressão é válida a 5% de significância
H 0: = 0 .
que as variáveis das quais foram obtidas as variâncias sejam normais. Portanto, para realizar este
teste necessitamos que a variável Y seja normalmente distribuída. Como ela é composta de uma reta
(fixa), mais um erro aleatório, a variância de Y será dada pela variância do erro. Portanto, uma
hipótese adicional sobre o erro, a de que ele segue uma distribuição normal. 41
H0amostra?
encontramos é apenas resultado da : =0
H 1: 0
Isto equivale a testar as seguintes hipóteses para β1 (e depois também para β 0 ):
Como são variáveis normalmente distribuídas (mantendo-se a hipótese do exemplo anterior)
que não conhecemos ao certo a variância, a distribuição a ser utilizada é a t, de Student. Os valores
H0: β1 =com
tabelados 0 18 (= n – 2) graus de liberdade com 1%, 5% e 10% (bicaudais) são:
H1: β1 ≠ 0
t(18,10%) = 1,73
t(18,5%) = 2,10
t(18,1%) = 2,88
^ ^
β1− 0 β1
=
S^ S^
β1 β1
Isto é, basta dividir o coeficiente encontrado pelo seu desvio padrão. A questão agora
^
encontrar o desvio padrão de β 1 . Sabemos que:
^
β1 =
∑x yi i
∑x 2
i
Então:
^
var(β 1 ) = var(
∑x y )i i
∑x 2
i
var(β ) =
∑x ^
2
i
var(yi )
(∑ x ) 1 2 2
i
S^ 2
=
∑x 2
i
var(resíduos)
β1 (∑ x ) 2 2
i
SQR
(n − 2)
S 2^ =
β1 ∑ xi2
43
34, 45
S 2^ = ≅ 0, 0016 ⇒ S ^ ≅ 0, 04
β1 21.199, 2 β1
^
β 1 1,207
= ≅ 30,2
S^ 0,04
β1
Como o valor calculado é superior aos valores tabelados (inclusive para 1%),
rejeitamos a hipótese nula de que β1 é igual a zero. Dizemos, então que β1 é estatisticamente
diferente de zero a 1% de significância, ou , simplesmente, é significante a 1%.
O procedimento para β0 é quase o mesmo. A diferença está no cálculo do seu desvio
padrão.
Sabemos que:
^ ^
β 0 = Y − β1 X
^ ^
var(β 0 ) = var(Y − β 1 X)
^ ^
var(β 0 ) = var(Y ) + var(β 1 X)
^
var(β 0 ) = var(
∑y )+ X
i 2 ^
var(β 1 )
n
n SQR 2 SQR (n − 2)
S 2^ = ⋅ +X ⋅
β0 n n−2
2
∑ xi2
SQR ⎡ 1 X ⎤
2
S^ =2
⎢ + ⎥
β0 n − 2 ⎢⎣ n ∑ xi2 ⎥⎦
⎛ 1 154,2 2 ⎞
S 2^ = 34, 45 ⋅ ⎜ + ≅ 40, 36 ⇒ S ^ ≅ 6, 4
β0 ⎝ 20 21.199,2 ⎟⎠ β0
^
β 0 28,05
= ≅ 4, 4
S^ 6, 4
β1
Até agora, fizemos duas hipóteses sobre o modelo de regressão: a de que os erros tem
média zero e de que eles são normalmente distribuídos, hipótese esta que foi utilizada para a
realização dos testes de hipótese acerca da regressão e de seus parâmetros.
4
Se a média segue uma distribuição normal, basta multiplicarmos por n e teremos a soma que será,
portanto, normalmente distribuída também.
45
Entretanto, se isto não for considerado satisfatório, é sempre possível testar a hipótese
de que os resíduos sejam normais e que, portanto, são originados de erros também normais e
assim termos maior segurança em relação aos testes de hipóteses5. Um teste muito utilizado
para isso é o de Jarque-Bera.
O teste de Jarque-Bera utiliza os resultados para os momentos da distribuição normal,
em particular os coeficientes de assimetria (que é zero para a distribuição normal) e de curtose
(que vale 3).
O coeficiente de assimetria para os resíduos é dado por:
3
1 ⎛ εi ⎞
^
n
A = ∑⎜ ⎟
n i=1 ⎜⎝ σ ⎟⎠
E o de curtose:
4
1 n ⎛ εi ⎞
^
C = ∑⎜ ⎟
n i=1 ⎜⎝ σ ⎟⎠
n⎡ 2 1 2⎤
JB = ⎢ A + ( C − 3) ⎥
6⎣ 4 ⎦
5
Isto para amostras pequenas, já que é possível mostrar que a razão entre o coeficiente e seu desvio
padrão converge para uma distribuição normal padrão sob a hipótese nula de que o coeficiente seja zero.
46
σ 2 = 31 ⇒ σ ≅ 5,56
3
1 n ⎛ εi ⎞
^
A = ∑ ⎜ ⎟ ≅ −0, 66
n i=1 ⎜⎝ σ ⎟⎠
E o de curtose:
4
1 ⎛ εi ⎞
^
n
C = ∑ ⎜ ⎟ ≅ 3, 5933
n i=1 ⎜⎝ σ ⎟⎠
n⎡ 2 1 2⎤
JB = ⎢ A + ( C − 3) ⎥ ≅ 1, 7323
6⎣ 4 ⎦
Na tabela χ2 verificamos que, para 2 graus de liberdade o valor crítico (para 10% de
significância) é 4,61. Como o valor encontrado para a estatística JB é inferior, aceitamos a
hipótese nula de que os resíduos são normais. Ou, em outras palavras, não é possível,
estatisticamente falando, rejeitar a hipótese que a distribuição destes resíduos seja normal.
6
Isto é, dividimos por n e não n-2.
47
^ ⎛ ∑ xi yi ⎞
E( β 1 ) = E ⎜ 2 ⎟
⎝ ∑ xi ⎠
^ ⎡ ∑ xi ( β1 xi + ε i ) ⎤
E( β 1 ) = E ⎢ ⎥
⎢⎣ ∑ xi2 ⎥⎦
^ ⎡ ∑ ( β1 xi2 + ε i xi ) ⎤
E( β 1 ) = E ⎢ ⎥
⎢⎣ ∑ xi2 ⎥⎦
^ ⎡ ∑ β1 xi2 ⎤ ⎡ ∑ ε i xi ⎤
E( β 1 ) = E ⎢ 2 ⎥
+E⎢ 2 ⎥
⎢⎣ ∑ xi ⎥⎦ ⎢⎣ ∑ xi ⎥⎦
^ ⎡ β1 ∑ xi2 ⎤ ⎡ ∑ ε i xi ⎤
E(β 1 ) = E ⎢ 2 ⎥
+E⎢ 2 ⎥
⎢⎣ ∑ xi ⎥⎦ ⎢⎣ ∑ xi ⎥⎦
⎡ ∑ ε i xi ⎤
E( β 1 ) = E [ β1 ] + E ⎢
^
2 ⎥
⎢⎣ ∑ xi ⎥⎦
^ ⎡ ∑ ε i xi ⎤
E(β 1 ) = β1 + E ⎢ 2 ⎥
⎢⎣ ∑ xi ⎥⎦
48
^
E(β 1 ) = β1 +
∑ E(ε x )
i i
∑x 2
i
E(ε i xi ) = xi E(ε i ) = 0
^
E( β 1 ) = β1 +
∑ E(ε x ) = β
i i
∑x 2
i
1
^
Desta forma, β 1 é um estimador não viesado do coeficiente β1 .
Já que E(εi) = 0. Assim, podemos garantir que o estimador é não viesado com uma
hipótese mais fraca. O conjunto de hipóteses seria, neste caso:
Se, além das hipóteses i e ii, os erros tiverem variância constante e não forem
autocorrelacionados (o erro de uma observação não é correlacionado com o de outra, isto é, os
erros são independentes), o Teorema de Gauss-Markov mostra que o estimador de mínimos
^
quadrados β 1 apresenta a menor variância entre todos os estimadores de β1 que são lineares e
não viesados, sendo portanto um MELNV. Acrescentamos então, mais duas hipóteses:
um estimador eficiente.
Muitos modelos não lineares são facilmente “linearizáveis”. Por exemplo, o modelo
abaixo:
7
Através da desigualdade de Cramer-Rao.
50
Y = β 0 + β1 Xi2 + ε i
Zi ≡ Xi2
E, desta forma:
Y = β 0 + β1Zi + ε i
É um modelo linear e pode ser estimado da mesma maneira que vínhamos fazendo.
Dos muitos modelos que podem ser transformados em lineares, dois se destacam. Um
deles é o modelo multiplicativo:
Y = β 0 Xiβ1 ε i
Fazendo:
Y’ = log Y
β0’ = log β0
X’ = log X
µ = log ε
∂Y 1 1
= β 0 β1 X β1 −1ε = β 0 β1 X β1 ε = β1Y
∂X X X
∂Y X
β1 = ⋅
∂X Y
ΔY
∂Y X variação percentual de Y
β1 ≅ ⋅ = Y =
∂X Y ΔX variação percentual de X
X
Y = β 0 eβ1Xi ε i
De novo, aplicando logaritmo8 nos dois lados da equação temos:
8
Embora neste caso seja mais prático aplicar o logaritmo natural (base e), é importante ressaltar que
tanto faz qual é a base do logaritmo, pois o valor do coeficiente β1 será o mesmo.
52
Y’ = log Y
β0’ = log β0
µ = log ε
Onde uma das variáveis foi transformada no seu logaritmo e por isso mesmo este
modelo é conhecido como log-linear.
E, da mesma forma, derivamos Y em relação a X para encontrar o significado do
coeficiente β1:
∂Y
= β 0 β1eβ1X ε = β1Y
∂X
Portanto:
1 ∂Y
β1 = ⋅
Y ∂X
ΔY
1 ∂Y variação percentual de Y
β1 = = Y =
Y ∂X ΔX variação absoluta de X
3.10.1 Aplicação
Y X
Portanto:
Repetindo a 1aproximação,
Y temos:
= Y 53
Y X
1 Y variação percentual de Y
= = Y =
Repetindo aYaproximação,
X X temos:
variação absoluta de X
Y
Se a variável1 XYrepresentar variação
o tempo,percentual de Y
o coeficiente representa a ta
= = Y =
(médio) da variável
A tabela abaixo fornece o volume de vendasY ao longo
Y X em uma do tempo.
X empresa
variaçãoaoabsoluta
longo de
doXtempo.
Determine sua taxa de crescimento anual8.6.1
Exemplo médio.
Se a variável X representar o tempo, o coeficiente representa a t
A tabelada
(médio) abaixo fornece
variável Y ao olongo
volume de vendas em uma empresa ao longo do tem
do tempo.
taxa de crescimento anual médio.
ano
Exemplo vendas
8.6.1 ano vendas
1986 1020 1993 5300
A tabela abaixo fornece o volume de vendas em uma empresa ao longo do tem
1987
taxa de 1200
crescimento1994 6640
anual médio.
1988
ano 1450
vendas ano 1995 7910
vendas
1989
1986 18001020 1996
1993 8405
5300
1990
1987 25501200 1997
1994 9870
6640
1991
1988 14503320 1998
1995 11530
7910
1992
1989 42501800 1999
1996 13320
8405
1990 2550 1997 9870
1991 Para3320 determinar
1998 a taxa11530de crescimento médio, devemos fazer uma reg
linear,
Para determinar a taxa 1992 em que
4250
de crescimento a variável
1999 Y 13320 fazerdas
é o
médio, devemoslogaritmo vendas
uma e X é variável
regressão do tipotempo.
log- linear, em que a variável YXé o logaritmo das
X vendas
Y determinar
Para Ye Xde
a taxa é variável tempo.
crescimento médio, devemos fazer uma reg
6,9276
1linear, em 8
que a variável Y8,5755
é o logaritmo das vendas e X é variável tempo.
2 7,0901 9 8,8009
3X 7,2793
Y 10
X 8,9759
Y
41 7,4955
6,9276 11
8 9,0366
8,5755
52 7,8438
7,0901 12
9 9,1973
8,8009
63 8,1077
7,2793 13
10 9,3527
8,9759
74 8,3547
7,4955 14
11 9,4970
9,0366
5 7,8438 12 9,1973
6 Note
8,1077que a
13mudança na variável tempo (X), que em vez de começar por 1
9,3527
não
7 afeta a taxa
8,3547 de
14crescimento.(Por
9,4970 que?)
O resultado
Note da regressão
que a mudança é:
na variável tempo (X), que em vez de começar por
não afeta a
Note que a mudança na variável tempotaxa de crescimento.(Por que?)
Y =(X),
6,77que em vez de começar por 1986, começa
+ 0,2073X
por 1, não afeta a taxa de crescimento.(Por que?)(0,07)
O resultado (0,008)é:
da regressão
Onde osYnúmeros
= 6,77 +entre parênteses são os desvios padrão dos coeficientes
0,2073X
O resultado da regressão é: (0,07) (0,008)
A taxa média de crescimento anual é, portanto, 0,2073 ou 20,73% ao ano
Onde os números entre parênteses são os desvios padrão dos coeficientes
8.7 Regressão múltipla
Y = 6,77 + 0,2073X
(0,07) (0,008) A taxa média de crescimento anual é, portanto, 0,2073 ou 20,73% ao ano
Yi = β1 + β 2 X2i + β 3 X 3i + ...+ β k X ki + ε i
Y1 = β1 + β 2 X 21 + β3 X31 + ... + β k X k1 + ε1
Y2 = β1 + β 2 X 22 + β3 X32 + ... + β k X k 2 + ε 2
... ... ... ... ... ... ...
Yn = β1 + β 2 X 2n + β3 X3n + ... + β k X kn + ε n
Onde os valores entre parênteses são as dimensões das matrizes. Repare que fazendo
as respectivas operações com as matrizes chegaremos exatamente aos mesmo conjunto de
equações.
55
Reduzimos então a:
Y = Xβ + e
^
β = (X ' X)−1 (X 'Y )
Repare que o produto X’Y é análogo a Σxy da regressão simples, enquanto o produto
X’X é análogo a Σx2. Como não existe divisão de matrizes, a multiplicação pela matriz
inversa “faz o papel” da divisão.
^
Uma condição para a existência de β é a de que a matriz X’X seja inversível. Para
que isto ocorra é necessário que nenhuma coluna da matriz X seja combinação linear de
outras. Em outras palavras, não é possível que X2 seja exatamente o dobro de X3 ou que X4
seja igual a 2X2 + 3X3, por exemplo.
Assim, adicionamos ao nosso conjunto de hipóteses mais uma, esta é específica de
regressões múltiplas:
Y X2 X3
800 2 0,8
1160 4 0,7
1580 6 0,5
2010 8 0,4
1890 7 0,2
2600 12 0,2
2070 11 0,8
1890 10 0,7
1830 9 0,6
1740 8 0,1
1380 6 0,5
1060 4 0,4
1 2 0,8
1 4 0,7
1 6 0,5
1 8 0,4
1 7 0,2
X = 1 12 12 0,8 0,2
1 11 0,8
1 4 0,7
1 10 0,7
1 6 0,5
1 9 0,6
1 8 0,4
1 8 0,1
1 21 17 0,8 6
0,2
0,5
X = 1 41 1120,7 4
0,2
0,4
1 61 110,5 0,8
1 81 100,4 0,7 preenchida por “uns”, como vimos, se refere à variável “
Onde a coluna
não é 1uma71 variável,
9 10,2 20,6é o intercepto.
0,8
X = 1
1 “uns”, 8
12 10,2 0,1
Onde a coluna preenchida por 1matriz
como
4
6 10,8X6’0,5
vimos,
0,7 se refere à variável “X1”, que na
1 A11 X será
0,5 dada por:
1 10 1 4 10,7 80,4 0,4
verdade não é uma variável, é o intercepto. 12 87 5,9
Onde
1 9 a coluna10,6 7 preenchida
0,2 por “uns”, como vimos, se refere à variável “X1”
X ’X = 8 87 731 41
A matriz X’X será dada
não por:
é uma
X1 =variável,
2 0,1é12
10,8 o intercepto.
0,2
1 46 5,9
0,5 11 410,8 3,53
10,7
1 64 0,4 10
0,5
A1 matriz X10,4 0,7 por:
’X será dada
Onde aEcoluna
8 preenchida
a sua inversa:
1 9 0,6 por “uns”, como vimos, se refere à variável “X1”, qu
1 7 12é10,2
não é uma variável, 887 0,15,9
o intercepto.
1,25 -0,09 -1,04
X =X’X =1 -11287 10,2 6731 0,541
(X’1X) 115,9 10,8 -0,09
441 0,43,53 0,01 0,03
A matriz
1 10 X ’ X será dada por:
-1,04 preenchida
0,03 1,67
Onde0,7 a coluna por “uns”, como vimos, se refere à variável
1 129 87
0,6 5,9
nãoE1éa uma
sua variável,
inversa: é o intercepto.
X ’X = 87
A8matriz 731
0,1 41
X’Y será:
E a sua inversa: 1 5,96 1,25 3,53
0,5
41 -0,09 -1,04
20010
(X’X)1-1 4A matriz -0,09X’X será
0,4 0,01dada por:
0,03
X’Ya=coluna160810 12 87
Onde
E a sua inversa:
preenchida
-1,04 0,03por 5,9
“uns”,
1,67 como vimos, se refere à variável “X1”, qu
X’X = é9309
não é uma variável, o 87 731 41
intercepto.
1,25 -0,09
41 -1,04
-1 A matriz X’5,9 Y será: 3,53
(X’XA ) matriz X-0,09
O estimador
’ X será 0,01
ˆ será
dada
20010 0,03 1,67
0,03 então, por:
dado,
por:
-1,04
X’Y = 12E 160810
a sua87inversa: 5,9 789,33
X’X = ˆ = (87X’X -1
9309 731
X’)YXserá:’Y = 41
1,25 -0,09
149,56-1,04
A matriz
X)-1 41 -0,09
(X’5,9 3,53 0,01 0,03
-419,26
A matriz X’Y será: 20010 -1,04 0,03 1,67
ˆ
=aO
X ’Y E estimador será dado, então, por:
sua160810
inversa:
Assim sendo, o valor789,33
9309 de cada um dos parâmetros é:
A 1,25
matriz ˆ X -0,09
’Y será:-1,04
ˆ -1
=1 =0,01 149,56
789,330,03
(X’X)=-1 (X’X) -0,09
X’Y 20010
O estimador ˆ ˆ160810
X’Y =-1,04será 2 = dado,
149,56então,
0,03 1,67 por:
-419,26
ˆ9309
3 = 419,26
789,33
ˆ = (A Assim
matriz
-1 X
X ’X ) X ’Y = sendo,
’ Y será:o valor de cada um dos parâmetros é:
149,56
20010 ˆ 1 = 789,33 ˆ -419,26
E,Oportanto,
estimador será dado,
o modelo estimadoentão,
é: por:
X ’Y = 160810 ˆ 2Ŷ= =149,56
^
789,33
789,33 + 149,56X2 419,26X3
O estimador β será dado, então,
Assim por: o-1 valor
9309
ˆ =sendo,
(X ’ X ˆ )3 =X’Y =de cada um149,56
419,26 dos parâmetros é:
Seˆ 1substituirmos
= 789,33 os valores de X2 e X3 na equação acima, podemos enc
-419,26
O estimador ˆ será dado, então, por:
ˆ 2 = pela
Y explicados
E, portanto, o regressão
149,56 ( Ŷ ), e daí
modelo estimado é: os resíduos que são mostrados na tabela
46,9571 Assim 137,6067 789,33
-53,8093
sendo, o+ valor de cada um dos parâmetros é:
ˆ = (X’X)-1Xˆ’Y =Ŷ =419,26
789,33 149,56X
149,56 2 419,26X 3
65,9128 3 =99,8102 ˆ 1 = 789,33
-203,8783
102,9429 -29,0766
Se substituirmos -419,26
-97,0571
E, portanto, o modeloˆ 2 =os valores
149,56
estimado de X2 e X3 na equação acima, podemos encont
é:
191,8987
Y explicados pela-101,4430
regressão -159,8641
( Ŷ ), e daí419,26X
os resíduos que são mostrados na tabela aba
Ŷ =
Assim sendo, 789,33 ˆ 3+=149,56X
o valor de419,26
cada um 2 dos parâmetros3 é:
46,9571 137,6067
ˆ 1 = 789,33 -53,8093
65,9128 99,8102 os valores
Se substituirmos -203,8783 X2 e X3 na
de estimado
E, =portanto,
149,56 o-97,0571
modelo é: equação acima, podemos encontrar
102,9429 ˆ-29,0766
2
Y explicados pela regressão ( Ŷ ), e +
Ŷ = 789,33 daí149,56X
os resíduos que são 3mostrados na tabela abaixo:
419,26X
191,8987 ˆ-101,4430 -159,8641 2
12 87 5,9
X ’X = 87 731 41
5,9 41 3,53
58
E a sua inversa:
1,25 -0,09 -1,04
(X’X)-1 -0,09 0,01 0,03
Assim sendo, o valor de cada um dos parâmetros
-1,04 é:
0,03 1,67
^ ^
SQR = e ’ e = 173.444,02
Considerando y o vetor das variáveis Y centradas, a soma dos quadrados totais será
dada por y’y.
E a soma dos quadrados explicados pode ser calculada como:
59 por
Considerando y o vetor das variáveis Y centradas, a soma dos quadrados totais será dada
y’y.
SQT = y’y = 2749025
Com Eisso,
a soma dos quadrados
podemos explicados
construir pode ser
uma tabela calculada
ANOVA como:
para esta regressão, da mesma
SQE = SQT – SQR = 2749025 – 173444,02 = 2575580,98
forma que fazíamos para a regressão simples:
Com isso, podemos construir uma tabela ANOVA para esta regressão, da mesma forma que
fazíamos para a regressão simples:
Soma de quadrados g.l. Quadrados médios teste F
SQE = 2575580,98 2 1287790,49 66,82
SQR = 173444,02 9 19271,56
SQT = 2749025 11 249911,36
Os graus de liberdade dos quadrados explicados são agora 2 (em vez de 1, como na
regressão
Os graussimples), tendo em
de liberdade dosvista que há duas
quadrados variáveis
explicados sãoexplicativas
agora 2 (em(independentes),
vez de 1, comoX2 enaX3. Os
graus de liberdade dos quadrados dos resíduos são, desta forma, 9 (= n–3). Para o modelo geral
regressão simples), tendo em vista que há duas variáveis explicativas (independentes), X2 e
apresentado:
Yi = 1 +dos
X . Os graus de liberdade 2X2i + 3X3i + ...
quadrados dos+ resíduos
kXki + i são, desta forma, 9 (= n–3). Para o
3
modelo geralTemos k–1 variáveis explicativas, portanto os graus de liberdade são, respectivamente100, k–
apresentado:
1 e n–k.
Yi = βO1 +teste
β 2 XF2i +é βfeito
3 X 3i + ...+ β k X ki + ε i
comparando-se o valor calculado com o valor tabelado para 2 graus de
liberdade no numerador e 9 no denominador. Para 5% de significância, este valor é 4,26. Como o
valor calculado (66,82) é maior, a regressão é válida.
Temos k–1
2 variáveis explicativas, portanto os graus de liberdade são, respectivamente,
O R é calculado da mesma forma:
k–1 e n–k. 2575580,98
R2 = = 0,9369
2749025
O teste F é feito comparando-se o valor calculado com o valor tabelado para 2 graus
de liberdade Para
no numerador e 9 nodedenominador.
testar a validade Para 5% detemos
cada um dos parâmetros, significância, este avalor
que encontrar é 4,26.
variância de cada
ˆ
Comoum deles.calculado
o valor A variância do vetor
(66,82) de parâmetros
é maior, será
a regressão dada por:
é válida.
O R2 é calculado
var( ˆ da
) =mesma forma:
var[(X’X )-1X’Y]
^
var( β ) = σ2 (X’X)-1X’X(X’X)-1
Como (X’X)-1X’X é igual à identidade (matriz multiplicada pela sua inversa), temos:
^
var( β ) = σ2(X’X)-1
S 2^ = S 2 (X 'X)−1
β
Como (X’X)-1X’X é igual à identidade (matriz multiplicada pela sua inversa), temos:
S 2ˆ = 19271,56(X’X)-1
24104,99 -1747,65 -19990,34
2
S ˆ -1747,65 202,34 570,85
-19990,34 570,85 32240,76
2
S = 202,34
ˆ S ˆ = 14,22
2 2
2
S 2^ = 24.104,99 ⇒ S ^ S= 155,26
= 32240,76
ˆ
3
S ˆ = 179,56
3
β1 β1
S 2^ = 202, 34 ⇒Assim,
S ^ = 14,22
podemos calcular as estatísticas “t” para cada parâmetro:
β2 β2
789,33
= 5,08
S ^ = 32.240, 76 ⇒ S ^ 155
2
= 179,56
, 26
β3 β3
149,56
= 10,51
14,22
Assim, podemos calcular419as
,26estatísticas “t” para cada parâmetro:
= 2,33
179,56
789,33/155,26 = 5,08
149,56/14,22 = 10,51
419,26/179,56 = 2,33
t(9,10%) = 1,83
t(9,5%) = 2,26
216
t(9,1%) = 3,25
0, se for homem
D=
1, se for mulher
Desta forma o coeficiente da variável D representa o quanto as mulheres ganham a mais (ou
a menos). Assim, se o coeficiente da variável D for –100, por exemplo, isto significa que as
Desta
mulheres, em forma o coeficiente
média, ganham da avariável
100 reais menos doDque
representa o quanto as mulheres ganham a
os homens.
mais (ou a menos). Assim, se o coeficiente da variável D for –100, por exemplo, isto significa
Isto também pode ser feito com uma variável qualitativa que possua 3 estados possíveis. Por
que as mulheres,
exemplo, em de
o padrão média, ganhamde100
construção umreais a menos
imóvel podedoserque os homens.
alto, médio ou baixo. Neste caso,
precisaríamos de duas variáveis dummy, que poderíamos definir assim:
Isto também pode ser feito com uma variável qualitativa que possua 3 estados
possíveis. Por exemplo, o padrão
0, se for baixo de construção de um imóvel pode ser alto, médio ou baixo.
ou alto
D1 =
Neste caso, precisaríamos de duas variáveis dummy, que poderíamos definir assim:
1, se for médio
217
0, se for baixo ou médio
D2 =
1, se for alto
Exemplo 8.8.1
Do exemplo 8.7.1, adicionamos uma variável qualitativa, que representa a existência ou não de
4.2.1 Aplicação
determinado atributo.
0, se for baixo ou médio
Y X2 X3 atributo D2 =
800 2 0,8 sim 1, se for alto
Do exemplo anterior, adicionamos uma variável qualitativa, que representa a
1160 4 0,7 sim
existência
1580 6 ou0,5 não desim
determinadoExemplo
atributo. 8.8.1
2010 8 0,4 sim Do exemplo 8.7.1, adicionamos uma variável qualitativa, que representa a
1890 7 0,2 sim determinado atributo.
2600 12 0,2 sim Y X2 X3 atributo
2070 11 0,8 não 800 2 0,8 sim
1890 10 0,7 não 1160 4 0,7 sim
1830 9 0,6 não 1580 6 0,5 sim
1740 8 0,1 não 2010 8 0,4 sim
1380 6 0,5 não 1890 7 0,2 sim
1060 4 0,4 não 2600 12 0,2 sim
Estime a regressão de Y em função2070 das três11 0,8 e faça
variáveis não as análises pertinentes.
1890 10 0,7 não
Para incluirmos esta variável qualitativa
1830 9 no
0,6modelo,
não definimos a variável dummy D, definida
por: 1740 8 0,1 não
1380 6 0,5 não
0, se não existir atributo
1060 4 0,4 não
D= Estime a regressão de Y em função das três variáveis e faça as análises pertine
1, se existir o atributo
Estime a regressão deseriam: Para
Y em função incluirmos
das esta variável
três variáveis qualitativa
e faça as análises no modelo, definimos a variá
pertinentes.
Com isto, as variáveis por:
Y X2 X3 D
800 2 0,8 1 0, se não existir atributo
1160 4 0,7 1 D=
1580 6 0,5 1 1, se existir o atributo
2600 12 0,2 sim
1580 6 0,5 sim
2070 11 0,8 não
2010 8 0,4 sim
1890 10 0,7 não 63
1890 7 0,2 sim
1830 9 0,6 não
2600 12 0,2 sim
1740 8 0,1 não
2070 11 0,8 não
1380 6 0,5 não
1890 10 0,7 não
1060 Para
4 0,4 não
incluirmos esta variável1830 qualitativa no
9 0,6 modelo,
não definimos a variável dummy D,
Estime a regressão de Y em função das três variáveis e faça as análises pertinentes.
definida por: 1740 8 0,1 não
Para incluirmos esta variável qualitativa no modelo,não
1380 6 0,5 definimos a variável dummy D, definida
por: 1060 4 0,4 não
Estime a regressão de Y em função das três variáveis e faça as análises pe
0, se não existir atributo
D= Para incluirmos esta variável qualitativa no modelo, definimos a v
1, se existir o atributo por:
^
Y = 536, 09 +161,87X 2 − 327, 78X3 + 238, 08D
(64,35) (5,34) (65,48) (30,26)
Onde, como de costume, os desvios padrão estão entre parênteses. Todos os coeficientes são
significantes a 1% (verifique!). O resultado encontrado indica que a presença do atributo aumenta o
A tabela
valor ANOVA
de Y em 238,08será:
(na média).
0, se for baixo
D =2
4.3.1 1R ajustado
1, se for médio ou alto
8.9.1 R2 ajustado
Partindo da segunda forma, se dividirmos o numerador e o denominador pelos
respectivos graus de liberdade, obteremos um “novo” R2, ajustado pelos graus de liberdade,
1
Ou, muito raramente, ficará na mesma, mas jamais cairá.
65
2 SQR / (n − k)
R = 1−
SQT / (n − 1)
Ao se fazer este ajuste pelos graus de liberdade, encontramos um valor que pode ser
usado para comparar modelos com número de variáveis diferente. Ele não tem as mesmas
propriedades do R2, entretanto: ele será 1 no máximo (que corresponde ao caso em que não há
resíduos), mas pode ser negativo.
4.3.2 Aplicação
173.444,02
2
R = 1− 9 = 0,9229
2.749.025
11
19.854, 22
2
R = 1− 8 = 0, 9901
2.749.025
11
4.4 Exercícios
SQT = 189
a) complete a tabela ANOVA
b) calcule o R2
c) faça ao tabela
a) complete teste F.ANOVA
2
b) calcule o Ruma
4. Para amostra de 10 observações de X e Y foram obtidos:
2
= 697440
c) faça xo2 teste F.
y = 1003620
xy = -828110
X =uma
4. Para 464 amostra de 10 observações de X e Y foram obtidos:
Y = 447,2
2 a) estime os parâmetros da reta de regressão.
Σx = 697440
b) construa a tabela ANOVA.
Σy2 =c) calcule R2.
1003620
d) faça os testes t e F.
Σxy = -828110
𝑋 = 464
𝑌 = 447,2
a) estime os parâmetros da reta de regressão.
b) construa a tabela ANOVA.
c) calcule R2.
d) faça os testes t e F.
5. Os resultados de uma regressão entre preço de imóveis e suas áreas foram os seguintes:
PREÇO = 200 + 1,2 ÁREA
(150) (0,3)
onde os valores entre parênteses são os desvios padrão.
Teste a significância dos parâmetros, sabendo que foi utilizada uma amostra de 20
observações.
7. A tabela
11. Os abaixo mostra
resultados o regressão
de uma número de parahomicídios
o PIB de umregistrados por abaixo:
país são dados diversos distritos
PIB = 1,4 + 0,024t
policiais daOnde
cidade
t éde São Paulo
o tempo e a em
medido renda média
anos dosérespectivos
e o PIB distritos.
anual, medido Faça umaQual
em logaritmos.. regressão
o significado dos
do número coeficientes
de homicídiosencontrados?
em função da renda usando as variáveis em nível e em logaritmos,
fazendo os 12.
testes
A relevantes. Comente
tabela abaixo mostra oosnúmero
resultados.
de homicídios registrados por diversos distritos policiais da
cidade de São Paulo e a renda média dos respectivos distritos. Faça uma regressão do número de
homicídios em função da renda usando as variáveis em nível e em logaritmos, fazendo os testes
relevantes. Comente os resultados.
homicídios Renda homicídios Renda homicídios Renda
1996 (US$) 1996 (US$) 1996 (US$)
32 528,21 19 1652,04 57 496,12
17 571,19 19 884,29 233 376,31
37 726,03 52 721,91 41 501,90
15 1528,22 24 560,79 64 1013,87
38 962,94 27 981,36 74 501,90
29 709,68 21 1390,53 186 421,39
41 556,32 29 655,11 140 398,25
35 534,92 40 505,20 22 1013,87
50 946,43 112 388,09 156 314,33
5 1127,78 23 416,09 155 344,90
34 1107,40 45 491,34 20 837,37
31 696,90 43 326,47 119 262,00
71 544,63 38 326,47 21 431,41
20 2033,36 79 457,98 93 370,62
161 629,53 52 1390,53 133 275,28
11 1390,53 35 431,41 25 262,00
10 736,87 7 876,53 47 376,36
112 544,63 21 496,82 27 342,73
13 1565,26 18 583,14 53 370,62
31 496,12 11 821,50 23 407,23
22 897,59 6 547,40 31 265,23 224
25 1678,60 9 546,63 116 265,23
20 2074,78 2 821,50 34 369,11
22 1430,84 31 546,63 63 453,12
34 500,35 2 876,53 54 306,44
Fonte: Sartoris, A. (2000) Homicídios na Cidade de São Paulo. mimeo. FEA/USP. São Paulo
13. Para cada conjunto de observações abaixo, estime os parâmetros da regressão com e sem
8. Paraintercepto, fazendo
cada conjunto 25deosobservações
testes relevantes.
1678,60 Comente
abaixo, estime
9 ososresultados
parâmetros
546,63 da regressão
116 com 265,23
e
20 2074,78 2 821,50 34 369,11
a) Y os 22 b)
X relevantes.
1430,84 X =3124,24 Y =27,79
546,63 63 453,12
sem intercepto, fazendo testes
34 Comente
500,35 os resultados.
22 876,53 54 306,44
1,9 X = 11340,95
2,0Sartoris, A. (2000) Homicídios
Fonte: na Cidade de São Paulo. mimeo. FEA/USP. São Paulo
2,6 3,5 Y2 = 16614,45
a) 13. Para cada conjunto de observações abaixo, estime os parâmetros da r
3,3 5,0
intercepto, XY = 12226,63
fazendo os testes relevantes. Comente os resultados
4,9 a) 6,0 Y X b) X = 24,24 Y =27,79
1,9 2,0 X2 = 11340,95
2,6 4,4 Y2 = 16614,45
2,6 3,5
4,3 5,6 3,3 5,0 XY = 12226,63
5,8 7,0 4,9 6,0
2,6 4,4
4,1 6,2 4,3 5,6
2,8 4,8 5,8 7,0
4,1 6,2
7,8 9,8 2,8 4,8
6,3 7,0 7,8 9,8
6,3 7,0
5,4 7,7
5,4 7,7
7,3 8,3 7,3 8,3
6,0 6,8 6,0 6,8
4,9 5,9
4,9 5,9
14. . Após uma regressão com 5 variáveis explicativas, onde se utilizou u
14. . Após umaobservações,
regressão comforam tabulados os seguintes dados:
5 variáveis explicativas, onde se utilizou uma amostra com 30
Soma dos quadrados
observações, foram tabulados
SQE = 2309,7 os seguintes dados:
13. Para cada conjunto de observações abaixo, estime os parâmetros da regressão com e sem
intercepto, fazendo os testes relevantes. Comente os resultados
a) b) 69
Y X X = 24,24 Y =27,79
1,9 2,0 X2 = 11340,95
2,6 3,5 Y2 = 16614,45
3,3 5,0 XY = 12226,63
b) 4,9 6,0
2,6 4,4
𝑋 = 24,24
4,3 5,6
ΣX2 = 11340,955,8 7,0
4,1 6,2
ΣY2 = 16614,45
2,8 4,8
ΣXY = 12226,637,8 9,8
6,3 7,0
𝑌 =27,79 5,4 7,7
7,3 8,3
6,0 6,8
9. Após uma
4,9 regressão
5,9 com 5 variáveis explicativas, onde se utilizou uma amostra com
30 observações, foram tabulados os seguintes dados:
14. . Após uma regressão com 5 variáveis explicativas, onde se utilizou uma amostra com 30
observações, foram tabulados os seguintes dados:
Soma dos quadrados
SQE = 2309,7
SQT = 3450,8
a) complete a tabela ANOVA
b) calcule o R2 e o R2 ajustado.
c) faça ao tabela
a) complete teste F.ANOVA
15. Numa regressão com 4 variáveis explicativas e uma amostra de 26 observações, a soma dos
b) calcule o R2 eexplicados
quadrados o R2 ajustado.
foi 1788,56 e a soma dos quadrados dos resíduos 567,34. Ao acrescentarmos
duas variáveis ao modelo, a soma dos quadrados explicados aumentou para 1895,28. Verifique se
c) faça o teste F.
este modelo é melhor do que o anterior, usando o R2 ajustado, os critérios de informação e o teste F.
16. Dados os gráficos abaixo, qual o resultado esperado para o sinal de ˆ e o valor de R2?
10. Numa regressão com 4 variáveis explicativas e uma amostra de 26 observações, a
soma dos quadrados explicados foi 1788,56 e a soma dos quadrados dos resíduos 567,34. Ao
acrescentarmos duas variáveis ao modelo, a soma dos quadrados explicados aumentou para
1895,28. Verifique se este modelo é melhor do que o anterior, usando o R2 ajustado.
11. Na tabela abaixo são dados, para vários imóveis, a área (em m2), o padrão de
construção (alto, médio ou baixo), o número de dormitórios, de banheiros, de vagas na
garagem, se há ou não piscina e o preço do imóvel (em 1000 reais). Faça uma regressão do
preço em função destas características. A seguir, teste a significância dos parâmetros e, se for
o caso, elimine um ou mais e refaça a estimação. Use o critério do R2 ajustado visto no texto e
compare os dois modelos. Repita o procedimento até encontrar o modelo que melhor explique
o preço dos imóveis. Interprete os resultados obtidos.
2
2
17. Na tabela abaixo são dados, para vários imóveis, a área (em m ), o padrão de construção (al
médio ou baixo), o número de dormitórios, de banheiros, de vagas na garagem, se há ou não pisc
70
e o preço do imóvel (em 1000 reais). Faça uma regressão do preço em função destas característic
A seguir, teste a significância dos parâmetros e, se for o caso, elimine um ou mais e refaça
estimação. Use os critérios vistos no texto e compare os dois modelos. Repita o procedimento
encontrar o modelo que melhor explique o preço dos imóveis. Interprete os resultados obtidos.
área padrão dorm vagas piscina banheiros preço
100 médio 2 1 sim 2 88,9
150 alto 3 1 sim 2 149,1
200 médio 3 2 sim 3 194,4
180 médio 3 1 não 2 153,5
130 médio 2 1 não 1 121,7
89 médio 1 1 não 1 85,9
95 baixo 2 0 não 1 73,5
50 baixo 2 0 não 1 39,9
200 médio 4 3 sim 2 189,7
210 médio 3 2 sim 3 186,3
250 médio 6 3 sim 3 229,7
280 alto 4 2 sim 4 272,0
350 alto 5 2 sim 4 339,5
150 alto 3 1 não 2 155,2
240 alto 3 1 não 2 232,7
70 baixo 2 0 não 2 68,7
135 alto 2 1 sim 2 157,0
140 alto 3 2 sim 2 151,0
18. Teste a normalidade dos resíduos das regressões feitas nos exercícios 12 e 17.
12. Teste a normalidade dos resíduos das regressões feitas nos exercícios 7 e 11.
19. Encontre, em notação matricial, as expressões para a SQE.
LINS, Marcos Pereira Estellita; CALÔBA, Guilherme Marques. Programação linear: com
aplicações em teoria dos jogos e avaliação de desempenho (data envelopment analysis). Rio
de Janeiro: Interciência, 2006.
MATOS, Orlando Carneiro de. Econometria básica: teoria e aplicações. 3. ed. rev. e ampl.
São Paulo: Atlas, 2000.
1
Referências bibliográficas do capítulo 3 e 4. Maior parte destes capítulos estão baseados em Sartoris (2003).