O Que Fazer

44 Revista Poltica Hoje, Vol. 20, n.
1, 2011
O que Fazer e o que No Fazer com a Regresso:
pressupostos e aplicaes do modelo linear de Mnimos
Quadrados Ordinrios (MQO)
12

Dalson Figueiredo Filho (UFPE)
Felipe Nunes (UCLA)
Enivaldo Carvalho da Rocha (UFPE)
Manoel Leonardo Santos (UFMG)
Mariana Batista (UFPE)
Jos Alexandre Silva Jnior (UFPE)

RESUMO: Para que serve o modelo de regresso de mnimos
quadrados ordinrios? Como os cientistas sociais podem utilizar essa
ferramenta em seus desenhos de pesquisa? Como evitar aplicaes
inadequadas dessa tcnica? O principal objetivo desse artigo
apresentar a lgica do modelo de regresso linear de mnimos
quadrados ordinrios (MQO) a partir de uma abordagem intuitiva. Por
meio de uma simulao de Monte Carlo demonstramos os procedimentos
que devem ser seguidos para planejar, interpretar e avaliar o modelo de
regresso linear. Esperamos com esse trabalho difundir, em geral, o uso

1
O ttulo desse artigo foi diretamente inspirado no trabalho de Beck e Katz (1995):
What to do (and not to do) with Times-Series Cross-Section Data publicado na
American Political Science Review. Os autores agradecem a Natalia Leito pelos
comentrios em verses preliminares e ao parecerista annimo da Revista Poltica Hoje
por suas valiosas contribuies. Lembrando sempre que omisses remanescentes so
integralmente creditas aos autores.
2
Os autores registram que esse trabalho consiste na superao de um desafio nada
trivial no contexto da produo cientfica. Como se trata de um trabalho coletivo, com
efetiva participao de todos os envolvidos, caracteriza-se como uma realizao nada
comum. No contexto de comunicao e cooperao necessrias sua concluso, para
alm do produto final, fica o saldo positivo do aprendizado coletivo e a certeza de que
vale a pena trabalhar em grupo. Para os cientistas polticos, esse resultado pode ser
resumido como um jogo de soma positiva. Contudo, vencer os problemas de ao
coletiva e a distncia exigem, alm de compromisso, apoio institucional. Nesse sentido,
importante registrar que essa atividade teve sucesso sobretudo em funo do apoio
recebido do Professor Enivaldo Rocha (UFPE) e Carlos Ranulfo Melo (UFMG)
respectivos coordenadores do convnio PROCAD/CAPES celebrado entre os
departamentos de Cincia Poltica da UFPE e da UFMG. Os recursos por eles
disponibilizados e a ateno pedaggica direta permitiram no apenas a nossa
mobilidade, como tambm a ao articulada entre professores e estudantes de ambas as
instituies.
O que Fazer e o que No Fazer com a Regresso: pressupostos e aplicaes
do modelo linear de Mnimos Quadrados Ordinrios (MQO)
45

da referida tcnica na cincia social no Brasil, e em particular, na
cincia poltica.

ABSTRACT: What is ordinary least squares regression model good
for? How could social scientists employ this technique in their research
designs? How to avoid common problems with its application? The main
objective of this paper is to present the underlying logic of the ordinary
least square regression model based on an intuitive approach. Through a
Monte Carlo simulation we demonstrate the main procedures to plan,
interpret and evaluate such technique. We aim with this work to diffuse
the use of the OLS in the Brazilian social sciences in general, and in
political science in particular.

46 Revista Poltica Hoje, Vol. 20, n. 1, 2011
A unidade de toda a cincia consiste apenas em seu mtodo, no em seu
material. (Pearson, 1982: 16)
1 INTRODUO

A anlise de regresso de mnimos quadrados ordinrios (MQO)
o modelo estatstico mais usualmente empregado na cincia poltica
contempornea. Aps analisarem 1.756 artigos publicados entre 1990 e
2005 em trs importantes peridicos da rea (American Political Science
Review, American Journal of Political Science e Journal of Politics),
Krueger e Lewis-Beck (2008) reportam que 30,8\% das publicaes
utilizam a regresso linear de mnimos quadrados ordinrios (Ordinary
Least Squares - OLS). No Brasil a utilizao pode ser considerada tmida,
sobretudo se comparada a norte-americana. Para Soares (2005), existe
uma hostilidade em relao aos mtodos quantitativos e estatstica na
cincia social brasileira (Soares, 2005: 27). Os trabalhos de Werneck
Vianna et al (1988), Valle e Silva (1999) e Santos e Coutinho (2000)
corroboram esse diagnstico: a utilizao de tcnicas bsicas de
estatstica descritiva e inferencial ainda bastante limitada nas Cincias
Sociais, isso independentemente do tipo de produo (artigos,
dissertaes ou teses). O resultado prtico o enfraquecimento
generalizado do conhecimento cientfico. Em especial, porque sabido
que a utilizao dos mtodos qualitativos no tem melhor sorte. Ou seja,
segundo Soares (2005), a ausncia de mtodos quantitativos no significa
a presena de mtodos qualitativos. Regra geral, o padro o no
mtodo.
Diante desse quadro, o que pode ser feito? Partindo da hiptese de
que a resistncia causada pelo no domnio das tcnicas (e num sentido
mais geral dos fundamentos bsicos de estatstica), algumas medidas
47

podem ser pensadas. Primeiro, pode-se aumentar a oferta de cursos de
metodologia quantitativa, quer seja nos currculos regulares quer seja via
cursos de especializao
3
. Segundo, parece bem-vindo examinar
criticamente a literatura para identificar quais so as demandas mais
latentes. Os dois caminhos tm o mesmo objetivo: assegurar que a
preocupao com o mtodo seja uma constante. O principal objetivo
desse texto contribuir com essa perspectiva atravs de uma introduo
anlise de regresso linear de mnimos quadrados ordinrios (MQO).
Nossa principal meta apresentar as principais caractersticas desse
modelo de regresso, discutindo os pressupostos que devem ser
obedecidos, assim como formas simples de compreender a sua
aplicabilidade.
Para tanto, o artigo est dividido da seguinte forma. A primeira
parte apresenta a estrutura bsica do modelo de regresso. A meta
familiarizar o leitor com os componentes do modelo. A segunda seo
discute alguns dos pressupostos que precisam ser satisfeitos, bem como
as consequncias de sua violao sobre a consistncia das estimativas. A
terceira parte ilustra a aplicao prtica de uma anlise de regresso,
identificando os principais requisitos tcnicos que devem ser satisfeitos

3
Em particular, a escassez de cursos de mtodos e tcnicas, sejam eles quantitativos e
qualitativos, acaba prejudicando a formao dos profissionais na rea de cincias
sociais, alm de reduzir a qualidade tcnica da produo acadmica. Um dos principais
esforos para minorar esse problema foi materializado atravs do curso de Metodologia
Quantitativa (MQ) em Cincias Humanas realizado anualmente pelos departamentos de
Sociologia e Cincia Poltica da Universidade Federal de Minas Gerais (UFMG). No
plano internacional destaca-se o EMAS organizado pela Universidade de Salamanca,
Espanha, o Summer Program in Quantitative Methods of Social Research, ICPSR,
Michigan, EUA e o Summer School in Methods and Techniques organizado pelo
European Consortium for Political Research. Tem-se, ainda, a Essex Summer School in
Social Sciences and Data Analysis, Londres, Inglaterra. Entre 31 janeiro e 12 de
fevereiro de 2011 a IPSA realizou um curso de vero na Universidade de So Paulo
(USP) Concepts, Methods, and Techniques in Political Science.
pelo pesquisador. O objetivo auxiliar a construo de um desenho de
pesquisa que favorea a utilizao da referida tcnica. A quarta parte
apresenta a simulao dos dados utilizados nesse trabalho bem como os
resultados, destacando as principais estatsticas de interesse e a sua
interpretao substantiva. Nesta seo enfatiza-se a utilizao de grficos
como ferramenta fundamental para a interpretao dos resultados do
modelo. Na parte final do trabalho discutimos sumariamente alguns
cuidados que os pesquisadores devem tomar durante a utilizao do
modelo de mnimos quadrados ordinrios.

2 ENTENDENDO O MODELO DE REGRESSO DE MNIMOS
QUADRADOS ORDINRIOS (MQO)
4

O modelo regresso linear uma poderosa ferramenta em anlise
de dados
5
. Hair et al (2009) afirmam que "a anlise de regresso mltipla
uma tcnica estatstica que pode ser usada para analisar a relao entre
uma nica varivel dependente e mltiplas variveis independentes
(preditoras)" (Hair et al, 2009: 176)
6
. Com a regresso possvel estimar
o grau de associao entre Y, varivel dependente e X
i
, conjunto de
variveis independentes (explicativas). O objetivo resumir a correlao

4
Para os propsitos desse artigo minimizamos o grau de complexidade matemtica dos
conceitos apresentados. Para os leitores interessados em aprofundar seus conhecimentos
sugerimos cobrir a bibliografia citada. Em particular, para uma introduo bastante
didtica anlise multivariada de dados ver Hair et al (2009). Para uma opo mais
avanada ver Tabachnick e Fidell (2007). Em relao a conceitos elementares de
estatstica sugerimos Moore e McCabe (2009). Em Econometria sugerimos Wooldridge
(2009), Kennedy (2009) e Gujarati (2000).
5
Hair et al (2006) afirmam que "a principal razo para a popularidade de regresso tem
sido a sua capacidade de prever e explicar variveis mtricas" (Hair et al 2006: 269)
6
Similarmente, Pallant (2007) afirma que regresso mltipla no apenas uma tcnica,
mas uma famlia de tcnicas que podem ser usadas para explorar a relao entre uma
varivel dependente contnua e um nmero de variveis independentes ou preditoras
(Pallant, 2007: 146).
49

entre X
i
e Y em termos da direo (positiva ou negativa) e magnitude
(fraca ou forte) dessa associao. Mais especificamente, possvel
utilizar as variveis independentes para predizer os valores da varivel
dependente. Em regresses multivariadas compostas de mais de uma
varivel independente possvel tambm identificar a contribuio de
cada varivel independente sobre a capacidade preditiva do modelo como
um todo. Tecnicamente, dizer que o modelo ajustado utilizando a forma
funcional de mnimos quadrados ordinrios significa que uma reta que
minimiza a soma dos quadrados dos resduos ser utilizada para resumir
a relao linear entre Y e X
i
7

(Krueger e Lewis-Beck, 2008).
Pedagogicamente, importante apresentar a notao do modelo de
regresso linear:
Y = +
1
X
1
+

Y representa a varivel dependente, ou seja, aquilo que queremos
explicar/entender/predizer. X
1
, por sua vez, representa a varivel
independente, aquilo que o pesquisador acredita que pode ajudar a
explicar/entender/predizer a variao de Y. O intercepto (), tambm
chamado de constante, representa o valor de Y quando X
1
assume valor
zero. Dito de outra forma, na ausncia de variveis independentes, o
intercepto () representa o valor da mdia esperada de Y. O coeficiente
de regresso () representa a mudana observada em Y associada ao
aumento de uma unidade em X
1
. Finalmente, o termo estocstico ()
representa o erro em explicar/entender/predizer Y a partir de X
1
. Em
particular, a diferena entre os valores observados e os valores

7
Nas palavras de Hair et al (2009) "procedimento de estimao utilizado na regresso
simples e mltipla em que os coeficientes de regresso so estimados de forma a
minimizar a soma total dos quadrados dos resduos" (Hair et al, 2009: 172).
preditos de Y, ou seja, os resduos do modelo. Os resduos de um modelo
de regresso so parte fundamental para que se avalie a capacidade do
pesquisador em produzir um modelo (representao formal do mundo)
que represente de forma acurada a realidade estudada (aqui representada
pelos dados analisados). essa abordagem terica que nos permite
afirmar (com bastante cautela) que quanto menor os resduos
encontrados, melhor o ajuste do nosso modelo realidade a ser
explicada. Para os propsitos desse artigo julgamos importante ilustrar
graficamente o funcionamento do modelo de regresso linear. A figura 1
abaixo apresenta as informaes relevantes.

FIGURA 1
Funcionamento do Modelo de Regresso MQO

Na figura A, existe uma relao linear perfeita entre X (varivel
independente) e Y (o fenmeno que o pesquisador quer
entender/explicar/predizer). Isso quer dizer que ao saber o valor de X,
possvel determinar, exatamente, o valor de Y
8
. Na figura B, a relao

8
Dificilmente o pesquisador ir observar uma relao perfeita entre suas variveis de
interesse. Nas palavras de Lewis-Beck (1980), "Um exemplo do mundo real com o qual
todos estamos familiarizados Y =32 +9/5X onde a temperatura em Fahrenheit (Y) em
51

entre as variveis inexata, ou seja, existe erro em predizer o valor de Y
a partir dos valores de X. A forma funcional de mnimos quadrados
assim denominada porque minimiza os erros de estimao entre os
valores observados e os valores preditos, ou seja, minimiza os resduos.
Dito de outra forma, o modelo de mnimos quadrados ordinrios
minimiza o erro em entender/explicar/predizer os valores de Y a partir
dos valores de X. Essas estimaes so eficientes desde que os
pressupostos subjacentes anlise de regresso sejam devidamente
respeitados. A prxima seo apresenta alguns desses pressupostos e as
consequncias de sua violao sobre a consistncia das estimativas.

3 OS PRESSUPOSTOS DO MODELO DE MNIMOS
QUADRADOS ORDINRIOS (MQO)

Diferentes autores apresentam pressupostos distintos que precisam
ser satisfeitos para que a anlise de regresso de mnimos quadrados
ordinrios possa ser adequadamente utilizada, produzindo o Melhor
Estimador Linear No-Viesado (MELNV)
9
. Por exemplo, Lewis-Beck
(1980) e Kennedy (2009) elencam os seguintes pressupostos: (1) a

uma funo linear exata de temperatura em Celsius (X). Em contraste, as relaes entre
as variveis nas cincias sociais so quase sempre inexatas" (Lewis-Beck, 1980: 10).
9
Um estimador Best Linear Unbiased Estimator (BLUE) quando as seguintes
propriedades so satisfeitas: (Best) Melhor significa eficiente, que produz a menor
varincia, (Linear) linear refere-se ao tipo de relao esperada entre as variveis e
(Unbiased) no-viesado diz respeito distribuio amostral do estimador. Um
estimador enviesado aquele que sistematicamente sobreestima ou subestima o valor do
parmetro populacional. Para Kennedy (2009), um estimador * considerado um
estimador no-viesado (ou no tendencioso) de se a mdia de sua distribuio
amostral igual a , isto , se o valor mdio de * em amostras repetidas igual a
(Kennedy, 2009: 15). Mais adiante, Kennedy (2009) afirma que um estimador linear
no-viesado, e que tem varincia mnima entre todos os estimadores lineares no-
viesados, chamado de melhor estimador linear no-viesado (Best Linear Unbiased
Estimator - BLUE) (Kennedy, 2009: 16).
relao entre a varivel dependente e as variveis independentes deve ser
linear; (2) as variveis foram medidas adequadamente, ou seja, assume-se
que no h erro sistemtico de mensurao; (3) a expectativa da mdia do
termo de erro igual a zero; (4) homocedasticidade, ou seja, a varincia
do termo de erro constante para os diferentes valores da varivel
independente; (5) ausncia de autocorrelao, ou seja, os termos de erros
so independentes entre si; (6) a varivel independente no deve ser
correlacionada com o termo de erro; (7) nenhuma varivel teoricamente
relevante para explicar Y foi deixada de fora do modelo e nenhuma
varivel irrelevante para explicar Y foi includa no modelo; (8) as
variveis independentes no apresentam alta correlao, o chamado
pressuposto da no multicolinearidade; (9) assume-se que o termo de erro
tem uma distribuio normal e (10) h uma adequada proporo entre o
nmero de casos e o nmero de parmetros estimados.
Tecnicamente, a violao de cada pressuposto est associada a um
determinado problema. Dessa forma, importante entender, ainda que de
maneira geral, qual a funo de cada um desses pressupostos. Para os
propsitos desse artigo, elencamos dez pressupostos que precisam ser
satisfeitos na utilizao do modelo de regresso linear de mnimos
quadrados para que as estimativas produzidas sejam consistentes.
O primeiro pressuposto que deve ser respeitado a linearidade dos
parmetros, ou seja, deve-se esperar que a relao entre as variveis
independentes e a varivel dependente possa ser representada por uma
funo linear
10
. Quanto mais a relao se distanciar de uma funo linear,

10
Note que o requisito da linearidade nos parmetros e no nas variveis. Para Hair et
al (2009), um pressuposto implcito de todas as tcnicas de anlise multivariada com
base em medidas correlacionais de associao, incluindo regresso mltipla, regresso
logstica, anlise fatorial e modelagem de equaes estruturais, a linearidade. Porque
correlaes representam apenas a associao linear entre as variveis, os efeitos no-
53

menor a aplicabilidade da forma funcional de mnimos quadrados para
ajustar o modelo. Em outras palavras cresce a diferena entre os
parmetros estimados e os observados. Em um modelo bivariado, uma
forma simples de observar a relao entre X
1
e Y atravs de um grfico
de disperso. Na estimao do modelo, a linearidade implica que o
aumento de uma unidade em X
1
gera o mesmo efeito sobre Y,
independente do valor inicial de X
1
(Wooldridge, 2009). Em uma relao
no linear mesmo que exista uma associao entre as variveis
explicativas includas no modelo e o fenmeno de interesse do
pesquisador, no ser possvel detectar essa relao utilizando o mtodo
dos mnimos quadrados ordinrios. Em uma frase: a violao desse
pressuposto impede que a estimao por mnimos quadrados ordinrios
produza o melhor estimador linear no-viesado (MELNV)
11
.
O segundo pressuposto diz respeito mensurao das variveis.
Para Tabachnick e Fidell (2007), a anlise de regresso assume que as
variveis so medidas sem erro, uma clara impossibilidade em muitas
pesquisas nas cincias sociais e comportamentais (Tabachnick e Fidell,
2007: 122). Neste sentido, tem-se problemas de confiabilidade e validade

lineares no estaro representados no valor de correlao. Esta omisso resulta em uma
subestimao da fora real da relao. sempre prudente examinar todas as relaes
para identificar eventuais desvios da linearidade que podem afetar a correlao (Hair et
al, 2009: 85).
11
Caso o pesquisador identifique que a relao entre as variveis de interesse no
linear ele pode tomar algumas medidas. A mais comum transformar as variveis. Um
procedimento alternativo consiste na criao de novas variveis para modelar a relao
no linear. possvel tambm utilizar modelos no lineares. Dada a complexidade de
operacionalizao e tambm interpretao desses ltimos, recomendamos a
transformao de variveis como procedimento padro para produzir lineariedade.
Operacionalmente, a transformao de variveis pode ser facilmente conduzida na
maior parte dos pacotes estatsticos, sendo necessrio apenas que o pesquisador
identifique qual o remdio mais adequado para cada situao. Para os propsitos desse
artigo reportamos nos anexos desse trabalho algumas das transformaes mais
usualmente empregadas.
dos indicadores utilizados. De acordo com Lewis-Beck (1980), a
importncia de incluir variveis bem medidas no modelo evidente:
variveis mal medidas produziro estimativas inconsistentes. Em
particular, se as variveis independentes so medidas com erro, as
estimativas (intercepto e coeficiente de regresso) sero viesadas. Alm
disso, os testes de significncia e o intervalo de confiana sero afetados.
Caso apenas a varivel dependente seja medida com erro, ainda existe
chance do estimador ser no-viesado, assumindo que a distribuio do
erro aleatria. No entanto, comum observar ineficincia no erro
padro da estimativa, reduzindo a consistncia dos testes de
significncia
12
.
O terceiro pressuposto refere-se ao termo aleatrio de erro (). A
importncia do valor mdio do termo de erro ser igual a zero dado X
significa que os fatores no includos no modelo (que compem o termo
de erro) no afetam sistematicamente o valor mdio de Y (os pontos
positivos e negativos se anulam por serem equidistantes). A violao
desse pressuposto compromete a consistncia da estimativa do intercepto.
Dessa forma, enquanto o coeficiente de regresso (slope) no afetado, o
pesquisador deve ter cuidado com a interpretao substantiva da
constante. Para Kennedy (2009), o erro pode ter uma mdia diferente de
zero devido a presena de erros de mensurao sistematicamente
positivos ou negativos no clculo da varivel dependente (Kennedy,
2009: 109).
A homocedasticidade o quarto pressuposto, ou seja,
homogeneidade da varincia um pressuposto central do modelo de

12
Kennedy (2009) sugere trs principais remdios para superar problemas de erro de
mensurao: a) modelos de regresso generalizados; b) variveis instrumentais e c)
modelo de equaes estruturais.
55

regresso de mnimos quadrados ordinrios
13
. Mas o que
homocedasticidade afinal? Os resduos, ou seja, a diferena entre os
resultados observados e os resultados preditos pelo modelo devem variar
uniformemente. Se a medida que o valor de Y aumenta, os erros de
predio tambm aumentam, tem-se heterogeneidade na varincia, ou
seja, tem heterocedasticidade (varincia diferente). Fundamentalmente, a
violao desse pressuposto preocupante na medida em que afeta a
confiabilidade dos testes de significncia e intervalos de confiana. Para
Lewis-Beck (1980), violar a suposio da homocedasticidade mais
grave. Isso porque mesmo que as estimativas dos mnimos quadrados
continuem a ser no-viesados, os testes de significncia e intervalos de
confiana estariam errados (Lewis-Beck, 1980: 28). Antes de reportar os
resultados, o pesquisador deve analisar o ajuste do modelo, identificando
eventuais problemas de heterocedasticidade
14
. Isso porque modelos de
mnimos quadrados ordinrios com distribuio heterocedstica do erro
perdem a propriedade de melhor estimativa dos parmetros
populacionais. Para Tabachick e Fidell (2007), a presena de erros de
mensurao nas variveis independentes uma das causas de
heterocedasticidade.

13
Hair et al (2009) afirmam que ``homocedasticidade refere-se ao pressuposto de que a
varivel dependente exibe nveis iguais de varincia em toda a gama de varivel
preditora. Homocedasticidade desejvel porque a varincia da varivel dependente a
ser explicada na relao de dependncia no deve ser concentrada em apenas uma gama
limitada de valores independentes" (Hair et al, 2009: 83).
14
Uma forma de identificar a presena de heterocedasticidade analisar a disperso dos
erros. Quanto mais aleatria for a distribuio, maior a confiana do pesquisador em
ter ajustado um modelo homocedstico. A observao de qualquer outro tipo de padro
um indcio de heterocedasticidade. Outra alternativa analisar a distribuio da
varivel dependente a partir das categorias de uma determinada varivel independente
categrica utilizando o grfico de Box-plot. possvel ainda utilizar o teste de
homogeneidade de varincias de Levene. Uma vez detectada heterocedasticidade, o
pesquisador pode seguir as seguintes diretrizes para tentar superar esse problema: a)
aumentar o nmero de casos e b) transformar as variveis.
A quinta premissa a da ausncia de autocorrelao entre os casos,
que se refere situao em que o valor de uma observao medida em
determinado perodo (t
1
) no influencia o valor de uma observao
medida em um momento posterior (t
2
). Significa dizer que as
observaes so independentes, ou seja, que no existe correlao entre
os termos de erro. Enquanto os valores dos coeficientes permanecem
no-viesados, tem-se problemas na confiabilidade dos testes de
significncia e intervalos de confiana
15
.
O sexto diz respeito correlao entre as variveis independentes e
o termo de erro. Para Lewis-Beck (1980) difcil satisfazer esse
pressuposto em desenhos de pesquisa no experimentais. Como o
pesquisador no pode manipular o valor da varivel independente,
importante que todas as variveis teoricamente importantes sejam
incorporadas ao modelo explicativo. Se, por exemplo, uma varivel X
1

est correlacionada com outra varivel explicativa X
2
, mas o pesquisador
no incluir est ltima em seu modelo, as estimativas sero viesadas.
A stima recomendao diz respeito especificao adequada do
modelo. Aqui, se deve observar dois procedimentos. Primeiro, todas as
variveis independentes teoricamente relevantes devem ser includas na
equao de regresso. Segundo, nenhuma varivel teoricamente
irrelevante deve ser includa no modelo j que isso produz ineficincia
nos estimadores, aumentando o erro padro da estimativa. Em
conformidade com o pressuposto 2 (ausncia de erros de mensurao), a

15
De acordo com Garson (2011), o pesquisador pode utilizar o teste de Durbin-Watson,
d, para detectar a presena de autocorrelao em seus dados. A estatstica d varia entre 0
e 4 de tal modo de quanto mais perto de 0 maior a autocorrelao positiva e quanto
mais perto de 4 maior a autocorrelao negativa. Valores entre 1,5 e 2,5 sugerem
independncia das observaes.
57

correta especificao do modelo central para produzir estimativas no-
viesadas.
O oitavo pressuposto refere-se multicolinearidade. Kennedy
(2009) argumenta que o estimador OLS na presena de
multicolinearidade permanece no viesado e, de fato, ainda o melhor
estimador linear no viesado (BLUE) (...) na verdade, uma vez que todos
os pressupostos da CLR (Classical Linear Regression) continuam a ser
observados (estritamente falando, claro), o estimador MQO mantm
todas as suas propriedades desejveis (Kennedy, 2009: 193). A maior
dificuldade de modelos com problemas de multicolinearidade o
aumento da magnitude da varincia dos parmetros estimados. Isso
porque a presena de altos nveis de correlao entre as variveis
independentes impossibilita estimar, com preciso, o efeito de cada
varivel sobre a varivel dependente, no caso, o fenmeno que o
pesquisador procura entender/explicar/predizer
16
.
Por exemplo, suponha que o modelo explicativo utiliza duas
variveis altamente correlacionadas, X
1
e X
2
, para explicar a variao de
uma varivel dependente qualquer, Y. A variao total formada pela
variao associada a X
1
mais a variao associada a X
2
mais a variao

16
Para Garson (2011), multicolinearidade refere-se correlao excessiva entre as
variveis preditoras. Quando a correlao excessiva (alguns usam a regra de ouro de
r0,90), os erros padro dos coeficientes de b e beta se tornam grandes, tornando difcil
ou impossvel avaliar a importncia relativa das variveis preditoras. Multicolinearidade
menos importante quando a finalidade da pesquisa a predio j que os valores
preditos da varivel dependente permanecem estveis, mas a multicolinearidade um
problema grave quando a finalidade da pesquisa inclui a modelagem causal (Garson,
2011). Tecnicamente, o pesquisador pode analisar o Variance Inflation Factor (VIF)
para verificar em que medida suas variveis independentes apresentam problemas de
multicolinariedade. Quanto maior, pior. A raiz quadrada do VIF de uma determinada
varivel independente informa ao pesquisador o aumento esperado no erro padro do
coeficiente da varivel em comparao ao coeficiente esperado na ausncia de
multicolinearidade.
comum entre X
1
e X
2
. O modelo de regresso de mnimos quadrados
ordinrios utiliza apenas a variao nica de cada varivel para estimar
os coeficientes, ignorando a varincia compartilhada. Eis a essncia do
problema: quanto maior a correlao entre as variveis independentes,
menos informao estar disponvel para estimar os coeficientes
associados s variveis explicativas. Para Kennedy (2009), qualquer
estimativa baseada em pouca informao no pode ser realizada com
muita confiana - ela ter uma alta varincia (Kennedy, 2009: 194)
17
. A
figura 2 abaixo ilustra esse argumento
18
.

17
Mas o que o pesquisador pode fazer para minimizar problemas de
multicolineariedade? A literatura sugere vrias medidas. Por exemplo, a incorporao
de mais informao, ou seja, aumentar o nmero de observaes. Alm disso, o
pesquisador pode se certificar de que no existem problemas de variveis omitidas,
averiguar se a forma funcional do modelo foi devidamente estipulada, identificar a
presena de outliers e assegurar que as variveis foram medidas de maneira adequada.
Uma sada adicional utilizar a anlise de componentes principais ou a anlise fatorial
para criar uma medida sntese a partir da varincia das variveis originais. O
pesquisador no deve excluir uma das variveis independentes sob pena de produzir
erros de especificao do modelo, a no ser que a correlao entre a varivel excluda e
as demais variveis independentes seja zero. Tecnicamente, uma forma de detectar
problemas de multicolineariedade estimar uma correlao entre as variveis
independentes de tal modo que coeficientes prximos ou superiores a 0,9 indicam a
presena de multicolinearidade. Outra regra importante verificar se o R
2
da regresso
com a varivel dependente menor do que o R
2
estimado a partir de uma varivel
independente pela outra. Em caso afirmativo, tem-se problemas de multicolinearidade.
Seguindo os ensinamentos de Goldberger (1989), entendemos que muitas vezes os
problemas de multicolinearidade esto associados a micronumerosidade, ou seja,
amostras pequenas. Como regra geral, portanto, sugerimos que o pesquisador evite,
sempre que possvel, a micronumerosidade e com ela toda a sorte de problemas
associadas a estimaes com N reduzido. As diferentes tcnicas de Fuzzy set/Qualitative
Comparative Analysis (QCA) so adequadas para trabalhar com amostras pequenas e
intermedirias.
18
Para uma introduo a utilizao do digrama de Vein ver em especial Ip (2001) e
Kennedy (2002).
59

FIGURA 2
Multicolinearidade utilizando diagrama de Vein

No primeiro modelo (figura da esquerda) tem-se duas variveis. A
rea comum entre X e Y est ilustrada pela letra A. Por sua vez, B
representa a variao de Y que independe da variao em X, no caso,
explicada pelo termo de erro. No segundo modelo tem-se duas variveis
independentes (X e Z) e a mesma varivel dependente, Y. Como pode ser
observado, existe uma correlao entre as variveis independentes
representada pela rea D +G. Se apenas a varivel X for utilizada para
entender/explicar/predizer Y, tem-se informao referente rea B +D.
Se apenas a varivel Z for utilizada para entender/explicar/predizer Y
tem-se informao referente a rea D +E. Mas o que acontece se forem
utilizadas as variveis X e Z ao mesmo tempo? A regresso linear de
mnimos quadrados ordinrios utiliza apenas a varincia nica entre cada
varivel independente e a varivel dependente. Isso quer dizer que ao se
estimar
x
apenas a rea B seria utilizada, e ao se estimar
z
apenas a rea
E seria utilizada. Ou seja, toda a informao da rea D seria perdida (rea
comum entre X e Z). Kennedy (2009) explica que essa informao no
utilizada porque reflete a variao em Y que determinada pela
variao em ambos X e Z, as contribuies relativas dos quais no so
conhecidas a priori (Kennedy, 2009: 46). Portanto, quanto maior for a
correlao entre as variveis independentes (multicolinearidade), menos
informao estar disponvel para calcular as estimativas dos
coeficientes. No limite, na existncia de multicolinearidade perfeita as
reas B e E desaparecem, impossibilitando a estimao
19
.
O nono pressuposto refere-se distribuio do termo de erro. De
acordo com as premissas do teorema de Gauss-Markov, o erro amostral
deve seguir uma distribuio aproximadamente normal para que os
estimadores de
1
,
2
e (sigma) encontrados a partir do mtodo de
mnimos quadrados ordinrios sejam no-viesados e eficientes.
Por fim, deve-se observar a proporo mnima entre o nmero de
caso e de parmetros. O nmero de casos deve exceder a quantidade de
parmetros estimados. Essa uma condio matemtica bsica. Como o
algoritmo computacional inverte a matriz para realizar os clculos, caso o
nmero de parmetros a serem estimados supere a quantidade de
observaes, a estimao torna-se matematicamente impossvel. O
pesquisador deve maximizar o nmero de observaes em sua anlise
dada as propriedades desejveis de amostras grandes. Isso porque a partir
do Teorema Central do Limite (Central Limit Theorem) sabe-se que a
distribuio amostral de variveis aleatrias converge para a distribuio
normal quando o tamanho da amostra aumenta.

4 O PLANEJAMENTO DE UMA ANLISE DE REGRESSO

19
Para Kennedy (2009), alm de criar altas variaes nas estimativas dos coeficientes,
a multicolinearidade est associada a problemas indesejveis nos clculos com base na
matriz de dados que sejam instveis, ou seja, nos quais pequenas variaes na matriz de
dados, tais como a adio ou supresso de uma nica observao, pode levar a grandes
mudanas nas estimativas dos parmetros (Kennedy, 2009: 198/199).
61

O quadro abaixo sumariza o planejamento de um desenho de
pesquisa em cinco estgios.

Estgio Procedimento
1 Definir o problema de pesquisa, selecionar a varivel dependente (VD) e
identificar as variveis independentes (VIs), ou seja, proceder a
especificao do modelo. Aqui o pesquisador deve definir qual a relao
esperada entre VD e VIs.
2 Maximizar o nmero de observaes no sentido de aumentar o poder
estatstico (statistical power), a capacidade de generalizao e reduzir toda
sorte de problemas associados a estimao de parmetros
populacionais a partir de dados amostrais com N reduzido.
3 Verificar em que medida os dados disponveis satisfazem os pressupostos
da anlise de regresso de mnimos quadrados ordinrios (ver seo
anterior). Como procedimento padro, o pesquisador deve reportar as
tcnicas utilizadas para corrigir eventuais violaes (transformaes, re-
codicaes, aumento de N, etc.).
4 Estimar o Modelo
5 Interpretar os resultados

Metodologicamente, importante apresentar, de forma clara e
objetiva, qual o problema de pesquisa que o pesquisador est
interessado em investigar. Depois disso, deve-se observar o nvel de
mensurao da varivel dependente. Isso porque a anlise de regresso de
mnimos quadrados ordinrios requer que a varivel dependente seja
quantitativa, discreta ou contnua
20
. Por fim, o pesquisador deve
identificar as variveis independentes, especificando o modelo. Ele deve
definir qual a relao esperada entre a varivel dependente (VD) e as
variveis independentes (VIs).
No que diz respeito ao segundo estgio, como regra geral,
importante garantir a maior quantidade possvel de observaes.

20
O modelo requer variveis discretas ou contnuas, mas alguns tipos dessas variveis
podem no ter o tratamento mais adequando com o modelo de Mnimos Quadrados
Ordinrios. Esse o caso de variveis censuradas e variveis de contagem. Para esses
casos modelos especficos (por exemplo Probit ou Tobit oferecem melhores resultados.
Estimativas oriundas de amostras pequenas so instveis, podem
apresentar problemas com os graus de liberdade do modelo e apenas
relaes extremamente fortes sero detectadas. Por outro lado, quanto
maior o tamanho da amostra, maior chance de detectar a existncia de
uma relao entre as variveis, independente de sua magnitude. Em
relao ao tamanho da amostra, Hair et al (2009) sugerem que a razo
entre o nmero de casos e o nmero de variveis independentes nunca
deve ser inferior a cinco, ou seja, para cada varivel independente, o
pesquisador deve ter, ao menos, cinco casos disponveis. Tabachnick e
Fidell (2007) sugerem utilizar N 50 + 80X (em que X representa o
nmero de variveis independentes includas na anlise). Stevens (1996)
recomenda uma proporo de 15 observaes por varivel para produzir
estimativas confiveis. Nossa recomendao que o pesquisador utilize a
maior proporo de observaes por varivel possvel, e em casos em
que precise trabalhar com o mnimo, o indicado referenciar na literatura
especializada e ser ortodoxo quanto aos pressupostos do modelo.
Em relao ao terceiro estgio, o pesquisador deve verificar em que
medida os dados disponveis satisfazem os pressupostos da anlise de
regresso de mnimos quadrados ordinrios (ver seo anterior). Como
procedimento padro, o pesquisador deve reportar as tcnicas utilizadas
para corrigir eventuais violaes (transformaes, recodificaes,
aumento de N, etc). Essa fase central para garantir a confiabilidade do
trabalho, quer seja possibilitando a replicao, quer seja assegurando a
avaliao crtica da consistncia dos resultados. A transparncia na
coleta, no tratamento e na anlise dos dados so caractersticas desejveis
de qualquer trabalho acadmico. Nas palavras de King, Keohane e Verba
(1994), nossa primeira e mais importante diretriz para melhorar a
qualidade dos dados : registrar e relatar o processo pelo qual os dados
63

so gerados. Sem essa informao no podemos determinar se mesmo
utilizando procedimentos padro na anlise dos dados no estamos
produzindo inferncias viesadas (King, Keohane e Verba, 1994: 23)
21
.
Aps checar os pressupostos o prximo passo estimar o modelo.
Nessa fase importante que as estatsticas de interesse sejam
devidamente reportadas (erro padro da estimativa, R
2
, R
2
ajustado, teste
F, nveis de significncia, intervalos de confiana, etc). Como cada rea
do conhecimento tende a enfatizar determinadas formas de reportar os
dados, desejvel que o pesquisador adote os padres consolidados nos
principais peridicos de seus respectivos ramos do conhecimento
22
.
Por fim, depois de reportar as estatsticas de interesse o pesquisador
deve interpret-las. No basta citar a magnitude dos coeficientes,
necessrio discutir o tamanho do efeito a luz da teoria existente sobre o
assunto. Similarmente, no basta mencionar o nvel de significncia de
uma determinada relao, necessrio observar o peso explicativo dela a
partir da literatura especializada sobre o tema. Em uma frase:
importante que o pesquisador deixe claro como as estatsticas estimadas
se relacionam com a sua hiptese de pesquisa, discutindo os resultados
empricos de forma substantiva.

21
Em outro momento os autores afirmam que Se o mtodo e a lgica de observao
dos pesquisadores e suas inferncias so deixados implcitos ou obscuros, a comunidade
acadmica no tem como julgar a validade do que foi feito (...) no podemos aprender
com os seus mtodos ou replicar os seus resultados. Essa investigao no um ato
pblico. Ou, ainda, no faz uma boa leitura e, portanto no uma contribuio cincia
social (King, Keohane e Verba, 1994: 08).
22
Em termos estritamente grficos, replicamos aqui a sugesto de King (1995): o
pesquisador deve evitar grficos carregados (too much information), adotando tons de
cinza e branco na elaborao de grficos e tabelas.
5 SIMULANDO O USO DO MODELO LINEAR DE MNIMOS
QUADRADOS ORDINRIOS
23

Para ilustrar como o modelo de regresso de mnimos quadrados
ordinrios pode ser utilizado em um desenho de pesquisa envolvendo
temas relevantes para cientistas polticos, optamos por produzir uma
simulao capaz de demonstrar no s as potencialidades da referida
tcnica, mas tambm suas limitaes. Embora a utilizao de simulaes
ainda seja limitada no Brasil, acreditamos que a tcnica de simulao a
melhor alternativa metodolgica para demonstrar a aplicabilidade do
modelo de regresso linear. Isso porque o pesquisador pode controlar os
parmetros que do origem aos dados analisados. Dessa forma, possvel
averiguar os resultados obtidos atravs do modelo linear, comparando-os
com os valores utilizados para a criao dos dados. Em outras palavras, a
simulao permite definir valores que representam a verdadeira relao
entre as variveis, permitindo avaliar quo bem nosso modelo captura tal
realidade.
A simulao utilizada neste texto tem dois propsitos. Primeiro, ela
serve para ilustrar o mecanismo pelo qual um banco de dados
produzido. Com isso, pretendemos ressaltar que o modelo de regresso
linear nada mais do que uma estimao baseada no pressuposto de que
h uma combinao linear de vetores (ou variveis) presente nos dados.
Tal combinao ponderada pela multiplicao de coeficientes que
expressam a relao linear entre cada vetor X e o vetor Y. Alm disso, a
especificao do mecanismo para produo dos dados tambm permite

23
Todos os cdigos apresentados aqui tambm esto disponveis on-line. Alm disso, os
arquivos com os dados simulados tambm esto disponveis em
http://dvn.iq.harvard.edu/dvn/dv/felipenunes. A partir da publicao deste texto, os
comandos e os dados devem ser usados para fins acadmicos.
65

definir e controlar as distribuies pelas quais as variveis sero
construdas, garantindo assim que os pressupostos sejam devidamente
satisfeitos. Nosso segundo objetivo com o uso de simulaes apresentar
ao leitor as particularidades que um banco de dados real pode conter, e
que tendem a distorcer (para o bem e para mau) os resultados obtidos
usando o mtodo de mnimos quadrados. Para explorar exaustivamente
essa dimenso, usaremos grficos que representam visualmente os
problemas discutidos nas sees anteriores. Embora nem sempre seja
possvel usar grficos dessa natureza, consenso na literatura aplicada
que o simples uso de tais ferramentas poderia evitar a maioria dos erros
em anlise de dados (Tufte, 1990; Gelman, 2004)
24
.
Por fim, toda a parte emprica do trabalho foi elaborada usando o
programa R 2.13
25
. Alm de permitir a simples elaborao de simulaes,
o R tambm contm pacotes gratuitos disponveis na internet que
possibilitam a produo de anlises quantitativas de forma fcil e com
excelente apresentao. Os autores recomendam fortemente a adoo de
tal programa nos cursos de anlise de dados espalhados no Brasil. Para
alm dos benefcios bvios relativos aos custos de obteno e
manuteno do programa, o R tambm uma poderosa ferramenta para
anlise de dados j que permite a interao completa do pesquisador com
os resultados produzidos
26
.

24
Como no se trata de um texto com pretenses explicativas, no seguiremos os
padres dos textos acadmicos empricos. Ao invs de focar na perguntar de pesquisa,
nas motivaes que nos levaram a ela, e nas hipteses derivadas das implicaes
tericas formuladas, nosso texto abordar as questes tcnicas relevantes para o uso
adequado da regresso linear de mnimos quadrados ordinrios.
25
O R e seus respectivos pacotes podem ser instalados gratuitamente a partir de
http://www.r-project.org/.
26
Alm disso, a comunidade que utiliza R tem a possibilidade de atualizar as
ferramentas j disponveis e adicionar novas utilidades, contribuindo assim para o
aprimoramento do programa e o contnuo acmulo de conhecimento aplicado.
Para o nosso exemplo, o banco de dados apresenta 200 casos e
quatro variveis: x
1
, x
2
, x
3
e y. Todas elas foram construdas a partir de
uma distribuio normal padronizada, ou seja, com mdia 0 (zero) e
desvio padro 1. As trs primeiras (x
1
, x
2
, x
3
) cumpriro o papel de
variveis independentes, tendo y como varivel dependente, ou seja, a
varivel cuja variao se pretende entender/explicar/predizer. Alm dessa
configurao geral, as variveis x
2
e x
3
foram construdas como funes
de x
1
. Em particular, x
2
contnua e apresenta uma baixa correlao
positiva com x
1
( =0,3). Por sua vez, x
3
uma varivel categrica
dicotmica (dummy), assumindo valores 0 ou 1 fixados a partir da sua
mdia. Ou seja, em x
3
valores acima da mdia recebem atributo 1,
enquanto que os outros recebem 0, lembrando que x
3
tambm apresenta
correlao de 0,25 com x
1
. As trs variveis independentes combinadas
formam y, sendo que tal combinao linear ponderada pelos seguintes
parmetros: =1,
1
=4,
2
=0,5 e
3
=-2.
O primeiro passo do pesquisador deve ser identificar as variveis.
Medidas de tendncia central e de disperso devem ser produzidas com o
objetivo de conhecer as distribuies das variveis, o que a literatura
denomina de analise exploratria dos dados (Exploratory Data Analysis -
EDA). Em termos grficos, sugerimos a utilizao de histogramas e Box-
plots. Visualizar os dados uma tarefa que toma tempo e requer
pacincia, mas um procedimento fundamental para garantir que o
pesquisador domine o banco de dados, explore a relao entre suas
variveis, e corrija eventuais erros de digitao, etc. Neste momento,
tambm recomendvel que o pesquisador tenha ateno aos pontos que

Gostaramos de lembrar que o professor Jackson Alves Aquino, da Universidade
Federal do Cear (UFCE), vem trabalhando pioneiramente em um manual do R em
portugus aplicado s cincias sociais.
67

estejam destoando do restante da distribuio, os chamados outliers. Na
tabela 1 abaixo apresentamos a estatstica descritiva das variveis.

TABELA 1
Estatsticas Descritivas para as Variveis Usadas no Modelo de Regresso

O pesquisador deve sempre reportar o nmero de casos analisados,
descrevendo a origem da amostra e indicando eventuais casos omissos
(missing cases). No nosso exemplo, a amostra no tem casos omissos,
totalizando, portanto 200 observaes. Partindo do pressuposto de que
uma boa explicao precedida por uma boa descrio, o primeiro passo
caracterizar cada uma das variveis de forma que o leitor entenda: (1)
como cada medida foi construda e (2) qual o significado substantivo
dos valores observados. Isso importante para que a interpretao dos
coeficientes de regresso seja feita de forma adequada, j que eles so
expressos em termos das unidades de medida das variveis utilizadas.
Tecnicamente, a anlise grfica o procedimento mais eficiente para
visualizar a distribuio das variveis, como demonstram as figuras 3 e 4,
abaixo.
O grfico de Box-plot ilustra as distribuies de y, x
1
e x
2
. Dois
procedimentos devem ser observados. Primeiro, deve-se usar a mesma
escala para comparar as distribuies. O mais adequado fixar a escala
da varivel que tem a maior distribuio e plotar as demais seguindo tal
medida. Segundo, o pesquisador deve observar a presena

FIGURA 3
Box-plot com a distribuio das variveis y, x
1
e x
2

de pontos destoantes (outliers). No nosso exemplo, os box-plot revelam a
presena de dois outliers em y e um ponto destoante em x
2
. comum,
por exemplo, que um caso (outlier) altere radicalmente o ajuste da reta de
regresso, enviesando as estimativas. Nesses casos, recomendvel
que transformaes do tipo Box-cox sejam implementadas para tornar as
distribuies mais bem comportadas. A figura abaixo ilustra a
distribuio das variveis a partir de histogramas.

69

FIGURA 4
Histogramas com a distribuio das variveis y, x
1
e x
2

Como os histogramas ilustram a distribuio real dos dados, eles
so de fundamental importncia para que eventuais correes e cuidados
sejam devidamente tomados. Para distribuies assimtricas, por
exemplo, possvel utilizar transformaes logartmicas. Outra
recomendao conduzir uma anlise sistemtica sobre os casos
destoantes da amostra com o objetivo de desvendar os mecanismos
causais que explicam a sua posio de outlier (Geddes, 1994).
Aps o reconhecimento dos dados, o prximo passo definir o
modelo que melhor descreve a relao entre as variveis tendo em vista
suas respectivas distribuies formas. Como este artigo trata
especificamente da forma funcional de mnimos quadrados ordinrios
(MQO), nosso foco de agora em diante volta-se inteiramente para ele
27
.
Em nosso exemplo a varivel dependente y poderia ser o nmero de
votos recebidos por determinado candidato a deputado federal. Quanto
maior o seu valor, maiores as chances que o candidato vena a eleio.
As variveis independentes includas no modelo so x
1
, x
2
e x
3
, sendo que
elas poderiam representar, por exemplo, volume de dinheiro gasto na
campanha, a popularidade do candidato dentro do partido, e se o
candidato est concorrendo pela primeira vez (1) ou no (0). As duas
primeiras foram criadas como variveis contnuas e a ltima como
categrica dicotmica (dummy).
O prximo passo rodar o modelo de regresso e interpretar os
seus resultados. Um ponto merece especial ateno neste momento: todas
as variveis independentes devem ser includas no modelo de regresso
ao mesmo tempo
28
. Isso porque nosso objetivo capturar as variaes em
y e x
1
, controlando pela variao de x
2
e x
3
. Esquematicamente, o modelo
geral estimado o seguinte
29
:
Y = +
1
X
1
+
2
X
2
+
3
X
3
+

27
Gostaramos de ressaltar, no entanto, que h outras formas funcionais que podem ser
usadas na estimao de um modelo de regresso. Os chamados modelos de mnimos
quadrados generalizados so bons exemplos de tcnicas que devem ser implementadas
quando se trabalha com eventos raros, ou distribuies assimtricas. Com isso queremos
chamar ateno para a importncia do pesquisador e das decises tomadas por ele. O
apropriado uso de tcnicas estatsticas de responsabilidade do investigador e requer
conhecimento dos limites e potenciais de cada ferramenta.
28
Como dados observacionais no nos permitem observar a operao de tratamentos
aleatrios, impossvel tirar concluses causais usando o desenho de pesquisa discutido
aqui. O melhor que ns podemos realizar incluir as variveis de controle relevantes no
modelo de forma a capturar a relao explicitada acima. Quando a idia do controle foi
introduzida nos modelos de regresso mltipla o objetivo era exatamente emular um
experimento usando dados observacionais. No entanto, pesquisas mais recentes
demonstram a incapacidade da referida ferramenta e apontam novas estratgias como o
uso de variveis instrumentais, modelos de matching e de regresso em descontinuidade
(ver Angrist e Pischke, 2009).
29
Outras especificaes sero testadas, como se pode ver na Tabela 4. Mas esse o
modelo que ns acreditamos se ajustar melhor aos dados que ns temos.
71

sendo que representa o ponto de origem da curva de regresso
(constante), representa o coeficiente associado a varivel x
1
,
2

representa o coeficiente associado a varivel x
2
, e
3
representa o
coeficiente associado a varivel x
3
.

6 A ANLISE DOS RESULTADOS

TABELA 2
Resumo das estatsticas do modelo final ajustado

A primeira estatstica de interesse o coeficiente de determinao
(r
2
) que uma medida de aderncia dos dados em torno da reta de
regresso e usualmente interpretada como a proporo da varincia na
varivel dependente explicada pela variao das variveis independentes,
ou seja, a qualidade do ajuste do modelo aos dados. O r
2
ajustado uma
medida similar ao r
2
, mas que controla pelo nmero de observaes e
variveis includas no modelo
30
. Quanto maior o tamanho da amostra,
menor ser a diferena entre essas duas estimativas. O r
2
ajustado sugere
que 34% da variao na varivel dependente pode ser explicada pela
variao nas demais variveis independentes. Por fim, o erro padro

30
Para Hair et al (2009), o coeficiente de determinao ajustado uma ``verso
modificada do coeficiente de determinao que leva em conta o nmero de variveis
independentes e o tamanho da amostra. Embora a adio de variveis independentes ir
sempre fazer com que o coeficiente de determinao suba, o coeficiente de
determinao ajustado pode cair se as variveis independentes acrescentadas tm pouco
poder explicativo tornando o grau de liberdade demasiado pequeno. Esta estatstica
bastante til para a comparao entre equaes com diferentes nmeros de variveis
independentes, diferentes tamanhos de amostra, ou ambos" (Hair et al, 2009: 170).
residual (erro padro da estimativa) uma medida do grau com que a
mdia da amostra se desvia da mdia das possveis mdias amostrais.
Quanto menor, melhor j que ele representa a estimativa do efeito que o
erro exerce sobre o ajuste geral modelo.
H grande controvrsia atualmente quanto utilidade do
coeficiente de determinao. O consenso na disciplina de que no se
pode avaliar a capacidade explicativa de um modelo de regresso a partir
do r
2
. O foco da anlise na magnitude dos coeficientes, e no na
produo de um r
2
maior (King, 1986). No entanto, o tamanho do r
2
pode
servir como um indicador para avaliar em que medida a relao entre as
variveis pode ser descrita por uma funo linear. No nosso exemplo o r
2

no alto o que poderia sugerir um ajuste inadequado entre o modelo
estimado e os dados observados. Contudo, os dados foram simulados
para atender a todos os pressupostos do mtodo de MQO, sendo que as
variveis foram combinadas linearmente, e o mais importante, os
coeficientes estimados correspondem aos valores estipulados na
simulao. esse tipo de exemplo que nos mostra a importncia de focar
na interpretao dos coeficientes e no na produo de r
2
. A tabela 3 a
seguir apresenta a anlise de varincia (ANOVA).

TABELA 3
Anlise de varincia (ANOVA) para modelo final
GL Graus de Liberdade

A anlise de varincia (ANOVA) compara se o modelo estimado
73

melhor do que o modelo nulo (sem nenhuma varivel independente). O
teste avalia se algum dos coeficientes estimados (intercepto e coeficientes
de regresso) significativamente diferente de zero. Em termos tcnicos,
a estatstica F calculada a partir da diviso da mdia dos quadrados
atribuda regresso (2572,34) pela mdia dos quadrados dos resduos
(25,54). A probabilidade de que o resultado observado proveniente de
erro amostral pode ser examinada atravs do teste de significncia (p-
valor), assumindo que o modelo nulo melhor do que o modelo
estimado. No referido caso, a probabilidade de que o resultado observado
esteja errado muito pequena dado que p-valor menor do que 0,000.
O prximo passo analisar separadamente os coeficientes
estimados. A forma tradicional de interpretar resultados de regresso
atravs da leitura cuidadosa das estimativas. A tabela 4 abaixo sumariza
essas informaes.

TABELA 4
Regresso Linear Mltipla (MQO)

Erros Padres entre parnteses
*** Significncia a p < 0,05
** Significncia a p < 0,01
* Significncia a p < 0,001

O primeiro passo observar a correspondncia entre o sinal dos
coeficientes e a relao teoricamente esperada. Em outras palavras, em
que medida os resultados oferecem evidncias em favor das hipteses de
trabalho. Esse procedimento deve ser realizado a partir do modelo final,
ou seja, aquele modelo que na opinio do pesquisador apresenta a
especificao mais adequada (ver seo sobre os pressupostos). Nesse
artigo ns testamos trs hipteses:

Hiptese 1: x
1
exerce um efeito positivo sobre y
Hiptese 2: x
2
Hiptese 3: x
3

Conforme observado no modelo final, exceo de x
3
, todos os
coeficientes apresentam a direo teoricamente esperada. Tais resultados
sugerem a rejeio imediata da terceira hiptese. Enquanto a nossa teoria
sugeria uma relao positiva entre x
3
e y, nossos resultados apontam na
direo contraria. Nesse caso, o pesquisador deve ser capaz de revisar a
explicao apresentada, justificando o que poderia estar produzindo tal
correlao inesperada. As motivaes para a justificativa devem passar
tanto por questionamentos tericos, quanto metodolgicos. O prximo
passo interpretar a magnitude dos coeficientes estimados.
O primeiro coeficiente a ser observado refere-se constante do
modelo que representa o valor esperado da varivel dependente quando
todas as variveis independentes assumem valor igual a zero. A constante
do modelo final de 1,87 (p <0,000), ou seja, sobrestima o valor real do
parmetro ( =1). Em termos estritamente tericos, os pesquisadores
esto menos preocupados com a estimao consistente desse coeficiente.
Isso porque em grande parte dos modelos estimados o valor da constante
75

no tem uma interpretao substantiva
31
. Nesse caso, recomendvel
suprimir esse valor da tabela apresentada. Quando a constante tiver uma
interpretao inteligvel, esse coeficiente deve ser devidamente reportado
e suas implicaes analisadas. No nosso exemplo quando x
1
, x
2
e x
3
so
iguais a zero espera-se que y seja, em mdia, igual a 1,87.
O prximo passo analisar os coeficientes associados s variveis
independentes do modelo final. O
1
(efeito de x
1
sobre y) assume valor
3,88, muito prximo do parmetro especificado na simulao (
1
= 4), o
que quer dizer que o aumento de uma unidade em x
1
eleva em mdia em
3,88 o valor de y, mantendo tudo mais constante. Nossa concluso
reforada pela estimativa do erro associada ao ponto estimado. De acordo
com os nossos resultados, a probabilidade de se estar errado ao rejeitar
que
1
diferente de zero muito pequena (p <0,000). Logo, h fortes
evidncias sugerindo que o efeito positivo teoricamente esperado de x
1

sobre y pode ser corroborado.
Por sua vez, o
2
(efeito de x
2
sobre y) assume valor 0,54, tambm
muito prximo ao parmetro da simulao (
2
= 0,5). Nesse caso,
mantendo as demais variveis constantes, podemos dizer que o aumento
de uma unidade em x
2
produz um efeito positivo de 0,54 em y. Embora o
modelo linear de mnimos quadrados ordinrios tenha sido capaz de
estimar um coeficiente muito similar ao valor 'verdadeiro' da relao
entre x
1
e y, e o resultado aponte para a direo esperada teoricamente,

31
Por exemplo, ao se utilizar o Produto Interno Bruto (PIB) per capita (varivel
independente) para explicar o nvel de democratizao de um determinado pas
(varivel dependente), o valor da constante expressa a mdia do grau de democratizao
quando o PIB per capita assume valor zero. Embora tecnicamente correta, essa
interpretao no condiz com a realidade da distribuio do PIB. Portanto, essa leitura
no nos auxilia na compreenso substantiva do modelo especificado. Um dos
procedimentos mais comuns para evitar esse problema centralizar as demais variveis
pela mdia.
no possvel ter segurana quanto rejeio da hiptese nula de que
2

=0 (zero). O que no significa que o efeito teoricamente esperado no
exista, mas apenas que no fomos capazes de demonstr-lo com
segurana estatstica usando o p-valor.
Resultados no significativos podem ser explicados por diversos
motivos, exigindo, portanto, que o pesquisador justifique bem suas
escolhas terico-metodolgicas e no suprima os resultados encontrados.
Embora incomum em publicaes cientficas, a no rejeio da hiptese
nula do coeficiente igual a zero tambm auxilia no debate disciplinar. Se
um modelo estatstico escolhido para descrever uma relao causal,
de se esperar apenas que os resultados convirjam para o valor verdadeiro
do efeito quando a mdia dos efeitos de todos os trabalhos produzidos na
rea calculada. Se os resultados inesperados no so reportados, o que
se observa um vis no nosso conhecimento sobre determinada relao
causal. Esse problema conhecido como vis de publicao. De acordo
com Gerber, Green e Nickerson (2001), os artigos que no rejeitam suas
hipteses nulas tendem a no ser publicados. Nas palavras dos autores,
'esse fenmeno conhecido como vis de publicao e representa uma
tendncia de pareceristas e pesquisadores em sobrestimar a importncia
da significncia estatstica nos achados da pesquisa'.
Por fim, o
3
(efeito de
3
sobre y) sugere a rejeio da nossa
hiptese de trabalho. O coeficiente observado assume valor negativo,
sendo que nossa hiptese esperava um efeito positivo. A interpretao do
coeficiente indica que a cada unidade adicional de x
3
observa-se um
efeito negativo de 2,20 em y (
3
=-2,20). possvel concluir tambm
que o efeito estimado diferente de zero, j que o resultado foi
estatisticamente significativo (p-valor <0,05), ou seja, ns temos 95% de
confiabilidade que o coeficiente estimado diferente de zero.
77

Mas qual o principal problema em se utilizar os outros modelos
especificados como referencia para avaliar as hipteses de trabalho? Nos
modelos 1, 2, 3 e 4 ns falhamos em atender a premissa da correta
especificao do modelo linear de MQO. Dentre as principais
consequncias da violao desse pressuposto, listamos: (1) no modelo 1
h uma ligeira subestimao do efeito de x
1
sobre y, o que cresce no
modelo 2 com a incluso de uma varivel irrelevante x
1
; (2) no terceiro
modelo a omisso da principal varivel independente (x
1
) leva a incorreta
concluso de que x
2
exerce um efeito diferente de zero sobre y. Alm
disso, o pesquisador concluiria tambm incorretamente que o efeito de x
3

sobre y igual a zero; e (3) o valor do efeito de x
1
sobrestimado quando
uma varivel correlacionada excluda do modelo
32
. Isso nos indica que
parte da explicao atribuda a x
1
no modelo 1 devia-se a no incluso de
x
2
como varivel de controle. Faz sentido observar esse resultado j x
1
e
x
2
tem uma correlao de 0,3.
Para que a anlise dos resultados fique completa preciso analisar
tambm a magnitude dos coeficientes, conferindo significado substantivo
para cada um deles. Neste trabalho sugerimos o uso dos intervalos de
confiana como a metodologia mais apropriada para tal prtica. A
estimativa de um intervalo de confiana nos permite identificar quais
hipteses nulas no podem ser rejeitadas tendo como referncia os dados
e os modelos empregados. A vantagem do intervalo de confiana em
relao ao uso do teste de significncia (p-valor) para os pontos
estimados, forma tradicional de testar hipteses, a possibilidade de se

32
Vale ressaltar que a omisso de uma varivel independente no correlacionada com as
demais variveis independentes j includas no modelo no gera o problema aqui
discutido. Embora a especificao ainda fique prejudicada, no haver necessariamente
um vis nos demais estimadores.
levar em conta o conjunto de alternativas que no podem ser rejeitadas.
Ao invs de se considerar apenas a hiptese nula tradicional de que o
coeficiente estimado no diferente de zero, a inferncia a partir dos
intervalos de confiana considera todas as outras hipteses que se
referem a valores dentro do intervalo de confiana. O grfico 5 abaixo
ilustra como intervalos de confiana podem ser utilizados para analisar as
estimativas do resultado de regresso.

FIGURA 5
Pontos estimados e intervalos de confiana para variveis analisadas

O eixo X representa a magnitude dos coeficientes e o eixo Y cada
um dos coeficientes de interesse. Os segmentos na horizontal
representam o intervalo de confiana de cada estimativa, ou seja, o grau
de incerteza quanto aos valores que cada coeficiente pode assumir. O
crculo preto por sua vez representa o valor mdio para cada estimativa,
nesse caso, =1,87,
1
=3,88,
2
=0,54,
3
=-2,20. Dois elementos
79

precisam ser considerados para a correta interpretao desse grfico.
Primeiro, a distncia entre as barras horizontais e a linha pontilhada
vertical. Nesse caso, quanto maior for a distncia, maior ser a
confiabilidade na rejeio das hipteses nula de que os coeficientes
1
e
2
seriam iguais a zero. Segundo, preciso prestar ateno amplitude
das barras horizontais. Isso porque elas nos apresentam uma medida da
preciso dos coeficientes estimados. Quanto menores forem as barras,
maior ser a preciso da nossa estimativa, e portanto, maior a nossa
confiana nas concluses tiradas a partir dos mesmos.
No nosso exemplo,
2
no foi estatisticamente significativo (ver
tabela 3) porque um dos possveis valores do seu intervalo de confiana
igual a zero. Isso significa que x
2
e y podem apresentar uma correlao
igual a zero. No entanto, o que a tabela 4 no mostra que ns tambm
no podemos rejeitar a hiptese nula de que
2
seja igual 1,4 (a outra
extremidade do intervalo de confiana). A vantagem dessa anlise,
portanto, que samos de uma interpretao pontual que pode rejeitar
equivocadamente a importncia substantiva de x
2
para uma anlise mais
detalhada, especificando o conjunto de hipteses que devem ser
consideradas, chamando ateno para a interpretao substantiva dos
coeficientes e dos erros estimados. Nos casos de x
1
e x
3
fica visvel a
magnitude da distncia entre as barras horizontais (intervalos de
confiana) e a linha pontilhada vertical (representando o zero). Em
consequncia disso, nossa confiana na rejeio da hiptese nula bem
grande.
Quanto a preciso das nossas estimativas, possvel afirmar que
embora o intervalo de confiana de
2
cruze a linha referente ao 0, a
maior parte de sua distribuio contm valores positivos, prximos ao
valor verdadeiro de
2
.
1
tambm tem uma distribuio concentrada de
seus valores, sendo todos positivos.
3
, ao contrrio, embora distante de
zero e totalmente distribudo na parte negativa do grfico, pode ser
caracterizado como uma estimativa imprecisa. isso porque
3
pode
assumir valores entre -4 e -0,7. O pesquisador no saberia afirmar se o
efeito negativo ou se praticamente no existe efeito de x
3
sobre y.
A figura 6 ilustra a distribuio dos valores estimados de y em
funo dos diferentes valores observados nas variveis independentes. O
grfico A, por exemplo, construdo plotando os valores esperados de y
para cada valor de x
1
, fixando x
2
e x
3
em suas respectivas mdias. O
mesmo procedimento foi adotado para analisar x
2
.
O grfico A mostra os valores preditos de y quando x
1
varia de -2 a
2 (sua distribuio real - ver tabela 2), mantendo x
2
e x
3
fixados em suas
respectivas mdias. A partir dessa especificao possvel dizer que
mantendo as outras variveis constantes, um aumento de 1 uma unidade
na varivel x
1
produz uma elevao, em mdia, de 4 pontos em y
(observe a rea cinza no grfico entre 0 e 1 na varivel x
1
, e entre 0,64 e
4,53 na varivel y). O grfico B, por sua vez, apresenta os valores
esperados de y quando x
2
varia de -3 a 3, fixando x
1
e x
3
nas suas mdias.
Em termos prticos, aumentar x
2
de 0 a 1 produz um aumento em y de
0,94 a 1,48 (ver rea cinza no grfico B).

81

FIGURA 6
Valores preditos de y para valores fixos de x
1
e x
2

Imagine, por exemplo, que y representa o numero de votos
recebidos por um determinado candidato a deputado federal e x
1

representa o volume de dinheiro gasto na campanha. A concluso seria
de que a cada R$ 1 adicional investido produz um aumento de 4 votos
para o deputado. Digamos que os dados usados aqui fossem referentes s
ltimas eleies legislativas no Brasil. Um dos deputados menos votado
no estado de So Paulo precisou de algo em torno de 20.000 votos para
se eleger, isso significa que o candidato precisaria gastar cerca de R$
5.000 para obter essa vaga. Esse resultado nos levaria a concluir que
gasto em campanha uma varivel fundamental para se entender vitria
eleitoral.
Mas poderia significar o contrrio. Se estivssemos estudando o
impacto do nmero de mandatos de um deputado federal sobre a
quantidade de projetos de sua autoria aprovados (por legislatura), e
observssemos o mesmo efeito de x
1
sobre y (de 1 para 4), concluiramos
que a cada novo mandato o deputado teria um aumento de 4 projetos de
sua autoria aprovados no Congresso. Levando-se em conta que os
deputados aprovam em mdia mais de 50 projetos por mandato, seria
preciso mais de 4 mandatos para que um deputado novato conseguisse se
destacar no plenrio da casa. O que, hipoteticamente, no expressaria um
resultado substancialmente significante. Queremos com isso, chamar
ateno para a importncia de se conhecer as escalas das variveis usadas
e a variao real observada em cada uma delas.
Por fim, preciso interpretar de forma substantiva o que significa
observar um coeficiente
3
= -2,20. Por se tratar de uma varivel
dicotmica (0 ou 1), o coeficiente de regresso informa o impacto
esperado em y quando x
3
varia de uma categoria a outra. No nosso
exemplo, y assume valor esperado de 2.02 quando x
3
=0, mas cai para -
0,18 quando x
3
= 1. O efeito negativo observado, alm de
estatisticamente significativo, tambm substantivamente relevante.
Outra importante contribuio desse tipo de grfico a
observao do intervalo de confiana para todos os valores de x
1
e x
2
.
Note que a incerteza quanto aos pontos estimados muito menor para a
83

primeira varivel do que para a segunda. Observe ainda que o intervalo
de confiana menor nos locais da distribuio do eixo x
1
onde h maior
frequncia de casos. Isso porque existe uma correlao negativa entre a
frequncia de observaes e o nvel de incerteza das estimativas, ou seja,
quanto maior o nmero de observaes em um determinado valor da
varivel independente, menor o nvel de incerteza, logo, mais precisa ser
a estimativa. Dado que as trs variveis so distribudas normalmente
de se esperar que a incerteza expressa nos grficos seja maior nas
extremidades da distribuio. Essa observao refora, portanto, a
vantagem da anlise dos intervalos de confiana em detrimento do teste
de significncia. Enquanto o primeiro fornece uma noo completa sobre
nossas estimativas, o segundo pode ser facilmente afetado aumentando o
nmero de casos usados.
Por se tratar de uma simulao, os dados utilizados satisfazem
todos os pressupostos do modelo de regresso de mnimos quadrados
ordinrios. No entanto, a realidade no nos to favorvel quanto uma
simulao computacional. O pesquisador deve avaliar em que medida os
seus dados satisfazem esses pressupostos, tomando as medidas cabveis
em casos de violao. Para ilustrar como isso pode ser feito, a prxima
seo discute algumas alternativas tcnicas que auxiliam o pesquisador a
superar eventuais problemas.

7 OS CUIDADOS ANTES DE SE USAR UMA REGRESSO
LINEAR

Uma tarefa fundamental para uma boa anlise de dados
diagnosticar problemas em modelos de regresso. Esses diagnsticos
informam em que medida os dados observados podem ser representados
pelo modelo ajustado. No caso especifico da forma funcional de mnimos
quadrados ordinrios, a estrutura dos dados analisados precisa satisfazer
uma serie de pressupostos para que os estimadores sejam consistentes.
Quando tais pressupostos so violados, os estimadores de mnimos
quadrados no fornecem, por exemplo, a melhor estimativa linear nao-
viesada.
Nessa seo apresentamos os problemas mais comumente
encontrados pelos pesquisadores ao ajustar seus modelos de regresso,
sugerindo alternativas para como supera-los. Mais especificamente,
trataremos dos seguintes obstculos: (1) presena e influencia de outliers,
(2) observao de resduos com distribuio no normal, (3) erros com
varincia no constante (heterocedasticidade) e (4) multicolinearidade
entre as variveis independentes. H diversas referencias tratando de
cada um desses problemas de forma detalhada, dentre elas
recomendamos Fox (2008)
33
. Ao contrrio de outros pacotes estatsticos,
o R nos possibilita realizar diagnsticos de forma fcil e rpida, como
ser mostrado em seguida.
Comecemos nosso diagnstico pelos valores fora da curva, os
chamados outliers. Esses valores so assim denominados por
apresentarem comportamento destoante do restante dos valores preditos.
A estatstica padro para detectar outliers na regresso so os
studentized residuals para o modelo (ver mais em Fox, 2004)
34
.
Sugerimos o uso de um grfico que compara se o modelo estimado

33
Professor John Fox desenvolveu o principal pacote em R para produo simples de
diagnsticos em regresso linear car. Usaremos esse pacote nesta seo e
disponibilizaremos os cdigos no apndice digital.
34
Recomendamos que leitores menos familiarizados com noes bsicas de estatstica
iniciem seus diagnsticos atravs de grficos de box-plot, histogramas e de disperso.
Alm disso, sugerimos a utilizao de QQ plots das variveis e testes de normalidade.
85

consegue descrever bem a contribuio de todos os casos usando uma
combinao linear (QQ plot padronizado). A lgica comparar quo bem
os pontos se distribuem sobre a reta continua. Quanto mais distantes os
pontos, maior a contribuio dos mesmos no enviesamento das
estimativas. Tecnicamente, o grfico mostra os quartis dos resduos da
regresso com os de uma distribuio padronizada ajustada. Esse grfico
plota resduos padronizados contra seus respectivos quartis numa
distribuio t com n-k-2 graus de liberdade, em que n representa o
numero de casos e k a quantidade de parmetros estimados. A figura 7
abaixo ilustra essas informaes.
O QQ-plot 1 apresenta uma distribuio sem outliers. J no QQ-
plot 2 observa-se a presena de pontos que esto literalmente fora da
curva ajustada. Observe como os pontos no incio e no final da
distribuio do grfico direita se posicionam fora do intervalo de
confiana (linha tracejada). No caso de se observar um grfico como
esse, talvez seja mais apropriado usar uma regresso robusta que corrija o
efeito dos outliers (Fox, 2008).

FIGURA 7
QQ-plots para resduos padronizados numa distribuio t

Observaes que esto relativamente distantes do centro da
distribuio dos valores preditos, j considerando o padro de correlao
entre as variveis independentes, tm um grande potencial para
influenciar os coeficientes da regresso de mnimos quadrados. Estes
pontos so chamados de pontos de alavancagem (high leverage). A
forma mais simples de avaliar esse problema plotando os grficos de
regresso parcial. A figura 8 abaixo ilustra esse procedimento.

87

FIGURA 8
Grficos de regresso parcial

Na primeira linha mostramos os grficos para um banco de dados
aparentemente normal, enquanto que na segunda apresentamos um caso
em que pontos de alavancagem srios problemas para o uso da regresso
de MQO. A diferenciao aqui tambm visual. fcil observar que nos
dois primeiros grficos os pontos se comportam muito bem e no h
qualquer um deles que possa representar uma ameaa sria ao ajuste da
reta. No segundo caso, ao contrrio, possvel identificar alguns casos
que funcionam como alavancas trazendo a reta de regresso ou mais para
baixo (primeiro caso) ou mais para cima (segundo caso). Nessa situao,
talvez fosse mais apropriado o uso de modelos no lineares ou corrigir a
distribuio dessas variveis usando transformaes de Box-Cox
(Weisberg, 2005).
Os mesmos problemas identificados acima podem ser observados
usando uma medida mais comum para se capturar graus de alavancagem,
os chamados hat values (ver mais em Fox, 2008). Tais valores
determinam, basicamente, quanto cada observao de y se distncia dos
seus respectivos valores preditos de y. A idia capturar estas distncias
atravs de um indicador, os hat-values, j que os valores preditos so
combinaes lineares das observaes. Outra opo calcular as
distncias de Cook que representam a importncia de cada observao
para os coeficientes de regresso quando um caso especfico retirado da
anlise. Em outras palavras, o procedimento para se calcular tais
distncias avaliar o poder relativo de cada observao caso ela fosse
retirada da amostra. O grfico de influncia pode ser uma alternativa
para avaliar a influncia dos casos sobre as estimativas combinando essas
duas idias. A figura 9 abaixo ilustra tal procedimento.

FIGURA 9
Grficos de Influncia

89

No eixo y tem-se os valores dos resduos padronizados
(studentized residuals) em relao aos valores esperados em uma
distribuio t. As linhas pontilhadas horizontais demarcam os limites
aceitveis da influncia exercida por cada ponto sobre as estimativas da
regresso. O eixo x representa os valores de alavancagem (hat-values)
que mostram os nveis de influencia de cada observao analisada. O
tamanho das circunferncias, por sua vez, proporcional s distncias de
Cook, que indicam o impacto que nossos estimadores sofrem quando um
determinado caso excludo da amostra analisada.
O grfico de influencia 1 apresenta a situao em que o
pesquisador tem menos motivos para se preocupar com a influncia dos
casos destoantes. Ou seja, a escolha dos casos tem menos impacto sobre
as estimativas produzidas. No grfico de influncia 2, ao contrrio, os
casos 11, 22, 30 e 44 devem ser observados com mais cuidado. Note que
todos eles ultrapassam os limites estabelecidos nos eixos X e Y. Em
relao medida de Cook (magnitude dos crculos), observamos alto
grau de influncia em ambos os casos. No grfico e influncia 1, a
influncia expressa nas extremidades da distribuio padronizada dos
resduos (ver casos 41, 50, 91 e 157). No grfico de influncia 2, apenas
a observao 44 apresenta influncia quando o teste de excluso dos
casos feito
35
.
O prximo diagnstico necessrio o da normalidade dos
resduos. O mtodo de mnimos quadrados opera melhor quando os erros

35
E o que deve ser feito para lidar com os pontos destoantes? Temos 3 principais
recomendaes: (1) Excluir os casos desviantes (reportando o procedimento no paper);
(2) recodificar os casos destoantes a partir de valores menos extremos e (3) escrever
uma seo do artigo descrevendo e explicando os motivos pelos quais os casos so
destoantes (Geddes, 2003).
so normalmente distribudos. Erros substancialmente assimtricos
podem comprometer a eficincia dos MQO e podem levantar dvidas
quanto a razoabilidade de se estimar a mdia condicional de y a partir de
x. A distribuio dos resduos da regresso a melhor proxy para a
distribuio dos erros, e com ela que vamos investigar se o erro
amostral satisfaz os pressupostos para o uso do mtodo de MQO. O
grfico 10 abaixo ilustra tal procedimento.
O grfico A apresenta distribuio normal dos resduos. Por sua
vez, o grfico B apresenta uma distribuio assimtrica. A soluo para
esse problema transformar as variveis includas no modelo de
regresso com o objetivo de conseguir um melhor ajuste, satisfazendo os
pressupostos. Recomendamos duas principais transformaes: (1)
logartima e (2) extrair a raiz quadrada de y. Como regra geral, o
pesquisador deve comear transformando a sua varivel dependente e, se
julgar necessrio, deve transformar as variveis independentes.

GRFICO 10
Distribuio dos Resduos da Regresso Linear

91

Um padro comum da varincia do erro no-constante, contudo,
o aumento da disperso dos pontos de y com o aumento do seu nvel.
Esse padro pode ser detectado plotando os resduos da regresso contra
os valores preditos. A figura 11 abaixo ilustra esse procedimento.

FIGURA 11
Distribuio dos pontos estimados em torno da reta de resduos

O grfico A apresenta uma distribuio homocedstica, ou seja, os
valores preditos e os resduos padronizados esto distribudos
aleatoriamente, o que significa dizer que nenhum padro de varincia
observada. Por sua vez, o grfico B apresenta uma distribuio
heterocedstica na medida em que a varincia dos valores preditos de y
aumenta com o incremento dos resduos do modelo ajustado. Uma outra
forma de distinguir os padres observando a inclinao da reta ajustada
aos pontos. Quanto mais inclinada estiver a reta, maior a
heterocedasticidade dos nossos dados. Quanto maior a
heterocedasticidade, menor tende a ser a eficincia dos coeficientes, o
que produz erros de estimativa maiores.
Ns finalmente chegamos ao diagnstico de multicolinearidade
entre as variveis independentes. A forma mais simples de avaliar se a
premissa da independncia entre os vetores de x observada plotando
um grfico de disperso para todas as variveis independentes utilizadas.
Na figura 12 abaixo ns mostramos o grau e a direo da correlao entre
4 variveis hipotticas.

FIGURA 12
Grfico de Correlao das Variveis Independentes

O grfico A ilustra uma situao em que x
1
e x
2
no apresentam
nenhuma correlao linear. Observe que a reta ajustada horizontal j
93

que a disperso dos pontos completamente aleatria. O segundo caso,
no entanto, mostra a situao inversa. Observe como no grfico B as duas
variveis tem um grau muito alto de correlao, o que prejudicaria nossos
estimadores, e por consequncia os resultados da regresso linear
ajustada. A recomendao para casos como esse excluir x
1
ou x
2
do
modelo e testar seus efeitos de forma independente. No exemplo
ilustrado acima, no faria nenhuma diferena usar uma varivel (x
1
) ou
outra (x
2
) na regresso. Se as duas fossem usadas ao mesmo tempo, no
entanto, o resultado seria a absoro do efeito de uma pela outra.
Muitos outros diagnsticos poderiam ser apresentados neste texto.
Mostramos nessa seo o poder dos grficos para a realizao dos
diagnsticos, mas vale lembrar que h muitos outros testes de
significncia que tambm nos auxiliam nesse trabalho (ver Cook, 1994;
Fox, 2008). Nossa opo pelos cinco acima se deu tendo em vista o que
de mais importante se tem discutido na cincia poltica atualmente
36
. A
principal lio dessa seo que o pesquisador precisa conhecer seus
dados e reconhecer seus limites para que a escolha do modelo de anlise
seja a mais bem informada possvel.

CONCLUSO

A anlise de regresso de mnimos quadrados ordinrios (MQO)
o modelo estatstico mais usualmente empregado na cincia poltica

36
Alm desses, tambm importante avaliar a auto-correlao entre as variveis
independentes, o que pode ser feito com testes de VIF (variance-inflation factors); a
linearidade entre as variveis, o que pode ser feito usando grficos que combinam
resduos e valores preditos de cada varivel (CERES plots); e a independncia das
observaes que pode ser feita testando a auto-correlao dos resduos (Durbin-Watson
test). Recomendamos o uso de tais diagnsticos para que a anlise dos dados possa ser
feita com o maior cuidado possvel.
contempornea. No Brasil, no entanto, a realidade bem diferente.
Decidimos elaborar esse artigo assumindo o seguinte pressuposto: a
resistncia sua utilizao pode ser explicada pela ausncia de formao
metodolgica em geral e pelo limitado conhecimento da referida tcnica
em particular. Nosso principal objetivo foi reduzir a escassez de
produo sobre metodologia em portugus, introduzindo a anlise de
regresso linear de mnimos quadrados ordinrios de forma intuitiva.
Na primeira parte do texto apresentamos a estrutura bsica do
modelo e alguns dos principais pressupostos que precisam ser satisfeitos,
bem como as consequncias de sua violao sobre a consistncia das
estimativas. Na segunda parte mostramos a aplicao prtica da anlise
de regresso utilizando dados simulados. Essa estratgia possibilitou
controlar os parmetros e, portanto, verificar a eficincia das estimativas
produzidas. Por fim, discutimos superficialmente alguns cuidados que os
pesquisadores devem tomar durante a utilizao do modelo, destacando
alguns dos testes que podem ser realizados para verificar em que medida
os dados so adequados utilizao do modelo de mnimos quadrados
ordinrios.
Algumas lies podem ser tiradas desse exerccio. Primeiro,
embora nossa principal meta seja incentivar a utilizao da regresso
linear em cincia poltica, no estamos defendendo aqui o uso
indiscriminado da referida tcnica. Como os bons livros de metodologia
nos ensinam, o que orienta a pesquisa cientfica a pergunta que se
pretende responder. Em muitos casos, no entanto, a aplicao do modelo
linear equivocada e no ajuda o pesquisador a atingir seus objetivos.
Acreditamos que o uso indistinto e displicente de regresso linear pode
induzir o pesquisador a cometer erros graves na interpretao de seus
resultados, prejudicando o avano do conhecimento cientfico.
95

Segundo, defendemos tambm que a melhor forma de apresentar os
resultados e os diagnsticos atravs de grficos (Kastellec e Leoni,
2007). As tabelas dever ser utilizadas, mas como complemento.
Queremos reforar aqui a importncia da visualizao como instrumento
analtico. A audincia cientfica, assim como a que est fora da academia,
tem muito mais facilidade de compreender os resultados de pesquisa
quando eles so explorados graficamente. O pacote estatstico usado e
sugerido neste artigo (R) uma tima ferramenta para tanto. Alm de
gratuito, o R tem uma comunidade crescente e que desenvolve suas
aplicaes na internet. Ou seja, qualquer pesquisador pode ter acesso s
atualizaes, assim como pode contribuir para o aprimoramento do
programa
37
.
Terceira lio, o modelo linear de MQO no permite concluir nada
sobre a causalidade entre variveis. Na verdade, no existe nenhuma
tcnica estatstica capaz de determinar causalidade entre os fenmenos de
interesse do pesquisador. o desenho da pesquisa escolhido que vai nos
possibilitar inferir causalidade a partir dos dados coletados. Relaes
causais devem ser estabelecidas a partir da teoria disponvel sobre o
assunto. Como mostrado, a regresso linear trata-se de uma ferramenta
que analisa a correlao entre variveis, emulando o efeito de controle
observado em experimentos de pesquisa. H uma crescente literatura
sobre como usar desenhos de pesquisa para solucionar tal limitao
(Bartels, 1991; Angrist, Imbens, e Rubin, 1996; Dunning, 2008; Imbens e
Lemieux, 2008; Angrist e Pischke, 2009). Alm disso, a realizao de
experimentos tem se tornado cada vez mais comum em cincia poltica
(ver Habyarimana, 2009), o que abre um leque imenso de oportunidades

37
H outras opes interessantes. Sugerimos, por exemplo, DataDesk, GGobi, InfoVis,
e Infographics.
para o avano do conhecimento na nossa disciplina. Quando bem
empregada, a regresso linear auxilia, portanto, na identificao dos
efeitos sistemticos que conduzem nossas variveis a se relacionarem.
Finalmente, nem o teste de significncia nem o valor do r
2
devem
ser o foco do pesquisador. a importncia de cada varivel independente
ou o tamanho do seu efeito que determina a relevncia ou a significncia
substantiva dos resultados de pesquisa. Defendemos aqui a utilizao dos
intervalos de confiana ao invs dos testes padro de significncia, j que
a partir dos intervalos de confiana possvel avaliar diferentes testes de
hiptese ao mesmo tempo.
King, Keohane e Verba (1994) afirmam que os mesmos problemas
de inferncia assolam a pesquisa quantitativa e a qualitativa,
argumentando que apenas possvel entender a realidade social se as
pesquisas seguirem a lgica da inferncia cientfica. Se quantitativa,
qualitativa ou se combinando ambas as perspectivas, o importante que
o mtodo seja um componente irredutvel na produo do conhecimento.
Do ponto de vista crtico, inaceitvel que no exista um nico artigo
publicado em peridicos nacionais que discuta a elaborao de desenho
de pesquisa e/ou a aplicao de tcnicas de pesquisa de forma mais
aplicada. inconcebvel que a cincia social brasileira permanea a-
metodolgica como diferentes diagnsticos sugerem. Acreditamos
fortemente que o distanciamento do mtodo est mais relacionado ao
problema de formao de nossos pesquisadores do que propriamente a
uma posio ontolgica e epistemolgica definida a respeito de como o
conhecimento deve ser produzido. Como lembrado por Abraham
Maslow, se a nica ferramenta a disposio um martelo, bem
tentador tratar tudo como se fosse um prego. Talvez, no caso da cincia
social brasileira, pior do que tratar todo problema como um prego, a
97

incapacidade de distinguir o martelo do prego.

REFERNCIAS BIBLIOGRFICAS

ANGRIST, Joshua A., IMBENS, Guido W. and RUBIN, Donald. (1996)
Identification of Causal Effects Using Instrumental Variables.
Journal of the American Statistical Association 91(434): 444-455.
ANGRIST, Joshua; PISCHKE, Jrn-Steffen (2009). Mostly Harmless
Econometrics: An Empiricist's Companion. Princeton University
Press.
BARTELS, Larry M. (1991) Instrumental and `Quasi-Instrumental'
Variables. American Journal of Political Science 35(3): 777-800.
BECK, Nathaniel; KATZ, Jonathan (1995). What to do (and not to do)
with Times-Series Cross-Section. American Political Science
Review, vol 89, no 3: 634-647.
COLLIER, David; BRADY, Henry; SEAWRIGHT, Jason (2004).
Sources of Leverage in Causal Inference: Toward an Alternative
View of Methodology. In Henry E. Brady and David Collier,
eds. Rethinking Social Inquiry: Diverse Tools, Shared Standards.
Lanham, MD: Rowman and Littlefield.
COOK, R. Dennis. (1998). Regression Graphics: Ideas for Studying
Regressions Through Graphics. New York: Wiley.
COOK, R. Dennis; WEISBERG, Sanford (1994). An Introduction to
Regression Graphics. New York: Wiley.
DUNNING, Thad. (2008) Model Specification in Instrumental-
Variables Regression. Political Analysis.
FOX, John (2008). Applied Regression Analysis and Generalized Linear
Models. Second Edition, Sage Publications.
GARSON, David (2011). Statnotes: Topics in Multivariate Analysis, by
G. David Garson. Disponvel em:
http://faculty.chass.ncsu.edu/garson/PA765/statnote.htm.
Acessado em 24 de agosto de 2011.
GEDDES, Barbara (2003). Paradigms and sand castles: theory building
and research design in comparative politics. Ann Arbor,
University of Michigan Press.
GELMAN, Andrew (2004). Exploratory Data Analysis for Complex
Models. Journal of Computational and Graphical Statistics, vol
13, no 4: 755779.
GERBER, Alan; GREEN, Donald; NICKERSON, David (2001).
Testing for Publication Bias in Political Science. Political
Analysis, vol 9: 385-392.
GOLDBERGER, Arthur (1989). The ET Interview: Arthur S.
Goldberger. Econometric Theory, vol 5: 133-160.
GUJ ARATI, Damodar (2000). Econometria Bsica. So Paulo: Macron
Books, Pearson Education do Brasil.
HAIR Jr., Joseph; ANDERSON, Ralph; TATHAM, Ronald; BLACK,
Willian (2009), Multivariate data analysis. 17 Edio. Prentice-
Hall.
HABYARIMANA, James; HUMPHREYS, Macartan; POSNER, Daniel;
WEINSTEIN, Jeremy. (2009) Coethnicity: diversity and the
dilemmas of collective action. Russell Sage Foundation
Publications.
IMBENS, Guido e LEMIEUX, Thomas. (2008) Regression
discontinuity designs: A guide to practice. Journal of
Econometrics, 142, 615-635.
IP, Edward (2001). Visualizing Multiple Regression, Journal of
Statistics Education, vol 9, no 1.
KASTELLEC, Jonathan P. e LEONI, Eduardo. (2007) Using Graphs
Instead of Tables in Political Science. Perspectives in Politics,
vol. 5, n. 4.
KENNEDY, Peter (2002). Sinning in the Basement: What Are the
Rules? The Ten Commandments of Applied Econometrics,
Journal of Economic Surveys, Wiley Blackwell, vol. 16: 569-589.
______. (2009), A Guide to Econometrics. Boston: MIT Press.
KING, Gary (1986). How Not to Lie With Statistics: Avoiding
Common Mistakes in Quantitative Political Science. American
Journal of Political Science, vol 30: 666-687.
KING, Gary. (1995). Replication, Replication. Political Science and
Politics. no 28: 443-499.
KING, Garry.; KEOHANE, Robert. e VERBA, Sidney. (1994).
Designing social inquiry: scientific inference in qualitative
research. Princeton: Princeton University Press.
KRUEGER, James; LEWIS-BECK, Michael. (2008). Is OLS Dead?
The Political Methodologist, vol 15, no 2: 24.
LEWIS-BECK, Michael (1980). Applied Regression: an introduction.
Series Quantitative Applications in the Social Sciences. SAGE
University Paper.
MOORE, David; McCABE, George. (2009), Introduction to the practice
of statistics. New York, Freeman.
PALLANT, Julie (2007). SPSS Survival Manual: A Step by Step Guide
99

to Data Analysis using SPSS for Windows. Open University
Press.
PEARSON, Karl (1982). The Grammar of Science. London: J.M. Dent
and Sons Ltd.
SANTOS, Maria Helena; COUTINHO, Marcelo (2000), Poltica
Comparada: estado das artes e perspectivas no Brasil, BIB, no
54: 3-146.
SOARES, Glucio (2005). O Calcanhar Metodolgico da Cincia
Poltica no Brasil. Sociologia, Problemas e Prticas, no 48: 27-
52.
STEVENS, James (1996). Applied Multivariate Statistics for the Social
Sciences. Terceira Edio. Mahwah, NJ: Lawrence Erlbaum
Associates.
TABACHNICK, Barbara; FIDELL, Linda. (2007), Using multivariate
analysis. Needham Heights, Allyn e Bacon.
TUFTE, Edward (1990). Envisioning Information. Cheshire, CT:
Graphics Press.
VALLE SILVA, Nelson (1999), Relatrio de Consultoria sobre Melhoria
do Treinamento em Cincia Social Quantitativa e Aplicada no
Brasil, Rio de Janeiro, Laboratrio Nacional de Computao
Cientfica, 15 de Abril de 1999, 22 pg.
VIANNA, Luiz Werneck; CARVALHO, Maria Alice Rezende de;
MELO, Manuel Palacios Cunha; BURGOS, Marcelo Baumann
(1999), Doutores e teses em cincias sociais, Dados, vol 41, n
3: 453-515.
WEISBERG, Sanford (2005). Applied linear regression. Hoboken NJ:
John Wiley.
WOOLDRIDGE, Jeffrey (2009). Econometrics: a modern approach. 4
Edio. South-Western, Cengage Learning.

O Que Fazer

Transféré par

Informations du document

Titre original

Copyright

Formats disponibles

Partager ce document

Partager ou intégrer le document

Options de partage

Avez-vous trouvé ce document utile ?

Ce contenu est-il inapproprié ?

Droits d'auteur :

Formats disponibles

O Que Fazer

Transféré par

Droits d'auteur :

Formats disponibles

44 Revista Poltica Hoje, Vol. 20, n.

Vous aimerez peut-être aussi