Académique Documents
Professionnel Documents
Culture Documents
Correla
c
ao e Regress
ao
Em diversas investigacoes deseja-se avaliar a relacao entre duas medidas quantitativas. Por exemplo, as alturas dos filhos estao relacionadas com as alturas dos
seus pais? O faturamento de uma empresa e afetado pelo n
umero de funcionarios?
A producao de uma maquina depende do nvel de treinamento do operador? Note
que nestes casos nao estamos mais interessados em amostras independentes como
na secao anterior.
Em geral os principais objetivos de tais investigacoes sao os seguintes.
Verificar se as vari
aveis estao associados, isto e se os valores de uma variavel
tendem a crescer (ou decrescer) `a medida que os valores da outra variavel
crescem.
Predizer o valor de uma variavel a partir de um valor conhecido da outra.
Descrever a relac
ao entre as variaveis, isto e dado um aumento especfico
numa variavel, qual o crescimento medio esperado para a outra variavel?
7.1. DEFINIC
OES
7.1
119
Definico
es
E REGRESSAO
CAPITULO 7. CORRELAC
AO
120
denotado pela letra grega e tambem esta definido no intervalo [-1,1]. Os valores 1 e 1 representam correlacao linear perfeita (negativa ou positiva) enquanto o valor
zero representa ausencia de correlacao linear. Podemos considerar r como sendo
uma estimativa de . Na Figura com seus coeficientes de correlacao amostrais
calculados.
0.99
0.85
0.05
0.99
7.2
Interpretac
ao do coeficiente de correla
c
ao
negativos
positivos
indicam uma associacao
negativa
positiva
Usamos o termo correlacao positiva quando r > 0, e nesse caso `a medida que
x cresce tambem cresce y, e correlacao negativa quando r < 0, e nesse caso `a
medida que x cresce, y decresce (em media).
Quanto maior o valor de r (positivo ou negativo), mais forte a associacao. Nos
extremos, se r = 1 ou r = 1 entao todos os pontos no grafico de dispersao caem
exatamente numa linha reta. No outro extremo, se r = 0 nao existe nenhuma
associacao linear.
A seguinte quadro fornece um guia de como podemos descrever uma correlacao
claro que as interpretacoes dependem de
em palavras dado o valor numerico. E
cada contexto em particular.
DO COEFICIENTE DE CORRELAC
7.2. INTERPRETAC
AO
AO
Valor de (+ ou )
0,00
0,20
0,40
0,70
0,90
a
a
a
a
a
0,19
0,39
0,69
0,89
1,00
121
Interpretacao
Uma
Uma
Uma
Uma
Uma
correlacao
correlacao
correlacao
correlacao
correlacao
bem fraca
fraca
moderada
forte
muito forte
1r
< < r + t/2
n2
2
1 r2
.
n2
r
P
|T
|
>
1 r2
n2
onde T tn2 . Note que a nao rejeicao de H0 nos diz que nao ha evidencia
amostral de haver correlacao linear entre as variaveis. Em outras palavras, a
correlacao entre as variaveis nao e significativa.
Exemplo 7.2 : Na Figura 7.1 os dados foram simuladas de distribuicoes normais
e cada amostra tem 30 observacoes. As correlacoes amostrais r, estatistica t
observadas, I.C. de 95% e os p-valores de testes de hipoteses bilaterais estao na
E REGRESSAO
CAPITULO 7. CORRELAC
AO
122
Tabela 7.1.
r
t g.l.
IC 95%
0,9914 40,1368 28 0,9819 0,9960
0,7477 5,9590 28 0,5303 0,8729
0,0259 0,1372 28 -0,3375 0,3826
-0,9981 -84,8822 28 -0,9991 -0,9959
p-valor
< 0,001
< 0,001
0,8918
< 0,001
Observa
c
oes Discrepantes
A reta de regressao e estimada com base na soma de quadrados das distancias dos
pontos em relacao `a reta. Por isso, observacoes discrepantes ou outliers podem
ter uma grande influencia na estimativa da inclinacao da reta e consequentemente
no coeficiente de correlacao amostral.
Linearidade e normalidade
bom enfatizar que somente relacoes lineares sao detectadas pelo coeficiente de
E
correlacao que acabamos de descrever (tambem chamado coeficiente de correlacao
de Pearson). Ou seja, aceitar a hipotese de que = 0 nao necessariamente implica
que as variaveis nao estejam de alguma forma associadas.
Por exemplo, nos graficos da Figura 7.2, mesmo existindo uma clara relacao
(nao-linear) entre as variaveis x e y, o coeficiente de correlacao e estatisticamente
zero (Verifique!).
A mensagem aqui e que deve-se sempre fazer o grafico dos dados de modo que se
possa tentar visualizar tais relacoes.
Transforma
c
oes
Em alguns casos pode ser apropriado e mesmo justificavel fazer transformacoes em
x e/ou y induzindo uma relacao linear na escala transformada. Por exemplo, na
difcil vizualizar
Figura militares contra o produto interno bruto em 75 pases. E
uma relacao linear entre estas variaveis especialmente para valores grandes. No
grafico da direita foi tomado o logaritmo natural das variaveis e a relacao linear
fica bem mais aparente.
0 1 2 3 4
DO COEFICIENTE DE CORRELAC
7.2. INTERPRETAC
AO
AO
123
r= 0.26
20
r= 0.38
Figura 7.2: Exemplos de associacao nao linear entre duas variaveis simuladas.
Correla
c
ao n
ao significa causalidade
Um dos erros de interpretacao mais comuns e assumir que correlacoes significativas necessariamente implicam em uma relacao de causa e efeito entre duas
variaveis. Esta interpretacao e incorreta. Na verdade e extremamente difcil estabelecer relacoes causais a partir de dados observados. Seria preciso realizar
experimentos controlados para obter mais evidencias de um relacao causal.
Tambem e preciso ter cuidado ao assumir que existe correlacao somente porque
duas variaveis seguem o mesmo padrao de variabilidade. A correlacao pode ser
devida a uma terceira variavel influenciando as duas primeiras.
Finalmente, vale notar que correlacoes estatisticamente significativas (i.e.
quando se rejeita a hipotese de correlacao nula) nao necessariamente tem significado pratico. Por exemplo, que conclusoes poderia-se tirar de uma correlacao
significativa positiva entre nascimento de bebes e n
umero de cegonhas em determinada regiao?
Resumindo, se encontramos uma associacao ou correlacao entre duas variaveis
X e Y podem existir diversas explicacoes do porque elas variam conjuntamente,
incluindo:
Mudancas em X causam mudancas em Y .
Mudancas em Y causam mudancas em X.
Mudancas em outras variaveis causam mudancas tanto em X quanto em
Y.
E REGRESSAO
CAPITULO 7. CORRELAC
AO
124
A relac
ao observada e somente uma coincidencia.
Coeficiente de determina
c
ao
O quadrado do coeficiente de correlacao de Pearson e chamado de coeficiente de
determinacao e costuma ser denotado por R2 . Esta e uma medida da proporcao
da variabilidade em uma variavel que e explicada pela variabilidade da outra.
Na pratica nao se espera encontrar uma correlacao perfeita (i.e. R2 = 1), porque
existem muitos fatores que determinam as relacoes entre variaveis no mundo real.
Por exemplo, na Figura ?? se o coeficiente de correlacao calculado para os
logaritmos dos gastos militares e PIB dos pases for r = 0, 80, entao R2 = 0, 64
ou 64%. Ou seja, cerca de 36% da variabilidade nos gastos militares nao pode ser
descrita ou explicada pela variabilidade nos PIB e portanto fica claro que existem
outros fatores que poderiam ser importantes.
7.3
Problemas
1. Dados os valores x=(-2,-1,0,1,2) e y=(4,2,0,1,2) calcule o coeficiente de correlacao amostral e teste a hipotese de correlacao nula. Faca um grafico de
dispersao e comente os resultados.
Pearson's product-moment correlation
data: x and y
t = -1.0911, df = 3, p-value = 0.355
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.9626041 0.6593004
sample estimates:
cor
-0.5330018
2. Dados os valores x=(-2,-1,0,1,2) e y=(-8,-1,0,1,8) calcule o coeficiente de
correlacao amostral. Teste a hipotese de nao haver correlacao linear. Qual
a sua conclusao notando que yi = x3i ?
7.3. PROBLEMAS
125
E REGRESSAO
CAPITULO 7. CORRELAC
AO
126
Ni
5.2
5.0
6.8
7.5
2.5
5.0
7.5
7.0
8.0
4.0
Cr
16,8
20,0
14,2
17,5
10,1
15,5
13,8
18,2
13,0
15,0
Ni
4,5
5,4
8,8
18,0
6,2
20,5
10,0
4,0
4,4
15,9
Cr
15,5
13,0
12,5
20,2
12,5
13,5
17,8
12,8
12,2
13,0
profundidade x 12.4 11.4 10.7 11.6 11.3 10.7 11.1 12.8 13.3
13.3 14.1 13.4 13.5 13.3 14.4 14.1 15.3 14.0
(a) Faca o grafico desses dados com profundidade da lamina dagua no
eixo x.
(b) Calcule o coeficiente de correlacao, r e interprete o resultado obtido.
(c) Qual proporcao da variabilidade em angulo de inclinacao pode ser
explicada por profundidade da lamina dagua?
7.4
Regress
ao
7.4. REGRESSAO
127
60
30
40
50
pesos
70
80
90
que descreve esta relacao. Aqui estudaremos somente o caso em que esta relacao
e descrita por uma funcao linear. Veremos primeiro o caso particular de duas
variaveis.
Por exemplo, se conhecemos a altura de um indivduo, mas nao o seu peso,
qual seria um bom chute para o peso deste indivduo? O coeficiente de correlacao apenas indica a grau de associacao como um u
nico n
umero. Suponha que
dispomos de amostras de alturas x1 , . . . , xn e pesos y1 , . . . , yn de n indivduos.
Por enquanto vamos ignorar se eles sao do sexo masculino ou feminino. Se estamos interessados em predizer o peso a partir da altura entao nao temos uma
relacao simetrica entre as duas variaveis. Chamamos peso de vari
avel resposta ou
dependente, e altura de variavel explicativa, preditora, regressora ou independente.
Em um grafico de pontos os valores da variavel resposta (y) sao em geral
dispostos no eixo vertical, e da variavel explicativa (x) no eixo horizontal. Por
exemplo, na Figura 7.3 temos 30 observacoes de pesos e alturas de indivduos
selecionados aleatoriamente em uma populacao.
140
150
160
170
180
alturas
E REGRESSAO
CAPITULO 7. CORRELAC
AO
128
aquela que forneca pequenas diferencas entre os pesos observados (yi ) e aqueles
dados pela reta para as alturas correspondentes. Estas diferencas (ou erros) sao
entao dadas por
yi xi
55
60
65
70
75
80
150
160
170
180
Parece razoavel tentar minimizar alguma funcao destes erros. Em geral nao
importa se as diferencas sao positivas ou negativas e todas elas tem o mesmo grau
de importancia. Assim, uma funcao que pode ser minimizada e
n
X
S(, ) =
(yi yi )2
i=1
n
X
(yi xi )2
i=1
e ,
Igualando a zero a primeira derivada de S(, ) em relacao a e e resolvendo
para
e nao e difcil verificar que a melhor reta segundo este criterio de
1
Outras func
oes dos erros podem ser consideradas, e.g. soma dos erros absolutos, erro
absoluto maximo, etc.
7.4. REGRESSAO
129
P
=
= P 2
= 2
2
(xi x)
x n
x2
sx
= y x.
(7.1)
As condicoes de segunda ordem tambem devem ser verificadas para garantir que
este e um ponto de mnimo. Note que pode reescrito como
sy
sy sxy
=r
=
2
sy sx
sx
e assim o coeficiente de correlacao amostral pode ser obtido a partir da reta
estimada.
Exemplo 7.3 : Suponha que para o exemplo das alturas e pesos de indivduos
obtivemos
= 51, 17 kg e = 0, 68 kg/cm. Entao a reta de regressao estimada
e dada por
y = 51, 17 + 0, 68x.
O valor estimado de (0,68) pode ser interpretado como o aumento medio (ou
aumento esperado) no peso quando a altura aumenta de 1cm. O valor estimado
de (-51,17) nao possui qualquer significado ja que neste caso nao faz sentido
incluir o ponto x = 0. Esta reta ajustada e uma estimativa da reta de regressao
populacional (desconhecida), y = + x.
O proximo passo e construir intervalos de confianca e testar hipoteses para
e , mas para fazer isto precisamos pensar mais cuidadosamente sobre nossas
suposicoes acerca da populacao.
7.4.1
Modelo de regress
ao linear simples
Este e o modelo mais simples para descrever a relacao entre uma variavel explicativa x e uma variavel resposta y. O modelo faz a seguintes suposicoes, em ordem
decrescente de importancia:
1. o valor medio da variavel resposta e uma funcao linear de x,
2. a variancia de y e constante, ou seja e a mesma para todos os valores de x,
3. a variacao aleatoria de y para qualquer valor fixo de x segue uma distribuicao normal, e estes termos de erro sao independentes.
E REGRESSAO
CAPITULO 7. CORRELAC
AO
130
(7.2)
7.4.2
Estimando os par
ametros do modelo
= y x.
=
(yi
x
n 2 i=1
n
7.4. REGRESSAO
60
30
40
50
peso
70
80
90
131
130
140
150
160
170
180
190
altura
=
n2
2
Sy2
2
Sxy
2
Sx
(7.3)
Exemplo 7.4 : Para os dados de alturas (x) e pesos (y) na Figura 7.3, sabendose que as medias amostrais sao x = 164, 3 e y = 66, 7, as variancias amostrais sao
Sx2 = 91 e Sy2 = 81 e a covariancia amostral e Sxy = 52, 6 segue que as estimativas
dos coeficientes sao
= 52, 6/91 = 0, 58
e
=
81
= 52, 4.
28
91
Um grafico dos dados com a reta ajustada e dado na Figura 7.5
O ajuste da reta nao parece tao bom. Existem dois pontos bem distantes da
reta ajustada, que parecem ter tido uma grande influencia no ajuste. Na pratica
e aconselhavel investigar a acuracia destes valores e/ou verificar quanto muda a
reta ajustada quando estes pontos sao removidos.
E REGRESSAO
CAPITULO 7. CORRELAC
AO
132
7.4.3
Usualmente e de interesse saber qual a precisao nas estimativas de e principalmente de . Para construir intervalos de confianca e testar hipoteses usaremos
as seguintes estatsticas
s P
!
qX
n (xi x)2
P 2
e
(xi x)2
.
xi
Ambas tem distribuicao t de Student com n 2 graus de liberdade e as demonstracoes sao omitidas. Assim, podemos construir intervalos de confianca obtendo
o valor de t na tabela apropriada
s
P 2
xi
t
.
e pP
2
n (xi x)
(xi x)2
Geralmente estamos interessados em testar as hipoteses
H0 : = 0
H1 : 6= 0
ou seja, de que nao exista relacao entre x e y. Nesse caso, apos observar os dados
calcula-se o valor da estatstica de teste sob H0
!
qX
t=
(xi x)2
7.4. REGRESSAO
7.4.4
133
Transforma
c
oes de dados
7.4.5
Representa
c
ao Matricial
y1
1 x1
1
..
.. ..
..
y = . X = . . =
=.
yn
1 xn
n
podemos reescrever o modelo como y = X + . Esta representacao sera u
til
quando mais variaveis explicativas forem introduzidas.
7.4.6
Problemas
134
E REGRESSAO
CAPITULO 7. CORRELAC
AO
EP
2.1616
0.2417
estatistica t
1.756
-3.062
P-valor
0.09001
0.00482
7.4. REGRESSAO
135
x 2,8 3,2 3,3 5,1 5,9 6,0 7,9 10,2 10,8
y 11,2 14,0 12,6 8,2 7,0 4,2 2,6 1,8 3,2
P9
i=1
xi yi = 299.52,
P9
i=1
x2i = 408.88 e
3Q
1.4546
Max
2.7154
Coefficients:
Estimate Std. Error t value
(Intercept) 15.7406
1.7026
9.245
x
-1.3925
0.2526 -5.513
--Signif. codes: 0 *** 0.001 ** 0.01
Pr(>|t|)
3.58e-05 ***
0.000894 ***
* 0.05 . 0.1 1
E REGRESSAO
CAPITULO 7. CORRELAC
AO
136
7.5
Regress
ao Linear M
ultipla
Dada uma variavel dependente y e k variaveis explicativas x1 , . . . , xk e n observacoes destas variaveis o modelo de regressao linear m
ultipla e dado por
yi = + 1 xi1 + + k xik + i ,
i = 1, . . . , n.
(7.4)
Em palavras,
y = combinacao linear dos X 0 s + erro.
Os erros i representam desvios (supostos independentes) da relacao linear
entre y e x1 , . . . , xk e assume-se que i N (0, 2 ). Equivalentemente,
yi |xi1 , . . . , xik N ( + 1 xi1 + + k xik , 2 ).
Aqui cada coeficiente j representa o efeito de xj sobre y quando todas as outras
variaveis sao mantidas constantes. Neste caso temos k + 2 parametros a serem
estimados.
Exemplo 7.6 : Em um problema de regressao com uma variavel resposta y e
3 variaveis explicativas x1 , x2 , x3 podemos investigar o grau de associacao entre
cada par de variaveis atraves de graficos de dispersao como na Figura 7.6. Parece
haver alguma associacao linear entre y e cada uma das variaveis explicativas, e
um modelo de regressao linear m
ultipla levara em conta todas estas correlacoes
simultaneamente.
Exemplo 7.7 : Um fabricante de borrachas (de apagar lapis) tem interesse em determinar a perda de abrasividade apos certo tempo de uso, porem
esta variavel e muito cara de ser medida diretamente. Uma sada e tentar medi-la indiretamente a partir de outras variaveis e para isto foi coletada uma amostra de 30 borrachas aonde foram medidas as variaveis Perda de
abrasividade, Dureza e Resistencia `a tensao. Os dados estao disponveis em
http://www.stats.bris.ac.uk/ peter/Teach/LM. O grau de associacao entre
as variaveis pode ser investigado atraves das Figuras 7.7 e 7.8.
Para usar a representacao matricial em regressao m
ultipla, i.e. y = X +
LINEAR MULTIPLA
7.5. REGRESSAO
10
10 5
10
0 10
10 5
137
10
20
10
10 5
x1
10
10 5
x2
10 5
x3
20
10
10 5
10
1 x11 x1k
..
X = ... ...
.
1 xn1 xnk
1
=.
..
1
..
= . .
n
=
(yi
1 xi1 k xik )2 .
n k 1 i=1
2
hj
E REGRESSAO
CAPITULO 7. CORRELAC
AO
138
60
70
80
90
250
350
50
70
80
90
50
150
Abrasividade
200
240
50
60
Dureza
120
160
Tensao
50
150
250
350
120
160
200
240
hj .
n
X
|i=1 {z
(yi y) =
|i=1 {z
SQT
n
X
|i=1 {z
(
yi y) +
SQReg
(yi yi )2
}
SQR
sendo
SQT: a soma de quadrados total (a variabilidade total em y).
SQReg: a soma de quadrados da regress
ao (a variabilidade em y induzida
LINEAR MULTIPLA
7.5. REGRESSAO
250
50
0
100
120
140
160
180
200
220
Dureza
200
150
90
80
70
60
50
40
100
Abrasividade
300
350
400
139
240
Tensao
O ajuste sera tanto melhor quanto mais proximo a SQReg estiver da SQT, ou
equivalentemente quanto menor for a SQR. Uma forma de medir isto e atraves
do chamado coeficiente de correlac
ao m
ultipla denotado por R2 e definido como
P
SQReg
(
yi y)2
SQR
2
R =
=1
=P
(yi y)2
SQT
SQT
sendo que 0 R2 1. Quanto mais proximo de 1 melhor e o ajuste do modelo.
Exemplo 7.8 : Para um conjunto de 100 observacoes foi ajustando um modelo
de regressao usando um pacote estatstico e obteve-se os resultados abaixo.
Estimativa EP
Intercepto 0.19
0.09
x1
-1.51
0.51
x2
2.23
1.21
x3
-1.25
1.01
sigma: 0.9695 com 96 graus
correla
c~
ao multipla: 0.68
estatistica t
2.11
-2.96
1.84
-1.24
de liberdade
p-valor
0.03746
0.00387
0.06842
0.218
140
E REGRESSAO
CAPITULO 7. CORRELAC
AO
(1 R2 )(n 1)
.
nk
O Teste F
Suponha agora que queremos testar a hipotese mais geral de que nao existe qualquer relacao linear entre a variavel dependente e as regressoras no seu modelo.
Este teste pode ser formulado como
H0 : 1 = 2 = = k = 0
H1 : ao menos um coeficiente e nao nulo.
ou seja os coeficientes de todas as regressoras sao conjuntamente iguais a zero. A
estatstica de teste neste caso e
F =
SQReg/k
.
SQR/(n k + 1)
e SQR = (1 R2 )SQT.
n k + 1 R2
.
k
1 R2
7.6. PROBLEMAS
141
100 3 + 1 0, 68
= 69, 41667
3
0, 32
Efeito de Intera
c
ao
Considere o seguinte modelo de regressao linear com duas variaveis regressoras
y = 0 + 1 x1 + 2 x2 + 3 x1 x2 + .
Neste modelo, x1 x2 representa a interac
ao entre as variaveis independentes x1 e
x2 . Se a interacao e significativa, i.e. rejeitamos a hipotese 3 = 0, entao, o efeito
de x1 na resposta media depende do nvel de x2 e, analogamente, o efeito de x2
na resposta media depende do nvel de x1 .
A interpretacao dos coeficientes da regressao agora fica
Quando x2 e mantida constante, a cada mudanca de uma unidade em x1 ,
a mudanca na resposta media sera 1 + 3 x2 .
Quando x1 e mantida constante, a cada mudanca de uma unidade em x2 ,
a mudanca na resposta media sera 2 + 3 x1 .
7.6
Problemas
p-valor: 1.767e-11
142
E REGRESSAO
CAPITULO 7. CORRELAC
AO
4. Em um conjunto de dados economicos para 50 pases temos os valores medios para o perodo 1960-1970 das seguintes variaveis: Renda per capita
(Renda), Taxa de crescimento da renda per capita (Taxa), Poupanca agregada dividida pela renda disponvel (PoupR), percentual da populacao
abaixo dos 15 (Pop15) e acima dos 75 anos (Pop75). Interprete o resultado
abaixo de um modelo de regressao linear tendo a variavel PoupR como
resposta e as outras como regressoras. Estes dados estao disponiveis em
http://www.maths.bath.ac.uk/ jjf23/LMR.
Estimativa
Intercepto 28.566
Pop15
-0.461
Pop75
-1.691
Renda
-0.000
Taxa
0.409
E.P. Estatistica t
7.35
3.884
0.14
-3.189
1.08
-1.561
0.00
-0.362
0.19
2.088
p-valor
0.000334
0.002603
0.125530
0.719173
0.042471
p-valor: 0.0007904