Académique Documents
Professionnel Documents
Culture Documents
ndice
1. Viso geral ................................................................................................................ 4
2. Correlaes e associaes ....................................................................................... 5
1. Introduo .............................................................................................................. 5
2. Definio ................................................................................................................ 5
3. Estudo de caso parte I ........................................................................................ 5
4. Diagrama de disperso .......................................................................................... 6
5. Estudo de caso parte II ....................................................................................... 7
6. Observaes sobre diagramas de disperso......................................................... 8
7. Coeficiente de Correlao de Pearson (r).............................................................. 9
8. Estudo de caso parte III .................................................................................... 12
3. Modelo de Regresso Linear Simples ..................................................................... 14
1. introduo ............................................................................................................ 14
2. Mtodo dos Mnimos Quadrados conceitos gerais ........................................... 14
3. Mtodo dos Mnimos Quadrados formalizando um pouco ................................ 15
4. O Modelo de Regresso Linear ........................................................................... 16
5. Estudo de caso parte IV.................................................................................... 17
6. Coeficiente de determinao (r2) ......................................................................... 18
7. Estudo de caso parte V..................................................................................... 18
8. Exemplo ............................................................................................................... 19
9. Estudo de caso parte VI e concluses gerais ................................................... 22
Concluses gerais sobre nosso estudo e observaes gerais importantes a
respeito da Regresso Linear .............................................................................. 22
10. Exerccios .......................................................................................................... 22
4. Teste t para o coeficiente de correlao ................................................................. 27
1. Introduo ............................................................................................................ 27
2. Teste de hiptese para a correlao populacional .............................................. 27
2.1. As hipteses do teste .................................................................................... 27
2.2. Graus de liberdade ........................................................................................ 28
2.3. A estatstica do teste ..................................................................................... 28
2.4. Concluso do teste........................................................................................ 28
3. Exemplo ............................................................................................................... 28
4.Correlao e casualidade ..................................................................................... 29
5. Exerccios ............................................................................................................ 30
Tabela t ....................................................................................................................... 32
Formulrio ................................................................................................................... 33
1. Viso geral
At o momento, a descrio e a inferncia estatstica foram tratadas em termos de
uma varivel somente. Assim, quando tnhamos uma amostra de empresas,
considervamos uma varivel por vez, como, por exemplo, o faturamento. Entretanto,
quando temos uma amostra de empresas, h vrias variveis que podem ser
observadas em cada unidade amostrada: nmero de empregados, salrios, rea etc.
No primeiro caso, cada unidade observada est associada com a medida de uma
varivel X; no segundo, cada unidade associada com as medidas de vrias
variveis, X, Y, W etc. No momento, vamos considerar o caso de duas variveis
(anlise bivariada). Prioritariamente, a anlise de regresso usada com o propsito
de previso. Nosso objetivo o de desenvolver um modelo estatstico que pode ser
usado para prever valores de uma varivel dependente (Y) em funo de valores
de uma varivel (X), ou mais variveis independentes.
Suponhamos dispor de uma amostra de n unidades, e, ainda, que, para cada
unidade, temos um par de valores das variveis X e Y (por exemplo, idade da casa e
aluguel). O grupo pode ser descrito, separadamente, quanto varivel X ou quanto
varivel Y, atravs das medidas j discutidas, tais como, mdias e desvios padres.
No entanto, agora temos interesse em estabelecer uma possvel relao funcional
(matemtica) entre as duas variveis e, se a relao for boa, us-la para fazer
previses. No caso do exemplo, nosso interesse ser estabelecer uma relao
matemtica (linear) entre as idades das casas (X) e os valores de aluguis (Y), e
dessa maneira prever valores de aluguis em funo das idades das casas.
2. Correlaes e associaes
1. Introduo
Suponha que o chefe de uma empresa queira determinar se existe uma relao entre
o nmero de horas de treinamento dado a um funcionrio e o nmero de acidentes
envolvendo o mesmo funcionrio. Ou ainda, que um psiclogo queira determinar se o
nmero de horas que uma pessoa dorme a noite tem relao com o tempo de reao
dessa mesma pessoa.
Frequentemente estamos expostos a dados originrios de pesquisas que informar
existir relaes entre duas coisas. Por exemplo:
- as atividades sedentrias (como assistir TV) esto associadas ao aumento de
obesidade e dos riscos de diabetes em mulheres;
- beber moderadamente reduz os riscos de doenas cardacas em homens;
- o tratamento imediato ajuda a retardar o progresso do glaucoma.
(Fonte: National Institutes of Health)
Estudaremos, a seguir, que tipo de relao, ou correlao, existe entre duas variveis
quantitativas e como determinar se a correlao significante.
2. Definio
Uma correlao uma relao entre duas variveis. Os dados podem ser
representados por pares ordenados (x,y), onde x a varivel independente e y a
varivel dependente ou resposta.
Temperatura (F)
18
20
21
23
27
30
34
39
57
60
64
65
68
71
74
77
5F-32
9
4. Diagrama de disperso
O grfico dos pares ordenados (x,y) chamado de diagrama de disperso. No
diagrama de disperso, os pares ordenados (x,y) so marcados no grfico como
pontos do plano cartesiano. A varivel independente x deve ser marcada no eixo das
abscissas (horizontal), enquanto que a varivel explicativa (ou dependente) y
marcada no eixo das ordenadas (vertical).
Um diagrama de disperso pode ser usado para determinar se existe uma correlao
linear (linha reta) entre duas variveis. A seguir, vemos alguns diagramas de
disperso que nos mostram vrios tipos de correlao.
Anos de Servio
2
4
5
6
8
25
Nmero de clientes
48
56
64
60
72
300
nmero de clientes
80
60
40
20
0
0
10
Anos de Servio
Observando o grfico, parece haver uma correlao linear positiva entre as variveis.
10
r<0
r=
n x i y i ( x i )( y i )
[n x
2
i
][
( x i ) n y i2 ( y i )
2
11
xi
yi
xi. yi
xi2
yi2
18
20
21
23
27
30
34
39
57
60
64
65
68
71
74
77
1026
1200
1344
1495
1836
2130
2516
3003
324
400
441
529
729
900
1156
1521
3249
3600
4096
4225
4624
5041
5476
5929
xi = 212
12
r=
=
n x i y i ( x i )( y i )
[n x
2
i
][
( x i ) n y
2768
3056..2624
2
i
8.14550 212.536
= 0,977
13
Yi = X i + + i
onde:
a inclinao da reta;
o intercepto da reta no eixo das ordenadas;
i o erro aleatrio de Y para a observao i.
Assim, a inclinao representa a mudana esperada de Y por unidade de X; isto ,
representa a mudana de Y (tanto positiva quanto negativa) para uma particular
unidade de X. Por outro lado, representa o valor de Y quando X = 0, enquanto i
representa uma varivel aleatria que descreve o erro de Y para cada observao i.
14
y i = ax i + b
onde:
y i o valor da previso de y para uma observao xi;
xi o valor de x para a observao i;
a o estimador de ;
b o estimador de .
O problema determinar os valores dos parmetros a e b, de modo que a reta se
ajuste ao conjunto de pontos, isto : estimar a e b de algum modo eficiente. H vrios
mtodos para encontrar as estimativas de tais parmetros, sendo mais eficaz o
Mtodo dos Mnimos Quadrados.
Como a reta desejada vai ser usada para fins de previso, razovel exigir que ela
seja tal que torne pequenos os erros dessa previso. Um erro de previso significa
a diferena entre um valor observado de y e o valor correspondente de y da reta. Isto
: tornar pequeno o erro: (y y ). Veja a ilustrao, para melhor compreender o que
se busca:
15
(y
i=1
y i ) = 0 , o mtodo utiliza a
n
(y
i=1
[y
i=1
y i ) 2
y i = a.x + b
onde:
a=
n x i y i x i y i
n x i2 ( x i )
com
16
b = y a.x
x=
y=
(mdia de X) e
(mdia de Y)
y
n
Cuidado!
x2
(x)2
y=
212
= 26,5
8
536
= 67
8
y
n
n x i y i x i y i
n x ( x i )
2
i
8.14550 212.536.
8.6000 (212)
2768
= 0,906
3056
17
5F-32
9
5(65,75-32)
9
=18,75C
18
8. Exemplo
A tabela abaixo apresenta valores que mostram como o comprimento de uma barra
de ao varia conforme a temperatura:
Temperatura (C)
Comprimento (mm)
10
1.003
15
1.005
20
1.010
25
1.011
30
1.014
Determine:
a) o coeficiente de correlao e a interpretao do valor obtido;
b) a reta ajustada atravs do Mtodo dos Mnimos Quadrados;
c) o grfico de disperso e da reta ajustada em um nico par de eixos;
d) o valor estimado do comprimento da barra para a temperatura de 18C;
e) o valor estimado do comprimento da barra para a temperatura de 35C;
f) o coeficiente de determinao e sua interpretao.
19
Resoluo
Inicialmente, verificamos que a varivel controlada a temperatura, e que o
comprimento varia em funo da temperatura medida. Neste caso, a varivel
independente X a temperatura; a varivel dependente Y o comprimento.
Vamos refazer a tabela dada verticalmente e calcularemos as medidas necessrias
para utilizarmos as frmulas:
Temperatura Comprimento
xi
yi
10
15
20
25
30
1003
1005
1010
1011
1014
= 100
= 5043
xi.yi
(xi)2
(yi)2
10030
15075
20200
25275
30420
100
225
400
625
900
1006009
1010025
1020100
1022121
1028196
x y
i
= 101000
2
i
= 2250
2
i
= 5086451
Observe a ltima linha da tabela: nela, j temos todos os elementos necessrios para
utilizarmos as frmulas anteriormente apresentadas.
n x i y i ( x i )( y i )
a) r =
[n x
2
i
( x ) ][n y ( y ) ]
2
2
i
5.101000 (100).(5043)
700
1250.406
700
507500
0,9826 .
x=
y=
n x i y i x i y i
n x ( x i )
2
i
100
= 20
5
5043
= 1008,6
5
20
comprimento
1012
1010
comprimento
1008
Previsto(a)
comprimento
1006
1004
1002
0
10
20
30
40
temperatura
21
10. Exerccios
1) Um grupo de pessoas fez uma avaliao do peso aparente de alguns objetos. Com
o peso real e a mdia dos pesos aparentes, dados pelo grupo, obteve-se a tabela:
Peso real (kg)
Peso aparente (kg)
18
10
30
23
42
33
62
60
73
91
97
98
120
159
11
13
14
14
19
18
19
15
22
22
28
17
30
24
31
22
34
24
37
25
22
207
553
204
391
200
1835
200
784
180
749
175
218
175
255
170
433
2,34
1,33
1,96
1,07
1,39
1,15
3,07
0,25
0,65
1,00
5,21
1,00
0,88
1,59
3,23
1,20
2,54
1,62
1,03
0,20
1980
34
1981
36
1982
36
1983
38
1984
41
1985
42
1986
43
1987
44
1988
46
Calcule:
a) o coeficiente de correlao;
Sugesto: para simplificar os clculos, substitua os anos pela varivel auxiliar, por exemplo:
xi = xi 1984 ou ainda xi = xi 1980.
b) a reta ajustada;
c) a produo estimada para 1989;
d) o coeficiente de determinao e uma interpretao.
6) A variao do valor da UPC, relativamente a alguns meses de 1995, deu origem
tabela:
Meses
Valores (R$)
mai.
10,32
jun.
10,32
jul.
11,34
ago.
set.
out.
11,34 11,34 12,22
23
nov.
12,22
38
350
42
325
50
297
56
270
59
256
63
246
70
238
80
223
95
215
110
208
= 11,34 ,
= 20,72 ,
x .y
i
= 22,13 ,
2
i
= 12,16 e
2
i
= 84,96 .
Determine:
a) o clculo do coeficiente de correlao.
b) a equao de regresso de Y em funo de X.
c) a equao de regresso de X em funo de Y.
9) Um gerente de marketing conduziu um estudo para determinar se h uma relao
entre o dinheiro gasto com a propaganda e as vendas da empresa (ambos em
milhares de dlares). Os dados so mostrados na tabela a seguir:
Gastos com a propaganda
Vendas da empresa
2,4
225
1,6
184
2,0
220
2,6
240
1,4
180
1,6
184
2,0
186
2,2
215
24
Respostas
1) r = 0,98
2) r = 0,89. Correlao linear positiva e forte.
3) a)
b) 0,427
c) Correlao linear positiva fraca.
4) a)
b) -0,030
c) No h correlao linear.
b)
y = 1,87x + 386,78
25
26
H0 : =0
Ha : 0
Se o teste indicar a rejeio da hiptese nula (H0), ento podemos concluir que
existe correlao significativa entre as variveis ao nvel de significncia .
Porm, se aceitarmos H0, isso indica que no h correlao significativa entre X e
Y. Logo, no faz sentido realizarmos o ajuste de uma reta de regresso para o
conjunto de dados.
27
r.n2
1r2
se tobs regio crtica ento rejeitamos H0, ou seja, existe correlao significativa;
se tobs regio crtica ento aceitamos H0, ou seja, existe no h correlao
significativa e, por isso, no devemos realizar o ajuste de reta.
3. Exemplo
Uma amostra revelou que o coeficiente de correlao entre o salrio e o nmero de
anos de escolaridade para um grupo de 20 pessoas de 0,78. Teste a hiptese de
existncia de correlao entre essas variveis ao nvel de 5%.
Nossas hipteses so:
H0 : =0
Ha : 0
r.n2 0,78.202
=
=5,288
1r2
2
10,78
28
0,025
0,025
2,101
RC
2,101
RC
tobs = 5,288
Como tobs RC, ento rejeitamos H0, ou seja, existe uma correlao entre as
variveis salrio e nmero de anos, ao nvel de 5% de significncia.
4.Correlao e casualidade
O fato de duas variveis serem fortemente correlacionadas no implica uma relao
de causa e efeito entre elas. Um estudo mais profundo usualmente necessrio para
determinar se h uma relao causal entre as variveis.
Se houver correlao significante entre duas variveis, o pesquisador deve considerar
as possibilidades a seguir.
1) H uma relao direta de causa e efeito entre as variveis?
Ou seja, X causa y? Por exemplo, considere a relao entre os gastos com propaganda e as vendas da empresa, discutida durante essa seo. razovel concluir
que gastar mais com propaganda ir resultar em mais vendas.
2) H uma relao de causa e efeito reversa entre as variveis?
Ou seja, y causa X? Por exemplo, uma pesquisa mostrou que conforme aumenta a
durao das erupes de gisers, maior o intervalo de tempo at que uma nova
erupo ocorra. Essas variveis tm uma correlao linear positiva e possvel
concluir que a durao de uma erupo afeta o tempo antes da prxima erupo.
Entretanto, tambm possvel que o tempo entre as erupes afete a durao da
prxima erupo.
3) possvel que a relao entre as variveis possa ser causada por uma terceira varivel ou talvez pela combinao de diversas outras variveis?
Por exemplo, considere os oramentos e os ganhos brutos dos 25 filmes mais caros
j produzidos pela Century Fox. Embora essas variveis tenham uma correlao
29
Por exemplo, embora seja possvel encontrar uma correlao significante entre o
nmero de espcies de animais que vivem em certas regies e o nmero de pessoas
que tem mais de dois carros nas mesmas regies, muito improvvel que as
variveis sejam diretamente relacionadas. A relao ocorre provavelmente por causa
da coincidncia.
Determinar quais dos casos acima vlido para o conjunto de dados pode ser difcil.
Por exemplo, considere o seguinte: suponha que uma pessoa tenha erupes
cutneas cada vez que come camaro em certo restaurante. A concluso natural
que a pessoa alrgica a camaro. Entretanto, depois de um estudo mais completo
de um alergista, descobre-se que essa pessoa no alrgica a camaro, mas ao tipo
de tempero usado pelo chef no camaro.
(Texto adaptado de Farber e Larson, Estatstica Aplicada, 4ed. So Paulo: Pearson, 2010, p. 405).
5. Exerccios
1) Sessenta e quatro estudantes foram submetidos a dois testes: Raciocnio Lgico e
Conhecimentos Gerais. Dos escores obtidos, foram calculadas as somas:
x = 169 ; y = 327 ; x2 = 1450 ; y2 = 2304 ; xy = 837.
5940
1,78
5340
1,93
6500
1,91
5100
1,59
5850
1,66
4800
1,50
5600
1,61
5890
1,70
3) O nmero de horas que 13 alunos passam estudando para um teste e suas notas
so apresentadas na tabela a seguir. H evidncia suficiente para concluir que h
uma correlao linear significativa entre os dados? Use: =0,01.
Horas gastas estudando
Nota no teste
0
40
1
41
2
51
4
48
30
4
64
5
69
5
73
5
75
6
68
6
93
7
84
7
90
8
95
Respostas
1) r = 0,033; rejeito H0, ou seja, existe correlao.
2) Ao nvel de 1%, no h evidncias de que haja correlao significativa entre o peso do veculo e a
variabilidade na distncia de frenagem.
3) Ao nvel de 1%, h evidncias de que a correlao linear seja significante entre o nmero de horas
estudados para um teste e a nota no teste.
31
Tabela t
32
Formulrio
Coeficiente de correlao de Pearson:
r=
n x i y i ( x i )( y i )
[n x
2
i
][
( x i ) n y i2 ( y i )
2
Regresso linear:
y i = a.x + b
a=
n x i y i x i y i
n x ( x i )
2
i
b = y a.x
tobs =
33
r.n2
1r2
x=
com
x
n
y=
g.l. = n2
y
n