Vous êtes sur la page 1sur 13

DADOS BIVARIADOS.

CORRELAO E REGRESSO

______________________________________________________________________________
_

Captulo 4

DADOS BIVARIADOS
CORRELAO E REGRESSO

4.1 - Introduo
Por vezes o que se pretende estudar da Populao no uma caracterstica isolada,
mas duas ou mais caractersticas que se supe relacionadas entre si. No caso de se
pretender estudar duas caractersticas conjuntamente, os valores observados aparecem
sob a forma de pares de valores, isto , cada indivduo ou resultado experimental
contribui com um conjunto de dois valores. o que acontece, por exemplo, quando se
considera para cada aluno candidato ao Ensino Superior, a classificao interna final e a
nota do exame de uma disciplina. Outros exemplos so a altura e peso de alunos de
uma escola primria; as notas de Fsica e Matemtica dos alunos do 10 de uma dada
escola; as alturas de pais e filhos; o consumo de gasolina e a cilindrada de um carro,
etc. Ento, para estudar duas caractersticas conjuntas, recolhe-se uma amostra de
dados bivariados, a qual po-de ser representada da seguinte forma:
(x1, y1), (x2, y2), , (xi,yi), , (xn,yn)
Para representar e organizar este tipo de informao considera-se uma representao
grfica a que se d o nome de nuvem de pontos ou diagrama de disperso.
Diagrama de disperso - uma representao grfica para os dados
bivariados, em que cada par de dados (xi,yi) representado por um ponto
de coordenadas (xi,yi), num sistema de eixos coordenados.
Este tipo de representao muito til, pois permite realar algumas propriedades entre
os dados, nomeadamente no que diz respeito ao tipo de associao entre as variveis x
e y.

DADOS BIVARIADOS. CORRELAO E REGRESSO

______________________________________________________________________________
_

Consideremos alguns exemplos detalhadamente:


Exemplo 1: Com o objectivo de averiguar se a distncia atingida no salto em comprimento est relacionada com o peso dos estudantes, um Professor de Educao
Fsica seleccionou aleatoriamente 11 estudantes do sexo masculino para uma prova,
tendo obtido os seguintes resultados:
Salto
(cm) 187.5 182.5 214.0 147.0 167.0 157.5 170.0 198.5 145.0 166.5 189.0
Peso
(Kg) 59.6 69.2 61.8 67.0 59.6 54.0 42.7 68.0 66.9 65.8 64.5
Que pode ele concluir? Note-se que aqui no estamos interessados no estudo estatstico de uma caracterstica da populao isoladamente, mas sim no modo como uma
caracterstica da populao (a distncia do salto em comprimento) est relacionada com
outra caracterstica da mesma populao (o peso).
Para melhor compreendermos estes dados podemos fazer a representao grfica adequada, obtendo uma nuvem de pontos, em que representamos nas ordenadas a varivel de interesse (distncia atingida no salto em comprimento) e em abcissa a varivel

salto (cm)

explicativa (peso do estudante).

240
220
200
180
160
140
120
40

50

60

70

peso (kg)

Observamos que no h uma relao clara entre estas duas caractersticas. A nuvem de
pontos encontra-se bastante dispersa. Diz-se que ento as duas caractersticas esto
fracamente correlacionadas. No de esperar que o facto de sabermos o peso do aluno
nos indique de algum modo a distncia que ele vai saltar. Pode ser pesado e saltar
bastante, como pode saltar pouco.

DADOS BIVARIADOS. CORRELAO E REGRESSO

______________________________________________________________________________
_

Exemplo 2: Um grupo de investigadores est interessado em saber se nas futuras mes


o nvel de uma protena se altera (e no caso afirmativo, de que modo) ao longo da
gravidez. Seleccionou-se para o estudo 19 mulheres saudveis, todas em estado
diferente de gravidez (tempo de gestao), e mediu-se o nvel de protena em cada uma
delas, tendo-se obtido os seguintes resultados (Bowman et al. 1987):
nvel de
protena

Gestao
(semanas)

nvel de
protena

Gestao
(semanas)

nvel de
protena

Gestao
(semanas)

nvel de
protena

Gestao
(semanas)

0.38
0.58
0.51
0.38
0.58

11
12
13
15
17

0.67
0.84
0.56
0.78
0.86

18
19
21
22
25

0.65
0.74
0.83
0.99
0.84

27
28
29
30
31

1.04
0.92
1.18
0.92

33
34
35
36

O objectivo desta experincia averiguar como que uma varivel (nvel de protena)
afectada por uma outra varivel (tempo de gestao). Se representarmos estes dados
graficamente atravs da nuvem de pontos vemos claramente que o nvel da protena
aumenta com o tempo de gestao. Podemos traar uma recta no grfico de modo que
os pontos se encontrem prximos da recta e bem distribudos para um lado e outro dela.
Diz-se ento que as variveis esto positivamente correlacionadas. pois de esperar
que se consiga saber, atravs do tempo de gestao, qual o nvel provvel de protena
no sangue.

nv el de protena

1.2
1
0.8
0.6
0.4
0.2
0
0

10

20

30

40

tempo de gestao (semanas)

Exemplo 3: Recolheram-se amostras de solo do esturio do rio Tejo a 8 profundidades


distintas e mediram-se os respectivos graus de humidade (gramas de gua/ 100g solo)
obtendo-se os seguintes resultados (Davis, 1973):

DADOS BIVARIADOS. CORRELAO E REGRESSO

______________________________________________________________________________
_

Profundidade (cm)
Humidade (gr. gua/

150

300

450

600

750

900

1050

124

78

54

35

30

21

22

18

100g solo)

Humidade

Representando os dados graficamente obtm-se:


140
120
100
80
60
40
20
0
0

500

1000

1500

Prof undidade

Observamos que quando a profundidade aumenta, a humidade diminui. Diz-se, neste


caso, que as duas variveis, esto negativamente correlacionadas, pois variam em sentidos opostos.

4.2 - Coeficiente de correlao linear


O grau de associao linear entre duas variveis traduzido matemticamente por uma
estatstica a que se d o nome de correlao linear, ou coeficiente de correlao linear,
a qual se representa geralmente por r . Se representarmos por
vaes correspondentes a uma das variveis e por

xi os valores das obser-

yi os valores das observaes cor-

respondentes outra varivel, ento o coeficiente r obtm-se atravs da expresso,


n

(x

x )(y i y )

i 1

(xi x ) 2
i1

(y

y )2

i 1

onde x a mdia das observaes xi e y a mdia das observaes yi .


Prova-se que o valor desta estatstica est entre -1 e 1.

xi x , ento tambm
se espera ter, em geral, yi y , e que quando xi x , tambm yi y , o que faz com
Note-se que quando as variveis variam no mesmo sentido, se

DADOS BIVARIADOS. CORRELAO E REGRESSO

______________________________________________________________________________
_

que o produto no numerador seja, em geral, positivo. O caso r >0 corresponde assim
situao em que as variveis variam no mesmo sentido, isto , esto positivamente
correlacionadas.
Quando as variveis variam em sentido contrrio, ento valores positivos da diferena
entre

xi e x , aparecem associados, em geral, a valores negativos da diferena entre yi

y e vice-versa, o que faz com que o produto no numerador venha negativo. Assim, o
caso r <0 corresponde situao em que a variao em sentidos opostos, ou seja as
e

variveis esto negativamente correlacionadas.


O caso r = 0 corresponde situao em que aquele produto tende a ter valores quer
positivos, quer negativos. Isto acontece quando um valor positivo ou negativo da

xi e x , aparece associado com valores quer positivos quer negativos da


diferena entre yi e y . Diz-se ento que as variveis no esto correlacionadas.
diferena entre

Os valores extremos da correlao, r =1 ou -1, correspondem situao em que os


valores das variveis se encontram sobre uma recta com declive positivo ou negativo.
Nos exemplos apresentados os valores da estatstica r so:
- r = 0.077 para o 1 exemplo traduzindo uma muito fraca associao entre o
peso dos estudantes e a distncia conseguida no salto em comprimento;
- r = 0.86 para o 2 exemplo, traduzindo uma forte associao positiva entre o
tempo de gestao e o nvel da protena no sangue;
- r = - 0.891 para o 3 exemplo traduzindo uma forte associao negativa entre
a humidade e a profundidade.
Observao: A expresso do coeficiente de correlao aqui apresentada como mera
informao para os Professores. Os alunos devem obter os valores dos coeficientes de
correlao para vrias situaes atravs da mquina de calcular. O que se pretende
que eles apenas relacionem o valor de r com o grau e o tipo de associao linear existente entre as variveis em estudo.
tambm importante frisar que o coeficiente de correlao traduz apenas o grau de
relao linear existente entre duas variveis. O facto de o coeficiente de correlao ser
zero, no implica que as variveis no estejam relacionadas. Com efeito, no exemplo

DADOS BIVARIADOS. CORRELAO E REGRESSO

______________________________________________________________________________
_

que se segue, r = 0 e, no entanto, as variveis


determinstica no linear

x
y

-3
0

-2

x y 9

-1

x e y esto relacionadas pela relao

3
0

y
3
2
1
-4

-2

4.3 - Recta de regresso


Quando a correlao entre duas variveis elevada (quer seja positiva, quer seja negativa), isso significa que se conhecermos o valor de uma das variveis ento possvel
ter uma ideia do valor que a outra varivel ir tomar. Em linguagem estatstica, diz-se
que podemos inferir o valor da outra varivel.
Assim, voltando ao exemplo da protena, consideremos uma senhora grvida com 24
semanas de gestao. Qual ser o valor que o nvel de protena deve apresentar?
Para respondermos a esta questo podemos construir uma recta que "melhor" aproxime
os pontos que constituem a nuvem de pontos. Claro que h muitas rectas possveis. Um
dos critrios mais usados para definir esta recta, o de tornar mnima a soma dos
quadrados dos desvios dos pontos em relao recta 11. Essa recta a chamada recta
de regresso (dos mnimos quadrados). Matematicamente pode-se encontrar essa recta.
Prova-se que ela passa pelo centro de gravidade da distribuio, isto , pelo ponto

(x , y ) e que o declive est relacionado com o coeficiente de correlao e tem o mesmo


sinal.

11Designamos por desvio no ponto de abcissa xi

diferena entre o valor observado

yi

eo

valor correspondente sobre a recta.

DADOS BIVARIADOS. CORRELAO E REGRESSO

______________________________________________________________________________
_

Para o exemplo da protena, a recta de regresso : y 0.023 x +0.0202.


Construda a recta, podemos responder pergunta formulada. O valor que inferimos
para o nvel da protena correspondente a 24 semanas de gravidez o valor sobre a

nv el de protena

recta correspondente a

xi =24, isto 0.754:

1.2
1.1
1
0.9
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0
0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36
tempo de gestao (semanas)

Sugestes didcticas e comentrios


Haver alguma relao entre o nmero de mdicos e a taxa de mortalidade infantil?
primeira vista, parece que sim. provvel que quanto mais mdicos houver, menos
crianas morram no primeiro ano aps o nascimento. Para investigar se esta hiptese
est correcta, recolheram-se os dados referentes a alguns pases (Anurio Estatstico,
Planeta De Agostini, 1994).
Pas
Blgica
Honduras
Iro
Mxico
Nicargua
Peru
Polnia
Portugal
Qunia
Romnia
Uruguai
Venezuela

Mdicos por
Taxa de mortalidade
10000 habitantes infantil (por 1000
nados vivos)

15.38
2.65
3.06
6.75
4.65
5.21
14.29
9.01
1.25
11.90
10.99
8.93

8
49
68
36
56
53
15
11
67
27
21
34

DADOS BIVARIADOS. CORRELAO E REGRESSO

______________________________________________________________________________
_

A representao destes dados num grfico de correlao vai permitir-nos visualizar a


situao. Usando uma calculadora grfica, isso pode ser feito rapidamente.
Introduzimos os dados referentes ao nmero de mdicos por 10000 habitantes
numa lista (L1) e a taxa de mortalidade infantil noutra (L2).
Se quisermos, embora no seja necessrio, podemos ordenar os dados, relativamente ao nmero de mdicos, fazendo:
STAT 3:SortD(...
L1,L2
STAT 1:Edit...

Os dados ficam por ordem decrescente da lista 1. Repare-se que os valores


correspondentes das duas listas continuam associados porque, ao dar a instruo
SortD(L1,L2), a mquina ordenou a lista 1, alterando ao mesmo tempo a lista 2.
Para obter a nuvem de pontos fazemos:
STAT PLOT 1:Plot1
Regulamos o grfico
ZOOM 9:ZoomStat

DADOS BIVARIADOS. CORRELAO E REGRESSO

______________________________________________________________________________
_

V-se claramente que existe uma correlao negativa. Os pontos dispem-se de tal modo que, genericamente,
ao aumento de uma varivel corresponde a diminuio da
outra.
Vamos agora procurar a recta de regresso e o coeficiente de correlao r.
STAT CALC 4:LinReg
L1,L2,Y1
ENTER

GRAPH
Ao pedirmos LinReg(ax+b) L1,L2,Y1 a mquina no
s determina a equao da recta de regresso como tambm
a coloca imediatamente no editor de funes. Assim, se agora pedirmos o grfico, vamos ter a nuvem de pontos e a
recta de regresso.
A equao da recta , usando valores aproximados, y = 4.165x + 69.73.
A correlao relativamente forte. O seu coeficiente r 0.911.
Se nos disserem que num pas h 13 mdicos por 10000 habitantes, qual ser a
sua taxa de mortalidade infantil?
Para encontrar a correlao entre as duas variveis, s usmos os valores referentes a 12 pases e no sabemos se eles so uma amostra representativa da populao. Se tivermos a certeza que sim, ento podemos usar a recta de regresso para
encontrar um valor aproximado da taxa de mortalidade infantil:
y = 4.165 13 + 69.73 15.6
de prever que a taxa de mortalidade infantil seja prxima de 16.

DADOS BIVARIADOS. CORRELAO E REGRESSO

______________________________________________________________________________
_

4.4 - Anlise preliminar dos dados, antes de construir a recta de


regresso
Para avaliar da necessidade de uma anlise cuidada dos dados antes da obteno da
recta de regresso consideremos o seguinte exemplo (Sen et al., 1990, pg 24).
Exemplo: Fez-se um estudo para averiguar a relao existente entre o nmero de veculos roubados por cada mil habitantes e a densidade populacional na cidade de Chicago. Seleccionaram-se, para o efeito, 18 distritos dessa cidade. Registou-se, para cada
distrito, a sua densidade populacional (DP) e o nmero de veculos a roubados (NVR)
por cada mil habitantes, tendo-se obtido os seguintes resultados:

10

10

DP
3235
24182
20993
15401
19749
19487

NVR
132.8
14.9
16.7
20.0
14.2
13.5

DP
19581
14077
18137
22919
24534
24987

NVR
16.5
22.2
15.8
13.3
15.1
16.2

DP
21675
22315
18402
33445
27345
15358

NVR
12.5
11.8
19.6
10.5
10.1
19.0

O coeficiente de correlao -0.74 e a recta de regresso de mnimos quadrados


NVR = 88.195 - 0.00326 DP
Se fizermos a representao grfica destes dados vemos que h um distrito que tem um
comportamento totalmente diferente dos outros.

N v eculos roubados

140
120
100
80
60
40
20
0
0

10000

20000

30000

40000

Densidade populacional

O 1 distrito que aparece na tabela tem uma densidade populacional muito baixa, mas
um elevado nmero de veculos roubados. Uma averiguao mais cuidada levou concluso que aquele distrito correspondia ao Centro de Chicago, uma rea essencialmente
de comrcio e de escritrios, e consequentemente uma rea em que a densidade de
veculos no tem a ver com a densidade populacional. Este distrito no deveria ter sido
includo na amostra. Assim, retirando este distrito, podemos construir uma nova recta de
regresso. Obtm-se agora a recta
NVR = 27.36 -0.00056 DP
sendo o coeficiente de correlao -0.79.

N v eculos roubados

25
20
15
10
5
0
0

10000

20000

30000

40000

Densidade populacional

Repare-se na alterao verificada. As concluses extradas de uma recta e de outra podem ser bem diferentes. Por exemplo, se considerarmos o valor de 15401 para a densidade populacional, que um dos valores tabelados, o valor previsto para o nmero de
carros roubados, utilizando a primeira recta de regresso 38.0, enquanto que o previsto pela segunda recta de regresso 18.7, bem mais prximo de 20 (valor observado).

N v eculos roubados

40
35
30
25
20
15
10
5
0
0

10000

20000

30000

40000

Densidade populacional

As consideraes anteriores levam-nos a concluir que a recta de regresso no


resistente, pois muito influenciada por valores estranhos- outliers, da amostra (o facto
da determinao da recta de regresso estar ligada ao ponto (x , y ) , conduz-nos
imediatamente concluso anterior, pois como sabemos a mdia no uma medida
resistente).

Da a necessidade de analisar cuidadosamente os dados, antes de se

proceder a uma anlise de regresso.

Sugestes didcticas e comentrios


A tabela seguinte apresenta 3 conjuntos de dados A, B e C, preparados pelo estatstico
Frank Anscombe, para ilustrar os perigos de calcular medidas sem primeiro representar
os dados. Os conjuntos de dados A, B e C tm a mesma correlao e a mesma recta de
regresso (Moore, 1995):
A
x
y
B
x
y
C
x
y

10
8.04

8
6.95

13
7.58

9
8.81

11
8.33

14
9.96

6
7.24

4
4.26

12
7
10.84 4.82

5
5.6

10
9.14

8
8.14

13
8.74

9
8.77

11
9.26

14
8.10

6
6.13

4
3.10

12
9.13

7
7.26

5
4.74

8
6.58

8
5.76

8
7.71

8
8.84

8
8.47

8
7.04

8
5.25

8
5.56

8
7.91

8
6.89

19
12.50

a) Calcule o coeficiente de correlao e a recta de regresso para cada um dos


conjuntos de dados e verifique que so iguais.
b) Para cada um dos conjuntos de dados faa o diagrama de pontos e represente a
recta de regresso.
c) Em qual das situaes acha que pode utilizar a recta de regresso para predizer y
para x=13.5? Justifique a resposta.

Vous aimerez peut-être aussi