Académique Documents
Professionnel Documents
Culture Documents
=
e
e o
f
f f
2
2
2
= 9,59 + 0,00 + 9,59 +1,92 + 0,35 + 0,49 + 5,76 + 0,89 + 12,19
2
= 40,78
Um valor grande de
2
indica associao entre as variveis, o que parece ser o caso do exemplo
considerado.
K. Pearson definiu uma medida de associao, baseada na Exp. 3, chamada coeficiente de contingncia,
dada por
,
n
C
+
=
2
2
Exp. 4
que se interpreta de forma anloga ao coeficiente de correlao , a ser definido mais adiante. Este
coeficiente assume valores entre 0 (correspondente a independncia) e um valor mximo menor do que 1.
O valor mximo de C depende do n
0
linhas (l) e do n
o
colunas (c ). Para evitar esse inconveniente,
costuma-se definir um outro coeficiente de associao, dado por
( )( )
,
1 1
2
=
c l
n
T
Exp. 5
que atinge valor mximo igual a 1(um) se n
o
linhas (l ) = n
o
colunas (c ).
UNID II . ANLISE BIDIMENSIONAL Jozemar Pereira Santos
Notas de aula - Estatstica III 39
Para o exemplo 3 temos para coeficientes de associao entre as variveis Notas do teste de qualificao
(X) e Desempenho no emprego (Y) :
( )( )
16 0
1 3 1 3
400 78 40
304 0
400 78 40
78 40
,
,
,
,
,
=
= =
+
= T T C C e
EXERCCIOS DE APLICAO:
Exerc 1. Se a anlise de uma tabela de contingncia mostra que h associao entre as duas variveis
qualitativas em estudo, a intensidade da relao pode ser avaliada pelo coeficiente de contingncia C. O
mximo valor que o coeficiente C pode assumir numa tabela de contingncia l x c , (onde l : n
o
de
nhas e c : n
o
de colunas), dado por li
,
t
t
C mx
1
= ) (
onde t = mnimo entre o n
o
de linhas (l ) e o n
o
de colunas (c )da tabela.
Verifique o mximo valor que C pode assumir no caso do exemplo 3, dado anteriormente.
Exer2. Em um estudo para determinar se h relao ou associao entre o padro de vesturio de
empregados de bancos e seu progresso profissional, uma amostra de tamanho n = 300 acusou os
resultados da tabela abaixo:
Velocidade do Desenvolvimento (Y)
Padro do Vesturio (X) Lento Mdio Rpido
Total ( )
Muito bem trajado 32 56 32
Bem trajado 28 69 22
Maltrajado 15 33 13
Total ( ) 75 158 67
Verifique se existe associao ou dependncia entre o padro de traje (X) e o desenvolvimento
profissional (Y). Em caso positivo, quantifique atravs de uma medida de associao.
UNID II . ANLISE BIDIMENSIONAL Jozemar Pereira Santos
Notas de aula - Estatstica III 40
4. ASSOCIAO ENTRE DUAS VARIVEIS QUANTITATIVAS
Podemos analisar conjuntamente duas variveis quantitativas X e Y, como no caso do estudo de duas
variveis qualitativas. De modo anlogo, a distribuio conjunta pode ser resumida em tabelas de dupla
entrada e, por meio das distribuies marginais, possvel estudar a associao das variveis. Algumas
vezes, para evitar um grande nmero de entradas, faz-se a grupamento dos dados marginais em intervalos
de classes, de maneira semelhante ao resumo feito no caso do estudo unidimensional. Entretanto, alm
desse tipo de anlise, as variveis quantitativas so passveis de procedimentos anliticos e grficos mais
refinados.
O DIAGRAMA DE DISPERSO
Um dispositivo bastante til para se verificar a associao entre duas variveis quantitativas (ou
entre dois conjuntos de dados), considerar o grfico ou diagrama de disperso, tomado sob os eixos
cartesianos XY, para n pares de valores (X
i
,Y
i
) i = 1, 2, . . ., n. Para efeito de entendimentos de
associao entre as duas variveis, consideremos a anlise conjunta das seguintes variveis abaixo:
a) Peso (X) e altura (Y) dos alunos do 1
perodo de Administrao;
b) Acuidade visual (Y) e idade(X) de um grupo de pessoas;
c) Renda familiar (X) e porcentagem dela (Y) gasta com alimentao;
d) Nmero de peas montadas (X) e resultado de um teste de ingls (Y) por operrio.
UNID II . ANLISE BIDIMENSIONAL Jozemar Pereira Santos
Notas de aula - Estatstica III 41
Como v-se, os diagramas de disperso para as variveis X e Y definidas nos itens de (a) a (d)
seriam apresentados como tal e, indicando que:
a) existe de uma associao linear positiva entre peso (X) e altura (Y) dos alunos;
b) existncia de uma associao linear negativa idade (X) e acuidade visual (Y) das pessoas
c) existncia de uma associao linear negativa entre renda (X) e % gastos (Y) com alimentao;
d) no existncia de associao entre n
o
de peas montadas (X) e resultado de teste de ingls (Y).
OBS:
i) Associao linear positiva indica que, quando a varivel X cresce Y tambm cresce (e vice-versa).
ii) Associao linear negativa indica que, quando X cresce Y decresce (e vice-versa).
A partir dos grficos de disperso apresentados, verificamos que a representao grfica das variveis
quantitativas ajuda muito a compreender o comportamento conjunto das duas variveis quanto
existncia ou no de associao entre elas.
Contudo, muito til quantificar essa associao. Existem muitos tipos de associao possveis, mas
aqui apresentaremos o tipo de relao mais simples, que a linear. Isto , iremos definir uma medida
que avalia quanto uma nuvem de pontos no diagram de disperso aproxima-se de uma reta. Esta
medida ser definida de modo a assumir valores no intervalo de 1 a +1.
O COEFICIENTE DE CORRELAO LINEAR - r de Pearson
Definio: Dados n pares de valores (x
1
, y
1
) , (x
2
, y
2
) , . . . , (x
n
, y
n
), denominaremos de coeficiente
de correlao entre as duas variveis X e Y, a seguinte medida
= =
|
|
.
|
\
|
|
|
.
|
\
| n
i
dp
y i
y
dp
x i
x
n
Y X corr
Y X
XY
r
1
1
) ( ) (
) , ( , satisfzendo -1 r
XY
+1. Eq. (1)
ou seja, r
XY
a mdia dos produtos dos valores ou escores padronizados das variveis.
A definio acima pode ser operacionalizada de modo mais conveniente pelas seguintes frmulas:
( ) ( )
(2) Eq. ou
(
|
.
|
\
|
|
.
|
\
|
=
=
2
2
2
2 2 2 2 2
Y Y n X X n
Y X XY n
r
y x n x
y x n
i
y
i
x
r
XY
y n
i i
XY
.
UNID II . ANLISE BIDIMENSIONAL Jozemar Pereira Santos
Notas de aula - Estatstica III 42
O numerador da Eq. (1) fornece o sinal ou sentido da correlao e d origem a uma medida bastante
usada e que definimos a seguir.
Definio: Dados n pares de valores (x
1
, y
1
) , (x
2
, y
2
) , . . . , (x
n
, y
n
), chamaremos de covarincia
entre as variveis X e Y a medida
( ) ( )
n
n
i
y
i
y x
i
x
Y X
=
=
1
) , cov( , ou seja, a mdia dos produtos dos valores centrados das
variveis.
Com essa definio, o coeficiente de correlao pode ser escrito como
) ( ) (
) , cov(
) , (
Y X
XY
dp dp
Y X
Y X corr r
= =
PROPRIEDADES DO COEFICIENTE DE CORRELAO LINEAR
1. Este coeficiente adimensional, logo no afetado pelas unidades adotadas.
Alm disso, apresenta duas propriedades que caracterizam a natureza da relao linear entre as
duas variveis. Uma o sinal (+ ou -) e a outra a magnitude.
2. O sinal o mesmo que o do coeficiente angular ou declividade de uma reta imaginria que se
ajusta aos dados se fossem traados num diagrama de disperso.
3. A magnitude indica quo prximo da reta imaginria esto os pontos individuais.
4. O valor de r [-1 , +1]. Se r = -1, dizemos que h uma correlao linear negativa perfeita e se
r = +1, uma correlao linear positiva perfeita. importante assinalar que um coeficiente de
correlao linear igual a zero (r = 0), no implica em ausncia de relao entre as duas variveis, e
sim h uma ausncia de relao linear entre elas.
UNID II . ANLISE BIDIMENSIONAL Jozemar Pereira Santos
Notas de aula - Estatstica III 43
Exemplo 4: Com o intuito de verificar uma associao entre as variveis nmero de anos de servio
(X) por nmero de clientes (Y), tomou-se uma amostra de 10 agentes de uma Cia. de seguros. Os
dados esto apresentados na tabela abaixo.
Agente Anos- servio N
o
de clientes X
2
Y
2
XY
A 2 48 4 2.304 96
B 3 50 9 2.500 150
C 4 56 16 3.136 224
D 5 52 25 2.704 260
E 4 43 16 1.849 172
F 6 60 36 3.600 360
G 7 62 49 3.844 434
H 8 58 64 3.364 464
I 8 64 64 4.096 512
J 10 72 100 5.184 720
Soma 57 565 383 32.581 3.392
a) Construa o diagrama de
disperso correspondente.
b) Determine o coeficiente
de correlao linear r de
Pearson.
a) Figura 4.3 Grfico de Disperso para Anos de servio (X)
e Nmero de clientes (Y)
Anos servio
12 10 8 6 4 2 0
N
m
e
r
o
c
l
i
e
n
t
e
s
80
70
60
50
40
b) Coeficiente de correlao linear - r de Pearson
( ) ( )
0,88 ou 0,8768
1715
=
=
(
XY XY
r
Y Y n X X n
Y X XY n
r
6585 581
2 2 2 2
,
indicando um moderado grau de linearidade positiva.
UNID II . ANLISE BIDIMENSIONAL Jozemar Pereira Santos
Notas de aula - Estatstica III 44
Para analisar dois conjuntos de dados podemos recorrer, tambm, aos mtodos utilizados
anteriormente para analisar um conjunto de dados, exibindo as anlises feitas separadamente, para
efeito de comparao. Por exemplo, podemos exibir os desenhos esquemticos (box-plots) ou
ramos-e-folhas para os dois conjuntos de observaes.
5. ASSOCIAO ENTRE VARIVEIS QUALITATIVAS E QUANTITATIVAS
Como informado na seo anterior, comum nessas situaes analisar o que acontece com a
varivel quantitativa dentro de cada categoria da varivel qualitativa. Essa anlise pode ser conduzida
por meio de medidas descritivas, histogramas, box-plots. Ilustraremos com um exemplo.
Exemplo 5 : Consideremos os dados do Quadro 1.1 (Unidade II), para os quais desejamos analisar o
comportamento dos salrios (S) dos funcionrios da Cia. fictcia Milsa dentro de cada categoria de
grau de instruo (Y), ou seja, investigar o comportamento conjunto das variveis S e Y.
Tabela 4.10 Medidas resumo para a varivel salrio (S), segundo grau de instruo, na Cia. Milsa.
Grau de Instruo n
s
dp(S)
S
(1)
Q
1
Q
2
Q
3 S
(n)
Fundamental 12 7,84 2,79 4,00 6,01 7,13 9,16 13,65
Mdio 18 11,54 3,62 5,73 8,84 10,91 14,48 19,40
Superior 6 16,48 4,11 10,53 13,65 16,74 18,38 23,30
Total 36 11,12 4,52 4,00 7,55 10,17 14,06 23,30
Figura 4.4 Box Plots de Salrio segundo Grau de Instruo
6 18 12 N =
Grau de Instruo (X)
Superior Mdio Fundamental
S
a
l
r
i
o
s
(
S
)
30
20
10
0
A leitura dos resultados acima sugere
uma dependncia dos salrios em
relao ao grau de instruo: o salrio
aumenta conforme aumenta o grau de
instruo do indivduo. O salrio mdio
de um funcionrio 11,12 s.m, j para
uma funcionrio com curso superior o
salrio mdio passa a ser 16,48 ,
enquanto funcionrios com nvel
fundamental completo recebem, em
mdia, 7,84 s.m.
UNID II . ANLISE BIDIMENSIONAL Jozemar Pereira Santos