Académique Documents
Professionnel Documents
Culture Documents
Agosto 2015
Sumrio
1.1.1
Populao e amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.2
Nveis de mensurao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.1
1.3.1
Distribuies de frequncia . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.2
Arredondamento de nmeros . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.3
Grficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.4
10
1.5
13
1.5.1
Distribuies de frequncia . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
1.5.2
15
1.5.3
19
1.5.4
Diagrama de ramo-e-folhas . . . . . . . . . . . . . . . . . . . . . . . . . . . .
20
1.5.5
Grficos temporais . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
23
1.2
1.3
25
Medidas de posio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
25
2.1.1
25
ii
SUMRIO
2.1.2
Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27
2.1.3
Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
2.1.4
30
2.1.5
32
2.2
Somatrio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
34
2.3
Medidas de disperso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
36
2.3.1
Amplitude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
37
2.3.2
37
2.3.3
Varincia e desvio-padro . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
39
2.3.4
Amplitude interquartil . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
43
2.3.5
45
47
2.4.1
Escores padronizados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
47
2.4.2
Coeficiente de variao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
51
Medidas de assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
52
2.5.1
53
2.5.2
54
2.6
O boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
55
2.7
58
2.7.1
59
2.7.2
Varincia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
2.7.3
Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
2.7.4
Quartis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
63
2.4
2.5
3 Correlao
67
3.1
Diagramas de disperso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
3.2
Covarincia e correlao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69
3.2.1
69
Covarincia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
SUMRIO
iii
3.2.2
Coeficiente de correlao . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
72
3.2.3
74
Captulo 1
1.1
1.1.1
DEFINIO Populao
Populao o conjunto de elementos para os quais se deseja estudar
determinada(s) caracterstica(s).
Amostra um subconjunto da populao.
1.1.2
1.2
Nveis de mensurao
1.2.1
As variveis quantitativas, por sua vez, podem ser discretas ou contnuas. Quando a
varivel puder assumir qualquer valor numrico em um determinado intervalo de variao,
ela ser uma varivel contnua. Essas variveis resultam normalmente de medies, como
peso, altura, dosagem de hemoglobina, renda etc. A interpretao desse tipo de varivel
leva noo de valor aproximado, pois no existe instrumento de medio capaz de fornecer
preciso absoluta na informao. Assim, quando uma balana mostra o peso de uma pessoa
como 65,5 kg, esse valor, na verdade, uma aproximao para qualquer valor entre, digamos,
65,495 kg e 65,505 kg.
Por outro lado, a varivel quantitativa discreta s poder assumir valores pertencentes
a um conjunto enumervel; os valores normalmente so obtidos atravs de algum processo de
contagem. Alguns exemplos so o nmero de filhos de um casal, nmero de empregados de
uma firma de contabilidade, etc.
Para cada uma das situaes listadas a seguir, identifique a populao de interesse e
a amostra, se for o caso.
(a) A Pr-Reitoria de Assuntos Estudantis da UFF deseja saber a opinio dos calouros sobre
o programa de Acolhimento Estudantil. Sorteia, ento, uma amostra de 200 calouros de
todos os cursos da UFF, que so entrevistados pelos funcionrios.
(b) Uma grande empresa deseja saber a opinio de seus gerentes sobre uma nova proposta
de plano de carreira. Para isso, envia um questionrio para todos os seus 450 gerentes.
(c) Uma loja de vesturio pretende enviar um questionrio de uma pesquisa de satisfao
para seus clientes. A partir de seus registros, o gerente de marketing constata que 4345
pessoas fizeram compras com carto de crdito na loja no ltimo semestre. Ele sorteia
uma amostra de 200 desses clientes para os quais envia um questionrio.
Soluo
(a) A populao de interesse formada por todos os calouros da UFF no ano em questo e
a amostra o conjunto dos 200 alunos entrevistados.
(b) A populao o conjunto dos gerentes da empresa. Como foram entrevistados todos os
gerentes, essa uma pesquisa censitria e no uma pesquisa por amostragem.
(c) A populao de interesse formada por todos os clientes da loja, mas a populao de
referncia, ou seja, a populao de onde foi retirada a amostra, formada pelos clientes
que compraram com carto de crdito. Note que a no esto includos os clientes que
pagaram com dinheiro ou cheque.
1.3
Vamos considerar o seguinte exemplo fictcio, mas verossmil. A direo de uma empresa
est estudando a possibilidade de fazer um seguro sade para seus funcionrios e respectivos
familiares. Para isso, ela faz um levantamento de seus 500 funcionrios, obtendo informao
sobre sexo, estado civil, idade, nmero de dependentes e salrio. Como so 500 funcionrios,
temos que achar uma forma de resumir os dados. Nesta seo, voc ir aprender a resumir
dados qualitativos em forma de uma distribuio (ou tabela) de frequncia e, tambm, em
forma grfica. Voc ver que os grficos complementam a apresentao tabular.
1.3.1
Frequncia simples
absoluta relativa
270
0,54
230
0,46
500
1,00
Estado civil
Solteiro
Casado
Divorciado
Vivo
Total
Frequncia simples
absoluta relativa %
125
25,0
280
56,0
85
17,0
10
2,0
500
100,0
Distribuies de frequncia
Nmero de funcionrios
270
230
500
Nome
Sexo
Estado civil
Joo da Silva
Pedro Fernandes
Maria Freitas
Paula Gonalves
Ana Freitas
Luiz Costa
Andr Souza
Patrcia Silva
Regina Lima
Alfredo Souza
Margarete Cunha
Pedro Barbosa
Ricardo Alves
Mrcio Rezende
Ana Carolina Chaves
M
M
F
F
F
M
M
F
F
M
F
M
M
M
F
Casado
Vivo
Casada
Solteira
Solteira
Casado
Casado
Divorciada
Casada
Casado
Solteira
Divorciado
Solteiro
Solteiro
Solteira
Nmero de dependentes
3
1
0
0
1
3
4
2
2
3
0
2
0
1
0
Masculino
Feminino
||||||||
|||||||
Solteiro
Casado
Divorciado
Vivo
||||||
||||||
||
|
Gnero
Masculino
Feminino
Total
Frequncia simples
absoluta relativa %
8
53,33
7
46,67
15
100,0
Estado civil
Solteiro
Casado
Divorciado
Vivo
Total
Frequncia simples
absoluta relativa %
6
40,00
6
40,00
2
13,33
1
6,67
15
100,00
1.3.2
Arredondamento de nmeros
Arredondamento de nmeros
1.3.3
Grficos
10
1.4
Quando uma varivel quantitativa discreta assume poucos valores distintos, possvel
construir uma distribuio de frequncias da mesma forma que fizemos para as variveis
qualitativas. A diferena que, em vez de termos categorias nas linhas da tabela, teremos os
distintos valores da varivel. Continuando com o nosso exemplo, vamos trabalhar agora com a
varivel nmero de dependentes. Suponha que alguns funcionrios no tenham dependentes
e que o nmero mximo de dependentes seja 7. Obteramos, ento, a seguinte distribuio
de frequncias:
11
Frequncia simples
absoluta relativa %
120
24,0
95
19,0
90
18,0
95
19,0
35
7,0
30
6,0
20
4,0
15
3,0
500
100,0
Frequncia simples
absoluta relativa %
120
24,0
95
19,0
90
18,0
95
19,0
35
7,0
30
6,0
20
4,0
15
3,0
500
100,0
Frequncia acumulada
absoluta
relativa %
120
24,0
215
43,0
305
61,0
400
80,0
435
87,0
465
93,0
485
97,0
500
100,0
12
87, 0 =
435
100
500
Consideremos, agora, que se pergunte para cada um dos 500 funcionrios a sua idade,
em anos completos. Essa , tambm, uma varivel discreta, mas a diferena que a idade
pode assumir um nmero maior de valores, o que resultaria em uma tabela grande, caso
decidssemos relacionar todos os valores, da mesma forma que fizemos para o nmero de
dependentes. Alm disso, em geral no necessrio apresentar a informao em tal nvel de
detalhamento.
Por exemplo, para as seguradoras de planos de sade, as faixas etrias importantes
aquelas em que h reajuste por idade so 0 a 18; 19 a 23; 24 a 28; 29 a 33; 34 a 38; 39 a 43;
44 a 48; 49 a 53; 54 a 58 e 59 ou mais. Sendo assim, podemos agrupar os funcionrios segundo
essas faixas etrias e construir uma tabela de frequncias agrupadas em que cada frequncia
corresponde ao nmero de funcionrios na respectiva faixa etria, tal como a Tabela 1.3:
13
1.5
1.5.1
Frequncia Simples
Absoluta Relativa %
1
0,2
23
4,6
103
20,6
246
49,2
52
10,4
50
10,0
25
5,0
500
100,0
Frequncia Acumulada
Absoluta Relativa %
1
0,2
24
4,8
127
25,4
373
74,6
425
85,0
475
95,0
500
100,0
14
DEFINIO Amplitude
A amplitude de um conjunto de dados, representada por total , definida
como a diferena entre os valores mximo e mnimo:
total = VMx VMn
(1.1)
4
4 + 6 = 10
10 + 6 = 16
16 + 6 = 22
22 + 6 = 28
28 + 6 = 34
e as classes sero:
[4, 10) [10, 16) [16, 22) [22, 28) [28, 34)
Note o tipo de intervalo utilizado: para incluir o valor mnimo, 4, na primeira classe, o
intervalo deve ser fechado no extremo inferior: [4,.
Se fechssemos o intervalo no limite superior, o 10 estaria includo na primeira classe
e, portanto, no poderia estar na segunda classe. Isso resultaria em [4, 10] como a primeira
classe e (10, 16) como a segunda classe. Assim, as duas primeiras classes estariam definidas
de forma diferente, o que no conveniente, pois dificultaria a leitura da tabela. prefervel
incluir o 10 na segunda classe, o que resulta nas classes apresentadas anteriormente.
15
9605
= 1921
5
Essa uma regra que resulta em classes corretamente definidas, mas nem sempre as
classes resultantes so apropriadas ou convenientes. Neste exemplo, seria prefervel trabalhar
com classes de comprimento 2000, o que resultaria nas classes
[2800, 4800) [4800, 6800) [6800, 8800) [8800, 10800) [10800, 12800)
que so corretas e mais fceis de ler.
Fazendo a contagem do nmero de funcionrios em cada classe, a distribuio resultante
seria:
1.5.2
16
Frequncia Simples
Absoluta Relativa %
87
17, 4
203
40, 6
170
34, 0
30
6, 0
10
2, 0
Frequncia Acumulada
Absoluta Relativa %
87
17, 4
290
58, 0
460
92, 0
490
98, 0
500
100, 0
DEFINIO Histograma
Um histograma um grfico formado por um conjunto de retngulos
contguos, com bases sobre um eixo horizontal, cuja escala definida
de acordo com as classes da distribuio da varivel de interesse. As
bases desses retngulos, construdas sobre o eixo horizontal, representam
as classes e as reas so proporcionais ou iguais s frequncias.
17
87 = h 2000 = h =
87
= 0, 0435
2000
Altura = Frequncia
rea = Frequncia
18
Na Figura 1.6, temos o polgono de frequncias para a distribuio dos salrios dos 500
funcionrios. comum apresentar-se o polgono de frequncias junto com o histograma, o
que facilita a visualizao dos resultados. Note que o polgono de frequncia d uma ideia
da forma da distribuio dos dados.
Na Figura 1.7, temos a ogiva de frequncia para os dados sobre os salrios de 500
funcionrios apresentados na Tabela 1.4. A poligonal inicia-se no ponto (2800; 0), pois no
h salrios menores que 2800, ou seja, a frequncia acumulada em 2800 0. J a frequncia
acumulada em 4800 87 este o segundo ponto plotado. Na Figura 1.8, podemos ver que
o valor que divide a distribuio ao meio (isto , 250 salrios so menores que esse valor e
os 250 restantes so maiores) , aproximadamente, igual a 6400.
1.5.3
Ogiva de frequncia
19
Considere os dados sobre aluguis de imveis urbanos dados na Tabela 1.5. Construa
um histograma para representar essa distribuio.
Tabela 1.5 Aluguis de 200 imveis urbanos
Aluguis
(u.m.)
2 `
3
3 `
5
5 `
7
7 ` 10
10 ` 15
Total
Frequncia Simples
Absoluta ni Relativa fi
10
0, 05
50
0, 25
80
0, 40
40
0, 20
20
0, 10
200
1, 00
Frequncia Acumulada
Absoluta Ni Relativa Fi
10
0, 05
60
0, 30
140
0, 70
180
0, 90
200
1, 00
20
Comprimento
de classe i
1
2
2
3
5
Frequncia Acumulada
Absoluta Ni Relativa Fi
10
0, 05
60
0, 30
140
0, 70
180
0, 90
200
1, 00
Densidade
fi /i
0, 050
0, 125
0, 200
0, 067
0, 020
1.5.4
Diagrama de ramo-e-folhas
21
3,8
7,3
8,7
6,5
3,7
6,9
9,7
5,8
4,9
6,8
7,9
6,9
4,7
7,0
7,2
6,9
5,6
5,4
8,1
8,2
7,3
6,5
9,4
7,0
8,3
7,6
6,6
6,0
5,5
5,2
7,0
6,2
7,7
9,0
8,0
7,1
8,9
7,4
9,2
7,5
8,7
8,4
8,8
8,2
7,6
6,8
Soluo
A quebra de cada observao em duas partes aqui bastante natural: a folha ser o
algarismo decimal, enquanto o ramo ser a parte inteira. As duas primeiras observaes so
quebradas da seguinte forma:
2
3
9
7
Por outro lado, a menor observao 2,9 e a maior 9,7; assim, os galhos vo de 2 a
9, e organizamos a nossa escala da seguinte forma:
2
3
4
5
6
7
8
9
22
9
8
9
6
9
3
3
0
7
7
5
8
7
9
7
4
5
6
7
4
2
8
3
3
2
8
6
0
4
3
6
7
5
4
1
9
5
0
9
9
8
0
2
2
2
0
2
9
7
7
2
0
0
0
0
8
9
4
2
0
1
2
1,0
5
3
0
2
4
6
5
1
2
7
8
5
2
3
6
3
3
8
3
4
8
4
7
9
5
7
9
5
8
9
6
9
EXEMPLO 1.7 Notas de duas turmas
Suponha que, no Exemplo 1.6, a mesma prova tenha sido aplicada a duas turmas
diferentes. Para comparar os resultados, podemos construir o diagrama de ramo-e-folhas lado
a lado. Um conjunto representado no lado direito da escala e, o outro, no lado esquerdo.
Em ambas as partes, as folhas crescem da escala para as margens. Veja o Diagrama 1.3.
23
3
7
6
2
2
3
0
2
2
0
2
1
2
5
2
0
0
0
8
2
0
1
0
0
0
5
1
2
3
4
5
6
7
8
9
9
7
7
2
0
0
0
0
1,0
8
9
4
2
0
1
2
5
3
0
2
4
6
5
1
2
7
8
5
2
3
6
3
3
8
3
4
8
4
7
9
5
7
9
5
8
9
6
9
1.5.5
Grficos temporais
Na Tabela 1.8, temos dados sobre o nmero de homicdios e a taxa de homicdios por
100.000 habitantes nos estados do Rio de Janeiro e So Paulo no perodo de 1980 a 2009.
Nas Figuras 1.10 e 1.11, apresentamos os grficos. Observe a diferena entre eles. Quando
trabalhamos com nmeros absolutos, So Paulo tem mais homicdios que o Rio de Janeiro.
Mas So Paulo tem uma populao bem maior que a do Rio de Janeiro; assim, razovel que
ocorra um nmero maior de homicidios. Apresentar as taxas por 100.000 habitantes elimina
esse problema e nos permite ver mais claramente a real situao.
24
Homicdios
Nmero
Taxa
Ano
(100.000 hab)
RJ
SP
RJ
SP
1980 2.946 3.452 26,09 13,78
1981 2.508 4.187 21,98 16,39
1982 2.170 4.183 18,79 15,99
1983 1.861 5.836 15,91 21,79
1984 2.463 7.063 20,81 25,78
1985 2.550 7.015 21,29 25,04
1986 2.441 7.195 20,14 25,14
1987 3.785 7.918 30,87 27,09
1988 3.054 7.502 24,64 25,16
1989 4.287 9.180 34,22 30,21
1990 7.095 9.496 56,05 30,69
1991 5.039 9.671 39,34 30,62
1992 4.516 9.022 34,96 28,15
1993 5.362 9.219 41,04 28,19
1994 6.414 9.990 78,66 30,08
Fonte: IPEADATA
Ano
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
Homicdios
Nmero
Taxa
(100.000 hab)
RJ
SP
RJ
SP
8.183 11.566 61,54 34,32
8.049 12.350 60,04 36,20
7.966 12.552 58,77 36,12
7.569 14.001 55,32 39,68
7.249 15.810 52,50 44,14
7.337 15.631 50,98 42,21
7.352 15.745 50,50 41,84
8.321 14.494 56,51 37,96
7.840 13.903 52,69 35,92
7.391 11.216 49,16 28,58
7.098
8.727 46,14 21,58
7.122
8.166 45,77 19,89
6.313
6.234 40,11 14,96
5.395
6.117 33,99 14,92
4.198
6.319 26,22 15,27
RJ e SP - 1980-2009
Captulo 2
2.1
Medidas de posio
2.1.1
No nosso dia a dia, o conceito de mdia bastante comum, quando nos referimos, por
exemplo, altura mdia dos brasileiros, temperatura mdia dos ltimos anos, etc.
25
26
x=
x1 + x2 + + xn
1X
=
xi
n
n
(2.1)
i=1
A notao x (l-se x barra), usada para indicar a mdia, bastante comum; em geral,
usa-se a mesma letra adotada para indicar os dados com a barra em cima.
Na definio anterior, fazemos uso do smbolo de somatrio, representado pela letra
grega sigma maiscula, . Mais adiante, voc aprender mais sobre essa notao e suas
propriedades. Por enquanto, entenda como a mdia aritmtica de um conjunto de dados
calculada. Observe, inicialmente, que ela s pode ser calculada para dados quantitativos.
(No faz sentido somar masculino + feminino!) O seu clculo feito somando-se todos os
valores e dividindo-se pelo nmero total de observaes.
Considere as idades dos funcionrios do Departamento de Recursos Humanos,
apresentadas no diagrama de ramo-e-folhas a seguir.
27
Escala
1 0
2
3
4
5
4
1
2
1
5
5
5
3
10
6
6
6
7
9
8
A idade mdia
x =
=
24 + 25 + 26 + 26 + 29 + 29 + 31 + 35 + 36 + 37 + 38 + 42 + 45 + 51 + 53
15
527
= 35, 13
15
Como as idades esto em anos, a idade mdia tambm dada nessa unidade, ou seja, a
idade mdia 35,13 anos. Em geral, a mdia de um conjunto de dados tem a mesma unidade
dos dados originais.
Como interpretao fsica da mdia aritmtica, temos que ela representa o centro de
gravidade da distribuio. Nos quatro histogramas da Figura 2.1, ela o ponto de equilbrio,
indicado pela seta.
Note que o valor da mdia aritmtica um valor tal que, se substitussemos todos os
dados por ela, isto , se todas as observaes fossem iguais mdia aritmtica, a soma total
seria igual soma dos dados originais. Ento, a mdia aritmtica uma forma de se distribuir
o total observado por n elementos, de modo que todos tenham o mesmo valor.
Considere os seguintes dados fictcios referentes aos salrios de cinco funcionrios de
uma firma: 136, 210, 350, 360, 2500. O total da folha de pagamentos 3236, havendo um
salrio bastante alto, discrepante dos demais. A mdia para esses dados 647,20. Se todos
os cinco funcionrios ganhassem esse salrio, a folha de pagamentos seria a mesma, e todos
teriam o mesmo salrio.
2.1.2
Moda
No histograma (c) da Figura 2.1, duas classes apresentam a mesma frequncia mxima.
Esse o conceito de moda.
28
DEFINIO Moda
A moda de uma distribuio ou conjunto de dados, que representaremos
por x , o valor que mais se repete, ou seja, o valor mais frequente.
Podemos ter distribuies amodais (todos os valores ocorrem o mesmo nmero de vezes),
unimodais (uma moda), bimodais (duas modas), etc. Para os dados do Diagrama 2.1, temos as
seguintes modas: x = 26 e x = 29 anos e, portanto, essa uma distribuio bimodal. Assim
como a mdia, a moda sempre tem a mesma unidade dos dados originais.
2.1.3
Mediana
Vamos analisar, novamente, os seguintes dados referentes aos salrios (em R$) de cinco
funcionrios de uma firma: 136, 210, 350, 360, 2500. Como visto, o salrio mdio R$ 647,20.
No entanto, esse valor no representa no representa, de forma adequada, os salrios mais
baixos e o salrio mais alto, isso porque o mais alto muito diferente dos demais.
Esse exemplo ilustra um fato geral sobre a mdia aritmtica: ela muito influenciada por
valores discrepantes (em ingls, outliers), isto , valores muito grandes (ou muito pequenos)
que sejam distintos da maior parte dos dados. Nesses casos, necessrio utilizar outra
medida de posio para representar o conjunto. Uma medida possvel de ser utilizada a
mediana.
DEFINIO Mediana
Seja x1 , x2 , . . . , xn um conjunto de n observaes, e seja x(i) , i = 1, . . . , n o
conjunto das observaes ordenadas, de modo que x(1) x(2) x(n) .
Ento, a mediana Q2 definida como o valor tal que 50% das observaes
so menores e 50% so maiores que ela. Para efeito de clculo, valem as
seguintes regras:
n mpar:
Q2 = x( n+1 )
2
n par:
x( n ) + x( n +1)
2
Q2 = 2
2
(2.2)
Dessa definio, podemos ver que a mediana o valor central dos dados e, para calculla, necessrio ordenar os dados. Para as idades no Diagrama 2.1, o nmero total de
observaes n = 15. A mediana o valor central, que deixa sete observaes abaixo e sete
29
Dependentes
3
2
1
2
0
3
0
0
Nome
Ana Freitas
Pedro Barbosa
Luiz Costa
Ricardo Alves
Andr Souza
Mrcio Rezende
Ana Carolina Chaves
Dependentes
1
2
3
0
4
1
0
Os dados ordenados so
0
e a mdia
50+31+32+33+14
22
=
= 1, 47
15
15
Em mdia, temos 1,47 dependentes por funcionrio do Departamento de RH. A moda 0
dependente e a mediana (n = 15)
x=
30
1,0
9
7
7
2
0
0
0
0
5
3
0
2
4
2
3
4
5
6
7
8
9
8
9
4
2
0
1
2
6
5
1
2
7
8
5
2
3
6
3
3
8
3
4
8
4
7
9
5
7
9
5
8
9
6
9
(2.3)
71 + 72
= 71, 5
2
(2.4)
3529
= 70, 58
50
(2.5)
2.1.4
Vimos que a mdia aritmtica simples equivale a dividir o todo (soma dos valores)
em partes iguais, ou seja, estamos supondo que os nmeros que desejamos sintetizar tm
o mesmo grau de importncia. Entretanto, em algumas situaes no razovel atribuir a
mesma importncia a todos os dados.
Por exemplo, o ndice Nacional de Preos ao Consumidor (INPC) calculado com uma
mdia dos ndices de Preo ao Consumidor (IPC) de diversas regies metropolitanas do Brasil,
mas a importncia dessas regies diferente. Uma das variveis que as diferencia a
populao residente. Nesse tipo de situao, em vez de se usar a mdia aritmtica simples,
adota-se a mdia aritmtica ponderada, que ser representada por x p .
31
i xi
1 x1 + 2 x2 + + n xn
i=1
xp =
= n
P
1 + 2 + . . . + n
i
(2.6)
i=1
Se definirmos
i =
i
,
n
P
j
(2.7)
j=1
xp =
n
X
i xi ,
(2.8)
i=1
n
P
em que
i=1
i = 1.
32
Peso (%)
6,9
6,4
7,1
10,6
11,1
10,2
25,6
7,2
7,5
5,1
2,2
IPC - Ago/12
0,74
0,83
0,45
0,29
0,48
0,59
0,27
0,44
0,57
0,36
0,31
0,45
Fonte: IBGE
EXEMPLO 2.4 Nota Mdia
2 N1 + 3 N2
2 N1 + 3 N2
=
2+3
5
2.1.5
Da interpretao fsica da mdia como centro de gravidade da distribuio, fica claro que
seu valor est sempre entre os valores mnimo e mximo dos dados. O mesmo resultado vale
33
para a mediana e a moda, o que imediato a partir das respectivas definies. Resumindo,
temos:
Propriedade 1
xmin x xmax
xmin Q2 xmax
(2.9)
xmin x xmax
5+4+2+3+4
18
=
= 3, 6
5
5
= x = 4
23
3+4+5+5+6
=
= 4, 6 = 3, 6 + 1
5
5
= y = 5 = 4 + 1
Ao somar 1 ponto em todas as notas, o conjunto sofre uma translao, o que faz com
que o seu centro tambm fique deslocado 1 ponto. Sendo assim, todas as trs medidas de
posio ficam acrescidas de 1 ponto.
Multiplicando as novas notas por 10, obtemos 30, 40, 50, 50, 60 e
z =
Q2,z
30 + 40 + 50 + 50 + 60
230
=
= 46, 0 = 4, 6 10
5
5
= z = 50 = 5 10,
34
y=x +k
Q2,y = Q2,x + k
yi = xi + k
y = x + k
(2.10)
Propriedade 3
Multiplicando cada observao xi por uma mesma constante no nula k, obtemos um
novo conjunto de dados yi = kxi , para o qual temos as seguintes medidas de posio:
yi = kxi
y = kx
Q2,y = kQ2,x
y = kx
(2.11)
5
(F 32)
9
5
(45 32) = 7, 2 C
9
2.2
Somatrio
2.2. SOMATRIO
35
5
X
i2 = 12 + 22 + 32 + 42 + 52
i=1
= (x1 + x2 + + xn ) + (y1 + y2 + + yn ) =
n
n
X
X
=
xi +
yi
i=1
n
X
(2.12)
i=1
(2.13)
i=1
= k(x1 + x2 + + xn ) =
n
X
= k
xi
i=1
n
X
k = k + k + + k = nk
i=1
xi2
6=
i=1
n
X
!2
xi
i=1
e
n
X
!2
xi
= (x1 + x2 + + xn )2
i=1
n
X
i=1
xi yi 6=
n
X
i=1
!
xi
n
X
i=1
!
yi
(2.14)
36
pois
n
X
xi yi = x1 y1 + x2 y2 + + xn yn
i=1
n
X
!
xi
n
X
!
yi
= (x1 + x2 + + xn )(y1 + y2 + + yn )
i=1
i=1
6
X
xi
6
X
fi
i
fi
xi
1
3
10
fi xi
2
5
11
3
9
15
4
10
19
fi xi2
i=1
i=1
i=1
i=1
6
X
5
2
21
6
1
26
Soluo
6
X
xi = 10 + 11 + 15 + 19 + 21 + 26 = 102
i=1
6
X
fi = 3 + 5 + 9 + 10 + 2 + 1 = 30
i=1
6
X
fi xi = 3 10 + 5 11 + 9 15 + 10 19 + 2 21 + 1 26 = 478
i=1
6
X
i=1
2.3
Medidas de disperso
37
2.3.1
Amplitude
DEFINIO Amplitude
A amplitude de um conjunto de dados a distncia entre o maior valor e
o menor valor.
total = Vmax Vmin .
(2.15)
A amplitude tem a mesma unidade dos dados, mas, como medida de disperso, ela tem
algumas limitaes, conforme ilustrado nas distribuies (b) e (c) da Figura 2.2, que possuem
a mesma mdia, a mesma mediana e a mesma amplitude. No entanto, essas medidas no
conseguem caracterizar o fato de a distribuio dos valores entre o mnimo e o mximo ser
diferente nos dois conjuntos. A limitao da amplitude tambm fica patente pelo fato de ela
se basear em apenas duas observaes, independentemente do nmero total de observaes.
2.3.2
Uma maneira de se medir a disperso dos dados considerar os tamanhos dos desvios
xi x de cada observao em relao mdia. Observe, nos exemplos da Figura 2.2, que
quanto mais disperso for o conjunto de dados, maiores sero os desvios. Para obter uma
medida-resumo, isto , um nico nmero, poderamos somar esses desvios, considerando a
seguinte medida:
D=
n
X
i=1
(xi x).
(2.16)
38
D =
n
X
i=1
n
X
(xi x) =
xi n
i=1
n
X
xi
i=1
n
X
1
n
n
X
x=
i=1
n
X
xi =
i=1
n
X
xi
i=1
n
X
xi
i=1
nx =
xi = 0.
i=1
Ou seja, essa medida, que representa a soma dos desvios em relao mdia, sempre
nula, no importa o conjunto de dados! Logo, ela no serve para diferenciar quaisquer
conjuntos!
Daremos uma explicao intuitiva para esse fato, que nos permitir obter correes
para tal frmula. Pela definio de mdia, sempre h valores inferiores e superiores mdia,
que resultam, respectivamente, em desvios negativos e positivos. Esses desvios positivos e
negativos, ao serem somados, se anulam.
Pois bem, se o problema est no fato de termos desvios positivos e negativos, por que
no trabalhar com o seu valor absoluto das diferenas? De fato, esse procedimento nos leva
definio de desvio mdio absoluto.
DMA =
1X
|xi x|
n
(2.17)
i=1
Note que, nessa definio, estamos trabalhando com o desvio mdio, isto , tomamos a
mdia dos desvios absolutos. Isso evita interpretaes equivocadas, pois, se trabalhssemos
apenas com a soma dos desvios absolutos, um conjunto com um nmero maior de observaes
tenderia a apresentar um resultado maior para a soma, devido apenas ao fato de ter mais
observaes. Esta situao ilustrada com os seguintes conjuntos de dados:
Conjunto 1: {1, 3, 5}
5
13
Conjunto 2: 1, , 3, , 5
3
3
39
3
X
|xi x| = |1 3| + |3 3| + |5 3| = 4
i=1
J para o conjunto 2,
5
X
i=1
5
13
|xi x| = |1 3| + 3 + |3 3| + 3 + |5 3|
3
3
=
20
= 6, 667.
3
Ento, o somatrio para o segundo conjunto maior, mas o desvio mdio absoluto o
mesmo para ambos. De fato, para o primeiro conjunto, temos
DMA =
4
3
20
4
DMA = 3 =
5
3
2.3.3
Varincia e desvio-padro
Considerar o valor absoluto das diferenas (xi x) uma das maneiras de se contornar
n
P
o fato de que
(xi x) = 0. Mas h uma outra possibilidade de correo, com propriedades
i=1
matemticas e estatsticas mais adequadas, que consiste em trabalhar com o quadrado dos
desvios. Isso nos leva definio de varincia.
40
DEFINIO Varincia
A varinciaa de um conjunto de dados x1 , x2 , . . . , xn definida por
n
1X
(xi x)2 .
=
n
2
(2.18)
i=1
a
possvel definir a varincia usando o divisor n 1 no lugar de n. Essa a diferena
entre os conceitos de varincia populacional e varincia amostral, que ser mais relevante
na estudo da Inferncia Estatsitica.
Essa definio nos diz que a varincia a mdia dos desvios quadrticos.
Suponhamos que os valores xi representem os pesos, em quilogramas, de um conjunto
de pessoas. Ento, o valor mdio x representa o peso mdio dessas pessoas e sua unidade
tambm quilogramas, o mesmo acontecendo com as diferenas (xi x). Ao elevarmos essas
diferenas ao quadrado, passamos a ter a varincia medida em quilogramas ao quadrado, uma
unidade que no tem interpretao fsica. Uma forma de se obter uma medida de disperso,
com a mesma unidade dos dados, consiste em tomar a raiz quadrada da varincia.
DEFINIO Desvio-padro
O desvio-padro de um conjunto de dados x1 , x2 , . . . , xn definido como a
raiz quadrada da varincia:
=
Varincia = 2
(2.19)
n
n
n
n
1X
1 X 2
1X
1X 2
2
2
xi 2xi x + x =
xi
2xxi +
x =
n
n
n
n
i=1
i=1
i=1
i=1
!
n
n
n
1X 2
1X
1
1X 2
xi 2x
xi + nx 2 =
xi 2x 2 + x 2
n
n
n
n
i=1
i=1
i=1
41
ou seja
n
2 =
1X 2
xi x 2
n
(2.20)
i=1
Essa forma de escrever a varincia facilita quando os clculos devem ser feitos mo ou
em calculadoras menos sofisticadas, pois o nmero de clculos envolvidos menor. Podemos
ler essa frmula como a varincia a mdia dos quadrados menos o quadrado da mdia.
EXEMPLO 2.7 Idades de funcionrios
Novamente, vamos considerar os dados referentes s idades dos funcionrios do
Departamento de Recursos Humanos. Essas idades so:
24
25
26
e sua mdia
527
15
2 =
15
26
29
29
31
35
36
37
38
42
45
51
53
1213, 73
= 80, 92
15
e o desvio-padro, em anos,
=
p
80, 92 = 8, 995
2 =
+
=
=
i
1 h 2
24 + 252 + 252 + 2 262 + 2 292 + 312 + 352 + 362 +
15
i 527 2
1 h 2
2
2
2
2
2
2
=
37 + 38 + 39 + 42 + 45 + 51 + 53
15
15
19729
527 2
=
15
15
295935 277729
18206
19729 15 5272
=
=
= 80, 916
2
225
225
15
42
Na comparao dos resultados obtidos pelas duas frmulas, pode haver alguma
diferena por causa dos arredondamentos, uma vez que a mdia uma dzima. Em geral,
a frmula 2.20 fornece resultados mais precisos e certamente requer menos clculos.
EXEMPLO 2.8 Nmero de dependentes dos funcionrios do departamento de RH
X
22
22
22
(xi x) = 5 0
+3 1
+3 2
+
15
15
15
22
22
+ 3 3
+ 4
=
15
15
131 131
110 21 24 69 38
=
+
+
+
=
+
=0
15
15 15 15 15
15
15
Caso trabalhssemos com o valor aproximado 1, 467, o resultado aproximado seria
0, 005.
O desvio mdio absoluto
DMA =
=
+
=
=
A varincia
1X
|xi x| =
n
1
22
22
22
5 0 + 3 1 + 3 2 +
15
15
15
15
22
22
3 3 + 4 =
15
15
1
110 21 24 69 38
+
+
+
+
=
15
15
15 15 15 15
131 131
262
1
+
=
= 1, 1644
15
15
15
225
2 =
=
+
=
=
43
1X
(xi x)2 =
n
"
#
1
22 2
22 2
22 2
5 0
+3 1
+3 2
+
15
15
15
15
"
#
22 2
1
22 2
+ 4
=
3 3
15
15
15
1
2420 147 192 1587 1444
=
+
+
+
+
15
225
225 225
225
225
5790
= 1, 715556
15 225
e
r
=
5790
= 1, 3098
15 225
=
=
=
22 2
1
2
2
2
2
2
50 +31 +32 +33 +4
=
15
15
58 484
58 15 484
3 + 12 + 27 + 16 484
=
=
15
225
15 225
225
386
= 1, 715556
225
Com essa frmula, os clculos ficam bem mais simples, uma vez que necessrio fazer
menos conta!
2.3.4
Amplitude interquartil
44
DEFINIO Quartis
O primeiro quartil, que indicaremos por Q1 , deixa 25% das observaes
abaixo e 75% acima dele.
O terceiro quartil, Q3 , deixa 75% das observaes abaixo e 25% acima
dele.
A mediana o segundo quartil.
Dessa definio resulta que, entre Q1 e Q3 , h sempre 50% dos dados, qualquer que
seja a distribuio. Assim, quanto maior for a distncia entre Q1 e Q3 , mais dispersos sero
os dados. Temos, assim, uma nova medida de disperso, a amplitude interquartil.
(2.21)
45
isto ,
Q2 = x( n+1 ) = x(8) = 1
2
Q3 = x(4+8) = x(12) = 3
2.3.5
Como visto para as medidas de posio, vamos estudar as principais propriedades das
medidas de disperso.
Propriedade 1
Todas as medidas de disperso so no negativas:
0
DMA 0
2 0
0
AIQ 0
Propriedade 2
(2.22)
46
y = x
DMAy = DMAx
y2 = x2
yi = xi + k
(2.23)
y = x
AIQy = AIQx
Propriedade 3
Ao multiplicarmos todos os dados por uma constante no nula, temos:
y = |k| x
y2 = k 2 x2
yi = kxi
y = |k| x
(2.24)
5
(F 32)
9
Soluo
Se cada observao for transformada de graus Fahrenheit para Celsius, a nica operao
que afetar o desvio-padro ser a multiplicao pelo fator 5/9, ou seja,
C =
5
F
9
(2.25)
2.4
2.4.1
47
Aluno
Estatstica
Clculo
1
6
6
2
4
8
3
5
9
4
7
10
5
8
7
6
5
7
7
5
8
8
5
9
9
7
3
xC
6+4+5+7+8+5+5+5+7
52
=
= 5, 7778
9
9
67
6 + 8 + 9 + 10 + 7 + 7 + 8 + 9 + 3
=
= 7, 4444
9
9
As varincias so:
E2
2
62 + 42 + 52 + 72 + 82 + 52 + 52 + 52 + 72
52
=
9
9
314 2704
314 9 2704
122
=
=
= 1, 506173
9
81
81
81
=
=
C2
=
=
2
62 + 82 + 92 + 102 + 72 + 72 + 82 + 92 + 32
67
=
9
9
533 4489
533 9 4489
308
=
=
= 3, 802469
9
81
81
81
Os desvios-padro so:
r
E
C
122
= 1, 227262
81
r
308
=
= 1, 949992
81
=
Nas Figuras 2.3 e 2.4, temos os diagramas de pontos que representam as duas
distribuies de notas. Nesses diagramas, a mdia est representada pela seta e podemos
ver que as notas de Clculo apresentam maior variabilidade.
48
Analisando os dois conjuntos de notas, pode-se ver que o aluno 1 tirou 6 em Estatstica
e em Clculo. Mas, analisando o desempenho do aluno em cada disciplina, pode-se ver que
essa nota 6 tem interpretaes diferentes. Em Estatstica, o aluno ficou acima da mdia e
em Clculo, abaixo da mdia. Uma forma de medir essa diferena considerar os desvios em
torno da mdia (lembre-se de que esses desvios j apareceram nas definies de varincia e
desvio mdio absoluto).
DEFINIO Desvio
O desvio de uma observao xi em torno da mdia definido como
di = xi x
(2.26)
xi x
.
x
(2.27)
49
Ao dividirmos pelo desvio-padro, a escala passa a ser definida em termos de desviopadro e cada escore padronizado informa que a observao est abaixo (ou acima) da mdia
por determinado nmero de desvios-padro. Com isso, tira-se o efeito de as mdias e as
variabilidades serem diferentes.
Vamos analisar as notas de Estatstica e Clculo em termos dos escores padronizados,
que so apresentados na tabela a seguir.
Aluno
Estatstica
Clculo
Nota
Escore
Nota
Escore
1
6
0,18
6
-0,74
2
4
-1,45
8
0,29
3
5
-0,63
9
0,80
4
7
1,00
10
1,13
5
8
1,81
7
-0,23
6
5
-0,63
7
-0,2
7
5
-0,63
8
0,29
8
5
-0,63
9
0,80
9
7
1,00
3
-3,28
Vemos a que a nota 6 em Clculo, alm de estar abaixo da mdia, est mais afastada
da mdia do que a nota 6 em Estatstica. Observe as notas 8 em Estatstica e 10 em Clculo:
o escore padronizado da primeira maior que o da segunda, ou seja, a nota 8 em Estatstica
mais surpreendente que a nota 10 em Clculo, embora, convenhamos, o efeito psicolgico
de um 10 seja sempre mais impactante do que o de um 8...
EXEMPLO 2.11 Propriedades dos escores padronizados
Podemos escrever o escore padronizado como
zi =
x
1
xi
x
x
1
x
x
=0
x
x
1 2
=1
x2 x
No estudo da mdia e da mediana, vimos que a mdia fortemente afetada por valores
discrepantes, que so valores muito afastados das demais observaes. Algumas vezes, tais
valores podem ser resultados de erros, mas, muitas vezes, eles so valores legtimos e a
presena deles requer alguns cuidados na anlise estatstica. Sendo assim, importante ter
alguma forma de se identificarem valores discrepantes. Os escores padronizados podem ser
usados para esse fim, graas ao Teorema de Chebyshev.
50
<
z <
x + z x
x0 x
<
x0 x
< +z
2.4.2
51
Coeficiente de variao
CV = .
(2.28)
x
Note que o coeficiente de variao uma medida de disperso.
52
5
100 = 1, 67%
300
5
1000g C V =
100 = 0, 5%
1000
300g C V =
2.5
Medidas de assimetria
Considere os diagramas de pontos da Figura 2.5, onde a seta indica a mdia dos dados.
Analisando-os, podemos ver que a principal e mais marcante diferena entre eles diz respeito
simetria da distribuio. A distribuio do centro simtrica, enquanto as outras duas so
assimtricas.
53
2.5.1
Esses trs tipos de assimetria podem ser caracterizados pela posio da moda com
relao mdia dos dados. No primeiro tipo, a moda tende a estar esquerda da mdia,
enquanto no terceiro tipo, a moda tende a estar direita da mdia. (Lembre-se de que a
mdia o centro de gravidade ou ponto de equilbrio da distribuio). Para distribuies
simtricas, a moda coincide com a mdia. Temos, assim, a seguinte caracterizao dos trs
tipos de assimetria:
54
Note que aqui, assim como nos escores padronizados, tiramos o efeito de escalas
diferentes ao dividirmos pelo desvio-padro, o que resulta na adimensionalidade do
coeficiente.
Para os dados do diagrama esquerda da Figura 2.6, temos x = 2, x = 2, 7714 e
= 1, 6228, logo,
2, 7714 2
= 0, 475351
e=
1, 6228
Para o diagrama direita, x = 2, x = 3, 6232 e = 2, 3350, logo,
e=
3, 6232 2
= 0, 6952
2, 3350
2.5.2
2.6. O BOXPLOT
55
Se Q2 Q1 < Q3 Q2 , isso significa que andamos mais rpido para cobrir os 25%
inferiores do que os 25% superiores, ou seja, a distribuio se arrasta para a direita.
Analogamente, se Q2 Q1 > Q3 Q2 , isso significa que andamos mais devagar para
cobrir os 25% inferiores do que os 25% superiores, ou seja, a distribuio se arrasta para a
esquerda. De forma mais precisa, temos o seguinte resultado:
Q2 Q1 < Q3 Q2 = assimetria positiva
Q2 Q1 > Q3 Q2 = assimetria negativa
Q2 Q1 = Q3 Q2 = simetria ou assimetria nula
Podemos, ento, usar a diferena (Q3 Q2 ) Q2 Q1 como uma medida de assimetria.
Mas, aqui, tambm necessrio tirar o efeito de escala e, para isso, temos de dividir por uma
medida de disperso lembre-se de que dividimos pelo desvio-padro quando trabalhamos
com as diferenas x x . Para no termos efeito dos valores discrepantes, usaremos a
amplitude interquartil para gerar a seguinte medida de assimetria, que chamada coeficiente
de assimetria de Bowley.
(Q3 Q2 ) (Q2 Q1 )
Q3 Q1
(2.30)
(Q3 Q2 ) (Q2 Q1 )
(Q3 Q2 ) + (Q2 Q1 )
(2.31)
2.6
O boxplot
56
Q3
(ou horizontal). O
interquartil. Veja a
O tamanho do outro
da mediana, traa-se
Q3
Q2
Q1
Q1
(a)
(b)
x > Q3 + 1, 5 AIQ
Veja a Figura 2.8-(a). Qualquer valor para fora das linhas pontilhadas considerado
um valor discrepante.
Para representar o domnio de variao dos dados na cauda inferior que no so outliers,
traa-se, a partir do lado do retngulo definido por Q1 , uma linha para baixo at o menor
valor que no seja outlier. Da mesma forma, na cauda superior, traa-se, a partir do lado do
retngulo definido por Q3 , uma linha para cima at o maior valor que no seja outlier (veja
2.6. O BOXPLOT
57
1,5 AIQ
Q3
1,5 AIQ
Q3
AIQ
Q2
AIQ
Q2
Q1
Q1
1,5 AIQ
(a)
1,5 AIQ
(b)
58
Q3
Q2
Q1
Na Tabela 2.2, temos dados referentes ao comprimento das flores de trs variedades
da heliconia e, na Figura 2.10, apresenta-se o diagrama em caixa ou boxplot para esses
dados. Pode-se ver que os comprimentos das trs variedades so bem diferentes, com a H.
bihai apresentando os maiores comprimentos. A variedade H. caribaea amarela apresenta os
menores comprimentos, enquanto a disperso dos comprimentos da H. caribaea vermelha a
maior de todas.
2.7
47,12
48,07
46,75
48,34
41,90
39,63
38,10
42,01
42,18
37,97
36,78
35,17
37,02
36,82
H.bihai
46,81 47,12 46,67 47,43
48,15 50,26 50,12 46,34
H.caribaea vermelha
41,93 43,09 41,47 41,69
40,66 37,87 39,16 37,40
38,79 38,23 38,87 37,78
H.caribaea amarela
36,52 36,11 36,03 35,45
36,66 35,68 36,03 34,57
46,44
46,94
46,64
48,36
39,78
38,20
38,01
40,57
38,07
38,13
34,63
37,10
2.7.1
60
Salrio
(reais)
2800 `
4800
4800 `
6800
6800 `
8800
8800 ` 10800
10800 ` 12800
Frequncia Simples
Absoluta Relativa %
87
17, 4
203
40, 6
170
34, 0
30
6, 0
10
2, 0
Frequncia Acumulada
Absoluta Relativa %
87
17, 4
290
58, 0
460
92, 0
490
98, 0
500
100, 0
l+L
2
(2.32)
Salrio
(reais)
2800 `
4800
4800 `
6800
6800 `
8800
8800 ` 10800
10800 ` 12800
Ponto
mdio
3800
5800
7800
9800
11800
Frequncia Simples
Absoluta Relativa %
87
17, 4
203
40, 6
170
34, 0
30
6, 0
10
2, 0
Frequncia Acumulada
Absoluta Relativa %
87
17, 4
290
58, 0
460
92, 0
490
98, 0
500
100, 0
3800
87 ocorrncias do 3800
..
.
3800
5800
7800
9800
30 ocorrncias do 9800
..
.
9800
11800
10 ocorrncias do 11800
..
.
11800
x =
Note, na penltima linha da equao anterior, que os pontos mdios de cada classe so
multiplicados pela frequncia relativa da mesma. Dessa forma, a mdia dos dados agrupados
uma mdia ponderada dos pontos mdios, onde os pesos so definidos pelas frequncias
das classes.
62
k
X
fi xi
(2.33)
i=1
2.7.2
Varincia
Classe
1
2
..
.
Ponto
mdio
x1
x2
..
.
xk
Frequncia Simples
Absoluta Relativa
n1
f1
n2
f2
..
..
.
.
nk
fk
Frequncia Acumulada
Absoluta
Relativa
N1
F1
N2
F2
..
..
.
.
Nk
Fk
k
X
fi xi
(2.34)
fi (xi x)2
(2.35)
fi xi2 x 2
(2.36)
fi |xi x|
(2.37)
i=1
k
X
=
i=1
2 =
k
X
i=1
DMA =
k
X
i=1
2.7.3
Moda
Embora haja mtodos geomtricos para se calcular a moda de dados agrupados, tais
mtodos no so muito utilizados na prtica. Sendo assim, estimaremos a moda de uma
distribuio de frequncias agrupadas pelo ponto mdio da classe modal, que a classe de
maior frequncia.
No exemplo anterior, 4800 ` 6800 a classe modal, de modo que a moda estimada
como x = 5800.
2.7.4
Quartis
64
`
`
`
`
`
5
10
15
20
25
Frequncia Simples
Absoluta Relativa %
5
6, 25
21
26, 25
28
35, 00
18
22, 50
8
10, 00
Frequncia Acumulada
Absoluta Relativa %
5
6, 25
20
32, 50
42
67, 50
60
90, 00
80
100, 00
5 + 10
= 7, 5
2
20 + 25
= 22, 5
2
Note que prefervel trabalhar com as frequncias relativas em forma decimal, pois,
se trabalhssemos com as frequncias relativas em forma percentual, teramos de dividir o
resultado por 100. Lembre-se de que a mdia tem de estar entre o valor mnimo 0 e o valor
mximo 25.
De maneira anloga, calculamos a varincia pela frmula simplificada da seguinte forma:
2 = 0, 0625 2, 52 + 0, 2625 7, 52 + 0, 3500 12, 52 + 0, 2250 17, 52 +
+0, 10 22, 52 12, 68752 = 28, 40234375
e, portanto, o desvio-padro =
66
Captulo 3
Correlao
At aqui, vimos como organizar e resumir informaes referentes a uma nica varivel.
No entanto, bastante frequente nos depararmos com situaes em que h interesse em
se estudar, conjuntamente, duas ou mais variveis. Num estudo sobre mortalidade infantil,
por exemplo, importante acompanhar, tambm, o tratamento pr-natal da me; espera-se,
neste caso, que haja uma diminuio da taxa de mortalidade infantil com o aumento dos
cuidados durante a gravidez. Da mesma forma, espera-se uma relao, ou associao, entre
peso e altura de uma pessoa. Neste captulo, estudaremos relaes entre duas variveis
quantitativas. Assim, para cada elemento da populao, medem-se as variveis de interesse,
que levam a pares de observaes (x1 , y1 ), (x2 , y2 ), , (xn , yn ).
3.1
Diagramas de disperso
Nas Tabelas 3.1 a 3.3, apresentamos trs conjuntos de dados, cujos diagramas de
disperso se encontram nas Figuras 3.1 a 3.3. Nesses grficos, as linhas pontilhadas se
cruzam no ponto central do conjunto, isto , no ponto (x, y).
68
CAPTULO 3. CORRELAO
Dia
Variao percentual
Bovespa
BVRJ
4,9935
6,9773
5,5899
6,1085
3,8520
2,4847
0,9984
-0,1044
2,4872
2,4942
0,0142
0,1239
-1,7535
-0,4221
8,1764
9,5148
0,6956
-1,7350
1,6164
2,2749
7,5829
15,4173
-4,6706
-6,2360
0,6629
2,6259
1,1651
0,8728
3,2213
4,8243
-2,7226
-4,7266
1,2508
-0,4985
7,1845
6,6798
2,5674
1,2299
-1,3235
-3,0375
1,6685
1,2303
1
2
3
4
7
8
9
11
14
15
16
17
18
21
22
23
24
25
28
29
30
Latitude
34
32
39
39
41
45
41
33
34
47
44
39
41
32
40
Tabela
3.2
temperatura
Latitude
Linha da
vida(cm)
9,75
8,85
9,75
9,60
6,45
9,15
11,25
10,20
9,15
11,25
8,85
8,85
7,95
9,75
7,80
8,10
13,20
10,50
8,55
7,95
9,45
7,95
9,75
9,45
8,25
Idade
(anos)
65
40
74
66
42
75
66
49
76
68
54
80
68
56
82
69
57
83
71
61
88
71
62
94
73
Linha da
vida(cm)
8,85
9,00
9,60
8,85
9,75
9,76
10,20
9,45
6,00
7,95
9,00
9,00
9,00
12,00
10,65
10,05
10,20
7,95
9,15
7,20
9,15
9,45
8,85
9,00
8,10
69
3.2
Covarincia e correlao
Ao analisar os grficos anteriores, voc poder notar que as relaes entre as variveis
envolvidas mudam; na Figura 3.1, existe uma tendncia crescente entre as variveis, isto ,
quando o ndice da Bovespa aumenta, o ndice da BVRJ tambm tende a aumentar. Na Figura
3.2, essa relao se inverte, ou seja, aumentando a latitude, a temperatura tende a diminuir.
J na Figura 3.3, no possvel estabelecer nenhuma relao entre as variveis, contrariando
a superstio de que linhas da vida longas indicam maior longevidade.
3.2.1
Covarincia
Vamos estudar, agora, uma medida de associao entre variveis, que est relacionada
ao tipo mais simples de associao: a linear. Ento, tal medida ir representar o quanto a
nuvem de pontos em um diagrama de disperso se aproxima de uma reta.
70
CAPTULO 3. CORRELAO
Para diferenciar as trs situaes ilustradas nos grficos anteriores, uma primeira
observao o fato de as trs nuvens de pontos estarem centradas em pontos diferentes,
representados pela interseo dos eixos em linha pontilhada; note que este o ponto (x, y).
Para facilitar comparaes, interessante uniformizar a origem, colocando as trs nuvens
centradas na origem (0, 0). Lembrando as propriedades da mdia aritmtica, voc deve saber
que a transformao xi x resulta em um conjunto de dados com mdia zero. Ento, para
quantificar as diferenas entre os grficos anteriores, a primeira coisa a fazer centralizar a
nuvem. Assim, em vez de trabalharmos com os dados originais (xi , yi ), vamos trabalhar com os
dados transformados (xi x, yi y). Nas Figuras 3.4 a 3.6 esto representados os diagramas
de disperso para estas variveis transformadas, mantendo-se a mesma escala anterior.
Analisando esses trs ltimos grficos, voc pode observar que, para o primeiro conjunto
de dados, onde a tendncia entre as variveis crescente, a maioria dos pontos est no
primeiro e terceiro quadrantes, enquanto no segundo grfico, onde a relao decrescente,
a maioria dos pontos est no segundo e quarto quadrantes.
O primeiro e terceiro quadrantes se caracterizam pelo fato de as abscissas e ordenadas
terem o mesmo sinal e, portanto, seu produto positivo; j no segundo e quarto quadrantes,
as abscissas e ordenadas tm sinais opostos e, portanto, seu produto negativo. Ento, para
diferenciar esses grficos, podemos usar uma medida baseada no produto das coordenadas
xi x e yi y. Como no caso da varincia ou desvio mdio absoluto, para considerar todos
os pares possveis e descontar o nmero de observaes, vamos tomar o valor mdio desses
produtos.
71
DEFINIO Covarincia
A covarincia entre as variveis X e Y definida por
n
1X
Cov(X , Y ) =
(xi x)(yi y)
n
(3.1)
i=1
Na Figura 3.6, os pontos esto espalhados nos quatro quadrantes, assim, essa mdia
tende a ser prxima de zero.
De maneira anloga desenvolvida para a varincia, a frmula anterior no
conveniente para fazer clculos em mquinas de calcular mais simples. Assim, vamos
desenvolver uma expresso alternativa. Note que:
n
X
(xi x)(yi y) =
i=1
n
X
i=1
n
X
=
i=1
n
X
=
i=1
n
X
(xi yi xi y yi x + x y) =
xi yi y
n
X
i=1
xi x
n
X
i=1
yi +
n
X
xy=
i=1
xi yi ynx xny + nx y =
xi yi nx y
i=1
Logo,
1
Cov(X , Y ) =
n
n
X
i=1
!
xi yi nx y
1X
=
xi yi x y
n
(3.2)
i=1
Analisando a frmula (3.2) podemos ver que a covarincia a mdia dos produtos menos o
produto das mdias. Resulta tambm que a covarincia entre X e X a varincia de X , isto
: Cov(X , X ) = Var(X ).
bastante importante salientar a interpretao da covarincia: ela mede o grau de
associao linear entre variveis. Considere os dados apresentados na Tabela 3.4, cujo
diagrama de disperso dado na Figura 3.7. Este diagrama exibe uma associao quadrtica
perfeita entre as variveis; no entanto, a covarincia entre elas nula. Note que x = 0, assim
n
P
como
xi yi = 0.
i=1
72
CAPTULO 3. CORRELAO
X
-3
-2,8
-2,6
-2,4
-2,2
-2,0
-1,8
-1,6
-1,4
-1,2
-1,0
-0,8
-0,6
-0,4
-0,2
0,0
Y
9,00
7,84
6,76
5,76
4,84
4,00
3,24
2,56
1,96
1,44
1,00
0,64
0,36
0,16
0,04
0,00
X
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
1,8
2,0
2,2
2,4
2,6
2,8
3
Y
0,04
0,16
0,36
0,64
1,00
1,44
1,96
2,56
3,24
4,00
4,84
5,76
6,76
7,84
9,00
3.2.2
Coeficiente de correlao
Um dos problemas da covarincia a sua dependncia da escala dos dados, o que faz
com que seus valores possam variar de a +. Observe que sua unidade de medida
dada pelo produto das unidades de medida das variveis X e Y envolvidas. Isso torna
difcil a comparao de situaes como as ilustradas nos grficos das Figuras 3.8 e 3.9. Esses
dois diagramas de disperso representam os dados sobre latitude e temperatura j analisados
anteriormente. Na Figura 3.8, as temperaturas esto medidas em graus Fahrenheit e na Figura
3.9, em graus Celsius. Sendo assim, a informao que os dados nos trazem , basicamente, a
mesma. Mas, para o primeiro conjunto, a covarincia 51, 816 e, para o segundo, 28, 7867.
Tal como vimos na definio dos escores padronizados, a maneira de se tirar o efeito
da escala dividir pelo desvio padro, ou seja, trabalhar com as variveis padronizadas XiX
X
e YiY
. Nas Figuras 3.10 a 3.12, apresentam-se os diagramas de disperso para os dados
Y
padronizados sobre as bolsas de valores, latitude e temperatura, linha da vida e idade ao
73
morrer.
padronizados)
padronizados
1X
Corr(X , Y ) = (X , Y ) =
n
i=1
xi x
x
yi y
y
=
Cov(X , Y )
x y
(3.3)
Os dois conjuntos de dados das Figuras 3.8 e 3.9 tm, ambos, o mesmo coeficiente de
correlao, igual a 0, 9229.
74
CAPTULO 3. CORRELAO
3.2.3
Observe que o coeficiente de correlao adimensional. Alm disso, ele tem uma
propriedade bastante interessante, que a seguinte:
1 (X , Y ) 1
(3.4)
Assim, valores do coeficiente de correlao prximos de 1 indicam uma forte associao linear
crescente entre as variveis, enquanto valores prximos de -1 indicam uma forte associao
linear decrescente. J valores prximos de zero indicam fraca associao linear (isso no
significa que no exista algum outro tipo de associao; veja o caso da Figura 3.7).
Vamos ver agora o que acontece com a covarincia e o coeficiente de correlao, quando
somamos uma constante aos dados e/ou multiplicamos os dados por uma constante. Vamos
mostrar que
Cov(aX + b, cY + d) = ac Cov(X , Y )
(3.5)
e
Corr(aX + b, cY + d) =
ac
Corr(X , Y )
|ac|
(3.6)
Cov(aX + b, cY + d) = Cov(U, V ) =
1X
(ui u)(ui u) =
n
i=1
n
1X
(axi + b ax b)(cyi + d cy d) =
n
n
1X
(axi ax)(cyi cy) =
n
i=1
i=1
n
X
ac
n
(xi x)(yi y) =
i=1
= ac Cov(X , Y ).
Para o coeficiente de correlao, temos que
C ov(U, V )
=
u v
ac Cov(X , Y )
ac
=
Corr(X , Y ).
|c| x . |d| y
|ac|
Corr(aX + b, cY + d) = Corr(U, V ) =
=
Logo,
Corr(aX + b, cY + d) =
Corr(X , Y ) se ac > 0
.
Corr(X , Y ) se ac < 0
75
Barcos (X)
447
460
481
498
513
512
526
559
585
614
Mortes (Y)
13
21
24
16
24
20
15
34
33
33
Ano
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
Barcos (X)
645
675
711
719
681
679
678
696
713
732
Mortes (Y)
39
43
50
47
53
38
35
49
42
60
Soluo
Na Figura 3.13, temos o diagrama de disperso, onde se v que, medida que aumenta
o nmero de barcos registrados, h um aumento do nmero de mortes de peixes-bois na
Flrida. A associao entre as variveis tem um forte padro linear crescente.
76
CAPTULO 3. CORRELAO
Na tabela a seguir, temos os detalhes dos clculos a serem feitos, no caso de se estar
utilizando uma calculadora mais simples.
X
447
460
481
498
513
512
526
559
585
614
645
675
711
719
681
679
678
696
713
732
12124
Soma
Y
13
21
24
16
24
20
15
34
33
33
39
43
50
47
53
38
35
49
42
60
689
X2
199809
211600
231361
248004
263169
262144
276676
312481
342225
376996
416025
455625
505521
516961
463761
461041
459684
484416
508369
535824
7531692
Y2
169
441
576
256
576
400
225
1156
1089
1089
1521
1849
2500
2209
2809
1444
1225
2401
1764
3600
27299
XY
5811
9660
11544
7968
12312
10240
7890
19006
19305
20262
25155
29025
35550
33793
36093
25802
23730
34104
29946
43920
441116
= 1172, 21
20
20
20
20
2
12124
20
27299
Var(Y ) =
20
= 9106, 16
2
689
20
= 178, 1475
1172, 21
O coeficiente de correlao : Corr(X , Y ) =
= 0, 920339
9106, 16 178, 1475
Esta alta correlao positiva confirma a forte relao linear crescente entre as variveis,
j vislumbrada no diagrama de disperso.